V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
whats
V2EX  ›  程序员

保留原文格式的翻译平台实现原理?

  •  1
     
  •   whats · 12 天前 · 1038 次点击
    互联网存在大量文件翻译网站,支持 pdf 、word 、excel 、html 、markdown 等文件的在线翻译,且都能较好的保留原文的格式。
    因我是 java 技术栈,想实现类似的功能,通过 pdfbox 、poi 等工具,提取内容,翻译完以后再写入文件,翻译本身没问题,但是格式容易丢或者乱。
    有人了解一般这种保留格式翻译的实现原理吗?
    6 条回复    2024-07-11 08:34:56 +08:00
    ty10086
        1
    ty10086  
       12 天前
    这个是个专业的活儿。
    不仅涉及提取、还涉及一个“对齐”,才能解决“格式容易丢或者乱”。

    我这边有用小软件可以用。但是如果你要自己实现,可以参考 trados 相关原理,它处理得很好。
    Pteromyini
        2
    Pteromyini  
       12 天前
    这是个很专业的活计,有兴趣可以了解下这个 demo
    https://huggingface.co/spaces/Nymbo/PaddleOCR
    ns09005264
        3
    ns09005264  
       12 天前
    我写过几个类似的输出功能,基本的原理的就是从原文中提取有效的片段,记录该片段的 seek 与 size ,组成中间数据格式来方便处理,比如翻译。
    处理好之后开始输出,依次遍历中间数据格式,根据之前输入时记录的 seek 与 size ,将原文与修改好的片段进行结合。
    https://github.com/MapoMagpie/rimedm/blob/3533a0836b9a27b79b52d4d72591e1f2e71d0944/dict/output.go#L79
    koto
        4
    koto  
       12 天前
    CAT 干的活吧,有个开源的 CAT 软件叫啥来着。。。说不定可以参考一下
    koto
        5
    koto  
       12 天前
    OmegaT ?
    whats
        6
    whats  
    OP
       12 天前
    @Pteromyini 这种 AI-CV 的方式对复杂格式文档的解析似乎不错,我们尝试下
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3791 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 05:27 · PVG 13:27 · LAX 22:27 · JFK 01:27
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.