V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
SGL
V2EX  ›  问与答

需求:如何用 llm 大规模翻译英文文档

  •  
  •   SGL · 2 天前 · 714 次点击
    譬如说 java,go 或者更新兴的工具的官方网页文档。
    现在 llm 应用里面有没有好的方法可以便捷的快速的将这些文档整理翻译成中文对照的版本。

    我能想到的方式就是我写过 python 脚本去爬官网文档下来,然后把文档分块,一块一块的拿去调用 llm 的 api 然后收集返回的结果,在一块一块的拼接好做成新的页面。

    那么目前搞得这么火热的 llm 应用里面有没有现成的一键式方案可以实现这个需求。
    3 条回复    2025-03-21 21:22:43 +08:00
    serverKnignt
        1
    serverKnignt  
       2 天前
    Xheldon
        2
    Xheldon  
       2 天前
    这种只能一个网站一个网站的适配,或者一种类型一种类型的网站适配。

    我目前实现了一种 AI 自动翻译文档的方式,Corn 任务定时运行或者 PR 触发,但是有一些局限:

    1. 构建后必须是静态网站,我尝试翻译 GoLang 发现它的网站是用 Go 做后端运行的,虽然最终都是 HTML ,但还是有一定难度。
    2. Markdown 支持的最好,其他的静态引擎比如 Jekyll 构建的 HTML 可能有点问题,因为标签不是标准的。
    3. 必须每个网站适配,因为每个网站/文档,他们的页面 HTML 内容选择器不同,所以不太好找到一种方式,也许可以参考简悦的「网站主要内容判定」逻辑,但是 HTML 选择器还是有问题。

    具体可以看我的这两个仓库: https://github.com/Xheldon/prosemirror-cn-website Prosemirror 中文,之前人工翻译过,后来 PM 换 TS 后变动巨大,就没翻译了,去年我才用 AI + 人工的方式又翻译一遍,并且自动更新,这个自动化过程运行半年了,很稳定。

    和 Rust 的官方学习网站(不是 API ): https://github.com/Xheldon/rust-book-cn

    我现在在 AI 翻译苹果的文档,但是我爬了下,苹果大约有 24 万个文件,目前我只实现了 Swift 和 SwiftUI 的中文、繁体中文、日文、韩语的翻译,约 1.7w 个文件,实现方式是一个浏览器插件,后面上线了可以发出来,我个人觉得还是有一点用的。
    SGL
        3
    SGL  
    OP
       2 天前
    @Xheldon 可以的哥,感谢。我也是对文档的自由翻译有点兴趣,感谢分享。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5303 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 07:52 · PVG 15:52 · LAX 00:52 · JFK 03:52
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.