整了个免费的离线 OCR 网站

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

爱意满满的作品展示区。

这是一个创建于 1240 天前的主题，其中的信息可能已经有所发展或是发生改变。

把 Tesseract.js 包装成直接能用的网站了，全程在你的浏览器中识别，不需要上传。

个人主要用来识别测试反馈的截图，抓里面的 TraceID 和接口调用参数，使用体验还不错。

对英文的识别效果还可以，中文的有点菜。

Lazydog OCR

在线体验版： https://ocr.zjyl1994.com/

Github： https://github.com/zjyl1994/lazydogocr

注意：需要你的浏览器支持 WASM ，在线体验版部署在 CF Pages 上，加载训练数据需要 10 多 MB ，可能不会太快。

OCR

识别

浏览器

wasm

20 条回复 • 2023-10-12 14:55:30 +08:00

jeesk

2022 年 9 月 25 日 via Android

10s 都识别不出 😂

zjyl1994

2022 年 9 月 25 日 via iPhone

@jeesk 网络原因？训练数据在 cf pages 上估计没拉下来。超高分辨率的图片也有可能很慢

jeesk

2022 年 9 月 25 日 via Android

@zjyl1994 就是截图。里面有 4 个字

Kiriya

2022 年 9 月 25 日

可以考虑打包成本地应用😁

HugoChao

2022 年 9 月 25 日

用了一下感觉不错

mozila

2022 年 9 月 25 日

先 m

HiCoder

2022 年 9 月 25 日

试了下，不错

zjyl1994

2022 年 9 月 25 日 via iPhone

@Kiriya 仓库拖下来用任何一个 http 服务器提供服务就可以了，打包本地应用我还不会弄，前端苦手

subframe75361

2022 年 9 月 26 日

好东西，可以考虑做个 pwa ？

ShuaiYH

2022 年 9 月 26 日

个人感觉这个库识别率有点低，特别是对于手写的

Aying

2022 年 9 月 26 日

试了一下，不是很妙，中英文都试了。
https://ibb.co/Wn8tfMJ
https://ibb.co/7Gqy3KW

villivateur

2022 年 9 月 26 日

中文识别，为什么每个字之间都会多出一个空格？

vantis

2022 年 9 月 26 日

中文可以试试 paddle 阿里云有一件部署的感觉识别率挺高

我是本地用 python 跑的搭配 Alfred workflow 除了慢都挺好……

vtwoextb

2022 年 9 月 27 日

现在开源的深度学习框架很多都包括 OCR ，这东西比较费资源

marvinemao

2022 年 9 月 27 日

感觉不错

macy

2022 年 9 月 27 日

基于这个库做过一个 pdf 识别的软件，除了慢点，效果还好，可以做精准识别，配置截图，将大图截取指定部分，会快很多，也会准确一些

caomingjun

2022 年 9 月 28 日

如果只开发 Windows 应用，可以试试自带的 OCR： https://learn.microsoft.com/en-us/uwp/api/Windows.Media.Ocr?view=winrt-22621

bianz103

2022 年 10 月 5 日

昨天把 paddleocr 整合到本地软件 verycapture 了，识别速度大概 8 秒左右，建议楼主可以试试

superliy

2023 年 2 月 23 日

@bianz103 手写汉字吗？准确率怎么样

Endocryne

2023 年 10 月 12 日

识别率不是很理想