V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
whereabouts
V2EX  ›  程序员

英文+数字图片验证码识别的项目 有熟悉的朋友接一下吗

  •  
  •   whereabouts · 2018-10-15 17:36:59 +08:00 · 4113 次点击
    这是一个创建于 2222 天前的主题,其中的信息可能已经有所发展或是发生改变。
    验证码细节:
    1.验证码是 26 个字母大小写+10 个数字,4 位。
    2.图片噪音有点、线,验证码字母位置不固定
    3.原图片清晰度比较低,为 60x25 像素的 gif 格式

    需求:
    1.图片识别引擎语言不限,可以使用开源项目,但不能调用按识别次数收费的第三方 API 接口(如付费的第三方 OCR 接口)。最后我们的程序能按照 Python/Nodejs 调用引擎返回识别结果就可以。
    2.正确识别率大于 80~90%
    3.识别速度对我们比较重要,最好在 0.1 秒之内。

    有熟悉这块的朋友可以联系微信 MTcwOTA1NzgxNjI=(Base64),可以说一下报价,预计识别时间和识别准确率,以前做验证码识别这块的经验。Thanks

    样例验证码图片
    https://i.loli.net/2018/10/15/5bc45ba7726ca.png

    1000 个原始验证码图片打包
    https://pan.baidu.com/s/1ZonPTtDL4jL00ysNyCt84g 密码 i9eh
    14 条回复    2018-10-16 19:58:44 +08:00
    galenzhao
        1
    galenzhao  
       2018-10-15 17:59:53 +08:00
    xia0pia0
        2
    xia0pia0  
       2018-10-15 18:12:22 +08:00
    拿 CNN 来训练很简单,而且准确率可以达到 99%,工作量很小,问题是需要足够量的训练样本。
    kslr
        3
    kslr  
       2018-10-15 18:19:50 +08:00
    百度下不来,找一个公开的
    realkenshinji
        4
    realkenshinji  
       2018-10-15 20:35:14 +08:00 via iPhone
    关注
    akira
        5
    akira  
       2018-10-15 21:26:33 +08:00
    看了一眼,只有单纯的位移和干扰线,不算太难的
    IssacTomatoTan
        6
    IssacTomatoTan  
       2018-10-15 22:59:00 +08:00 via Android
    以前有一个工作叫打码 打一个三分 一千个三十
    raycool
        7
    raycool  
       2018-10-15 23:40:34 +08:00
    关键是你们的心理价位是多少
    uorz
        8
    uorz  
       2018-10-16 02:31:40 +08:00 via Android
    这个看起来不难,但是要想做好还是得调校算法的,还得智力构建训练集。刚好前两天给公司写了个类似的验证码识别的算法,有兴趣可以邮件我 Y2FwdGNoYUB1b3J6Lm1lCg==
    Sweden
        9
    Sweden  
       2018-10-16 03:00:24 +08:00
    这个感觉就是课程作业的难度
    想知道一下大概多少钱呀?
    Marsss
        10
    Marsss  
       2018-10-16 09:30:37 +08:00
    做过的应该都知道难点在训练集的标注,要到这个识别率,训练集估计得 10 万了,如果哪位接了,需要标注的倒是可以找我,刚好家里有俩闲着的苦力,哈哈。如果楼主找不到人,也可以找我试试。微信 cm9ja3JvYWQxOTgy==
    liberize
        11
    liberize  
       2018-10-16 10:51:25 +08:00
    这个都不需要深度学习吧,每个字符颜色都不一样,分割一下 tesseract 走起
    jason94
        12
    jason94  
       2018-10-16 13:08:59 +08:00
    这个背景和字符对比明显,还好搞
    as9t
        13
    as9t  
       2018-10-16 18:18:06 +08:00
    CNN 训练 2W 样本 识别率达 95+ 时间 40 毫秒左右
    Pythondr
        14
    Pythondr  
       2018-10-16 19:58:44 +08:00
    这种验证码好原始了...
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1269 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 18:10 · PVG 02:10 · LAX 10:10 · JFK 13:10
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.