如题,最近研究了很多提取客户端聊天记录的方案,但是要么是 Hook 要么是 wechaty 这种,总是担心因为特征等原因导致封号,所以想尝试一下纯使用计算机视觉的方案去提取聊天记录
发现效果还行
原理就是先取得边框再切割记录
最后使用 OCR 提取信息就行了,不知道为啥市面上很少看到这种方案,除了慢还有其他原因嘛?
1
brightrystal OP 简单修改了下参数,其他的软件适配也很简单,相比各个软件去 hook 似乎这种方案也更通用吧
![1710825615951.png]( https://img2.imgtp.com/2024/03/19/ac4NA8Tw.png) |
2
ztbz123 285 天前
大佬,这个有具体技术实现或代码分享吗,近期也在研究 工作群聊天记录 保存和总结 ,想借鉴一下。
|
3
malusama 285 天前
你能拿到设备直接解密本地的数据库啊。。。那么复杂干嘛
|
4
brightrystal OP @malusama uia 吗?还是?一般这些客户端好像没有接口暴露出来吧
|
5
brightrystal OP @ztbz123 过段时间吧,里面耦合了太多业务代码了,我用的是 opencv
|
6
ztbz123 285 天前
@alsritter1 ok 已关注,问问,对于聊天记录刷屏翻页的要怎么处理,滚动吗?还有基于 opencv 的,一次只能监控一个群(打开界面),如果是多个群消息需要采集和分析,是不是就要开多台机器和窗口运行 cv 代码?
|
7
brightrystal OP @ztbz123 滚动这块没啥好办法,我是滚动截图,最后再合成的方案,目前这个方案主要是 OCR 的速度有点慢,我用的是 RapidOCR ,满屏消息需要 7 秒左右,不知道有没有更快的开源 OCR 工具
|
8
phx1 285 天前
能拿到原始数据为啥要搞计算机视觉?
|
9
csulyb 285 天前
这不是侵犯隐私吗 这么多人在干这种事?
|
10
brightrystal OP @phx1 怎么拿?
|
11
gdfsjunjun 285 天前
我记得不是有可以提取本地数据库,然后备份聊天记录吗?上个月看到的,不记得在哪看到的。反正关键词就是备份。
|
12
brightrystal OP @gdfsjunjun 不是备份记录的需求,是自动化客服的场景,主要是想要快速对接多平台,一个个去写太累了
|
13
malusama 285 天前
https://www.forensicfocus.com/articles/decrypt-wechat-enmicromsgdb-database/
wechat 是可以解密本地数据库的, 就是设备得 root |
14
malusama 285 天前
企业微信也有 api 直接获取消息的啊?
|
15
brightrystal OP @malusama 企业微信的 api 我知道,但是得收费,我的目标群体大部分都是个体户,让人家掏这个钱不太现实
|
16
phx1 285 天前
|