朋友公司业务上遇到瓶颈,原有的数据爬取不是很精准,爬到数据很多重复内容。 想找个有这方面经验的人帮忙解决问题。
有兴趣的老哥可以加绿色软件:TXNwb3dlcndhbmc=
1
jstony 2023-03-13 10:11:07 +08:00
肯定刑
|
2
sherlockwhite 2023-03-13 10:11:18 +08:00
肯定刑
|
3
mastcer 2023-03-13 10:15:46 +08:00
必须刑
|
4
xixibb 2023-03-13 10:18:56 +08:00
楼上几位说刑的是啥意思?不让爬数据吗 ?
|
5
yaoliyc 2023-03-13 10:20:35 +08:00
爬虫写的好
|
6
colinzhao 2023-03-13 10:30:03 +08:00
牢房蹲到老
|
8
herozzm 2023-03-13 10:50:10 +08:00
刑的话 今日 x 条是不是牢底坐穿了
|
10
fiypig 2023-03-13 10:52:36 +08:00
重复内容就加个中间件做筛选不就可以啊
|
11
ShadowFiendYan OP 这个东西感觉没有清晰边界, 欲加之罪何患无辞。就跟快播一样。 各位老哥自己斟酌哈。 话说如果真追究,是开发人员担责,还是公司法人担责呢。
|
12
ShadowFiendYan OP @fiypig 公司技术不行,他们公司是在小城市。 技术上解决不了重复数据问题了, 哈哈
|
13
herozzm 2023-03-13 10:59:10 +08:00
@aeli gov 现在都强调资源数据共享,先搞清楚爬的什么吧,万一 op 公司就是有背景,而且是爬的公开合法数据呢,以来就 “刑”也是太绝对了
|
14
herozzm 2023-03-13 11:00:01 +08:00
@ShadowFiendYan 爬过的加入 redis 记录,做一下数据清洗和筛选,入库的时候针对几个关键点做一下比对基本就行了
|
15
abcbuzhiming 2023-03-13 11:07:49 +08:00
@herozzm 今日头条是多大的背景?你有多大背景?人家被抓住了有整个律师团队可以搞庭外和解,你的背景做得到吗?
|
16
abcbuzhiming 2023-03-13 11:11:44 +08:00
@ShadowFiendYan 你的法律知识应该更新,法律边界非常清晰:
爬一切没有得到 [授权] 的数据都是非法的!!! 爬一切没有得到 [授权] 的数据都是非法的!!! 爬一切没有得到 [授权] 的数据都是非法的!!! 明白吗?都是非法,授权给你的数据还需要你去爬吗?你直接找数据持有方拿硬盘拷不方便吗?还是说你是和百度一样专业做搜索引擎的?能严格执行爬虫 bot 协议? 另外法律早就定的很清楚,法人逃不掉,做开发的程序员一样要完蛋。就看对面搞不搞你,一旦搞你,证据到位的情况下一搞一个准 |
17
abcbuzhiming 2023-03-13 11:17:21 +08:00
@ShadowFiendYan 大量出现重复数据其实就是已经被发现定位了,人家的技术团队针对性的在吐伪装数据给你,识相点要么自己收手,你继续对抗下去,对面肯定会准备线下搞你的。
爬虫和反爬在现在国内环境下已经是政治问题,不要以为用技术能解决政治问题,这是很多技术人员的错觉。 |
18
sadfQED2 2023-03-13 11:19:48 +08:00 via Android
提供一个参考,蛋壳以前爬自如的数据,自如发现以后报警。产品经理跟研发都进去了,按时间算最近应该快出来了。
|
19
abcbuzhiming 2023-03-13 11:24:48 +08:00 5
@herozzm 你的法律知识应该更新:
公开数据,不等于授权数据。明白吗?人家数据是公开的,但是人家那是在特定条件下的公开,比如,web 访问,app 访问,不代表允许你拿爬虫去爬。更进一步,搞清楚 [授权] 的概念,那些搞爬虫的公司,把别人的数据拿回来干嘛的?自己心里没点数吗?只是看看而已?不见得吧,爬虫最危险的问题,就在于你拿了别人的数据,做了什么,这几乎是所有被判刑的爬虫人员最后无法抵赖的,人家没授权你用它的数据干这个,你干了,等死,尤其这一点是很多干爬虫的程序员完全控制不了的——他们往往就傻乎乎的帮人把数据采集了,人家转头把数据干了非法的用途,程序员是要背锅的。为啥前面那么多说 [肯定刑] 的,这 tm 都是血的教训,程序员傻乎乎的写代码,结果出事了立刻就被卖了。 最后, [gov 现在都强调资源数据共享] 人家强调的是政务部门之间的数据共享,人家可不是允许你拿爬虫去爬人家的数据。 |
20
abcbuzhiming 2023-03-13 11:28:11 +08:00
最后,和楼主说一句,现在这个大环境还敢搞爬虫的,而且搞的技术还不错的,基本要么就是大公司的核心团队有法务保护的那种,要么就是黑产的,无论是哪一种,都不是楼主你随便在公开论坛能花点小钱请到的。普通的程序员现在还敢玩爬虫的,基本就是刚出来混没经验也没人教的愣头青。
|
21
lookStupiToForce 2023-03-13 11:33:08 +08:00 1
具体刑不刑,推荐胆大的都可以以身试法逝逝
github[.]com/HiddenStrawberry/Crawler_Illegal_Cases_In_China www[.]guantao[.]com/sv_view[.]aspx?TypeId=218&Id=1655&Fid=t8:218:8 |
22
westoy 2023-03-13 11:33:14 +08:00
|
23
luckbbs 2023-03-13 16:04:15 +08:00
重复数据的是被故意掺沙子了。可刑
|
24
ShadowFiendYan OP @luckbbs 那到不是,是因为这条信息在多个网站上都有。
|
25
wzw 2023-03-13 19:51:50 +08:00 via iPhone
那些垃圾站,采集的,会有问题?目前好多吧! 另外,采集英文 sf/amazon 太多了吧
|
27
mashihua 2023-03-14 16:37:04 +08:00
是 URL 没有去重吧
|