之前收集过互联网上博客的网址:1309 个独立博客 😛 受开往与奋韩的启发。决定将废弃域名启用,讷鱼。🐟
网址为: https://neyu.com/
1 、私人使用,随机跳转到某一博客,发现一片蓝海🌊。
2 、与开往不同,讷鱼主动采集全网博客,重视手机体验,使用 Python 爬虫,根据变量因子,links 等,分析源码,找到博客网址添加到讷鱼库或失效博客时刻上报。
重点:初衷是放到手机桌面,偶尔游一下,发现一下好玩的博客(所以美化了图标等信息)。一定要放手机桌面哈。(如下图)
网址如何放在手机桌面奋韩博客有教程: https://www.fenhan.net/134.html
📌由于讷鱼 2000 毫秒转跳,所以添加到手机屏幕的时候,手速要快.
🌞🙌
1
Whsiqi 2020-05-01 15:22:37 +08:00 via Android
兰州养生网?
|
6
mgrddsj 2020-05-01 18:40:13 +08:00 via Android
楼上大概是在吐槽这爬取博客的方法像兰州养生网这样的垃圾采集站吧,并不是建议收录到你的库里去。
|
7
mlboy 2020-05-01 20:16:45 +08:00 via iPhone
求收录 http://1thx.com
|
8
learningman 2020-05-01 20:21:31 +08:00 via Android
怎么判断一个网站是博客?这可不是个容易活,想不到人工以外的方法。
|
9
jizhou OP @learningman 这个其实蛮简单,博客有共性,比如 links 友情链接里面基本是博客。其次程序版本,其次就是内容,甚至文章页面规则。
当日,具体规则还在优化。还需要完善。 |
11
raymanr 2020-05-01 22:46:00 +08:00
@learningman
决策树或者朴素贝叶斯?判断错了删了就是了 |
12
janda 2020-05-01 23:29:03 +08:00
这网站是做什么的?就是随机打开一个网址?
|
13
yujiang 2020-05-02 00:30:08 +08:00 via Android
玩了一会,发现有概率跳转到菠菜网站。。。收录是人工审核的吗?
|
14
Macguffin 2020-05-02 01:50:37 +08:00 via Android
似乎会跳转到一些小说网,音乐网之类的,是因为页面布局和博客很像吗?建议加个关键词筛选
|
15
yafoo 2020-05-02 08:17:35 +08:00 via Android
建议使用 location.href 来跳转,这样跳转后还能返回回来
|
16
laycher 2020-05-02 11:00:34 +08:00
很有意思!!
|
17
i0error 2020-05-02 13:08:36 +08:00
哦哦我猜到可能是怎么爬的了,评论博文时一般都会填评论者自己的博客地址。楼上说有 bc 网站,应该是灌水评论故意写的。
|
18
learningman 2020-05-02 14:11:51 +08:00
@raymanr 你也不知道你判断错了啊。。。判断判断错了还不是要人工
|
19
learningman 2020-05-02 14:17:27 +08:00
不过这个真的挺好玩的,每次跳转感觉都是打开了另外一个人的人生
|
20
learningman 2020-05-02 14:38:00 +08:00
刷到这么个玩意儿。。。https://www.pan199.cn/ 这种我觉得挺勉强吧
|
22
jizhou OP 创造者日报首页推荐了,^_^
|
23
mlboy 2020-05-07 19:56:38 +08:00
谢谢,希望增加个 api 可以手动增加.
|