迫于好奇,
爬下来网页,将固定格式的页面转换为文本?是这个意思不?
1
keepeye 2019-05-22 08:58:35 +08:00
1. 识别大段文本
其他的楼下补充 |
2
TomVista OP 那么 doc.loaded(){ajax 异步} 请求下来的数据能爬到吗?
|
3
Phuasheng 2019-05-22 09:08:51 +08:00
ajax 的直接调用接口不就得了,抓下的内容随便往数据里面存,你可以在 抓的时候过滤,也可以在读、渲染的时候过滤
|
4
Light3 2019-05-22 09:12:02 +08:00
要看页面是啥样的 有的是接口 有的是直接显示的 可能要抓页面 当然有的可能是图片..
|
5
TomVista OP 明白了,谢谢诸位.
|
6
mouren 2019-05-22 09:31:07 +08:00
正文提取我用的是 Arc90 Readability 的算法
章节列表自动提取是自己写的算法 |
7
ismyyym 2019-05-22 09:35:36 +08:00
浏览器某种意义上也是爬虫
|