关于百度爬虫的问题，有些问题必须要提出来了 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 2802 天前的主题，其中的信息可能已经有所发展或是发生改变。

问题：关于百度转码为百度网站的内容显示的问题如下图：

alt hello

原网站如下图：

alt hello

请问：

1. 百度每天抓数十万的网站，他们的正文提取，标题提取，发表时间统一格式化，文章出处等，都是专人去写 xpath, re, css selector, bs 吗?
2. 还有个问题，数十万的网站，他们的文章翻页有上千种，他们怎么去做到的翻页问题，难道也是专人去写 xpath, re, css selector, bs 吗？
3. 很多网站做了图片、视频防盗链，但是百度将原网站所有的图片、视频等全包同步到了自己的存储器里面，请问，对于防盗链的网站的资源，他们也是专人去做处理吗？
4. 本人是个爬虫新手，遇到的问题就是上面的问题，其实这几个问题也是通用爬虫的问题，求各位给点意见和建议。
5. 不胜感激涕零。

6 条回复 • 2017-08-02 14:15:16 +08:00

1

xray888

2017-08-01 17:53:26 +08:00

有人给解答一下吗

2

gamexg

2017-08-01 18:12:18 +08:00

1

/t/309948

1.2.
都是可以机器识别的。

3.爬虫的 referer 一般是空或者是网站 url，都不会碰到防盗链问题。

3

gamexg

2017-08-01 18:26:53 +08:00

对了，关于 1.2. 记得有开源实现，google 网页正文识别。

4

huangfs

2017-08-01 23:56:26 +08:00

会有抓取模版匹配的。

5

yeless

2017-08-02 13:10:32 +08:00

正文抽取算法：
1.基于文本长度的算法，计算字符集密度
2.K-means，聚类中心点取值算法
3.标签模板

6

xray888

2017-08-02 14:15:16 +08:00

@yeless
@gamexg
@gamexg
@huangfs
谢谢回答。

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 885 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 24ms · UTC 20:31 · PVG 04:31 · LAX 13:31 · JFK 16:31
Developed with CodeLauncher
♥ Do have faith in what you're doing.