python 爬一个 ajax 网站，用 selenium 来登录后，那么如何获取指定 url 的数据？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2926 天前的主题，其中的信息可能已经有所发展或是发生改变。

这个网站的登录功能设置的变态，算法复杂没有办法直接用 requests 登录

所以只能用 selenium 登录

但是登录后，如何获取指定 url 比如 /getUserinfo 的数据呢？这个链接，直接访问会返回错误而登录后，进入页面 /index 的时候，/index 页面会自动去 ajax 请求 /getUserinfo 并会返回正确的数据如何在 /index 页面自动请求 /getUserinfo 的时候，获取到他返回的内容呢？

另外这个网站，有强烈的声明，发现任何爬虫痕迹就会封号，如何最大程度的看起来像个人在访问呢?

我要抓取的数据量很小，每天就不到 100 个请求，可能 50 个左右，这个请求量应该是正常的

如果我把 selenium 登录后的 cookies 分享给 requests ，会被对方发现是机器人吗？因为 requests 的 header 可能和 selenium 不一样，会被对方发现，或者 selenium 自身有没有类似 requests 这样，可以自定义请求网页的接口？

Selenium

Requests

请求

8 条回复 • 2016-11-02 08:27:12 +08:00