求安利好用的 Python 爬虫框架 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 282 天前的主题，其中的信息可能已经有所发展或是发生改变。

舍弃了 Selenium ，目前用的是 playwright ，大家都在用什么？

11 条回复 • 2024-12-03 21:31:08 +08:00

1

spritecn

282 天前

requests + PyQuery,无头浏览器的话都差不多

2

onll42y

282 天前

requests + parsel

3

zeusho871

282 天前

推荐用 requests 的，肯定不好使，那玩意儿不支持异步，用 httpx 可以 100%兼容，然后不能 tls 指纹，有的网站会检测 tls 指纹，找那种带 tls 指纹的请求库，比如 curl_cffi 啥的。如果不是协议爬虫，用浏览器爬的话，推荐 drissonpage 。用 selenium/playwright 有几个参数会被检测到，虽然也能做到，但是需要额外的代码。

4

4BVL25L90W260T9U

282 天前

2

不要滥用「框架」这个词。使用框架的时候，主循环在框架里，你只需要写回调或者 handler ，使用库的时候，主循环在你自己代码里，显然 playwright 是一个库。

5

WhateverYouLike

282 天前 via iPhone

偏题。node 的 crawlee 好用，算是框架。

6

dule

282 天前

你说的这两只能说是工具库，自动化浏览器跟爬虫框架根本搭不上边，python 知名的基本就这两个：scrapy 、pyspider

7

HMYang33

282 天前

https://feapder.com/
一个函数下发任务，一个函数处理结果。自动多线程

8

iorilu

282 天前

现在有啥自动生成提取规则的库吗

我上次也想过用 ai 帮忙写点规则, 要能自动化就好了

9

tuoov

282 天前

@iorilu 我也很好奇，但按这块的逻辑来说挺难有一个通用方案的。每个网站的数据来源都不太一样

10

iorilu

282 天前

@tuoov 从编程角度是没得

我意思是让 ai 从获得得 html, 反推出应该用啥规则, 临时写一个

11

python30

281 天前

scrapy 啊。一直在用 scrapy.超好用

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · 实用小工具 · 3427 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 33ms · UTC 04:47 · PVG 12:47 · LAX 21:47 · JFK 00:47
Developed with CodeLauncher
♥ Do have faith in what you're doing.