V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  malone6  ›  全部回复第 1 页 / 共 1 页
回复总数  12
现在 twitter 的数据太难搞了呀,爬虫能抓的数据量太小了
miniconda
内存上一个 16g ddr4 3200,后续需要再扩。
固态盘先买一个 256 用着吧,不够的时候再加,没必要提前买。
电源贵了啊。
靠,这个显示器居然涨到 1400 了
2020-05-25 09:36:12 +08:00
回复了 zli 创建的主题 分享发现 关闭支付宝首页的淘宝广告
@Jerami 切地区的地方有两个 tab,在境外那一栏搜就行了
2020-05-23 12:53:25 +08:00
回复了 zli 创建的主题 分享发现 关闭支付宝首页的淘宝广告
地区切换为朝鲜平壤就没广告了
你这 for 解包命名不规范自己搞蒙了😰
2020-05-16 18:58:18 +08:00
回复了 Flowing 创建的主题 Python 安装 Python3 真难
miniconda,用了之后你会爱上的
2020-05-15 08:49:27 +08:00
回复了 liu826250634 创建的主题 Python pythonweb 开发面试
+1,我们做 python web 就没考虑过并发。用 python 做 web 的公司基为了快速出 MVP 的较多,很少考虑并发。
可以自己做个项目,用压测工具来模拟高并发然后优化,但是有局限性。
2020-05-11 23:17:06 +08:00
回复了 crella 创建的主题 Python 为什么爬虫大佬多用 re 而少用 soup、xml 来提取元素?
我之前写爬虫经历
1. 最开始是 re,后来发现 re 写着比较累,过段时间回去看就看不懂这段正则,也容易写错。
2. 后来用 beautifulsoup,比较语义化,简单,但是代码会写的比较长。
3. bs 之后对 html 理解变熟练了,就都是用 lxml+xpath 取,包括用 scrapy 的解析器也选择 lxml,当然也会掺和一点简单正则。
2020-04-20 23:14:18 +08:00
回复了 hsluoyz 创建的主题 酷工作 [实习] [微软亚洲研究院] 基于机器学习的爬虫检测实习生
这是给崔庆才招助手吗,哈哈哈
不容易,维护这个挺耗费时间的
互联网上 2000 年以前几乎没新闻,新闻电子化也就这十多年的事情,所以早期的数据就非常难以整理了。过滤也是较难的,需要将以往资料电子化标识化。那要好大的人工啊
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1713 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 24ms · UTC 16:57 · PVG 00:57 · LAX 08:57 · JFK 11:57
Developed with CodeLauncher
♥ Do have faith in what you're doing.