付费做一个新闻爬虫 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 2912 天前的主题，其中的信息可能已经有所发展或是发生改变。

具体要求:

1. 使用 python3
2. 通过关键词抓取新闻，抓取全文
3. 抓取 wexin 公众号全文
4. 直接写入 Mysql 数据库，数据库 wp 可以直接读取
5. 数据抓取不能有重复（不能和以前数据重复）

前 1，2，3 已经完成了，主要完成后面 4，5 和重构一下前面的一堆代码。

有意请发报价周期到 [email protected]

谢谢

第 1 条附言 · 2017-09-13 09:40:27 +08:00

已经找到小伙伴，谢谢支持：）

[email protected]

7 条回复 • 2017-09-16 12:42:42 +08:00

1

brucebot

OP

2017-09-12 16:14:53 +08:00

也可以 twitter 上 @brucebot

2

a7063888

2017-09-12 16:35:54 +08:00

scrapy 走起

3

ila

2017-09-12 21:01:15 +08:00 via iPhone

@a7063888 除了 scrapy 还有哪些类似框架啊

4

poorguy

2017-09-13 00:16:37 +08:00

@ila beautifulsoup

5

shawlib

2017-09-13 09:26:55 +08:00

楼上说的 scrapy 跟 beautifulsoup 都不是一个东西，scrapy 是爬虫框架，beautifulsoup 是 html 解析库，(黑人问号???

6

ila

2017-09-13 12:22:07 +08:00 via Android

@shawlib 现在用着 scrapy，想找个后备的

7

RaymondLiu

2017-09-16 12:42:42 +08:00 via iPhone

@ila pyspider 可视化可分布式爬虫框架

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · 实用小工具 · 1140 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 33ms · UTC 18:12 · PVG 02:12 · LAX 11:12 · JFK 14:12
Developed with CodeLauncher
♥ Do have faith in what you're doing.