V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
Rootcat
V2EX  ›  分享创造

[开源]新闻聚合站点,抓取科技圈即将发生的事

  •  
  •   Rootcat · 2018-06-20 20:39:04 +08:00 · 3709 次点击
    这是一个创建于 2344 天前的主题,其中的信息可能已经有所发展或是发生改变。

    代码比较简单。有兴趣的可以在此基础上完善。

    原理:selenium + chromedriver 用 headless 模式定时抓取头条、百度、搜狐、新浪、虎嗅等网站,过滤出带将来时的标题,存入 mongodb。用 Flask 做 web 展示。

    Github 代码

    Demo

    14 条回复    2018-06-27 12:22:47 +08:00
    cosmo
        1
    cosmo  
       2018-06-20 20:52:23 +08:00 via Android
    能分页和设置关键词就更好
    artandlol
        2
    artandlol  
       2018-06-21 08:07:12 +08:00 via iPhone
    有点像 rss 了,还没带链接
    jisibencom
        3
    jisibencom  
       2018-06-21 08:25:53 +08:00
    好像不错的样子。
    TimePPT
        4
    TimePPT  
       2018-06-21 08:51:17 +08:00 via iPhone
    看标题以为能做到新闻预测……
    Rootcat
        5
    Rootcat  
    OP
       2018-06-21 09:05:43 +08:00
    @artandlol 开放 API 接口: http://140.143.226.167:8000/api/v1/news?page=0&limit=20
    MrJing1992
        6
    MrJing1992  
       2018-06-21 09:14:28 +08:00   ❤️ 1
    我很好奇是如何识别即将发生的事情的,看了代码,Soga !
    https://github.com/NolanZhao/FutureNews/blob/master/news_crawler/check.py

    words = ['将', '预计', '明天', '后天', '下周', '月底', '明日', '明晚', '下月', '明年', '未来', '计划于', '准备于']
    Rootcat
        7
    Rootcat  
    OP
       2018-06-21 09:59:24 +08:00
    @MrJing1992 老哥,稳 :)
    artandlol
        8
    artandlol  
       2018-06-21 11:22:21 +08:00
    @Rootcat 那可以定时存到 Elasticsearch 进行搜索
    terencehan
        9
    terencehan  
       2018-06-21 21:27:30 +08:00
    感觉不错诶
    hezhile
        10
    hezhile  
       2018-06-22 09:57:40 +08:00
    可以适配移动端吗?
    bigmama
        11
    bigmama  
       2018-06-22 14:34:04 +08:00
    http://thuglife8.com/hot/看我这个。

    用的网站里一位老哥的代码,自用。
    bigmama
        12
    bigmama  
       2018-06-22 14:34:21 +08:00
    http://thuglife8.com/hot/
    看我这个。

    用的网站里一位老哥的代码,自用。
    ucanuup
        13
    ucanuup  
       2018-06-23 06:08:56 +08:00
    《英特尔显卡部门又添一员大将 Larrabee 之父回归》,这个就不准确了。建议做个分词并结合词性标注。
    stream
        14
    stream  
       2018-06-27 12:22:47 +08:00
    @bigmama 代码能推荐一下么?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2602 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 15:50 · PVG 23:50 · LAX 07:50 · JFK 10:50
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.