V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
ArchiTech
V2EX  ›  奇思妙想

提取网页关键词的思路

  •  
  •   ArchiTech · 2019-10-24 13:19:00 +08:00 · 4156 次点击
    这是一个创建于 1857 天前的主题,其中的信息可能已经有所发展或是发生改变。
    如何从一个网页上面提取几个关键词来概括网页内容呢?我想分析一些网页,并找出相关的网页匹配到一起。
    网页内容繁多,我想到一个简单的办法是只看 document.title 里的文字,网页的主题多数时候就在 title 里面了。

    如果要分析整个网页的内容就复杂多了,有没有相关的资料可以推荐我看看呢?

    另外匹配的时候单纯看相同的关键词好像也不够准确,如果一个网页里面讲的是台球,另一个网页里面讲的都是桌球,应该也要匹配到一起,因为是一个东西。
    7 条回复    2019-10-26 04:06:33 +08:00
    zdnyp
        1
    zdnyp  
       2019-10-24 13:23:27 +08:00
    NPL、卷积神经网络
    chinauniverse
        2
    chinauniverse  
       2019-10-24 14:00:53 +08:00
    做一个贝叶斯模型,在线学习,越用越智能。预测个大概应该不成问题
    naomhan
        3
    naomhan  
       2019-10-24 14:07:43 +08:00
    大部分有 description
    abclearner
        4
    abclearner  
       2019-10-24 14:23:35 +08:00
    信息提取了解一下 如 if-idf
    zhaiblog
        5
    zhaiblog  
       2019-10-26 03:52:49 +08:00
    https://github.com/kingname/GeneralNewsExtractor
    这个项目以及项目中提及的论文《基于文本及符号密度的网页正文提取方法》应该能帮到你
    ArchiTech
        6
    ArchiTech  
    OP
       2019-10-26 04:05:20 +08:00
    @zhaiblog 这个是把网页的内容提取了出来,但是并没有分析内容,最终提取出核心的几个关键词吧?
    感谢回复!
    ArchiTech
        7
    ArchiTech  
    OP
       2019-10-26 04:06:33 +08:00
    也感谢楼上其他人的回复,神经网络的办法我看了下,train model 的部分感觉很大工程啊。。。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2841 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 14:06 · PVG 22:06 · LAX 06:06 · JFK 09:06
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.