lxrmido
V2EX  ›  问与答

怎样识别出一个包含列表的页面里边哪一些是列表?

  •  
  •   lxrmido · Aug 25, 2015 · 1746 views
    This topic created in 3907 days ago, the information mentioned may be changed or developed.
    这是个关于数据采集的问题,目标是传进一个地址自动从里边抓取出文章列表而不需要额外的配置或者书写额外的规则,请问有这方面的文章或者开源项目或者解决思路吗?
    -
    现在我的解决思路是:
    1 、把页面解析为 DOM 树;
    2 、递归判断每个节点是否存在相似的子树,存在则认为是列表。
    -
    然而在“相似”这一问题上,遇上了一些问题,起初,我是根据 XPATH 或者 CSSPATH 递归标记每棵树,譬如对于:
    <div><div>TITLE<div><div></div><a></a></div>
    可以标记为(div (div ((text )(div )))(a ))这样的玩意(栗子)
    但是某些时候,列表中的某些项目可能存在一些干扰,譬如 strong 标签,譬如手滑出来的、不影响显示外观的多余标签
    -
    求教
    1 replies    2015-08-25 16:38:45 +08:00
    ZHenJ
        1
    ZHenJ  
       Aug 25, 2015
    Beautiful Soup ?
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   962 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 22:19 · PVG 06:19 · LAX 15:19 · JFK 18:19
    ♥ Do have faith in what you're doing.