这是一个创建于 3858 天前的主题,其中的信息可能已经有所发展或是发生改变。
写爬虫抓文章,打算是将某个div下的所有html弄出来,结果这一步就搞不定了,我对lxml还是了解不深,这里求个方法。
另外计划是转换成markdown或者rst再转换回html来清除html格式,这里也搭车求推荐点库。或者更好的方案。
3 条回复 • 2014-08-08 13:41:22 +08:00
 |
|
1
fy 2014-08-07 17:04:13 +08:00
我弄到答案了……
html = lxml.html.tostring(node)
不过还是求助第二条
|
 |
|
2
binux 2014-08-07 17:06:59 +08:00
lxml.html.tostring .text_content()
|
 |
|
3
buf1024 2014-08-08 13:41:22 +08:00
|