请教 Python 中 xpath 如何实现这种需求

from lxml import etree

html_str='''
<span class="til">
    <a href="http://www.xxxx.com">
        "aaa"
        <br>
        "bbb"
        "ccc"
        <br>
    </a>
</span>
'''

html = etree.HTML(html_str)
content = html.xpath('//a/text()')
print(content)

"""
output:
['\n        "aaa"\n        ', '\n        "bbb"\n        "ccc"\n        ', '\n    ']
"""

第 1 条附言 · 2021-03-24 16:42:28 +08:00

假如 span 下有多个 a 标签，设第二个 a 标签文本为"ddd","eee"，输出结果会变成['aaa','bbb','ccc','ddd','eee']，能不能实现['aaabbbccc','dddeee']这样，就是说不管有多少个标签，相同标签下的文本合并一起

BBB

CCC

aaa

HTML

12 条回复 • 2021-03-26 18:01:49 +08:00

ch2

2021-03-24 16:14:32 +08:00

改用 BeautifulSoup,取 node.text

QuinceyWu

2021-03-24 16:28:28 +08:00

price = [x.strip() for x in content if x.strip() != '']
str1 = price[1].replace(" ", "").replace("\n", '').replace('"', "")
str2 = price[0].replace('"', '')
print(str2+str1)

meiyoumingzi6

2021-03-24 16:32:24 +08:00

列表都拿到了, 拼起来不就好了?

mekingname

2021-03-24 16:35:27 +08:00

content = ''.join(x.strip() for x in html.xpath('//a/text()'))

polarpy

2021-03-24 16:41:29 +08:00

拿出来的值替换换行跟空格

mrleohe

2021-03-24 16:48:05 +08:00

''.join([i.strip() for i in ''.join(html.xpath('//a/text()')).split('"') ])

CLCLCLCLCL

2021-03-25 12:04:46 +08:00

html = etree.HTML(html_str)
content = html.xpath('string(//a)')

直接用 string 就行

2bin

2021-03-25 17:24:24 +08:00

@CLCLCLCLCL 试了下，貌似只能提取第一个 a 标签的，有多个 a 后面不知道怎么提取出来

zyb201314

2021-03-26 00:31:45 +08:00 via Android

#这样?
html = etree.HTML(html_str)
lst=[]
for a in html.xpath('//span//a'):
content = a.xpath('.//text()')
l=''.join("".join(content).split()).replace('"',"")
lst.append(l)
print(lst)

CLCLCLCLCL

2021-03-26 11:07:34 +08:00

@2bin 是的, 循环一下 a 标签就行, 看你想用哪个了

dongxiao

2021-03-26 15:36:17 +08:00

html.xpath("string(//a)")

2bin

2021-03-26 18:01:49 +08:00

@zyb201314
@CLCLCLCLCL
谢谢两位，已经解决