1
dreampuf 2012-10-22 14:24:10 +08:00 1
可以不代表适合。
HTML规范不一,很难拿到适配的regex。 regex适合字符作为单元的匹配模式,而非一个HTML TAG。 |
2
crazybubble OP @dreampuf 嗯啊 我想的是如果把一个html作为一整个字符串来看,其实也是以字符为单元的不是嘛?如果我要找一个img的src,那就类似找一个pattern之前有<img src=“ 这个pattern之后有”, 找这种tag的attribute的话,一般不会有嵌套这种问题存在吧?那是不是用正则来提取信息比较可行?还是说这种也不可行,正则根本就不应该去和html有任何交集?
|
3
hu437 2012-10-22 14:37:35 +08:00 1
可以试试使用JSOUP进行解析,非常方便
|
4
dreampuf 2012-10-22 14:39:30 +08:00 1
@crazybubble regex匹配HTML是可以的,但如你所说,匹配的还是img这个HTML tag,只是拿regex干HTML parser的事儿。但这毕竟只是特例,如果要做一般化的采集,更推荐的是HTML parse得到DOM后进行DOM的node访问(XPATH)。
|
5
crazybubble OP @dreampuf 非常谢谢,我想这回答了我的问题。
|