如何分析网页源代码从中获取自己想要的信息？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 4972 天前的主题，其中的信息可能已经有所发展或是发生改变。

我想监控一个网页的更新。
我想用wget或者curl获取网页后，然后用C++来分析网页Html，然后再提取出自己想到的信息。
我想是用find()函数来寻找特殊的关键字后再来提取，请问下有没有其他有效的分析网页更新的方法？

4 条回复 • 1970-01-01 08:00:00 +08:00

soulsaunter

2012-02-19 21:21:55 +08:00

一般需要使用到一个htmlparser 的东西来对网页构造出一个可操作的对象，然后，根据自己的分析，写一个算法来从对象中获取你想要的。说到底，分析（算法）是关键。

ligyxy

2012-02-19 21:29:35 +08:00

@soulsaunter 是否有入门的小例子？

avatasia

2012-02-19 22:06:25 +08:00

既然你会用c++，那么自己包装一个IE壳，你可以去greenbrower的代码里扒，然后用一个网页AppContainer，内嵌iframe获取你的目标网页，AppContainer里写一些操作iframe的dom的脚本。

ehaagwlke

2012-02-19 22:28:27 +08:00

找工具的话，有一个叫URLy Warning的东东，http://tech.sina.com.cn/down 里有。会把页面扒到本地，定时更新，有变化的部分会高亮显示。