知识管理的长征 - 孙鹏 - Microtoby - MVP

Long march of knowledge management
随笔 - 63, 评论 - 455, 引用 - 226

导航

关于

孙鹏(Microtoby)是微软Office SharePoint Portal Server领域的最有价值专业人士(MVP)。从2002年开始接触SharePoint产品。
2005年05月在新加坡参加亚太地区MVP峰会;
2005年10月在美国西雅图参加全球MVP峰会;
2004年01月至今任职于Tencent,主要方向为知识管理。
此Blog中的文章和随笔仅代表作者在某一特定时间内的观点和结论,对其完全的正确定不做任何担保或假设。所有此处的原创文章转载必须知会作者本人。如有疑问,请发邮件至:
microtoby@gmail.com


友情链接:http://www.applevb.com

标签

每月存档

最新留言

广告

 

有的时候,我们开发的应用需要抓取网页的内容借为己用,如QQ网站的天气信息新闻等,和Google等搜索爬虫的机制不同之处在于抓取目标的页面对开发人员而言是已知的。我们有理由避免过多的使用正则表达式的繁冗分析过程,如果能够在获取目标网页的HTML之后通过DOM来解析HTML将是一件非常愉快的事情。这里会遇到两个问题,DOM操作只能在客户端通过JavascriptVBScript等脚本语言进行,加上HTML自身不是非强格式的,不能使用类似XSLXML解析的方式进行操作。不过既然写这篇Blog,就一定有了解决的办法J

非常感谢MicrosoftXML大师Chris Lovett为我们带来的SgmlReader这个开源的项目。我们知道,XMLHTML都是Sgml的子集。通过SgmlReader,能够将HTML转换生成格式规范的HTMLWell-Formed HTML,虽然没有这个称呼,但这里暂且这么说),从而可以使用XMLXPath语法读取网页的数据了。那么在.NET Framework下,我们遇到的问题变得如此轻松。

简单写了一个示例程序,用来抓取QQ网站的天气信息,通过更改城市名称和XPath获得网页内容。

代码:下载

PS
:除了SgmlReader之外,还有Simon Mourier.NET Html Agility Pack也具有类似的功能。

打印 | 张贴于 2005-02-06 01:12:00 | Tag:Year 2005

留言反馈

#回复: 使用XPath解析HTML获取网页内容 编辑
如果要抓取的页面需要登录,我怎么保存会话信息并在取内容的时候把会话信息传回去?
2007-09-14 08:50:00 | [匿名:alfah]
#回复: 使用XPath解析HTML获取网页内容 编辑
[button] 哈哈 [/button]
2006-12-22 15:54:00 | [匿名:1]
#re: 使用XPath解析HTML获取网页内容 编辑
d ddd
2006-11-07 22:41:00 | [匿名:赌东道]
#re: 使用XPath解析HTML获取网页内容 编辑
好东西,收了
2006-09-27 19:23:00 | [匿名:hg]
#re: 使用XPath解析HTML获取网页内容 编辑
siuman,不要问这样的问题!!!
2005-12-31 18:43:00 | [匿名:C# hack]
#re: 使用XPath解析HTML获取网页内容 编辑
那有什么办法能防止自己的网页被解析呢?
2005-12-07 17:48:00 | [匿名:siuman]
#re: 使用XPath解析HTML获取网页内容 编辑
无法找到文件,下载地址错误!?
2005-10-19 15:52:00 | [匿名: badegg]
#re: 使用XPath解析HTML获取网页内容 编辑
能用JAVA做出来吗?
2005-05-11 20:48:00 | [匿名:amao]
#re:使用XPath解析HTML获取网页内容 编辑
^_~,pretty good!18showsseeoo
2005-04-26 17:42:00 | [匿名:液位开关]
#<font color=red>re: 使用XPath解析HTML获取网页内容</font> 编辑
<script>
alert("hello")
</script>
2005-04-20 13:56:00 | [匿名:<td>]
#re:使用XPath解析HTML获取网页内容 编辑
^_^,Pretty Good!
2005-04-15 22:53:00 | [匿名:界面张力仪]
#re: 使用XPath解析HTML获取网页内容 编辑
无法找到文件,下载地址错误!?
2005-04-12 15:03:00 | [匿名:ray]
#re:使用XPath解析HTML获取网页内容 编辑
^_^,Pretty Good!
2005-04-10 19:48:00 | [匿名:NKS压力表]
#re: 使用XPath解析HTML获取网页内容 编辑
sungoodnews at hotmail.com
2005-02-21 19:42:00 | [匿名:Microtoby]
#re: 使用XPath解析HTML获取网页内容 编辑
Microtoby 你的MSN多少,我们聊聊~
2005-02-21 16:07:00 | [匿名:s22]
#re: 使用XPath解析HTML获取网页内容 编辑
greate job
2005-02-21 16:01:00 | [匿名:s22]
#re: 使用XPath解析HTML获取网页内容 编辑
请问一下,你的压缩包里的后缀名为txvpck的文件是做什么用的啊?谢谢了!
2005-02-16 13:56:00 | [匿名:Laser.NET]
#re: 使用XPath解析HTML获取网页内容 编辑
"将HTML转换生成格式规范的HTML(Well-Formed HTML,虽然没有这个称呼,但这里暂且这么说),"

那个叫XHTML, 专门指的是这个。 在SgmlReader之前很久, 这个工作都是用Tidy, 是Java的, 后来也有NTidy是.Net的。
2005-02-08 11:41:00 | [匿名:顾非]
对不起,目前本随笔不允许发表新评论.

Powered by: Joycode.MVC引擎 0.5.2.0