Kaneboy's SharePoint Blog

SharePoint & Office Zealot
随笔 - 392, 评论 - 8170, 引用 - 201

导航

关于


About me :
SharePoint Architect. Build SharePoint solutions from year of 2003. Joined Microsoft in 2004. Working for HP now.

Certification :
MCPD - Web Dev
MCTS - SharePoint 2007 Dev
MCTS - SharePoint 2007 Config
MCTS - WSS 3.0 Dev
MCTS - WSS 3.0 Config
MCTS - SPS2003 Infra
MCTS - SPS2003 App
MCT
(ex)MVP 

Contact me :
kaneboy@gmail.com | follow @kaneboy on twitter

Authored books:


标签

每月存档

最新留言

广告

 

OK,这篇blog算是来给Office SharePoint Server 2007 “揭丑”了,确切来说,是给Office SharePoint Server 2007中的搜索功能模块“揭丑”。其实,这里要说的两个问题很早就已经暴露出来了,但是为啥直到现在才进行“揭丑”行动呢?因为直到现在,我才能确定这两个问题已经有解决之道(或者有望解决),呵呵,否则,仅仅说问题,而不说怎么解决,您不是会更郁闷吗...

先来说第一个问题:不能正确对路径大小写敏感的内容源进行爬网。

Windows操作系统的一个特点就是对文件(或者文件夹)路径的大小写是不敏感的,也就是说,我们在Windows操作系统里面指定一个文件的路径,比如“C:\a.tmp”,如果你使用“c:\A.TMP”也是完全没有问题的。所以,构建在Windows IIS之上的Web应用,基本上对于路径也是大小写不敏感的,比如用户浏览“http://www.microsoft.com/products”和“http://www.microsoft.com/Products”对于服务器而言是一回事。但是这个假设仅仅在Windows平台上才适用,对于非Windows操作系统,它完全有可能对于路径是大小写敏感的,也就是说,对于一个构建在非Windows平台上的Web应用来说,“http://webapp/portal”和“http://webapp/Portal”对于服务器而言可是不一样的。

这似乎和我们平时的使用体验不一样,有人会说,“俺访问俺们公司一个Unix+Apache+Java的Web应用时,输入URL就从来没注意过大小写啊!”嗯,这应该是因为,要么Web服务器就配置成了大小写不敏感,要么Web服务器会自动进行大小写纠错,也就是说,如果你在浏览器中敲入“http://webapp/portal”,这个http访问到了Web服务器之后,Web服务器自动将这个请求导向到“http://webapp/Portal”上。

现在再回到正题上,由于Office SharePoint Server 2007是一个完全基于Windows平台的应用,所以,在当初对它的搜索爬网引擎进行设计时,就设计成了这样:当爬网引擎得到一个URL后,爬网引擎不管3721,就先把这个URL的字母全部转换成小写,然后再去访问它。比如,爬网引擎在爬一个Web应用首页时,得到了首页上的一个链接“http://webapp/News”,那么爬网引擎会直接把这个URL转换成“http://webapp/news”,然后再去访问它。如果这个Web应用恰好就是路径大小写敏感的,那么,嘿嘿,Office SharePoint Server 2007的爬网引擎就抓瞎了...

暂且不论当初为啥要这样设计,但是这的确是一个相当大的问题,因为如果我们需要Office SharePoint Server 2007对一个路径大小写的Web应用进行爬网(其实这样的Web应用数量是不少的),那么Office SharePoint Server 2007除了在日志里面纪录一些错误信息之外(甚至在日志中,这些URL都是全部小写的...),它几乎不能为我们爬任何有用的内容。

值得庆幸的是,现在我们对于这个问题有了解决办法,KB 932619描述了这个问题以及解决方法:安装hotfix 932620hotfix 932621,然后按照KB 932619中的描述修改注册表就OK了。

第二个问题:不能对基于Forms验证的Web应用进行爬网

现在Office SharePoint Server 2007只能对要么匿名访问、要么基于Windows集成认证的Web应用进行爬网,但是对于大量的基于Forms验证的Web应用,却无能为力。幸运的是,很快微软也会发布相应的hotfix来增加对基于Forms验证的Web应用进行爬网的功能了(发布后我会在blog上告诉大家)。

打印 | 张贴于 2007-03-05 11:06:00 | Tag:SharePoint

留言反馈

#回复: Office SharePoint Server 2007 搜索模块的两个“大”问题 编辑
多发过后健康人体育ioh
2008-01-20 22:52:00 | [匿名:飞机票]
#回复: Office SharePoint Server 2007 搜索模块的两个“大”问题 编辑
还可以阿 谢谢了
2007-12-11 15:53:00 | [匿名:火狐浏览器]
#回复: Office SharePoint Server 2007 搜索模块的两个“大”问题 编辑
还可以阿 谢谢了 只是不太明白
2007-12-11 15:53:00 | [匿名:火狐浏览器]
#回复: Office SharePoint Server 2007 搜索模块的两个“大”问题 编辑
不错
2007-12-03 16:40:00 | [匿名:非主流]
#回复: Office SharePoint Server 2007 搜索模块的两个“大”问题 编辑
不错 收藏了 谢谢~
2007-12-03 16:40:00 | [匿名:非主流]
#回复: Office SharePoint Server 2007 搜索模块的两个“大”问题 编辑
感谢楼主分享!不错不错,收藏了!
2007-11-19 13:56:00 | [匿名:国际长途电话卡]
#回复: Office SharePoint Server 2007 搜索模块的两个“大”问题 编辑
感谢楼主分享!
2007-11-19 13:55:00 | [匿名:国际长途电话卡]
#回复: Office SharePoint Server 2007 搜索模块的两个“大”问题 编辑
很不错,谢谢分享,学习了
2007-11-15 19:16:00 | [匿名:火狐浏览器]
#回复: Office SharePoint Server 2007 搜索模块的两个“大”问题 编辑
不能正确对路径大小写敏感的内容源进行爬网
2007-10-25 11:05:00 | [匿名:dhc]
#回复: Office SharePoint Server 2007 搜索模块的两个“大”问题 编辑
不能对基于Forms验证的Web应用进行爬网
2007-10-25 11:05:00 | [匿名:征途私服]
#回复: Office SharePoint Server 2007 搜索模块的两个“大”问题 编辑
谢谢 不知道当初是否这个设计初衷

2007-10-19 06:19:00 | [匿名:小游戏]
#回复: Office SharePoint Server 2007 搜索模块的两个“大”问题 编辑
说的有点玄了吧 没那么严重
2007-10-15 21:21:00 | [匿名:DHC]
#回复: Office SharePoint Server 2007 搜索模块的两个“大”问题 编辑
还不错 谢谢分享
2007-10-15 21:20:00 | [匿名:picasa]
#回复: Office SharePoint Server 2007 搜索模块的两个“大”问题 编辑
很有技术含量的文章。。。支持下
2007-09-30 23:52:00 | [匿名:火狐]
#回复: Office SharePoint Server 2007 搜索模块的两个“大”问题 编辑
很有技术含量
2007-09-30 23:50:00 | [匿名:火狐]
#回复: Office SharePoint Server 2007 搜索模块的两个“大”问题 编辑
不知道作者自己测试过效果没
2007-09-29 18:58:00 | [匿名:火狐]
#新工具:表单/Cookie 验证网站爬网设置工具 编辑
在今年3月份的 blog 里面,我曾经说过SharePoint Team将会发布一个补丁来让SharePoint Server 2007的搜索引擎支持对基于表单/Cookie验证的网站进行爬网。今天,SharePoint
2007-09-26 09:40:00 | [匿名:Joycode@Ab110.com]
#回复: Office SharePoint Server 2007 搜索模块的两个“大”问题 编辑
好文章 谢谢 哈哈 谢谢楼主
2007-07-21 17:03:00 | [匿名:火狐]
#回复: Office SharePoint Server 2007 搜索模块的两个“大”问题 编辑
哈哈哈哈 谢谢楼主 好文章 顶起来
2007-07-21 17:01:00 | [匿名:火狐]
#回复: Office SharePoint Server 2007 搜索模块的两个“大”问题 编辑
好文章 顶起来 哈哈哈哈哈哈
2007-07-21 17:00:00 | [匿名:火狐]
#回复: Office SharePoint Server 2007 搜索模块的两个“大”问题 编辑
谢谢分享,学习了!!!!!
2007-07-02 17:53:00 | [匿名:儿童益智玩具]
#回复: Office SharePoint Server 2007 搜索模块的两个“大”问题 编辑
谢谢分享,学习了
2007-07-02 17:52:00 | [匿名:儿童益智玩具]
#回复: Office SharePoint Server 2007 搜索模块的两个“大”问题 编辑
请教一个MOSS 搜索的问题.
在Moss 2007中,设定对文件的搜索. 如何设定对文件标题的搜索? 我发现搜索出来的文档,都是内容包含搜索的keyword. 而标题包含keyword 的文件则则有时候无法搜索出来.

最近发现内容keyword 搜索也有时候会有问题.
经常无法搜索到文件.

我设置了全站爬网/1h,间隔爬网/5m.
爬网权限足够(管理员),爬网站点:80默认的站点.

还需要做什么设置吗?
2007-06-12 15:09:00 | [匿名:yier]
#回复: Office SharePoint Server 2007 搜索模块的两个“大”问题 编辑
这篇文章很不错啊.呵呵 收获很大啊,学了好多的东西.
2007-05-29 00:45:00 | [匿名:toydoer]
#回复: Office SharePoint Server 2007 搜索模块的两个“大”问题 编辑
基于Forms验证的Web应用这个问题估计会什么时候有HOTFIX出来啊
2007-05-21 12:37:00 | [匿名:FLYBIRD]
#回复: Office SharePoint Server 2007 搜索模块的两个“大”问题 编辑
Sharepoint爬网引擎和其他的搜索引擎有一个问题就是不能识别内嵌在javascript的连接。我们在应用Sharepoint 2003作为企业搜索引擎的时候就遇到这样的问题,很多网站的菜单是javascript动态产生的,因此不能被索引。Office Sharepoint 2007能够更好的解决吗?
2007-04-30 23:47:00 | [匿名:Jim]
#Sharepoint 使用过程中遇到的问题(连载中) 编辑
刚刚开始学习sharepoint,相信问题一定多多啊,呵呵
2007-04-26 17:20:00 | [匿名:火草]
#回复: Office SharePoint Server 2007 搜索模块的两个“大”问题 编辑
能请教,如果把2003的webpart应用到2007里面吗,谢谢!
2007-04-04 17:08:00 | [匿名:chenggy]
#回复: Office SharePoint Server 2007 搜索模块的两个“大”问题 编辑
是有问题
2007-03-26 12:25:00 | [匿名:firefox]
#回复: Office SharePoint Server 2007 搜索模块的两个“大”问题 编辑
能否提供一个webpart和数据交互的事例呢,谢了.
2007-03-23 11:22:00 | [匿名:vvzsy]
#回复: Office SharePoint Server 2007 搜索模块的两个“大”问题 编辑
能否提供一个webpart和数据交互的事例呢?

谢谢
2007-03-13 11:00:00 | [匿名:zheyong]
#回复: Office SharePoint Server 2007 搜索模块的两个“大”问题 编辑
请问新书该出了吧? 等不急了.....
2007-03-13 00:07:00 | [匿名:hao]
#回复: Office SharePoint Server 2007 搜索模块的两个“大”问题 编辑
想知道,SPS2007不能做什么?或不擅长于做什么???

谢谢!!!
2007-03-12 19:14:00 | [匿名:天然椰汁]
#回复: Office SharePoint Server 2007 搜索模块的两个“大”问题 编辑
晕啊,我就是用FORMS验证的,难怪总觉得爬网有些问题
2007-03-10 23:02:00 | [匿名:屈筱鋆]
#回复: Office SharePoint Server 2007 搜索模块的两个“大”问题 编辑
终端又看到新的文章了! 有收获.
2007-03-05 11:44:00 | [匿名:hao]
对不起,目前本随笔不允许发表新评论.

Powered by: Joycode.MVC引擎 0.5.2.0