好久没有更新我的Blog,最近一直在做这个论坛搜索引擎。和很多朋友聊过,大家都觉得想法不错的,不过做起来真实不容易。搜索引擎技术门槛很高,爬虫,索引库,分布式结构,中文分词等等。还要解决服务器问题,目前Teein由于资金有限只有3台服务器,1台做web,还有2台做爬虫和索引库的。底层的索引库是用的dotlucene , 原来是lucene.net 。 这个我想大家也猜到了,如果什么都是自己写,不吃饭不睡觉也来不及,其余像爬虫都是自己实现的。做到现在发现最难的不是这些,而是如何去构建一个大数据量分布式的环境,慢慢来吧。
我打算如果时间可以的话,分成几次来谈谈Teein这个项目,毕竟国内做这个的人不多,可公开交流的机会也很少。
打印 | 张贴于 2004-12-07 00:15:00 | Tag:暂无标签
留言反馈
QQ578331620
A 基于VIPS(Vision based page structure)技术,智能提取文章的标题、正文(含图片和文字换行,字体格式)、时间、作者、来源;
B 仅仅对文章页面建立索引;
C 更新时仅仅抓取首页和各级栏目页面,不重新抓取已索引的页面;
D 降低了用户对页面进行定制的复杂度
QQ:305789686
终身免费使用的2615兆免费知名邮箱
你也想拥有一个属于自己的吗?
请与我联系
E-MAIL:Cxy_pallas@sohu.com
QQ:36029733
专门讨论search engine
看得出来作者非常谦虚很有风范,对我触动很大,受教了谢谢
请教一下, luncene好像是不支持数字检索的;有什么办法可以用来检索数字么?
我想问你一个问题,这么多论坛的帖子,你都是通过爬虫爬进来的吗?有些论坛的板块可是有几十万帖子哦。还是通过跟那些论坛的合作,直接把他的数据库里面的数据导入你的搜索引擎?
或者缺胳膊少腿,或者自定义非标准Tag(比如baidu),或者非常简洁的把一些乱七八糟的内容用cdata把什么title,description什么的括起来。至于客户端如何处理,不关他的事情了。
由于大家还是"web page"本位,认为上我网页看才是正途,所以以csdn为首,不提供详细项。这种技术站点,真的不知是可笑还是无聊。其实哪怕你在item的description里插点广告,也比光秃秃的强。国内惯于使用rss reader的大概不会超过十万,这十万人,基本都是老鸟,上了网站也不会点广告,放过他们又如何。
其实RSS不过两三年时间,用户发展相当迅速。将来也大有前途,但国内这样乱七八糟,估计很难发展起来。
msn : iNatas at msn.com
谢谢,这个功能也是一些论坛提过的。我们会加的!
太酷了!
不过小心反动和色情的哦
谢谢,望多多交流
我有师弟是专门做这种评估的,所以对一些数据知道。不过是限制并不是缺陷。合适就可以。
只是随便聊。破坏很容易,比如把IBM大型主机拆了,说这里不合适,那里不合适是很容易的,怎么才合适,那需要好多专家一起研究几年了。
呵呵。还是上面那句话:你这做的很好的说。想法不错,实现的也好。
谢谢您的帮助,我不知道gnutella是如何做到分布式搜索的,如果他的主机分布在全球范围内,那么各个主机之间的响应也一定是问题,望赐教
nutch或许可以到google的容量(没验证),但是肯定到不了每天一亿的搜索请求(google目前的访问量)
确实需要看别人眼色,所以目前我们就走和论坛和这条路。
To:hehe
目前我的结构也是差不多这样,现在容量基本在20个G左右,速度感觉还行,Lucene也有支持分布式搜索的接口。但是不知道以后容量大了的话需要怎么调整,但是我想是可以的,就像Nutch就是使用lucene做为底层结构,目标是做到像Google这样的容量
每个node负责爬,并把结果放在自己当前主机上。作索引。每个node分别控制一部分论坛,而不是每个Node去爬所有的。我相信将来你肯定会分开的,lucene最多适合中等规模的站点,我个人感觉索引可能最多能到几个G吧。不过3000个论坛问题不大的。
web接到请求,将请求传递到各个Node,然后等待各个node的搜索结果。并通过整理将node的结果显示出来。
说起来稍显麻烦,但是其实压力分布在若干主机上,所以其实很快。
目前网上成型的gnutella的web界面很多啊,大多是php的,.net少。而且他面向的是目前互联网数百万gnutella机器上的文件。当然,按照gnutella的模型,他其实覆盖不了那么多台主机。
我看到有爬虫这样做的,但是索引库还是集中放置的,否则速度怎么保证?
--作为web可以不需要进行搜索计算,只需要获取结果并显示,大大加快速度。
不是很明白,结果需要做索引才能搜索,否则。。。
很好很好!速度、功能都很不错
1. 可以选择根据时间排序,这个很有用
2. 可以选择具体一个版来过滤,这个也很有用
-
支持一下
而且我看到hi-pda和tompda都已经取消了自己本身的搜索,而改用teein的搜索了。
就是最好爬虫更新的频率再高一点。比如每个小时之类的。现在好像要延后一天的样子
这样有几个好处:
1.每个node完全独立,一个加入和断开,无须配置。
2.各个node可以放置任意地方,只要有普通的带宽,就可以了,可以省去很多托管费用。
3。作为web可以不需要进行搜索计算,只需要获取结果并显示,大大加快速度。
.....
供参考。
我觉得google是顺着网页不断的找链接这样。。。
那这种岂不是要花费很多人工?而且如果对方一改动设计界面,如果正好涉及到你的匹配项,不就乱了?而且对于需要登录的论坛,是不是要手工建论坛帐户?
刚刚用了一下:建议cache页面。我连着碰到三个不可访问的。
俺也曾经想做过类似的东东,交流一下吧。我的MSN:dumack@msn.com
不过很有创意