Roy

随笔 - 24, 评论 - 460, 引用 - 73

导航

工具

每月存档

广告



访客

 

好久没有更新我的Blog,最近一直在做这个论坛搜索引擎。和很多朋友聊过,大家都觉得想法不错的,不过做起来真实不容易。搜索引擎技术门槛很高,爬虫,索引库,分布式结构,中文分词等等。还要解决服务器问题,目前Teein由于资金有限只有3台服务器,1台做web,还有2台做爬虫和索引库的。底层的索引库是用的dotlucene , 原来是lucene.net 。 这个我想大家也猜到了,如果什么都是自己写,不吃饭不睡觉也来不及,其余像爬虫都是自己实现的。做到现在发现最难的不是这些,而是如何去构建一个大数据量分布式的环境,慢慢来吧。

我打算如果时间可以的话,分成几次来谈谈Teein这个项目,毕竟国内做这个的人不多,可公开交流的机会也很少。

相关文章

Loading...

打印 | 张贴于 2004-12-07 00:15:00 | Tag:暂无标签

留言反馈

#re: Teein.com中文论坛搜索引擎 编辑
你好我正在研究luncene.net技术想做一个网站内的内容搜索,您是否可以提供一些帮助,我的msn是jianghy_bj@hotmail.com
2006-11-20 23:36:00 | [匿名用户:aquila]
#re: Teein.com中文论坛搜索引擎 编辑
en
2006-10-09 00:14:00 | [匿名用户:影视制作,宣传片制作,影视广告制作]
#re: Teein.com中文论坛搜索引擎 编辑
我现在用Lunce做搜索,中文高亮显示的时候,显示结果是包含关键字的整句都高亮显示
2006-07-20 12:58:00 | [匿名用户:Tony]
#re: Teein.com中文论坛搜索引擎 编辑
无意间在百度找到你们这个站,感觉到不错,因为前些时间我也想到论坛整合这个方向,所以小弟刚写了一个东西,只是用来测试的,现在已测试成功,是通过采集其它论坛然后把其它论坛的贴子入库到我的系统中来,浏览贴子的方法和贵站一样也是通过框架页面,感觉速度要比你们站快点,但贵站确实做的特别成功,完善,小弟愿意学习一下,
QQ578331620
2006-05-28 14:18:00 | [匿名用户:天堂]
#re: Teein.com中文论坛搜索引擎 编辑
请问一下你用的DotLucene是哪个版本的啊?是1.43还是1.9RC1的?
2006-05-03 00:07:00 | [匿名用户:mendel]
#re: Teein.com中文论坛搜索引擎 编辑
哎呀!不知道怎么样做一个搜索工具,好自己用在自己的电脑上搜索文件啊,老是用微软的不爽啊.有那为高人指点下啊???
2006-04-08 12:09:00 | [匿名用户:wen]
#re: Teein.com中文论坛搜索引擎 编辑
我要成功.
2006-03-31 20:32:00 | [匿名用户:藏羚羊]
#re: Teein.com中文论坛搜索引擎 编辑
我在努力
2006-03-31 20:31:00 | [匿名用户:藏羚羊]
#re: Teein.com中文论坛搜索引擎 编辑
平和塌实努力,一定能成功.
2006-03-31 20:30:00 | [匿名用户:藏羚羊]
#re: Teein.com中文论坛搜索引擎 编辑
好多年迷失了自己,没有突出自己的优势,很是苦恼.现在找回自己,平和.塌实.努力.超越自己.我是强者.
2006-03-31 20:26:00 | [匿名用户:藏羚羊]
#re: Teein.com中文论坛搜索引擎 编辑
心情不好
2006-03-31 20:17:00 | [匿名用户:藏羚羊]
#re: Teein.com中文论坛搜索引擎 编辑
田亮为什末不能回国家队?周继红哪儿像教练,象小人!
2006-03-31 09:43:00 | [匿名用户:藏羚羊]
#re: Teein.com中文论坛搜索引擎 编辑
不错啊 什么时间能公布程序?
2006-02-01 19:08:00 | [匿名用户:何平]
#re: Teein.com中文论坛搜索引擎 编辑
用的是java,
A 基于VIPS(Vision based page structure)技术,智能提取文章的标题、正文(含图片和文字换行,字体格式)、时间、作者、来源;
B 仅仅对文章页面建立索引;
C 更新时仅仅抓取首页和各级栏目页面,不重新抓取已索引的页面;
D 降低了用户对页面进行定制的复杂度
2005-12-30 17:07:00 | [匿名用户:vimso]
#re: Teein.com中文论坛搜索引擎 编辑
能透露下,这个搜索引擎是用什么语言编写的吗?涉及到哪些技术?
2005-12-28 11:51:00 | [匿名用户:NOGOOD]
#re: Teein.com中文论坛搜索引擎 编辑
不知什么时间有更多的介绍,我想学习

QQ:305789686
2005-11-15 17:43:00 | [匿名用户:hanibal]
#re: Teein.com中文论坛搜索引擎 编辑
Gmail 提供世界上最大容量邮箱



终身免费使用的2615兆免费知名邮箱



你也想拥有一个属于自己的吗?



请与我联系











E-MAIL:Cxy_pallas@sohu.com



QQ:36029733





2005-09-23 09:34:00 | [匿名用户:cxy]
#re:Teein.com中文论坛搜索引擎 编辑
Teein.com中文论坛搜索引擎ooeess
2005-06-16 17:31:00 | [匿名用户:测汞]
#re:Teein.com中文论坛搜索引擎 编辑
^_~,pretty good!csharpsseeoo
2005-05-18 19:50:00 | [匿名用户:GNB电池]
#re: Teein.com中文论坛搜索引擎 编辑
作的真的是很不错!我开始崇拜你了
2005-05-18 13:06:00 | [匿名用户:javan]
#re: Teein.com中文论坛搜索引擎 编辑
这个源码程序多少钱愿意卖?是跟chinabbs还有qihoo一样的?系统是用linux还是winserver
2005-05-08 15:38:00 | [匿名用户:hy]
#re: Teein.com中文论坛搜索引擎 编辑
加入QQ群:8797792
专门讨论search engine
2005-04-22 03:20:00 | [匿名用户:TeffGuo]
#re:Teein.com中文论坛搜索引擎 编辑
^_^,Pretty Good!
2005-04-16 06:06:00 | [匿名用户:螺纹塞规]
#re:Teein.com中文论坛搜索引擎 编辑
^_^,Pretty Good!
2005-04-10 20:15:00 | [匿名用户:物位变送器]
#csharphack-Ping 编辑
^_^,Pretty Good!
2005-04-08 11:36:00 | [匿名用户:csharphack.org]
#re: Teein.com中文论坛搜索引擎 编辑
teein做的很好。GZ,tompad等等都撤掉了自己原来的搜索

看得出来作者非常谦虚很有风范,对我触动很大,受教了谢谢
2005-04-01 21:52:00 | [匿名用户:petererr]
#re: Teein.com中文论坛搜索引擎 编辑
佩服严灏,有胆魄做这项投入 :)
请教一下, luncene好像是不支持数字检索的;有什么办法可以用来检索数字么?
2005-02-21 17:11:00 | [匿名用户:blogmov]
#re: Teein.com中文论坛搜索引擎 编辑
希望有天我也会写怎么厉害的程序。都很牛啊
2005-02-06 15:00:00 | [匿名用户:wo]
#re: Teein.com中文论坛搜索引擎 编辑
你的论坛搜索的主意真的不错,很有前途。

我想问你一个问题,这么多论坛的帖子,你都是通过爬虫爬进来的吗?有些论坛的板块可是有几十万帖子哦。还是通过跟那些论坛的合作,直接把他的数据库里面的数据导入你的搜索引擎?
2005-02-02 10:34:00 | [匿名用户:笑熬浆糊]
#re: Teein.com中文论坛搜索引擎 编辑
国内的RSS源很多是垃圾,从csdn开始,到几个大的blog服务提供商。

或者缺胳膊少腿,或者自定义非标准Tag(比如baidu),或者非常简洁的把一些乱七八糟的内容用cdata把什么title,description什么的括起来。至于客户端如何处理,不关他的事情了。

由于大家还是"web page"本位,认为上我网页看才是正途,所以以csdn为首,不提供详细项。这种技术站点,真的不知是可笑还是无聊。其实哪怕你在item的description里插点广告,也比光秃秃的强。国内惯于使用rss reader的大概不会超过十万,这十万人,基本都是老鸟,上了网站也不会点广告,放过他们又如何。


其实RSS不过两三年时间,用户发展相当迅速。将来也大有前途,但国内这样乱七八糟,估计很难发展起来。


2004-12-09 12:16:00 | [匿名用户:王三]
#re: Teein.com中文论坛搜索引擎 编辑
对,论坛确实垃圾信息不少,但是有价值的也很多,这没办法的。blog搜索相对来说要好做点,至少用RSS对于获取信息来源就没困难了。
2004-12-09 09:44:00 | [匿名用户:Roy]
#RE: Teein.com中文论坛搜索引擎 编辑
如果可以的话,可以加我的msn么?有很多方面希望向你请教。
msn : iNatas at msn.com
2004-12-08 21:42:00 | [匿名用户:iNatas@163.com (Natas)]
#re: Teein.com中文论坛搜索引擎 编辑
好期待啊
2004-12-08 10:00:00 | [匿名用户:ncw]
#re: Teein.com中文论坛搜索引擎 编辑
To: 宝玉
谢谢,这个功能也是一些论坛提过的。我们会加的!
2004-12-07 16:43:00 | [匿名用户:Roy]
#re: Teein.com中文论坛搜索引擎 编辑
Very COOL!
太酷了!
2004-12-07 14:29:00 | [匿名用户:hkbarton]
#re: Teein.com中文论坛搜索引擎 编辑
建议增加论坛注册到搜索引擎功能,这样就可以吸引更多论坛主动到你这里来注册,然后你的搜索引擎也可以主动去检索:)

不过小心反动和色情的哦
2004-12-07 13:38:00 | [匿名用户:宝玉]
#re: Teein.com中文论坛搜索引擎 编辑
是的,有时候想要找到一个很合适的解决方案很难,Teein也是在摸索种前进,虽然前面的路还有很多障碍,但是已无法回头了。

谢谢,望多多交流
2004-12-07 13:07:00 | [匿名用户:Roy]
#re: Teein.com中文论坛搜索引擎 编辑
合适的是最好的。呵呵。

我有师弟是专门做这种评估的,所以对一些数据知道。不过是限制并不是缺陷。合适就可以。

只是随便聊。破坏很容易,比如把IBM大型主机拆了,说这里不合适,那里不合适是很容易的,怎么才合适,那需要好多专家一起研究几年了。

呵呵。还是上面那句话:你这做的很好的说。想法不错,实现的也好。
2004-12-07 12:51:00 | [匿名用户:hehe]
#re: Teein.com中文论坛搜索引擎 编辑
你说的没错,目前访问量比较少(大概每天6万到7万这样),当然不是拿来和Google比,如果有google千分之一的量已经很不错了,就目前来讲lucene一定是最好的选择了,至少这么多人在用比较成熟了,将来就是要如何解决分布式的问题,当然也要有投入。

谢谢您的帮助,我不知道gnutella是如何做到分布式搜索的,如果他的主机分布在全球范围内,那么各个主机之间的响应也一定是问题,望赐教
2004-12-07 12:04:00 | [匿名用户:Roy]
#re: Teein.com中文论坛搜索引擎 编辑
我说话比较直:速度还行是因为访问量的问题,不是数据量的问题。呵呵。
nutch或许可以到google的容量(没验证),但是肯定到不了每天一亿的搜索请求(google目前的访问量)
2004-12-07 11:54:00 | [匿名用户:hehe]
#re: Teein.com中文论坛搜索引擎 编辑
To: 笨猫猫
确实需要看别人眼色,所以目前我们就走和论坛和这条路。

To:hehe
目前我的结构也是差不多这样,现在容量基本在20个G左右,速度感觉还行,Lucene也有支持分布式搜索的接口。但是不知道以后容量大了的话需要怎么调整,但是我想是可以的,就像Nutch就是使用lucene做为底层结构,目标是做到像Google这样的容量
2004-12-07 11:41:00 | [匿名用户:Roy]
#re: Teein.com中文论坛搜索引擎 编辑
比如这样做:
每个node负责爬,并把结果放在自己当前主机上。作索引。每个node分别控制一部分论坛,而不是每个Node去爬所有的。我相信将来你肯定会分开的,lucene最多适合中等规模的站点,我个人感觉索引可能最多能到几个G吧。不过3000个论坛问题不大的。

web接到请求,将请求传递到各个Node,然后等待各个node的搜索结果。并通过整理将node的结果显示出来。

说起来稍显麻烦,但是其实压力分布在若干主机上,所以其实很快。

目前网上成型的gnutella的web界面很多啊,大多是php的,.net少。而且他面向的是目前互联网数百万gnutella机器上的文件。当然,按照gnutella的模型,他其实覆盖不了那么多台主机。



2004-12-07 11:30:00 | [匿名用户:hehe]
#re: Teein.com中文论坛搜索引擎 编辑
赫赫 你抓论坛 我抓新闻 这个东西是得比较有针对性的 作得到处适用是很难 而且是看对方的脸色吃饭
2004-12-07 11:24:00 | [匿名用户:笨猫猫]
#re: Teein.com中文论坛搜索引擎 编辑
--各个node可以放置任意地方,只要有普通的带宽,就可以了,可以省去很多托管费用。?

我看到有爬虫这样做的,但是索引库还是集中放置的,否则速度怎么保证?

--作为web可以不需要进行搜索计算,只需要获取结果并显示,大大加快速度。

不是很明白,结果需要做索引才能搜索,否则。。。
2004-12-07 11:18:00 | [匿名用户:Roy]
#re: Teein.com中文论坛搜索引擎 编辑
哦,原来teein就是严灏作的啊?
很好很好!速度、功能都很不错

1. 可以选择根据时间排序,这个很有用
2. 可以选择具体一个版来过滤,这个也很有用

-
支持一下
而且我看到hi-pda和tompda都已经取消了自己本身的搜索,而改用teein的搜索了。

就是最好爬虫更新的频率再高一点。比如每个小时之类的。现在好像要延后一天的样子
2004-12-07 10:39:00 | [匿名用户:mvm]
#re: Teein.com中文论坛搜索引擎 编辑
分布式模型我建议你使用类似gnutella式的结构。我们计算中心曾经利用这种模型,有60多台机器协同运算。按照理论计算结果,2000台左右的机器应该不会有太大的问题。

这样有几个好处:
1.每个node完全独立,一个加入和断开,无须配置。
2.各个node可以放置任意地方,只要有普通的带宽,就可以了,可以省去很多托管费用。
3。作为web可以不需要进行搜索计算,只需要获取结果并显示,大大加快速度。
.....

供参考。


2004-12-07 10:38:00 | [匿名用户:hehe]
#re: Teein.com中文论坛搜索引擎 编辑
由于论坛搜索是基于精确匹配的,因此不能像Google一样只要拿一个链接就可以了,需要知道这个帖子的回复人数,发贴时间,最后回复时间等等,这些就需要定制一个参数,但是好在论坛的结构不大变化,还有很多论坛都是基于某一现成的论坛程序建立的,有很大的通用性。
2004-12-07 10:13:00 | [匿名用户:Roy]
#re: Teein.com中文论坛搜索引擎 编辑
相当不错。如果按照你的说法,你这个应该需要对每个(至少每种)论坛都要定义一个匹配项?不是爬虫自己爬出来的?这感觉和google这种不太一样?
我觉得google是顺着网页不断的找链接这样。。。

那这种岂不是要花费很多人工?而且如果对方一改动设计界面,如果正好涉及到你的匹配项,不就乱了?而且对于需要登录的论坛,是不是要手工建论坛帐户?

刚刚用了一下:建议cache页面。我连着碰到三个不可访问的。
2004-12-07 10:04:00 | [匿名用户:hehe]
#re: Teein.com中文论坛搜索引擎 编辑
很牛B!

俺也曾经想做过类似的东东,交流一下吧。我的MSN:dumack@msn.com
2004-12-07 10:00:00 | [匿名用户:张海山]
#re: Teein.com中文论坛搜索引擎 编辑
HTML解析很多方法,用DOM, 正则表达式, 字符串匹配等等,我用的是字符串匹配+正则表达式,因为论坛格式较为固定,用DOM有些东西不能匹配,如javascript。
2004-12-07 09:44:00 | [匿名用户:Roy]
#re: Teein.com中文论坛搜索引擎 编辑
对,现在论坛是很少。没办法,人手和资源都有限,只能一点点来。所以现在也没有去大规模推广。
2004-12-07 09:31:00 | [匿名用户:Roy]
#re: Teein.com中文论坛搜索引擎 编辑
我最近也在研究解析HTML,不知道你是怎么做的?
2004-12-07 09:26:00 | [匿名用户:format]
#re: Teein.com中文论坛搜索引擎 编辑
期待更多的介绍
2004-12-07 09:17:00 | [匿名用户:活靶子的靶子]
#re: Teein.com中文论坛搜索引擎 编辑
交流一下,俺也在考虑这方面的东西,光搜索感觉价值有限,如果后台能结合BI应用,就好了,,
2004-12-07 09:06:00 | [匿名用户:leo]
#re: Teein.com中文论坛搜索引擎 编辑
我用过这个东西!里面的论坛太少了
不过很有创意
2004-12-07 09:03:00 | [匿名用户:pig]
#re: Teein.com中文论坛搜索引擎 编辑
期待你的介绍。
2004-12-07 08:59:00 | [匿名用户:cnlamar]
#re: Teein.com中文论坛搜索引擎 编辑
期待~~想了解并虚心学习一下~
2004-12-07 00:34:00 | [匿名用户:jiazi]
对不起,目前本随笔不允许发表新评论.

Powered by: Joycode MVC Blogger System