Google本周二(2005.7.19)宣布任命李开复担任其筹建中的中国研发中心总监 李开复离职前最近一段时间专注于新技术研发。负责“MSN网络搜索应用总体开发”
微软不得不使用违反竞争协议,状告GOOGLE和李开复,以此来拖慢GOOGLE的发展步伐。但GOOGLE明知违法,也要继续这次挖角,显然,挖角的损失比起加快自己发展速度来说还是要划算很多。
这是分属网络时代和PC时代的两个公司的对决,明显,GOOGLE后来居上。
在技术上的四大搜索技术将是今后两公司的竞争重点。 传统的网络搜索、桌面搜索、博客服务、电子邮件
且不管因此引起的微软和Google之间的官司如何,可见网络搜索已逐渐成为新抢手的应用范畴。我想有兴趣的程序员,可以学习一下有关搜索引擎的知识,这必将对你的职业人生产生不小影响。
在此简要的说一下搜索引擎的基本步骤(主要说自动的) 1.编辑 一般通过Robot(即爬虫,网络蜘蛛)到各个网站采集数据 2.检索 一般根据关键词建立索引以便快速查询 3.分类 一般通过Open Directory Project(开放式目录管理) 4.排序 要保证前100个满足98%用户的需求,其中分词很重要
其中的难点如下(个人拙见) 1.公正性 及时更新很重要,目前主要通过Robot和ODP,这样容易被SEO(搜索引擎优化)钻空子,故需要独有的技术,如使用PageRank 2.关键词 一般分自动和词表切分,为了更高的索引效率低建议使用词表切分,但词表维护成本非常高,目前已有很多人研究,如 www.rainsts.net/article.asp?id=48 关于分词的概念:http://www.microsoft.com/china/rdcenter/info/result/chinese.asp 3.分布式 主要是为大数据量做准备,模型很重要,有点像分公司各自运作,各个公司负责几个区域的市场,查询时又互相内部交流 4.过滤器 将类似的重复的以及无关痛痒的过滤掉,才能更有效的“前100个满足98%”,毕竟客户搜索的更关心的是内容,但也要有个开关,类似Google做法
对于李开复加入搜索行业可能带来的影响(个人预测) 1.人机交互 使查询更为人性化,有点像以前Chinaren那孙悟空搜索,但应该更出色 2.媒体搜索 虽然MPEG7已经出了很久,但实际上真正用于媒体搜索毕竟少数
说了这么多,如何入门很关键:建议到
http://sourceforge.net/projects/dotlucene 下载dotLucene学习 Lucene原来是java写的,现在成了apache的开源项目。 地址: http://jakarta.apache.org/lucene/ Lucene的贡献者Doug Cutting是一位资深全文索引/检索专家,曾经是V-Twin搜索引擎(Apple的Copland操作系统的成就之一)的主要开发者,目标是为各种中小型应用程序加入全文检索功能。
车东 www.chedong.com ,也在 sourceforge 上开设了自己的开源项目,叫weblucence,支持中日韩语。
www.Teein.com 开站也就一年不到,就于2005年5月获得IDG风险投资,其中文论坛搜索引擎就是以dotLucene做底层索引库的
参见资料 http://ceo.icxo.com/htmlnews/2005/07/20/635019.htm http://www.chedong.com/tech/lucene.html http://blog.joycode.com/roy/archive/2004/12/07/40571.aspx http://www.blueidea.com/bbs/NewsDetail.asp?id=2140319
出处:蓝色理想
责任编辑:蓝色
|