您的位置: 首页 > 业界动态 > 其它信息 > 由李开复跳槽GOOGLE的思考
loadr - Flash 载入条生成器 回到列表 动画音乐剧《芭比》即将上映
 由李开复跳槽GOOGLE的思考

作者:qiushuiwuhen 时间: 2005-07-22 文档类型:原创 来自:蓝色理想

Google本周二(2005.7.19)宣布任命李开复担任其筹建中的中国研发中心总监
李开复离职前最近一段时间专注于新技术研发。负责“MSN网络搜索应用总体开发”

微软不得不使用违反竞争协议,状告GOOGLE和李开复,以此来拖慢GOOGLE的发展步伐。但GOOGLE明知违法,也要继续这次挖角,显然,挖角的损失比起加快自己发展速度来说还是要划算很多。

这是分属网络时代和PC时代的两个公司的对决,明显,GOOGLE后来居上。

在技术上的四大搜索技术将是今后两公司的竞争重点。
传统的网络搜索、桌面搜索、博客服务、电子邮件

且不管因此引起的微软和Google之间的官司如何,可见网络搜索已逐渐成为新抢手的应用范畴。我想有兴趣的程序员,可以学习一下有关搜索引擎的知识,这必将对你的职业人生产生不小影响。

在此简要的说一下搜索引擎的基本步骤(主要说自动的)
1.编辑 一般通过Robot(即爬虫,网络蜘蛛)到各个网站采集数据
2.检索 一般根据关键词建立索引以便快速查询
3.分类 一般通过Open Directory Project(开放式目录管理)
4.排序 要保证前100个满足98%用户的需求,其中分词很重要

其中的难点如下(个人拙见)
1.公正性 及时更新很重要,目前主要通过Robot和ODP,这样容易被SEO(搜索引擎优化)钻空子,故需要独有的技术,如使用PageRank
2.关键词 一般分自动和词表切分,为了更高的索引效率低建议使用词表切分,但词表维护成本非常高,目前已有很多人研究,如 www.rainsts.net/article.asp?id=48
关于分词的概念:http://www.microsoft.com/china/rdcenter/info/result/chinese.asp
3.分布式 主要是为大数据量做准备,模型很重要,有点像分公司各自运作,各个公司负责几个区域的市场,查询时又互相内部交流
4.过滤器 将类似的重复的以及无关痛痒的过滤掉,才能更有效的“前100个满足98%”,毕竟客户搜索的更关心的是内容,但也要有个开关,类似Google做法

对于李开复加入搜索行业可能带来的影响(个人预测)
1.人机交互 使查询更为人性化,有点像以前Chinaren那孙悟空搜索,但应该更出色
2.媒体搜索 虽然MPEG7已经出了很久,但实际上真正用于媒体搜索毕竟少数

说了这么多,如何入门很关键:建议到

http://sourceforge.net/projects/dotlucene 下载dotLucene学习
Lucene原来是java写的,现在成了apache的开源项目。
地址: http://jakarta.apache.org/lucene/
Lucene的贡献者Doug Cutting是一位资深全文索引/检索专家,曾经是V-Twin搜索引擎(Apple的Copland操作系统的成就之一)的主要开发者,目标是为各种中小型应用程序加入全文检索功能。

车东 www.chedong.com ,也在 sourceforge 上开设了自己的开源项目,叫weblucence,支持中日韩语。

www.Teein.com 开站也就一年不到,就于2005年5月获得IDG风险投资,其中文论坛搜索引擎就是以dotLucene做底层索引库的

参见资料
http://ceo.icxo.com/htmlnews/2005/07/20/635019.htm
http://www.chedong.com/tech/lucene.html
http://blog.joycode.com/roy/archive/2004/12/07/40571.aspx
http://www.blueidea.com/bbs/NewsDetail.asp?id=2140319

出处:蓝色理想
责任编辑:蓝色

作者文章
由李开复跳槽GOOGLE的思考
Google Deskbar 实现中文搜索
关键字搜索 常规搜索 推荐文档
热门搜索:CSS Fireworks 设计比赛 网页制作 web标准 用户体验 UE photoshop Dreamweaver Studio8 Flash 手绘 CG
站点最新 站点最新列表
周大福“敬•自然”设计大赛开启
国际体验设计大会7月将在京举行
中国国防科技信息中心标志征集
云计算如何让安全问题可控
云计算是多数企业唯一拥抱互联网的机会
阿里行云
云手机年终巨献,送礼标配299起
阿里巴巴CTO王坚的"云和互联网观"
1499元买真八核 云OS双蛋大促
首届COCO桌面手机主题设计大赛
栏目最新 栏目最新列表
《YoungNWP》第3期发布
奥斯卡大师亚洲巡讲火热报名中
Internet Explorer 9 平台预览版4
国内最大规模web前端技术聚会深圳站
绿色IT--云计算真的环保吗?
妙手回春:网站可用性测试及优化指南
Phpcms 2010模板大赛火热开赛
水晶石技法西安特训营系列报道
插画中国56期插画培训火爆招生中
乔家大院里的女人与Photoshop创意设计

蓝色理想版权申明:除部分特别声明不要转载,或者授权我站独家播发的文章外,大家可以自由转载我站点的原创文章,但原作者和来自我站的链接必须保留(非我站原创的,按照原来自一节,自行链接)。文章版权归我站和作者共有。

转载要求:转载之图片、文件,链接请不要盗链到本站,且不准打上各自站点的水印,亦不能抹去我站点水印。

特别注意:本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有,文章若有侵犯作者版权,请与我们联系,我们将立即删除修改。

您的评论
用户名:  口令:
说明:输入正确的用户名和密码才能参与评论。如果您不是本站会员,你可以注册 为本站会员。
注意:文章中的链接、内容等需要修改的错误,请用报告错误,以利文档及时修改。
不评分 1 2 3 4 5
注意:请不要在评论中含与内容无关的广告链接,违者封ID
请您注意:
·不良评论请用报告管理员,以利管理员及时删除。
·尊重网上道德,遵守中华人民共和国的各项有关法律法规
·承担一切因您的行为而直接或间接导致的民事或刑事法律责任
·本站评论管理人员有权保留或删除其管辖评论中的任意内容
·您在本站发表的作品,本站有权在网站内转载或引用
·参与本评论即表明您已经阅读并接受上述条款
推荐文档 | 打印文档 | 评论文档 | 报告错误  
专业书推荐 更多内容
网站可用性测试及优化指南
《写给大家看的色彩书1》
《跟我去香港》
众妙之门—网站UI 设计之道
《Flex 4.0 RIA开发宝典》
《赢在设计》
犀利开发—jQuery内核详解与实践
作品集 更多内容

杂⑦杂⑧ Gold NORMANA V2