您的位置: 首页 > 技术文档 > 网站建设 > Google 的 PageRank 算法
通用界面指南 回到列表 开拓思路 基于链接的两个研究
 Google 的 PageRank 算法

作者:戴云杰 时间: 2003-12-23 文档类型:原创 来自:蓝色理想

第 1 页 Google 的 PageRank 概述
第 2 页 Google 的 PageRank 算法 [1]
第 3 页 Google 的 PageRank 算法 [2]

 

前段时间看了 hedong对于PageRank算法学习的文章http://hedong.3322.org/archives/000199.html,参考了 PageRank的英文原始资料,感觉hedong写的内容稍微少了点,能有原版译文就更好了!Google了一下,没任何资料……还是自己开金山词霸看吧-.-

  想想反正都看了,索性再花点时间写成文字记下来,方便今后的同道者。可是……555,偶e文实在太Poor了,因此将原文一段段附上,如有严重错误,请一定留言指正!

  这是第一段,译自:Google PageRank Introduction - http://pr.efactory.de/


  Within the past few years, Google has become the far most utilized search engine worldwide. A decisive factor therefore was, besides high performance and ease of use, the superior quality of search results compared to other search engines. This quality of search results is substantially based on PageRank, a sophisticated method to rank web documents.

  在过去几年之内,Google成为了全世界被使用的最多的搜索引擎。与其它搜索引擎比较,除高性能和易用以外,一个决定性的因素是它的优秀的搜索结果。搜索结果的这质量极大地来源于PageRank——一个精密的排序网页文件等级的方式。

  The aim of these pages is to provide a broad survey of all aspects of PageRank. The contents of these pages primarily rest upon papers by Google founders Lawrence Page and Sergey Brin from their time as graduate students at Stanford University.

  本文的主要目的就是对PageRank的各个方面做一次广泛的勘测。本文内容主要依据Google创始人Lawrence Page和Sergey Brin在他们作为斯坦福大学研究生时的文章。

  It is often argued that, especially considering the dynamic of the internet, too much time has passed since the scientific work on PageRank, as that it still could be the basis for the ranking methods of the Google search engine. There is no doubt that within the past years most likely many changes, adjustments and modifications regarding the ranking methods of Google have taken place, but PageRank was absolutely crucial for Google's success, so that at least the fundamental concept behind PageRank should still be constitutive.

  经常被讨论的是,尤其是考虑到互联网的动态性,自从PageRank科学工作开始,许多时间被浪费了,因为他仍然可以是Google搜索引擎的等级等级的基本依据。毋庸置疑,在过去几年内有许多关于Google等级方法的调整和修改,但PageRank是Google成功的绝对关键,因此至少PageRank的根本概念在之后应该仍然不会改变的。

  Since the early stages of the world wide web, search engines have developed different methods to rank web pages. Until today, the occurence of a search phrase within a document is one major factor within ranking techniques of virtually any search engine. The occurence of a search phrase can thereby be weighted by the length of a document (ranking by keyword density) or by its accentuation within a document by HTML tags.

PageRank的概念

  从万维网的早期,搜索引擎开发不同的方法排序网页。实际上,直到今天,任一个搜索引擎对网页的排序,是根据搜索的词组短语在页面中的出现次数,并用页面长度和html标签的重要性提示等进行权重修订。

  For the purpose of better search results and especially to make search engines resistant against automatically generated web pages based upon the analysis of content specific ranking criteria (doorway pages), the concept of link popularity was developed. Following this concept, the number of inbound links for a document measures its general importance. Hence, a web page is generally more important, if many other web pages link to it. The concept of link popularity often avoids good rankings for pages which are only created to deceive search engines and which don't have any significance within the web, but numerous webmasters elude it by creating masses of inbound links for doorway pages from just as insignificant other web pages.

  为了得到更好的搜索结果,尤其是使搜索引擎自动抵制那些基于对详细等级标准页面(入口页)内容的分析而自动生成的网页,连接人气值的概念开始被开发了。根据这个概念,一个网页文件的入链数量通常表示此文件的重要程度。因此,一般地,如果从其他网页链接到一个网页的数量越多,那么这个网页就越重要。链接人气值的概念通常可以避免那些只被创造出来欺骗搜索引擎并且没有任何实际意义的网页得到好的等级,然而,许多网站管理员为了避免发生这种情况,他们从其他没有意义的网页创建大量入站链接,而不是从入口页(doorway pages)。

  Contrary to the concept of link popularity, PageRank is not simply based upon the total number of inbound links. The basic approach of PageRank is that a document is in fact considered the more important the more other documents link to it, but those inbound links do not count equally. First of all, a document ranks high in terms of PageRank, if other high ranking documents link to it.

  与链接人气值向比较,PageRank的概念并不是简单地根据入站链接的总数。PageRank基本的方法是,越是重要的文件链接一个文件,则这个文件就越重要,但那些入站链接并不是被平等计算的。首先,如果其他高等级的文件连接到它,那么根据PageRank的规则,此文件的等级也高。

  So, within the PageRank concept, the rank of a document is given by the rank of those documents which link to it. Their rank again is given by the rank of documents which link to them. Hence, the PageRank of a document is always determined recursively by the PageRank of other documents. Since - even if marginal and via many links - the rank of any document influences the rank of any other, PageRank is, in the end, based on the linking structure of the whole web. Although this approach seems to be very broad and complex, Page and Brin were able to put it into practice by a relatively trivial algorithm.

  如此, 在PageRank概念中,文件的等级由与它连接那些文件的等级决定的。它们的等级再由与他们连接文件的等级决定。因此, 文件的PageRank由其他文件的PageRank总递归之和确定。因为,即使是在边缘的少量链接,任一个文件的等级都会影响些其他文件的等级,概言之,PageRank的等级是由整个网的连接结构决定的。虽然这种方法似乎是非常宽泛和复杂的, Page和Brin已经能够通过一个微不足道的运算法则将它投入实践了。

  个人总结:PageRank绝对是个很科学的小创意。说他科学,你会在我以后的文章中看到Google是如何将数学(具体来说多数是统计学)理论淋漓尽致地发挥在搜索技术之中。说他“小”,因为这些理论对于搞数学的人来说实在太微不足道了,甚至稍微有些科学高数知识的人都能理解。

  我一向认为,搜索引擎对于互联网的价值就好比桌面操作系统对于计算机的价值,微软已经无可争议地占领PC桌面之后,互联网的桌面之争从Internet诞生起就异常惨烈,后来Yahoo!因为进入互联网最早而取得阶段性胜利。不过那时候的搜索引擎对于我们来说好比是马桶……不得不用,一用就恶心。那时无论是Yahoo!AltaVistaAllTheWeb或者Lycos,搜索出来几乎都是大便。

  对于我来说,生命中出现搜索引擎的一天,是我同学的一个英国的同学告诉我用用看www.google.com

出处:蓝色理想
责任编辑:蓝色

上一页 下一页 Google 的 PageRank 算法 [1]

相关文章 更多相关链接
一声惊雷,Google正式申请上市
Google将推出免费Gmail电子邮件
Google 推出中文管理推广界面
Google“广告代理”内幕调查
开拓思路 基于链接的两个研究
作者文章
Google 的 PageRank 算法
关键字搜索 常规搜索 推荐文档
热门搜索:CSS Fireworks 设计比赛 网页制作 web标准 用户体验 UE photoshop Dreamweaver Studio8 Flash 手绘 CG
站点最新 站点最新列表
周大福“敬•自然”设计大赛开启
国际体验设计大会7月将在京举行
中国国防科技信息中心标志征集
云计算如何让安全问题可控
云计算是多数企业唯一拥抱互联网的机会
阿里行云
云手机年终巨献,送礼标配299起
阿里巴巴CTO王坚的"云和互联网观"
1499元买真八核 云OS双蛋大促
首届COCO桌面手机主题设计大赛
栏目最新 栏目最新列表
浅谈JavaScript编程语言的编码规范
如何在illustrator中绘制台历
Ps简单绘制一个可爱的铅笔图标
数据同步算法研究
用ps作简单的作品展示页面
CSS定位机制之一:普通流
25个最佳最闪亮的Eclipse开发项目
Illustrator中制作针线缝制文字效果
Photoshop制作印刷凹凸字体
VS2010中创建自定义SQL Rule
>> 分页 首页 前页 后页 尾页 页次:1/31个记录/页 转到 页 共3个记录

蓝色理想版权申明:除部分特别声明不要转载,或者授权我站独家播发的文章外,大家可以自由转载我站点的原创文章,但原作者和来自我站的链接必须保留(非我站原创的,按照原来自一节,自行链接)。文章版权归我站和作者共有。

转载要求:转载之图片、文件,链接请不要盗链到本站,且不准打上各自站点的水印,亦不能抹去我站点水印。

特别注意:本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有,文章若有侵犯作者版权,请与我们联系,我们将立即删除修改。

您的评论
用户名:  口令:
说明:输入正确的用户名和密码才能参与评论。如果您不是本站会员,你可以注册 为本站会员。
注意:文章中的链接、内容等需要修改的错误,请用报告错误,以利文档及时修改。
不评分 1 2 3 4 5
注意:请不要在评论中含与内容无关的广告链接,违者封ID
请您注意:
·不良评论请用报告管理员,以利管理员及时删除。
·尊重网上道德,遵守中华人民共和国的各项有关法律法规
·承担一切因您的行为而直接或间接导致的民事或刑事法律责任
·本站评论管理人员有权保留或删除其管辖评论中的任意内容
·您在本站发表的作品,本站有权在网站内转载或引用
·参与本评论即表明您已经阅读并接受上述条款
推荐文档 | 打印文档 | 评论文档 | 报告错误  
专业书推荐 更多内容
网站可用性测试及优化指南
《写给大家看的色彩书1》
《跟我去香港》
众妙之门—网站UI 设计之道
《Flex 4.0 RIA开发宝典》
《赢在设计》
犀利开发—jQuery内核详解与实践
作品集 更多内容

杂⑦杂⑧ Gold NORMANA V2