网页分类算法(HITS、TrustRunk、PageRunk、HillTop算法啥意思对SEO有什么指导意义)

本文目录
- HITS、TrustRunk、PageRunk、HillTop算法啥意思对SEO有什么指导意义
- 如何计算网站网页相似度
- 网络爬虫采用的是哪种算法策略
- 如何让自己上传在一些音乐网站的翻唱及原创音乐在百度等搜索网站被搜到
- google最近公布了它对网页排名的精确公式,究竟如何
HITS、TrustRunk、PageRunk、HillTop算法啥意思对SEO有什么指导意义
HITS算法
HITS算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,为IBM 公司阿尔马登研究中心( IBM Almaden Research Center) 的名为“CLEVER”的研究项目中的一部分。
TrustRank算法
TrustRank算法最初来自于2004年斯坦福大学和雅虎的一项联合研究,用来检测垃圾网站,并且于2006年申请专利。TrustRank算法发明人还发表了一份专门的PDF文件,说明TrustRank算法的应用。感兴趣的读者可以在下面这个网址下载PDF文件:
TrustRank算法并不是由Google提出的,不过由于Google所占市场份额最大,而且TrustRank在Google排名中也是一个非常重要的因素,所以有些人误以为TrustRank是Google提出的。更让人糊涂的是,Google曾经把TrustRank申请为商标,但是TrustRank商标中的TrustRank指的是Google检测含有恶意代码网站的方法,而不是指排名算法中的信任指数。
基于这个假设,如果能挑选出可以百分百信任的网站,这些网站的TrustRank评为最高,这些trustrank最高的网站所连接的网站信任指数稍微降低,但也会很高。与此类似,第二层别信任的网站链接出去的第三层网站,信任度继续下降。由于种种原因,好的网站也不可避免的会接到一些垃圾网站,不过离第一层网站点击距离越近,所传递的信任指数就越高,第一级网站点击距离越远,信任指数将依次下降。这样trustrank算法,就能给所有网站计算出相应的信任指数,离第一层网站越远,成为垃圾网真的可能性就越大。
PageRank
PageRank,即网页排名,是Google用来标识网页的等级或重要性的一种算法。
最早的搜索引擎采用的是 分类目录 的方法,即通过人工对网页进行分类并整理出高质量的网站。
随着网页数目的急剧增大,这种方法显然无法实施。于是,搜索引擎进入了 文本检索 的时代,即通过计算用户的查询语句与网页内容的相关程度来返回搜索结果。比如通过向量空间模型将输入的检索词和文件转换成向量,通过计算两个向量的夹角偏差程度(一般采用余弦距离)来衡量相关性。这种方法虽然能处理大量网页,但是效果却并不是很好,比如存在一些作弊行为:某些网页重复倒腾某些关键词从而使自己的搜索排名靠前。
于是,谷歌的两位创始人,当时还是美国斯坦福大学研究生的佩奇 (Larry Page) 和布林 (Sergey Brin) 开始了对网页排序问题的研究。他们受学术界对学术论文重要性的评估方法(论文引用次数)的启发,提出了PageRank算法。
PageRank的核心思想其实十分简单,概括如下:
如果一个网页被很多其它网页链接到,说明这个网页很重要,它的PageRank值也会相应较高;
如果一个PageRank值很高的网页链接到另外某个网页,那么那个网页的PageRank值也会相应地提高。
HillTop算法
HillTop,是一项搜索引擎结果排序的专利,是Google的一个工程师Bharat在2001年获得的专利。Google的排序规则经常在变化,但变化最大的一次也就是基于HillTop算法进行了优化。
如何计算网站网页相似度
据统计,网页上的大部分相同的页面占29%,而主体内容完全相同的占22%,这些重复网页有的是没有一点改动的拷贝,有的在内容上稍作修改,比如同一文章的不同版本,一个新一点,一个老一点,有的则仅仅是网页的格式不同(如 HTML, Postscript),文献将内容重复归结为以下四个类型:
1.如果2篇文档内容和格式上毫无差别,则这种重复叫做full-layout duplicate。
2.如果2篇文档内容相同,但是格式不同,则叫做full-content duplicates
3.如果2篇文档有部分重要的内容相同,并且格式相同,则称为partial-layout duplicates
4.如果2篇文档有部分重要的内容相同,但是格式不同,则称为partial-content duplicates
网页去重的任务就是去掉网页中主题内容重复的部分。它和网页净化(noise reduction),反作弊(antispam) 是搜索引擎的3大门神
去重在我看来起码有四好处:减少存储;增强检索效率;增强用户的体验;死链的另一种解决方案。
目前从百度的搜索结果来看,去重工作做的不是很完善,一方面可能是技术难度(precision和recall都超过90%还是很难的);另一方面可能是重复的界定,比如转载算不算重复?所以另一项附属的工作是对个人可写的页面(PWP)进行特殊的处理,那么随之而来的工作就是识别PWP页面。^_^这里就不扯远呢。
问题如何解决?
网页的deduplication,我们的算法应该是从最简单的开始,最朴素的算法当然是
对文档进行两两比较,如果A和B比较,如果相似就去掉其中一个
然而这个朴素的算法,存在几个没有解决的问题:
0.要解决问题是什么?full-layout?full-content?partial-layout还是partial-content?
1. 怎么度量A 和 B的相似程度
2. 去掉A还是去掉B,如果A ~B(~表相似,!~表示不相似),B~C 但是 A!~C,去掉B的话,C就去不掉。另一个更深入的问题是,算法的复杂度是多少?假设文档数为n,文档平均长度为m,如果相似度计算复杂度为m的某一个复杂度函数:T=T(m),文档两两比较的复杂度是O(n^2),合起来是O(n^2 * T(m)) . 这个复杂度是相当高的,想搜索引擎这样处理海量数据的系统,这样的复杂度是完全不能接受的,所有,另外三个问题是:
3. 如何降低相似度计算的复杂化度
4. 如何减少文档比较的复杂度
5. 超大数据集该如何处理
第0个问题是,我们要解决的关键,不同的问题有不同的解决方法,从网页的角度来看,结构的重复并不能代表是重复,比如产品展示页面,不同的产品展示页面就有相同的文档结构。内容来看,复制网站会拷贝其他网站的主要内容,然后加些广告或做些修改。所以,解决的问题是,partial-content deduplication,那么首先要抽取网页的主体内容。算法变成:
抽取文档主体内容,两两比较内容的相似性,如果A和B相似,去掉其中一个
其次,问题2依赖于问题1的相似度度量,如果度量函数具有传递性,那么问题2就不存在了,如果没有传递性,我们的方法是什么呢?哦,那就找一个关系,把相似关系传递开嘛,简单,聚类嘛,我们的框架可以改成:
抽取文档主体内容,两两比较内容的相似性,如果A和B相似,把他们聚类在一起,最后一个类里保留一个page
最后,归纳为几个步骤
第一步:识别页面的主题内容,网页净化的一部分,以后讨论
第二步:计算相似度
第三步:聚类算法,计算出文档那些文档是相似的,归类。
核心的问题是,“如何计算相似度?”这里很容易想到的是
1. 计算内容的距离edit distance(方法很有名,但是复杂度太高)
2. 把内容分成一个个的token,然后用集合的jaccard度量(好主意,但是页面内容太多,能不能减少啊?)
好吧,但是,当然可以减少集合的个数呢,采样,抽取满足性质的token就可以啦,如满足 mod m =0 的token,比如有实词?比如stopwords。真是绝妙的注意.在把所有的idea放一起前,突然灵光一现,啊哈,
3. 计算内容的信息指纹,参考google研究员吴军的数学之美系列。
把他们放在一起:
第一步:识别页面的主题内容,网页净化的一部分,以后讨论
第二步:提取页面的特征。将文章切分为重合和或不重合的几个结合,hash out
第三步:用相似度度量来计算集合的相似性,包括用信息指纹,Jaccard集合相似度量,random projection等。
第四步:聚类算法,计算出文档那些文档是相似的,归类。
方法分类:
按照利用的信息,现有方法可以分为以下三类
1.只是利用内容计算相似
2.结合内容和链接关系计算相似
3.结合内容,链接关系以及url文字进行相似计算
一般为内容重复的去重,实际上有些网页是
按照特征提取的粒度现有方法可以分为以下三类
1.按照单词这个级别的粒度进行特征提取.
2.按照SHINGLE这个级别的粒度进行特征提取.SHNGLE是若干个连续出现的单词,级别处于文档和单词之间,比文档粒度小,比单词粒度大.
3.按照整个文档这个级别的粒度进行特征提取
算法-具体见真知
1. I-Match
2. Shingling
3. Locality Sensitive Hashing.(SimHash)
4. SpotSigs
5. Combined
网络爬虫采用的是哪种算法策略
在爬虫系统中,待抓取URL队列是很重要的一部分。待抓取URL队列中的URL以什么样的顺序排列也是一个很重要的问题,因为这涉及到先抓取那个页面,后抓取哪个页面。而决定这些URL排列顺序的方法,叫做抓取策略。下面重点介绍几种常见的抓取策略:
1.深度优先遍历策略
深度优先遍历策略是指网络爬虫会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。我们以下面的图为例: 遍历的路径:A-F-G E-H-I B C D 2.宽度优先遍历策略 宽度优先遍历策略的基本思路是,将新下载网页中发现的链接直接插入待抓取URL队列的末尾。也就是指网络爬虫会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。还是以上面的图为例: 遍历路径:A-B-C-D-E-F G H I 3.反向链接数策略 反向链接数是指一个网页被其他网页链接指向的数量。反向链接数表示的是一个网页的内容受到其他人的推荐的程度。因此,很多时候搜索引擎的抓取系统会使用这个指标来评价网页的重要程度,从而决定不同网页的抓取先后顺序。 在真实的网络环境中,由于广告链接、作弊链接的存在,反向链接数不能完全等他我那个也的重要程度。因此,搜索引擎往往考虑一些可靠的反向链接数。 4.Partial PageRank策略 Partial PageRank算法借鉴了PageRank算法的思想:对于已经下载的网页,连同待抓取URL队列中的URL,形成网页集合,计算每个页面的PageRank值,计算完之后,将待抓取URL队列中的URL按照PageRank值的大小排列,并按照该顺序抓取页面。 如果每次抓取一个页面,就重新计算PageRank值,一种折中方案是:每抓取K个页面后,重新计算一次PageRank值。但是这种情况还会有一个问题:对于已经下载下来的页面中分析出的链接,也就是我们之前提到的未知网页那一部分,暂时是没有PageRank值的。为了解决这个问题,会给这些页面一个临时的PageRank值:将这个网页所有入链传递进来的PageRank值进行汇总,这样就形成了该未知页面的PageRank值,从而参与排序。下面举例说明: 5.OPIC策略策略 该算法实际上也是对页面进行一个重要性打分。在算法开始前,给所有页面一个相同的初始现金(cash)。当下载了某个页面P之后,将P的现金分摊给所有从P中分析出的链接,并且将P的现金清空。对于待抓取URL队列中的所有页面按照现金数进行排序。 6.大站优先策略 对于待抓取URL队列中的所有网页,根据所属的网站进行分类。对于待下载页面数多的网站,优先下载。这个策略也因此叫做大站优先策略。
如何让自己上传在一些音乐网站的翻唱及原创音乐在百度等搜索网站被搜到
先加关键字,再向搜索引擎提交收录,就可以找到你的地址.
关键字:
以下是比较重要的Meta值,务必要在网页中加入。
《meta name="Description" content="网页内容描述"/》
《meta na
一些常用的搜索引擎登录地址:
百度 天网 http://home.tianwang.com/denglu.htm
google最近公布了它对网页排名的精确公式,究竟如何
什么是PageRank?
PageRank是Google衡量网页重要性的工具,测量值范围为从1至10分别表示某网页的重要性。在Google工具栏可以随时获得某网页的PageRank值。在这里我们将透视PageRank的一些特殊之处,从而对其能够获得较为深入的了解,使广大用户能够更好的使用和了解Googel。
网站排名的历史渊源
上世纪90年代早期网络刚刚兴起之时,每天都有大量的含有特别行业内容的站点发布于网上。网上冲浪者却没有相应的工具定位这些他们认为存在的,但是却没有办法找到域名或网址的站点。到了1993年,雅虎诞生了。雅虎的诞生为网民减轻了这些烦恼。雅虎最初将每一个它所找到的网站,按照所属的分类目录进行划分组织,建立起一个整洁的、可以逐级查找的数据库,雅虎同时也在网站上置入一个 搜索引擎可以根据数据库中存在的“关键词”搜索到网站。接着其他搜索引擎如Altavista ,Excite, Lycos等也相继推出供用户使用的搜索工具。他们中的大多数是根据找到的元标识中的关键词来识别网站的相关性。
事情好像发展地很顺利,但是当站主及网管意识到可以在元标识中插入行业关键词或其他站点代码,就可以巧妙的得到搜索结果页面上的较高的位置的时候问题来了。有一段时间,搜索引擎的结果被这些垃圾网站搞得乱七八糟,他们用某些相关的关键词充斥于网站的各个角落,可是展现在用户面前的实际内容确实糟糕透顶。那些信用较高、地位重要的搜索引擎开始受到挑战,他们必须采取更好的措施精确为用户输出的搜索结果。
Google网页级别祥解
Google意识到了传统搜索引擎所面临的这种问题。如果相关性有网管来控制的话,那么排名结果必将被他们人为安排的大量相关关键词所污染,掩蔽了真正的相关性。
网络的本质就是超链接。我们从逻辑上分析,每个人都让自己的网站与某些重要的站点相链接,那么,本质上,这个站点就投了对方的一票。当上百上千个站点链接到这个站点时,我们认为这个站点是一个很好的很重要的站点也就非常符合逻辑了。
就是在这样的逻辑推理下,Google的两位创始人Sergey Brin及Larry Page建立了一个搜索引擎算法公式,即将排名比重转移到了网页意外的因素上。他们的公式被命名为“PageRank”(以创建人Larry Page的名字命名)。Google就是利用这一公式计算链接到某一网页的网站数量,然后按照从1-10分别给予表示重要度的分数。链接到网页的站点越多,PageRank的分数越高。
Sergey Brin和Larry Page在1998年把PageRank技术配置进Google一同推出。结果出乎的成功。Google这种难以认为控制的算法公司得出的出众的相关结果大大超过了竞争对手。这种新的算法不仅有助于提供出权威的高质量的信息,而且使得站主即网管很难利用作弊手段取得较高排名。
Google的PageRank之所以如此重要,就是因为影响网页排名的因素主要是依赖于网页意外的因素,而非能够认为操纵的因素。
Google对PageRank的解释
在Google网站上有一个专门的域名介绍PageRa
希望能解答你的疑惑

更多文章:
东莞优化公司选择乐云seo专家,小型企业如何制定合理的SEO预算?
2026年6月25日 15:45
乌鲁木齐建设网络学院官网(新疆生产建设兵团有哪些科教文卫等事业单位)
2026年5月8日 18:06
设计软件ai的全称(AI是什么,它的全称是我说的是平面设计方面的这个软件哦!)
2026年5月3日 04:50




















