顶部横幅广告
  • 微信
您当前的位置:首页 > 博文日记

谈谈搜索引擎的核心算法——SEO必备技能

作者:石德生 时间:2022-03-31 阅读数:人阅读文章来源:网络

外部链接是搜索引擎算法中判断一个网站权重的重要指标。当用户在搜索框中输入关键字时,搜索引擎会面对大量内容相同的网页。首先你需要弄清楚的是,通过什么参数你认为网页排名高低。今天笔者就简单介绍一下外链建设中最著名的核心算法:PageRank算法、Hilltop算法、DirectHit算法。

 第一种算法,PageRank算法

 1998 年,Sergey Brin 和Lawrence Page 提出了PageRank 算法。该算法基于“很多优质网页链接的网页一定是优质网页”的回归关系来判断网页的重要性。该算法认为从网页A到网页B的链接可以认为是从A页到B页的支持票,根据票数判断该页的重要性。当然,不仅仅是投票数,还有投票页面的重要性。投票越重要的页面,评价越高。基于这样的分析,获得高评分的重要页面将获得更高的PageRank值,并且它们在搜索结果中的排名也会增加。 PageRank是基于对“通过复杂算法获得的链接结构”的分析,从而获得每个网页的特征。

 分析:PageRank算法的优点是对互联网上的网页给出了一个全局重要性的排名,算法的计算过程可以离线完成,有利于快速响应用户请求。但是,它的缺点是它与主题无关。它不区分页面上的导航链接、广告链接和功能链接,因此很容易高估广告页面。另外,PageRank 算法的另一个缺点是旧页面排名会高于新页面。页面高是因为新页面,即使是非常好的页面,除非它是网站的子站点,否则不会获得很多链接。这就是为什么PageRank 需要多种算法的组合。

 第二种算法,Hilltop算法

 HillTop 是一项搜索引擎结果排名专利,2001 年由Google 工程师Bharat 申请专利。HillTop 算法的指导思想与PageRank 一致,即搜索结果的排名权重由搜索结果的数量和质量决定。反向链接。但是,HillTop 认为仅计算与同一主题相关的文档的链接对搜索引擎来说更有价值,即与主题相关的页面之间的链接比不相关的链接对权重计算的贡献更大。在1999-2000 年,Bharat 和其他Google 开发人员开发算法时,他们将这些主题文档称为“专家”文档,只有这些专家文档页面到目标文档的链接决定了“权威分数”的主要部分。的链接页面。

 Hilltop算法流程:首先,计算出与查询主题最相关的“专家”资源列表;其次,在选定的“专家”组中识别相关链接,并按照他们识别相关的网络目标; “专家”的数量和相关性”。因此,着陆页得分反映了最中立的专家对查询主题的集体意见。如果没有这样的专家组,山顶将不会给出结果。

 从Hilltop算法流程可以看出,该算法主要包括两个方面:寻找专家;目标分类。通过对搜索引擎抓取的网页进行预处理来查找专家页面。对于关键字查询,首先找到专家并对返回的结果进行排序。

 权威页面是顶级专家针对某个查询主题所指向的页面。专家也可以是更广泛领域或其他学科领域的专家。专家页面上只有部分链接与该主题相关。因此,结合查询主题专家之间的相关出站链接,找到与查询主题相关的页面高度支持的页面。

 从最匹配的专家页面和相关的匹配信息中选择专家页面的超链接子集。尤其是选择那些与所有查询相关的链接。根据这些选定的链接,搜索目标的子集作为与查询主题最相关的网页。该目标子集包含由至少两个不相关的专家页面链接的网页。目标集根据指向它们的专家的综合得分进行排序。

 Hilltop 在应用程序中仍然存在一些不足之处。专家页面的搜索和确定在算法中起着关键作用,专家页面的质量决定了算法的准确性;但是,专家页面的质量和公正性很难在一定程度上得到保证。希尔顿忽略了大多数非专家页面的影响。在希尔顿的原型系统中,专家页面仅占整个页面的1.79%,并不能完全代表整个互联网。

 当Hiltop的算法无法得到足够多的专家页面集面子(少于两个专家页面)时,返回空,即Hiltop适合查询排名细化,但不能被覆盖。这意味着Hilltop 可以结合某种页面排名算法来提高准确性,不适合作为独立的页面排名算法。根据Hilltop 中的查询主题从专家页面集合中选择与主题相关的子集也是内联执行的,影响查询响应时间,就像上面提到的HITS 算法一样。随着专家页面集合的增长,算法的可扩展性会受到影响。

 分析:HITS算法的优势在于可以更好地描述互联网的组织特征。由于它只扫描互联网的一小部分,它需要更少的迭代、更快的收敛和更少的时间复杂度。

 但是,HITS算法也存在以下缺点:核心网页之间的交叉引用以增加对你网页的评价,当一个网站上的多个网页指向同一个链接,或者一个网页指向另一个网页上的多个文件时网站,会导致收视率异常上升,导致“垃圾链接”漏洞,网页上存在自动生成的链接;

 主题漂移,邻接图往往包含一些与搜索主题无关的链接。如果这些链接本身是枢纽或权威页面,那么就会出现主题漂移:对于每个不同的查询算法,都必须重新执行才能得到结果。这使得它无法在实时系统中使用,因为这种开销对于数千万个同时查询来说太大了。

 第三种算法,DirectHit算法

 与以往的算法相比,AskJeeves 的DirectHit 算法是一种注重信息质量和用户反馈的排名方法。其基本思想是搜索引擎将查询结果返回给用户,并跟踪用户对检索结果的点击。如果用户点击返回结果中排名靠前的网页,浏览时间短,用户再次点击其他搜索结果,则可以判断相关性低,系统会降低相关性。网站。另一方面,如果用户点击打开网页进行浏览,且浏览时间较长,则该网页的热度较高,相应地,系统会增加该网页的相关度。可以看到,在这种方法中,相关度不断变化。对于在不同时间检索到的同一个词,结果集的顺序也可能不同。这是一个动态的安排。

 分析:该算法的优点是节省了大量时间,因为用户正在阅读更多从搜索结果中过滤出来的合格结果。同时,该算法直接整合用户反馈信息,保证页面质量。

 但统计表明,DirectHit算法只适用于检索关键字较少的情况,因为它实际上并不是排序,而是一种过滤和提取。当检索数据库很大,关键词较多时,搜索返回的关键词有上千条结果,用户不可能全部查看。因此,这种方法不能作为主要的排名算法,而是作为一种很好的辅助排名算法,目前在很多搜索引擎中仍在使用。

 事实上,网页的搜索排名是几种算法综合作用的结果。仅仅通过分析以上三种算法,Pagerank可以给网站上所有的网页重要的排名,但是没有相关性或相关性,现在PR值骗局已经到了溢出的地步,所以PR在页面排名中的重要性已大大减少;

 Hilltop 算法提案将对大多数站长在建立外部链接时起到指导作用。在Hilltop 算法中,每个领域都会有多个专家页面。如果您搜索相关关键字,搜索引擎将首先从专家页面中查找它们。如果匹配不够,则从下一级开始搜索。链接到专家页面的页面,依此类推。

 DirectHit 算法可以作为Hilltop 和pagerank 的一个很好的补充。 DirectHit 考虑到用户体验的影响,实时更新搜索结果的质量。最符合搜索用户要求的页面应该是唯一的。用户从中搜索。单击框中的页面链接以开始使用。如果用户浏览网站超过一定时间,将被视为更符合用户搜索要求的结果页。如果点击长时间有效,则该页面在搜索引擎中的排名会相应提高。

 通过以上三种算法可以了解到,无论是构建外部链接还是网站内容,首先要考虑的就是相关性。在外链建设中,力求找到权威性强的网站、软文、相关话题的友情链接等,可以算是这些网站,支持你的同时,关注跳出率和网站浏览时间,时刻反馈用户数据,对一些关键页面和用户点击次数多的页面进行相关推荐。告诉用户点击更多页面。

本站部分文章、数据、图片来自互联网,一切版权均归源网站或源作者所有。

如果侵犯了你的权益请来信告知我们删除。邮箱:1737618317@qq.com

标签:网站收录
微信

石德生

当你还撑不起你的梦想时,就要去奋斗。如果缘分安排我们相遇,请不要让她擦肩而过。我们一起奋斗!

微信
上云折上折

猜你喜欢

    无相关信息