首页 / 营销学院 / 搜索引擎 / 谷歌搜索引擎算法原理及运作方式

谷歌搜索引擎算法原理及运作方式

浏览数量:68     作者:本站编辑     发布时间: 2019-08-27      来源:本站



Google 搜索的运作方式


您每次进行搜索时,都会在搜索结果中看到成千上万个含有实用信息的网页,有时甚至是数百万个。早在您输入搜索内容之前,Google 就已开始算计要显示哪些结果,并秉持向您提供最佳信息的承诺。


谷歌搜索的运作方式

整合网上内容 


早在您开始搜索之前,Google 便已将有关网页的信息整合在 Google 搜索索引中。该索引就像是一个图书馆,只不过它包含的信息比全世界所有图书馆加起来的信息还要多。


谷歌搜索算法

瞬间即可提供与您的搜索查询相符的结果 


Google 的搜索算法会对 Google 搜索索引中数以千亿的网页进行整理,以便根据您查询的内容为您提供最相关、最实用的结果,而且整个过程瞬间即可完成。


Google搜索算法

Google搜索基础知识


抓取流程是从以往所抓取内容的网址列表和由网站所有者提供的站点地图开始的。在访问这些网站时,我们的抓取工具会使用网站上的链接来探索其他网页。该软件会特别关注新网站、对现有网站进行的更改以及无效链接。计算机程序会确定要抓取的网站、抓取频率以及要从每个网站中抓取的网页数量。


我们提供了 Search Console,让网站所有者可以精确地控制 Google 如何抓取其网站:他们可以提供详细说明,告诉我们如何处理其网页;可以申请重新抓取;也可以使用名为 robots.txt 的文件,选择完全不抓取。Google 决不接受为了更频繁地抓取网站而付费的行为 - 我们为所有网站提供相同的工具,以确保用户尽可能获得最佳结果。


通过抓取查找信息


网络就像一个规模与日俱增的图书馆,虽然收藏的图书已有数十亿本之多,却没有中央档案管理系统。我们使用一种称为网页抓取工具的软件来发现供公众访问的网页。抓取工具会查看网页,并跟踪访问这些网页上的链接,就好像您在网上浏览内容一样。这类抓取工具会逐一访问各个链接,并将各网页的相关数据返回至 Google 的服务器。


通过编入索引整理信息


当抓取工具找到一个网页时,我们的系统就会像浏览器一样呈现该网页的内容。我们会记下关键信号(从关键字到网站新鲜度),然后会在 Google 搜索索引中跟踪所有这些内容。


Google 搜索索引中包含数千亿个网页,其大小远远超过 1 亿千兆字节。它就像图书后部的索引一样 - 编入索引的每个网页上出现的每个字词都对应着一个条目。在将某个网页编入索引时,系统会将该网页分别添加到其包含的所有字词的对应条目中。


借助知识图谱,我们将继续超越关键字匹配,以更好地了解您关注的人、地点和事物。为此,我们不仅要整理有关网页的信息,还要整理其他类型的信息。如今,Google 搜索不仅可帮助您搜索大型图书馆内数百万册图书中的内容,查找当地公交公司的线路和车次安排,还可帮助您浏览世界银行等公开来源的数据。


搜索算法的工作方式



网络上的信息繁多庞杂,如果不借助一些服务对信息进行整理和排序,要找到您需要的内容会如同大海捞针。Google 排名系统旨在实现这一目标:它们会对 Google 搜索索引中的数千亿个网页进行整理和排序,以便瞬间找出最相关、最实用的结果,并将这些结果以一种有助于您查找所需内容的方式呈现出来。


这些排名系统由一系列算法组成,而不是一个算法。为了向您提供最实用的信息,Google 搜索算法会考虑很多因素,包括您查询的字词、网页的相关性和可用性、来源的专业度,以及您所在的位置和您采用的设置。系统为每个因素赋予的权重因查询的性质而异,例如,与字典定义的查询结果相比,对于时事新闻主题的查询结果,内容的新鲜度更加重要。


为了协助确保 Google 搜索算法符合严苛的相关性和质量标准,我们制定了严格的流程,不仅展开现场测试,更有数千位来自世界各地训练有素的外部 Google 搜索质量评分者参与评估。这些质量评分者会遵循严格的指南,该指南明确指出了 Google 搜索算法的目标,可供所有人查看。



下文详细介绍了 Google 搜索会根据哪些主要因素来确定对于每个查询要返回哪些结果:


分析您的字词

理解搜索字词的含义对于返回优质结果至关重要。因此,为了找到包含相关信息的页面,我们的第一步就是分析您的搜索查询中的字词的含义。我们创建了语言模型,试图了解应该使用关键词的哪些部分在索引中进行查询。

这会涉及到看起来如同解析拼写错误一样简单的步骤,并会扩展到通过将自然语言理解方面的部分最新研究成果付诸应用来尝试理解您输入的查询的类型。例如,即便一个字词有多种定义,我们的同义词系统也能帮助 Google 搜索理解您的意思。该系统的开发过程历时超 5 年,大幅改善了超过 30% 的搜索的结果(涵盖各种语言)。

谷歌搜索算法

我们还会尝试理解您要寻找的信息所属的类别。是非常具体的搜索还是宽泛的查询?是否存在“审核”、“照片”或“营业时间”等能够表明搜索所蕴含的具体信息需求的字词?您是否在搜索暗示您想查找当天所发布内容的热门关键字?或者,您是否在搜索附近的商家并需要获得相关的本地信息?


对于这种查询分类,一个非常重要的方面在于,我们会分析您的查询是否要查找新鲜内容。如果您搜索热门关键字,我们的新鲜度算法会将其解读为这样一种信号:最新信息比日期较早的网页更有用。也就是说,当您搜索最新的“NFL 比分”、《与星共舞》比赛成绩或“埃克森美孚的收益”时,您看到的结果会是最新信息。


与您的搜索内容相符

接下来,我们会寻找包含与相应查询匹配的信息的网页。当您搜索时,在最基本的层面上,我们的算法会在索引中查询您的搜索关键词以找到适当的网页。这些算法会分析相关关键字在某个网页上(不论是在标题中还是在正文中)的出现频率和显示位置。

当某个网页中包含与您的搜索查询内容相同的关键字时,这是表示搜索到的信息可能与您要查找的内容相关的最基本信号。如果网页或者文本的标题或正文中出现这些关键字,则表示该信息与您要查找的内容相关的可能性更大了。除了简单的关键字匹配之外,我们还使用经过汇总和匿名化处理的互动数据来评估搜索结果是否与查询内容相关。我们会将这些数据转换为信号,以协助我们的机器学习系统更好地评估相关性。


除了匹配关键字,我们的算法还会寻找线索来衡量潜在搜索结果能从多大程度上满足用户的搜索需求。当您搜索“狗”时,您想看到的应该不是含有数百个“狗”字的网页。我们会尽力确定网页是否包含与您的查询对应的答案(而非只是重复您的查询)。因此,Google 搜索算法会分析网页是否包含相关内容,例如狗的图片、视频,甚至是品种列表。最后,我们会检查网页所用的语言是否与您的查询所用的语言相同,以便优先显示采用您的首选语言的网页。


需要说明的是,尽管我们的系统确实会通过寻找这类可量化的信号来评估相关性,但并不会因此用于分析主观观念,例如分析网页内容的观点或政治倾向。


为实用网页排名


对于一项典型的查询,含有可能相关的信息的网页会多达数千个甚至数百万个。因此,为了帮助将最符合需求的网页排在靠前的位置,我们还编写了算法来评估这些网页的实用性。


这些算法会分析数百种不同的因素 - 从内容的新鲜度,到您的搜索关键词的出现次数以及网页能否提供出色的用户体验 - 以尽力呈现网络所能提供的最有用的信息。为了评估内容在相关主题方面的可信度和权威性,我们会寻找那些看起来在类似查询中受到大量用户青睐的网站。如果与该主题相关的其他知名网站链接到了相应页面,则可充分说明此页面上的信息具有较高的品质。


网络中有很多垃圾网站会试图通过再三重复关键字或购买可提升 PageRank 的链接等各种不当手段,蒙混到搜索结果中靠前的位置。这些网站提供的用户体验非常糟糕,甚至可能会伤害或误导 Google 用户。因此,我们编写了算法来识别网络垃圾并将那些违反 Google 网站站长指南的网站从结果中移除。

网络和更广阔信息生态系统中的内容在不断变化,因此我们不会停止衡量和评估自身系统的质量,确保在信息相关性和权威性之间实现适当的平衡,让用户始终信任看到的搜索结果。


返回最佳结果

在为您提供结果之前,我们会评估所有相关信息的综合效果:这些搜索结果是只有一个主题,还是有很多主题?是否有过多的页面在着重探讨一条狭义的诠释?我们会努力根据您的搜索类型以最有用的格式提供一系列多样的信息。此外,随着网络不断发展,我们会不断优化排名系统,以便为更多查询提供更优质的结果。

这些算法会通过分析相关信号来评估是否所有用户都能查看搜索结果。例如:网站是否能在不同的浏览器中正常显示;网站是否适合各种类型和尺寸的设备(包括桌面设备、平板电脑和智能手机);以及网页加载时间对于互联网连接速度较慢的用户而言是否合适。

鉴于网站所有者可以提高其网站的易用性,我们会在对 Google 搜索算法做出重大更改时尽量提前通知网站所有者以便其可以做出应对。例如,在 2018 年 1 月,我们宣布 Google 搜索算法将开始把网站的“网页速度”纳入考量范围,这一通知比更改的正式实施时间提早了 6 个月。为协助网站所有者,我们提供了详细的指导以及 PageSpeed Insights 和 Webpagetest.org等工具,这样网站所有者就可以了解他们需要调整哪些方面(如果有)来使其网站更适合移动设备。


考虑具体环境

您的位置、过往搜索记录和搜索设置等信息可帮助我们即时地为您量身显示最实用且最相关的结果。

我们使用您的国家/地区和位置信息来提供与您所在区域相关的内容。例如,如果您身处芝加哥并搜索“橄榄球”,Google 便极有可能会先为您显示有关美国橄榄球和芝加哥熊队的结果。但如果您是在伦敦搜索“足球”,Google 则会在比较靠前的位置显示有关英式足球和英超联赛的结果。搜索设置也是一项重要的指标,可表明哪些结果可能会对您有用。例如,如果您设置了首选语言或已选择启用安全搜索(一种有助于滤除露骨结果的工具)。

谷歌搜索算法考虑环境变量

在某些情况下,我们可能还会使用您的近期搜索活动的相关信息为您提供个性化的结果。例如,如果您搜索“巴塞罗那”,而且您最近搜索过“巴塞罗那 vs 阿森纳”,系统便可能会将您的这条搜索记录视为一个重要线索,从而推断出您十有八九是想查找与足球俱乐部(而非城市)相关的信息。您可通过访问 myaccount.google.com 来控制系统可使用哪些搜索活动来提升您的搜索体验,包括调整哪些数据会保存到您的 Google 帐号。

Google 搜索还有其他一些功能也有助于根据您 Google 帐号中的搜索活动记录为您显示个性化的搜索结果。例如,如果您搜索“附近的活动”,Google 可能会专门向您推荐我们认为您可能感兴趣的那些类活动。这些系统旨在协助 Google 搜索提供与您的兴趣相符的信息,而不会推断敏感性特征,例如您的种族、宗教或党派。

您可以在myaccount.google.com上控制系统为提升您的搜索体验可使用的搜索活动信息,包括设置系统可将哪些数据保存到您的 Google 帐号中。要停用 Google 搜索根据您帐号中的活动记录提供个性化结果的功能,请关闭“网络与应用活动记录”。


营销学院

快速导航

产品服务

联系我们

工作时间:周一至周五 | 9:00-18:00
地址:福州市鼓楼区软件园B区
国家863基地5楼Google出海体验中心

电话: 18559271352| 厦门米


扫一扫,获取最新资讯
 

我们联系您
 
Copyright  福建米多多网络科技有限公司 站点地图