Google优化算法内幕被扒,2500页大小文档实名泄露,搜索排名谎言暴露。

06-01 04:19

【导读】刚刚,一份2500页的内部文件泄露,谷歌优化算法的内幕,让很多人大吃一惊。


近日,谷歌2500页内部文件被曝光,曝光搜索——「网络上最强大的仲裁者」运行模式。


SparkToro是SparkToro的联合创始人和CEO,他在自己的网站上发表博客文章,声称「一个匿名者和我分享了谷歌搜索API文档的1000多页泄露,SEO中的每个人都应该看到。」!


多年来,Rand 在SEO领域,Fishkin一直是SEO领域(Search Engine Optimization,顶级代言人,搜索引擎优化),「网站权威性」(Domain Rating)他提出了这个概念。


因为在这一领域德高望重,Rand 在Fishkin爆料之前,自然要仔细检查这个身份不明的匿名者。


上个星期五,在发了几封电子邮件之后,Rand Fishkin和这个神秘的人进行了视频聊天,当然,对方并没有露面。


这个电话让Rand了解了更多关于这个泄露文件的信息:这是一个超过2500页的API文件,其中包含了14014个Attributes,这些特征似乎来自Google的内部。「Content API Warehouse」。


该代码于2024年3月27日上传至GitHub,并于2024年5月7日被删除,这是文档提交的历史记录。


通话结束后,Rand决定了匿名人士的工作经历和他们在营销领域认识的人。他决定满足匿名人士的期望——发表一篇文章分享泄露,并驳斥谷歌员工。「多年来一直传达的一些谎言」。


Matt Cutts、Gary Ilyes和John 多年来,Mueller否认谷歌将基于点击的用户数据用于排名。


关于沙盒、点击量、停留时间等影响SEO的因素,Rand的文章是谷歌之前强烈否认的。


这篇文章一发表,果然立刻引起了舆论的哗然,特别是SEO圈的特别关注。



另一位SEO专家Mikee King还发表文章,揭示谷歌「算法的秘密」。


Mike King说,「泄露的文件涉及谷歌收集和使用哪些数据,谷歌将哪些网站推广到选举等敏感话题,谷歌如何处理小网站等话题。」


许多资料表明,谷歌多年来并没有完全真实地报道,「文件中的一些信息似乎与谷歌代表的公开声明相冲突。」


面临着大家的质疑,谷歌选择沉默,拒绝发布这次爆炸性泄漏的帖子。


主人没有说话,而是一个神秘的人出现了,他之前匿名提供消息。5月28日,神秘人终于决定带头,发布了一段视频,视频中公布了他的身份。


他的名字叫Erfan Azimi,同时也是SEO从业者,EA Eagle Digital的创始人。


因此,既然Erfan Google内部提供的Azimi文档。「Content API Warehouse」,有必要知道谷歌API是什么意思? Content Warehouse,而这份文件究竟泄露了什么?


谷歌搜索「黑箱」



这个泄密事件似乎来自GitHub,最可靠的解释和Erfan 在通话中,Azimi告诉Rand的协议:


由于文件中的许多链接指向个人GitHub仓库,以及谷歌公司网站上需要具体认证登录的内部页面,因此这些文件可能会在短时间内被公开。


API文档在2024年3月至5月这段可能是偶然的公开时间内被传播到Hexdocs(搜索公开的GitHub仓库),并被他人发现和传播。


令Rand疑惑的是,他确信其他人也有一份副本,但是直到这次爆料之前,这份文件才被公开讨论。


根据谷歌前开发人员的说法,几乎每个谷歌团队都有这样一份文件,用来解释各种API属性和模块,帮助项目人员熟悉可用的数据元素。


该泄漏信息符合GitHub公共仓库和谷歌云API文档中的其它信息,采用相同的符号风格、格式,甚至流程/模块/功能名称和引用。


「API Content Warehouse」它听起来像一个技术术语,但是我们可以把它看作是谷歌搜索引擎团队成员的指南。


就像图书馆里的书目录一样,谷歌用它来告诉员工有哪些书,以及如何获得。


但不同的是,图书馆是公开的,谷歌搜索是世界上神秘而严格的黑匣子之一。在过去的20年里,谷歌搜索部门从未发生过如此大规模或详细的泄露事件。


「泄露」了什么?


1. 使用用户点击数据

文件中的一些模块被提及「goodClicks」、「badClicks」、「lastLongestClicks」、印象、挤压、未挤压、独角兽点击等功能。这与Navboost和Glue有关,看过谷歌司法部证词的人可能对这两个词并不陌生。


下面是Kenneth司法律师 搜索质量团队的Dintzer搜索副总裁Panduu 关于Nayak交叉询问的摘录:


Q. 所以请提醒我,Navboost是否可以追溯到? 2005 年?


A. 这一范围内,甚至可能更早。


Q. 已更新,已不再是当年的Navboost了?


A. 不是了


Q. 还有一个是glue,对吗?


A. glue只是Navboost的另一个名称,它包含了页面上所有其他功能。


Q. 好吧。本来打算以后再谈,但是现在可以谈了。正如我们所讨论的,Navboost可以产生网页结果,对吗?


A. 是的。


Q. glue也可以处理网页中所有不是网页结果的内容,对吗?


A. 没错。


Q. 他们共同帮助找出我们搜索结果中最终显示的内容并进行排名?


A. 没错。他们都是这方面的信号,没错。



这个泄露的API文件支持Nayak先生的证词,并且与Google网站的质量专利保持一致。


Google似乎有办法过滤掉他们不想计入排名系统的点击量,并将他们想要计入排名系统的点击量纳入其中。


它们似乎也可以衡量点击时间。(pogo-sticking,指搜索者在点击结果后,迅速点击返回按钮,因为对找到的答案不满意)和印象。


2. 点击流程征用Chrome

谷歌代表多次表示,它不会使用Chrome数据对页面进行排名,但是在相关网站如何在搜索中显示泄露文档的部分,尤其是Chrome。


透露文件的匿名消息来源表示,早在2005年,谷歌就希望获得数十亿互联网用户的完整点击流,他们已经通过Chrome浏览器得到了他们想要的。


API文档显示,谷歌可以使用Chrome浏览器来计算几个与单页和整个域相关的指标。


本文介绍了谷歌如何创建Sitelinks的相关功能,特别有趣。


它展示了一个名为topUrl的调用,即 「A list of top urls with highest two_level_score, i.e., chrome_trans_clicks.」


由此可以推断,谷歌很可能已经使用了。 Chrome 在浏览器中点击网页的次数,从而确定平台上最受欢迎或最重要的页面。 URL,这样就可以计算出哪些URL应该包含在Sitelinks功能中。


通过跟踪数十亿Chrome用户的点击量,谷歌搜索结果中总能显示出用户访问量最大的页面。


网民们当然对谷歌的这种行为表示不满。



3. 建立严肃话题白名单

通过它并不难「高质量的旅游网站」 这个模块得到了一个推理——谷歌在旅游领域有一个白名单,虽然不清楚这是否是专门用于谷歌的。「旅游」搜索选项,或者更广泛的网络搜索。


另外,文档中提到的很多地方。 「isCovidLocalAuthority」(新冠当地权威)和 「isElectionAuthority」(选举权威)进一步说明谷歌正在管理特定域名的白名单,用户搜索有争议的问题时可能会优先显示这些域名。


例如,在2020年美国总统大选之后,一位候选人声称选票被盗,没有证据,并鼓励他的追随者冲击国会山。


如果他们的搜索引擎返回了不准确描述选举证据的宣传网站,那么谷歌几乎肯定会成为人们首先搜索此事相关信息的地方之一,这可能会直接导致更多的争论、暴力甚至美国民主的结束。


从这个角度来看,白名单有其实际意义。Rand Fishkin说「对于那些希望继续自由公正选举的人来说,我们应该非常感谢谷歌的工程师们在这种情况下使用了白名单。」


4. 使用人工评价网站质量


长久以来,谷歌一直有一个质量评级平台叫做EWOK。我们现在有证据表明,质量评估者的一些元素被用于搜索系统。


Rand Fishkin认为,EWOK质量评估者产生的分数和数据可以直接参与谷歌的搜索系统,而不仅仅是实验训练集。


这些可能性是肯定的「仅用于检测」,但在浏览泄露的文档时,你会发现,当这是真的时候,它会在注释和模块的详细信息中明确指出。


其中提到的「每个文档的相关性评级」即来自 EWOK 评价,虽然没有详细的说明,但是我们很容易想象,人类对网站的评价究竟有多重要。


文件也提到了「人工评级」(比如来自 EWOK 评级),并指出他们,「一般只在评估管道内加充评估管道」,这表明它们可能主要是该模块中的训练数据。


但Rand Fishkin认为这仍然是一个很重要的角色,销售人员不能忽视质量评级人员对其网站的良好感知和评级有多重要。


5. 使用点击数据确定权重。

谷歌将链接搜索分为三个等级(低、中、高质量),点击数据来确定网站属于哪个等级。


- 若站点未被点击,将进入低质量检索,链接也将被忽略。


- 若站点来自可验证设备的点击量较高,则会进入高质量检索,并且链接会传递排名信号。


由于属于更深层次的检索,链接一旦成为 “可靠 “链接,它可以移动PageRank和锚点,或者被垃圾链接系统过滤/删除。


低质量的链接检索链接不会损害网站的排名,它们只会被忽略。


网络上最重要的系统是谷歌的优化算法,它决定了不同网站的生死存亡和我们在网上看到的内容。


但它是如何对网站进行排名的,长期以来一直是一个谜。从事SEO工作的记者、研究人员和人们不断拼接这个谜题的答案。


谷歌在这次泄漏事件中仍然装聋作哑,似乎会让这个谜题长久存在。


但是这次谷歌到目前为止最严重的泄露,还是撕开了一个缺口,让人们对搜索的工作原理有了前所未有的了解。


参考资料:


https://sparktoro.com/blog/an-anonymous-source-shared-thousands-of-leaked-google-search-api-documents-with-me-everyone-in-seo-should-see-them/


本文来自微信微信官方账号“新智元”(ID:AI_era),编辑:庸庸 ,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com