微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

ajax – Googlebot如何知道网络服务器在请求`?_escaped_fragment_ =`URL时没有隐藏?

关于Google的 AJAX抓取规范,如果服务器为#返回一件事(即一个 JavaScript密集的文件)! URL#和其他东西(即页面的“html快照”)到Googlebot的时候#!被替换为?_escaped_fragment_ =,这感觉就像隐藏在我身上.毕竟,Googlebot如何确保服务器正在返回#!和?_escaped_fragment_ =网址.然而,这就是AJAX抓取规范实际上告诉网站管理员要做的事情.我错过了什么吗? Googlebot如何确保服务器在两种情况下都返回相同的内容

解决方法@H_502_7@
爬虫不知道.但它甚至都不知道那些返回普通ol’html的网站 – 根据抓取工具或已知IP头使用的http标头编写隐藏网站的代码非常容易.

请参阅此相关问题:How does Google Know you are Cloaking?

大多数似乎都是猜想,但似乎有各种各样的检查,在欺骗普通浏览器标题和实际真人看页面之间有所不同.

继续猜测,谷歌程序员的能力肯定不会超出谷歌编写一种实际检索用户看到的爬虫形式的能力 – 毕竟,他们有自己的浏览器可以做到这一点.这样做会非常昂贵地耗费cpu,但对于偶尔的抽查可能是有意义的.

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐