Google爬行缓存代理(crawl caching proxy)

  • 时间:
  • 浏览:2
  • 来源:黑域基地_提供零度娱乐网技术_酷玩娱乐网资讯

前五天亲戚亲戚亲戚朋友注意到Google Adsense蜘蛛所抓取的网页会经常出先在搜索结果中。Matt Cutts在他的博客里太快了 的做出了签署,对一种 问题报告 做了进一步解释。

简单来说,Google在完成大爸爸数据中心升级后,各种蜘蛛抓取网页的机制产生了变化。都在各个蜘蛛直接抓取网页,也不由另另一两个多爬行缓存代理crawl caching proxy抓取网页,也不不同的蜘蛛从一种 缓存中获取内容,从而节省了数率。

Matt Cutts的帖子比较完正的翻译都才能在幻灭和小添的博客里看完。

我能 补充的是:第一:Matt Cutts特意指出,一种 新的抓取机制不不我能 的网页被抓取的调慢,也不会对排名有任何影响。一种 爬行缓存代理也不影响各个蜘蛛很久应该爬行的频率和时间表。只不过各个蜘蛛不直接爬行网页,也不从缓存中获取。

第二:更引起我注意的是,Matt Cutts说一种 爬行缓存代理是大爸爸更新很久才有的。不可能 运行的很顺利,在另一方发现一种 问题报告 很久,Matt Cutts另一方没意识到一种 新的机制不可能 运行了。这说明Matt Cutts从非要掌握所有各个部门的最新清况 ,越来越还有那些是Matt Cutts也还问你的呢?

第三:Matt Cutts讲一种 机制的目标是节省数率,而都在隐藏页面(cloaked page)检测。我虽然弦外之音是,利用同样的技术,Google完正都才能用某些的蜘蛛来检测隐藏页面。当然也不可能 是我过度敏感了。

另外,最近太满太满太满太满有网站经常出先被收录的页面数目急剧下降的问题报告 ,我怀疑和一种 新的页面抓取依据造成的混乱有关。很显然都在排名算法改变导致 收录的网页数目下降,也不蜘蛛爬行的问题报告 。