对网站进行有效爬网有助于其在Google搜索中建立索引
谷歌为网站管理员提供了各种教程,试图弄清楚如何通过谷歌的搜索引擎机器人对网站进行爬网和索引优化。正如Google爬网和索引团队的成员Gary Illyes 在本周的博客中解释的那样,网络爬网是网站进入Google搜索结果的切入点。
他说:“对网站进行有效爬网有助于其在Google搜索中建立索引。
Googlebot是Google用来对网站进行爬网以获取新的和更新的内容以添加到其搜索索引中的技术,它依赖一套复杂的算法来确定要爬网的站点,每次访问期间查看的频率和页面数。
Googlebot可以抓取并希望抓取的网站上的URL数量或网站的抓取预算取决于两个因素。其中之一是Google所谓的抓取限制,另一个是抓取需求。
Googlebot为每个站点设置了所谓的爬网速率限制,以确保其爬网活动不会降低站点性能。抓取速度限制取决于多种因素,例如网站对Googlebot请求的响应速度。
Illyes说,例如,如果某个网站变慢或响应服务器错误,则Googlebot将减少对该网站的爬网。网站管理员还可以限制Googlebot对其网站进行爬网的程度。
抓取需求是指网站上整个Googlebot的活动,由网站的相对受欢迎程度及其内容的新鲜程度决定。Illyes解释说,诸如站点移动之类的站点范围内的重大事件也可能触发爬网需求的增加,因此可以在新的URL下重新索引内容。
Illyes指出,对于大多数网站所有者和网站管理员而言,爬网预算并不是他们需要担心的事情。他说,例如,如果Googlebot倾向于在发布的同一天在其网站上抓取新页面,则抓取预算并不是他们需要关注的事情。同样,网址少于几千个的网站所有者也不必担心Googlebot无法有效地对其网站进行爬网。
Illyes说:“例如,优先考虑要进行爬网的内容,托管站点的服务器以及为爬网分配的资源量,对于更大的站点或那些基于URL参数自动生成页面的站点而言,更为重要。”
他指出,谷歌的分析表明,此类站点可以从确保其站点上没有太多低价值添加URL方面受益。
例如,提供多面导航的网站(例如允许用户按价格范围或颜色进行过滤)通常可以创建具有重复内容的URL的许多组合。
据谷歌称,当搜索引擎通过不同的网址抓取相同的内容时,可能会产生一些负面影响。具有指向相同内容的多个URL可能会削弱链接的受欢迎程度,并导致在搜索结果中显示错误的链接。
同样,在报告不存在的页面和其他页面错误方面做得不好的网站可能会降低Googlebot的抓取范围,有时甚至会导致忽略最佳内容。
Illyes说,其他可能影响Googlebot抓取范围的因素包括网页被黑客入侵,质量低劣和垃圾邮件内容以及所谓的无限链接,这些链接包含大量链接,这些链接指向很少或根本没有用于索引目的的新内容。
他说:“浪费在此类页面上的服务器资源会从实际上具有价值的页面上消耗爬网活动,这可能会导致在站点上发现精美内容的时间大大延迟。”