为什么要控制Googlebot抓取速度?

63次阅读

共计 2401 个字符,预计需要花费 7 分钟才能阅读完成。

为什么要控制Googlebot抓取速度?插图

为什么要控制Googlebot抓取速度?插图1

有时会很高兴地看到,Google 几乎是在瞬间抓取您的网站。但这对于大多数网站来说不是必需的,因为内容可能每天更新一次,甚至更长的时间间隔。在内容没有更新的这种情况下,搜索引擎爬虫或机器人继续在网站上寻找更新是没有意义的。

在本文中,我们将了解您为什么要控制 Googlebot 以及如何控制 Googlebot 和其他搜索引擎爬虫的抓取速度。

为什么要控制 Googlebot 抓取速度?

当您有多个站点或更大的站点时,搜索引擎机器人的持续爬取将对服务器性能产生不利影响。因此,有必要控制爬取您网站的机器人的爬取速率,而 Googlebot 是您在许多情况下应该控制的第一个。

无论是搜索引擎机器人还是真实用户,都会使用您的服务器资源。

高爬取率将导致高 CPU 利用率,最终可能需要为额外资源支付更多费用。在共享托管环境中,您的主机可能会停止服务以保护托管在同一服务器上的其他站点。

当 Googlebot 抓取网站时,网站上的真实用户可能会感到缓慢。特别是当您拥有电子商务网站时,必须控制 Googlebot 和其他经常抓取的机器人。

如果您的网站较小且流量有限,您可能不会看到机器人有任何问题。当您有多个站点每天吸引成千上万的访问者时,您会注意到由于爬虫的活动导致 CPU 使用率猛增。当 CPU 利用率很高时,您可能会收到来自托管公司的警告消息,或者您的帐户将被暂停,要求您采取必要的措施。

如何监控 Googlebot?

有两种方法可以监控 Googlebot 的抓取活动。一种是从您的 Google Search Console 中进行检查,另一种是从您的托管帐户进行监控。

登录到您的 Google Search Console 帐户并导航到“设置”,然后抓取 > 抓取统计信息 > 打开报告。在这里,您可以查看过去 90 天时间范围内的 Googlebot 活动。您将看到三个图表——每天抓取的页面、每天下载的千字节以及下载页面所花费的时间(以毫秒为单位)。这些图表将让您全面了解 Googlebot 在您的网站上所做的事情。

为什么要控制Googlebot抓取速度?插图2

Googlebot 在您的网站上抓取数据统计

第二种也是最有效的方法是通过您的主机帐户监控服务器上的活动。登录到您的托管帐户并查找其中一种统计报告工具。在这种情况下,我们使用几乎所有共享托管服务提供商 (如 Bluehost、SiteGround 等) 提供的 Awstats 进行解释。

打开 Awstats 应用程序并选择您的站点以查看统计信息。在“Robots / Spider visitors”部分查看最活跃的机器人列表。

为什么要控制Googlebot抓取速度?插图3

从 Awstats 监控机器人

您还可以使用 WordFence 等插件来监控实时流量和 Googlebot 活动。

当然,我们的蜘蛛分析插件也可以实现爬虫统计及行为分析,安装启用插件后,当然是统计了一段时间的数据,点击蜘蛛分析 > 蜘蛛概况,然后选择最近 30 天,在趋势图下列菜单选择为 Googlebot,即可查看 Googlebot 最近 30 天 URL 爬取的数量。

为什么要控制Googlebot抓取速度?插图4

如何控制 Googlebot 的抓取速度?

当您注意到 Googlebot 正在抓取您的网站并消耗大量带宽时,就该控制抓取速度了。一些托管公司通过在 robots.txt 文件中添加条目来自动控制抓取延迟。您可以从 Google Search Console 手动控制 Googlebot 的抓取速度。登录到您的 Search Console 帐户后,打开您的资源的抓取速度设置页面,选择您需要设置谷歌蜘蛛爬取速度的网站。

为什么要控制Googlebot抓取速度?插图5

在 Google Search Console 中访问抓取控制设置

您将在“抓取速度”部分看到两个选项。

Googlebot 抓取速度控制

让 Google 优化我的网站(推荐)

限制 Google 的最大抓取速度

选择第二个单选按钮并将进度条向下拖动到任何所需的速率。这将设置每秒的请求数和抓取请求之间的秒数。

注:除非谷歌爬取导致您的网站性能下降严重,否则完全没必要修改谷歌爬虫的爬取速度,这一块的控制,谷歌做得相当优秀。

新的抓取速度设置将在 90 天内有效,并在到期后自动重置为第一个选项“让 Google 为我的网站进行优化”。

必应呢?

与 Googlebot 类似,您也可以在 Bing Webmaster Tools 下限制 Bingbot。登录到您的帐户后,导航到“配置 > 爬网控件”,即可进行相关的设置。

为什么要控制Googlebot抓取速度?插图6

必应网站管理员工具中的抓取控制

通过选择图表上的蓝色框来调整抓取速度。

其他搜索引擎爬虫

除了 Google 和 Bing,还有许多其他机器人可以抓取您的网站。您可以使用通用.htaccess 指令阻止所有其他机器人。在您的.htaccess 文件中添加以下代码以阻止除 Google、Bing、MSN、MSR、Yandex 和 Twitter 之外的所有机器人。所有其他机器人将被重定向到本地主机 IP 地址 127.0.0.1.

#Disable bad bots

RewriteEngine On

RewriteCond %{HTTP_USER_AGENT} ^$ [OR]

RewriteCond %{HTTP_USER_AGENT} (bot|crawl|robot)

RewriteCond %{HTTP_USER_AGENT} !(bing|Google|msn|MSR|Twitter|Yandex) [NC]

RewriteRule ^/?.*$ “http\:\/\/127\.0\.0\.1” [R,L]

您还可以通过 IP 地址拦截方式部分蜘蛛的访问和爬取拒绝。

小结

有必要监视和控制您网站上的爬虫活动,以便将托管服务器的 CPU 利用率保持在允许的范围内。我们已经解释了一些方法,还有许多其他方法可以阻止坏机器人。与您的主机讨论并确保您做正确的事情并且只阻止不良机器人也是一个好主意。

最后,小编的建议是,如国内站长,像谷歌、百度、bing 及搜狗等搜索引擎的蜘蛛访问爬取,非必要情况尽可能不要去干预。倒是一些不知名蜘蛛爬虫,我们应该尽可能将它们拒之门外,以免浪费服务器资源(这可以通过蜘蛛统计分析插件,实现智能拦截)。

正文完
关注板板AI免费获得移动AI助手
post-qrcode
 
天天
版权声明:本站原创文章,由 天天 2024-05-09发表,共计2401字。
转载说明:

本文由 天天资讯网 整理发布,转载请注明出处.
版权声明:部分文章内容或图片来源于网络,我们尊重作者的知识产权。如有侵犯,请联系我们在第一时间删除。