你见过CC bot蜘蛛吗?
浏览:318 时间:2021-6-24

我不太清楚你的网站日志里是否有不常见的CC蜘蛛。访问名称为“CCBot/2.0”。下面具体看一下CCbot是什么样的蜘蛛。

1.CC bot是什么蜘蛛?

Common Crawl Bot(通用爬网)是一个开放的存储库,它提供了非盈利性基金会所有人都可以访问和分析的web爬网数据。

第二,如何处理CCbot蜘蛛?

方法1 .使用robots.txt

使用Robots.txt文件允许或禁止蜘蛛访问页面。Robots.txt位于网站根目录中,蜘蛛访问时,首先查找并查看Robots.txt文件,遵守robots协议访问站点的内容,如果允许访问,就访问,如果不能访问蜘蛛,就离开。

没有蜘蛛能访问网站的任何部分

用户代理:*

Disallow:/

所有蜘蛛都能访问网站的任何部分。

用户代理:*

Disallow:

。CCbot蜘蛛不能访问网站的任何部分。

用户代理:ccbot

Disallow:/

允许CCbot蜘蛛访问网站的所有部分

用户代理:ccbot

Disallow:

。CCbot蜘蛛可以访问站点,而CCbot不能访问“wp-admin”文件夹

用户代理:ccbot

Disallow:/WP-admin

方法2 .使用元标记

您可以在页面上使用元标记控制搜索引擎蜘蛛对网站的访问。如果对所有页面使用模板,则可以在和之间添加元标记。牙齿标签将应用于使用该模板的所有页面。要控制特定页面,可以向和之间的每个页面添加元标签。

允许所有蜘蛛访问页面

让所有蜘蛛访问你的网页,跟踪页面上的链接

允许所有蜘蛛访问你的网站,但是他们不能追踪链接。

没有蜘蛛可以访问你的网页。

允许cc bot访问网页

CCbot引导无法访问页面

允许CCbot引导访问页面和跟踪指向更多页面的链接

如果在网站日志中发现CCbot,请不要惊慌。接下来要做的是允许爬行还是禁止爬行?梅个人认为这种蜘蛛没有什么意义,一旦发现这种蜘蛛爬得更频繁,最好的方法就是禁止牙齿蜘蛛继续访问我们的网站。

原创:MAY的SEO博客/share/ccbot.html未经允许不要转载!