如何屏蔽YisouSpider神马搜索引擎
YisouSpider,仅从其名称进行分析的话,不难推断出它应该是与那个曾经名为“一搜”的搜索引擎紧密相关的蜘蛛程序。
如今,“一搜”这个名字在互联网的浩瀚海洋中已变得极为鲜见。历史上一搜最早是由雅虎中国在 2004 年精心创建的。后来,当阿里巴巴成功收购雅虎中国之后,一搜便归到了神马搜索的旗下。也正因如此,神马搜索的蜘蛛便被赋予了 YisouSpider 这个特定的名称。
目前的情况是,神马搜索仅仅在移动端为用户提供服务,而在 PC 端则暂时没有开放任何服务内容。所以,对于那些有着移动端特定需求的用户而言,可以选择保留这个蜘蛛程序,让它在一定范围内发挥作用。然而,对于那些主要以 PC 端流量作为主力的网站来说,就可以考虑对其进行屏蔽操作了。这样做的目的主要是为了减轻网站所承受的压力,使其能够更加稳定、高效地运行。
为什么要屏蔽神马搜索的 YisouSpider 蜘蛛呢?我想其中的原因主要在于,这个蜘蛛程序会在毫无规律的情况下,不定时地在白天或者晚上对网站进行大量的数据抓取。而且,它的抓取方式是采用一个 IP 组的形式来进行的。这种抓取方式可能会给网站带来极大的负担,导致网站的负载急剧增大,甚至在严重的情况下会使网站陷入崩溃的境地。
当对网站的日志进行深入分析时,可以发现一个有趣的现象。通过将 IP 段与完整的 User Agent 相结合进行观察,可以推断出这个蜘蛛程序似乎是来自服务器集群的一组 IP 池。在这个 IP 池中,既有适用于移动端的 User Agent,也有针对 PC 端的 User Agent。但无论如何,它们都明确地表明自己是属于神马搜索的蜘蛛程序。
值得一提的是,这个蜘蛛程序的爬行频率和次数几乎超过了所有其他的蜘蛛程序。不过,令人欣慰的是,YisouSpider 是遵守 robots.txt 协议的。正因为如此,我们可以通过这个协议来禁止它对网站进行抓取操作,从而有效地减轻网站所面临的压力。
具体的操作方法如下:在网站的根目录下找到 robots.txt 文件,然后在其中加入以下代码:
User-agent: YisouSpider
Disallow: /