`
sabolasi
  • 浏览: 910332 次
文章分类
社区版块
存档分类
最新评论

浅谈各大搜索引擎蜘蛛

 
阅读更多

最近在做SEO每天打交道最多的就是搜索引擎放出来的小机器人,也叫搜索引擎蜘蛛,它们确实比较难伺候好,得顺其意投其好。

一、列举一下各大搜索引擎蜘蛛的名字

这也是屏蔽某些蜘蛛的关键,在程序中识别HTTP_USER_AGENT的名字即可

google蜘蛛: googlebot

百度蜘蛛:baiduspider

搜狗蜘蛛:Sogou web spider

搜搜蜘蛛:Sosospider

yahoo蜘蛛:slurp

alexa蜘蛛:ia_archiver

msn蜘蛛:msnbot

altavista蜘蛛:scooter

lycos蜘蛛: lycos_spider_(t-rex)

alltheweb蜘蛛: fast-webcrawler

inktomi蜘蛛: slurp

有道蜘蛛:YodaoBot和OutfoxBot

热土蜘蛛:Adminrtspider

当然这里只是象征性的列一下,便于我们分析日志、防爬等。

二、蜘蛛的习惯

google蜘蛛:不太爱爬,但爱收录。

百度蜘蛛:爬谨慎,收录更谨慎。

搜搜蜘蛛:爱爬图片,经常绕在动态地址里出不来。

雅虎蜘蛛:恪守规则,每次都是先爬robots.txt。

其他的没有太多留意,就不多说了。

三、对于robots.txt的支持程度

这里拿Disallow: /*?*分析(禁止动态页面抓取)几个主流的搜索引擎。

google表现:写了禁止就不再爬,会在谷歌站长工具中列出来它想爬被你阻止了。

百度的表现:写了禁止之后很少爬,但是偶尔也会爬,相信是起作用了,因为越来越少,以前一天几次现在几天一次。

搜狗蜘蛛:可以说是基本不听话,也不知道是不是不吃这个规则,说它完全不吃它也吃了一点,只是把动态地址的问号拿掉了,然后照爬,一爬就是一大片,这不知道它能爬出什么东西。不得不说搜狗搜索相当不和谐啊。

搜搜蜘蛛跟雅虎蜘蛛好像差不多,感觉还是挺有效的,禁止之后没有再有它爬过的痕迹。

总的来说,感觉国内的搜索引擎都比较“牛”。

欢迎访问:http://www.xiangha.com

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics