最近在做SEO每天打交道最多的就是搜索引擎放出来的小机器人,也叫搜索引擎蜘蛛,它们确实比较难伺候好,得顺其意投其好。
一、列举一下各大搜索引擎蜘蛛的名字
这也是屏蔽某些蜘蛛的关键,在程序中识别HTTP_USER_AGENT的名字即可
google蜘蛛: googlebot
百度蜘蛛:baiduspider
搜狗蜘蛛:Sogou web spider
搜搜蜘蛛:Sosospider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
altavista蜘蛛:scooter
lycos蜘蛛: lycos_spider_(t-rex)
alltheweb蜘蛛: fast-webcrawler
inktomi蜘蛛: slurp
有道蜘蛛:YodaoBot和OutfoxBot
热土蜘蛛:Adminrtspider
当然这里只是象征性的列一下,便于我们分析日志、防爬等。
二、蜘蛛的习惯
google蜘蛛:不太爱爬,但爱收录。
百度蜘蛛:爬谨慎,收录更谨慎。
搜搜蜘蛛:爱爬图片,经常绕在动态地址里出不来。
雅虎蜘蛛:恪守规则,每次都是先爬robots.txt。
其他的没有太多留意,就不多说了。
三、对于robots.txt的支持程度
这里拿Disallow: /*?*分析(禁止动态页面抓取)几个主流的搜索引擎。
google表现:写了禁止就不再爬,会在谷歌站长工具中列出来它想爬被你阻止了。
百度的表现:写了禁止之后很少爬,但是偶尔也会爬,相信是起作用了,因为越来越少,以前一天几次现在几天一次。
搜狗蜘蛛:可以说是基本不听话,也不知道是不是不吃这个规则,说它完全不吃它也吃了一点,只是把动态地址的问号拿掉了,然后照爬,一爬就是一大片,这不知道它能爬出什么东西。不得不说搜狗搜索相当不和谐啊。
搜搜蜘蛛跟雅虎蜘蛛好像差不多,感觉还是挺有效的,禁止之后没有再有它爬过的痕迹。
总的来说,感觉国内的搜索引擎都比较“牛”。
欢迎访问:http://www.xiangha.com
分享到:
相关推荐
百度蜘蛛爬行跟踪统计.0版本新增功能:对比1.0版本,我们增加了其它搜索引擎蜘蛛的跟踪记录,主要有 百度,谷歌,搜搜,搜狗,雅虎,Bing搜索引擎蜘蛛,能准确抓取并记录。 为了防止数据库占用空间,同时新增了清空...
Spider是搜索引擎的一个自动程序。它的作用是访问互联网上的...搜索引擎的“蜘蛛”同一天会对某些网站或同一网页进行多次爬行,知道蜘蛛的运动规律,对于更新网页、了解搜索引擎收录的收录情况等等有相当重要的作用。
ASP搜索引擎蜘蛛爬行日志生成程序 将本代码加入要统计的文件中(你的站点统计放那里这个就摆那里!)
搜索引擎蜘蛛访问记录器工具
iis日志分析器是一个可以分析各大搜索引擎蜘蛛爬行记录的软件
这个软件可以查看搜索引擎的蜘蛛访问记录,根据这些记录可以看到蜘蛛什么时候来访问过你的站,抓取了什么内容。 使用方法: ----插入asp页面调用 ----插入html页面JS调用 bot.mdb 记录数据库 访问 zhizhu.asp ...
该程序采用ASP编写,使用Access数据库,主要功能是记录常用搜索引擎蜘蛛最近来访时间、IP、来访次数、抓取页面地址。 经过2周的亲自测试,截至2009.8.30,本系统可统计95种蜘蛛。由于搜索引擎抓取网页不抓取JS代码,...
搜索引擎蜘蛛算法与蜘蛛程序构架.doc搜索引擎蜘蛛算法与蜘蛛程序构架.doc搜索引擎蜘蛛算法与蜘蛛程序构架.doc搜索引擎蜘蛛算法与蜘蛛程序构架.doc
泊君多功能搜索引擎蜘蛛模拟器
泊君多功能搜索引擎蜘蛛模拟器2.0
ASP搜索引擎蜘蛛爬行日志生成程序 只适用与ASP
对比1.0版本,我们增加了其它搜索引擎蜘蛛的跟踪记录,主要有 百度,谷歌,搜搜,搜狗,雅虎,Bing搜索引擎蜘蛛,能准确抓取并记录。 为了防止数据库占用空间,同时新增了清空数据的功能。 同时增加了搜索引擎蜘蛛...
基于PHP的扎鸟搜索引擎蜘蛛爬行查询(wordpress专用)php版源码.zip 基于PHP的扎鸟搜索引擎蜘蛛爬行查询(wordpress专用)php版源码.zip 基于PHP的扎鸟搜索引擎蜘蛛爬行查询(wordpress专用)php版源码.zip 基于PHP...
搜索引擎蜘蛛捕捉asp.net版
该程序采用ASP编写,使用Access数据库,主要功能是记录常用搜索引擎蜘蛛最近来访时间、IP、来访次数、抓取页面地址。 经过2周的亲自测试,截至2009.8.30,本系统可统计95种蜘蛛。由于搜索引擎抓取网页不抓取JS代码...
搜索引擎蜘蛛的跟踪记录,主要有 百度,谷歌,搜搜,搜狗,360,雅虎,Bing,有道,Alexa,搜索引擎蜘蛛,能准确抓取并记录。 因为知识兴趣爱好,不是程序员的原因,修改程序花费不少精力,让大家见笑了。 此程序...
搜索引擎网络蜘蛛程序,Nutch,Lucene,Larbin,中文分词程序代码
适用于asp/html/动态静态网站百度谷歌所有搜索引擎蜘蛛查看器