“Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Alexa Toolbar)” 表示的是用户所使用的电脑是与 Netscape 兼容的 Mozilla 浏览器, Windows NT 操作系统,浏览器是 IE6.0,装有 Alexa Toolbar。
2、接下来说说 googlebot,我盼 googlebot 已经好久了,这几天它终于来 了,然后我在 www.google.com 上输入 site:seo.9ilp.com,果然看到了收录文 件的更新。
2009-08-23 00:07:20 66.249.65.116 - 218.85.132.68 80 GET
/html/down/20070129/550.html - 200
Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html)
218.85.132.68 查此 IP 直接给了结果“美国 GoogleBot 搜寻引擎机器 人”,呵呵,goolgebot 真出名,也很规范。
3、Yahoo 也要说说的:
2009-08-23 00:04:45 202.160.178.195 - 218.85.132.68 80 GET
/html/ad/20070131/658.html - 200
Mozilla/5.0+(compatible;+Yahoo!+Slurp+China;+http://misc.yahoo.com.cn /help.html)
查 IP 得知是雅虎中国, Yahoo!+Slurp+China 是雅虎蜘蛛名, 以前是 Inktomi Slurp;想查询网站在 yahoo 的收录情况与 google 和百度不同的是,你直接在 www.yahoo.com.cn 上输入网址即可。不用加前缀 site:,还有一点,觉得这几个 月的雅虎中国在技术上有改进,在网站收录和关键词搜索上,大家可以自己去体 会。
说完三大搜索爬虫,再来看看别的二流搜索引擎的爬虫及门户搜索的爬虫:
1)msn: msn(msn live search beta)的搜索技术我个人觉得是难入流的, 似乎比门户搜索更差,beta 说明搜索版在测试阶段,现在电信采用 msn 的搜索 技术,不知道电信的是什么眼光,呵呵。
2009-08-23 08:22:15 65.55.213.7 - 218.85.132.68 80 GET
/html/down/20070129/550.html - 200
msnbot-media/1.0+(+http://search.msn.com/msnbot.htm)
2)Alexa: 大名鼎鼎的世界排名 Alexa, 它的蜘蛛比较难记, ia_archiver。 是 从严格意义上说,它不知道是不是爬虫,它与纯搜索引擎不同,是来侦测流量的居多,并不是来收录网页的。
2009-08-23 01:24:44 209.237.238.226 - 218.85.132.68 80 GET
/html/internet/20070130/631.html - 200 ia_archiver
3)Iask 爱问:
2009-08-23 11:56:47 60.28.164.44 - 218.85.132.68 80 GET
/html/webpromote/20070203/935.html - 200
Mozilla/5.0+(compatible;+iaskspider/1.0;+MSIE+6.0)
4)sogou 搜狗:
对于搜狗,我就觉得好笑了。大家记得我说过我的网站是改版过的,Brand 是旧网站文件,早被我删除了。而且为了删除除搜索引擎收录的死链接,我在 robots.txt 文件中写着:Disallow: /Brand ,这当然禁止访问 Brand 下的文件, 我这里想说的是,一、它 sogou 不遵守 robots 协议,二、对于已经删除近一个 月的文件,它从哪里搜索而来。我真的不太明白了。