对联 ·故事 ·史海钩沉 ·人物档案 ·地方风俗 ·谚语大全 ·讽刺与幽默 · 赚钱 · 法律 · 在线教研 · 会员中心 · 心理测试 · 魔鬼词典 · 顺口溜
 
主页特效 网页特效 百家姓
娱乐 歇后语 绕口令 脑筋急转弯
 
谚语 谜语 名言 邮政编码
便民 酒方 验方 偏方 站长工具  
 
算命 风俗 手相 爱情
女孩 音乐 面相 星座 血型
 
饮食 穴道 偏方 医药
生活 软件 硬件 解梦 高考



   JS特效



实用工具
便民服务 加密解密
 
魅力高密 民间故事 Flash教程 PS教程 最新国内新闻
新华字典 黄道吉日 英语园地  万年历 Html2anycode
  首页 | 美图 | 短信 | 安全 | 校园 | 网站 | 游戏 | UFO | 文秘 | 生活 | 信息技术 | 论文 | 人生 | 情感 | 日记
返回首页
当前位置: 主页 > 网站建设 >

网站日志文件分析搜索蜘蛛爬行记录(SEO 教程)(2)

时间:2011-09-18 19:58来源:www.panpan.org 作者:宁远 点击:
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Alexa Toolbar) 表示的是用户所使用的电脑是与 Netscape 兼容的 Mozilla 浏览器, Windows NT 操作系统,浏览器是 IE6.0,装
  

 “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Alexa Toolbar)” 表示的是用户所使用的电脑是与 Netscape 兼容的 Mozilla 浏览器, Windows NT 操作系统,浏览器是 IE6.0,装有 Alexa Toolbar。
2、接下来说说 googlebot,我盼 googlebot 已经好久了,这几天它终于来 了,然后我在 www.google.com 上输入 site:seo.9ilp.com,果然看到了收录文 件的更新。

2009-08-23 00:07:20 66.249.65.116 - 218.85.132.68 80 GET
/html/down/20070129/550.html - 200
 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html)

218.85.132.68 查此 IP 直接给了结果“美国 GoogleBot 搜寻引擎机器 人”,呵呵,goolgebot 真出名,也很规范。

3、Yahoo 也要说说的:
2009-08-23 00:04:45 202.160.178.195 - 218.85.132.68 80 GET
/html/ad/20070131/658.html - 200
Mozilla/5.0+(compatible;+Yahoo!+Slurp+China;+http://misc.yahoo.com.cn /help.html)

查 IP 得知是雅虎中国, Yahoo!+Slurp+China 是雅虎蜘蛛名, 以前是 Inktomi Slurp;想查询网站在 yahoo 的收录情况与 google 和百度不同的是,你直接在 www.yahoo.com.cn 上输入网址即可。不用加前缀 site:,还有一点,觉得这几个 月的雅虎中国在技术上有改进,在网站收录和关键词搜索上,大家可以自己去体 会。

说完三大搜索爬虫,再来看看别的二流搜索引擎的爬虫及门户搜索的爬虫:

1)msn: msn(msn live search beta)的搜索技术我个人觉得是难入流的, 似乎比门户搜索更差,beta 说明搜索版在测试阶段,现在电信采用 msn 的搜索 技术,不知道电信的是什么眼光,呵呵。
2009-08-23 08:22:15 65.55.213.7 - 218.85.132.68 80 GET
/html/down/20070129/550.html - 200
msnbot-media/1.0+(+http://search.msn.com/msnbot.htm)

2)Alexa: 大名鼎鼎的世界排名 Alexa, 它的蜘蛛比较难记, ia_archiver。 是 从严格意义上说,它不知道是不是爬虫,它与纯搜索引擎不同,是来侦测流量的居多,并不是来收录网页的。
2009-08-23 01:24:44 209.237.238.226 - 218.85.132.68 80 GET
/html/internet/20070130/631.html - 200 ia_archiver

3)Iask 爱问:
2009-08-23 11:56:47 60.28.164.44 - 218.85.132.68 80 GET
/html/webpromote/20070203/935.html - 200
Mozilla/5.0+(compatible;+iaskspider/1.0;+MSIE+6.0)

4)sogou 搜狗:
对于搜狗,我就觉得好笑了。大家记得我说过我的网站是改版过的,Brand 是旧网站文件,早被我删除了。而且为了删除除搜索引擎收录的死链接,我在 robots.txt 文件中写着:Disallow: /Brand ,这当然禁止访问 Brand 下的文件, 我这里想说的是,一、它 sogou 不遵守 robots 协议,二、对于已经删除近一个 月的文件,它从哪里搜索而来。我真的不太明白了。

顶一下
(1)
100%
踩一下
(0)
0%
------分隔线----------------------------
最新评论 查看所有评论
发表评论 查看所有评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 密码: 验证码:
赞助商位置
推荐内容
杂七杂八