网站日志文件分析搜索蜘蛛爬行记录(SEO 教程)

一、网站日志文件在哪里?
【简单说下网站虚拟主机几个文件夹说明】
虚拟主机开通成功之后，会在您的 FTP 里面自动生成 4 个文件夹，分别是： "databases","logofiles"，"others","wwwroot",他们作用如下：
1、wwwroot 文件夹：该文件夹内存放可以通过 web 访问的文件，您需要将您对外发布的网站文件上传到该目录下，输入域名访问到的文件将是该文件夹下的文件。
2、databases 文件夹：该文件夹同 logofiles、others 文件夹一样，属于不可通过 web 访问的文件夹，即用户无法通过输入网址来访问这些文件夹下的文件，您可以在这些文件夹下上传一些不希望别人能够访问的文件。比如您可以将 access 数据库存放在 databases 文件夹下，这样可以最大化的保证您的数据库安全。
3、logofiles 文件夹：logofiles 文件夹是日志文件，该文件夹存放您的网站日志文件。通过日志文件您可以查询到网站的一些访问记录。(由于各个空间商的不同，本文件夹的命名也有少许差别有都命为：logofiles 或者 WEBLOG 反正一般都会带上 LOG 这一个字母)
4、others 文件夹：该站点存放您自定义的 IIS 错误文件。IIS 默认的一些错误提示，比如 404 错误，403 错误，500 错误等等，如果您觉得这些错误提示不够个性化，您可以将您自定义的错误提示上传到该目录下。

二、怎样分析网站日志文件
分析举例说明。下面以IBM笔记本电脑论坛 http://www.ebenben.com 最近8月份的日志文件为例说明一下，空间日志代码如下：
2009-08-23 16:06:03 W3SVC176 58.61.160.170 GET
/nb/html/30/t-12730.html - 80 - 220.181.7.24
Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 0 20006

1、首先以百度为例，分析说明：
访问时间：2009-08-23 16:06:03
百度蜘蛛的 IP：58.61.160.170
蜘蛛爬这的网址： /nb/html/30/t-12730.html
合来起所表达的意思很明显：为 58.61.160.170 的百度蜘蛛在 2009-08-23 IP 16:06:03 点 43 分对此网站上的/nb/html/30/t-12730.html 网页进行收录或更新了。

【补充说明】
2009-08-23 16:06:03 是百度蜘蛛来访的日期及时间;
158.61.160.170 是百度蜘蛛的 IP
“GET 是服务器的动作，不是 GET 就是 POSP;GET 是从服务器上获取内容;/nb/html/30/t-12730.html 使用 HTML1.1 协议获取相关内容 200 是返回状态码，200 是成功获取;404 是文件没找到;401 是需要密码，403 禁止查看，500 服务器错误。很明显此例子中最后返回是 200，为成功获取!

“+(+http://www.baidu.com/search/spider.htm)〃表示来路

当然，还有部分空间日志会有这样一些代码，他们表示意思如下：