网站日志文件分析搜索蜘蛛爬行记录(SEO 教程)
一、网站日志文件在哪里?
【简单说下网站虚拟主机几个文件夹说明】
虚拟主机开通成功之后,会在您的 FTP 里面自动生成 4 个文件夹,分别是: "databases","logofiles","others","wwwroot",他们作用如下:
1、wwwroot 文件夹:该文件夹内存放可以通过 web 访问的文件,您需要将 您对外发布的网站文件上传到该目录下, 输入域名访问到的文件将是该文件夹下 的文件。
2、databases 文件夹:该文件夹同 logofiles、others 文件夹一样,属于 不可通过 web 访问的文件夹, 即用户无法通过输入网址来访问这些文件夹下的文 件,您可以在这些文件夹下上传一些不希望别人能够访问的文件。比如您可以将 access 数据库存放在 databases 文件夹下,这样可以最大化的保证您的数据库 安全。
3、logofiles 文件夹:logofiles 文件夹是日志文件,该文件夹存放您的网 站日志文件。通过日志文件您可以查询到网站的一些访问记录。(由于各个空间 商的不同,本文件夹的命名也有少许差别有都命为:logofiles 或者 WEBLOG 反 正一般都会带上 LOG 这一个字母)
4、others 文件夹:该站点存放您自定义的 IIS 错误文件。IIS 默认的一些 错误提示,比如 404 错误,403 错误,500 错误等等,如果您觉得这些错误提示 不够个性化,您可以将您自定义的错误提示上传到该目录下。
二、怎样分析网站日志文件
分析举例说明。下面以IBM笔记本电脑论坛 http://www.ebenben.com 最近8月份的日志文件为例说明一下,空间日志代码如下:
2009-08-23 16:06:03 W3SVC176 58.61.160.170 GET
/nb/html/30/t-12730.html - 80 - 220.181.7.24
Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 0 20006
1、首先以百度为例,分析说明:
访问时间:2009-08-23 16:06:03
百度蜘蛛的 IP:58.61.160.170
蜘蛛爬这的网址: /nb/html/30/t-12730.html
合来起所表达的意思很明显: 为 58.61.160.170 的百度蜘蛛在 2009-08-23 IP 16:06:03 点 43 分对此网站上的/nb/html/30/t-12730.html 网页进行收录或更新了。
【补充说明】
2009-08-23 16:06:03 是百度蜘蛛来访的日期及时间;
158.61.160.170 是百度蜘蛛的 IP
“GET 是服务器的动作,不是 GET 就是 POSP;GET 是从服务器上获取内 容;/nb/html/30/t-12730.html 使用 HTML1.1 协议获取相关内容 200 是返回状 态码,200 是成功获取;404 是文件没找到;401 是需要密码,403 禁止查看,500 服务器错误。很明显此例子中最后返回是 200,为成功获取!
“+(+http://www.baidu.com/search/spider.htm)〃表示来路
当然,还有部分空间日志会有这样一些代码,他们表示意思如下: