网页缓存快照并不能说明是Search蜘蛛最后一次访问的时间
发现有很多站长都喜欢把搜索门户上网页快照的读取时间算做是蜘蛛最后一次的访问时间,其实(在我现在看来)这是不正确的,至少这是很长一段时间的观察经验,以前我也曾一直将搜索引擎快照截取的时间作为判断蜘蛛最近一次的遍历访问的时间,尤其我对Google的看法,但经过很长时间的观察,发现事实并不是这样的,比如举个例子,例如现在我网站主页在Google的快照日期是3天前的,但是很有可能Google早已经把我1天前发布的文章也编入索引的相关搜索结果中了(在没外部导入链的情况下),其他像baidu,Yahoo,也是类似,相信那些搜索门户N多的服务器放哪里不是吃干饭的,相信他们不太会潜在的透露他们蜘蛛的确切访问时间。
发现百度有个蛮有趣的现象,似乎他会把你同个网页的快照同时保存好几份,比如你这个老页面信息改版后,当百度蜘蛛上你这个页面抓取信息后会生成现在的快照,但还是会保留以前的快照相当长的一段时间,一般在搜索现在这个页面信息时候出现的是最新的快照,而当你搜以前信息的时候则出现的是以前的快照信息尽管实际页面上已经不存在这个信息了;我知道Google如果遍历到老网页上的新结果时候一般正常情况下都会很快的把旧的网页缓存删掉,你搜以前的信息后得到的网页快照也是最新的那个快照。