百度收录未解析以及打开503错误二级域名页面的观察
偶然在百度搜索灵犀札记的域名时(xylxydt.com)发现,百度竟然收录了好多本博域名下本身就不存在的二级域名URL,而且这些URL结构看起来乱七八糟的二级域名是根本就不存在于我博客主域名下面过的,在我域名管理中也未曾针对这些域名做过解析,也没有做过泛解析,在当时发现打开之后就是一个二级域名的“域名停靠”GG广告页面(感觉很气愤,域名既然被所有人注册了,那域名中顶级域名包括下级的二级、多级子域的所有权就是所有人的,他人,例如注册商,照理是没有权利在别人注册的域名下投放广告的,这无论在现行的法律还是在GG广告规则条例上都是站不住脚的),百度竟然可以针对这种未解析的二级域名页面也收录这么多,不知道是有人恶意用这种方式做广告还是其他什么问题,但在分析了一下原因之后发现,这些未解析的二级域名停靠页面在打开的时候都是属于200正常状态的。于是在发现问题之后当天对域名进行设置,在设置后将打开所有二级和多级域名后,都变成503错误的状态,这下感觉百度应该是不会收录了,但是事实是百度在第二天又开始收录了我设置打开503状态的二级域名页面,而且快照和实际打开的503错误页面也完全不一样,似乎还是原先域名停靠页面那种样式的模板,这就有点摸不着北了,从事这块行业这么久了百度收录从来不曾打开过的503状态页面和未解析的二级域名页面倒还是头一会儿碰见。
以上是昨天,也就是9月23日的截图,截图最下方快照为9月22日的是设置503之后被收录的,今天,也就是24号,百度针对这个页面的快照居然更新至今天24号的日期了,然而这个页面早在几天前就已经是打开503的错误状态了。
思考的问题:本站运行到现在已经好多年了,这样的情况倒是从来没有遇见过,思考可能产生这种情况的几点原因:
第一:域名解析服务器问题。感觉可能性不是没有,但是比较小,虽然默认的域名停靠广告页面给人感觉很不爽,但是就正常情况不太可能会被百度索引到,何况后来变成了503打不开的状态,对搜索引擎来说根本毫无意义。
第二:有人恶意搞破坏。这也不排除有人恶意搞破坏,说到恶意捣乱破坏,本博的域名网址被人恶意利用掺杂到淫秽信息中进行推广已经不是一两个月了,至今从百度中还是能看到有类似的情况,所以有人蓄意捣乱的可能性也很大,况且从这些乱七八糟的二级域名URL上来看,还有其他域名的地址痕迹,这就越发显得可疑了,但实在想不出有谁会这么无趣来捣乱一个个人博客,何况意义何在,自问无论是个人作为还是博客运作都不曾冒犯过什么何方神圣,如果真是这样的话感觉吃误伤的可能性最大,这世界6Pao多啊,真没法。(目前针对本博域名被人掺杂黄色信息恶意滥发的情况已经准备了近一年来的历史跟踪分析材料去相关部门投诉)
第三:自动化线上网站作怪。其实对于网站的收录做过网站的朋友应该了解,一般来说搜索引擎收录的方法主流的无非是两种,一种是通过搜索引擎入口主动提交;另外则是搜索引擎通过蜘蛛爬行网站的外部推介链接来进行索引。那也就是说如果搜索引擎要收录那些本身就不存在的二级域名首先可能有被提交或外链的情况,这貌似有些能自动化查询域名并能留下查询痕迹的网站会有这样的情况,那就百度来说,非A标记的文本链接也算作外链的话,倒是的确会爬行过来,这种可能性也不是没有,但是人为的可能性更大。
第四:百度抓取出现问题。百度本身抓取的技术问题其实也是有这个可能,毕竟这些都是一些不存在而且打开无法解析或503错误的页面,对于一个搜索引擎来说,这样去收录一些毫无内容的二级域名页面对搜索引擎服务商本身的服务器资源来说其实也算是一种浪费,正常情况上来讲搜索引擎照理也没理由去收录这种过去、现在和将来都不会有内容的且完全不存在的二级域名的页面,或许这是一个抓取算法上的bug也未知。
第五:某种未被大多数人所知的技术手段。产生这样的情况也可能有些人,通过一些技术,这些技术可能门槛很高触不可及,也很可能门槛很低,但鲜为人知,从而来进行操作以到达自己的一些目的。最为可怕的是如果真的是这样的话你的网站如果某些方面的技术防范不严可能会被他人利用并达成一些目的,比如让你的网站在搜索引擎中消失,(既然可以让一些不存在的域名页面收录,当然K站自然也不在话下了),当然了这只是假设,如果真的是这样也能有变通的办法。
第六:也就是百度收录503页面的时间差问题。虽然是改503状态之后的事,快照日期也是修改成503状态第二天的日期,但也可能百度在我修改之前已经有通过某种途径在还是显示“域名停靠”页面的时候就收录了这个二级域。但是这个503页面的快照却是和原先其他“域名停靠”的快照页面有些出入,虽然模板是差不多一样的,所以这点也有不解的地方,难道百度还是在继续收录503的页面?
后话:技术的知识海洋是浩瀚的,看来又能学习到新东西了,针对这个有趣的现象会再继续观察分析并进行行业朋友圈子的知识分享与探讨,发现这种情况能带来的好处以及负面影响,再进行衍生转化,当然必要的时候还会和百度网讯科技有限公司的相关部门进行沟通。