神奇,百度不支持同页面多域名?
星期二, 12月 4th, 2007如果在GOOGLE或百度尝试以下条件搜索:
site:comic.bbs.qq.com 会出现2种截然不同的结果:
百度的收录的网页结果仅仅只有5条
GOOGLE收录的网页有1420条!
我一开始还以为是网页被百度屏蔽或者因为网页跳转JS的原因导致无法抓取内部页面,后来发现在百度搜索GOOGLE显示内容的第一条:[04.08][四月新番][Sisters_of_Wellber-威尔贝鲁物语][01话]
在百度搜索结果是:
[04.08][四月新番][Sisters_of_Wellber-威尔贝鲁物语][01话]
bbs.gamezone.qq.com/cgi-bin/bbs/show/cont … 26K 2007-8-8 -
检索出来的结果完全一样,但是链接居然被百度自动修改为bbs.gamezone.qq.com!?我想唯一的原因是bbs.gamezone.qq.com和bbs.comic.qq.com都是指向同一服务器的相同页面,也就是说http://bbs.gamezone.qq.com/cgi-bin/bbs/show/content?club=3&groupid=138:10773&messageid=14218和http://bbs.comic.qq.com/cgi-bin/bbs/show/content?club=3&groupid=138:10773&messageid=14218显示的内容完全一致。
GOOGLE能够依据链接自动识别页面应该属于哪一个域名,而百度的爬虫很“智能”的修改了域名前缀,虽然不知道评判的依据是什么,但只保留了0.3%不到的页面肯定同合理的结果相去甚远。同服务器多个域名在很多个平台类产品中都比较广泛,希望百度的工程师能给我们一个办法能让爬虫机器人能更好的按照网站管理者的意愿来展示内容。

