12月, 2007 下的所有文章

梦境?现实?-今敏的红辣椒

星期六, 12月 15th, 2007

haibo.jpg

今敏2006的“老”动画,刚开始时紧张、游离的主题曲,仿佛进入了另外一部《千年女优》,一个接一个快速变换的场景不愧是导游最擅长的手法,从视觉上各种特效的应用比千年女优炫目,巡游的场景更是让人眼花缭乱,但是整个剧情稍显平淡,并无太多惊喜悬念,导致最终BOSS董事长同学出现的时候我感觉有一丝困倦……最后红辣椒和天才胖子的恋情可能是唯一让我感觉意外的设置,总体来说我只从视觉上感到比较满足。小插曲:剧尾有一个《千年女优》剧照乱入的场景。

神奇,百度不支持同页面多域名?

星期二, 12月 4th, 2007

如果在GOOGLE或百度尝试以下条件搜索:

site:comic.bbs.qq.com    会出现2种截然不同的结果:

百度的收录的网页结果仅仅只有5条

baidu.gif

GOOGLE收录的网页有1420条!

google.gif

我一开始还以为是网页被百度屏蔽或者因为网页跳转JS的原因导致无法抓取内部页面,后来发现在百度搜索GOOGLE显示内容的第一条:[04.08][四月新番][Sisters_of_Wellber-威尔贝鲁物语][01话]

在百度搜索结果是:

[04.08][四月新番][Sisters_of_Wellber-威尔贝鲁物语][01话]
bbs.gamezone.qq.com/cgi-bin/bbs/show/cont … 26K 2007-8-8 -

检索出来的结果完全一样,但是链接居然被百度自动修改为bbs.gamezone.qq.com!?我想唯一的原因是bbs.gamezone.qq.combbs.comic.qq.com都是指向同一服务器的相同页面,也就是说http://bbs.gamezone.qq.com/cgi-bin/bbs/show/content?club=3&groupid=138:10773&messageid=14218http://bbs.comic.qq.com/cgi-bin/bbs/show/content?club=3&groupid=138:10773&messageid=14218显示的内容完全一致。

GOOGLE能够依据链接自动识别页面应该属于哪一个域名,而百度的爬虫很“智能”的修改了域名前缀,虽然不知道评判的依据是什么,但只保留了0.3%不到的页面肯定同合理的结果相去甚远。同服务器多个域名在很多个平台类产品中都比较广泛,希望百度的工程师能给我们一个办法能让爬虫机器人能更好的按照网站管理者的意愿来展示内容。

Hello!

本BLOG正在测试调整中…
如果您对本BLOG的内容感兴趣,欢迎 feedsky免费订阅 我的文章!
再次感谢coffee对本BLOG的支持!
搜索文章 :