中国インターネット事情

ITを中心に中国の事 もろもろ

360がサーチエンジンをやり始めた。そして百度がキレる。【3B大戦】

中国のライブドア。お騒がせ企業No1の奇虎360。
ある時は中国の巨大IT企業QQテンセントと3Q大戦を戦いぬき、ある時は国際ハッカー集団アノニマスともバトルする彼らが、
今回標的に選んだのが、Google国外追放で波に乗るサーチエンジン百度である。

そして、いい加減にしろと、360が運営するサーチエンジンの挙動に百度が文句を付けた。

【360のサーチエンジンURL】
http://hao.360.cn/so/index.html

まずは、サーチエンジンの仕組みをおさらい。

1.クローラでページを収集。
2.インデクサがそのページを整理整頓。
3.データベースに登録。
4.検索があった場合、リザルトエンジンがDBから結果を返す。

さて、今回の百度と360の戦いは、1番のクローラの挙動にて勃発している。
クローラーはサイトにアクセスをして実際にページを収集する役割を負っているのだが、サイト運営者からみれば人ではないアクセスによってサーバ資源が消費されることになるので、これを拒絶する方法が確立されている。
サイト管理者がrobots.txtというファイルにクローラのアクセス権を記述しておくと、アクセスされたくないページにはクローラはアクセスしないことにはなっている。
そして、百度でもこのようなファイルを設置していたのだが、奇虎360のサーチエンジンは全く意に介さずアクセスを繰り返しているのだという。
実はこのrobots.txt。紳士協定のようなもので、クローラ側が対応していなければ実際はアクセス禁止にすることは難しい。

百度を含め、Google、Yahooと皆守っているのに、360がこの協定を守らないのは「ケシカラン」という話である。

実際に、百度robots.txtを見ると、そこには360のクローラを対象とした記述はもはや存在しないようだ。
http://www.baidu.com/robots.txt
このファイルを無視するクローラに対しては、現在は別の方法、例えばIPアドレスの拒否などでお帰りを願っているのだろう。

それにしても、サーチエンジンの黎明期にはみなこのやり方でデータを集めているような気がするのですが。
特に百度の場合、そのクローラは、robots.txtを無視した上で、更に同じサイトに何度もアクセスしていたりして日本を初めとした世界中で伝説になっていました。

引用 Wikipedia 百度の項目
2006年下期頃から、Baiduのクローラ「Baiduspider」による日本のサイトへの過度なクローリング行為が目立つようになり、大手電子掲示板を始めとしたサイトで利用者がアクセス困難になる事態が発生し、Baiduのクローラからのアクセスをブロックする動きがみられるようになった。
これについて、Baiduは2007年3月、日本の各ウェブサイトにたいしてBaiduspiderが過剰な負荷をかけたことを謝罪するとともに、クローリングの頻度管理を統一するなどの対処策を発表した[3]。また同年5月には負荷の少ない新型クローラである「BaiduChecker」を導入し、ウェブサイトに与える負荷を平均数百バイト程度に抑えられるようになったと表明している[4]。2009年7月現在 BaiduImagespider、BaiduMobaider、が別途クロールしており、特にBaiduMobaiderはRobot.txtを無視してクロールしている。
http://ja.wikipedia.org/wiki/%E7%99%BE%E5%BA%A6


もしかすると、百度を辞めたクローラ設計者が、今度は360で再就職し、全く同じものを作ったら古巣の百度から文句を言われた。そんな話だったり。
 

取りあえず、サーチエンジンは情報が命ですから、何でもありで統計情報に従って良くある名前のファイル名を打ち込み、リンクが存在しなくてもページを見つけ出すなんていうこともやっている かもしれません。

まあ、奇虎360からすれば、お前が文句を言うなと。