2005年 12月 06日
機械による検索、集合知による検索 |
▼機械による情報抽出、集合知に情報抽出
情報を選び出す方法の最有力候補は、検索技術だろう。検索技術は進歩し続けている。最初は、検索キーワードを文中に持つページを探してくるという比較的単純なものだった。しかしネット上に情報があふれ出すと、この方法はうまく機能しなくなってきた。コンピューターが1つひとつのウェブページを検索してくるのに時間がかかり過ぎるようになったのと、キーワードを含むページの数が多くなりすぎるようになったのだ。キーワードを含むページの数が何十万、何百万にもなれば、実際にすべてのページを見てまわることは不可能。キーワードを含むページを無数に探し出してくるということは、必要な情報を探し出してこれないのと、同じことなのである。
そこで、ただキーワードを含むページをリストアップするだけではなく、どれが重要な情報であるかという価値判断を下して重要な情報から順に表示するようにしたのがグーグルである。
グーグルのコンピューターは、ネット上のほとんどのウェブページをあらかじめ巡回し、キーワードがページのどの部分にあるのか、どれだけ多くのどんなページからリンクされているか、などの基準でページの重要度を認識するようになっている。キーワードが本文の下のほうに含まれているページより、ページのタイトル文の中に含まれているほうが、キーワードに関連した文書である確率が高い。多くのページからリンクされているページは重要なページである確率が高い。また多くのページからリンクされている重要なページからリンクされているページは同様に重要である確率が高い。こうした考え方を基に、コンピューターがページの重要度を自動的に判断し、検索用のデータベースをあらかじめ作成しておくのだ。
それで実際にユーザーがキーワードを入力し検索ボタンを押せば、何十万台、何百万台といわれるコンピューターが同時に検索用データベースの異なる箇所を検索する。この超並列処理のおかげで、あっという間に検索結果が表示される仕組みになっている。
グーグルのおかげで、ネット上から必要な情報を見つけることがかなりの確率で可能になった。しかしそれでもまだ完璧と呼べるレベルからはほど遠い。
検索技術をより精巧なものにするには、各ウェブページにコード付けする必要があるといわれている。「産経新聞」「社会面」などといったコードをウェブページの中に埋め込んでおくと、産経新聞の社会面の記事だけを的確に検索できるようになる。こうしたコード付けの国際的なルールを策定しようと何年も前から協議が続けられているのだが、思うようには進んでいないようだ。
なぜなら世の中の事象には明確な線引きでジャンル分けできないものが数多くあり、ジャンル分けできるものでも世の中の変化に伴いジャンルの定義が無意味になってしまうことがよくあるからだ。
例えばコンピューターがまだ計算機としてとらえられていた1990年代の初めごろ、パソコンに音楽、映像再生機能を搭載していたものは一部でマルチメディアパソコンと呼ばれていた。IT業界の調査会社の中にはマルチメディアパソコンの出荷台数の統計を予測するところがあった。ところが95年ごろからインターネットの商業利用が始まり、パソコンは通信機器とみなされ、音楽、映像再生機能はどのパソコンにも当たり前のように搭載されるようになった。ほとんどすべてのパソコンがマルチメディアパソコンになり、一般的な計算機としてのパソコンとの区別が不明瞭になったのだ。いつのまにかマルチメディアパソコンの市場統計予測が発表されなくなり、マルチメディアパソコンという言葉自体、死語となった。
こうした理由から国際的な団体などによる系統だったコード付けは、難航している。しかしそんな中で、一般ユーザーによるコード付けの試みが意外な成果を生み始めている。
ブラウザーの「お気に入り」「ブックマーク」といった機能を使ったユーザーも多いことだろう。ネットサーフィンの最中に興味深いページに遭遇したら、再度訪れることができるようにそのページのアドレスを記憶させておく機能だ。
この機能をオンライン上で提供しているサービスがある。オンライン上のサービスを利用することで、会社のパソコンでも自宅のパソコンでも同じ「ブックマーク」を参照できるので、利用者が増えているようだ。
こうしたブックマークサービスに、いろいろな機能が追加され始めている。ブックマークし続けていると、ブックマーク数が膨大になり、「あのウェブページはどこにあったっけ」とブックマークを探し出すのも一苦労になる。そこで、ブックマークを形容する「ひと言」を追加できるという機能がある。この「ひと言」は「タグ」と呼ばれる。自分自身の言葉でタグをつけるわけだから、検索するときも自分自身の言葉で検索することで、探していたブックマークをうまく見つけることができるようだ。
またブックマークを公開するという機能もある。他のユーザーとブックマークを見せ合うことができるわけだ。興味深いウェブページをブックマークするたびに、そのウェブページをブックマークしている他のユーザーのハンドルネームが表示される。しばらく使っていると、同じようなことに興味を持っている複数のユーザーの存在が分かってくる。そうすると、今度は同じことに興味を持つユーザーのブックマークを見て、自分がまだ読んでいないウェブページを見つけることができるというメリットがある。同じことに興味を持つユーザーたちは、まるで自分のアシスタントのようにネット上から興味深いウェブページを探し出してきてくれるわけだ。
またブックマークを公開しているすべてのユーザーのブックマークを、タグを使うことで検索できる。タグに使われそうな単語を検索窓に入力し検索ボタンを押すと、そのタグを使って形容しているウェブページの中で最も多くのユーザーがブックマークしているウェブページから順に表示されるようになっている。
よく考えると、これはウェブページにコード付けしているのと同じことになる。国際的な団体などが目指しているコード付けを、無数のネットユーザーが知らない間に実践していることになるわけだ。もちろん、国際的な団体のコード付けに比べれば、系統立っているとは到底言えない。同じウェブページを違う「ひと言」で表現するユーザーも当然いる。中には、ピント外れの「ひと言」で表現するユーザーもいるだろう。
しかし、より多くのユーザーが参加することで、そのウェブページを表現するのに最も妥当な「ひと言」が見えてくる。相当数のユーザーが参加する中で、一番多かった「ひと言」が最も妥当な表現と考えていいからだ。
またピント外れの「ひと言」も決して無駄にはならない。ピント外れの「ひと言」でウェブページを形容する人が一定数いるということは、そのピント外れの「ひと言」で検索するユーザーもまた一定数いるということになるからだ。ピントはずれの「ひと言」が存在するおかげで、ほとんどの人が探していた情報にたどりつけるようになっている。
かなりの数のユーザーが参加することで、系統立ったコード付け以上の効果を生んでいるわけだ。人々の「集合知」で、ネット上の情報整理を進めるというやり方だ。
機械を使った検索技術も、集合知を使った検索手法も、これからもっともっと進化していくことだろうと思う。
著者注:本として出版するための原稿ですが、未完成なものです。間違いの指摘やご意見をいただければ幸いです。「過去エントリをそのまま記録として残すべきだ」「細かな修正を加えるたびにPINGが飛び、RSSリーダーにほぼ同じ原稿が表示されるので困る」などという意見をいただきましたので、ご意見、ご指摘をいただいても、エントリ自体を修正しないことにしています。ですが、建設的なご指摘、ご意見は、最終原稿に必ず反映させるつもりです。繰り返しになりますが、本エントリは未完成原稿です。引用を希望される場合は、脚注にある原典に当たられることをお勧めします。
参考「本を書きます」

このworkは、クリエイティブ・コモンズ・ライセンスの下でライセンスされています。
情報を選び出す方法の最有力候補は、検索技術だろう。検索技術は進歩し続けている。最初は、検索キーワードを文中に持つページを探してくるという比較的単純なものだった。しかしネット上に情報があふれ出すと、この方法はうまく機能しなくなってきた。コンピューターが1つひとつのウェブページを検索してくるのに時間がかかり過ぎるようになったのと、キーワードを含むページの数が多くなりすぎるようになったのだ。キーワードを含むページの数が何十万、何百万にもなれば、実際にすべてのページを見てまわることは不可能。キーワードを含むページを無数に探し出してくるということは、必要な情報を探し出してこれないのと、同じことなのである。
そこで、ただキーワードを含むページをリストアップするだけではなく、どれが重要な情報であるかという価値判断を下して重要な情報から順に表示するようにしたのがグーグルである。
グーグルのコンピューターは、ネット上のほとんどのウェブページをあらかじめ巡回し、キーワードがページのどの部分にあるのか、どれだけ多くのどんなページからリンクされているか、などの基準でページの重要度を認識するようになっている。キーワードが本文の下のほうに含まれているページより、ページのタイトル文の中に含まれているほうが、キーワードに関連した文書である確率が高い。多くのページからリンクされているページは重要なページである確率が高い。また多くのページからリンクされている重要なページからリンクされているページは同様に重要である確率が高い。こうした考え方を基に、コンピューターがページの重要度を自動的に判断し、検索用のデータベースをあらかじめ作成しておくのだ。
それで実際にユーザーがキーワードを入力し検索ボタンを押せば、何十万台、何百万台といわれるコンピューターが同時に検索用データベースの異なる箇所を検索する。この超並列処理のおかげで、あっという間に検索結果が表示される仕組みになっている。
グーグルのおかげで、ネット上から必要な情報を見つけることがかなりの確率で可能になった。しかしそれでもまだ完璧と呼べるレベルからはほど遠い。
検索技術をより精巧なものにするには、各ウェブページにコード付けする必要があるといわれている。「産経新聞」「社会面」などといったコードをウェブページの中に埋め込んでおくと、産経新聞の社会面の記事だけを的確に検索できるようになる。こうしたコード付けの国際的なルールを策定しようと何年も前から協議が続けられているのだが、思うようには進んでいないようだ。
なぜなら世の中の事象には明確な線引きでジャンル分けできないものが数多くあり、ジャンル分けできるものでも世の中の変化に伴いジャンルの定義が無意味になってしまうことがよくあるからだ。
例えばコンピューターがまだ計算機としてとらえられていた1990年代の初めごろ、パソコンに音楽、映像再生機能を搭載していたものは一部でマルチメディアパソコンと呼ばれていた。IT業界の調査会社の中にはマルチメディアパソコンの出荷台数の統計を予測するところがあった。ところが95年ごろからインターネットの商業利用が始まり、パソコンは通信機器とみなされ、音楽、映像再生機能はどのパソコンにも当たり前のように搭載されるようになった。ほとんどすべてのパソコンがマルチメディアパソコンになり、一般的な計算機としてのパソコンとの区別が不明瞭になったのだ。いつのまにかマルチメディアパソコンの市場統計予測が発表されなくなり、マルチメディアパソコンという言葉自体、死語となった。
こうした理由から国際的な団体などによる系統だったコード付けは、難航している。しかしそんな中で、一般ユーザーによるコード付けの試みが意外な成果を生み始めている。
ブラウザーの「お気に入り」「ブックマーク」といった機能を使ったユーザーも多いことだろう。ネットサーフィンの最中に興味深いページに遭遇したら、再度訪れることができるようにそのページのアドレスを記憶させておく機能だ。
この機能をオンライン上で提供しているサービスがある。オンライン上のサービスを利用することで、会社のパソコンでも自宅のパソコンでも同じ「ブックマーク」を参照できるので、利用者が増えているようだ。
こうしたブックマークサービスに、いろいろな機能が追加され始めている。ブックマークし続けていると、ブックマーク数が膨大になり、「あのウェブページはどこにあったっけ」とブックマークを探し出すのも一苦労になる。そこで、ブックマークを形容する「ひと言」を追加できるという機能がある。この「ひと言」は「タグ」と呼ばれる。自分自身の言葉でタグをつけるわけだから、検索するときも自分自身の言葉で検索することで、探していたブックマークをうまく見つけることができるようだ。
またブックマークを公開するという機能もある。他のユーザーとブックマークを見せ合うことができるわけだ。興味深いウェブページをブックマークするたびに、そのウェブページをブックマークしている他のユーザーのハンドルネームが表示される。しばらく使っていると、同じようなことに興味を持っている複数のユーザーの存在が分かってくる。そうすると、今度は同じことに興味を持つユーザーのブックマークを見て、自分がまだ読んでいないウェブページを見つけることができるというメリットがある。同じことに興味を持つユーザーたちは、まるで自分のアシスタントのようにネット上から興味深いウェブページを探し出してきてくれるわけだ。
またブックマークを公開しているすべてのユーザーのブックマークを、タグを使うことで検索できる。タグに使われそうな単語を検索窓に入力し検索ボタンを押すと、そのタグを使って形容しているウェブページの中で最も多くのユーザーがブックマークしているウェブページから順に表示されるようになっている。
よく考えると、これはウェブページにコード付けしているのと同じことになる。国際的な団体などが目指しているコード付けを、無数のネットユーザーが知らない間に実践していることになるわけだ。もちろん、国際的な団体のコード付けに比べれば、系統立っているとは到底言えない。同じウェブページを違う「ひと言」で表現するユーザーも当然いる。中には、ピント外れの「ひと言」で表現するユーザーもいるだろう。
しかし、より多くのユーザーが参加することで、そのウェブページを表現するのに最も妥当な「ひと言」が見えてくる。相当数のユーザーが参加する中で、一番多かった「ひと言」が最も妥当な表現と考えていいからだ。
またピント外れの「ひと言」も決して無駄にはならない。ピント外れの「ひと言」でウェブページを形容する人が一定数いるということは、そのピント外れの「ひと言」で検索するユーザーもまた一定数いるということになるからだ。ピントはずれの「ひと言」が存在するおかげで、ほとんどの人が探していた情報にたどりつけるようになっている。
かなりの数のユーザーが参加することで、系統立ったコード付け以上の効果を生んでいるわけだ。人々の「集合知」で、ネット上の情報整理を進めるというやり方だ。
機械を使った検索技術も、集合知を使った検索手法も、これからもっともっと進化していくことだろうと思う。
著者注:本として出版するための原稿ですが、未完成なものです。間違いの指摘やご意見をいただければ幸いです。「過去エントリをそのまま記録として残すべきだ」「細かな修正を加えるたびにPINGが飛び、RSSリーダーにほぼ同じ原稿が表示されるので困る」などという意見をいただきましたので、ご意見、ご指摘をいただいても、エントリ自体を修正しないことにしています。ですが、建設的なご指摘、ご意見は、最終原稿に必ず反映させるつもりです。繰り返しになりますが、本エントリは未完成原稿です。引用を希望される場合は、脚注にある原典に当たられることをお勧めします。
参考「本を書きます」

このworkは、クリエイティブ・コモンズ・ライセンスの下でライセンスされています。
by tsuruaki_yukawa
| 2005-12-06 08:11
| 本の原稿

