情報の意味化と構造化による「データWeb」への展望
フロントエンド・エンジニア 矢倉 眞隆2007年も残りひと月となってしまいました。
さて、忙しい中あなたは忘年会の幹事を任されてしまいました。あまり時間を使いたくないけど、いつものお店では面白くないと考えたあなたは、グルメ情報サイトや検索エンジンを使い、新しいお店を探そうとします。しかし、なかなかよいページにたどり着くことができません。
検索技術は年々向上し、目的の情報を見つけるのは以前よりずっと易しくなったはずなのに、どうしてこのようなことが起こるのでしょうか。
構造に縛られるデータベース
忘年会や飲み会の会場を探すとき、グルメ情報サイトで検索してみた方は多いのではないでしょうか。居酒屋などはチェーン店が数多く検索結果に現れますし、それで事足りるということが多いでしょう。
しかし例えば、「新宿のおいしいジンギスカン店」など、すこし細かい条件を考えている場合、このようなデータベースは使いにくくなってしまいます。なぜなら、「新宿」が「新宿区」なのか「新宿駅周辺で、代々木駅もOK」なのか、検索条件には指定できないことが多いからです。また、ジンギスカンを食べたいのに、カテゴリに「焼肉」として登録されており、焼肉店すべてが検索結果に現れてしまうといったこともあるでしょう。
お店の情報がたくさん集まっているグルメサイトでも、アプリケーションの技術的制限や、データベースの構造により、目的の情報が見つからない、または見つけにくいことがあるのです。
さて、グルメサイトで目星をつけられなかったあなたは、代わりに検索エンジンで探そうと思い立ちます。
曖昧さや取りこぼしを判断できない検索エンジン
近年のBlogブームにより、個人のBlogやSNSの日記で、レストランやカフェの感想を書く人が増えてきました。では、この情報をうまく検索できれば、料理の細かい説明やその写真など、グルメサイトより細かい情報を得られるかもしれません。
しかし、検索エンジンやBlog検索サービスを利用しても、あまりよい情報を得ることができません。検索の仕方が悪いのでしょうか。いいえ、必ずしもそうではありません。
大きな問題として、個人が書く日記などは自然文であるため、その文脈を判断し検索することが難しいというものがあります。例えば、食事をしたお店の場所をBlogに書く際、私たちは「東京都新宿区西新宿6丁目20番12号」などと書かず、単に「新宿」や「西新宿」と書きます。または「甲州街道にあるお店」と、そのお店に関連する情報で表そうとするでしょう。
情報は何らかのかたちで存在してはいますが、それらを抽出することができない。また、不足した情報も適切に補うことができない。このため、検索エンジンをグルメ情報サイトと同じように利用することができないのです。
結局、あなたはいつものお店を予約することにしました。
情報の「意味化」と「構造化」
検索条件の連携において、その柔軟性に欠けるグルメ情報サイト。情報の宝庫だが、何が何であるのかを理解できない個人の日記。これらの問題を解決するためには、情報の「意味化」と「構造化」が必要となります。
情報の意味化とは、ある単語がどのような概念(意味)であるか、また他の概念とどのような関係を持つかを定義することです。
例えば、ジンギスカンは「焼肉の一種」を意味すると定義します。こうすることで、例えばジンギスカン店が検索条件に当てはまらない場合、範囲を焼肉まで広げた検索結果を表示することができます。
同様に、新宿駅と代々木駅は「近い」という関係を定義します。この場合、「新宿駅近辺のジンギスカン店」という条件で、代々木駅近くのジンギスカン店も検索することができるようになります。
情報の構造化とは、情報を抽象化し、機械処理しやすいような状態をつくりだすことです。
例えば、「名前」「場所」「評価」「写真」などは、お店に関する情報の種類です。これらを日記本文中から取り出し集めることにより、グルメ情報サイトに匹敵するデータベースをつくることができます。
しかし先ほども言ったとおり、自然文を解析しこれらの情報を取り出すのは困難です。そこで、日記の本文に「ここはお店の名前」「ここは感想」というヒントを与えることにより、日記から「名前:○○店」「感想:星3つ」という、構造化された情報を取り出すことができます。
HTMLであれば、お店の名前にclass名「name」をつけた要素を補うなどして、構造化のヒントを文書に与えることができます。特定のclass名を共有しようという試みは“ microformats ”と呼ばれ、対応するツールや開発者向けのライブラリが公開されています。
情報を活用する「データWeb」
情報の意味化や構造化が広まることにより、Webがグローバルなデータベースとして機能する「データWeb」に推移するのではないかといった予測がなされています。
これは「すべてのWebコンテンツが構造化・意味化する」といったものではなく、すこしずつ有用なデータが増え、またデータマイニングをはじめとする情報処理技術の向上により、Webの情報を活用してゆくWebになるという考えです。
現在のWebは、情報を活用する土台を作り始めた段階ではないかと考えています。情報を保持するだけではなく、利用することが重要であるという考えも広まりつつあり、複数のサービスでユーザーのデータを共有できるようなフレームワーク作りも行われています。
Webサイトの運用においても、情報の構造化やパターン化が注目されています。本日リリースする“メタ情報 提供支援サービス”は、情報の構造化を手助けし、データの量を増やしてゆけないかと考え、スタートしたプロジェクトです。
来る情報活用時代に向け、さらに深く取り組んでいきたいと思っています。
Newsletter
メールニュースでは、本サイトの更新情報や業界動向などをお伝えしています。ぜひご購読ください。