Wikipedia マイニング

Wikipediaの記事はすべての記事テキストを一定の条件のもとに誰もが自由に使用でき、コーパスで問題となる著作権の問題が発生しません。Wikipedia マイニング とはWikipediaの大規模データをコーパスとして、多くの有益な情報を抽出して活用する事です。

Wikipedia の即時性と網羅性

Wikipediaの総記事数はWikipediaは世界最大の百科事典と言われるブリタニカ百科事典を遥かに超え圧倒的です。Wikipediaはボラティアによってリアルタイムに記事が追加、更新されています。ニュースが報じられた数時間もしない間に編集が行われいます。新しい概念に対する網羅性の高さ、即時性は世界中のボランティアに支えられた Wikipedia ならではと言えます。ニュースに対しての反応は本サービスのトレンドで確認する事ができます。

Wikipediaの正確性

Wikipediの記事は問題があれば、誰でもWebブラウザで編集を行い修正ができます。このシンプルな原理で記事の信頼性が担保されると言われています。2005年 12月に公開されたNature誌の調査によれば、Wikipediaは世界最大の百科事典のブリタニカと同等の精度を持つと報告されています。

ブリタニカ百科事典は1768年創刊し、ブリタニカ社が専門家からなるスタッフに調査・執筆に対し報酬を支払い有料で提供している百科事典である。

Wikipediaの記事に含まれる情報

  • カテゴリ情報
  • シーソーラス
  • 地理情報
  • etc..

Wikipediaのカテゴリ

Wikipediaの記事は複数のカテゴリに所属する事が出来きカテゴリは別のカテゴリにリンクを張ることが出来ます。Wikipediaカテゴリは分類辞書(タクソノミー)としての役割があり、本サービスでは検索結果の分類に利用しています。ただし、カテゴリのネットワーク構造は大体は階層構造となっていいますが、厳密にはループも含んでおり、カテゴリはネットワーク構造となっている為にあるカテゴリに所属する記事をすべて検索するという事は行っていません。

Wikipediaからのシソーラス構築

シソーラス辞書は概念の上位、下位概念、同義語などによって分類、体系付けられた辞書で、情報検索において有用性が実証されており、曖昧検索でシソーラス辞書を利用されることが多い。しかし、WordNetに代表される シソーラス辞書は手作業で構築されてきており、新語や新しい概念へのへの対応が困難となっていました。Wikipedia からシソーラス辞書を自動構築される研究がされており、自動化により大量の シソーラス辞書を構築する手法が提案されています。残念ながら本サービスでは未だ実用に至っていません。

Wikipediaの地理情報

Wikipediaには地理情報を示すテンプレートが幾つか定義されており、記事から、Webで利用できるマップサービスと連携できるようになっています。従って、Wikipediaの構造を利用して非常に高精度の地理情報を抽出することが出来ます。 2013年01月30日の時点で本サービスでは英語版で約52.1万、日本語は約7.6万記事から地理情報を抽出しています。

関連文書

外部サイト