YOS INDEX とは

YOS INDEX は Wikipedia 為の多言語対応の全文検索サービスです。Wikipedia の全文検索機能よりも高速で高精度な検索結果を提供します。この全文検索エンジンは僅かTDP18Wの非常に小さな電力消費のCPU上で動作しています。

特徴

本サービスは Wikipedia 公式の全文検索システムと比較して以下のような特徴があります。

  • 検索ノイズが少ない
  • キーワード検索の苦手なユーザをサポート
  • 多言語対応で検索範囲を拡大
  • 地図のサポート

キーワードの抽出方式

全文検索システムは索引を作成することで検索を高速に行うことが可能になっています。このキーワードを文章から抽出方式はNグラム方式(N-Gram)と形態素解析方式の2方式に分類されますが、Wikipedia 公式の全文検索システムはNグラム方式で単語を抽出を行っています。Nグラム方式は自然言語に依存しないので国際化の対応が簡単になる反面、原理的に検索結果に含まれるノイズが多くなるという特徴があります。Nグラム方式のキーワードの境界は人間が認識する自然言語の境界と必ずしも一致しません。検索ノイズはキーワードの文字数が少ない場合に顕著で、例えば、「パン」を検索すると、「パン」に関する記事がヒットするのは当然ですが、「フライパン」や「ラパン」もヒットしてしまいます。本サービスの全文検索システムは自然言語に依存する形態素解析方式で単語を抽出を行っております。従って、公式の検索システムよりも検索ノイズを少なくすることが出来ています。

形態素解析方式には未知語の問題がありますが、本サービスは Wikipedia の巨大な文書から固有表現を自動的に抽出することで形態素解析の問題を解消するようにしています。

表記の揺らぎを吸収

記事の表記の揺らぎを吸収して検索漏れとならないようにしています。
  • 半角カタカナと全角カタカナ
  • 長音
  • 半角英数・記号に対応する全角文字
  • 異体字

キーワードのサジェスト

キーワード入力途中で、検索キーワードの候補が表示され、検索キーワードを入力する手間を省いたり、検索キーワードのスペルミスを防いだりすることが出来ます。

キーワードのスペルミスの修正

検索を行った結果、検索結果が少ない場合にはスペルミスが疑われます。このような場合に、検索システムが検索キーワードの修正候補を表示します。修正候補で再検索したい場合にはクリックするだけで再検索できます。

カテゴリフィルター

Wikipedia の記事に設定されているカテゴリーを検索結果の絞込み条件として使用することができます。検索キーワードが曖昧な場合や多義語である場合には、検索結果に一致する記事が多くなってしまいますが、このような場合にユーザが検索キーワードを考え直さずに、タグクラウドのカテゴリタグをクリック選択するだけで検索範囲を対象のコンセプトに近づけることが出来ます。これにより専門知識を持たない人でも簡単に目的の記事を探し出すことが出来るはずです。Wikipediaのカテゴリは階層的に定義されておりツリー構造で表すことも可能ですが、本サービスでは携帯デバイスでも同じ操作性で利用できるようにツリー構造でフィルター操作するよりもタグクラウド方式の方が簡単に操作できるであろうと考えタグクラウド方式を採用しています。

類似文書検索

検索結果の記事を1つ選択して、類似文書を検索することが出来ます。検索システムが対象記事から特徴となる重要語を自動的に抽出することで、自分で検索キーワードを考えて検索するよりも、客観的に多くの記事を発見する事が出来るでしょう。

多言語・横断検索

本サービスは現在、英語圏と日本語圏の人が利用できるようになっています。日本語版と英語版を横断して検索することも出来ます。検索結果にブラウザの表示言語と異なる記事には翻訳サイトと連携して内容を翻訳して参照できるようなっています。例えば、英語版にあって、日本語にないページを見つけた場合に、記事を翻訳して移植するのに使えるのではないでしょうか。

地理情報の参照

Wikipedia の記事に緯度・経度の地理情報が含まれている場合には検索結果から直接地図を参照することが出来ます。もし、検索結果から地図を参照できない場合には Wikipediaの記事に緯度・軽度を追記して頂ければ、最長で1ヶ月後に検索結果に含まれるようになります。

関連文書

YOS INDEX はサービスを終了しました。