全文検索エンジンの精度の評価方法

この記事では全文検索エンジンの検索精度の評価方法について解説します。

適合率と再現率

情報検索システムの検索精度は正確性と網羅性の質的な観点から、適合率(precision)と再現率(recall)を測定することにより判定するのが一般的である。適合率は検索結果の文書群にどれだけ検索に適合した文書を含んでいるかという正確性の指標で、再現率は検索対象としている文書の中で検索結果として適合している文書のうちでどれだけの文書を検索できているかという網羅性の指標である。

適合率は以下の式で表します。

N:検索結果の文書の数
R:検索された適合文書の数

$$precision = {R \over N}$$

再現率は以下の式で表します。

C:全対象文書中の正解文書の数
N:検索結果の文書の数
$$recall = {C \over R}$$

F値(F-measure)

検索エンジの一般的な傾向として、適合率をあげれば再現率が下がり、再現率を上げれば適合率が下がるというトレードオフの関係となり、適合率を重視したシステムと再現率を重視したシステムを比較する場合に、どちらのシステムが優れているか比較が難しいことから、再現率と適合率の調和平均を取ったF値(F-measure)という尺度もよく用いられる。

F値が高ければ、性能が良いことを意味する。

一般に、再現率の高いシステムは適合率が低く、その逆に、適合率が高いシステムは再現率が低い傾向にある。評価指標が2つあると、どちらのシステムが優れているか比較が難しいので、再現率と適合率の調和平均を取った値をF値（F-measure）という指標で性能を表すこともある。

F値は以下の式で表します。

$$\begin{align} F{\textit{-}}measure & = \frac{2 \cdot precision \cdot recall}{precision + recall} \\ & = \frac{R}{\frac{1}{2} (N + C)} \\ \end{align}$$