Skip to content

機能性能メトリクス

AIモデルが「どれくらい賢いか」を数値で測るための指標(メトリクス)です。単に「正解数」を数えるだけでは不十分です。

分類モデルの結果を「真陽性(TP)」「偽陽性(FP)」「偽陰性(FN)」「真陰性(TN)」の4つに分類した表です。

予測:Positive予測:Negative
実:PositiveTP (正解)FN (見逃し)
実:NegativeFP (誤検知)TN (正解)
  1. 正解率 (Accuracy):
    • 全体のうち、どれだけ正解したか。 (TP+TN) / 全体
    • データの偏りがある場合(例:99%が正常データ)、役に立たないことがあります。
  2. 適合率 (Precision):
    • 「Positive」と予測したもののうち、本当にPositiveだった割合。 TP / (TP+FP)
    • 誤検知(オオカミ少年)を減らしたい場合に重視します(例:スパムフィルター)。
  3. 再現率 (Recall):
    • 実際のPositiveのうち、どれだけ見つけられたか。 TP / (TP+FN)
    • 見逃しを減らしたい場合に重視します(例:がん検診)。
  4. F1スコア:
    • 適合率と再現率の調和平均。バランスの良いモデルを作るための指標。

閾値を変えたときの性能変化をグラフにしたものがROC曲線、その下の面積がAUCです。AUCが1に近いほど優秀なモデルです。