機能性能メトリクス

AIモデルが「どれくらい賢いか」を数値で測るための指標（メトリクス）です。単に「正解数」を数えるだけでは不十分です。

混同行列 (Confusion Matrix)

分類モデルの結果を「真陽性(TP)」「偽陽性(FP)」「偽陰性(FN)」「真陰性(TN)」の4つに分類した表です。

	予測：Positive	予測：Negative
実：Positive	TP (正解)	FN (見逃し)
実：Negative	FP (誤検知)	TN (正解)

正解率 (Accuracy):
- 全体のうち、どれだけ正解したか。 (TP+TN) / 全体
- データの偏りがある場合（例：99%が正常データ）、役に立たないことがあります。
適合率 (Precision):
- 「Positive」と予測したもののうち、本当にPositiveだった割合。 TP / (TP+FP)
- 誤検知（オオカミ少年）を減らしたい場合に重視します（例：スパムフィルター）。
再現率 (Recall):
- 実際のPositiveのうち、どれだけ見つけられたか。 TP / (TP+FN)
- 見逃しを減らしたい場合に重視します（例：がん検診）。
F1スコア:
- 適合率と再現率の調和平均。バランスの良いモデルを作るための指標。

閾値を変えたときの性能変化をグラフにしたものがROC曲線、その下の面積がAUCです。AUCが1に近いほど優秀なモデルです。