Skip to content

データの管理

「Garbage In, Garbage Out（ゴミを入れたらゴミが出る）」と言われるように、AIシステムにおいてデータはコード以上に重要です。

データセットの分割

機械学習では、手持ちのデータを以下の3つに分割して使用します。

訓練データ (Training Data):
- AIモデルを学習させるために使うデータ。全体の60〜80%程度。
検証データ (Validation Data):
- 学習中に、ハイパーパラメータ（設定値）の調整や、過学習のチェックに使うデータ。
テストデータ (Test Data):
- 学習が完了した最終的なモデルの性能を評価するために使うデータ。学習には絶対に使ってはいけません（データリーク）。

データの前処理と品質課題

生データはそのままでは使えません。以下の前処理が必要です。

クレンジング: ノイズ、欠損値、重複データの除去。
正規化・標準化: データのスケール（単位や範囲）を揃える。
ラベリング（アノテーション）: 教師あり学習のために正解を付与する作業。ここでのミスは致命的です。
データ拡張: 画像を回転・反転させるなどして、データ量を水増しし、モデルの汎用性を高める手法。