データの管理
「Garbage In, Garbage Out(ゴミを入れたらゴミが出る)」と言われるように、AIシステムにおいてデータはコード以上に重要です。
データセットの分割
Section titled “データセットの分割”機械学習では、手持ちのデータを以下の3つに分割して使用します。
- 訓練データ (Training Data):
- AIモデルを学習させるために使うデータ。全体の60〜80%程度。
- 検証データ (Validation Data):
- 学習中に、ハイパーパラメータ(設定値)の調整や、過学習のチェックに使うデータ。
- テストデータ (Test Data):
- 学習が完了した最終的なモデルの性能を評価するために使うデータ。学習には絶対に使ってはいけません(データリーク)。
データの前処理と品質課題
Section titled “データの前処理と品質課題”生データはそのままでは使えません。以下の前処理が必要です。
- クレンジング: ノイズ、欠損値、重複データの除去。
- 正規化・標準化: データのスケール(単位や範囲)を揃える。
- ラベリング(アノテーション): 教師あり学習のために正解を付与する作業。ここでのミスは致命的です。
- データ拡張: 画像を回転・反転させるなどして、データ量を水増しし、モデルの汎用性を高める手法。