クロスバリデーション誤差を小さくしてはいけない
公開日: 2016年5月15日日曜日 データ解析
例えばPLSにおける成分数を決める際に、クロスバリデーションを行った時の誤差が最も小さい成分数を最適成分数とします。具体的には、root-mean-squared error (RMSE) を指標にすることが多いです。
しかしクロスバリデーションも万能ではないため気をつけなければなりません。
例えば変数選択のときに、クロスバリデーションを行った後の誤差が小さくなるように選択してはいけません。
もちろんクロスバリデーション後の誤差は小さくなりますが、トレーニングデータにオーバーフィッティングしてしまい、テストデータに対する予測性能が低下してしまいます。
この解決方法については別の記事に書きます。