主成分分析はどのような状況で有効でどのような状況で有効でないのか?
公開日: 2016年5月5日木曜日 データ解析
主成分分析(Principal Component Analysis, PCA)は最初に与えられた多変量のデータセットを、なるべく情報量の損失が少ないように、低次元であらわす (少ない成分であらわす) ことが目的です。
このような話をすると、
『どのような場合に主成分分析でうまくいって、どのような場合にうまくいかないのですか?』
とよく聞かれます。この辺りについて記載します。
重要なことは、主成分分析で行っていることは、
○ 軸の回転 (+反転)○ 軸の選択 (情報量の大きい順に)
のみであるということです。
そのため、上の一番左の図のように、変数間に相関関係があるとうまくいき、少ない主成分軸で多変量のデータセットを表現できるようになります。
具体的には以下のようなデータセットです。
ただ、例えばデータセットを可視化する際に、このように変数間に相関関係があるデータセットであっても、100%の情報を可視化できるわけではありません。そこで、各主成分軸のプロットを確認する際は、各軸で何%の情報を持っているか、寄与率を一緒に表示させておくとよいです。
逆にうまくいかない場合は、
① 変数間に相関関係がないとき
② 変数間に非線形性があるとき
③ データの分布が複数に分かれているとき
です。
①の場合は仕方ありませんが、②③の場合は別の非線形の手法を用いることになります。