説明変数(入力変数)の寄与率と累積寄与率の見方

公開日: 2016年5月7日土曜日 データ解析

主成分分析 (principal component analysis, PCA) を行う際、寄与率や累積寄与率を計算して、元のデータセットの情報量の何割が主成分で表現されているかを確認します。この寄与率・累積寄与率は説明変数 (入力変数) に対しても計算できます。

例えば、第一主成分軸 vs. 第二主成分軸 のプロットを確認するとき、それぞれの寄与率が60%、30%であったとします。つまり元のデータセットの90%の情報が二次元平面上に表されているといえます。ここまでで十分な場合は良いのですが、例えば第一主成分の60% (もしくは第二主成分の30%やそれらの累積の90%) の情報において、それぞれの説明変数 (入力変数) では何%使われているか検討したい方もいらっしゃいます。

説明変数 (入力変数) に対する寄与率の計算のため、まずは元のデータセットの主成分スコアをローディングベクトルを用いて説明変数 (入力変数) の次元に戻します。そして、各変数の分散を計算し、元のデータセットの分散で割った値が各主成分における寄与率になります。さらに、第一主成分における寄与率から足していくと、それが説明変数 (入力変数) の累積寄与率になります。

この値を見ることで、各主成分によって、それぞれの説明変数 (入力変数) でどれくらいの情報量が抽出されているかを確認できます。

  • ?±??G???g???[?d????u?b?N?}?[?N???A