多変量解析とは、多数の変数で表現されているデータから情報を要約する為の統計手法である。多変量解析には様々な手法が存在するが、Visual Mining Studioには、対応分析、主成分分析、Kernel主成分分析、主成分得点判定が実装されている。これらの分析は、情報損失をなるべく少なくするような少数の合成変数で、全体としてのデータの構造や情報を表現する手法である。Feature Selectionでは変数を選択することで次元を下げる事を行ったが、これらの手法は変数を合成することで情報を圧縮する手法である。
これらの分析は、データを少数の変数で表現することが出来るので、それを可視化することでデータの構造を把握することが可能である。また、データを少数の変数で表現できるので、その後の分類分析やクラスタ分析等を効率よく行うことが可能である。
以下にVisual Mining Studioで提供している手法として、対応分析、主成分分析、Kernel主成分分析、主成分分析得点判定について紹介する。
対応分析は2つのカテゴリ変数の各カテゴリのクロス表(頻度行列)から、各カテゴリに数値得点(Score)を与えることにより、カテゴリ変数を数量に変換する分析である。その値を用いてデータを多次元空間上に配置すると、関連のあるカテゴリは空間上の近い点にマッピングされる。(ポジショニングマップ)。Scoreは、頻度行列から期待度数を差し引き、それを期待度数・分割表の全数のルートで割った行列を特異値分解し、その特異値、特異ベクトルから計算する。期待度数は下記のようになる。
ここで
では頻度行列である。よって、偏差行列は
となり、特異値分解を行う行列は下記のようになる。
この行列を特異値分解したときの特異値を正準相関係数とし、特異ベクトルをそれぞれ、正準相関係数で割ったものをそれぞれのScoreとする。行列Y固有値はY成分の平方和になっている。その為、上記の行列を作成した場合、固有値の大きいほうから上位を取り出すことで、χ2の大きな写像を取り出すことに対応している。
図 パラメータ画面
項目 |
内容 |
パラメータ |
入力形式を指定 |
対象列名 |
分析の対象となる列名を指定(ROW、COL、頻度) |
対応分析の出力はRowScore、ColScore.、Correlarionの3つである。また、実行後はScore1とScore2を用いてポジショニングマップを作成する。
図 Row Score
図 Col Score
図 正準相関係数
図 ポジショニングマップ
S-PLUSによる統計解析 W.N.Venables and B.D.Riplay著 伊藤幹夫・大津泰介・戸瀬信之・中東雅樹 訳 Splinger東京
主成分分析は、多くの変数のデータを、できるだけ情報の損失なしに少数個(m個)の総合的指標(主成分)で表現する手法である。p次元のデータを、m次元(mp)のデータに縮約するという意味で次元圧縮を行う手法として用いることも出来る。主成分分析では、データの変数間の共分散行列または相関行列を用いて、この行列の固有値問題を解き、固有値の大きい方から第一主成分、第二主成分としていく。これにより、相関係数を最大化するような少数の合成変数を取り出す。スコアは、元のデータをこの次元で表現したものである。以下に合成変数の分散を最大化する問題として主成分分析の定式化を記述する。
合成変数をzとすると、zは以下のように書ける。
ここで、下付きの添え字は成分を表す。
この合成変数zの分散は
である。これは、
とすると、
となる。このように、zの分散が大きくなるようなaを求める問題は、行列Sの最大固有値を求める問題に帰着する。
カテゴリデータに対しては数量化して計算を行う。
図 パラメータ画面
設定項目 |
内容 |
対象選択列 |
分析対象列を選択 |
モデル |
主成分分析を行う行列を以下の中から選択 Covariance Correlation |
主成分 |
計算する主成分の数を指定 |
主成分分析の出力は、スコア、重要度、負荷量の3つである。
図 スコア
図 重要度
図 負荷量
また、実行後は第一主成分、第二主成分の2軸を用いてプロットを作成する。
図 プロット
S-PLUSによる統計解析 W.N.Venables and B.D.Riplay著 伊藤幹夫・大津泰介・戸瀬信之・中東雅樹 訳 Splinger東京
主成分分析は線形の関係(相関関係)を基礎とした分析であった。それをKernel法を用いて非線形に拡張した手法がKernel主成分分析である。この分析では、非線形空間への写像を行い、その空間での主成分分析をKernel法により行う分析である。Kernel法を用いることで、実際に非線形な写像を計算することなく非線形な空間での主成分分析が行える。以下にその定式化を示す。
今、共分散行列
は、非線形な空間への写像をとすると、
となる。この時の固有値問題は、同様に
となる。ここで、
である。よって、
となる。ここで
はKernel関数である。KernelにはLinear、Polynomial、Gaussian、Sigmoidを選択することが可能である。(Kernel関数の詳細はSupport Vector Machineの章を参照。)よって
となる。
このように、Kernel主成分分析では通常の主成分分析と異なり、データ数分の次元の行列の固有値問題を解く。カテゴリデータに対しては数量化して計算を行う。
図 パラメータ画面
項目 |
説明 |
対象列選択 |
分析対象列を選択 |
モデル |
Kernel関数を以下の中から選択 Linear Gaussian Polynomial Sigmoid |
オプション |
Kernel関数のオプション |
主成分 |
計算する主成分の数を指定 |
Kernel主成分分析の出力はスコアと重要度である。Kernel主成分分析では、データ数が行列の次元になるので、データ数分の主成分が抽出される。下図のように、Linearで計算をした場合は通常の分散行列を用いてた主成分分析と同様の結果になる。その為、寄与率は入力次元の第四主成分までしかなく、それ以降は0になっている。
また、実行後は第一主成分、第二主成分の二軸を用いてプロットを作成する。
図 スコア
図 重要度
図 プロット
B.Schlkoph and A.J.Smola, Learning With Kernel, MIT Press, 2002.
主成分分析やKernel主成分分析で求めた主成分軸にデータを写像する。
主成分得点の計算は、以下のように固有ベクトルとの内積により計算する。
◇主成分分析
◇Kernel主成分分析
主成分分析得点判定の出力はスコアである。
実行後、第一主成分と第二主成分の2軸を用いたプロットを作成する。
図 スコア
図 プロット
S-PLUSによる統計解析 W.N.Venables and B.D.Riplay著 伊藤幹夫・大津泰介・戸瀬信之・中東雅樹 訳 Splinger東京
B.Schlkoph and A.J.Smola, Learning With Kernel, MIT Press, 2002.