探索的データ解析(Exploratory data analysis)とは?
探索的データ解析は、1960年ごろより有名な統計学者J.W.Tukeyによって提唱されたもので、データの解釈にあたっては「まずモデルありき」ではなく、モデルを仮定する前に現実的な立場で、データの示唆する情報を多面的に捉えるという、解析初期のフェーズを重視したアプローチです。
それ以前は、あらかじめモデルを用意して、データをあてはめて確率計算を行っていました。しかし現実には、複雑な現実のデータ構造の中から、最適なモデルをあらかじめ用意することは簡単なことではありません。そのため、データを見てからモデルを修正したり、選択する必要が発生します。
また、数理統計学の理論的側面よりもむしろ、あくまでも応用面と結びついた、やさしく誰でも使えるような手法を重視しているために、ビジネスの現場での「データマイニング」などにも有効に活用できるアプローチといえるでしょう。
参考文献: Exploratory Data Analysis (J.W.Tukey)
探索的データ解析の特徴
- 抵抗性の強い頑健な手法
- ここでいう「抵抗性の強い頑健」とは、外れ値(outlier)の影響を受けにくいという意味です。現実のデータにはしばしば外れ値が混入することがありますが、平均値や分散は外れ値の影響を受けやすく、抵抗性が強いとはいえません。しかし、中央値や四分位数は外れ値の影響を受けにくいので、探索的データ解析においてはしばしば使われます。例えば、10が99個と10000が一個あるデータでは、平均値は109.9になりますが、中央値は10です。また、一般的な最小二乗法による回帰分析は、(距離を二乗するために)外れ値があればそちらに大きく引っ張られますが、探索的データ解析では外れ値に強い手法が開発されており、S-PLUSにもそうした手法が含まれています。
- モデルからの残差の分析
- モデルにデータを当てはめ、この当てはまりの度合いを評価するだけでは完全な解析とはいえません。実験データを解釈する場合でも、あるいはビジネスで予測値と実績値を比較する場合でも、評価をモデルにフィードバックすることが大変重要です。当てはめを行った後の残差をさらに分析することにより、よりよいモデルに元のデータを当てはめることが出来ます。S-PLUSは出力された残差を再解析することが大変容易なうえに、残差の正規性を調べるためのいくつかの手法が用意されています。
- データの再表現(変数変換)の活用
- データによっては対数変換を行ったり、逆数を取ったりすることで、よりデータを観察しやすくなります。また、層別したデータの等分散化によって比較がしやすくなる場合もあります。時系列データであれば、元データに代えて移動平均を利用することにより、より分かりやすい観察が可能になります。S-PLUSでは、こうした変数の変換が容易に行えるだけでなく、変換したデータをすぐに入力値として利用することができます。
- グラフィックス表示の工夫・開発
- データを2次元的に表示する場合、ひと目でデータの特徴を表現できる手法がいろいろ開発されています。一般的には幹葉表示や箱ヒゲ図などが良く使われています。また、3次元以上の多変量データを2次元上に表現する手法に関しても、ブラッシングや顔型グラフなど、工夫によりわかりやすく表現することができます。S-PLUSではこうした多くのユニークなグラフィックスが利用できます。