S-PLUSによるデータマイニング入門
S-PLUSによるデータマイニング入門
GUIによる利用を中心にした、初心者向けのS-PLUSの入門書です。S-PLUSの利用方法のみならず、探索的なデータ解析/統計解析/データマイニング手法の主なものの基礎的な使い方が身に付きます。製品、または試用版を利用しながら、10時間程度で通読可能です。S-PLUSにも統計/データマイニングにもさほど詳しくはないが、これから使ってみたいという方に最適の一冊です。
製品またはトライアル版の併用が最も効果的です。NTTデータ数理システム宛にお気軽に ご請求ください。
- 水田正弘(北海道大学)、山本義郎(東海大学)、南弘征(北海道大学)、田澤司(NTTデータ数理システム)共著
- 定価 2,940円(税込) A5版 208頁
- 出版元 森北出版 ISBN4-627-84521-9
序文より
統計学者にとって、データマイニングはパンドラの箱である。大量の「データ」から、意味のある情報を「発掘」する「マイニング」は、体力勝負である。厳密な管理下で手に入れた少数の、精錬されたデータに対して、丁寧に解析するのとは異なり、あまりにも乱暴な手段を使う場合が多い。いわゆる「ランダムサンプリング」と呼ばれる仮定を捨てることにより、検定理論や推定理論が使えなくなってしまう。データマイニングは、そのような無法地帯でのデータとの戦いからはじまった。
コンピュータは、大量のデータを高速に処理する。だから、もっとデータを入れてもいい、いや、入れた方がいい、との考えから、より大量のデータを入れるが、ゴミをいくら入れても所詮はゴミでしかでない。ガベッジインガベッジアウトは統計学でよくいわれていることである。しかし、ゴミが大量にあれば、そこに「価値のあるもの」があるかもしれないと思いがちである。
そこには2 つの落とし穴がある。1 つ目は、コンピュータにこんなにデータを入れて、長時間コンピュータをこき使ったのだから、「価値のあるもの」が出てくるかもしれない、との淡い期待を抱くことである。2 つ目は、意味や意義はわからないが、いろいろな「データマイニング手法」を次々と適用していくうちに、「価値のあるもの」が出てくるかのような幻想を抱くことである。
それらの落とし穴に落ちないためには、(1)データの質を高めることに労力を割く、(2)データマイニング手法を使いこなす能力を鍛える、ことが大切である。データマイニングにおいて重要なのは、知識、経験、そして使いやすい道具である。道具とはすなわち、コンピュータとソフトウェアである。
コンピュータとしてはスパコン(スーパーコンピュータ)からパソコン(パーソナルコンピュータ)まであるが、多くの方にとって使いやすいのはパソコンであろう。計算速度と扱えるデータの量の制限はあるが、データ解析やデータマイニングを実施する場合には、通常のWindows パソコンなどで十分である。これらでも、10 数年前のスパコンと同程度に匹敵する性能をもっている。大量で複雑なデータを、短時間で扱う必要が生じた時点で、スーパーコンピュータの利用を考慮すればよい。
ソフトウェアとしては、C やFortran などのプログラミング言語を使って、自分でプログラムを作成するのも(人によっては)楽しい作業であるが、データマイニング自体が目的の場合には、完成されたパッケージを利用する方が現実的である。現在、非常に多くのソフトウェアがデータマイニングに利用できる。
このような状況で、本格的なデータマイニングを目指して、短期間に学習するためには、「道具」としての手法の理解と、その操作を実践により身につけることがよい方法だと思われる。そのための手引きとなることが本書の目的である。ソフトウェアとしては、数多いデータ解析・マイニング用のソフトウェアからS-PLUS を選んだ。S-PLUS 以外にも優れたソフトウェアは多数あるが、十分な性能をもちながら比較的学習しやすいソフトウェアであると考えたためである。
本書では、とにかく「道具」が使えるようになることを第1 の目標とした。そのために、S-PLUS に準備されているGUI (Graphical User Interface)、すなわち複雑なコマンド(コンピュータへの命令)を使わず、マウスを中心とした操作で、解析などを実行できる機能に焦点をあわせて説明した。しかし、単なる操作ガイドではなく、S-PLUS を利用して解析を行ううえで注意する点、守らなければならない点を習得できるような工夫をした。特に、統計パッケージを利用してデータ解析を行う場合の重要な課題である、データに対してどのような解析手法を適用すればよいかという問題に注意を払った。
一方で、読者の中には、データに対して、データ解析手法を適用したことで得られた値や結果を、どのように解釈すればよいかという点に不安をもっている方も多いだろう。また、ソフトウェアを用いた解析では、解析手法を適用するうえでの前提条件(分布や変数の型など)を考慮しなければならない。そのために必要な最小限の数学的説明を行った。より高度な専門書を読むための準備にも役立てていただきたい。また、グラフィカル手法を利用することにより、結果の解釈が容易になることが多く、その点において本書は多くのページを割いていることに気をとどめて頂ければ幸いである。
本書は、S-PLUS をはじめとする統計パッケージを利用するうえでの、注意や方針を与えるものとなっているため、本書において正しい解析手法の選択や結果の読み方が身に付いたなら、SAS やSPSS などのパッケージを用いて解析する場合にも適用できることであろう。
本書は、統計関係の授業講義や演習を担当している者、計算機統計学やデータマイニングを専門としている者、コンピュータの専門家、実際にS-PLUS と毎日付き合っている者が一致協力し、多面的な経験・知識を出し合いながら、実践的で分かりやすいデータ解析の入門書となることを目標として作成された。われわれの目標にどこまで到達したかは読者の判断に委ねたい。
目次
第1章 S-PLUSを使ってみよう | 1.1 S-PLUSでできること 1.2 S-PLUSの起動 1.3 長距離電話マーケットデータの解析例 |
第2章 S-PLUSによるデータ解析の流れ | 2.1 統計メニューより 2.2 S-PLUS利用の基本とデータの入力 2.2.1 S-PLUSの起動と起動時の設定 2.2.2 データの型について 2.2.3 データの入力 2.3 データの要約からグラフ作成まで 2.3.1 データの設定と要約統計量の計算 2.3.2 ヒストグラム 2.3.3 箱ひげ図 2.3.4 各因子ごとのプロット 2.3.5 クロス表と相関係数 2.3.6 散布図と対散布図 2.3.7 グラフでの対話的な処理 2.4 グラフの加工 2.5 他のソフトウェアとのデータ交換 |
第3章 回帰分析 | 3.1 1 つの変数から別の変数を予測する(単回帰分析) 3.2 単回帰分析の使い方 3.2.1 説明変数の検討 3.2.2 単回帰分析の実行と結果の評価 3.2.3 回帰直線のプロット 3.2.4 詳細な出力を得るために 3.3 複数の変数から別の変数を予測する(重回帰分析) 3.4 重回帰分析の使い方 3.4.1 重回帰分析の実行 3.4.2 説明変数の選択 3.5 数学的な説明 3.5.1 単回帰分析 3.5.2 単回帰分析における回帰係数の検定と推定 3.5.3 重回帰モデルと偏回帰係数の推定 |
第4章 クラスター分析 | 4.1 似ている個体を順次結合する(凝集型階層手法) 4.2 凝集型階層手法の使い方 4.2.1 データの設定 4.2.2 凝集型階層手法の実行 4.2.3 分類結果と樹状図 4.3 階層構造のない分類法(非階層的手法) 4.4 非階層的手法の使い方 4.4.1 k-means法の実行 4.4.2 k-means法による分類結果 4.4.3 分類結果の対散布図による表示 4.5 数学的な説明 4.5.1 階層的手法について 4.5.2 k-means法について 4.5.3 データの型と手法の選び方 |
第5章 判別分析 | 5.1 属する群を予測する(判別分析) 5.2 判別分析の使い方 5.2.1 データの設定と線形判別分析の実行 5.2.2 線形判別分析の結果の出力とその解釈 5.2.3 2次判別分析の実行 5.3 数学的な説明 5.3.1 判別の基本的な考え方 5.3.2 判別法の選び方に関する課題 |
第6章 ロジスティック回帰分析 | 6.1 回帰分析の考え方を使った判別(ロジスティック回帰分析) 6.2 ロジスティック回帰分析の使い方 6.2.1 データの設定とロジスティック回帰分析の実行 6.2.2 結果の出力と解釈 6.2.3 モデルの診断と誤分類率の評価 6.3 数学的な説明 6.3.1 ロジスティック回帰モデルと回帰係数の推定法 |
第7章 決定木分析法 -樹形モデル- |
7.1 カテゴリカルデータを判別する(分類木) 7.2 分類木の使い方 7.2.1 データおよびパラメータの設定 7.2.2 結果の出力および解釈 7.2.3 対話的な剪定 7.3 数値データを予測する(回帰木) 7.4 回帰木の使い方 7.4.1 データの設定と回帰木の作成 7.4.2 回帰木のグラフ表示 7.5 数学的な説明 7.5.1 決定木手法について 7.5.2 S-PLUSにおける決定木のアルゴリズム |
第8章 テキストマイニングへのアプローチ -スパムメールの解析例- |
8.1 スパムメールと解析の方針 8.2 S-PLUSでの解析 8.2.1 スパムメールの特徴の検討と質的変数への変換 8.2.2 CSVファイルの読み込み 8.2.3 名義尺度への変換 8.2.4 事前解析 8.2.5 判別分析の適用 8.3 いくつかの課題 |
付録A S-PLUS Q&A | |
参考文献 |