S-PLUS for Windows 初歩の初歩 Chapter7

7.要約統計量


要約とは、平均値や分散などの基本統計量を求めることを指します。S-PLUSでデータの要約をするには、[統計]メニューの[データサマリー]から[統計量]を選択します。

(図7-1 統計メニュー[データサマリー]の[統計量])

クリックすると、Summary Statisticsという要約統計用のダイアログが出てきます。

(図7-2 統計量(Summary Statistics))

S-PLUSの統計画面は、基本的にこのような感じです。実行する解析によって、指定方法に多少の違いはありますが、基本的にはこのようなダイアログで指定します。

Summary Statisticsのダイアログでは、左上にDataセクションがあります。ここには、Data FrameとVariablesの二つのリストボックスがあります。Data Frameのリストでは、今オープンしているブラウザ・ページ内にあるデータフレーム・オブジェクトを選択することができます。つまり、データ・ウィンドウでデータフレームをオープンしていなくても、実行することができます。通常は、今データウィンドウで開いているデータオブジェクト(ここではfuel.frame)が表示されています。図7-2もそうなっています。

Data Frameの下にあるVariablesとは、もちろん変数のことです。一番上は(All Variables)となっていて、全変数が選択できるようになっています。(All Variables)の下には、選択しているデータ・フレームの中の変数名が表示されます。特定の変数に関して解析を実行したい場合は、ここで選択します。

とりあえず、今回は(All Variables)の状態のまま、ダイアログの一番左下のOKボタンをクリックして、解析を実行しましょう。実行結果は以下のように出力されます。

(図7-3 統計量出力)

Summary Statisticsダイアログ(図7-2)右側のStatisticsセクションで、出力する統計量を決定します。要約統計ですから、最大値・最小値、平均値、標準偏差、四分位などが出力として選択できます。また、Typeのようにfactorフォーマットで設定してあるデータは、強制的に度数のみが表示されます。先ほどの図7-3でも、出力の最初がTypeの出力になっています。

データウィンドウのデータをプリントアウトしたい場合は、[ファイル]メニューの[データシートの印刷]から印刷することができます。印刷する前には、図6-2の画面で[データシート印刷]の下にある[印刷設定]でプリンタなどの設定を確認することをお勧めします。なお、出力ファイルの保存は11章で説明します。

変数Typeは、車のタイプを表す変数です。このような変数を使って、グループ毎の要約統計量を出すこともS-PLUSでは簡単にできます。Summary Statisticsダイアログには、Dataセクションの下にSummaries by Groupというセクションがあります。ここのGrouping Variablesリストで変数を指定すると、その変数のカテゴリーに従って出力が分割されます。

(図7-4 Grouping VariablesにTypeを指定した状態)

今回は、図7-4のようにGrouping VariablesリストでTypeを指定してみましょう。OKボタンをクリックすると、先程の出力の後ろに続けて出力が出てきます。

(図7-5 Typeで分割された出力)

S-PLUSでは特に指定しない限り、どの解析も一つの出力ファイルに続けて出てきます。解析毎に出力ファイルを新規作成することはできません。また、すでに出力ウィンドウがオープンされていて、しかもその出力ウィンドウがカレントウィンドウになっておらず、データウィンドウなどの後ろに隠れている場合、新規に解析を実行してもウィンドウの前面に出力ウィンドウがポップアップされません。出力ウィンドウは後ろに隠れたままですが、出力はきちんと追加されています。ウィンドウ構えに出てこないからといって、何度も解析を実行しても無意味です。そのような時は、[ウィンドウ]メニューを利用します。

(図7-6 ウィンドウメニュー)

[ウィンドウ]メニューを選ぶと、今開いているウィンドウの一覧が下に表示されるので、そこから出力ウィンドウ(Reportファイル)を選ぶと、出力ファイルがウィンドウの前面に出てきます。

図7-5の出力は長いので、画面には一部しか見えず、少し分かりにくいのですが、図で指定したように変数で分類された出力になっています。このような場合は、変数を選択する際に、Typeを除外しておきます。複数の変数をVariablesリストで選択する方法ですが、変数がリスト内で連続している場合は、選択したい最後の変数をShiftキーで押しながらマウスクリックします。そうすると、図7-7のように範囲選択できます。

今回は、Variablesで指定する分析対象の変数を(All Variables)のままにしてしまったので、変数も一緒に出力されてしまい、少し身苦しい出力になっています。

(図7-7 Variablesの選択方法)

選択したい変数が連続していない場合は、Ctrlキーを押しながら変数名をクリックすることで、追加選択・選択解除が行えます。この方法は、S-PLUSの他の変数選択の場面でも共通の方法です。

図7-4のGrouping Variablesの指定ですが、今回のTypeのようなfactorフォーマットで変数を選択した場合は、そのカテゴリー別(今回は、車のタイプ別)に出力されます。選択した変数が数値の場合は、Summaries by Groupセクションの下にあるMaximum Unique Numeric ValuesNumber Of Bins for Numeric Valuesの指定に従った適当な間隔に出力が分割されます。

戻る 次へ

ご意見、ご感想はNTTデータ数理システムS-PLUSグループ <splus-info@ml.msi.co.jp>