Chap1 記述統計と分布
コンテンツ
1.1 基本統計量と分布1.2 基本統計量1.3 具体的な指標1.4 実際に基本統計量を求める1.5 出力結果を読む1.1 基本統計量と分布
与えられたデータがどういうばらつきを示しているのか、
中心はどの辺にあるのかなど分布の形をデータから
推測する際に用いられる指標を総称して基本統計量と呼ぶ。
よって、基本統計量を求めることで、
データの情報、概要を手に入れることができる。
では、次に実際に指標としてどういうものが使われているのか
見てみることにする。
1.2 基本統計量
分布の形を要約する3つの情報は以下のとおりである。
- 分布の中心位置について
- 中心からの広がりについて
- 分布の形について
1.3 具体的な指標
分布の中心位置を表す指標
- 平均(Mean):データの算術平均のこと
- 中央値(Median):データを大きさの順に並べて中央にある値のこと
- データが奇数個なら中央に位置するデータ
- データが偶数個なら中央に位置する2つのデータの平均
- 最頻値(Mode):データのなかで最も頻繁に出現する値のこと
“3つのM”について
上記で説明した3つの指標のことを“ 3つのM”(以下3Mと書く)と
まとめることがある。
3Mはデータによっては、3つの値すべてが一致することもあるが、
全部の値がばらばらになる時もある。
3Mの値が一致する場合というのは、データの中心が最頻値で、
分布がきれいな左右対称の時である。この場合、3つの指標はすべて同じ値を示す。
逆に、少しでも偏りがある場合は、3つの指標がすべて一致することはない。
簡単な例を使って説明する。
まず、図1.1について説明すると、グラフの中心が尖っていて、左右対称に
なっている分布(これを正規分布という)である。
この場合は、mean 、median 、mode の3つの指標がすべて同じ値を示す。
逆に、図1.2を見てみると、統一性のない分布であることが分かる。
そうすると、mean 、median 、mode の3つの値がすべて違う値を
とることもあり得る。
以上のように、同じ中心位置を表す指標でもデータによっては、違う感度を 与えることが分かる。


メジアン・モードの頑健性
もし、データの中に異常な値のデータが含まれている場合、 平均の値は異常値の影響を受けるが、中央値、最頻値は異常値の影響を受けない。
分布のばらつきを表す指標
- 分散(Variance):データが中心位置からどれくらいばらついているかを表す指標。
つまり、この値が大きければ、ばらつきの多いデータであることがいえる。
なお、Sは個々のデータと中心位置とのずれ具合をデータ数分加えており、 それをn-1で割って平均化している。 - 標準偏差(std Dev.):上の分散の値の平方根をとった値。
同じくデータのばらつき具合を表す指標。 - 四分位点(Quartile):
データに異常値が存在する場合、分散や標準偏差は二乗和をとるためばらつきを 過大評価してしまう。
そういった場合にこの四分位をばらつきの指標として用いる。データを昇順(小→大)に並べたときにデータの数を
- 1 3に分ける位置の値 ⇒ 第一四分位点
- 3 1に分ける位置の値 ⇒ 第三四分位点
分布の形を表す指標
- 歪度(Skewness):対象でない分布の歪みを図る指標のこと。
定義式は以下のように表される。
この値が0に近いほど、分布は左右対称になっていることが分かる。
また右側の裾野が長い分布の場合には歪度は正の値、左側の裾野が長い分布では負の値をとる。 - 尖度(Kurtosis):データが平均の周辺に集中している度合いを表す尺度。
定義式は以下のように表される。なお、正規分布の場合はこの値が3となるので、3を基準として尺度を 図ってみる。
ヒストグラム(Histogram)
データをグラフで表現し、視覚的に分布が どういう構造をしているのか調べることが出来る。
1.4 実際に基本統計量を求める
この節では、実際にS-PLUSを用いて、基本統計量を計算する。
以下に、今回データとして用いた都道府県別中学生の平均体重を示す。表1.1都道府県別中学生の平均体重都道府県 体重(kg) 都道府県 体重(kg) 都道府県 体重(kg) 都道府県 体重(kg) 都道府県 体重(kg) 北 海 道 52.2 埼 玉 県 49.8 岐 阜 県 49.4 鳥 取 県 50.0 佐 賀 県 49.5 青 森 県 52.6 千 葉 県 49.8 静 岡 県 50.2 島 根 県 48.0 長 崎 県 48.7 岩 手 県 51.7 東 京 都 51.4 愛 知 県 49.0 岡 山 県 49.2 熊 本 県 49.2 宮 城 県 51.8 神奈川県 50.5 三 重 県 49.4 広 島 県 49.5 大 分 県 50.0 秋 田 県 52.6 新 潟 県 50.4 滋 賀 県 49.0 山 口 県 49.1 宮 崎 県 49.3 山 形 県 51.4 富 山 県 50.5 京 都 府 49.3 徳 島 県 51.8 鹿児島県 48.6 福 島 県 50.5 石 川 県 50.9 大 阪 府 50.2 香 川 県 50.5 沖 縄 県 49.5 茨 城 県 50.7 福 井 県 49.3 兵 庫 県 48.9 愛 媛 県 49.2 栃 木 県 50.1 山 梨 県 50.1 奈 良 県 50.2 高 知 県 49.4 群 馬 県 50.4 長 野 県 50.0 和歌山県 51.0 福 岡 県 49.4 以下に述べる手順を踏んで,実際に基本統計量を求めていく。
まず、S−PLUSを起動させる。 そして、データをインポートした後,それをウィンドウに表示させると 下の図1.3のようになる。図1.3 Object Explorerのウィンドウ
(注 Object Explorer が表示されてない場合は、表示させる必要がある。
その表示方法は、ツールバーの[オブジェクト イクスプローラー]ボタンを クリックし、表示させる。)図1.4 Object Explorerの表示方法
この状態(平均体重のファイルをアクティブにしている)で、 メニューバーから[統計]→[データサマリー]→[統計量]の順番で選択する。
図1.5 基本統計量の求め方
上の図1.5のように手順を踏んで、選択すると、Summary Statisticsと書かれた ウィンドウが開かれる。
ここで、Data欄のData Setが”平均体重1”になっている事を確認し、 Variableに解析したいデータの列を入れる。
すべてのデータについて解析したい場合は、[ALL]を選択し、 すべてのデータについて解析したくない場合は,選択したいデータを[CTRL]キーを 押しながら、選択していく。
今回用いた“平均体重1”のデータ(図1.3参照)では,[c2]のデータに対して、 解析したいので、[c2]のみを選択する。図1.6 データの設定
次に、Statics欄を選んで、解析結果として得たいと考える基本統計量のデータを 選択する。
図1.7にあるような得たい統計量のチェックボックスにチェックを入れれば、 実行結果として表示されるようになる。
今回の解析では、チェックを入れてある統計量を実行結果として表示することにする。図1.7 基本統計量の選択
上の二つの手順を踏んで、設定を行ったら、[Apply]を押す。
こうする事で、基本統計量を求めることができる。次に、ヒストグラムを出力する。
“平均体重1”のファイルをアクティブにした状態(図1.3)で、ツールバーの [2Dプロット]ボタンをクリックし、Plots2Dパレットを開く。
図1.8のように,Plots2D上の[ヒストグラム]ボタンをクリックする。
図1.8 ヒストグラムの表示方法
上の手順を踏むと、Histogram/Density1と書かれたウィンドウが現れる。
次に,ヒストグラムの設定を行って、ヒストグラムを作成していく。まず、Data欄のData Setが”平均体重1”になっている事を確認し、 Columnのところで、各軸にどのデータを当てはめるか決める。
今回の“平均体重1”のデータでは、[c2]の値についてヒストグラムを描きたいので、 Column欄の中で,[c2]を選択する。
上の手順を踏んで,Data to PlotでPlotするデータの設定を行う。図1.9 ヒストグラムのデータ設定
この状態で、[OK]ボタンを押すとヒストグラムが書ける。
図1.10 ヒストグラムの実行結果
ただ、ここでもう少しx軸,y軸,z軸,・・・などの軸の設定を変化させたいとする。
図1.10で描いたヒストグラムでは,棒の数が5つであったが、棒の数を8つに変えてみる。
軸の設定変更などは、Histogram/Density1のウィンドウのOptions上で設定が行える。
下の図1.11のようなウィンドウを開くことができたら、Bars欄の Number of Barsに設定したい棒の数を入力します。図1.11 ヒストグラムのバーの設定
上の手順を踏んで,バーの数を8個に増やしたヒストグラムを出力すると、 下の図Iのようになる。
バーの数が5個の場合と8個の場合を比べてみると、若干だが形は変わる。
バーの数をもっと増やしていけば、また全然違った形を示すかもしれないので、 それらは各自で調べてみる必要がある。図1.12 バーの数を変更したヒストグラムの実行結果
以上より,いろいろと細かい設定を変えること(棒の色を変えたり、目盛りの間隔を変える) によりいろいろなヒストグラムが描ける事が分かる。
1.5 出力結果を読む
ここでは、1.4の計算によって出力された計算結果の解釈を行う
下に示すのが、平均体重データについての基本統計量のレポートである。*** Summary Statistics for data in: 平均体重1 *** C2 Min: 48.00000000 1st Qu.: 49.30000000 Mean: 50.08936170 Median: 50.00000000 3rd Qu.: 50.50000000 Max: 52.60000000 Total N: 47.00000000 NA's : 0.00000000 Variance: 1.13836263 Std Dev.: 1.06694078 Skewness: 0.66735011 Kurtosis: 0.01003943
ここからは、順に追って内容を説明していく。
Min: 48.00000000 Max: 52.60000000
体重の最小値が48で、最大値が52.6であるという事である。
これらの値の差をとる事によって、データの幅を求める事ができる。Mean: 50.08936170 Median: 50.00000000
Mean 50.08936 は、データの算術平均の事である。Median:50.0 は、中央値のことである。
これらは共に分布の中心位置を示す指標であるが、今2つの値は、違うものになっているが、 それらの値が一致するのは稀である。
一致するのはデータがきれいな左右対称の形をしている時である。1st Qu.: 49.30000000 3rd Qu.: 50.50000000
これらは、四分位点という。データを小さい順に並べて、4分の1の所に位置するものが <1st Qu.>=49.3であり、4分の3の所に位置するものが<3rd Qu.>=50.5である。
四分位点の指標は、異常点がないかどうかのチェックにも使われる。「異常点がある」というのは、ある程度まとまったデータの中に、飛び離れた値が あることを言う。
今回用いたデータの場合、四分位点の値はちょうどデータの中の4分の1、 4分の3の位置にあるので、異常点がないといっていいという事になる。
四分位点の指標は、最大値、最小値、中央値などの値と総合的に判断して異常点があるかどうか 調べることができる。Total N: 47.00000000 NA's : 0.00000000
これらは、今回の解析に用いたデータの数が47である事を表している。
また、NA'sはデータに欠損値があるかどうか示している。今回の場合は0なので、欠損値は 存在していない。Variance: 1.13836263 Std Dev.: 1.06694078
Varianceは分散を、Std Dev.は標準偏差を表している。
どちらも小さい値を示しているので、非常にまとまったデータである事が分かる。Skewness: 0.66735011 Kurtosis: 0.01003943
Skewnessは歪度を、Kurtosisは尖度を表す。
Skewnessの0.66735011の値は、比較的0に近い数値を表しているので、左右対象に近い事を 示しており、Kurtosisの 0.01003943の値は、3の値を基準にすると少し離れているので、 あまり尖った分布ではない事を示している。