Chap1 記述統計と分布

コンテンツ

1.1 基本統計量と分布1.2 基本統計量1.3 具体的な指標1.4 実際に基本統計量を求める1.5 出力結果を読む

1.1 基本統計量と分布

与えられたデータがどういうばらつきを示しているのか、 中心はどの辺にあるのかなど分布の形をデータから 推測する際に用いられる指標を総称して基本統計量と呼ぶ。
よって、基本統計量を求めることで、 データの情報、概要を手に入れることができる。
では、次に実際に指標としてどういうものが使われているのか 見てみることにする。

[一番上へ]

1.2 基本統計量

分布の形を要約する3つの情報は以下のとおりである。

データからこれらの情報を取り出して、推測することが統計解析の目的です。
[一番上へ]

1.3 具体的な指標

分布の中心位置を表す指標

“3つのM”について

上記で説明した3つの指標のことを“ 3つのM”(以下3Mと書く)と まとめることがある。
3Mはデータによっては、3つの値すべてが一致することもあるが、 全部の値がばらばらになる時もある。

3Mの値が一致する場合というのは、データの中心が最頻値で、 分布がきれいな左右対称の時である。この場合、3つの指標はすべて同じ値を示す。
逆に、少しでも偏りがある場合は、3つの指標がすべて一致することはない。

簡単な例を使って説明する。

まず、図1.1について説明すると、グラフの中心が尖っていて、左右対称に なっている分布(これを正規分布という)である。
この場合は、mean 、median 、mode の3つの指標がすべて同じ値を示す。
逆に、図1.2を見てみると、統一性のない分布であることが分かる。
そうすると、mean 、median 、mode の3つの値がすべて違う値を とることもあり得る。

以上のように、同じ中心位置を表す指標でもデータによっては、違う感度を 与えることが分かる。

図1.1 3Mの値がすべて一致する場合の分布
図1.2 3Mの値がすべて違う場合の分布

メジアン・モードの頑健性

もし、データの中に異常な値のデータが含まれている場合、 平均の値は異常値の影響を受けるが、中央値、最頻値は異常値の影響を受けない。

分布のばらつきを表す指標

分布の形を表す指標