基本統計量を表示したい

カテゴリ型の列のヒストグラムの表示、数値型の列の箱ひげ図の表示をする方法を紹介します。可視化画面の「サマリ表示」という機能を用います。

説明

テーブルデータの各列の基本統計量を、数値やグラフとして参照したい場合には、MSIPの機能である可視化画面のサマリ表示を利用できます。

サマリ表示を使用すると、以下のようにカテゴリ型の列のヒストグラムを表示したり、数値型の列の箱ひげ図を表示したりすることができます。

カテゴリ型列のサマリ形式

整数型列のサマリ形式

使い方

  1. 表示対象のアイコンを選択し、シナリオ操作エリアの [可視化画面表示(可視化画面を開きます)] をクリックすると、対象アイコンのデータについての可視化画面が表示されます。可視化画面内の下部右側にある表示ペイン内は、通常のテーブル形式で表示されます。

可視化画面表示

  1. 可視化画面内の上部にあるツールバー内の[サマリ表示スイッチ(サマリ画面を表示します)]をスイッチします。

サマリ表示スイッチ

スイッチすると、表示ペイン内の表示がサマリ形式に変わります。

サマリ形式

サマリ表示では、対象データの各列について、その簡易的な統計量を数値やグラフとして表示されます。

サマリ表示の表には、各列ごとに次の内容が表示されます。

  • 列名: 元データの列名と型
  • 特殊値: 各特殊値の個数
  • 統計量: データ型に応じた統計量
  • グラフ: データ型に応じたグラフ

統計量とグラフの表示内容は、次のように、列のデータ型によって異なります。

  • 整数, 実数, タイムデルタの場合
    • 統計量: 最小値, 最大値, 平均値, 分散, 四分位数, 箱ひげ図のひげ値(上下),外れ値の個数(上下)
    • グラフ: 箱ひげ図(外れ値がある場合にその個数が表示されます)

整数型列のサマリ形式

  • 日付, 日時の場合
    • 統計量: 最小値, 最大値
    • グラフ: なし

日時型列のサマリ形式

  • カテゴリ, 真偽値の場合
    • 統計量: 全カテゴリ数, 頻度(頻度上位50カテゴリ)
    • グラフ: 棒グラフ(頻度上位50カテゴリの項目数)

カテゴリ型列のサマリ形式

  • 文字列の場合
    • 統計量: なし
    • グラフ: なし

分析への応用

サマリ表示内の「特殊値」の列に、欠損値や無限大といったような分析に適さないデータが何件含まれるかをカウントして表示します。 また、エラーとなって読み込めなかったデータ件数も表示されます。

欠損値や無限大があると正常な分析をおこなえない場合があります。 分析アイコンに適用する前に、サマリ画面で「特殊値」が存在していないかを確認すると有効な場合があります。

OnePoint

サマリ表示内の箱ひげ図や棒グラフは、定形の簡易表示の画像です。インタラクティブな操作や表示の変更には対応していません。サマリ表示内の箱ひげ図や棒グラフと同等のグラフは、グラフダイアログでも作成することができます。箱ひげ図や棒グラフを対象にしたインタラクティブな操作を行ったり、加工してエクスポートする場合は、グラフダイアログで同種類のグラフを作成してください。

グラフダイアログ

関連項目