クロス集計表を作成したい

テーブル内に2列のカテゴリ列があった時に、カテゴリの組み合わせがどれくらいの頻度で出現するかを把握するための頻度表(クロス集計表)を作成します。カテゴリ列間の関連性を把握するときに利用します。

説明

MSIPでは、クロス集計アイコンを利用することで、2つのカテゴリ同士のクロス集計表を作成することができます。

例えば、以下のID-POSデータのように、顧客IDを表す列(ID列)と購入商品を表す列(分類名列)があるとします。

ID-POSデータ頻度表

このとき、クロス集計アイコンを利用することで、どの顧客がどの商品を何点購入したかというクロス集計表(頻度表)を作成することができます。

ID-POSデータ頻度表

クロス集計表の形式にすることで、どの顧客がどのような商品群を買う傾向にあるのかがわかります。

使い方

  1. データに クロス集計アイコン を接続します。
  2. パラメータ設定画面の「行ラベル」と「列ラベル」に頻度をクロス集計したいカテゴリ列を指定します。

設定画面

  1. アイコンを実行すると、「行ラベル」と「列ラベル」に指定した列の各ラベルに対するクロス集計表が出力されます。

分析への応用

ここでは、2つのカテゴリ列とその頻度の列を入力とする 二項ソフトクラスタリングアイコン での分析例を示します。

準備

クロス集計アイコンの結果はマトリックス形式なので、まず二項ソフトクラスタリングの入力形式であるリスト形式に変換します。

  1. クロス集計アイコンリスト化アイコン を接続します。
  2. パラメータ設定画面の「キー列」に行ラベルの列を指定します。「リスト化対象列」に列ラベルの列を全列指定します。

リスト化設定画面

  1. 実行すると、マトリックス形式の頻度表がリスト形式に変換された結果が出力されます。

リスト化アイコンの結果は、「キー列」「対象列名」「値列名」で指定した列名からなる3列のデータになります。

二項ソフトクラスタリング

二項ソフトクラスタリングは、一般にPLSAとも呼ばれるソフトクラスタリング手法です。
X列、Y列、スコア列という3列を元に、スコア列の値の傾向が同じになるよう、X列とY列のラベルを同時にクラスタリングします。

二項ソフトクラスタリングアイコン は、以下のようなX列、Y列、スコア列からなるリスト形式データを入力にすることができます。

二項ソフトクラスタリング入力データ

ここでは、X列にID-POSデータの顧客IDの値、Y列に分類名、スコア列に顧客の角分類商品の購入頻度を与えています。
これにより、似た分類の商品を買う顧客群をクラスタリングすることができます。

以下の手順で二項ソフトクラスタリングアイコンを実行します。

  1. リスト化アイコン二項ソフトクラスタリングアイコン を接続します。
  2. パラメータ設定画面の「X列」と「Y列」に、それぞれ、リスト化アイコンの「キー列」と「対象列名」の列を指定します。「スコア列」には「値列名」の列を指定します。

二項ソフトクラスタリング設定

  1. 実行すると、頻度による結びつきが強いラベル同士でクラスタリングをおこなった結果が出力されます。

二項ソフトクラスタリングの詳細については、Alkanoマニュアルをご参照ください。

OnePoint

マトリックス形式データとリスト形式データ

MSIPでは、テーブルデータをマトリックス形式(横持ちとも呼ばれます)とリスト形式(縦持ちとも呼ばれます)の2種類の形式で保持することができます。

各列ごとに値が並ぶ形式をマトリックス形式と呼びます。

例えば、以下のクロス集計表のように、IDや分類名の列に値が存在する形式がマトリックス形式です。

マトリックス形式

一方、要素の組み合わせごとに値が並ぶ形式をリスト形式と呼びます。

例えば、以下のID-POSデータは、IDと分類名の組み合わせに対して値が存在するため、リスト形式です。

リスト形式

MSIPでは、マトリックス化アイコンリスト化アイコンを用いて、マトリックス形式とリスト形式を相互に変換可能です。

関連項目

  • Alkano マニュアル
    • 3.3.7. 二項ソフトクラスタリング