Visual Mining Studio トップ > データマイニングとは

データマイニングとは

データマイニングという言葉が広く使われるようになり、かなり長い時間が経ちます。
言葉としては定着した感もあるデータマイニングですが、改めて何をするのか、従来型の統計とは何が異なるのかを考えてみます。

一般的にデータマイニングの定義としては、

ということがしばしばあげられます。

従来型の統計の場合、たとえば、2標本 t 検定などでは「グループ A とグループ B では、薬物血中濃度が異なる」という前提があり、その前提に反する「グループ A とグループ B の薬物血中濃度が等しい」という帰無仮説を設定し、それが起こりうる確率が十分に小さいことをもって、「グループ A とグループ B では、薬物血中濃度が異なる」と結論付けます。しかも、濃度は正規分布を仮定するといった制約があります。

自然科学分野ではこのような前提条件は生物学的、あるいは物理学的に得られることが多く、データも正規分布をすることが一般的です。

ところが、人間の購買活動やその他の行動はこのような条件を満たすことはまれです(もちろん、マーケティング、特に CRM などであれば、「意図」は存在します)。とりあえず厳密でなくてもよいから、何か次の行動のきっかけとなる結果がほしい、という場合に、データマイニングはその有効性を発揮します。

ただし、だからと言って、何も考えがない状態でデータマイニングを行うことには意味がありません。マーケティング、CRM であれば、その意図、たとえば、「キャンペーン A は20代の女性向けに設定した」という情報は必要です。また、「富裕層にどの製品が売れているか知りたい」という場合には、「富裕層」の具体的な条件は分析者が定義する必要があります。このような最低限の意図、定義がないと、有用な情報を得ることはできません。データマイニングが「データから黙っていても何かを教えてくれる」ということはないのです。

大量のデータを分析するということの影に隠れて見落とされがちですが、データマイニングでは、データが決まったフォーマットを持たない場合が多々あります。これも従来型の統計と大きく異なる点でしょう。統計の対象データは通常は表計算ソフトで入力することができる、行と列が一定のきまった形になっています。

一方、データマイニングの分析対象データ例としてスーパーマーケットなどの POS データを考えてみると一人の顧客がバスケットに入れる商品の数は通常、決まっていません。また、お店には商品が何万種類とあり、同じ商品が買われる確率はあまり高くありません。このようなデータを表計算ソフトで分析し、傾向をつかもうと思ったら、少量でも破綻してしまうでしょう。データマイニングツールには、このようなフォーマットが一定でないデータに対応する機能が必要となります。

さらに、1回のデータマイニング分析で有益な結果が出せることはあまりありません。分析はデータを様々な角度から見て、繰り返し行う必要があることがほとんどです。分析の方法を変えるだけではなく、データそのものの加工が必要になるケースは多く発生します。このような繰り返しの作業に耐えることもデータマイニングの条件の一つとなります。

※現在、データ分析について分かりやすく説明している「データ分析読本」配布中です!


データマイニングが有効な分野

ほぼすべての分野でデータマイニングは有効です。Visual Mining Studio も、製造業やマーケティング、コンサルティングをはじめとして、医療、金融、教育と様々な分野でご利用いただいています。データがあるところ=データマイニングが有効な分野と言っても過言ではありません。

Visual Mining Studio をご利用になられているお客様については、一部のお客様を ユーザ事例紹介 に掲載させていただいております。


データマイニングツールに必要な機能

大規模データを分析できること

これは言うまでもありません。コンピュータ技術の進歩により、データは Gbyte 単位になることが当たり前になっています。

様々なフォーマットに対応できること

ファイルフォーマットも、データそのものの持ち方も、多種多様です。たとえば、部全体のデータベースから取得したデータと、個人が管理している Excel ファイルをあわせて分析する必要性は多いでしょう。また、小売セールスデータならば、長さの異なるデータを部門ごとに集計し、表形式に変換する必要があるかもしれません。このようなデータの多様性に対応することができる、柔軟性を持ったデータ入力機能が必要となります。

繰り返しいろいろな角度からの分析ができること

データマイニングに試行錯誤は欠かせません。集計キーを変える、条件にあったデータを抽出する、といった様々なトライアルをストレスなく、繰り返し行うことのできる環境は必須のものとなります。

分析の方法がバラエティに富んでいること

一口に分析と言っても、POS データの併売分析と、離反を起こしそうな顧客の早期発見につながる分析はおのずと用いる方法が異なります。離反を起こしそうな顧客の早期発見の分析でも、分析する対象データにより、有効な分析方法は異なります。そして、多くの場合、有効な分析方法は繰り返しにより発見することができます(初めからわかっているとは限りません)。分析の種類が多いと、データマイニングの可能性は広がります。

自動処理が可能なこと

マイニングの対象データは往々にして巨大です。一部のデータでテスト的な分析を行い、有効だと判断されたマイニング分析を大規模データにあてはめる、というやり方が有効なことがよくあります。分析の道筋さえできれば、大規模データをリソースが比較的空いている時間帯に自動的に実行させるというのは、効率的なやり方です。

このような機能を備えたツール Visual Mining Studio をぜひお試しください。