バックナンバー Vol.3 2018 年 1 月 17 日発行

『決定木』・『構造方程式モデリング』とベイジアンネットワークの違いについて

BayoLinkSメールマガジン

日頃 BayoLink をご利用いただきありがとうございます。 

今回は ベイジアンネットワークとよく比較される、『決定木』と『構造方程式モデリング』 を
取り上げます。
これらのモデルは、図を使って分析を行うという共通点があります。


【今回のテーマ】
  ~『決定木』・『構造方程式モデリング』とベイジアンネットワークの違いについて ~


■ 決定木 
決定木分析はディシジョンツリーとも呼ばれます。木構造の図を用いて目的変数を説明するルールを
抽出する分析です。

 - 木構造で描画されるのでアウトプットに対する解釈が容易
 - 目的変数 と 説明変数 はいずれも 多値のカテゴリ変数が利用可能
 - 連続変数にも対応可能
 - 通常、目的変数は 1 つしか選べない

決定木は、例えば 『商品を購入する (はい/いいえ)』に対して "はい" と "いいえ" を
うまく分割するための説明変数と分割条件を提示する分割モデルです。

目的変数を上手く分割する条件をデータから選びつつ木を成長させるため、
分析の目的が 1 つに定まっていれば、予測精度を減らすことなく計算速度が格段に速い可能性が
あります。

一方で、決定木はデータの偏りの影響を受けやすいという欠点があると言われています。
この問題を解消するために、ランダムフォレストが使われます。
ランダムフォレストでは学習データと特徴量をランダムに選択し複数の決定木を作り、予測時、
それらモデルの予測を多数決により決定します。

決定木の代わりに、ベイジアンネットワークが分類モデルの役割を果たすこともできます。
説明、目的変数が全てカテゴリの場合において、決定木モデルと等価なベイジアンネットワーク
モデルを記述することができます。
その場合、全ての説明変数が目的変数の親であるベイジアンネットワークとなります。

ベイジアンネットワークは変数間の関連を推論することが可能なので、決定木のように、複数の
説明変数を用いて、一つの目的変数の取るべき値を予測することができます。

ベイジアンネットワークが決定木と大きく異なる点は、目的変数を複数設定できるというところです。
ベイジアンネットワークでは観測が入力されていない全ての変数について確率値を計算するため、
モデルの任意の変数を予測対象にできます。
例えばいくつかの商品の購買確率を同時に上げる要因を分析したい、という状況ではベイジアン
ネットワークの利用が適切です。


■ 構造方程式モデリング
構造方程式モデリング (SEM) は共分散構造解析とも言われます。

変数間の因果関係や依存の大きさを同定することで、社会現象や自然現象を理解するための
分析手法です。

 - 連続量の分析に向いている
 - 変数間の因果関係は矢印とノードを使ったパス図で記述する
 - 潜在変数をデータから抽出しモデルに導入する

SEM はベイジアンネットワークと同様に変数間の因果関係を矢印で表現するモデルです。
矢印の向きについては、作り手側で仮説を立てそれを反映させます。
変数間の依存の大きさは、回帰分析や因子分析の手法で算出します。
そしていくつかの仮説の候補を検証し、不適切なモデルを排除することで観測データに
当てはまりのよいモデルを目指します。

SEM は仮説に基づく変数間の関係を検証することが目的です。因果関係について具体的で有用な
仮説があれば柔軟で強力な分析手法となります。

一方で、ベイジアンネットワークはデータから探索的に変数間の関係を分析することが可能です。
さらに実際の観測値を入力して、任意の変数について確率推論を行うことができます。
そのようなことから、ベイジアンネットワークは幅広い用途で利用できる分析手法といえるでしょう。

                                                                     (2018.1.17. 石富 妙)