バックナンバー Vol.11 2020 年 09 月 02 日発行

効率的なネットワーク構造の決定の仕方について その2

BayoLinkSメールマガジン

BayoLinkS開発担当の北沢です。
今回、新バージョンBayoLinkS7.4をリリースいたしました。
新機能内容:
・構造学習に新しい探索アルゴリズム(ヒルクライム法)を搭載
・条件付き独立判定による依存関係の抽出
・制約条件のグループ指定機能
是非ともお試しください。

詳細:http://www.msi.co.jp/bayolink/pdf/BLS7_4-new.pdf

それでは今回も下記メールマガジンをお楽しみ頂ければ幸いでございます。
==


平素より BayoLinkS をご愛用いただき誠にありがとうございます。

前回に引き続き、ベイジアンネットワークモデルについて、ネットワークの因果の関係を考慮しながら
構造を特定する方法をご紹介させていただきます。

(1)まず変数間の関連を統計的な検定手法で抽出する
(2)そのようにしてネットワークの形の可能性を絞った上で、因果関係を表現するように矢印の向きを定
める

前回は(2)に関連して『矢印の向きとネットワークの因果関係をどのように解釈するか』をテーマと
いたしました。今回は (1) についてお話しします。

【今回のテーマ】
~ 変数の直接的な関係の有無をデータから推定する方法について ~

変数間の直接的な関係は、条件付き独立性の検定により判定を行うことが可能です。
例えば、変数、X とY については 以下の条件が成立するかどうかで判定します。

  《条件1》XとYとが相関関係である(XとYが互いに独立ではない)
  《条件2》XとYとには共通の親ノードが存在する(親ノードに対応するデータを固定して
      観察するとXとYが互いに独立となる)

二つ条件が成立するかどうかは次の方法で確認します。

【条件1の判定(ステップ1)】
2つの変数間の独立性検定を行います。検定手法としてはカイ二乗検定、G2検定を利用します。

【条件2の判定(ステップ2)】
ステップ1で相関関係が認められた2つの変数に対して、条件付き独立性の検定を行います。
この検定手法としてはG2検定などがあります。
なお、その際に考える条件としてはデータ内の変数単体だけではなく、2つ以上の変数の組み合わせも
対象とします。この条件を1つずつ試していきながら、条件付き独立性を否定できるものがあるか
探します。

ここからは 前回と同じく "女性向けブランドの製品に関するアンケートデータ" を使って、解析例を
紹介します。

アンケートデータには『(回答者の)年代』・『ブランドイメージ』・『商品満足度』という変数が
含まれています。これら3変数についての直接的な関係があるかどうかを調べます。

ステップ1)
まずは 以下の関係について独立性を確認します。

1-1) 『年代』vs『ブランドイメージ』
1-2) 『ブランドイメージ』vs『商品満足度』
1-3) 『商品満足度』vs『年代』

分析の結果、 "すべてに対して独立性が否定できなかった" と判定されました。
少々くどくなりますが、厳密に記述すると、

  ・『年代』と『ブランドイメージ』とは互いに独立ではない
  ・『ブランドイメージ』と『商品満足度』とも互いに独立ではない
  ・『商品満足度』と『年代』とも互いに独立ではない

ということです。
つまりステップ1 では "どの変数間にも相関がある" という結論になりました。 

ステップ2) 
続いて、検定手法を用いて次の確認を行います。

2-1) 『商品満足度』を条件としたときの、『年代』と『ブランドイメージ』との条件付き独立性の確認
2-2) 『年代』を条件としたときの、『ブランドイメージ』と『商品満足度』との条件付き独立性の確認
2-3) 『ブランドイメージ』を条件としたときの、『商品満足度』と『年代』との条件付き独立性の確認

  ・2-1 から
      『商品満足度』を条件としても、『年代』と『ブランドイメージ』の条件付き独立性が
    否定できない

  ・2-2から
      『年代』を条件とした場合、『ブランドイメージ』と『商品満足度』の条件付き独立性が
       否定できる

  ・2-3から
      『ブランドイメージ』を条件とした場合、『商品満足度』と『年代』の条件付き独立性が
    否定できる

これらの結果から次のような結論が導かれます

 ・『年代』と『ブランドイメージ』との間で直接の関係がない
 ・『ブランドイメージ』と『商品満足度』との間の直接で直接の関係がある
 ・『商品満足度』と『年代』との間の直接で直接の関係がある

つまり3変数の直接的な関係としては、次の情報が得られることになります。

 『ブランドイメージ』---『商品満足度』---『年代』

検定の計算コストについて、3変数のみであれば 検定回数は 6回で済みますが、対象とする変数が多く
なればなるほど検定を行う回数は急激に増えてしまいます。
その理由は、ステップ2で条件付き独立性の条件として様々の変数の組み合わせを試さなければならない
ためです。実のところ、組み合わせの数は変数の数に対して指数関数的に増加えていき、実際のデータでは
全ての確認が不可能なほどになってしまいます。

そこで、条件付き独立性検定の計算回数を増加させずに効率よく行う方法として、
「Max-Min Parents and Children法(MMPC法)」というものが考案されました。
MMPC法では、どの変数も直接的に関係する変数が高々定数個程度しか存在しない場合(通常のデータは
このような状況が多いのですが)、検定回数は 変数の個数(N) に比例した回数程度になります。

先日リリースのBayoLinkSの新バージョン(ver.7.4)には、このMMPC法が新機能として搭載されました。

MMPC法を使うことでBayoLinkSの構造学習がさらに効果的にお使いいただけます。

                                    (2020.9.1. 北沢 芳明)