-------------------------------------------------------------------
■【トピック】Text Mining Studio関連セミナーのご案内
-------------------------------------------------------------------
今年も 11/2 に当社ユーザーコンファレンスが盛況のうちに終了することが
できました。当社ツールの貴重な活用事例をお話し下さいました
ご講演者様、学生研究奨励賞にご応募くださいました学生の皆様、そして
ご来場を頂きました全ての方に、スタッフ一同より御礼申し上げます。
皆様のご講演内容など、下記サイトにて公開しましたのでご覧ください。
詳細:http://www.msi.co.jp/userconf/2017/index.html
来年も各種特別セミナーを予定しておりますので詳細は下部、営業部の
コーナーをご覧ください。
<大事なお知らせ>
英語アドオンにつきまして過去のアンケートなどにご協力頂き
ありがとうございました。皆様の御期待にお応えして、2018年4月より
分かち書きスピードを大幅にアップしたバージョンをリリースいたします。
これに伴い、2018年4月以降は英語アドオン本体価格の変更がございます。
保守再加入や、新規購入をご検討の場合、早急に営業部まで
お問い合わせください。
(一般価格のみ価格を変更いたします。アカデミック特別価格の変更点は
ございません。また、2018年4月1日時点にて保守に加入されている
お客様への価格変更は、この時点では予定しておりません。)
また来年もどうぞよろしくお願い致します。
(TMS担当 主任研究員 古賀 久芳)
-------------------------------------------------------------------
■【技術コラム】特徴語抽出の指標値 補完類似度が抽出する単語について
-------------------------------------------------------------------
皆さま、こんにちは。
TMS チームの 和田 と申します。
今回は皆様によくお使いいただいている「特徴語抽出」の指標値について
ご紹介いたします。
「特徴語抽出」とは、属性値ごとに特徴的な単語を抽出する機能です。
「特徴語抽出」の「詳細設定」タブをクリックしていただくと、
「抽出指標」という設定項目がございます。
TMS では「抽出指標」として、
「補完類似度」、「χ二乗値」、「Fisherの直接確率」などをご用意して
おりますが、今回は、「抽出指標」の項目の 1 つで、初期値として
設定されている
「補完類似度」
について説明させていただきます。
補完類似度につきましては、以下のような単語がより特徴的と
みなされる値とご案内しております。
1. その属性に出現している割合が高い単語
2. 出現数が高い単語
本コラムでは、どのような単語が特徴的な単語として
抽出されてくるのかを、後述する例を実際に計算してみることで、
ご説明いたします。
「性別」の属性がついている携帯電話のアンケートのテキストデータを
例として考えていきたいと思います。
「性別」の属性には「男性」と「女性」があります。
「男性」と「女性」で使われている単語の総数は以下のように
なっているとします。
----------------------------------------------------------------
男性 100件
女性 900件
----------------------------------------------------------------
一見してわかる通り、上述のテキストデータは「女性」に偏った
データであり、男女比は 1 : 9 です。
さて、上述のテキストデータで使われていた単語のうち、
「デザイン」、「バッテリー」、「クール」という 3 つの単語に
着目してみましょう。
これらの単語の出現数を男女別に集計すると以下のように
なっているとします。
----------------------------------------------------------------
デザイン
男性 10件
女性 90件
男女比 1 : 9
バッテリー
男性 10件
女性 10件
男女比 1 : 1
クール
男性 1件
女性 0件
男女比 1 : 0
----------------------------------------------------------------
これら 3 つの単語のうち、「男性」に最も特徴的な単語はどの単語で
しょうか。
総単語数の男女比が 1 : 9 なのに対して、「デザイン」も同じ割合で
現れているので、「デザイン」は「男性」に特徴的な単語と考えるのは
難しそうです。
「バッテリー」は出現数自体は男女で差はありませんが、男女の偏りを
考慮すると、「男性」に偏って現れているので、特徴的な単語で
あるように思えます。
「クール」は「男性」にのみ出現していますが、出現数自体が少ないため、
たまたま「男性」に出現したとも考えられるので、特徴的な単語か
どうかは判然としません。
それでは、それぞれの単語の「男性」に対する補完類似度を
見てみましょう。
----------------------------------------------------------------
デザイン
男女比 1 : 9
補完類似度 0.00
バッテリー
男女比 1 : 1
補完類似度 26.67
クール
男女比 1 : 0
補完類似度 3.00
----------------------------------------------------------------
補完類似度の値を見てみると、
「バッテリー」 > 「クール」 > 「デザイン」
の順番で「男性」に特徴的です。
皆様の予想と一致されていましたでしょうか。
総単語数の男女比が 1 : 9 なのに対して「デザイン」も同じ割合で
現れているので、「デザイン」の補完類似度が 0.00 と小さく、
男女の偏りを考慮すると、「バッテリー」は「男性」に偏って
現れているので、「バッテリー」の補完類似度が 26.67 と大きく
なっていることがわかります。
「クール」の補完類似度が 3.00 と低くなっているのは意外でしょうか?
「クール」は「男性」にしか出現しておらず、「男性」に特徴的な単語で
あっても不思議ではありません。
ですが、「クール」の出現数は 1 回のみのため、偶然「男性」に
出現している可能性が考えられます。
一方で、「バッテリー」は 20 回も出現しており、偶然「男性」に
偏っている可能性は限りなく低いと考えられます。
以上のことから、「バッテリー」の方が「クール」よりも「男性」に
特徴的と考えられ、補完類似度も高くなっていると考えられます。
上述の例から、補完類似度は以下の観点のバランスを取った指標値と
なっていることがおわかりいただけたかと思います。
1. 単語がその属性に出現する割合が高いほど、より特徴的であるとする。
2. 単語のデータ数が多いほど、単語が偶然その属性に出現している
可能性が低いため、より特徴的であるとする。
補完類似度の具体的な計算方法につきましては、
インストールディレクトリ(※)の「docs」フォルダにある
「TMStudio 技術資料.pdf」をご参照ください。
5.1.1 章 「特徴分析 > 特徴語抽出 > 内容」に記載しております。
※インストールディレクトリは特に変更していない場合でしたら、
C:\Program Files\Mathematical Systems Inc\Text Mining Studio
または
C:\Program Files(x86)\Mathematical Systems Inc\Text Mining Studio
でございます。
今回は、「特徴語抽出」の「指標値」である「補完類似度」の説明を
させていただきました。
皆様の TMS のご活用に少しでも役立てていただけましたら幸いです。
その他、TMS をお使いの上でご不明な点や機能改善のご要望、メルマガで
ご希望の話題などございましたらサポートまでお気軽にご連絡ください。
サポート: tmstudio-support@ml.msi.co.jp
(TMS開発担当 和田 悠暉)
-------------------------------------------------------------------
☆営業部からのお知らせ☆
-------------------------------------------------------------------
◆英語アドオンについて
2018年4月の時点にて保守にご加入頂いている場合は例年通り
新バージョンを無料にて3月頃、お手元にお届けいたします。
なお保守料金の改定は2020年3月を予定しております。
(一般価格のみ価格を変更いたします。アカデミック特別価格の変更点は
ございません。)
◆体験セミナー (毎月開催)
http://www.msi.co.jp/tmstudio/seminar.html#regular
◆新バージョン発表会 12/22(金)
2018年の英語アドオンリリース内容についてもご紹介します。
http://www.msi.co.jp/packages/new_version_2017.html
◆アカデミックセミナー 1/19(金)
http://www.msi.co.jp/tmstudio/seminarAcademic.html
◆スキルアップセミナー 2/16(金)
http://www.msi.co.jp/tmstudio/seminarSkillup.html
◆コールセンターセミナー 2/22(木)
http://www.msi.co.jp/tmstudio/seminarCallCenter.html
-------------------------------------------------------------------
Text Mining Studio無料相談会@看護科学学会12/16(土)、17(日)@仙台
-------------------------------------------------------------------
Text Mining Studio分析ご相談を、30分プレゼント。
看護科学学会学術集会12/16(土)、17(日)@仙台
詳細:http://convention.jtbcom.co.jp/jans37/
ご希望の場合は下記についてご一報ください。
■日程:12/16(土)、17(日)ともに
10:00、11:00、13:00、14:00
のいずれか、ご希望の日時をご一報ください。(ご予約は受付順です!)
当日は是非、TMS分析対象データもご持参ください。
分析結果は差し上げます。
(TMS最新バージョンにて分析いたします。分析結果について、
ご希望であればHTML形式に変えてお渡しします。)
-------------------------------------------------------------------
メールマガジン バックナンバー
-------------------------------------------------------------------
過去のメールマガジンはこちらをご参照ください。
http://www.msi.co.jp/tmstudio/mailmagazine/index.html
ご質問等がございましたら御気軽にご相談ください。
ご連絡先Eメール:tmstudio-info@msi.co.jp
(TMS営業担当 湯淺)