-------------------------------------------------------------------
■【技術コラム】TMSにおける「不要語」の設定方法について
-------------------------------------------------------------------
日頃より Text Mining Studio (以下、TMS) をご愛用いただき、
誠にありがとうございます。TMS開発チームの飯村と申します。
テキストマイニングを行う際に、不要な語を分析結果から
取り除きたいと思ったことはございませんか?
今回の技術コラムでは、テキストマイニングを行う上で重要な
「不要語の削除」につきまして、TMS上でどのように設定すれば
実現できるのかご案内いたします。
テキストマイニングでは、テキストデータをその構成要素である単語単位に
分割し、頻出する単語やその係り受け関係、共起関係などを調べることで、
テキストデータに埋もれている『新しい情報』の発掘を目指します。
この『新しい情報』を発掘する上で、重要になる作業が「不要語」の設定です。
というのも、分析対象となるテキストデータに詳しい人物
(=分析者である皆様)にとって、テキストマイニング手法で得られる
分析結果の多くは普段からよく目にしている『既知の情報』であり、
本来の目的である『新しい情報』はそれらの中に埋もれがちです。
そのため、テキストデータから『新しい情報』を発掘するためには、
分析結果から
『既知の情報』=『分析結果に表示する必要のない単語(不要語)』
を取り除く作業
が必要であり、この「作業」が今回ご紹介する「不要語の設定」になります。
TMSでは「削除語辞書」の設定、あるいは「単語フィルタ」機能を利用することで
特定の単語を除外して分析するように設定することが可能です。
以下では、「削除語辞書」と「単語フィルタ」のそれぞれの利用方法と、
2つの違いについてご説明申し上げます。
●「削除語辞書」と「単語フィルタ」の利用方法
「削除語辞書」と「単語フィルタ」の最も大きな違いは
『 「削除語辞書」 に登録した内容は すべての分析結果 から取り除かれ、
「単語フィルタ」に登録した内容は 特定の分析結果のみ から取り除かれる。』
という点にあります。
以下では、両機能の利用方法について簡単にご説明いたします。
◆削除語辞書
TMSの「類義語辞書」の設定を応用して「削除語辞書」を作成することで、
指定した単語を【すべての分析結果】から除外することが可能です。
「削除語辞書」を作成するには、「類義語辞書」の「代表語」に削除したい単語を
設定し、その品詞を「記号 一般」に設定します。
*** 品詞を「記号 一般」と設定することで単語を除外して分析できる理由 ***
テキストマイニングでは得られた分析結果に対して考察を行い、
解釈を与えますが、その際に「記号 一般」と判定される語
(「。」や「■」など)が不要になる場面が多いです。
TMSでは、解釈しやすい分析結果を提供するための工夫として
『品詞が「記号 一般」と判定された単語は、分析から除外する』ように
設定しております。
そのため、単語の品詞を「記号 一般」と登録し直すことで、結果的に
分析から除外する(すなわち、削除する)ことができるようになります。
************************************************************************
「削除語辞書」の詳細な設定方法については、
TMStudio チュートリアル p.100~
第3部 便利な使い方
第1章 削除語辞書
にも記載されています。
"TMSで分析を行ったけれど、どんな分析結果にも○○という単語が
出てきてしまって結果に対する解釈がよくわからない"
といったお悩みをお持ちの皆様にはぜひ、分析時の「削除語辞書」の設定を
ご検討いただければと思います。
◆単語フィルタ
「単語フィルタ」の設定を行うことにより、【特定の分析結果】から
指定した単語を分析結果に表示しないように設定することが可能です。
テキストマイニングを行う上では、分析機能とその利用目的に応じて、
分析から除外したい単語が異なることがよくあります。
そのような場合には、前述した「削除語辞書」ではなく、
「単語フィルタ」機能をご利用いただくことをお勧めいたします。
「単語フィルタ」を利用するには、各種分析機能の実行時に表示される設定画面の
「単語フィルタ」ボタンを押して「どのような単語を抽出しないか」を入力します。
「単語」欄に取り除きたい単語を入力し、
「条件」欄から「と一致しない」を選ぶことで、
取り除きたい単語【以外】の単語が抽出され、結果的に分析結果から
「単語」欄に入力した単語を取り除くことができます。
「単語フィルタ」を利用した不要語の除外について、例をあげて説明いたします。
以下のような5つの文章を分析する場面を考えてみましょう。
(1)朝ごはんは大事。
(2)朝ごはんは食べないけど、おやつや夕ごはんは結構食べる。
(3)朝ごはんはお米に限るね。
(4)朝ごはんはパン派だけど、お昼ごはんはお米がいいな。
(5)夕ごはんは少なめ、朝ごはんは多めにします。
これらの文章に対して単語頻度解析を行うと、最も頻度が多い単語は
「朝ごはん」(5件)となります。
この結果を見て 、
"これらの文章は「朝ごはん」に関する意見を述べていることが分かった。
「他にはどんな単語が使われているか」を調べたい。"
と考えたとしましょう。このような場合には、
"分析結果から『朝ごはん』を除外することで、
他の頻度が大きい単語が見えてくる。"
と考えられます。そこで、単語頻度解析の実行時に「単語フィルタ」として
・「単語:朝ごはん」「条件:と一致しない」
を設定してみます。この場合、「朝ごはん」という単語の頻度は分析結果には
表示されなくなります。
そのため、最も頻度が多い単語は「夕ごはん」と「お米」(各2件)と表示されます。
応用として、「条件」欄で「含まない」を指定することで、
特定の語を【含まない語のみを抽出する】(つまり、
特定の語が【含まれる複数の語をまとめて除外する】)
ことも可能です。
例えば、
・「単語:ごはん」「条件:を含まない」
とすることで、「ごはん」という単語を含む「朝ご飯」「お昼ごはん」
「夕ごはん」などをまとめて除外することができます。
その結果、最も頻度が多い単語は「お米」(2件)となります。
ここまで紹介した単語フィルタの設定による分析結果の変化を以下に示します。
・単語頻度解析の結果(単語フィルタなし)
朝ごはん ■■■■■
お米 ■■
夕ごはん ■■
おやつ ■
ごはん ■
...(以下略)
↓単語フィルタに「単語:朝ごはん」「条件:と一致しない」を設定
お米 ■■
夕ごはん ■■
おやつ ■
ごはん ■
...(以下略)
↓単語フィルタに「単語:ごはん」「条件:を含まない」を設定
お米 ■■
おやつ ■
...(以下略)
このように、「単語フィルタ」を利用して不要語を分析結果に表示しないように
設定することで
"これらの文章には「朝ごはん」だけでなく、「夕ごはん」や、「お米」などの
食材に関する意見も含まれる"
というような、分析結果に対するより深い考察を与えることが可能です。
"TMSで△△の分析を行って○○ということは分かったが、内容を深堀してみたい。"
といったお悩みをお持ちの皆様にはぜひ、分析を行う際に「単語フィルタ」の設定を
ご検討いただければと思います。
今回はTMSに搭載されている「不要語」の設定機能とその活用方法について
ご紹介いたしました。
その他、ご利用の上でご不明な点やご要望、メルマガで扱うテーマのリクエスト等
ございましたら、お気軽にサポートまでご連絡くださいませ。
vmstudio-support@ml.msi.co.jp
(TMS 開発担当 飯村 翔馬)
-----------------------------------------------------------------
☆営業部からのお知らせ☆
-----------------------------------------------------------------
Text Mining Studio 営業担当の多田健人です。
旧年中はお世話になりました。2022年は創立40周年を迎えることができました。
これもひとえに皆様のご愛顧とご支援によるものと深く感謝しております。
2023年もどうぞよろしくお願いいたします。
今回ご紹介しました「不要語」の設定は分析精度を上げるための重要な作業の一つでございます。
ぜひ皆様お試しいただけますと幸いです。
■お知らせ:新バージョン(Ver7.1.2)リリースにつきまして
今年度末(3月末)にTMSの新バージョンリリースを予定しております。
保守ご契約中のユーザ様には、次期バージョンをリリース次第メールにてご連絡いたします。
-----------------------------------------------------------------
「TMSスキルアップ動画」をぜひご利用ください
-----------------------------------------------------------------
TMSの各種便利機能の紹介や、過去の特別セミナーのオンデマンド動画などを
ご紹介している「スキルアップ動画」をぜひご利用ください。
URL: https://vimeo.com/showcase/tms-skillup
パスワード:Kp3Gidu9
※視聴ページ(Vimeo)にアクセス後、
「このショーケースは非公開です」と表示されます。
そのメッセージ下のテキストボックスに上記パスワードをご入力ください。
-----------------------------------------------------------------
各種セミナ、ユーザー様事例のご紹介
-----------------------------------------------------------------
◆毎月開催!無料テキストマイニングセミナー
https://www.msiism.jp/event/tms-introduction.html
◆その他セミナー
https://www.msiism.jp/event/
◆TMSユーザー様事例
https://www.msiism.jp/case/text-mining-studio/
-----------------------------------------------------------------
メールマガジン バックナンバー
-----------------------------------------------------------------
過去のメールマガジンはこちらをご参照ください。
<お問合せ>
ご不明な点がございましたらいつでもお気軽にご連絡くださいませ。
vmstudio-info@ml.msi.co.jp
Tel:03-3358-6681
(TMS営業担当 多田 健人)