-------------------------------------------------------------------
Text Mining Studio 6.4 リリース
~ 類似抽出アドオンリリースのお知らせ ~
-------------------------------------------------------------------
こんにちは。
Text Mining Studio 開発担当の古賀でございます。
常日頃から Text Mining Studio (以下、TMS) をご愛用いただき
まことにありがとうございます。
10/20(火)より開催しておりますCEATEC 2020 オンライン展示会に出展して
おります。
https://www.ceatec.com/ja/
開催期間:10/20(火)~10/23(金)
例年の展示会でご説明させていただいております、事例などをご紹介した動画
に加え、データサイエンス講座の紹介など、様々な動画をご用意いたしました。
お時間がございましたら是非ご覧ください。
また、8月末に TMS の新機能「類似テキストツール」をリリースいたしました。
以下にご紹介しております。少々長文でございますが、ご覧いただけますと
幸いです。
今後とも TMS ならびに当社製品をどうぞよろしくお願い申し上げます。
(TMS 開発担当 古賀 久芳)
-------------------------------------------------------------------
■【技術コラム】類似抽出アドオンをリリースしました!
-------------------------------------------------------------------
皆さま、こんにちは。TMSチームの中西と申します。
今年の8月、Text Mining Studio 6.4 をリリースいたしました。
本リリースに併せまして、TMSの新しいアドオン
「類似抽出アドオン Powered by Deep Learner」(以下、類似抽出アドオン)を
リリースいたしました。
こちらの「類似抽出アドオン」は、平素よりご愛顧いただいております
「類義語アドオン」の機能に加え、新たに「類似テキストツール」を搭載し、
1つのアドオンとしてパッケージ化したものでございます。
特に、新しい「類似テキストツール」をご利用いただくことで、
- コールセンターやアンケートのデータをカテゴリ別に分類したい
- 特許や論文の山の中から、自分の考えているものと似たものを探し出したい
といった場面で、より便利に分析を行なっていただけるかと存じます。
そこで今回は、この新しく搭載された「類似テキストツール」について、
簡単にご説明いたします。
◆類似テキストツール...「単語」から「文章」へ
従来の類義語アドオンは、以下のメルマガ
【技術コラム】「類義語アドオンって?」な方のための類義語アドオン
新機能紹介
https://www.msi.co.jp/tmstudio/mailmagazine/backnumberVol35_20200302.html
でもご案内いたしました通り、主に次の2つの機能を持っていました。
- 単語同士の意味的な類似度を計算する
- 類似度を計算するために必要な分散表現(単語をベクトルで表現したもの)を
作成する
この機能により、類義語アドオンでは、ユーザが指定した単語と似た意味の単語を
検索することができました。
一方、今回の類似テキストツールでは、上記の機能をベースとして、
- 文章同士の意味的な類似度を計算する
- 計算結果をもとに、各文章を類似/非類似で分類する
ことが可能です。
それでは、この機能をどのように活用すればよいでしょうか?
この点をご説明する前に、まずは類似テキストツールの簡単な使い方をご紹介
しましょう。
◆類似テキストツールの使い方
本ツールのおおまかな使い方の流れは以下の通りです。
1. まず、分析対象のテキストデータを作成してみます。
例として、とあるホームベーカリー(パン焼き器)のアンケートに寄せられた
3つの回答を入力してみましょう。
味は普通だけど、安かったのでお得感あるかな。
意外と音が静かでした。
価格は手頃だが、振動がやかましい。
2. 次に、比較対象となるトピックと、各トピックに属する文章を設定します。
値段:値段が安い。コスパがいい。
音 :音がうるさい。ガタガタ鳴る。
3. 類似度計算を実行します。これにより、1.で入力した文章と、2.で設定した
文章の類似度が計算され、トピック別に表示されます。
| 値段 | 音 |
------------------+------+------+
味は普通だけど... |0.79 |0.39 |
------------------+------+------+
意外と音が静か... |0.47 |0.78 |
------------------+------+------+
価格は手頃だが... |0.66 |0.58 |
------------------+------+------+
4. 計算結果を使って、類似度の高い文章にのみ
チェック印を入れたり、ラベル列を作ることもできます。
| 値段 | 音 |トピック|
------------------+------+------+--------+
味は普通だけど... | 〇 | | 値段 |
------------------+------+------+--------+
意外と音が静か... | | 〇 | 音 |
------------------+------+------+--------+
価格は手頃だが... | 〇 | 〇 |値段--音|
------------------+------+------+--------+
このトピックのチェック列やラベル列があることで、この後のTMSでの分析を
より便利に行っていただくことができます。
例えば、
- トピック別に集計することで、どのようなトピックの回答が多いのかが判る
- トピックごとに特徴的な単語を分析することで、各トピックの評価が判る
- ラベルが付かなかったデータを見ることで、見逃していたトピックに気付く
といったことが可能です。
◆類似テキストツールの使いどころ...より柔軟な「グルーピング」を
さて、上で述べたような「各テキストにトピックのチェックやラベルを付与する」
という操作は、TMSの本体機能のひとつである「グルーピング」とよく似ていますね。
グルーピングにつきましては、以下のメルマガでもご紹介しております。
【技術コラム】 TMS-tips その1-グルーピング
https://www.msi.co.jp/tmstudio/mailmagazine/backnumberVol15_20150526.html
【技術コラム】単語や係り受けのまとめ上げ方法
https://www.msi.co.jp/tmstudio/mailmagazine/backnumberVol32_20190425.html
TMSのグルーピングでは、各グループごとに単語や係り受けのルールを登録する
必要があります。
値段 音
| |
+-安い +-静か
+-安価 +-うるさい
+-コスパ +-響く
+-値段 -> 高い +-音 -> する
+-価格 -> 高い +-音 -> 大きい
+... +-...
そして、登録したルールにぴったりマッチする文章にのみ、グループ名の
チェックやラベルが付与されます。
似た表現が使われていても、それがルールから漏れていればマッチしません。
したがって、ルールを整理する際にはどうしても細かな試行錯誤を要します。
これに対し、類似テキストツールでは、単語の意味的な類似度を計算した上で
チェックやラベルを付与します。
そのため、ルールとぴったり一致していない表現でも、類似度が高いと判断
されればマッチする可能性があるのです。
例えば、上記の「価格は手頃だが、振動がやかましい。」と「値段が安い。
コスパがいい。」には共通する表現がないにも関わらず、類似度0.66という
高めの類似度が計算され、「値段」にチェックの入っていることが判るでしょう。
つまり、本アドオンを利用することで、より簡単かつ柔軟なグルーピングを
実現することができるのです。
今回は、類似抽出アドオンの概要についてご紹介させていただきました。
本アドオンの機能等につきましては、下記ページでもご紹介しておりますので、
併せてご覧いただければ幸いです。
https://www.msi.co.jp/tmstudio/TMSSimirarTextTool.pdf
その他、ご利用の上でご不明な点やご要望、メルマガで扱うテーマのリクエスト等
ございましたら、お気軽にサポートまでご連絡くださいませ。
tmstudio-support@ml.msi.co.jp
(TMS 開発担当 中西 陸大)
-----------------------------------------------------------------
☆営業部からのお知らせ☆
-----------------------------------------------------------------
Text Mining Studio営業担当の岩田でございます。
今回ご紹介しました「類似抽出アドオン Powered by Deep Learner」は、
当社が独自開発したディープラーニングエンジンを利用しています。
これまでたくさんの方からお寄せいただいていた
「似ている文章をまとめたい、抽出したい」というご要望に
応えることができるツールです。
ぜひ一度トライアル版にてお試しくださいませ。
トライアルご希望の方は以下の宛先までご連絡ください。
vmstudio-info@ml.msi.co.jp
-----------------------------------------------------------------
数理システム ユーザーコンファレンス2020のお知らせ
-----------------------------------------------------------------
毎年ご好評いただいております数理システムユーザーコンファレンスの
参加受付を開始いたしました!
今年はオンラインによる2日間の開催です。
皆様のお申込みをお待ちしております!
https://www.msi.co.jp/userconf/2020/lp/
会期:2020年11月19日(木)~11月20日(金)
開催方法:オンライン(ウェビナー方式)
-----------------------------------------------------------------
各種セミナ、ユーザー様事例のご紹介
-----------------------------------------------------------------
◆毎月開催!無料セミナー
https://www.msiism.jp/seminar/
◆その他セミナー
https://www.msi.co.jp/tmstudio/seminar
◆TMSユーザー様インタビュー事例
https://www.msi.co.jp/tmstudio/business.html
-----------------------------------------------------------------
メールマガジン バックナンバー
-----------------------------------------------------------------
過去のメールマガジンはこちらをご参照ください。
https://www.msi.co.jp/tmstudio/mailmagazine/index.html
( ユーザ名 : tms , パスワード : msi )
ご質問等がございましたら御気軽にご相談ください。
ご連絡先Eメール:tmstudio-info@msi.co.jp
<お問合せ>
ご不明な点がございましたらいつでもお気軽にご連絡頂ければ幸いでございます。
vmstudio-info@ml.msi.co.jp
Tel:03-3358-6681
(TMS営業担当 岩田 真治)