------------------------------------------------------------------
■【トピック】アカデミックセミナーのご案内
-------------------------------------------------------------------
日頃より、Text Mining Studio (TMS) をご活用くださり、誠にありがとう
ございます。
梅雨明けが待ち遠しいこの頃ですが、皆様いかがお過ごしでしょうか。
雨と晴れ間の温度変化もさることながら、ホームと電車の中でも温度変化の
激しい時期でございます。皆様体調管理には十分お気を付けください。
さて、お客様によっては、TMS の出力を VMS や BayoLink の入力として
利用いただくなど、当社複数の製品を連係し、様々なご活用をしていただいており、
大変ありがたいかぎりでございます。
それぞれの製品の体験セミナーは別の日で開催されることが多いのですが、
複数製品を1日でまとめて実際に操作していただけるセミナーをご用意
いたしました。
https://www.msi.co.jp/packages/academic_seminar_2019.html
8/6(火) 「数理システム全製品アカデミックセミナー 2019」と銘打っており
ますが、企業の方のご参加も歓迎いたします。
気になる製品がございましたら、是非お越しください。
今後とも TMS ならびに当社製品をどうぞよろしくお願い申し上げます。
(TMS担当 主任研究員 古賀 久芳)
-------------------------------------------------------------------
■【技術コラム】TMS-tips 文章分類機能の仕組みの紹介
-------------------------------------------------------------------
皆さま、こんにちは。
TMSチームの本間でございます。
改元されて初の技術コラムになります。
令和も数理システムをよろしくお願いいたします。
さて、皆さまは「文章分類」の機能をお使いになられていますでしょうか。
「文章分類」は文中の言葉の情報を用いて、文同士の類似性を考慮して
似ているまとまり(クラスタ)を作り上げる分析機能です。
https://www.msi.co.jp/tmstudio/analyze.html
(ページ内の「文章分類」をご覧ください)
今回の技術コラムにおきましては、「文章分類」機能のK-meansのアルゴリズムの
仕組みを説明いたします。
まずTMSの内部において、各文を数値化して、それぞれ比較できるようにします。
以下の図において、それぞれの「・」が一文を表しているとします。
距離が近いほど似ている文とします。
------------
・ ・
・ ・
・ ・
・ ・
------------
今回は単純な例としてクラスタ数が2つの場合を考えます。
次のStep1からStep4に従って、これらの8つの文を2つのクラスタに割り当てます。
[Step1]
ランダムに2個の文を選んで、各クラスタの代表文とします。
☆と★がクラスタ1とクラスタ2の代表文です。
------------
☆ ・
・ ・
・ ★
・ ・
------------
[Step2]
代表文以外の各文を、それぞれの代表文と比較します。
近い方の代表文のクラスタに割り当てます。
◇がクラスタ1に割り当てられた文、◆がクラスタ2に割り当てられた文です。
------------
☆ ◆
◇ ◇
◇ ★
◇ ◆
------------
[Step3]
各クラスタ内で代表文を新しく選びます。
選び方はクラスタ内で、中央に一番近い文にします。
クラスタ1の代表文が更新され、クラスタ2の代表文は更新されませんでした。
------------
◇ ◆
◇ ◇
☆ ★
◇ ◆
------------
[Step4]
代表文以外の文を割り当てから外します。
Step2へ戻り、現在の代表文と各文を再び比較して、新しくクラスタに割り当てます。
------------
・ ・
・ ・
☆ ★
・ ・
------------
以下のいずれかの条件を満たしたときに繰り返しが終了し、割り当てが完了します。
(A) すべてのクラスタで代表文が更新されない
(B) 繰り返しの回数が上限の100回に達した
以上の手順で文をクラスタに割り当てます。
TMSが出力する円グラフでは、各クラスタ内で最も頻度が高かった
単語が表示されています。
説明のために2次元平面を用いましたが、実際はより高次元な空間で割り当てを
行っています。
単語(分かち書きした後の置換語)の有無の情報を用いて各文を数値化し、
距離の計算を行っています。
詳細につきましては、技術資料ファイルの「7.3 文章分類」に記載しております。
ファイルは以下の場所にございます。
\docs\TMStudio 技術資料.pdf
※64bit版Windowsの場合、インストールの際に特に設定を変更していなければ
以下に保存されています
C:\Program Files (x86)\Mathematical Systems Inc\
Text Mining Studio\docs\TMStudio 技術資料.pdf
以上、簡単に紹介させていただきました。
少しでもみなさまのお役に立てれば幸いです。
その他、お使いの上でご不明な点や機能改善のご要望、また
メールマガジンで取り扱って欲しい話題などございましたら
サポートまでお気軽にご連絡くださいませ。
サポート:tmstudio-support@ml.msi.co.jp
(TMS開発担当 本間夏樹)
-----------------------------------------------------------------
☆営業部からのお知らせ☆
-----------------------------------------------------------------
TMSの営業担当として、今月より就任いたしました岩田真治と申します。
引き続き皆様のご支援をしてまいりますので
どうぞよろしくお願い致します。
◆毎月開催!TMS体験セミナー
https://www.msi.co.jp/tmstudio/seminarRegular.html
◆TMSスキルアップセミナ:8/8(木)(残り席あとわずか)
https://www.msi.co.jp/tmstudio/seminarSkillup.html
◆その他セミナー
https://www.msi.co.jp/tmstudio/seminar
◆TMSユーザー様インタビュー新事例掲載!
https://www.msi.co.jp/tmstudio/userscase_pdf/TTA.pdf
https://www.msi.co.jp/tmstudio/userscase_pdf/MS_and_Consulting.pdf
◆11月22日(金)に「数理システムユーザーコンファレンス2019」を開催します!
(参加申込受付開始までしばらくお待ちください)
https://www.msi.co.jp/userconf/2019/index.html
◆情報通信総合研究所様との対談内容
(音声認識とテキストマイニングについて)を掲載しました。
https://www.msi.co.jp/tmstudio/userscase_pdf/MSI_report_K1_0408.pdf
★Text Mining Studioが比較サイト「ITトレンド」で
2017年度に続き、2018年度前期も、1位に選ばれました!
https://it-trend.jp/award/2018-firsthalf/textmining?r=award2018-firsthalf-tab
-----------------------------------------------------------------
メールマガジン バックナンバー
-----------------------------------------------------------------
過去のメールマガジンはこちらをご参照ください。
https://www.msi.co.jp/tmstudio/mailmagazine/index.html
( ユーザ名 : tms , パスワード : msi )
ご質問等がございましたら御気軽にご相談ください。
ご連絡先Eメール:tmstudio-info@ml.msi.co.jp
(TMS営業担当 岩田)