-------------------------------------------------------------------
■【トピック】アカデミックコンファレンス開催のお知らせ
-------------------------------------------------------------------
少しずつ暖かくなり春らしさが感じられる頃となりました。
皆様にはお元気でご活躍のこととお喜び申し上げます。
先月2/10に、アカデミックコンファレンスFY2021を開催いたしました。
当社製品を利用したアカデミック事例や、当社 学生研究奨励賞にて
優秀な成績を収められた方の研究などをご講演いただきました。
http://www.msi.co.jp/academicconf/
現在見逃し配信(オンデマンド配信)中です。
上記サイトよりお申込みいただけますので、ぜひご視聴いただけますと幸いです。
(TMS担当 主任研究員 花島 空)
-------------------------------------------------------------------
■【技術コラム】TMS新機能「Jaccard係数」のご案内
-------------------------------------------------------------------
皆さまこんにちは。TMS開発チームの中西です。
2022年11月に TMS バージョン 7.1 をリリースいたしました。
今回のバージョンの新機能のひとつとして、TMSで「Jaccard係数」という指標
値が計算できるようになりました。
これは単語と単語の共起の度合い(2つの単語がどれだけ一緒に使われやすいか
≒2つの単語の関連性の強さ)を表す指標値のひとつで、テキストマイニングで
共起分析を行う際に広く用いられています。
そこで今回は、共起分析のひとつであることばネットワークでJaccard係数を
利用するケースを取り上げ、そのメリットや計算方法についてご説明いたし
ます。
◆Jaccard係数のメリット...見やすい結果をより簡単に
まず、TMSのことばネットワークでこれまでも提供してきた「信頼度」という
指標値についてご説明します。
信頼度では単語の関係に向きがあり、ネットワーク図のエッジは矢印で表され
ます。
2つの単語のうちどちらを前提としているのか、という方向性を考慮して共起
分析を行いたいケースでは信頼度が有効です。
一方、信頼度を利用してネットワーク図を作成した場合、頻度の大きい単語
(文書中によく現れる単語)に矢印が集中し、その単語を中心とした大きすぎ
るクラスタ(まとまり)が形成されやすいという傾向があります。
大きすぎるクラスタはそれがどんな話題を表しているのかが解釈しづらいため、
その場合は
・クラスタ数を増やし、各クラスタが小さくなるようにする
・頻出単語を単語フィルタに登録し、分析結果に登場しないようにする
などの調整を行う必要があります。
これに対し、Jaccard係数ではそのような大きすぎるクラスタが比較的発生しに
くいという特長があります。
そのため、解釈しやすい結果をより簡単に得やすくなるというのがJaccard係数
のメリットのひとつです。
それでは、以上のようなJaccard係数の特長や信頼度との違いについて、実際に
計算式と例を見ながら確認してみましょう。
◆Jaccard係数の計算方法
ある文書データとそこに現れる2つの単語X, Yに対して、それらのJaccard係数
は以下の分数の式で計算されます。
X, Yが共起する行または文章の件数
Jaccard係数 = ----------------------------------------------------
X, Yのうち少なくとも一方が現れる行または文章の件数
X, Yがまったく共起しなければこの値は0になり、逆に常に共起していれば値は
1になります。
つまりJaccard係数が0に近ければ近いほど単語X, Yの関連性が弱く、1に近け
れば近いほど関連性が強いと考えることができます。
例として、以下のような5つの文章を考えてみましょう。
(1)朝ごはんは大事。
(2)最近朝ごはんを食べてないなあ。
(3)朝ごはんはお米に限るね。
(4)朝ごはんはお米にたまごをかけます。
(5)お米とたまごは朝ごはんによく合う。
このとき、「朝ごはん」は(1)~(5)すべて、「お米」は(3)~(5)、「たまご」は
(4)~(5)に現れているので、
(a)「朝ごはん」と「たまご」のJaccard係数=2/5=0.4
(b)「お米」と「たまご」のJaccard係数 =2/3=0.67
となります。
この結果を見ると、 (a)では「朝ごはん」の頻度が大きいために分母が大きく
なり、(b)に比べてJaccard係数が小さめになっていることがわかります。
このように、頻出単語に対してはJaccard係数が大きくなりにくい傾向にある
ため、前節で述べたように、「頻度の大きい単語にエッジがたくさん引かれて
大きすぎるクラスタが発生」といった事態が起こりにくくなっているのです。
一方、信頼度は
「ある単語Xが出現した行または文章において、別の単語Yが出現した割合」
として計算されます。そのため上の例では、
(c)「お米」⇒「朝ごはん」の信頼度 =3/3=100%
(d)「たまご」⇒「朝ごはん」の信頼度=2/2=100%
となります。つまり「お米」「たまご」の両方から「朝ごはん」へ必ず矢印が
引かれることになります。結果として、「朝ごはん」を中心とする大きなクラ
スタができてしまいますね。
※なお、実際にことばネットワークでJaccard係数を計算する際には、信頼度に
合わせて0~100の割合の値としています。
※信頼度について詳しく知りたい方は、以下も併せてご覧くださいませ。
・【技術コラム】共起関係の強さとは?
https://www.msi.co.jp/tmstudio/mailmagazine/backnumberVol36_20200707.html
・TMStudio 技術資料
7.1.1.1 共起関係に基づいた抽出方法
◆使い方はこれまでと同様、ただし最低指標値に注意
Jaccard係数を用いて分析をする場合でも、基本的な使い方はこれまでと変わ
りません。
分析設定画面の[指標値]において「Jaccard係数」を選択し、分析を実行すれば
OKです。
なお、Jaccard係数はことばネットワークの他にも、同じく共起分析の一種
である「注目語情報」でもお使いいただけるようになっています。
ただし、これらの分析でJaccard係数をお使いになる場合には、[最低指標値]を
小さめに設定することをおすすめいたします。
[最低指標値]は最初 60 に設定されていますが、Jaccard係数は値が大きく
なりにくく、このまま分析を実行しても結果がほとんど出ない場合があるため
です。
そのため、まずは 20~30 程度に下げていただき、その後結果を見て調整いた
だくのがよいかと存じます。
今回はTMSに新しく搭載されたJaccard係数についてご紹介いたしました。
その他、ご利用の上でご不明な点やご要望、メルマガで扱うテーマのリクエス
ト等ございましたら、お気軽にサポートまでご連絡くださいませ。
vmstudio-support@ml.msi.co.jp
(TMS 開発担当 中西 陸大)
-----------------------------------------------------------------
☆営業部からのお知らせ☆
-----------------------------------------------------------------
Text Mining Studio営業担当の岩田でございます。
今回ご紹介しましたJaccard係数は、ことばネットワークにて解釈しやすい結果を
より簡単に得られる分析指標値です。
ぜひご利用いただけますと幸いです。
TMS最新版をお持ちでない方は、ぜひ一度トライアル版にてお試しくださいませ。
トライアルご希望の方は以下の宛先までご連絡ください。
vmstudio-info@ml.msi.co.jp
■お知らせ■ Windows11への対応予定について
現在のTMS最新版である「v7.1」は、Windows11での動作を保証しておりません。
Windows10にてご利用いただきますよう何卒よろしくお願いいたします。
なお、2022年3月末頃のリリースを予定している次期バージョンでは、
Windows11に対応する予定でございます。
今しばらくお待ちいただけますようお願いいたします。
(保守ご契約中のユーザ様には、次期バージョンをリリース次第
メールにてご連絡いたします)
-----------------------------------------------------------------
「TMSスキルアップ動画」をぜひご利用ください
-----------------------------------------------------------------
TMSの各種便利機能の紹介や、過去の特別セミナーのオンデマンド動画などを
ご紹介している「スキルアップ動画」をぜひご利用ください。
URL: https://vimeo.com/showcase/tms-skillup
パスワード:Kp3Gidu9
※視聴ページ(Vimeo)にアクセス後、
「このショーケースは非公開です」と表示されます。
そのメッセージ下のテキストボックスに上記パスワードをご入力ください。
先月開催しました「看護向けテキストマイニングセミナー」や
「自然言語処理による特許分析セミナー」の一部講演も近日中にスキルアップ動画サイトに
アップロードする予定です。
ぜひご期待ください!
-----------------------------------------------------------------
各種セミナ、ユーザー様事例のご紹介
-----------------------------------------------------------------
◆毎月開催!無料セミナー
https://www.msiism.jp/seminar/
◆その他セミナー
https://www.msi.co.jp/tmstudio/seminar
◆TMSユーザー様インタビュー事例
https://www.msi.co.jp/tmstudio/business.html
-----------------------------------------------------------------
メールマガジン バックナンバー
-----------------------------------------------------------------
過去のメールマガジンはこちらをご参照ください。
https://www.msi.co.jp/tmstudio/mailmagazine/index.html
( ユーザ名 : tms , パスワード : msi )
ご質問等がございましたら御気軽にご相談ください。
ご連絡先Eメール:tmstudio-info@msi.co.jp
<お問合せ>
ご不明な点がございましたらいつでもお気軽にご連絡頂ければ幸いでございます。
vmstudio-info@ml.msi.co.jp
Tel:03-3358-6681
(TMS営業担当 岩田 真治)