-----------------------------------------------------------------
■【トピック】初夏のご挨拶 と 特許分析ツールについて
-----------------------------------------------------------------
クールビズを意識する時節となってまいりましたが、皆様いかがお過ごしで
しょうか。交互に訪れる雨と晴れ間とでまだまだ温度変化の激しい時期で
ございます。皆様体調管理には十分お気を付けくださいませ。
そんな中、当社では日頃皆様から多数ご要望を頂いております特許の分析に
特化したテキストマイニングツール の8月末のリリースに向けて開発を
すすめております。
TMS 本体とは一線を画した WEB ブラウザによるユーザインタフェースを
用いて、複雑な設定項目を経ることなしに有用な分析結果へとダイレクトに
迫れるツール、を目指し社内総力を挙げております。
どうぞご期待ください。
(TMS開発リーダー 岩本 圭介)
-----------------------------------------------------------------
■【技術コラム】専門用語の抽出 応用編
-----------------------------------------------------------------
☆前号からの続き
前回に続きテキストからの専門用語抽出のテクニックを紹介します。
前号は下記サイトにてご確認頂くことができます。
URL:http://www.msi.co.jp/tmstudio/mailmagazine
ユーザー名:tms
パスワード:msi
まずは前回の復習です。専門用語には次のような特徴があります。
○複合語である
多能性幹細胞 = 多能 + 性 + 幹 + 細胞
アミノ基 = アミノ + 基
iPS細胞 = iPS + 細胞
この特徴を利用した専門用語抽出を紹介します。
☆アイデア
専門用語抽出のアイデアは
「専門用語(複合語)は専門用語的な“短い”形態素からできている」こと
です。例えば「多能性幹細胞」は「多能」「性」「幹」「細胞」という短い
形態素から構成されていますが、特に「性」や「細胞」という語が含まれる
ことで、専門的な単語であると予想できます。
☆専門用語的な形態素を抽出する TMS プロジェクト
まず TMS プロジェクトを用意します。ただし、テキストを読み込む際の
「分かち書きの実行」画面で「分かち書きのみ」を選択してテキストを
取り込みます。すると普段は「多能性幹細胞」と1つの単語に認識される
ところが、「多能」「性」「幹」「細胞」と4つの単語に認識されます。
ここで、単語頻度解析を利用して文字数1文字(または2文字)の単語を
抽出すると、「核」「基」「塩」「鎖」「液」「酸」「細胞」などの
専門用語的な形態素を一網打尽にすることができます。
これらの単語を選別してユーザ辞書に登録し、そのまま「専門用語形態素
辞書.csv」と名前をつけてファイルに書き出しておきます。
☆専門用語抽出 TMS プロジェクト
もう1つ TMS プロジェクトを用意します。こちらはテキストを読み込む
際の「分かち書きの実行」画面で特に指定をせずにテキストを
取り込みます。
先ほど作成した「専門用語形態素辞書.csv」をユーザ辞書として読み込み、
ことばバッファにコピーをしておきます(ユーザ辞書はオフにしておく)。
さいごに単語頻度解析の単語フィルタに、バッファにコピーしたすべての
単語を指定して、これらの形態素を含む単語を抽出すれば、専門用語を
一気に抽出することができます。
以上、TMSの応用ワザのご紹介でした。
少しテクニカルな方法ですのでご不明な点がございましたらサポート宛に
ご遠慮なくご質問ください。(vmstudio-support@ml.msi.co.jp)
(数理システム データマイニング部 研究員 岩永二郎)
-----------------------------------------------------------------
☆営業部からのお知らせ☆
-----------------------------------------------------------------
■TMSがソフトウェア賞受賞!
http://www.msi.co.jp/tmstudio/news/20130527.html
■6/17 テキストマイニング研究会
http://www.msi.co.jp/tmstudio/5th_tm_study_group.html
■6/20 コールセンターソリューションセミナー
http://www.msi.co.jp/nuopt/seminar/index.html
■7月は2回開催!TMS無料セミナー
http://www.msi.co.jp/tmstudio/seminarRegular.html
■8/30(金)特許分析ツール リリース!
セミナーなど詳細は決定次第ご連絡します
■当社 Webサイトリニューアル
http://www.msi.co.jp/
各種のソリューションや事例なども探しやすくなりました
ご質問等がございましたら御気軽にご相談ください。
ご連絡先Eメール:vmstudio-info@msi.co.jp
今後とも何卒よろしくお願い致します。
(TMS営業担当 湯淺 麻紀子)