---------------------------------------------------------------
■【トピック】
---------------------------------------------------------------
Text Mining Studio(TMS)バージョン4.2 のリリースから約 2ヶ月が
経ちました。当社開発メンバは次なる課題として WEB ブラウザ上で
動作する次世代テキストマイニングツールの確立に向けて始動しています。
第一弾として皆様からのご要望にお応えし、特許文書の分析に特化した
テキストマイニングツールを今年 9月 にリリースさせて頂く予定と
なりました。簡明なユーザインタフェースにより、マイニングの知見を
応用したキーワード抽出技術を利用することができる、これまでにない形の
テキスト分析ツールです。是非ともご期待ください。
引き続き、特許分析におけるご要望などお聞かせください。
また、TMS バージョン4.2 リリース後に判明した不具合等を修正するための
更新ツールをリリースいたしました。V4.2 をご利用の方は、下記ページの
ご案内をお読みの上、更新ツールをダウンロード・適用して頂きたく
存じます。
http://www.msi.co.jp/tmstudio/support/updatetool.html
( ユーザ名 : tms , パスワード : msi )
ご不便をおかけし申し訳ございません。何卒よろしくお願いいたします。
(TMS開発リーダー 岩本 圭介)
---------------------------------------------------------------
■【技術コラム】特許情報分析のヒント:専門用語の抽出 基礎編
---------------------------------------------------------------
☆専門用語とテキストマイニング
テキストの分析をする際に専門用語の整備を行いたいと思ったことは
ないでしょうか。専門用語の辞書は辞書そのものに価値がありますが、
それ以外にも専門用語に注目した分析が行えるというメリットがあります。
例えば、TMS の各種分析画面で設定できる“単語フィルタ”を利用する
ことで専門用語にしぼった特徴分析、ことばネットワーク構築、対応バブル
分析ができるようになります。
専門用語は「ユーザ辞書」で管理しておくと便利です。分析で注目したい
専門用語を「ユーザ辞書」から「ことばバッファ」にコピーしておくと
“単語フィルタ”を利用する際に、すぐに専門用語を登録することが
できます。
今回は、iPS 細胞に関する特許分析を行う場合の専門用語の抽出方法を
紹介します。
☆専門用語の特徴と抽出方法
まず、日本語の専門用語の特徴をおさえておきましょう。日本語の
専門用語は左記に記載の特徴が挙げられます。
(1)複合語である ・・・多能性幹細胞/増殖促進剤
(2)カタカナが含まれる ・・・アミノ基/ゲノム/ポリマー
(3)アルファベットが含まれる ・・・iPS細胞/DNA/Klf4
(2)(3)の性質を持つ専門用語は、単語頻度解析の単語フィルタでカタカナや
アルファベットを含む単語を指定すれば抽出が可能です。
(1)の性質は日本語で造語を作る方法を考えれば納得がいく特徴です。
上記の例では(2)(3)の例「アミノ基」「iPS細胞」も本来は2語に分かれる
べき複合語ですが、綺麗にまとまって抽出できました。
(1)の性質を利用した最も簡単な抽出方法は、単語頻度解析で
“文字数 3 文字以上”の単語を抽出することです。これは、「専門用語は
造語が多い」⇒「複合語である」⇒「文字数が多くなる」という事実を
利用しています。
☆次回予告
最後に(1)の性質を利用した専門用語の抽出方法を紹介したいところですが、
少しテクニカルなので次回のメルマガで引き続き紹介したいと思います。
それでは、次回、専門用語抽出応用編をご期待ください。
今回の分析手法につきましても詳細ご希望の方はサポートまでお気軽に
ご連絡ください。
サポート:vmstudio-support@ml.msi.co.jp
(数理システム データマイニング部 研究員 岩永二郎)
---------------------------------------------------------------
☆営業部からのお知らせ☆
---------------------------------------------------------------
■5/8~10 第18回データウェアハウス&CRM EXPO出展
http://www.dwh-crm.jp/
■5/24 ユーザー様向けTMSスキルアップセミナー
http://www.msi.co.jp/tmstudio/seminarSkillup.html
■5/16~17 日本計算機統計学会大会出展
テキストマイニングスタディグループでの口頭発表に参加
http://jscs.jp/taikai/27/program.html
■6/17 第五回テキストマイニングスタディグループ研究会開催
http://www.msi.co.jp/tmstudio/5th_tm_study_group.html
(どなたでもご参加可能です。)
---------------------------------------------------------------
■その他
---------------------------------------------------------------
■4/24 (水)「文系マーケターのためのマーケティング・リサーチ」セミナー
詳細:http://event.shoeisha.jp/detail/11/research
4/22 (月) 17:00申込締切!
翔泳社主催の当セミナーにて講演を行います。
当日は、その他にもマーケティングのプロ達による講演もあります。
ご質問等がございましたら御気軽にご相談ください。
ご連絡先Eメール:vmstudio-info@msi.co.jp
今後とも何卒よろしくお願い致します。
(TMS営業担当 湯淺 麻紀子)