トップ > 機能詳細 > Text Mining Studio 機能

Text Mining Studio 機能

Text Mining Studio ( TMStudio ) は、分析をスムーズに、便利に行えるよう以下の機能を搭載しております。

入力データ設定

テキストおよびそれらに付属する属性が含まれるような CSV ファイル・MS-Excel ファイルに加え、Web 経由の HTML 文書を入力データとしていただくことが可能です。入力データ設定で、分析の対象となるテキストや欠損データの扱いなどをご指定いただけます。また、データの取り込み時に、プレビューといった形でデータの先頭部分をご確認いただけます。

情報保護機能により、人名、地名、電話番号等のマスキング処理も可能です。

Visual Mining Stduio のアドオンとして Text Mining Studio をご利用の場合には、Visual Mining Studio の他のアイコンからデータを受け取ることも可能です。

入力データ 設定画面

入力データ 設定画面

Web取り込み画面

入力データ 設定画面

分かち書き

テキストを分析するために、まずテキストを単語へと分割します。この過程を分かち書きと呼びますが、Text Mining Studio では、単純に単語単位へと分かち書きするだけでなく、テキスト中のことば同士の修飾関係を抽出するための構文解析もあわせて行います。また、ユーザ辞書への登録の手間を大きく軽減する、文節単位への分かち書きを行う自動連結機能を搭載しています。

分かち書き 設定画面

辞書

分かち書きの精度を高めるための、3 種類の辞書を搭載しています。

ユーザ辞書

未知語を登録することによって分かち書きの精度を向上させます

分割辞書

自動連結の連結具合をコントロールすることができます

類義語辞書

同じ語として扱いたいことばを登録します

類義語抽出

大小文字・数値表現の合わせ込みなどの表記揺れを解消し、更にことばの使われ方の類似を見ることによって類義語を自動抽出します。

属性加工

既存の属性から新たな属性を作り出します。

年齢をもとにして新たな 「年代」 という属性を作成したり、また生年月日から 「星座」 を作成するなど、属性のグルーピングが可能です。

新規に属性を追加するための規則は、Text Mining Studio が元々保持しているものに加えて、ユーザが自由に作成することができます。

フィルタリングとグルーピング

分かち書き結果を、含まれることばや属性でフィルタリングすることにより、対象を絞った分析を行うことができます。

また、グルーピング分析で作成したグルーピング辞書をフィルタリングの実行時にあわせて用いることで、単語や係り受け関係をグループ化した新しい分かち書き結果を生成できるようになりました。これにより、グループ化したことばを用いて他の分析を行なうことが可能となります。

原文参照

分析結果から、マウス操作で即座に原文を検索できます。単一のことばによる検索だけではなく、係り受け関係を指定しての原文の参照や、否定や肯定などのニュアンスの指定など、厳密な検索が可能です。

原文参照 画面

テキスト編集

表記の揺らぎや記述ミスなどを一括編集し、分析の精度を高めることができます。また、編集後のテキストを出力することができます。

テキスト編集 画面

プロジェクトの読み込みと保存

分析に用いたパラメーターや結果をそのまま保存し、次回の起動時に同じ状態を再現することができます。

結果出力と印刷

分析結果の表およびグラフを印刷します。表は CSV ファイルとして出力することができます。

レポート出力

レポート出力の対象とする分析結果を選択し、コメントを書き込むだけで、Web ブラウザで閲覧可能な html 形式のレポートが出力されます。分析時のパラメーターも自動的に出力され、分析結果に対応するテキストの原文もレポート上で参照することができます。

カテゴリデータ生成

ことばネットワーク・グルーピング・文章分類の分析結果から、意味的なまとまりとなるグループを自動的に作成し、その結果を元にカテゴリデータを生成します。グループ生成のためのルールや、カテゴリ化の結果は自由に修正することができます。

カテゴリデータ作成ツール 画面

ウィンドウレイアウト

各機能に対応した画面上のパネルは自由にレイアウトが可能です。お好みの位置に配置してお使いいただけます。

バッチ実行

プロジェクト作成時と同一フォーマットの違うデータを指定し、バッ チ実行することで、指定したデータでの各種分析結果の出力、レポー トの作成などをコマンドライン操作から行うことができます。