ビッグデータ分析ツール Big Data Module 製品紹介

Big Data Module 1.1 の新機能をご紹介いたします。

(画像をクリックすると拡大します)

新機能一覧

Hadoop 連携機能の追加

BD 行列分解アイコンの追加

BD KMeans アイコン、BD コアセットアイコンの追加

BDインポートでShift-JIS以外のエンコードを使用可能に

BD集計機能で文字列をカウント

予測、検証アイコンの結果出力の大規模データ対応

Hadoop 連携機能の追加

Hadoop 連係を行うための、下記のアイコンを追加しました。

Hadoopテーブル
Hadoopデータハンドリング
Hadoopインポート
Hadoopエクスポート

Hive上のデータに対するデータ操作を、GUIから簡単に実現できます。

BD 行列分解アイコンの追加

レコメンデーション、データ圧縮などに使用可能な、BD行列分解アイコンを追加しました。
オンラインアルゴリズムを実装し、大規模なデータでも、最小限のメモリとデータサイズの線形オーダーの計算時間で分析が実行できます。

BD KMeans アイコン、BD コアセットアイコンの追加

大規模データのクラスタリングを実現可能な、BD KMeans アイコンを追加しました。
オンラインアルゴリズムを実装し、大規模なデータでも、最小限のメモリとデータサイズの線形オーダーの計算時間で分析が実行できます。また、BD KMeans アイコンのサンプリング機能を切り離した、BD コアセットアイコンも追加しました。データの特徴を保ったサンプリングを行うことが可能です。

BDインポートでShift-JIS以外のエンコードを使用可能に

BD インポートで Shift-JIS 以外のエンコードのデータがインポート可能になりました。
スクリプト関数、read_file_bd からも、同様に Shift-JIS 以外の文字エンコーディングのデータが使用可能です。

BD 集計アイコンで文字列のカウントを実行可能に

BD 集計アイコンでキー列のみを指定した状態で、処理を実行可能になりました。
キー列のみが指定された場合、キーごとの件数のカウントが実行されます。
これによって、文字列の件数のカウントが実行可能になりました。

予測、検証アイコンの結果出力の大規模データ対応

従来の BD 予測、BD 検証アイコンでは、出力結果が通常の VAP のデータフォーマットで、最大100万件分の結果を出力していました。
これを変更し、出力結果をBDインポートなどと同じフォーマットにし、出力結果の行数制限をなくしました。