Big Data Module 1.1 の新機能をご紹介いたします。
(画像をクリックすると拡大します)
新機能一覧
- Hadoop 連携機能の追加
- BD 行列分解アイコンの追加
- BD KMeans アイコン、BD コアセットアイコンの追加
- BDインポートでShift-JIS以外のエンコードを使用可能に
- BD集計機能で文字列をカウント
- 予測、検証アイコンの結果出力の大規模データ対応
Hadoop 連携機能の追加
Hadoop 連係を行うための、下記のアイコンを追加しました。
- Hadoopテーブル
- Hadoopデータハンドリング
- Hadoopインポート
- Hadoopエクスポート
Hive上のデータに対するデータ操作を、GUIから簡単に実現できます。

BD 行列分解アイコンの追加
レコメンデーション、データ圧縮などに使用可能な、BD行列分解アイコンを追加しました。
オンラインアルゴリズムを実装し、大規模なデータでも、最小限のメモリとデータサイズの線形オーダーの計算時間で分析が実行できます。

BD KMeans アイコン、BD コアセットアイコンの追加
大規模データのクラスタリングを実現可能な、BD KMeans アイコンを追加しました。オンラインアルゴリズムを実装し、大規模なデータでも、最小限のメモリとデータサイズの線形オーダーの計算時間で分析が実行できます。また、BD KMeans アイコンのサンプリング機能を切り離した、BD コアセットアイコンも追加しました。データの特徴を保ったサンプリングを行うことが可能です。

BDインポートでShift-JIS以外のエンコードを使用可能に
BD インポートで Shift-JIS 以外のエンコードのデータがインポート可能になりました。
スクリプト関数、read_file_bd からも、同様に Shift-JIS 以外の文字エンコーディングのデータが使用可能です。

BD 集計アイコンで文字列のカウントを実行可能に
BD 集計アイコンでキー列のみを指定した状態で、処理を実行可能になりました。
キー列のみが指定された場合、キーごとの件数のカウントが実行されます。
これによって、文字列の件数のカウントが実行可能になりました。

予測、検証アイコンの結果出力の大規模データ対応
従来の BD 予測、BD 検証アイコンでは、出力結果が通常の VAP のデータフォーマットで、最大100万件分の結果を出力していました。
これを変更し、出力結果をBDインポートなどと同じフォーマットにし、出力結果の行数制限をなくしました。