トップ > ビッグデータとは

ビッグデータとは

長年データベースに蓄積されたデータを始め、ブログ、ツイッター、SNS等Webからの情報など、業務のIT化の進展に伴い、システムに流入するデータ量は爆発的に増加しています。ギガバイト、テラバイトというオーダーのデータは現在では珍しいものではなくなりました。

交通モニタリング ビッグデータとなり得るデータとしては、次のようなデータがあります。顧客行動履歴やWebビジネス、遠隔医療カメラからの情報、交通モニタリングデータ、金融オンライン取引、人間行動生態分析、遺伝と健康などなど、様々な局面でビッグデータが生まれています。
これらの大量データに埋もれている潜在価値に気付き、積極的に活用し、自社の競争力強化に役立てる企業も増えてきました。大量データを有効活用し、重要な情報を得るための最有力手段として、データマイニング技術は必要不可欠な存在になっています。 金融取引

ビッグデータを分析する理由

大規模なデータを処理する場合に、全データをそのまま使用するのは困難です。このため、従来はランダムサンプリングなどを行い、統計的に全体の傾向の推定などを行っていました。

しかし、昨今では Amazon などの成功により、たくさん売れる商品だけでなく、少ししか売れない商品も意識することによって売り上げや収益を高める、ロングテール効果が注目を浴びています。この考え方は製品販売、広告配信、顧客管理など広い分野で採用されています。

マジョリティデータに加えて、ランダムサンプリングをすれば漏れてしまうようなマイノリティデータも含めて分析を行うことで、今までの分析よりもさらに効果を高めることができます。全体の傾向だけでなく、マイノリティの情報も失わないような分析が行えることが求められるようになっています。

ビッグデータの分析方法

ビッグデータ対応マイニングアルゴリズム

数式

従来のデータマイニング手法では、全データを一度に使用してモデルを作成するため、データサイズが大きくなった場合には、莫大なメモリと時間が必要となり、現実的には計算不可能でした。ビッグデータに対処するには、データサイズに対して線形オーダーの速度、データサイズに依存しないメモリで動作するアルゴリズムが必要です。このような性質を持つデータマイニングアルゴリズムは現在最もアクティブな研究領域となっており、例えばその一つの成果として確率的勾配降下法を使用したオンラインマイニングアルゴリズムが挙げられます。

オンラインマイニングアルゴリズムとは、少量のデータを逐次的に読み込み、モデルの更新を繰り返すデータマイニング手法です。オンラインマイニングアルゴリズムでは、一回一回の処理に使用するデータは少量で済むため、必要となるメモリはデータサイズに依存せず非常に小さくて済みます。また、一回一回の処理時間は一定ですので、計算時間はデータサイズの線形オーダーとなります。このため、ビッグデータとの相性が非常に良く、大規模なデータの分析でも現実的な時間で処理を終えることが可能となります。

NTTデータ数理システムの Big Data Module にはこれら最先端技術の実装が含まれます。

分散処理

分散処理 ペタバイトクラスのデータになると、ディスク装置の応答速度の制約から1台のマシンでの取り扱いは現実的ではなく、例えばマシンクラスタによる分散処理が必要となります。Hadoop に代表される大規模分散処理基盤が普及してきた昨今、大規模分散処理は急速に身近なものとなっています。

Big Data Module

ビッグデータの分析を行う場合には、ファイルの読み書き、単純な集計だけでも非常に時間がかかります。高度な分析を行おうとする場合、適切な処理を行わないと、高性能なマシンを使用しても処理に何年もかかってしまうかもしれません。

Big Data Module では、オンラインマイニングアルゴリズムなどの最先端アルゴリズム、並列処理によるデータ処理など、ビッグデータの分析のための機能がアイコンとして用意されています。また、Hadoopとの連携にも近日中に対応する予定です。プログラミングやビッグデータの処理に詳しくない方でも、GUI上の簡単な操作で分析フローを作成するだけで、ビッグデータの分析を実行できます。