生体データ分析のためのデータ分析技術や事例についてご紹介します。
生体データの活用
生体データとはヒトやその他の動物の身体から取得できるデータ全般を指します。代表例としては筋電や心電、脳波などの時系列データや血中成分などが挙げられます。昨今ウェアラブル生体センサーの開発が進んでおり、新しく取得できるようになった生体データを活用して、健康リスクの検出、アスリートのパフォーマンス向上、ストレスチェックなど、様々な用途で利用するための研究がおこなわれています。
当社では、生体データの利活用のために、機械学習や統計解析などの技術を用いて、分析・システム構築のご支援を行っています。
生体データ活用のためのデータ分析
ノイズ除去
生体データの大きな特徴に計測時のランダム誤差や系統誤差が挙げられます。例えば心電の計測中に被験者が身動きをすれば計測機器のズレによってノイズが発生したり、体勢の変化や呼吸によって正常心電図の形状自体が体勢や呼吸の状態を反映したものに変化したりします。そのためデータの前処理としてのノイズ除去手法を確立することや、呼吸を含むちょっとした動作では分析結果に大きな影響を与えないロバストな分析手法が求められます。
計測機器のズレなどによるノイズを除去する最も一般的な手法はフィルタリングです。フィルタの種類は様々で、平均二乗誤差を最小化するウィナーフィルタやカルマンフィルタ、高周波成分/低周波成分/一部の周波数帯の成分のみを利用するハイパス/ローパス/バンドパスフィルタなどがあります。そのほか単純な移動窓平均による平滑化や、特異スペクトル変換法を用いた(周波数とは限らない)成分ごとの分解など、目的やデータの性質に応じてこちらも多様な手法が存在しています。
ノイズ除去そのものが何かしらの知見を教えてくれるわけではありませんので地味ではありますが、その後の分析の精度を向上させるために大切な工程です。ノイズを含む計測したままの生データは一般に扱いづらいものですが、そのようなデータに対する可視化や分析についても当社には豊富な取り組み事例があります。
個体差を考慮した分析
生体データは個体差が大きいことも主要な特徴の一つです。工場で可能な限り均質化して生産される製品とは異なり、ヒトの身体は個体差が大きいことが普通です。しかし、例えばヘルスケアに応用する場合に、モデル作成時の被験者になってくれたある人の健康状態は診断できるが別の人の診断はできません、では困ります。個体差になるべく影響されない手法が求められる、というのが生体データ分析の難しさです。一般的な時系列データ分析の手法に加えて、データの背後にある生理学や医学の知見をもとにした理論的な裏付けのある特徴量を算出して分析に用いる、などの工夫によって、よりお客様の役に立つ知見をデータから抽出することを目指しています。
機械学習モデルなどを用いた時系列データ解析
当社では分析目的や種類の異なる様々な時系列データに関する分析を手掛けてきました。時系列データからトレンド情報や周期性などを抽出する基本的な分析のほか、時系列A, B, Cの過去のデータから同じA, B, Cの将来の挙動を推定したり、別の時系列Dの現在の値を推定する 時系列予測、病状診断や故障診断の正解ラベル付きの時系列データを学習して未知のデータに対して診断を行う 時系列分類、教師データを与えることなく時系列に病気や故障などの何らかの異常が発生したことを検知する 異常検知 などを実施しています。フーリエ変換などを用いた周波数解析、自己回帰モデルや移動平均モデルといった古典的な手法から、Transformer のような再帰ニューラルネットから発展した最新の深層学習モデルまで、お客様の目的、データ内容、実行環境などに合わせて適切な手法をご提案します。