時間的なブレを持つデータの取扱い
榎本 Ph.D
はじめに
今回は時系列データの取扱いに関する話題です。生物系の計測では、我々が制御可能な因子が限られていることなどから、得られるデータのピーク位置が前後にブレるなど時間的な変動を伴うことが多いです。そういったデータを単純に平均化処理をしてしまうと、本当のシグナルが消えてしまうことがあります。
今回は、こういったブレを伴う時系列データの取扱いついて説明します。また第2回では、測定回数が限られている場合や不定期である場合のデータ補間について説明します。
必要な計測間隔はどれだけか?
データを測定し、その時系列データの動きのすべて把握するためには、サンプリング定理(標本化定理)を満足する必要があります。サンプリング定理では、シグナルが持っている最大周波数成分の2倍のレート(これをナイキストレートという)で計測しなければならないことを示しています。
しかし、医療データなどでは、必ずしもこの条件を満足することができません。もし、血糖値の動きを厳密に計測しようとしたら、食事のたびに変化しますから、食事間隔の数分の一の時間間隔で計測しなければならないことになります。
ナイキストレートを満足しない計測では、エイリアスと呼ばれる別の周波数成分が擬似的に発生し、現信号の変化を正しく捉えることはできません。現実にはこういったキチンとした計測は難しいため、例えば健康診断であれば、「空腹状態」という基準状態を作って採血することで、日内変動による悪影響を避けるように工夫されているわけです。
どうしてもそういった基準を作ることができなければ、多数回計測して、できる範囲で確率モデルを用いて推定することになりますが、なかなか難しい処理を要求されます。人に限りませんが、マウスなどではさらに採血できる回数が限られていますし、こういった測定では、測定状態の基準作りに大変気を使うことになるわけです。
再現性と加算平均処理について
次に時系列データの再現性についての話です。一般には再現性というと、測定エラーとして原信号に加算されるノイズを想定します。原信号自体は一つであると想定しているわけです。しかし、生き物を相手にしている場合、原信号自体の時間的なブレも考慮する必要があります。
たとえば、図1のように、3回測定した結果が得られたとします。この図は、Rのスクリプトで模擬的に生成したもので、正規分布状の波形が毎回時間的に揺らいでいて、その信号にノイズが載っている状態です。生物から得られるデータではこういった原信号自体の時間的なゆらぎが存在し、さらに計測ノイズが重畳されたものとして得られます。
理想的な繰り返し実験であれば、本来同じ位置に同じ正規分布の波形が重なるはずです。しかし残念ながらこういった時間的なブレによる再現性の違いが生じてしまった場合は、まず実験的な原因を調べ(計測時間の誤差や試薬のlot等)、原因の補正を試みます。実験的な補正はどうしても難しいが、時間的なブレ以外の結果は妥当であると判断される場合は、データ処理を検討する必要があります。
図1 時間的なズレを伴うデータ
原信号に時間的なゆらぎがない場合、つまり計測ノイズのみが重畳されているだけでしたら加算平均をとれば、問題なくノイズが加算回数の√Nだけ減少していきます。これは原信号がゆらぎなく再現していれば、その振幅がN倍に加算されるのに対して、ノイズはエネルギー加算になり、ノイズの振幅としては√N倍にしかならないことによります。相対的に√Nだけ改善されるわけです。
図1の原信号にゆらぎが含まれている場合の単純な加算平均の例を図2に示します。
図2 時間的ゆらぎを持つ3つの時系列信号の加算平均結果
0付近のデータはノイズが減っています(わずか3回でも√3=1.732ぐらいSN比(信号対雑音比)が改善されています)。しかし、注目しているx=4~8ピークの部分はとても原信号とは思えないような状況です。シグナルの時間的ブレのため、振幅加算にならず、ノイズと同様にピークの高さが減少しながら形そのものも変形してしまっています。この場合は、明らかに単純な加算平均は行なうべきではありません。ケースバイケースですが、1回ごとの信号をそのまま使用して後続の解析したほうが、良い結果が得られることも多いです。
データの点数が十分にあれば、自己回帰モデルなどを適用してノイズを減らして処理する方法があります。ただ、十分な測定点数がない場合には、原信号のもっている統計的な性質と計測ノイズのもっている統計的な性質が異なることを利用し、条件付自己回帰モデルを適用して、なめらかに推定する方法があります。この方法では、次回説明する測定点の補間なども同時に行うことができます。
前記のグラフよりももっとノイズレベルが高く、どうしても加算平均で減らしたい場合は、ズレが(1)時間軸方向に単純にずれているのか、または(2)時間軸方向にスケールが伸縮しているのかを見極めて処理して解析を進める必要があります。
時間軸方向のオフセットとスケールファクタを変えながら、残差が最小になるように決定した上で、加算平均を行なうことになります。さらに局所的にズレが有るような非線形な状態が想定される場合には動的計画法を利用し、一定の制限を与えて局所的にずらしながら全体の誤差が最小になるようにマッチングして加算するという方法も適用するのも一案です。
「時系列データ処理の勘所:その2」では、不定期に計測されたデータの補間について紹介したいと思います。