11. アンケートによる時系列データの前処理

藤宮

はじめに

データには様々な種類があります。私どもも計測装置や実験で得られたデータが中心なのですが、ときどきアンケートで回収されたデータを対象に解析を行うこともあります。アンケートのデータは回収率に依存して数値が小さくなります。そういう意味で、通常の実験データと質的な違いがあります。アンケートが毎年行われていて、時系列データとして扱われる場合の前処理に関する話題です。

回収率で補正

一般的に計測されたデータであれば、真値の周りにガウス分布のノイズが重畳されたモデルを想定して解析を行います。しかし、アンケートのデータは明らかにガウス分布ではありません。得られているデータよりも必ず大きい側に真値が存在します。普通の回帰直線などを利用してしまうと、明らかに小さめに評価してしまうことになります。

今回「時系列データ」と限定しているのは、経時的な変化が見やすいため、これから申し上げる補正の効果が見極めやすいためです。他のデータなどでも同様な効果が期待できる可能性はあるのですが、経験的な目で見たときに正しいと思われる補正かどうか、長年継続してきているものでないと判断がつかないというのが正直なところです。そういうことで適用にあたっては、十分に注意が必要です。

集められているデータ数が多い場合MCAR (完全にランダムな欠測:Missing Completely At Random)の仮定が成り立つことがあります。その場合は非常に単純で、単に回収率で割り算して100%集まったとした場合の値を推定するだけです。こういった処理を試すかどうかは、まず、アンケート回収率のグラフと集計されたグラフを並べて書いて見ることです。

同じ所で凹んでいたり、出ていたりすれば、試すべきです。処理が単純ですので「論より証拠」とにかく一度試して見るということでも良いでしょう。補正したほうがひどく揺れてしまうようでしたら、あきらめて、そのデータをそのまま使うようにしましょう。その場合はMCARではなかったということになります。

もっと凝った話を持ち出すなら、アンケート先の機関の規模や集計データに多少関係すると思われるデータも同時に集計されている場合、例えば、患者数をアンケートで答えてもらっているが、その病床数や医師、看護師の数など、病院の規模に関係するデータなどが存在する場合、その補助的なデータを利用して、回答のあった機関のデータからの患者数を予測する回帰分析を行います。

その係数を利用し、非回答の機関の補助情報を入力して患者数を推定し、アンケート集計結果に加算するといった方法も試す価値はあります。この方法であれば、上記の回収率が集計データに一見無関係に見えても補正できる可能性があります。

もちろん、回帰分析用の各説明変数間にはかなり強い相関がある可能性が高いと思います。多重共線性が心配なので、実際の作業は、PLS(Partial Least Squares)回帰分析などを使ったほうが良いです。精度をなんとか上げてみたいとき、試してみてはいかがでしょうか。