1. はじめに「データをよく見る」

伊藤(医療情報技師)

『はじめに』

統計処理の基本は、なんといっても「得られたデータの分布を目で良く見ること」です。数学的なことはもちろん大事ですが、意外なトラブルも存在しています。以下にこの段階でのポイントを紹介します。

 

『何を見るのか?』

~データの乱れを見る~
これまでに、処理したデータでは、分布から大きく外れているた値(外れ値)はもちろん、データの中には、数値やスペースの一部に「全角文字」表現が混入するといった様々なケースを経験しております。こういった経験を下記に挙げてみます。

1. 文字コード
「海外で開発された無償のツールを使用して処理したが、上手く結果がでないので、サポートして欲しい」といった協力依頼をいただいたことがあります。確認したところ、そのツールは、2バイトコードに対する処理が不十分で、思わぬエラーを発生したり、最悪の場合は、エラーを表示せず誤った結果が出てしまっていることもありました。 スペース空白文字が全角文字で入っていたり、数字も全角文字が入っていたりすると見逃してしまうことがあります。事前にこういったデータの文字コードのチェックが必要です。

2. 複数機関からのデータを扱う場合
複数の機関からのデータを扱う場合、データの計測方法、表現方法などに関して注意が必要です。当たり前のことなのですが、男女のコード形式が異なるといった表現の違いは、いったん変換してしまった後では、なかなか気づくことができません。一回限りの統計処理であっても、オリジナルデータの表現方法は一つひとつデータ収集担当の方に確認し、データ変換などを行う場合は、必ず履歴の管理が必要です。

3. 欠測値の分布
得られているデータはできるだけ活かしたいです。もちろんきれいに埋まっているデータが十分にあれば、それらを抜き出して利用するだけで良いかもしれません。しかし、検体数がある程度限られている場合は、多少の項目に欠測値があっても、他の項目のデータが揃っている範囲で、有効に利用したいこともあります。また、欠測値の発生に偏りがあると、集団全体に偏りが生じることもあります。これらその場合は、欠測値の分布をよく目で確認してから、それらの補完処理が可能か、問題がでないかどうかを見つつ、欠測値補完処理を行います。

4. 時系列データのサンプリング時期のズレ
病院でなどでの受診したデータの場合、スケジュールの関係で受診できる日が平日です。すると全部の患者さんが、例えば「手術後○日目のデータ」のように患者さんすべてをといった感じで、揃えることができません。そういった場合は、前後のデータの動きを参照しながらリーズナブルに補間し、基準日からの日数を揃えたいこともあります。特に薬効などの定量的な評価や、急性の疾患が発生してから数日の生化学データの挙動解析化などの場合、こういった処理は、欠かせません。そういった場合は、ある程度統計的な意味で滑らかに結び、統一したタイミングでのデータに補間し直して結果を見る場合があります。

 

『ヒストグラムを見る』

1. 想定外の外れ値がないか
外れ値処理に関しては、いくつかの方法が提案されています。それらの基準を使って必要に応じて取り除く処理を行います。明らかな入力エラーと分かれば、違和感なく除外できますが、どれだけ妥当な理由があるかを意識しながら進めなければなりません。過去に、たとえば、体重と身長の入力欄を間違えて逆に入力したと思われるような例もありました。人間が入力している以上、こういったミスがどうしても避けられません。複数年度のデータから明らかに身長と体重が特定の年度だけ入れ替わっているような場合はデータを入れ替えることができます。しかし、一度限りのデータではそういった事実を確認できないため、除外せざるを得ない場合もあります。また、過去にあった事例ですが、医師が直接水銀柱血圧計で読み取ったデータを扱う場合、そのデータの分布は明らかに区切り数字(120とか135とか切りの良い数字のところ)にスパイク状に集中する分布を示します。血圧測定の自動化が進んでいるとはいえ、装置の癖などもありますので、そういった計測方法や機器の統一(またはそれらの情報収集)も重要となります。

2. 分布が2つ以上に割れていないか
健康医療を含む各種計測データなどでは、標準化された計測方法が変わって分布が途中から変わっていることなどもあります。そういった場合は、最新のものだけを対象にするか、それとも、それぞれ適切な層別化を行った上で、後続の処理を行なうことになります。論文に記載するうえで、その項目をどのように表現して記載するかなどに関係してきます。

3. 分布が偏っていないか
単峰性の分布であっても、分布の右側の裾野と左側の裾野の尾の引き方が異なるような場合は、分布に一定の補正をかけた方が良い結果を得ることができる場合があります。

 

『変数間の相関を見る』

最後に、総当たりで各変数間の相関を確認します。相関の強さは、予測するためにかならず必要な条件ですが、別に説明するように強すぎるものが複数存在し、それらを説明変数に加えてしまうと多重共線性などの問題となることがあります。そういった予備情報をこの段階で収集します。さらに必要に応じて時間的な挙動の時間差などを確認しておくことも有効な場合があります。

 

『フリーソフト使用時の注意』

最近は多数のフリーソフトウェアが利用可能となってきました。これらを用いる場合は、十分実績があることを利用者の情報などから確認するか、または、2つ以上のツールを用いて問題ないことを確認すると安心です。計算の順番がちょっと異なるだけで微妙に結果は異なるものです。あるソフトでは収束するものが、別のソフトでは収束しないなどの違いもあります。新しいツールでは、論文に投稿する場合、複数のツールの結果を用いて評価しておくと安心です。