カイ二乗検定

統計的仮説検定を行う際に、カイ二乗(χ2)値とχ2分布を用いて2変数間の独立・適合度を検定する方法です。 クロス分割表の関連性の検定,比率の差の検定、分布の適合性の検定などを行う際に使用します。 クロス分割表に入る期待値が5以下のものがある場合にはχ2検定を用いるのは不適当になるため、他の方法を適用します。

χ2値算出法】
O:観測値
E:期待値
χ2 = Σ{(O-E)2/E}

 

〔例〕
血液型と疾患Aの間の関連性検定

   疾患A 健常者 合計
A型 16 36 52
B型 12 16 28
O型 25 26 51
AB型 11 4 15
合計 64 82 146

帰無仮説 H0:「疾患と血液型は独立である(関連がない)」
対立仮説 H1:「疾患と血液型は独立ではない(関連がある)」

統計的仮説検定の基本は「ある仮定のもとで起こりにくいことが起きたときは、その仮定を棄てる」なので、否定したい仮説をH0としてこの仮説下で「起こりにくいことが起きる」ことを示します。


分割表の各セルの値をNij(i=列、j=行)、期待値を Eij (i=列、j=行)で表すと周辺度数より
          Eij = (Ni total × Ntotal j) / Ntotal total

の式にて各セルの期待値が計算され、
          χ2値 = Σ{(Oij – Eij)2/Eij}

の式にてχ2値が計算されます。
分割表の自由度は F = (行のセル数-1)×(列のセル数-1)
にて計算されます。

上の例題では,χ2値≒9.47489となります。
このχ2値は自由度が3のχ2分布に従います。

自由度3のχ2分布において有意確率0.05を取る値 = 7.8147です。 これより χ2値(=9.4749) > 7.8147 なので、「起こりにくいことが起きた」 として、帰無仮説 棄却します。 上記の場合の正確な有意確率:p-value = 0.0236004になります。

χ2値 < 7.8147 のとき,帰無仮説 を採択することになるので
「2 変数は独立でないとはいえない(関連があるとはいえない)」

χ2値 > 7.8147 のとき,帰無仮説 を棄却することになるので
「2 変数は独立ではない(関連がある)」

よってこの場合、「血液型と疾患の間に有意な関連がある」という結論に至ります。 有意確率は慣例的に0.05(95%の確率)もしくは0.01(99%の確率)を使用します。