クロス分割表の場合のAIC算出方法

AICはより小さい方がモデルとして適性である、と定義されています。
ここでは2×2分割表を例にして、独立モデル(IM)従属モデル(DM)の求め方を説明します。
まず、fig.1のような2×2分割表を定義します。

  B B’
A a b h
A’ c d n-h
k n-k n
(fig.1:a,b,c,d,ek,h,nは実数)

 


■独立モデル(IM)■
以下の条件にて、fig.2のような分割表のモデルを作成します。

    • A群とB群の間に関連が存在しない(事象A群と事象B群は独立)
    • Aである確率= p、A’である確率= 1-p、Bである確率= q、B’である確率 =1-q
    • AとA’、BとB’は排反事象 (p(A)+p(A’)=1、p(B)+p(B’)=1)

モデルを独立と仮定すると、A∩Bの起こる確率はそれぞれの起こる確率を掛け合わせたものになります。
よって以下のようなモデルを考えることが出来、モデルのパラメータ数= 2になります。

 

  B B’
A pq p(1-q) p
A’ (1-p)q (1-p)(1-q) (1-p)
q 1-q 1
(fig.2:p,qは確率)


この独立モデルの確率関数をPi(a,b,c,d)とすると、それぞれのマス目の要素同士が排反事象であるので、このモデルを多項分布に当てはめて以下の確率関数を算出出来ます。

Pi(a,b,c,d) = (n!/a!b!c!d!)×{pqa×p(1-q)b×(1-p)qc×(1-p)(1-q)d}
  = (n!/a!b!c!d!)×{phqk(1-p)n-h(1-q)n-k}


pとqに対する対数尤度を求めると、
対数尤度を取る

        LPi(a,b,c,d) = h log p+k log q+(n-h)log(1-p)+(n-k)log(1-q)

p,qについて偏微分して、最尤推定すると

        p=h/n q=k/n

これをLPi(a,b,c,d)に代入して最大対数尤度を求めると

        MLPi(a,b,c,d) = h log h+k log k+(n-h)log(n-h)+(n-k)log(n-k)-2nlogn

        AIC(IM) = -2×MLPi(a,b,c,d) + 2×2         により計算します。

 


■従属モデル■
以下の条件にて、fig.3のような分割表のモデルを作成します。

    • A群とB群の間に関連が存在する(事象A群と事象B群は独立ではない)
    • Aである確率= p、A’である確率= 1-p、Bである確率= q、B’である確率 =1-q
    • AとA’、BとB’は排反事象 (p(A)+p(A’)=1、p(B)+p(B’)=1)

モデルを従属と仮定すると、A∩Bの起こる確率はp×qではなくなります。従って、p(A∩B) = p11、p(A∩B’) = p12、p(A’∩B) = p21、p(A∩B’) = p22、 とそれぞれの確率を定義します。この時、p11+p12+p21+p22 = 1という条件が存在するので、モデルのパラメータ数= 3になります。

 

  B B’
A p11 p12 p
A’ p21 p22 (1-p)
q 1-q 1
(fig.3:p11,p12,p21,p22は確率。ただし p11+p12+p21+p22= 1)


この従属モデルの確率関数をPd (a,b,c,d)とすると、それぞれのマス目同士は排反事象であることより、このモデルを多項分布に当てはめて、以下の確率関数を算出出来ます。

Pd(a,b,c,d) = (n!/a!b!c!d!)×(p11ap12bp21cp22d)

p11、p12、p21、p22に対する対数尤度を求めると、
対数を取る

        LLd = a log p11+b log p12+c log p21+d log p22

偏微分して最尤推定すると、

        p11 = a/n p12 = b/n p21 = c/n p22 = d/n

これをLPd (a,b,c,d)に代入して最大対数尤度を求めると

        MLLd = a log a+b log b+c log c+d log d-n log n

        AIC(DM) = -2×MLLd + 2×3         により計算します。

 



AICはより小さい方がモデルとして適性である、と定義されているので、IM-DM > 0の場合にこの分割表には従属モデルを採用する、という判断が出来ます。 より適正なモデルが導かれるための基準量を計算していることになります。用いる数値が分割表の実測値のみであるのも利点の一つです。



 

〔例〕
新薬Aと従来薬Bの薬効比較
  治癒 効果無し
新薬A 353 166 519
従来薬B 304 104 408
657 270 927

〔独立モデル:AIC(IM)〕
        MLPi = 519log519 + 657log657 + 408log408 + 270log270 – 2・927log927 = -1195.124
        AIC(IM) = (-2)× (-1195.124) + 2×2 = 2394.25

〔従属モデル:AIC(DM)〕
        MLPd = 353log353 + 166log166 + 304log304 + 104log104 – 927log927 = -1192.775
        AIC(DM) = (-2)×(-1192.775) + 2×3 = 2391.55

AIC(IM) – AIC(DM) = 2394.25 – 2391.55 = 2.7 {AIC(IM) > AIC(DM)}
従って、このデータには従属モデルを当てはめるべきであることが分かり、新薬Aは従来薬Bよりも多少は治癒効果が高いと判断出来ます。