So-net無料ブログ作成
検索選択

カイ二乗検定

 東京都知事選の話である.

 歴代の当選者の区ごとの得票は,グラフに描くとみごとに有権者数と比例しているように見えるけれど,厳密には結構バラツイている.有権者数ではなく,区ごとの前回の得票数となら,比例の度合いはもっと大きい.しかし厳密には「比例」とまでは言えない.このことは,たとえば「比率の差」ないし「独立性」に関する「カイ二乗検定」で調べることができる.こういう手法に馴染みのない人のために,いちおう基本的なところを説明しておこう.

 カイ二乗の計算は,観察値(実際の例数)から理論値(予想される例数)を引き算するという操作が中心となる.引き算の結果を二乗して,理論値で割り算をする.つまり,
(観察値-理論値)^2 /理論値     ・・・ (A)
という計算をして,その結果を足し合わせる. なお ^2 は「二乗する」という意味.
カイ二乗の適用.jpg
 右表のような例を考えてみよう.数を数えたデータが2×2,つまり4通りに仕分けされている.それぞれa, b, c, d としよう.これらは通常は整数である.表のヨコの和,タテの和を,それぞれS, T, U, V とする.S = a + b, V = b + d などの関係がある.全合計は,N = a + b + c + d である.

 観察値 a, b, c, d のそれぞれに対し,予想される確率 p, q, r, s を考える.ヨコまたはタテの和をそれぞれF, G, H, K とすると,F = p + q,  K = q + s などの関係がある.確率の全合計は1である.すると,a に対する予想値(理論値)は pN, b に対する理論値は qN, 等となる.

 ということで,上記 (A) の式を作って足し合わせる.
(カイ二乗の値) = (a – pN)^2/pN + (b-qN)^2/qN
    + (c – rN)^2/rN + (d – sN)^2/sN    ・・・ (B)

 もし表の2つの属性,つまりタテ系列とヨコ系列が「独立」ならば,
p = FH     ・・・  (S/N)・(U/N)
q = FK     ・・・  (S/N)・(V/N)
r = GH     ・・・  (T/N)・(U/N)
s = GK     ・・・  (T/N)・(V/N)
の筈である.Fを観察値 S/N で,HをU/Nで「推定」するならば, ・・・ の右側に書いたような形となる.なお「独立」とは,「比例している」とほぼ同義と考えて良い.

 話をもとへ.そこで, p = (S/N)・(U/N) 等と置けば,(B) 式の pN は,
pN = SU/N
となる.q以下についても同様で,それぞれ,
pN = SV/N
rN = TU/N
sN = TV/N
として(B)式を計算すれば良い.
実例のプレビュー.jpg
 都知事選のデータは,たとえば右表のようになっている.2×2ではなくて,2×23 である.表はクリックすると拡大表示されます.
 H26舛添とH24猪瀬の得票数は比例している,と言えるだろうか.上記のように計算すると,カイ二乗値 = 919となる.カイ二乗の自由度(degrees of freedom, df)は,2×2の表なら自由度 = 1であるが,この場合は2×23なので 自由度 = 22である.

 下に示すカイ二乗の値とP(確率)の関係から,自由度22の場合,理論に合っている(比例している)と言えなくもない限界値は40ぐらい(確率P = 0.01)だろうか.この例では919というような大きな数値であるから,「比例している」とはとても言えない.


補足
 福島での甲状腺がんの発症数が,偶然では説明できないほど多い,という指摘があった.これは,室井佑月「何を言っても『風評』と言われるのがオチ」〈週刊朝日〉週刊朝日 2014年6月6日号,へのコメントらしい.
http://sun.ap.teacup.com/souun/14307.html#comment
カイ二乗値のプレビュー.jpg
 このコメントは,次のように論理を組み立てている.
1. まず年間のガン発症率pを仮定する.そこから調査期間(1079日)の間のガン発症率qを計算する.
2. 観察された陽性率 50人/287056人が,qにどれほど合致しているかを,カイ二乗検定で評価する.
 福島の場合,非常識なほど高いp を仮定しない限り,観察された陽性率は説明できない,というのが投稿者の結論である.

 都知事選のデータでは,2回の選挙の(または2人の候補の)区ごとの得票数が,同じ比率になっているかどうかを検定した.それに対し甲状腺がんの例は,観察された比率が,理論的に予想される比率と合致しているかどうかを調べている.この場合も,カイ二乗の計算式は,
観測値 – 理論値)^2 / 理論値    ・・・ (A)
を足し合わせたものだ.つまり対象を,「ガンを発症した人」と「発症しなかった人」に区分して,それぞれ (A) を計算してから,両者を足し合わせている.この場合,カイ二乗の「自由度」は1である.

 以上,参考にしてください.
メッセージを送る