\chi^2分布の応用として、以下の2つの検定についてまとめます。
- 応用1:適合度の検定
- 応用2:独立性の検定
そもそも\chi^2分布ってどういう分布?
応用の前に、そもそも\chi^2分布ってどういう分布?


応用1 :適合度の検定
適合度の検定とは、観測されたデータがある確率分布に従っているかどうかを判断する検定です。
母集団が互いに背反なk個の事象A_1, A_2, …, A_kで表される場合、各事象の発生比率(母比率)P(A_1), P(A_2), …, P(A_k)が、それぞれp_1, p_2, …, p_kであると見なして良いかを検定します。
帰無仮説 H_0 : P(A_i) = p_i (i = 1, 2, …, k) 対立仮説 H_1 : あるiについてP(A_i) \ne p_i
この母集団からn個のデータを抽出したとき、実際のデータの観測度数がX_i (i = 1, 2, … ,k)だったとします。これに対し、帰無仮説H_0のもとでは、期待度数はnp_kになります(np_k = E_kとおきます)。
事象 | A_1 | A_2 | … | A_k | 計 |
---|---|---|---|---|---|
観測度数 | X_1 | X_2 | … | X_k | n |
比率 | p_1 | p_2 | … | p_k | 1 |
期待度数 | np_1(=E_1) | np_2(=E_2) | … | np_k(=E_k) | n |
このとき、 \begin{eqnarray} T &=&\sum_{i = 1}^k \frac{(X_i-np_i)^2}{np_i} \\ &=&\sum_{i = 1}^k \frac{(X_i-E_i)^2}{E_i} \end{eqnarray}
を考えると、nが十分大きければ(すべてのiに対して、np_i>5程度)、Tは自由度k-1の\chi^2分布に従います。この性質を利用して検定を行います。
もし、期待度数E_iに対して、観測度数X_iがずれてくるとTの値は大きくなるので、有意水準\alpha(=信頼水準1-\alpha)に対してT > \chi_{k-1}^2(\alpha)であれば帰無仮説H_0を棄却するものとして検定を行うことができます。
応用2 :独立性の検定
独立性の検定とは、2つの属性A,Bを持つ事象に対し、その観測においてこの2属性に関連性があるかどうかを判断する検定です。
2つの属性A,Bがあり、属性Aに対してa個のカテゴリ、属性Bに対してb個のカテゴリに分類した分割表を考えます。A=A_i,B=B_jとなる観測回数をX_{ij}回とすると以下のように書けます。
B_1 | B_2 | … | B_b | 行の和 | |
---|---|---|---|---|---|
A_1 | X_{11} | X_{12} | … | X_{1b} | X_{A_1} |
A_2 | X_{21} | X_{22} | … | X_{2b} | X_{A_2} |
… | … | … | … | … | … |
A_a | X_{a1} | X_{a2} | … | X_{ab} | X_{A_a} |
列の和 | X_{B_1} | X_{B_2} | … | X_{B_b} | n |
A,Bが独立という帰無仮説を立てます。
H_0 : P(A_i \cap B_j) = P(A_i)P(B_j)
A_i,B_jの発生確率はぞれぞれ\frac{X_{A_i}}{n},\frac{X_{B_j}}{n}ですので、セルA_i,B_jの期待度数は\frac{X_{A_i}}{n}\frac{X_{B_j}}{n}n=\frac{X_{A_i}X_{B_j}}{n}となります(=E_{ij}とおく)。このとき、以下のTは自由度(a-1)(b-1)の\chi^2分布に従います。 T = \sum_{i}^{a}\sum_{j}^{b}\frac{(X_{ij}-E_{ij})^2}{E_{ij}} この性質を利用して検定を行います。もし、期待度数E_{ij}に対して、観測度数X_{ij}がずれてくるとTの値は大きくなるので、有意水準\alpha(=信頼水準1-\alpha)に対してT > \chi_{(a-1)(b-1)}^2(\alpha)であれば帰無仮説H_0を棄却するものとして検定を行うことができます。
まとめ
適合度の検定、独立性の検定のいずれも、検定対象となる統計量は以下の形であり、両者の評価で異なるのは、評価に用いる\chi^2分布の自由度です。
T = \sum\frac{(観測度数-期待度数)^2}{期待度数}
両者の評価における自由度は「全事象の確率の合計は1である」とか「事象A_iの確率はB_jに関係なくA_iが関係するものの和である」とかいったことから説明ができるのだと思いますが、いろいろ調べてみましたが、わかりやすい説明を見つけることができませんでした。わかりやすい説明を見つけたら記事を更新します。とりあえず、今回はここまで。