\(\chi^2\)分布の応用として、以下の2つの検定についてまとめます。
- 応用1:適合度の検定
- 応用2:独立性の検定
そもそも\(\chi^2\)分布ってどういう分布?
応用の前に、そもそも\(\chi^2\)分布ってどういう分布?
応用1 :適合度の検定
適合度の検定とは、観測されたデータがある確率分布に従っているかどうかを判断する検定です。
母集団が互いに背反な\(k\)個の事象\(A_1, A_2, …, A_k\)で表される場合、各事象の発生比率(母比率)\(P(A_1), P(A_2), …, P(A_k)\)が、それぞれ\(p_1, p_2, …, p_k\)であると見なして良いかを検定します。
帰無仮説 \( H_0 : P(A_i) = p_i (i = 1, 2, …, k)\) 対立仮説 \(H_1 :\) ある\(i\)について\(P(A_i) \ne p_i\)
この母集団から\(n\)個のデータを抽出したとき、実際のデータの観測度数が\(X_i (i = 1, 2, … ,k)\)だったとします。これに対し、帰無仮説\(H_0\)のもとでは、期待度数は\(np_k\)になります(\(np_k = E_k\)とおきます)。
事象 | \(A_1\) | \(A_2\) | … | \(A_k\) | 計 |
---|---|---|---|---|---|
観測度数 | \(X_1\) | \(X_2\) | … | \(X_k\) | \(n\) |
比率 | \(p_1\) | \(p_2\) | … | \(p_k\) | 1 |
期待度数 | \(np_1(=E_1)\) | \(np_2(=E_2)\) | … | \(np_k(=E_k)\) | \(n\) |
このとき、 $$ \begin{eqnarray} T &=&\sum_{i = 1}^k \frac{(X_i-np_i)^2}{np_i} \\ &=&\sum_{i = 1}^k \frac{(X_i-E_i)^2}{E_i} \end{eqnarray} $$
を考えると、\(n\)が十分大きければ(すべての\(i\)に対して、\(np_i>5\)程度)、\(T\)は自由度\(k-1\)の\(\chi^2\)分布に従います。この性質を利用して検定を行います。
もし、期待度数\(E_i\)に対して、観測度数\(X_i\)がずれてくると\(T\)の値は大きくなるので、有意水準\(\alpha\)(=信頼水準\(1-\alpha\))に対して\(T > \chi_{k-1}^2(\alpha)\)であれば帰無仮説\(H_0\)を棄却するものとして検定を行うことができます。
応用2 :独立性の検定
独立性の検定とは、2つの属性\(A,B\)を持つ事象に対し、その観測においてこの2属性に関連性があるかどうかを判断する検定です。
2つの属性\(A,B\)があり、属性\(A\)に対して\(a\)個のカテゴリ、属性\(B\)に対して\(b\)個のカテゴリに分類した分割表を考えます。\(A=A_i,B=B_j\)となる観測回数を\(X_{ij}\)回とすると以下のように書けます。
\(B_1\) | \(B_2\) | … | \(B_b\) | 行の和 | |
---|---|---|---|---|---|
\(A_1\) | \(X_{11}\) | \(X_{12}\) | … | \(X_{1b}\) | \(X_{A_1}\) |
\(A_2\) | \(X_{21}\) | \(X_{22}\) | … | \(X_{2b}\) | \(X_{A_2}\) |
… | … | … | … | … | … |
\(A_a\) | \(X_{a1}\) | \(X_{a2}\) | … | \(X_{ab}\) | \(X_{A_a}\) |
列の和 | \(X_{B_1}\) | \(X_{B_2}\) | … | \(X_{B_b}\) | \(n\) |
\(A,B\)が独立という帰無仮説を立てます。
\(H_0 : P(A_i \cap B_j) = P(A_i)P(B_j)\)
\(A_i,B_j\)の発生確率はぞれぞれ\(\frac{X_{A_i}}{n},\frac{X_{B_j}}{n}\)ですので、セル\(A_i,B_j\)の期待度数は\(\frac{X_{A_i}}{n}\frac{X_{B_j}}{n}n=\frac{X_{A_i}X_{B_j}}{n}\)となります(\(=E_{ij}\)とおく)。このとき、以下の\(T\)は自由度\((a-1)(b-1)\)の\(\chi^2\)分布に従います。 $$ T = \sum_{i}^{a}\sum_{j}^{b}\frac{(X_{ij}-E_{ij})^2}{E_{ij}} $$ この性質を利用して検定を行います。もし、期待度数\(E_{ij}\)に対して、観測度数\(X_{ij}\)がずれてくると\(T\)の値は大きくなるので、有意水準\(\alpha\)(=信頼水準\(1-\alpha\))に対して\(T > \chi_{(a-1)(b-1)}^2(\alpha)\)であれば帰無仮説\(H_0\)を棄却するものとして検定を行うことができます。
まとめ
適合度の検定、独立性の検定のいずれも、検定対象となる統計量は以下の形であり、両者の評価で異なるのは、評価に用いる\(\chi^2\)分布の自由度です。
$$ T = \sum\frac{(観測度数-期待度数)^2}{期待度数} $$
両者の評価における自由度は「全事象の確率の合計は1である」とか「事象\(A_i\)の確率は\(B_j\)に関係なく\(A_i\)が関係するものの和である」とかいったことから説明ができるのだと思いますが、いろいろ調べてみましたが、わかりやすい説明を見つけることができませんでした。わかりやすい説明を見つけたら記事を更新します。とりあえず、今回はここまで。