統計学:χ2分布の応用

統計

\(\chi^2\)分布の応用として、以下の2つの検定についてまとめます。

  • 応用1:適合度の検定
  • 応用2:独立性の検定

そもそも\(\chi^2\)分布ってどういう分布?

応用の前に、そもそも\(\chi^2\)分布ってどういう分布?

統計学:χ2乗分布(カイ2乗分布)の特徴
統計を学びたての頃、正規分布は何となくわかり始めた後に出てくるのが、\( \chi^2 \)分布。これ何?どうやって使うの?そもそも何て読むの?ってなりますよね。始めはとっつきにくい\(\chi^2\)分布ですが、統計学ではとても重要な分布...
統計学:χ2乗分布(カイ2乗分布)の意味
統計を学びたての頃、正規分布は何となくわかり始めた後に出てくるのが、\( \chi^2 \)分布。これ何?どうやって使うの?そもそも何て読むの?ってなりますよね。始めはとっつきにくい\(\chi^2\)分布ですが、分散の検定、適合度検定など...

応用1 :適合度の検定

適合度の検定とは、観測されたデータがある確率分布に従っているかどうかを判断する検定です。

母集団が互いに背反な\(k\)個の事象\(A_1, A_2, …, A_k\)で表される場合、各事象の発生比率(母比率)\(P(A_1), P(A_2), …, P(A_k)\)が、それぞれ\(p_1, p_2, …, p_k\)であると見なして良いかを検定します。

帰無仮説 \( H_0 : P(A_i) = p_i (i = 1, 2, …, k)\) 対立仮説 \(H_1 :\) ある\(i\)について\(P(A_i) \ne p_i\)

この母集団から\(n\)個のデータを抽出したとき、実際のデータの観測度数が\(X_i (i = 1, 2, … ,k)\)だったとします。これに対し、帰無仮説\(H_0\)のもとでは、期待度数は\(np_k\)になります(\(np_k = E_k\)とおきます)。

事象 \(A_1\) \(A_2\) \(A_k\)
観測度数 \(X_1\) \(X_2\) \(X_k\) \(n\)
比率 \(p_1\) \(p_2\) \(p_k\) 1
期待度数 \(np_1(=E_1)\) \(np_2(=E_2)\) \(np_k(=E_k)\) \(n\)

このとき、 $$ \begin{eqnarray} T &=&\sum_{i = 1}^k \frac{(X_i-np_i)^2}{np_i} \\ &=&\sum_{i = 1}^k \frac{(X_i-E_i)^2}{E_i} \end{eqnarray} $$

を考えると、\(n\)が十分大きければ(すべての\(i\)に対して、\(np_i>5\)程度)、\(T\)は自由度\(k-1\)の\(\chi^2\)分布に従います。この性質を利用して検定を行います。

もし、期待度数\(E_i\)に対して、観測度数\(X_i\)がずれてくると\(T\)の値は大きくなるので、有意水準\(\alpha\)(=信頼水準\(1-\alpha\))に対して\(T > \chi_{k-1}^2(\alpha)\)であれば帰無仮説\(H_0\)を棄却するものとして検定を行うことができます。

応用2 :独立性の検定

独立性の検定とは、2つの属性\(A,B\)を持つ事象に対し、その観測においてこの2属性に関連性があるかどうかを判断する検定です。

2つの属性\(A,B\)があり、属性\(A\)に対して\(a\)個のカテゴリ、属性\(B\)に対して\(b\)個のカテゴリに分類した分割表を考えます。\(A=A_i,B=B_j\)となる観測回数を\(X_{ij}\)回とすると以下のように書けます。

  \(B_1\) \(B_2\) \(B_b\) 行の和
\(A_1\) \(X_{11}\) \(X_{12}\) \(X_{1b}\) \(X_{A_1}\)
\(A_2\) \(X_{21}\) \(X_{22}\) \(X_{2b}\) \(X_{A_2}\)
\(A_a\) \(X_{a1}\) \(X_{a2}\) \(X_{ab}\) \(X_{A_a}\)
列の和 \(X_{B_1}\) \(X_{B_2}\) \(X_{B_b}\) \(n\)

\(A,B\)が独立という帰無仮説を立てます。

\(H_0 : P(A_i \cap B_j) = P(A_i)P(B_j)\)

\(A_i,B_j\)の発生確率はぞれぞれ\(\frac{X_{A_i}}{n},\frac{X_{B_j}}{n}\)ですので、セル\(A_i,B_j\)の期待度数は\(\frac{X_{A_i}}{n}\frac{X_{B_j}}{n}n=\frac{X_{A_i}X_{B_j}}{n}\)となります(\(=E_{ij}\)とおく)。このとき、以下の\(T\)は自由度\((a-1)(b-1)\)の\(\chi^2\)分布に従います。 $$ T = \sum_{i}^{a}\sum_{j}^{b}\frac{(X_{ij}-E_{ij})^2}{E_{ij}} $$ この性質を利用して検定を行います。もし、期待度数\(E_{ij}\)に対して、観測度数\(X_{ij}\)がずれてくると\(T\)の値は大きくなるので、有意水準\(\alpha\)(=信頼水準\(1-\alpha\))に対して\(T > \chi_{(a-1)(b-1)}^2(\alpha)\)であれば帰無仮説\(H_0\)を棄却するものとして検定を行うことができます。

まとめ

適合度の検定、独立性の検定のいずれも、検定対象となる統計量は以下の形であり、両者の評価で異なるのは、評価に用いる\(\chi^2\)分布の自由度です。

$$ T = \sum\frac{(観測度数-期待度数)^2}{期待度数} $$

両者の評価における自由度は「全事象の確率の合計は1である」とか「事象\(A_i\)の確率は\(B_j\)に関係なく\(A_i\)が関係するものの和である」とかいったことから説明ができるのだと思いますが、いろいろ調べてみましたが、わかりやすい説明を見つけることができませんでした。わかりやすい説明を見つけたら記事を更新します。とりあえず、今回はここまで。