Processing math: 0%

統計学:χ2分布の応用

統計

\chi^2分布の応用として、以下の2つの検定についてまとめます。

  • 応用1:適合度の検定
  • 応用2:独立性の検定

そもそも\chi^2分布ってどういう分布?

応用の前に、そもそも\chi^2分布ってどういう分布?

統計学:χ2乗分布(カイ2乗分布)の特徴
統計を学びたての頃、正規分布は何となくわかり始めた後に出てくるのが、 \chi^2 分布。これ何?どうやって使うの?そもそも何て読むの?ってなりますよね。始めはとっつきにくい\chi^2分布ですが、統計学ではとても重要な分布...
統計学:χ2乗分布(カイ2乗分布)の意味
統計を学びたての頃、正規分布は何となくわかり始めた後に出てくるのが、 \chi^2 分布。これ何?どうやって使うの?そもそも何て読むの?ってなりますよね。始めはとっつきにくい\chi^2分布ですが、分散の検定、適合度検定など...

応用1 :適合度の検定

適合度の検定とは、観測されたデータがある確率分布に従っているかどうかを判断する検定です。

母集団が互いに背反なk個の事象A_1, A_2, …, A_kで表される場合、各事象の発生比率(母比率)P(A_1), P(A_2), …, P(A_k)が、それぞれp_1, p_2, …, p_kであると見なして良いかを検定します。

帰無仮説 H_0 : P(A_i) = p_i (i = 1, 2, …, k) 対立仮説 H_1 : あるiについてP(A_i) \ne p_i

この母集団からn個のデータを抽出したとき、実際のデータの観測度数がX_i (i = 1, 2, … ,k)だったとします。これに対し、帰無仮説H_0のもとでは、期待度数はnp_kになります(np_k = E_kとおきます)。

事象 A_1 A_2 A_k
観測度数 X_1 X_2 X_k n
比率 p_1 p_2 p_k 1
期待度数 np_1(=E_1) np_2(=E_2) np_k(=E_k) n

このとき、 \begin{eqnarray} T &=&\sum_{i = 1}^k \frac{(X_i-np_i)^2}{np_i} \\ &=&\sum_{i = 1}^k \frac{(X_i-E_i)^2}{E_i} \end{eqnarray}

を考えると、nが十分大きければ(すべてのiに対して、np_i>5程度)、Tは自由度k-1\chi^2分布に従います。この性質を利用して検定を行います。

もし、期待度数E_iに対して、観測度数X_iがずれてくるとTの値は大きくなるので、有意水準\alpha(=信頼水準1-\alpha)に対してT > \chi_{k-1}^2(\alpha)であれば帰無仮説H_0を棄却するものとして検定を行うことができます。

応用2 :独立性の検定

独立性の検定とは、2つの属性A,Bを持つ事象に対し、その観測においてこの2属性に関連性があるかどうかを判断する検定です。

2つの属性A,Bがあり、属性Aに対してa個のカテゴリ、属性Bに対してb個のカテゴリに分類した分割表を考えます。A=A_i,B=B_jとなる観測回数をX_{ij}回とすると以下のように書けます。

  B_1 B_2 B_b 行の和
A_1 X_{11} X_{12} X_{1b} X_{A_1}
A_2 X_{21} X_{22} X_{2b} X_{A_2}
A_a X_{a1} X_{a2} X_{ab} X_{A_a}
列の和 X_{B_1} X_{B_2} X_{B_b} n

A,Bが独立という帰無仮説を立てます。

H_0 : P(A_i \cap B_j) = P(A_i)P(B_j)

A_i,B_jの発生確率はぞれぞれ\frac{X_{A_i}}{n},\frac{X_{B_j}}{n}ですので、セルA_i,B_jの期待度数は\frac{X_{A_i}}{n}\frac{X_{B_j}}{n}n=\frac{X_{A_i}X_{B_j}}{n}となります(=E_{ij}とおく)。このとき、以下のTは自由度(a-1)(b-1)\chi^2分布に従います。 T = \sum_{i}^{a}\sum_{j}^{b}\frac{(X_{ij}-E_{ij})^2}{E_{ij}} この性質を利用して検定を行います。もし、期待度数E_{ij}に対して、観測度数X_{ij}がずれてくるとTの値は大きくなるので、有意水準\alpha(=信頼水準1-\alpha)に対してT > \chi_{(a-1)(b-1)}^2(\alpha)であれば帰無仮説H_0を棄却するものとして検定を行うことができます。

まとめ

適合度の検定、独立性の検定のいずれも、検定対象となる統計量は以下の形であり、両者の評価で異なるのは、評価に用いる\chi^2分布の自由度です。

T = \sum\frac{(観測度数-期待度数)^2}{期待度数}

両者の評価における自由度は「全事象の確率の合計は1である」とか「事象A_iの確率はB_jに関係なくA_iが関係するものの和である」とかいったことから説明ができるのだと思いますが、いろいろ調べてみましたが、わかりやすい説明を見つけることができませんでした。わかりやすい説明を見つけたら記事を更新します。とりあえず、今回はここまで。