統計学:χ2乗分布(カイ2乗分布)の特徴

統計

統計を学びたての頃、正規分布は何となくわかり始めた後に出てくるのが、\( \chi^2 \)分布。これ何?どうやって使うの?そもそも何て読むの?ってなりますよね。始めはとっつきにくい\(\chi^2\)分布ですが、統計学ではとても重要な分布です。 \(\chi^2\)分布の特徴について整理します。

期待値、分散、再生性

\(\chi^2\)分布とは

標準正規分布に従う互いに独立なn個の確率変数\(Z_1,Z_2,…Z_n\)に対し、\(X=\sum_{i=1}^n Z_i^2\)が従う分布のことを自由度\(n\)の\(\chi^2\)分布といいます。

確率密度関数

自由度\(n\)の\(\chi^2\)分布の確率密度関数は以下のような形になります。
$$
f(x;n)=\frac{1}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})}x^{\frac{n}{2}-1}e^{-\frac{x}{2}}
$$

期待値、分散

自由度\(n\)の\(\chi^2\)分布の期待値は\(n\)、分散は\(2n\)になります。
確率密度関数から定義通りに積分計算をすることで期待値\(E(X)\)、分散\(V(X)\)を求めることができます。具体的な計算については教科書やネットを検索すれば出てくると思いますので、そちらを参照ください(\(\Gamma\)関数の性質を利用したり、変数変換したり結構面倒くさいです)。
$$
\begin{eqnarray}
E(X)&=&\int_0^\infty{xf(x;n)dx}=n\\
E(X^2)&=&\int_0^\infty{x^2f(x;n)dx}=n(n+2)\\
V(X)&=&E(X^2)-{E(X)}^2 \\
&=& n(n+2)-n^2 \\
&=& 2n
\end{eqnarray}
$$

再生性

二つの確率変数\(X\)、\(Y\)が互いに独立にそれぞれ自由度\(m\)、\(n\)の\(\chi^2\)分布に従う場合、\(X+Y\)は自由度\(m+n\)の\(\chi^2\)分布に従います。\(\chi^2\)分布がこの性質を持つことを\(\chi^2\)分布は再生性があると表現します。これについても、確率密度から計算する方法はネットを検索すると出てくると思いますので、そちらを参照ください。

$$
X\sim \chi^2(m)\\
Y\sim \chi^2(n)\\
X+Y\sim \chi^2(m+n)
$$

 

 

難しい式を使わないで考えてみる

\(\chi^2\)分布の性質について、確率密度関数を使わずにもう少し考えてみます。これにより、\(\chi^2\)分布についてのイメージが少しでも膨らむとよいと思っています。

期待値

自由度\(n\)の\(\chi^2\)分布は、標準正規分布に従う\(n\)個の独立な変数の2乗の和ですので、\(Z_i\)を標準正規分布に従う確率変数としたとき、以下の\(X\)が自由度\(n\)の\(\chi^2\)分布に従います。
$$
X=\sum_{i=1}^{n}Z_i^2   Z_i\sim N(0,1):標準正規分布
$$
\(X\)の期待値は、前項のように、確率密度関数から計算することもできますが、「自由度\(n\)の\(\chi^2\)分布は、独立に標準正規分布に従う\(n\)個の変数の2乗の和」というところからスタートすると以下のように考えても計算できます。数学的な証明という観点では、おそらく、「」の部分も含めて丁寧な証明が必要なのだと思いますが、使う側からすれば、こっちの方が理解しやすいなぁと思っています。
$$
\begin{eqnarray}
E(X)&=&E(\sum_{i=1}^nZ_i^2)\\
&=&\sum_{i=1}^nE(Z_i^2)\\
&=&\sum_{i=1}^n 1 \quad (∵ Z_i\sim N(0,1^2))\\
&=& n
\end{eqnarray}
$$

再生性

二つの確率変数\(X\)、\(Y\)が互いに独立にそれぞれ自由度\(m\)、\(n\)の\(\chi^2\)分布に従う場合の\(X+Y\)の確率分布についても、「自由度\(n\)の\(\chi^2\)分布は、独立に標準正規分布に従う\(n\)個の変数の2乗の和」というところからスタートすると、\(X+Y\)は、独立に標準正規分布に従う\(m+n\)個の変数の2乗の和であるので、自由度\(m+n\)の\(\chi^2\)分布に従うのは明らかですよね。

 

 

\(\chi^2\)分布から正規分布に従う確率変数の分散について考える

平均\(\mu\)、標準偏差\(\sigma\)の正規分布に従う互いに独立なn個の確率変数\(X_1,X_2,…,X_n\)を考えます。このとき、\(n\)個のデータの分散\(s\)は以下のように計算できます。
$$
s=\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2
$$
\(X_1,X_2,…,X_n\)は確率変数なので、\(s\)も確率変数になります。では、\(s\)の期待値はどうなるのでしょう?

そう、\(\sigma^2\)ですね。これを\(\chi^2\)分布の観点から眺めてみます。

平均\(\mu\)、標準偏差\(\sigma\)の正規分布に従う互いに独立な\(n\)個の確率変数\(X_1,X_2,…,X_n\)に対し、\(Z_i=\frac{X_i-\mu}{\sigma}\)を考えると、\(Z_i\)は標準正規分布に従います。従って、下記の\(W\)は自由度\(n\)の\(\chi^2\)分布に従います。
$$
W=\sum_{i=1}^n(\frac{X_i-\mu}{\sigma})^2
$$
\(W\)の期待値は\(n\)であることから、\(s\)の期待値は\(\sigma^2\)になることが示せます。
$$
\begin{eqnarray}
E(s)&=&E(\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2) \\
&=& \frac{\sigma^2}{n}E(\sum_{i=1}^n(\frac{X_i-\mu}{\sigma})^2) \\
&=& \frac{\sigma^2}{n} \times n \quad(∵E(W)=n)\\
&=& \sigma^2
\end{eqnarray}
$$

次に、不偏分散\(s’\)の期待値についても同じように考えてみます。まぁ、期待値が真の分散の値(\(\sigma^2\))に一致するから不偏分散なので、計算しなくても答えが\(\sigma^2\)なのは、明らかなんですけどね。

不偏分散\(s’\)は以下のようになります。
$$
s’=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{x})^2 \\
\bar{x} = \frac{1}{n}\sum_{i=1}^nX_i
$$
これに対して、\(Z_i’=\frac{X_i-\bar{x}}{\sigma}\)の変換を考えます。\(\bar{x}\)は確率変数になりますので、必ずしも\(\mu\)には一致しません。このため、\(Z_i’\)は標準正規分布には従わず、下記の\(W’\)も自由度\(n\)の\(\chi^2\)分布には従いません。
$$
W’=\sum_{i=1}^n(\frac{X_i-\bar{x}}{\sigma})^2
$$
では、\(W’\)はどういう確率分布に従うのでしょう?

\(W’\)は自由度\(n\)の\(\chi^2\)分布に従うのではなく、自由度\(n-1\)の\(\chi^2\)分布に従います(このあたりは、こちらを参照してください)。

統計学:χ2乗分布(カイ2乗分布)の意味
統計を学びたての頃、正規分布は何となくわかり始めた後に出てくるのが、\( \chi^2 \)分布。これ何?どうやって使うの?そもそも何て読むの?ってなりますよね。始めはとっつきにくい\(\chi^2\)分布ですが、分散の検定、適合度検定など...

従って、\(W’\)の期待値は\(n-1\)になりますので、\(s’\)の期待値は\(\sigma^2\)になります。
$$
\begin{eqnarray}
E(s’)&=&E(\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{x})^2) \\
&=& \frac{\sigma^2}{n-1}E(\sum_{i=1}^n(\frac{X_i-\bar{x}}{\sigma})^2) \\
&=& \frac{\sigma^2}{n-1} \times (n-1) \quad(∵E(W’)=n-1)\\
&=& \sigma^2
\end{eqnarray}
$$

不偏分散の分母が\(n\)ではなく\(n-1\)であることと、\(W’\)の自由度が\(n-1\)であることは、こういう風に繋がるんですね。

関連記事

不偏分散の分母がなぜ\(n-1\)なのかについて、こちらのページにも書いてますので、ぜひご一読ください。

統計学 : 標準偏差や分散はなぜnで割ったりn-1で割ったりするのか
標準偏差や分散の計算って、nで割ったり、n-1で割ったり、よく分からなかったりしませんか? 結論から言うと、ばらつきの表現と言う意味での分散の定義はデータ数nで割るのが正しいのだけれど、標本から母集団の分散を「推定」する場合はn-1で割った方が妥当だということです。

こちらのページでは、乱数を用いたシミュレーションを交えながら、\(n\)なのか\(n-1\)なのかを説明しています。

分散や標準偏差の分母はnかn-1か?シミュレーションを交えて説明
統計学を勉強していくと、テキストによって、標準偏差や分散の分母がnだったり、n-1だったりして混乱しますよね。結論を言うと 目の前にある標本がどの程度ばらついているか表現したい場合はnで割る。標本から母集団の分散を「推定」する場合はn-1で割った方が推定精度が高い。 ということです。このページでは、乱数を発生させて、実験して確認してみます。