標準偏差や分散の計算って、nで割ったり、n-1で割ったり、よく分からなかったりしませんか?
結論から言うと、ばらつきの表現と言う意味での分散の定義はデータ数nで割るのが正しいのだけれど、標本から母集団の分散を「推定」する場合はn-1で割った方が妥当だということです。
ちょっとこの辺りを整理します。
「平均」や「分散」って、実は2つの意味がある
平均とか分散って、2つの意味があります。
①手元にあるデータの要約としての平均、分散。
②確率変数の期待値としての平均、分散(真値としての平均、分散)。
まず、これについて整理します。
手元にあるデータの要約としての平均、分散
手元にデータが100個あるとして、そのデータがどういう状況になっているか人に説明する場合、どういう風に伝えたら良いでしょうか?データを1個1個読み上げても、全然、頭に入らないし、意味ないですよね。データをまとめて簡単な一言で伝えたくなりますよね。そのため代表的な値が平均値や分散です。
n個のデータ\(X_i(i=1…n)\)がある場合、平均値、分散は以下のように計算します。 $$ 平均 \overline X=\frac{\sum_{i=1}^{n} X_i}{n} \\ 分散 s^2= \frac{\sum_{i=1}^{n} (X_i-\overline{X})^2}{n} $$ このとき、平均はデータ数\(n\)で割ります。分散の定義は、「各データの平均からの差の2乗(偏差平方和)」の「平均」なので、やはりデータ数\(n\)で割ります。
確率変数の期待値としての平均、分散
次に、確率的にばらつく変数\(X\)について考えます。 確率変数\(X\)のデータをN回記録したとします(\(X_i (i = 1…N)\))。データの要約としての平均は個数に関する平均だったので、文字としてnを使っていますが、ここでは、回数としての平均なのでNを使っています。これ、よく整理して考えておかないと、後で、頭を整理する際、曖昧になっちゃうんですよね。一応、個数と回数で文字は変えて表現します。 得られたデータの平均値\(\overline X\)も確率的にばらつくけれど、\(N \to \infty\)とした場合には、平均値\(\overline X\)はある値\(\mu\)に収束します。この値を確率変数\(X\)の期待値といいます。この値を期待値ではなく平均値といったりもします(計算式として、要約としての形式的には平均値と同じ形ですしね)。この値は、\(N \to \infty\)とするので、実際には入手することのできない神のみぞ知る値(真値)です。
$$ 期待値E[X] = \lim_{N \to \infty} \frac{\sum_{i=1}^{N} X_i}{N} $$ 分散も同様に計算します。分散と書きましたが、期待値という言葉で言い直すと「データと平均値の差の2乗の期待値」となります。長ったらしいので、通常、この値のことを分散と呼びます。 $$ 分散V[X] = \lim_{N \to \infty} \frac{\sum_{i=1}^{N} (X_i-E[X])^2}{N} $$
どこからn-1で割る分散が出てくる?
平均、分散について、2つの意味を整理しましたが、いずれも和をデータ数nもしくは回数Nで割った値として定義されます。でも、不偏分散という計算をする場合は、データ数nで割るのではなく、n-1で割ります。一体このn-1はどこから出てくるのでしょう?
上で述べた要約としての平均、分散と確率変数の期待としての平均、分散についてもう一度考えます。
ある確率変数\(X\)を考えます。この値の期待値としての平均、分散は神のみぞ知る値であるとします。そこで、データをいくつか記録(サンプリング)して、得られたデータ\(X_i (i = 1…n)\)(標本と言います)から、確率変数の期待値としての平均、分散を推定することを考えます。 標本データの要約としての平均値、分散(それぞれ、標本平均、標本分散と言います)は以下のようになります。 $$ 平均 \overline X=\frac{\sum_{i=1}^{n} X_i}{n} \\ 分散 s^2= \frac{\sum_{i=1}^{n} (X_i-\overline{X})^2}{n} $$ \(X_i\)は確率変数なので、標本平均、標本分散も確率変数です。ですから、これらの値は必ずしも神のみぞ知る値の平均、分散には一致しません(たまたま、一致することもあるかもしれませんが)。サンプリング毎に異なる値になると考えられます。 標本データの平均値の期待値を計算すると(n個のデータを取るという行為をN回実施して\(N \to \infty\)にする)、 $$ \begin{eqnarray} E[\overline X] &=& E[\frac{\sum_{i=1}^{n} X_i}{n} ]\\ &=& \frac{E[ \sum_{i=1}^{n} X_i ]}{n}\\ &=&\frac{\sum_{i=1}^n E[X_i]} {n}\\ &=&\frac{\sum_{i=1}^n \mu} {n}\\ &=&\mu \end{eqnarray} $$ となり、確率変数の期待値(平均値)に一致します。ですので、確率変数の期待値(平均値)の推定値として、標本エータの平均値を使うことは正しそうです。推定量の期待値が確率変数の期待値に一致する場合、不偏性があると言います。 同様に、標本データの分散の期待値を計算してみます。簡単な計算ですけど、結構面倒くさいです。
$$ \begin{eqnarray} E[s^2] &=& E[\frac{\sum_{i=1}^{n} (X_i-\overline{X})^2}{n} ] \\ &=& \frac{E[\sum_{i=1}^n (X_i- \mu + \mu -\overline X)^2]}{n} \\ &=& \frac{E[\sum_{i=1}^n {\{(X_i- \mu)^2 + 2(X_i- \mu)( \mu -\overline X) +( \mu -\overline X)^2\}}]}{n} \\ &=& \frac{E[\sum_{i=1}^n (X_i- \mu)^2 ]-2E[ ( \overline X-\mu) \sum_{i=1}^n (X_i- \mu)]+E[\sum_{i=1}^n ( \overline X-\mu)^2]}{n} \\ &=& \frac{n\sigma^2-2nE[( \overline X-\mu)^2]+nE[ ( \overline X-\mu)^2]}{n}\\ &=& \frac{n\sigma^2-nE[( \overline X-\mu)^2]}{n}\\ &=& \sigma^2-E[( \overline X-\mu)^2] \\ &=& \sigma^2-E[( \frac{\sum_{i=1}^n X_i}{n}-\mu)^2]\\ &=& \sigma^2-E[( \frac{\sum_{i=1}^n (X_i-\mu)}{n})^2]\\ &=& \sigma^2-\frac{\sum_{i=1}^n E[ (X_i-\mu)^2]}{n^2}\\ &=& \sigma^2-\frac{n \sigma^2}{n^2}\\ &=&\frac{n-1}{n}\sigma^2 \end{eqnarray} $$
平均値の場合と異なり、分散の期待値は神のみぞ知る分散(確率変数の分散の期待値)には一致せず、若干小さな値になります(\( \frac{n-1}{n} \)倍の値)。 標本の分散で神のみぞ知る値分散を推定しても、それはあっていない場合が多いということです(たまたま一致する可能性はありますが)。標本分散が神のみぞ知る分散の\( \frac{n-1}{n} \)倍になりそうなので、あらかじめこの分を考慮して、\( \frac{n}{n-1} \)倍しておけば、標本分散の期待値が神のみぞ知る分散に一致します。 $$ \begin{eqnarray} 標本分散 s^2 \times \frac{n}{n-1} &=& \frac{\sum_{i=1}^{n} (X_i-\overline{X})^2}{n} \times \frac{n}{n-1} \\ &=& \frac{\sum_{i=1}^{n} (X_i-\overline{X})^2}{n-1} \end{eqnarray} $$ これを不偏分散と定義します。n個の標本からこの値を計算して神のみぞ知る分散の推定値として使った場合、期待値として(n個のデータを取るという行為をN回実施して\(N \to \infty\)にした場合)、この値は神のみぞ知る分散に一致します。不偏性があるということです。 形式的には分散の計算の分母が\(n\)から\(n-1\)に変わりました。
標本から母集団の分散を「推定」する場合、標本分散よりも不偏分散の方が分散の推定値として妥当な値です。通常、標本を取得する場合、どんな標本が得られたかを示す数値の要約をしたいわけではなく、母集団について何らかの「推定」することを目的としているはずです。必然的に分散としては、不偏分散(n-1で割った分散)を使うことが多くなりますので、「分散はn-1で割る」みたいに公式のように覚えがちになり、分散はnで割るのが正しいの?n-1で割るのが正しいの?みたいな疑問が生じやすくなります。
「分散の定義はnで割るのが正しいけれど、標本から母集団の分散を推定する場合はn-1で割る」と理解していた方が、nで割るのか、n-1で割るのか悩まなくて良くなるように思います。
関連記事
不偏分散の分母n-1になる理由を別の観点から整理しています。一歩、踏み込んで整理したい方はこちら。
こちらのページでは乱数を用いたシミュレーションを用いながら、nなのかn-1なのかを説明をしています。
分散の分母がnではイマイチな理由を別の角度から説明
統計を勉強するならRの勉強がおすすめです。式変形が苦手でも、実際に乱数を発生させてシミュレーションを行えば、自分の考え方があっているかなど、簡単に確認できます。
まとめ
- ばらつきの表現という意味で分散は偏差平方和をデータ数nで割る
- 標本から母集団の分散を「推定」する場合、推定値として用いる分散は不偏分散(偏差平方和をn-1で割った値)を使う方が妥当
統計を学びたての頃、正規分布は何となくわかり始めた後に出てくるのが、\(\chi^2\)分布。\(\chi^2\)分布は統計学の基本。標準偏差とも密接な関係をもつ確率分布です。こちらもどうぞ。