分母をnで割った分散の計算がイマイチな理由

統計

母集団の分散を推定する場合、大抵の場合、分散の分母をn-1で計算した値(不偏分散)を使うことがほとんどです。見方・言い方を変えると、母集団の分散を推定するのに分母をn-1ではなくnで計算するとイマイチなところがあるということです。どういう点がイマイチなのかを整理します。

標本データから推定した平均値\(\bar{x}\)を用いて分母をnで割った分散の計算がイマイチな理由

以下のように、平均値を標本データから推定した値\(\bar{x}\)を用いて、分散の分母をnで計算した場合にイマイチな理由の一つは

この方法で多数回分散の推定を繰り返した場合、計算される分散の平均値(= 期待値)が真の分散の値に一致しない

という点。これについては、以下の記事を参照ください。

統計学 : 標準偏差や分散はなぜnで割ったりn-1で割ったりするのか
標準偏差や分散の計算って、nで割ったり、n-1で割ったり、よく分からなかったりしませんか? 結論から言うと、ばらつきの表現と言う意味での分散の定義はデータ数nで割るのが正しいのだけれど、標本から母集団の分散を「推定」する場合はn-1で割った方が妥当だということです。

この記事では、「分散の分母をnで計算する」ということの意味を別の面から捉えることで、この方法による推定がイマイチな理由を示したいと思います。

この形の式の関数の最小値

この形の式とは、これです。

$$
V = \frac{1}{n}\Sigma_{i = 1}^n(x_i – m)^2
$$

この式の(V)は、以下の場合に母集団の分散に一致します。

  • \( n \to \infty \)
  • mが母集団の平均値 \(\mu\)に一致

ここで計算されるVの値は、mに応じて変化しますが、Vはmに関しての2次関数になっているので、mが真の平均値に対して、極端に大きくなりすぎたり、もしくは、極端に小さくなりすぎたりすると、Vの値は母集団の分散の値よりも極端に大きくなってしまうことがわかります。

ここで、一旦、母集団の分散を推定するということから離れてVを最小にするmの値について考えてみます。

$$
V = \frac{1}{n}\Sigma_{i = 1}^n(x_i – m)^2
$$

ですから、\(\frac{dV}{dm} = 0\)として、mを計算してみます。

$$
\frac{dV}{dm} = – \frac{2}{n}\Sigma_{i = 1}^n(x_i – m) = 0 \\
\Sigma_{i = 1}^n(x_i-m) = 0 \\
\Sigma_{i = 1}^nm = \Sigma_{i = 1}^nx_i  \\
m = \frac{1}{n}\Sigma_{i = 1}^nx_i
$$

となり、Vを最小にするmは\(x_i(i=1..n)\)の標本の平均値に等しくなります。

整理すると、

$$
S = \frac{1}{n}\Sigma_{i = 1}^n(x_i – \bar{x})^2
$$

で計算される値Sは、

$$
V = \frac{1}{n}\Sigma_{i = 1}^n(x_i – m)^2
$$

の形をしたVの中で最小の値であるということです。

整理すると

以下のような状況。

①標本平均値\(\bar{x} = \frac{1}{n}\Sigma_{i = 1}^n x_i\)は真の平均値に必ずしも一致しない。
②\(\bar{x}\)を用いて計算される\(S = \frac{1}{n}\Sigma_{i = 1}^n(x_i – \bar{x})^2\)で計算される値Sは、\(V = \frac{1}{n}\Sigma_{i = 1}^n(x_i – m)^2\)の形をしたVの中で最小の値である。

②の結果は数学的には美しいのですが、①なのに、②でVを最小にするmの値\(\bar{x}\)を使って、母集団の分散を推定するって変じゃありませんか?実際、変なんです。Sで推定すると分散が平均的に小さく見積もられてしまいます(\(\frac{n-1}{n}\)倍になってしまう)。

分散や標準偏差の分母はnかn-1か?シミュレーションを交えて説明
統計学を勉強していくと、テキストによって、標準偏差や分散の分母がnだったり、n-1だったりして混乱しますよね。結論を言うと 目の前にある標本がどの程度ばらついているか表現したい場合はnで割る。標本から母集団の分散を「推定」する場合はn-1で割った方が推定精度が高い。 ということです。このページでは、乱数を発生させて、実験して確認してみます。

こちらの記事では、このことをシミュレーションで確かめています。\(\frac{n-1}{n}\)倍という数字は出てきませんが、この記事で伝えたかったのは、\(\bar{x}\)を使って、分母に\(n\)を使って計算された分散は値を小さく評価した推定値になってしまうということ。

まとめ

\(V = \frac{1}{n}\Sigma_{i = 1}^n(x_i – m)^2\)の形をしたVが最小となるのは、\(m = \bar{x}\)をのときであるので、この式で母分散を推定すると(平均的には)小さめの値になってしまいます。つまり分母をnとして計算すると分散を小さめに見積もる可能性が高くなります。

この記事では紹介しませんでしたが、分母をn-1であれば平均的に正しい分散の値に一致します(期待値として一致します)。分母をn-1とした計算式の方が妥当である理由は以下の記事を参照ください。

統計学 : 標準偏差や分散はなぜnで割ったりn-1で割ったりするのか
標準偏差や分散の計算って、nで割ったり、n-1で割ったり、よく分からなかったりしませんか? 結論から言うと、ばらつきの表現と言う意味での分散の定義はデータ数nで割るのが正しいのだけれど、標本から母集団の分散を「推定」する場合はn-1で割った方が妥当だということです。