2010年02月08日

統計において不偏分散を(n-1)で割る理由

という事で、今日は統計で誰もが思う疑問を考えてみましょう。高校までの教科書には、平均と分散の求め方を↓のように習っていたと思います。
ave-var_formula.jpg
ところが、実際に統計学を駆使しようとすると「不偏分散を求めるには(n-1)で割る」という事になっています。もともと我々は、↑のように分散をnで割っていたわけで、「この差は一体どういう事なんだ?」と不思議に思う方が多いかと思います。

統計学の参考書等には、単なる一言で「分散は自由度が1低いから、(n-1)で割るのだ」と説明しているものも多いのですが、「そもそも何故にnではなく、自由度で割らなくてはいけないのか」という根源的な説明が書いてあるテキストを、俺は今まで読んだことがありません。
という事で、今日はその辺を実例と共に説明しようかと思います。


とりあえず、「TVの視聴率」を考えてみましょう。ある番組の視聴率を完璧に誤差無く調べようとすると、TVを保有している全世帯のモニタリングが必要になります。ところが、全世帯をモニタリングするとなるとコストや時間等々の制約が厳しくなるために、実際のところ一部世帯を抽出するしか手段がないわけです。この時、「実際の視聴率」と「抽出した世帯の視聴率」が大きくかけ離れては困りますよね。このように、全体から一部を取り出してくる場合、2者の間で同じような統計的性質が保存されているのが望ましいわけです。


そこで、例を変えて次の事を考えてみましょう。今、サイコロを30回振って出た目の「平均」と「分散」を計算します。サイコロは3つあるので、これらを10回ずつ振る事にしましょう。実際に、↓のようにサイコロの目が出たとします。この時、サイコロの目を30回振った時の平均は3.433、(nで割る)分散は2.246でした(図中の@とAの箇所)。
unbiased-variance.jpg
そして一方で、一回ずつそれぞれのサイコロを振った場合の平均と分散を考えてみます。↑の例の場合だと、1回目に3つのサイコロを振った平均は4.67、(nで割る)分散が0.22、(n-1で割る)分散が0.33ですね(図中のBの箇所)。これは言い変えると、全10セット(サイコロを30回振る)から、一部を抽出した1セットでの「平均」と「分散」を求めていることになります。
先ほど、「全体から一部を取り出してくる場合、2者の間で同じような統計的性質が保存されているのが望ましい」と書きましたが、まさに今回の場合も、全10セットの平均と分散が、各セットの平均と分散と同程度である事が望ましいわけです。何故ならば、もし各セットの平均と分散が同程度であれば、30回(10セット)もサイコロを振る必要が無く、コストも手間もかからないわけですよね。
という事で、各セット間の「平均の平均」「(nで割る)分散の平均」「(n-1で割る)分散の平均」を見てみましょう(図中のCの箇所)。
「あれ?」と思う方がたくさんいらっしゃるかと思いますが、サイコロを30回振った時のAと比較すると、Cでは平均こそ一致していますが、分散は全然違いますね。サイコロを30回振った時の分散は2.246ですが、各セット間の「(nで割る)分散の平均」はわずか1.422にすぎません。一方で、各セット間の「(n-1で割る)分散の平均」は2.133と、(n-1)で割る方がサイコロを30回振った時の分散値に近づく事がわかります。そう、この部分が(n-1)で割る方が良い本質的な理由です。

元々、分散については、「全標本で計算する分散値」よりも、「一部の標本のみで計算する分散値」の方が、低く出る性質があります。よって、「全体から一部を取り出してくる場合、2者の間で同じような統計的性質が保存されているのが望ましい」という性質(不偏性)をより確保するために、nではなく自由度にかこつけて(n-1)で割る方が良いという事なのです。
実際にどういう場合に使い分ければ良いのかというと、「母集団全てを把握している場合」は普通にnで割って、「母集団の一部から母集団の分散を推定したい場合」に(n-1)で割ればいいわけですよ。おそらく実際の使い方としては、「母集団を全てわかっている場合」なんてのは実社会ではほとんど無いでしょうから、(n-1)で割る場合の方がほとんどなんじゃないですかね?もっとも、nであろうが(n-1)であろうが、扱うサンプル数が多くなれば数値上あまり大きな違いが出てくるわけではありませんが、サンプル数の少ないときには注意が必要でしょうね。


という事で、統計については今まで何も書いてこなかったので、これからは「回帰分析」とか「主成分分析」について、折を見て書こうかなと思っております。この辺りの分野は、経済指標とかいろいろなデータを読み取る上での基本的なリテラシーになる上に、民間会社とかでもマーケッティング等々に使える重要なツールになるので、数学の中でも直接的に世の中の役に立つ分野なんじゃないかなぁ、と俺は思っています。



今日のエントリーで、「なるほど」「ふむふむ」「面白い」などと思ってくれた方で、一票を頂ける方は是非ともお願いします。↓
人気ブログランキングへ
posted by きらっち at 22:17| Comment(0) | TrackBack(0) | 科学
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:

この記事へのトラックバックURL
http://blog.sakura.ne.jp/tb/35208265

この記事へのトラックバック