ゆるふわめも

東京か京都にいます。

数理統計のめも、標本の分布と推定、検定まで:めも

1.定義と用語

  • 母集団

 解析の対象、日本の年齢分布を調べるなら母集団は日本全体の住人。

  • 標本

 採取したサンプル。アンケートして調べたなら、そのアンケートをした人たちが標本。

  • 統計量

 標本に含まれる確率変数の関数。標本の年齢をすべて足して標本数で割る平均年齢や分散、標本の中の最大の年齢、といったものはすべて統計量。

  • 推定量

 母数を推定するための統計量。日本全体の平均年齢を知るための推定量は標本の平均年齢、としたりする。もちろん、この定義からは何も式は決まらない。どれが最も良い推定量となるかの指標も存在する。

統計量の分布

母集団を推定するための推定量を考えるために、標本の統計量がどのような分布を持つかを考える必要がある。以下では
{ \displaystyle
\mu := 母平均\\
{\sigma}^2 := 母分散\\
\bar{x} := 標本平均\\
s^2 := 標本分散\\
E(a) := a の期待値\\
V(a) := a の分散
}
として記述することにする。

標本平均の分布

n個数の標本が得られたことを考える。n個の標本の得たときの標本平均の平均値は..

{ \displaystyle
E( \bar{x} ) \\
= E( \frac{1}{n} \sum_{k = 1}^{n} x_i )\\
= \frac{1}{n} E( \sum_{k=1}^{n}  x_i )\\
= \frac{1}{n} \sum_{k=1}^{n}  E( x_i )\\
= \frac{1}{n} \sum_{k=1}^{n} \mu\\
= \mu
}

となるから標本平均の平均は母平均に一致する。一方標本平均の分布の分散は

{ \displaystyle
V( \bar{x} ) \\
= V( \frac{1}{n} \sum_{k = 1}^{n} x_i )\\
= (\frac{1}{n})^2 V( \sum_{k=1}^{n}  x_i )\\
= \frac{1}{n^2} \sum_{k=1}^{n}  V( x_i )\\
= \frac{1}{n^2} \sum_{k=1}^{n} {\sigma}^2\\
= \frac{{\sigma}^2}{n}
}

となる、中心極限定理より標本平均は正規分布に従いその分布は

{ \displaystyle
N(\mu,\frac{{\sigma}^2}{n})
}

正規分布 - Wikipedia

比率

標本平均の場合で確率変数のとる値を0,1に限定すればいい。
仮に母集団の比率をp,標本の比率をp'と記述する。
{ \displaystyle
p’ = \frac{1}{n} \sum_{k=1}^{n} x_i 
}
だから、標本の比率の平均と母集団の比率は一致する。次に標本分散は、確率変数が二値しかとらないことを利用すると簡単に記述できる。

{ \displaystyle
V( \bar{x} ) \\
= V( \frac{1}{n} \sum_{k = 1}^{n} x_i )\\
= (\frac{1}{n})^2 \sum_{k = 1}^{n} V( x_i )\\
= (\frac{1}{n})^2 \sum_{k = 1}^{n} ( E(X^2) - E(X)^2 )\\
= \frac{1}{n^2} \sum_{k = 1}^{n} ( [ p・1^2 + (1-p)・0^2 ] - [ p・1 + (1-p)・0 ]^2 )\\
= \frac{1}{n^2} \sum_{k = 1}^{n} p(1-p)\\
=\frac{p(1-p)}{n}
}

とわかる。

標本分散の分布

{ \displaystyle
s^2 = \frac{1}{n} \sum_{k=1}^n ( x_i - \bar{x} )^2
}

であって、このような二乗和の平均の分布は一般にすぐには求まらない。
そのため新しい考え方を導入するなり、制限を加えるなりして問題の範囲を狭める必要が出てくる。

新しい分布と制限

以下、標本分散を考える対象は正規分布に従っていると仮定するとこの標本分散の分布を解くことができる。なぜなら、もとが正規分布に従う標本ならいかに導入する分布を用いて二乗和の分布を計算できるからだ。

  • χ二乗分布

Yを標準正規分布に従う確率変数として Z={ \displaystyle
\sum_{k = 1}^{n} (Y_i)^2} とする。このときZの従う分布を自由度nのχ二乗分布という。

  • F分布

確率変数 Y_1 , Y_2 が互いに独立で、それぞれ自由度m、nのΧ二乗分布を持つとき
{ \displaystyle
 F = \frac{\frac{Y_1}{m}}{\frac{Y_2}{n}}
}
という変数Fをつくる。このFは自由度(m,n)のF分布に従う。

  • T分布

Fを(1、n)自由度のF分布に従う確率変数として{ \displaystyle  T^2 = F_{(1,n)}} なる新しい確率変数Tを考えるとこのTは自由度nのt分布に従う。

式の形から、t分布は正規分布のように対照的な分布になることがわかる。t分布は自由度が∞に近づくとき、分布は正規分布に近づいていく。

これらの新しい導入を用いて、標本分散の分布を求めたい。ここで標本分散の式

{ \displaystyle
  s^2 = \frac{1}{n} \sum_{k=1}^{n} (x_i - \bar{x})^2
}

を思い出すと標本分散の平均を求めるために、上の式の右辺の平均を求めようとすると、
{ \displaystyle
  V(s^2) = V(\frac{1}{n} \sum_{k=1}^{n} (x_i - \bar{x})^2)\\
  = \frac{1}{n}E(\sum_{k=1}^{n} (x_i - \bar{x})^2))
}

となり、二乗和がでてくるがこれはΧ二乗分布の式に似ている。母集団の平均をμ、分散をσとして

{ \displaystyle
 Z_i = \frac{x_i - \mu}{{\sigma}^2}
}

という確率変数 Z_i を定義すれば、この確率変数 Z_i は標準正規分布N(0,1)に従う。だから、さきほどの二乗和の式をうまく変形して標準正規分布に従う確率変数の二乗和にすればΧ二乗分布を利用することが出きることに気づく。

{ \displaystyle
 s^2 = \frac{1}{n} \sum_{k=1}^{n} (x_i - \bar{x})^2 \\
 \frac{s^2}{{\sigma}^2} = \frac{1}{n} \sum_{k=1}^{n} (\frac{(x_i - \bar{x})}{\sigma})^2 \\
  n\frac{s^2}{{\sigma}^2} = \sum_{k=1}^{n} (\frac{(x_i - \bar{x})}{\sigma})^2 \\
}

最後の式の右辺は自由度nのΧ二乗分布に従う。なので標本分散を{ \displaystyle \frac{n}{{\sigma}^2}} 倍したもの、つまり定数倍したものはΧ二乗分布に従う。不変推定量を用いるならば、不変分散は{ \displaystyle {\hat{\sigma}}^2 = \frac{1}{n-1} \sum_{k=1}^{n} (x_i - \bar{x})^2 } とかけるから、Χ二乗分布を適用するために両辺に{ \displaystyle \frac{n-1}{{\sigma}^2}}を掛ければいいと気づいて

{ \displaystyle
  (n-1)\frac{{\hat{\sigma}}^2}{{\sigma}^2} = \sum_{k=1}^{n} (\frac{(x_i - \bar{x})}{\sigma})^2 \\
}

は自由度n-1のΧ二乗分布に従うと分かる。

点推定と区間推定

母集団の性質をしりたいが、母集団全体を調べることが不可能な場面ではいくつかの標本から母集団の性質を推定する必要がある。その一連の操作のうち、母集団のパラメータをただ一つの数値に推定するのが点推定、パラメータの値が存在する確率の高い区間を推定するのが区間推定である。つまり点推定ではもっとも可能性の高い値を推定するし、区間推定では事前に有意水準なるものを定めてそれに基づいた確率でパラメータが存在する区間を推定する。

推定に求められる性質

推定をするとき、その推定結果や手法に求められる性質とはなにかを調べる。例えばあるパラメータが90%の確率で存在する区間を求めたいとして、そのような区間はただ一つに決まるわけではなく実際確率変数が連続的なものならば無限に存在する。その中から適当に一つ選ぶわけではなく何か基準があって適切なものを選ぶと考えるのが普通(かも。そのような基準となる性質を書いていく。

普遍性

推定量の平均値が母数に一致するとき、その推定量は普遍性があるという。つまりなんか推定量の分布があったら、母数に一致する点が一番やまなりになっているのが望ましいということ?たとえば標本平均の分布の平均値は母平均に一致したからこれは普遍性をもつ。一方標本分散の分布の平均値は(偏差の二乗和を標本数で割った標本分散の期待値は..!)

{ \displaystyle
s^2 \\
= \frac{1}{n} \sum_{k=1}^{n} (x_k - \bar{x})^2 \\
= \frac{1}{n} \sum_{k=1}^{n} (x_k - \mu + \mu - \bar{x})^2 \\
= \frac{1}{n} \sum_{k=1}^{n} [ (x_k - \mu)^2 - 2(x_k - \mu)(\bar{x} - \mu) +(\bar{x} - \mu)^2 ] \\
\\
\frac{1}{n} \sum_{k=1}^{n} (x_k - \mu)^2 = このまま\\
\\
\frac{1}{n} \sum_{k=1}^{n} 2(x_k - \mu)(\bar{x} - \mu)\\
 = 2(\bar{x} - \mu) \frac{1}{n} \sum_{k=1}^{n} (x_k - \mu)\\
 = 2(\bar{x} - \mu) \frac{1}{n} (\sum_{k=1}^{n} x_k - n\mu)\\
 = 2(\bar{x} - \mu) (\frac{1}{n} \sum_{k=1}^{n} x_k - \mu)\\
 = 2(\bar{x} - \mu) (\bar{x} - \mu)\\
 = 2(\bar{x} - \mu)^2 \\
\\
\frac{1}{n} \sum_{k=1}^{n} (\bar{x} - \mu)^2  = (\bar{x} - \mu)^2 \\
\\
以上の式より、\\
s^2 = \frac{1}{n} \sum_{k=1}^{n} (x_k - \mu)^2 - 2(\bar{x} - \mu)^2 + (\bar{x} - \mu)^2 \\
 =  \frac{1}{n} \sum_{k=1}^{n} (x_k - \mu)^2 - (\bar{x} - \mu)^2
}
これが標本分散の式を変形した形で、この標本分散の分布の平均は、
{ \displaystyle
E(s^2) \\
 = E(\frac{1}{n} \sum_{k=1}^{n} (x_k - \mu)^2 - (\bar{x} - \mu)^2)\\
 = \frac{1}{n}E(\sum_{k=1}^{n} (x_k - \mu)^2 - (\bar{x} - \mu)^2))\\
 = \frac{1}{n} [ \sum_{k=1}^{n}E((x_k - \mu)^2) - E((\bar{x} - \mu)^2) ]\\
 = {\sigma}^2 - \frac{1}{n}{\sigma}^2\\
 = \frac{n-1}{n}{\sigma}^2
}

この最後の式は母集団の分散のパラメータσ二乗と一致していないから、標本分散には普遍性があるとは言えず推定量としては適切ではない。そのため推定量として適切な形にするために標本分散に{ \displaystyle \frac{n}{n-1} }を掛けたものを不偏分散と呼び推定量として用いる。

有効性

いくつかの同じパラメータに対する不偏推定量があったとしてそのなかで一番よいものは?もしも推定量の分布の分散が大きな値だったらいくら不偏推定量であってもその分布の平均値から大きくはずれた値をとる可能性が高くなってしまうから、より推定量の分布の分散の小さいものを適切なものとする、このとき分散が小さいほうが有効性があるという(らしい)。

一致性

推定量が母数のパラメータに確率収束する性質があるかどうかということ。ざっくりいうと、標本数がたくさんあればあるほど、推定量が母数に近くなっていくなら一致性があると言う。たとえば標本数が十分大きいと標本平均は大数の法則から母平均に近づいていくから標本平均は一致性がある。

だけど、試験にでるのはこういうことではなく実際にデータが与えられてそれを検定、推定する問題らしかった。

点推定

点推定の手法はいくつかあるが...

最尤推定

試験範囲外らしいのでここでは取り扱わず、パターン認識とかのメモをするときに詳しく記述したいです。
母数のパラメータをΘと記述して、母集団の確率密度関数をf(x,Θ)と記述する。このとき、標本x_iを得られる確率はf(x_i,Θ)である。もしも標本x_1 ... x_n がそれぞれ独立に同一の分布fに従うなら、(こういうのをi.i.d.と書く)これらの結合確率密度関数

{ \displaystyle
L(\theta) = \prod_{k=1}^n f(x_k,\theta)
}

と記述できる。もっともそれらしい母数を選ぶならば、この関数Lを最大にするようなΘを選びたい。つまり、子の関数をパラメータΘに関して微分して0となるようなパラメータΘの値を推定値にするのが最尤(もっとも尤度が高い)推定法。

区間推定

簡単に言うと有意水準なる値αを定めて、1-αの確率で母数が含まれる区間wp推定する。区間を推定するためには既知の分布を用いるので、推定したい母数のパラメータが既知の密度関数の式の形とどのように対応しているか理解していれば解けるっぽそうだ。Pr(**)は**が真となる確率、Z_kは正規分布表を見たらわかる値。

分散既知の正規分布に従う母集団の母平均の区間推定(データ数が多い場合)

標本平均は{ \displaystyle N(\mu,\frac{{\sigma}^2}{n}) }にしたがい、標準正規分布正規分布表を用いて「この区間に入る確率は???だ」と分かるからなんとなくゴールが見える。
{ \displaystyle  
\bar{x} は N(\mu,\frac{{\sigma}^2}{n})に従う。\\
 -> \frac{\bar{x} - \mu}{\sqrt{\frac{{\sigma}^2}{n}}} は N(0,1)に従う。 \\
 -> Pr(Z_{-\frac{\alpha}{2}} \leq \frac{\bar{x} - \mu}{\sqrt{\frac{{\sigma}^2}{n}}} \leq Z_{\frac{\alpha}{2}})\\
 -> Pr(Z_{-\frac{\alpha}{2}}{\sqrt{\frac{{\sigma}^2}{n}}} \leq {\bar{x} - \mu} \leq Z_{\frac{\alpha}{2}}{\sqrt{\frac{{\sigma}^2}{n}}})\\
 -> Pr(\bar{x} - Z_{-\frac{\alpha}{2}}{\sqrt{\frac{{\sigma}^2}{n}}} \leq {\mu} \leq \bar{x} + Z_{\frac{\alpha}{2}}{\sqrt{\frac{{\sigma}^2}{n}}})\\
}

と式変形ができて、これが信頼区間のもととなる、つまり有意水準αを定めたら母平均の区間推定の結果は

{ \displaystyle  \bar{x} - Z_{-\frac{\alpha}{2}}{\sqrt{\frac{{\sigma}^2}{n}}} \leq {\mu} \leq \bar{x} + Z_{\frac{\alpha}{2}}{\sqrt{\frac{{\sigma}^2}{n}}}}

である。

正規分布に従う母集団の母分散の区間推定(データ数が多い場合)

標本分散の分布を求めるとき、標準正規分布に従う確率変数の二乗和がΧ二乗分布に従うことを利用したから、区間推定ではΧ二乗分布を利用することになるとすぐにわかる。標本分散は(くりかえしになるけど忘れないために書くと)
{ \displaystyle 
 \hat{\sigma}^2 = \frac{n}{n-1} \frac{\sum_{k = 1}^{n} (x_k - \bar{x})^2}{n} \\
 ->  \frac{\hat{\sigma}^2 (n-1)}{{\sigma}^2} = \sum_{k = 1}^{n} (\frac{x_k - \bar{x}}{\sigma})^2 \\
 -> \frac{x_k - \bar{x}}{\sigma} は標準正規分布に従うから\frac{\hat{\sigma}^2 (n-1)}{{\sigma}^2}は\\
                                  自由度n-1のΧ二乗分布に従うと分かる。
 ->Pr(\chi_{\frac{\alpha}{2}} \leq \frac{\hat{\sigma}^2 (n-1)}{{\sigma}^2} \leq \chi_{1 - \frac{\alpha}{2}})\\
 ->Pr(\chi_{\frac{\alpha}{2}}{\hat{\sigma}^2 (n-1)} \leq {{\sigma}^2}^{-1} \leq \chi_{1 - \frac{\alpha}{2}}{\hat{\sigma}^2 (n-1)} )\\
 ->Pr(\frac{\hat{\sigma}^2 (n-1)}{\chi_{1 - \frac{\alpha}{2}}} \leq {\sigma}^2 \leq \frac{\hat{\sigma}^2 (n-1)}{\chi_{\frac{\alpha}{2}}{\hat{\sigma}^2 (n-1)}})
 }

と分かる。Χ二乗分布の自由度はすべてn-1。

標本数が30以下(小さい)場合の母平均の区間推定

試験問題でデータが手計算できるくらいにしか与えられてない場合はこっちをつかう。そもそも、データ数が少なすぎると母分散が既知となっていることは少ない。そのため標本分散を使うけれど、ここで未だに手をつけていないF分布、t分布が登場するっぽい。

{ \displaystyle  F = \frac{\frac{Y_1}{m}}{\frac{Y_2}{n}}} 、詳細はもう書いたので略しますが、このFは自由度(m,n)のF分布に従う。ここで
{ \displaystyle 
t \\
 = \frac{\frac{\bar{x} - \mu}{1}}{\frac{s}{\sqrt{n}}} \\
 = \sqrt{\frac{\frac{(\bar{x} - \mu)^2}{1^2}}{\frac{s^2}{n}}}\\
}

と書けば、
{ \displaystyle
\frac{\frac{(\bar{x} - \mu)^2}{1^2}}{\frac{s^2}{n}}
}
は自由度(1,n-1)F分布の形をしていることに気づくから、。
{ \displaystyle
\sqrt{\frac{\frac{(\bar{x} - \mu)^2}{1^2}}{\frac{s^2}{n}}} = \frac{\frac{\bar{x} - \mu}{1}}{\frac{s}{\sqrt{n}}}
}
はt分布に従っていることが分かる。こうして、標本の数が小さい時は{ \displaystyle \frac{\frac{\bar{x} - \mu}{1}}{\frac{s}{\sqrt{n}}} =  \frac{\frac{\bar{x} - \mu}{1}}{\frac{s}{\sqrt{n}}}}が自由度n-1のt分布に従うことが分かったからこれ利用して区間推定をすることになる。
{ \displaystyle 
1 - \alpha \\
= Pr(t_{-\frac{\alpha}{2}} \leq  \frac{\frac{\bar{x} - \mu}{1}}{\frac{s}{\sqrt{n}}} \leq t_{\frac{\alpha}{2}} )\\
= Pr(t_{-\frac{\alpha}{2}}\frac{s}{\sqrt{n}} \leq  \frac{\bar{x} - \mu}{1} \leq t_{\frac{\alpha}{2}}\frac{s}{\sqrt{n}} )\\
= Pr( \bar{x} - t_{-\frac{\alpha}{2}}\frac{s}{\sqrt{n}} \leq  {\mu} \leq \bar{x} + t_{\frac{\alpha}{2}}\frac{s}{\sqrt{n}} )\\
 }
と変形できて、区間推定が可能になる。

...たぶん上の理解しながら教科書の問題何回かといたら試験はなんとかなると信じている()

仮説検定

こんどはいくつか標本がある状態で「母数=??ってほんと?」という質問に「確率低すぎてたぶんほぼない」か「??が嘘だとこれだけのデータからは言いきれない」かを判定するのが仮説検定。

間違った結果

仮説を立ててそれが正しいかどうかを見ていく過程でおこる間違いは二種類ある.

  • 実は正しい仮説を誤っていたとする
  • 実は誤っていた仮説を正しいとする

この二種でそれぞれ第1種の間違い、第二種の間違い(英語ではtype 1 errorなど)というストレートな名前がついている。このうち、第1種の間違いをおかしてしまう確率をαと書いて有意水準と言う。有意水準を定めて、仮説が棄却されない場合は第二種の間違いを犯す確率を調べることで仮説を棄却しないという結果にどれほどの信頼性があるのかをしらべることができる。

検定の手順

なんか結構ざっくりと書きます。

  • 対立仮説と帰無仮説(否定したい仮説)をたてる
  • 有意水準を決める
  • 仮説に対応する適切な検定統計量を求めて、1-αの確率で検定統計量が含まれる区間を求める
  • その区間に検定統計量が含まれているかどうかで仮説を棄却するかしないかを決定する(この結果が仮説=正しいという結果にはならない、ただ否定しないだけ)

検定には片側検定と両側検定があるけどやってけば分かるはず。簡単な例をだすと

  • 帰無仮説:Δ>0
    • 対立仮説:Δ≦0、片側検定をする
  • 帰無仮説:Δ=0
    • 対立仮説:Δ≠0、両側検定をする

この例でなんとなくわかる。ぶっちゃけ初めの方の例は仮説が点(=)なら両側検定になるし、範囲(>)ならば片側検定の問題がほとんど。以下、帰無仮説を H_0 ,対立仮説を H_1 と記述する。


{ \displaystyle  }