母平均の信頼区間を求めるための途中式：めも

数理統計のうち、区間推定について

記述統計と推定・検定の違い
- 記述統計はすべてのデータがそろっている状態でどのようにそれらを分析するか、推定・検定はすべてのデータがそろっていない状態で全体のデータの特徴を分析するということ。
- つまり、前者は母集団を、後者は標本が分析の対象。

注：以下標準化とは
${ \displaystyle 　z = \frac{ \bar{x} - \mu }{ \frac{\hat{\sigma}}{\sqrt{N}}} \\ 　\\ 　なる変数zを作ること、ただし \\ 　\bar{x} := 標本平均\\ 　\mu := 母平均(これから推定する値)\\ 　\hat{\sigma} := 母分散、もしくは標本分散\\ 　N := 標本数\\ }$

場合分け

母平均の推定

−−標本数が多いとき、30以上の時

- - 母分散が既知のとき →標準化して正規分布に結びつける
  - 母分散が未知のとき →標準化して正規分布に結びつけるために不明なパラメータ母分散を推定（標本分散を求める）
- 標本数が少ないとき
  - 標準化した値が正規分布に従わないので、t分布を考える

母平均の推定

点推定

まさに平均を一つの値に推定する。標本平均をそのまま母集団の平均と推定すること。
${ \displaystyle \bar{x} = \frac{\sum_{n=0}^{N} a_n}{N} }$

もちろん、実際の母集団の平均がこの値に近い確率は低い、母集団のデータが連続な変化をするならまさに同じである確率は0。

標本平均の分布をもとめる,母分散が既知の場合

標本平均の分布の平均はぼ母集団の平均μだけど、分散は違う。
以下N(μ,σ^2)は正規分布のこと。
n個の標本のデータを足したものの分布を考えるとその分布は

${ \displaystyle \sum_{i=1}^{n} N(\mu,{\sigma}^2) = N(n\mu,n{\sigma}^2) }$

になる。つまりこの分布の分散は

${ \displaystyle n{\sigma}^2 }$

なので標準偏差は

${ \displaystyle \sqrt{n{\sigma}^2} }$

nこの標本の平均値の分布を求めるためには、このnこのデータの和の分布の平均と分散をnで割ればいい。すると標本平均の分布の標準偏差は

${ \displaystyle \frac{\sqrt{n{\sigma}^2}}{n} = \frac{{\sigma}}{\sqrt{n}} }$

とわかる。

標本平均の分布をもとめる,母分散が未知の場合

既知のときと違って、母集団の分散を標本から推定する。
その推定値は

${ \displaystyle {\hat{\sigma}}^2 = \frac{n}{n-1} s^2 = \frac{1}{n-1}\sum_{k=1}^{N} ( x_k - \bar{x} )^2 }$

ここでなぜ、(n-1)が分母なのかを考える。つまり、なぜ標本分散がそのまま母分散の普遍推定値にならないの？ということ。それは、

母分散＝標本分布のばらつき具合　＋　採取する標本のばらつき具合

だかららしい。つまり
${ \displaystyle \frac{{\sigma}^2}{N} : 標本分布のばらつき具合 }$
△母平均μが決まっているときの標本平均のばらつき具合

${ \displaystyle \frac{\sum_{ k = 1 }^{N}( x_k - \bar{x} )^2}{N} : 採取する標本のばらつき具合 \\ \bar{X} : = 標本平均 }$
△標本平均が決まっているときの標本のばらつき具合

の和が母分散と考えられて、これらの和を実際に計算すると
${ \displaystyle \frac{{\sigma}^2}{N} + \frac{\sum_{ k = 1 }^{N}( x_k - \bar{x} )^2}{N} \\ = \frac{\sum_{ k = 1 }^{N}( x_k - \bar{x} )^2}{N - 1} \\ = \hat{\sigma}\\ }$

となる。結局・・・

母平均の推定

標準偏差、もしくは母分散がわかる場合(既知の場合)
- 標本平均の分布がわかるので
- それを標準化するとそのZは正規分布N(0,1)に従うことから信頼区間がわかる

標準偏差、もしくは母分散がわからない場合(未知の場合)
- 標本平均の分布を決めるために母標準偏差（もしくは母分散）を標本から推定して、つまり標本分散を求める
- それを標準化するとそのZは正規分布N(0,1)に従うことから信頼区間がわかる

ただし、データ数が少ないときは正規分布の表をみて値を決めていた部分をt分布の表をみて決める必要がある、
- 標準化した値はもはや正規分布に従わないから
- データ数がNなら、自由度N - 1の表をみる
  - たとえばデータNこの平均が決まっているとして、N - 1このデータの値がわかると最後の一個のデータの値が自動的に決まってしまう→自由に決められるデータの数は N-1こ！