読者です 読者をやめる 読者になる 読者になる

母平均の信頼区間を求めるための途中式:めも

数理統計のうち、区間推定について

  • 記述統計と推定・検定の違い
    • 記述統計はすべてのデータがそろっている状態でどのようにそれらを分析するか、推定・検定はすべてのデータがそろっていない状態で全体のデータの特徴を分析するということ。
    • つまり、前者は母集団を、後者は標本が分析の対象。


注:以下標準化とは
{ \displaystyle
 z = \frac{ \bar{x} - \mu }{ \frac{\hat{\sigma}}{\sqrt{N}}} \\
 \\
 なる変数zを作ること、ただし
\\
 \bar{x} := 標本平均\\
 \mu := 母平均(これから推定する値)\\
 \hat{\sigma} := 母分散、もしくは標本分散\\
 N := 標本数\\ 
}

場合分け

  • 母平均の推定

−−標本数が多いとき、30以上の時

      • 母分散が既知のとき →標準化して正規分布に結びつける
      • 母分散が未知のとき →標準化して正規分布に結びつけるために不明なパラメータ母分散を推定(標本分散を求める)
    • 標本数が少ないとき
      • 標準化した値が正規分布に従わないので、t分布を考える

母平均の推定

  • 点推定

まさに平均を一つの値に推定する。標本平均をそのまま母集団の平均と推定すること。
{ \displaystyle
\bar{x} = \frac{\sum_{n=0}^{N} a_n}{N} 
}

もちろん、実際の母集団の平均がこの値に近い確率は低い、母集団のデータが連続な変化をするならまさに同じである確率は0。

  • 標本平均の分布をもとめる,母分散が既知の場合

標本平均の分布の平均はぼ母集団の平均μだけど、分散は違う。
以下N(μ,σ^2)は正規分布のこと。
n個の標本のデータを足したものの分布を考えるとその分布は

{ \displaystyle
\sum_{i=1}^{n} N(\mu,{\sigma}^2) = N(n\mu,n{\sigma}^2)
}

になる。つまりこの分布の分散は

{ \displaystyle
n{\sigma}^2
}

なので標準偏差

{ \displaystyle
\sqrt{n{\sigma}^2}
}

nこの標本の平均値の分布を求めるためには、このnこのデータの和の分布の平均と分散をnで割ればいい。すると標本平均の分布の標準偏差

{ \displaystyle
\frac{\sqrt{n{\sigma}^2}}{n}  = \frac{{\sigma}}{\sqrt{n}} 
}

とわかる。

  • 標本平均の分布をもとめる,母分散が未知の場合

既知のときと違って、母集団の分散を標本から推定する。
その推定値は

{ \displaystyle
{\hat{\sigma}}^2 = \frac{n}{n-1} s^2 = \frac{1}{n-1}\sum_{k=1}^{N} ( x_k - \bar{x} )^2
}

ここでなぜ、(n-1)が分母なのかを考える。つまり、なぜ標本分散がそのまま母分散の普遍推定値にならないの?ということ。それは、


母分散 = 標本分布のばらつき具合 + 採取する標本のばらつき具合


だかららしい。つまり
{ \displaystyle
\frac{{\sigma}^2}{N} : 標本分布のばらつき具合
}
△母平均μが決まっているときの標本平均のばらつき具合


{ \displaystyle
\frac{\sum_{ k = 1 }^{N}( x_k - \bar{x} )^2}{N}  : 採取する標本のばらつき具合  \\
\bar{X} : = 標本平均
}
△標本平均が決まっているときの標本のばらつき具合


の和が母分散と考えられて、これらの和を実際に計算すると
{ \displaystyle
\frac{{\sigma}^2}{N} + \frac{\sum_{ k = 1 }^{N}( x_k - \bar{x} )^2}{N}  \\
 = \frac{\sum_{ k = 1 }^{N}( x_k - \bar{x} )^2}{N - 1} \\
 = \hat{\sigma}\\
}

となる。結局・・・

母平均の推定

  • 標準偏差、もしくは母分散がわかる場合(既知の場合)
    • 標本平均の分布がわかるので
    • それを標準化するとそのZは正規分布N(0,1)に従うことから信頼区間がわかる
  • 標準偏差、もしくは母分散がわからない場合(未知の場合)
    • 標本平均の分布を決めるために母標準偏差(もしくは母分散)を標本から推定して、つまり標本分散を求める
    • それを標準化するとそのZは正規分布N(0,1)に従うことから信頼区間がわかる
  • ただし、データ数が少ないときは正規分布の表をみて値を決めていた部分をt分布の表をみて決める必要がある、
    • 標準化した値はもはや正規分布に従わないから
    • データ数がNなら、自由度N - 1の表をみる
      • たとえばデータNこの平均が決まっているとして、N - 1このデータの値がわかると最後の一個のデータの値が自動的に決まってしまう→自由に決められるデータの数は N-1こ!

参考文献