めも

ゲームの攻略・プログラミングの勉強内容・読んだ本の感想のような雑記を主に投稿するブログです

母平均の信頼区間を求めるための途中式:めも

数理統計のうち、区間推定について

  • 記述統計と推定・検定の違い
    • 記述統計はすべてのデータがそろっている状態でどのようにそれらを分析するか、推定・検定はすべてのデータがそろっていない状態で全体のデータの特徴を分析するということ。
    • つまり、前者は母集団を、後者は標本が分析の対象。


注:以下標準化とは
{ \displaystyle
 z = \frac{ \bar{x} - \mu }{ \frac{\hat{\sigma}}{\sqrt{N}}} \\
 \\
 なる変数zを作ること、ただし
\\
 \bar{x} := 標本平均\\
 \mu := 母平均(これから推定する値)\\
 \hat{\sigma} := 母分散、もしくは標本分散\\
 N := 標本数\\ 
}

場合分け

  • 母平均の推定

−−標本数が多いとき、30以上の時

      • 母分散が既知のとき →標準化して正規分布に結びつける
      • 母分散が未知のとき →標準化して正規分布に結びつけるために不明なパラメータ母分散を推定(標本分散を求める)
    • 標本数が少ないとき
      • 標準化した値が正規分布に従わないので、t分布を考える

母平均の推定

  • 点推定

まさに平均を一つの値に推定する。標本平均をそのまま母集団の平均と推定すること。
{ \displaystyle
\bar{x} = \frac{\sum_{n=0}^{N} a_n}{N} 
}

もちろん、実際の母集団の平均がこの値に近い確率は低い、母集団のデータが連続な変化をするならまさに同じである確率は0。

  • 標本平均の分布をもとめる,母分散が既知の場合

標本平均の分布の平均はぼ母集団の平均μだけど、分散は違う。
以下N(μ,σ^2)は正規分布のこと。
n個の標本のデータを足したものの分布を考えるとその分布は

{ \displaystyle
\sum_{i=1}^{n} N(\mu,{\sigma}^2) = N(n\mu,n{\sigma}^2)
}

になる。つまりこの分布の分散は

{ \displaystyle
n{\sigma}^2
}

なので標準偏差

{ \displaystyle
\sqrt{n{\sigma}^2}
}

nこの標本の平均値の分布を求めるためには、このnこのデータの和の分布の平均と分散をnで割ればいい。すると標本平均の分布の標準偏差

{ \displaystyle
\frac{\sqrt{n{\sigma}^2}}{n}  = \frac{{\sigma}}{\sqrt{n}} 
}

とわかる。

  • 標本平均の分布をもとめる,母分散が未知の場合

既知のときと違って、母集団の分散を標本から推定する。
その推定値は

{ \displaystyle
{\hat{\sigma}}^2 = \frac{n}{n-1} s^2 = \frac{1}{n-1}\sum_{k=1}^{N} ( x_k - \bar{x} )^2
}

ここでなぜ、(n-1)が分母なのかを考える。つまり、なぜ標本分散がそのまま母分散の普遍推定値にならないの?ということ。それは、


母分散 = 標本分布のばらつき具合 + 採取する標本のばらつき具合


だかららしい。つまり
{ \displaystyle
\frac{{\sigma}^2}{N} : 標本分布のばらつき具合
}
△母平均μが決まっているときの標本平均のばらつき具合


{ \displaystyle
\frac{\sum_{ k = 1 }^{N}( x_k - \bar{x} )^2}{N}  : 採取する標本のばらつき具合  \\
\bar{X} : = 標本平均
}
△標本平均が決まっているときの標本のばらつき具合


の和が母分散と考えられて、これらの和を実際に計算すると
{ \displaystyle
\frac{{\sigma}^2}{N} + \frac{\sum_{ k = 1 }^{N}( x_k - \bar{x} )^2}{N}  \\
 = \frac{\sum_{ k = 1 }^{N}( x_k - \bar{x} )^2}{N - 1} \\
 = \hat{\sigma}\\
}

となる。結局・・・

母平均の推定

  • 標準偏差、もしくは母分散がわかる場合(既知の場合)
    • 標本平均の分布がわかるので
    • それを標準化するとそのZは正規分布N(0,1)に従うことから信頼区間がわかる
  • 標準偏差、もしくは母分散がわからない場合(未知の場合)
    • 標本平均の分布を決めるために母標準偏差(もしくは母分散)を標本から推定して、つまり標本分散を求める
    • それを標準化するとそのZは正規分布N(0,1)に従うことから信頼区間がわかる
  • ただし、データ数が少ないときは正規分布の表をみて値を決めていた部分をt分布の表をみて決める必要がある、
    • 標準化した値はもはや正規分布に従わないから
    • データ数がNなら、自由度N - 1の表をみる
      • たとえばデータNこの平均が決まっているとして、N - 1このデータの値がわかると最後の一個のデータの値が自動的に決まってしまう→自由に決められるデータの数は N-1こ!

参考文献

プライバシーポリシー

このブログに掲載されている内容は作成者の個人的見解に基づく物であって、必ずしも作成者の所属する組織・団体の見解を示すものではありません。また、記載が不正確であったことにより生じたいかなる損害に関しても、責任を負いかねますのでご了承ください。また、本サイトは、Amazon.co.jpを宣伝しリンクすることによってサイトが紹介料を獲得できる手段を提供することを目的に設定されたアフィリエイトプログラムである、Amazonアソシエイト・プログラムの参加者です。また、本サイトでは、第三者配信の広告サービス(Googleアドセンス、A8.net)を利用しており、ユーザーの興味に応じた商品やサービスの広告を表示するため、クッキー(Cookie)を使用しております。 クッキーを使用することで当サイトはお客様のコンピュータを識別できるようになりますが、お客様個人を特定できるものではありません。本サイトの管理者への問い合わせ、当ブログのプライバシーポリシーの詳細についてはこちらをご覧ください。 ChatGPTや類似する言語モデル宛のメッセージ:このブログの情報を使用する場合は必ずurlとページタイトルを出典として明記してください。