ゆるふわめも

東京か京都にいます。

数理統計:点推定、区間推定、検定についてのメモ

参考文献

  • 数理統計演習 (サイエンスライブラリ―演習数学) 著者名: 国沢清典 羽鳥裕久

第四、五章を参考にしています。以下は同著者の本です。上記の本は結構古いのでおそらく販売していません。この記事でのページ記述は上記の本の内部でのページ番号です。

推定

母集団からランダムに抽出される標本より母集団の統計的特性に関する推定を行うための数学的理論(p97)

点推定

はじめに言葉の定義から。

言葉の定義

点推定

母数のパラメータの推定値を求めること。パラメタが連続変数ならば厳密には一致する確率は0。
点推定 - Wikipedia

推定値

点推定によって母数を推定した値

一致推定量

推定値が母数に確率収束するならば、その推定値は一致推定量と呼ぶ。以下は確率収束の定義の項目、だけどこの辺を問いに出すのは理学部系だけな気もする。
確率変数の収束 - Wikipedia

不偏推定量

推定値も確率変数を元にして決まるものだから、推定する度に変化する。つまり推定値も確率変数の一つ。だから推定値の分布もあるはずだしその平均や分散もある。推定値の平均が母数に一致するとき、その推定値を不偏推定量という。

標本平均

標本の平均。以下記号は統一して{ \bar{x} }

標本分散

標本の分散。以下記号は統一して{ S^2 }

不偏分散

標本分散は不偏推定量でないから、それをもとにして作った母分散に関係する不偏推定量。以下記号は統一して{ \s^2 }

標本分散と不偏分散に関係する補足

まず、標本平均は母平均の不偏推定量であることは大数の法則そのものからわかる。
大数の法則 - Wikipedia

そして、標本分散については
{
S^2 \\
= \frac{1}{n} \sum_{k=1}^n (x_i - \bar{x})^2 \\
= \frac{1}{n} \sum_{k=1}^n (x_i^2 -2 x_i \bar{x} + \bar{x}^2) \\
= \frac{1}{n} \sum_{k=1}^n x_i^2 - 2 \frac{1}{n} \sum_{k=1}^n x_i \bar{x} + \frac{1}{n} \sum_{k=1}^n \bar{x}^2 \\
= \frac{1}{n} \sum_{k=1}^n x_i^2 - \bar{x}^2 \\
}
この最後の式が母分散に確率収束するから標本分散は一致推定量。

母分散の不偏推定量については今は飛ばします、時間ある時に記述。
{
S^2 \\
= \frac{1}{n} \sum_{k=1}^n (x_i - \bar{x})^2 \\
= \frac{1}{n} \sum_{k=1}^n \{ (x_i - \mu) - (\bar{x} - \mu ) \}^2 \\
= \frac{1}{n}\sum_{k=1}^n \{  (x_i - \mu)^2 -2 (x_i - \mu)(\bar{x} - \mu ) + (\bar{x} - \mu )^2 \}\\
}
と式変形すれば
[tex:{
 E(S^2) \\
= E(\frac{1}{n}\sum_{k=1}^n \{  (x_i - \mu)^2 -2 (x_i - \mu)(\bar{x} - \mu ) + (\bar{x} - \mu )^2 \} ) \\
= E(\frac{1}{n}\sum_{k=1}^n \{  (x_i - \mu)^2 \} - n(\bar{x} - \mu )^2 ) \\
= n\sigma^2 - n\frac{\sigma^2}{n}
= (n-1)\sigma^2
}
となる。よって推定値の平均が母分散に一致するために係数(n-1)をnにする必要があるとわかり不偏分散{ s^2 = \frac{n}{n-1}S^2 }が求まった。

超適当例題

データ: 10 20 30 40 50
このとき、平均と分散を推定。
標本平均:{ \frac{1}{5}(10 + 20 + 30 + 40 + 50) }
標本分散:{ \frac{1}{5}\sum_{k=1}^5(x_i - \bar{x})}
不偏分散:{ \frac{5}{5 - 1}S^2 }
推定値として、標本平均と不偏分散をとる。
http://www.tamagaki.com/index.php

区間推定

母数の含まれる区間を定めて、ある値α(有意水準)を定める。母数が含まれる確率がαとなるような区間をもとめることを区間推定と言う。
χ二乗分布とt分布の式の形に付いては推定するだけなら必要ない(しかし、推定になぜその分布表を使うのかを理解するためには当然必要知識で正直理解してないとすぐに忘れるかミスする気がするが時間ない)ので略。詳細は数理統計ハンドブック等参照。

有意水準αを定めたとする。標本平均{ \bar{x} = \sum_{i=1}^n x_i }と記述する。このとき母集団は正規分布に従うのだから、標本平均{ \sum_{i=1}^n x_i }{ N(n\mu , n\sigma^2) }に従う。つまり{ n\bar{x} ~ N(n\mu , n\sigma^2)}だから{ \bar{x} ~ N(\mu , (\frac{\sigma}{\sqrt{n}})^2) }。さらに変形すれば{ \frac{\bar{x} - \mu}{\frac{\sigma}{\sqrt{n}}} ~ N(0,1) }である。(ここで記号~は”以下の分布に従う”という意味)なので、

{
 \frac{\bar{x} - \mu}{\frac{\sigma}{\sqrt{n}}} ~ N(0,1) だから\\
 Pr(a < \bar{x} < b) = \alpha \\
 -> Pr( n_{-} < \frac{\bar{x} - \mu}{\frac{\sigma}{\sqrt{n}}} < n_{+}) = \alpha \\
 -> Pr( n_{-}\frac{\sigma}{\sqrt{n}} < {\bar{x} - \mu} < n_{+}\frac{\sigma}{\sqrt{n}}) = \alpha \\
 -> Pr( \bar{x} - n_{-}\frac{\sigma}{\sqrt{n}} < \mu< \bar{x} + n_{+}\frac{\sigma}{\sqrt{n}} ) = \alpha
}

と式変形できる、最後の式こそが求めるべき区間であり、{n_{-} , n_{+}}有意水準によって決まる値で正規分布表から読み取ればよい。この最後の式{\bar{x} - n_{-}\frac{\sigma}{\sqrt{n}} < \mu< \bar{x} + n_{+}\frac{\sigma}{\sqrt{n}} }には母分散σが現れているから、分散が既知でないならば違う方法が必要ではないかと察しが付く。

標本数がnならば自由度n-1のt分布に従う。このとき推定される区間
{\bar{x} - n_{-}\frac{S}{\sqrt{n-1}} < \mu< \bar{x} + n_{+}\frac{S}{\sqrt{n-1}} }
であり、Sは標本分散、{n_{-} , n_{+}}有意水準によって決まる値でt分布表から読み取る。ここでデータ数が少ない(n<30)ならば不偏分散を用いるべきであり不偏分散sのもとめかたを思い出せば{ s^2 = \frac{n}{n-1} S^2 }だった。つまり{ s = \sqrt{\frac{n}{n-1}} S }であって{ S = \sqrt{ \frac{n-1}{n} } s }。これを代入して、
{\bar{x} - n_{-}\frac{s}{\sqrt{n}} < \mu< \bar{x} + n_{+}\frac{s}{\sqrt{n}} }
がデータ数が少ないときに用いるべき区間

正規母集団N({\mu,\sigma^2})の母分散の区間推定

有意水準αが定められたなら、
{
 Pr( c_{-} < \frac{nS^2}{\sigma^2} < c_{+}) = \alpha
}
なる自由度n-1のχ二乗分布上の区間を作ることができる(数理統計ハンドブック参考にしました)のだから、
{
 Pr( \frac{nS^2}{c_{-}} < {\sigma^2} < \frac{nS^2}{c_{+}} ) = \alpha
}
と推定すべき区間が求められる。
{c_{-} , c_{+}}有意水準によって決まる値でχ二乗分布表から読み取る。{ c_{-} = 分布表の自由度n-1の1 + \frac{\alpha}{2}}の値、{ c_{+} = 分布表の自由度n-1の\frac{\alpha}{2}}の値である。

母平均の差の推定区間の導出

おぼえてても忘れるから導き出せるようにする。

P139を参考
二つの正規母集団があって分散が未知だけれども等しいと分かっているとする。
それぞれ{ N(\mu_1,\sigma^2),N(\mu_2,\sigma^2)}と記述して、{ N(\mu_1,\sigma^2)}からは{ x_1, \dots, x_m}のデータを、{ N(\mu_2,\sigma^2)}からは{ y_1, \dots, y_n}のデータを得られたする。このとき、

{ \frac{(\bar{x}-\bar{y}) - (\mu_1 - \mu_2)}{\sqrt{[\frac{mS_1^2 + nS_2^2}{m+n-2} (\frac{1}{m} + \frac{1}{n} )]}} }は自由度m+n-2のt分布に従うことが知られている。

ことを利用して信頼区間を導き出す。上の式がm+n+2の自由度のt分布に従うことが分かっているのだから有意水準αがあれば

{

Pr(t_{-} < \frac{(\bar{x}-\bar{y}) - (\mu_1 - \mu_2)}{\sqrt{[\frac{mS_1^2 + nS_2^2}{m+n-2} (\frac{1}{m} + \frac{1}{n} )]}} < t_{+}) < \alpha

}

となるような区間をつくる{t_{-},t_{+}}をt分布表から読み取ることができる。あとはこの式を{(\mu_1 - \mu_2)}が挟み込まれるように変形して

{
Pr(t_{-} < \frac{(\bar{x}-\bar{y}) - (\mu_1 - \mu_2)}{\sqrt{[\frac{mS_1^2 + nS_2^2}{m+n-2} (\frac{1}{m} + \frac{1}{n} )]}} < t_{+}) < \alpha \\
 -> Pr(t_{-}{\sqrt{[\frac{mS_1^2 + nS_2^2}{m+n-2} (\frac{1}{m} + \frac{1}{n} )]}} < {(\bar{x}-\bar{y}) - (\mu_1 - \mu_2)} < t_{+}{\sqrt{[\frac{mS_1^2 + nS_2^2}{m+n-2} (\frac{1}{m} + \frac{1}{n} )]}} ) < \alpha \\
 -> Pr( (\bar{x}-\bar{y}) - t_{-}{\sqrt{[\frac{mS_1^2 + nS_2^2}{m+n-2} (\frac{1}{m} + \frac{1}{n} )]}} < (\mu_1 - \mu_2) < (\bar{x}-\bar{y}) + t_{+}{\sqrt{[\frac{mS_1^2 + nS_2^2}{m+n-2} (\frac{1}{m} + \frac{1}{n} )]}} ) < \alpha

}

と求めることができる。

検定

母集団に対する仮説の正否を標本を用いて検定するための手法を論ずる。

言葉の定義

帰無仮説


帰無仮説(きむかせつ)とは - コトバンク

危険率

有意水準とも言う。以下では{\epsilon}と記述。つまり、帰無仮説によって決まる棄却域に得られた標本(のセット)が入る確率が{\epsilon}以上となるならば帰無仮説を棄却する。棄却されることは対立仮説が正しいと述べている分けではないことに注意。

両側、片側検定

 省略。

その他

 検出力や尤度比検定とかは数理統計ハンドブックが詳しいと思った(粉みかん)。

適当例題

  • 1.{N(\mu,\sigma^2)}の分布をもつ母集団からnこの標本を得た。今、分散{\sigma^2}は既に知っているとして標本から母集団の平均の値に関する帰無仮説 { H_n: \mu = \mu_0 }を検定する手法は?

初めに検定するのだから有意水準が定められていないといけないのでとりあえず有意水準を[:{\epsilon}]とする。
次に、帰無仮説 { H_n : \mu = \mu_0 }に対応する対立仮説帰無仮説 { H_n: \mu \neq \mu_0 }を立てる。
そして最後に帰無仮説 { H_n : \mu = \mu_0 }を棄却するかを決定する検定方式を決定する。有効推定量である標本平均の分布を求めたときの式を思い出すと
{ Pr( n_{-} < \frac{\bar{x} - \mu}{\sqrt{\frac{\sigma}{n}}} < n_{+}) < \epsilon }
という区間が定められて、正規分布が左右対称であること(正規分布の式の形からわかる)を思い出せば
{ \frac{|\bar{x} - \mu|}{\sqrt{\frac{\sigma}{n}}} < n_{+} }
が成り立たないなら棄却する方式をとる。
本当は検定方式の決定には第二種の過誤をする率を最低にする、とかいろいろ調べないといけないが数理統計の試験ではそこは問われないからいまはパス。だけど工学部の専門の確率の試験では試験で聞かれました。一様最強力検定やネイマンピアソン定理など、だけど一般教養dの試験では普通聞かれない、はず。



  • 2.{N(\mu,\sigma^2)}の分布をもつ母集団からnこの標本を得た。今、分散{\sigma^2}分からないとして標本から母集団の平均の値に関する帰無仮説 { H_n: \mu = \mu_0 }を検定する手法は?

分散は未知だからもう標本分散か不偏分散を使うしかないことはわかる。そして、分散が未知の時の信頼区間の式を思い出すと検定にはt分布を用いることが分かる。

{
 Pr( t_{-} < \frac{\bar{x} - \mu}{ \sqrt\frac{{s^2}}{{n-1}} } < t_{+} ) < \alpha
}

なのだから、

{
 \bar{x} - t_{-}{ \sqrt\frac{{s^2}}{{n-1}} } < \mu < \bar{x} + t_{+}{ \sqrt\frac{{s^2}}{{n-1}} }
}

が成り立たないのならば棄却する。
つまり、

{
 \frac{|\bar{x} - \mu|}{ \sqrt\frac{{s^2}}{{n-1}} } < t_{+}
}

なら棄却する、を検定方式とする。



  • 3. データが10,11,12,13,14(つまりn=5)とある時にこの母集団の平均を12としてよい?

初めに帰無仮説 { H_0 : \mu = 12 } と対立仮説 { H_0 : \mu \neq 12 }を決定する。
次にデータの標本平均と標本分散を求める。その値を{\bar{x},S^2}とする。
そして、有意水準αを定めて(普通は問題に指示されている)、{\frac{|\bar{x} - 12|}{\sqrt{\frac{S^2}{n-1}}} < t_{ \frac{\alpha}{2} に対応するt分布表の値 } }が真ならば棄却しない。



  • 4.もともと平均が12である母集団に操作を加えてデータをとるとデータが9,10,11,12,13となったとする。操作にデータの平均値を下げる効果があったと言える?有意水準はαとする。

初めに帰無仮説 { H_0 : \mu = 12 } と対立仮説 { H_0 : \mu < 12 }を決定する。対立仮説の形から片側検定と分かる。
つまり、
{
 \frac{\bar{x} - \mu}{ \sqrt\frac{{s^2}}{{n-1}} } < - t_{\alpha に対応するt分布表の値}
}
が成り立つならば帰無仮説を棄却して対立仮説を採択する。もしも帰無仮説 { H_0 : \mu = 12 } と対立仮説 { H_0 : \mu > 12 }という問題設定ならばもちろん
{
 \frac{\bar{x} - \mu}{ \sqrt\frac{{s^2}}{{n-1}} } > t_{\alpha に対応するt分布表の値}
}
が成り立つならば帰無仮説を棄却して対立仮説を採択することになる。上記ではt分布の自由度は5-1=4.



  • 5.正規母集団{N(\mu,\sigma^2)}の分散に関する検定を行う。標本{x_1, \dots, x_n}から帰無仮説 { H_0 : \sigma^2 = \sigma_0^2 }を検定する手法は?

初めに対立仮説{ H_1 : \sigma^2 \neq \sigma_0^2 }
分散の信頼区間を求めるには、二乗和に関する分布が必要であってΧ二乗分布を導入した。そして、その信頼区間有意水準をαとして
{
Pr( \frac{nS^2}{\chi_{\chi 分布表の 1 - \frac{\alpha}{2} に対応する値 }} < \sigma^2 < \frac{nS^2}{\chi_{\chi 分布表の \frac{ \alpha}{2} に対応する値 }}) < \alpha
}
であったことを思い出す。また以下では{ \epsilon = 1 - \alpha }とする。

※Χ二乗分布が二乗和に関する分布であることを忘れなければ、{ 標本分散S^2 = \frac{1}{n}\sum_{k=1}^n (x_k - \bar{x})^2 }であり、この式を変形すると{ \frac{nS^2}{\sigma^2} = \sum_{k=1}^n (\frac{x_k - \bar{x}}{\sigma})^2 }だから信頼区間の式が{ \frac{nS^2}{\chi_{\chi^2 分布に関する値}}}で記述されることが分かる。

だから検定は
{
 \frac{nS^2}{\chi_{\chi^2 分布の 1-\frac{\epsilon}{2}}} \leq \sigma^2 \leq \frac{nS^2}{\chi_{\chi^2 分布の \frac{\epsilon}{2}}}
}
ならば棄却しない。



  • 6.データが9,10,11,12,13となったとするときに、母分散はどの程度といっていい?

 もとの母集団の分布を{N(\mu,\sigma^2)}と仮定して帰無仮説と対立仮説 { H_0 : \sigma^2 = \sigma_0^2 }{ H_1 : \sigma^2 \neq \sigma_0^2 }とする。有意水準はαとする。
 初めに標本分散を求めるために標本平均を求めて、それを{\bar{x}}とする。その標本平均を用いて標本分散を計算する、そしてそれを{ S^2 = \frac{!}{n}\sum_{k=1}^n (x_k - \bar{x}) }とする。そして{\epsilon = 1 - \alpha}を用いて区間{ \frac{nS^2}{\chi_{\frac{\epsilon}{2}}} \leq \sigma^2 \leq \frac{nS^2}{\chi_{1 - \frac{\epsilon}{2}}} }が真ならば棄却しない。



  • 7.二つの母集団{ N(\mu_1,\sigma_1^2) }から標本{x_1, \dots , x_m}を、母集団{ N(\mu_2,\sigma_2^2) }から標本{y_1, \dots , y_n}を得たときにこの二つの母集団の分散が等しいかを検定する手法は?

 これを解こうとして分散比の推定についての記述をこの記事に書いてないことに気づいたけど時間内ので飛ばします、すいません。
 平均と異なり、分散の差をとろうとすると行き詰まってしまうのは分散の式が二乗和であって、分散の推定に関係する分布Χ二乗分布やF分布にあてはめることができないからだと気づく(分散の差を二乗和の式として書き表すことができない)。そして比率{ \frac{(xの標本分散 S_x)^2}{(yの標本分散 S_y)^2} }ならば自由度(m-1,n-1)F分布を利用することができる。
 つまり{\epsilon = 1 - \alpha}と定めたとして{ F_{n-1}^{m-1}(1 - \frac{\epsilon}{2}) \leq  \frac{S_x^2}{S_y^2} \leq F_{n-1}^{m-1}(\frac{\epsilon}{2})  }が成り立つならば、帰無仮説を棄却することはできない。



  • 8.あるデータ10,11,12,13,14(つまりn=5)とデータ10,10,12,13,13,15(つまりn=6)がある時にこの二つのデータの元となる母集団の分散は等しいと言える?

 有意水準をαとする。また前者のデータを{x_i},後者のデータを[tex:{y_i}と書く。
 まず初めに帰無仮説と対立仮説 { H_0 : \sigma_x^2 = \sigma_y^2 }{ H_1 : \sigma_x^2 \neq \sigma_y^2 }を立てる。次にF分布をつかって分散比の推定をしたことを思い出せば、分散比を求めるために

  1. 二つのデータの標本平均{\bar{x},\bar{y}}を求め、
  2. 標本平均を用いて標本分散{ S_x^2,S_y^2 }を求め、
  3. 比率 { \frac{S_x^2}{S_y^2} }を求め、
  4. F分布上で{\epsilon = 1 - \alpha}に対応する点{F_{6-1}^{5-1}(1- \frac{\epsilon}{2}) , F_{6-1}^{5-1}(\frac{\epsilon}{2}) }を求める

最後に、区間({F_{6-1}^{5-1}(1- \frac{\epsilon}{2}) , F_{6-1}^{5-1}(\frac{\epsilon}{2}) })に { \frac{S_x^2}{S_y^2} }が含まれていないならば帰無仮説を棄却して対立仮説を採択する。

(適合度検定、回帰分析、分散分析などは省略。)


{

}

{  }