数理統計、演習問題のメモ2（正規分布、統計量の分布）

正規分布に関する標本平均と標本分散

ある地域の男性は体重が平均50、標準偏差10に従っている。

地域で特に重い上位a％はどれくらいの体重がある？
n人適当に選んでその平均がb以上の体重をもつ確率は？
n人適当に選んでその標本分散がc以上の体重をもつ確率は？
二人適当に選んでその体重差がd以上になる確率は？
適当に一人えらんで体重を記録していく、100人記録したときに総重量が5500を越える確率は？

解:
1.
標準化した確率変数 ${Z = \frac{X - \mu}{\sigma}}$ は {N(0,1)}

分布に従う。

${\because }$ Xの確率密度関数は
${ N(\mu,\sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}} e^{-(\frac{x - \mu}{\sigma})^2} }$
に従っている。ここで ${ Y = \frac{X - \mu}{\sigma} }$ の変数変換を行う。この時のYの確率密度関数は ${X = Y\sigma + \mu}$ を代入すると標準正規分布であることが確認できる。

よって正規分布表において ${ t_{1 - \frac{a}{100}} = \frac{X - \mu}{\sigma} }$ となるようなXが解。

2.
　n人適当に選んだときの標本平均をもとめる式は ${ \bar{\mu} = \frac{1}{n} \sum_{k=1}^n x_i }$ であり、その分布を求めることで確率を求める。
${ E(\bar{\mu}) \\ = E[ \frac{1}{n} \sum_{k=1}^n x_i ] \\ = \frac{1}{n} \sum_{k=1}^n E[x_i] \\ = \frac{1}{n} n \mu \\ = \mu }$
だから標本平均の分布の平均は母平均に一致する。標本平均の分布の分散は
${ { \displaystyle V( \bar{x} ) \\ = V( \frac{1}{n} \sum_{k = 1}^{n} x_i )\\ = (\frac{1}{n})^2 V( \sum_{k=1}^{n} x_i )\\ = \frac{1}{n^2} \sum_{k=1}^{n} V( x_i )\\ = \frac{1}{n^2} \sum_{k=1}^{n} {\sigma}^2\\ = \frac{{\sigma}^2}{n} } }$ だから標本平均の分布は ${N(\mu,\frac{\sigma^2}{n})}$ 。
このことから「n人適当に選んでその平均がb以上の体重をもつ確率」を求めるためにはn人選んだときの標本平均の分布 ${N(50,\frac{10^20}{n})}$ と標準正規分布表を結びつける必要がある。だから標準化をした確率変数 ${ Z = \frac{\bar{x} - \mu}{\sqrt{\frac{10^2}{n}}} }$ から解が求められる。
3.
　標本分散の分布は正規分布に関連付けてとくことはできない。

${\because }$ 　分散は二乗和の平均値であって、確率変数の二乗がでてくるから単純に「独立な確率変数の和の平均はそれぞれの分布の平均の和」であることを用いて分布の平均を求めることはもうできない。

そこで今度は ${\chi^2}$ 分布を用いるべきだときづく。

独立に標準正規分布に従う k 個の確率変数 X1, ..., Xk をとる。このとき、統計量
${ Z = \sum_{k=1}^n X_i^2 }$
の従う分布のことを自由度 k のカイ二乗分布と呼ぶ。

引用：カイ二乗分布 - Wikipedia

独立な標準正規分布をもつ確率変数をつくるためには ${\frac{x_i - \mu}{\sigma}}$ とすればいいからこの形の変数の二乗和ならばこの分布に結びつけられる。分散Yを求める式は ${ Y = \frac{1}{n}\sum(x_i - \mu )^2 }$ なのだから両辺を母分散 ${\sigma^2}$ で割ってnをかけた

${ \frac{Yn}{\sigma^2} = \sum (\frac{x_i - \mu}{\sigma})^2 }$

は ${\chi^2}$ 分布(自由度n-1)に従う。すなわち ${ \frac{Yn}{10^2} }$ の分布が分かるのだから解が求まる。
4.
　標本の差の分布を求める必要がある。それぞれ独立にとるとして新しい確率変数 ${Y = X_1 - X_2}$ の分布が分かればいい。もしもYの母平均と母分散が既知ならば標準化して ${Z^* = \frac{y - \mu_y}{\sigma_y}}$ とすればいいことに気づくからこの分布を求めるためにつくる必要がある標準化した確率変数は

${ Z = \frac{(x_1 - x_2) - (\mu - \mu)}{(x_1 - x_2)の標準偏差 = \sqrt{2\sigma^2}} }$

に従うことから解が求められる。独立出ない場合は ${Y = X_1 - X_2}$ の分散は ${Var(X_1) + Var(X_2) - Cov(X_1 , X_2) }$ に従うことを利用する。そもそも二つの確率変数の定数倍の和と差の分散は
${ { Var(aX + bY) \\ = E(((aX + bY)-\bar{(aX + bY)})^2) \\ = E( (a(X - \bar{X}) - b(Y - \bar{Y}) )^2 ) \\ = a^2E( (X-\bar{X})^2) + b^2E( (Y - \bar{Y})^2 ) + 2abCov(X,Y) } }$
から求められる。今は独立なので共分散はゼロで、a = 1,b = -1とした。