ゆるふわめも

東京か京都にいます。

数理統計、演習問題のメモ(区間推定、検定、適合度検定、独立性検定、正規分布)

参考文献など

以下解答のめも

数理統計、演習問題のメモ1、数理統計、演習問題のメモ2を書いたのですがこの記事にまとめて過去記事を削除しました。内容があっている保証はありません。記号の意味は
{
 \mu := 母平均 \\
 \sigma^2 := 母分散 \\
 S^2 := 標本分散 \\
 s^2 := 不偏分散 \\
 \bar{x} := 標本平均 \\
 N(\mu,\sigma^2) := 平均\mu,分散\sigma^2 の正規分布 
}
ですが細かい定義等はこの記事では省略してます。

分布に関する問題

正規分布

例題:ある地域の成人の体重はなんと平均100,標準偏差10の正規分布に従うことが分かっている。単位はkg。

  • 上位10%は何キロ以上の体重?

解:正規分布表に当てはめるために標準正規分布にしたがうように標準化した変数
{
 Z = \frac{x - \mu}{\sqrt{\sigma^2}}
}
であり、上位10%を見るために0.5-0.1=0.4の点を見る。よって、
{
 0.4 = \frac{x - \mu}{\sqrt{\sigma^2}}
}
を満たすxが解。

  • 10人ランダムに選んだときの平均体重が105を越える確率

解:10人選んだ時の平均体重の分布を求める必要がある。それぞれ独立に選んでいるからその分布の平均は{\mu}であり、その分布の分散については独立な確率変数X、Yを考えて
{
Var(aX + bY) \\
= E(((aX + bY)-\bar{(aX + bY)})^2) \\
= E( (a(X - \bar{X}) - b(Y - \bar{Y}) )^2 ) \\
= a^2E( (X-\bar{X})^2) + b^2E( (Y - \bar{Y})^2 ) + 2abCov(X,Y)
}
とできて、X、Yが独立なら共分散は0だから単純に10この確率変数の和の分布の分散は{10\sigma^2}とわかる。平均なので分散を{10^2}で割って
よって正規分布{N(\mu,\frac{\sigma^2}{10})}に従う。あとは標準化して確率が分かる。

  • 10人ランダムに選んだときその標本分散(不偏分散)が5を越える確率

解:標本分散を求めるときに、2乗和がでてくるから{\chi^2}分布を使用するとわかる。
{
 s^2 = \frac{n}{n-1} S^2 = \frac{1}{n-1} \sum_{k=1}^10 (x - \bar{x})^2
}
{\chi^2}分布を当てはめるために上記の式を変形して
{
 \frac{(n-1)s^2}{\sigma^2} = \sum_{k=1}^10 (\frac{x - \bar{x}}{\sigma})^2
}
にあてはめて、自由度9のカイ2乗分布表を参考にする。

  • ランダムに二人選んだ場合の差が10以上になる確率。

{
Var(aX + bY) \\
= E(((aX + bY)-\bar{(aX + bY)})^2) \\
= E( (a(X - \bar{X}) - b(Y - \bar{Y}) )^2 ) \\
= a^2E( (X-\bar{X})^2) + b^2E( (Y - \bar{Y})^2 ) + 2abCov(X,Y)
}
でa=1,b=-1,共分散0としてその差の分散が求まる。差の平均値は0。

  • この地域からランダムに100人選んだ場合、10500を越える確率。

解:100人の分布は平均100{\mu}、分散も{100\sigma^2}正規分布に従う。

二項分布

  • おもてが出る確率をpとするとき、1000回投げたときの表が出た回数をXとして
    • Xの平均と分散は?

解:式を二項分布で表して、平均は1000p,分散は1000p(1-p)。確率母関数を用いるとすぐに求まる。

    • X>100の確率は?

解:正規分布に近似して{N(np,np(1-p))}を用いて確率をもとめる。標準化した変数を導入して正規分布表を参照すればいい。

ポアソン分布

  • 試験会場に誕生日が同じ人が3人以上いる確率。

(実際には正しくないが)一年を365日で固定して、すべての日にちに生まれる確率は等しいとする。試験会場には1000人いるとして、平均して{\frac{1000}{365}}人が同じ日にち。これをパラメータとしたポアソン分布を考えると
{
 P(x) = \frac{\theta^x e^{-\theta}}{x!}
}
となる、あとは 1 - P(0) - P(1) - P(2) が解。

検定

母比率の検定

  • 母集団の比率の検定

 比率は確率変数が1,0しかとらないときのその確率変数の平均値とみてとれるから二項分布を正規分布で近似したときの平均値の分布の形を求めると、{N(p,\frac{p(1-p)}{n})}と求められる。検定量{Z = \frac{p' - p}{\sqrt{\frac{p(1-p)}{n}}}}を用いて検定を行う。比率の信頼区間は検定量の式を変形して

{
[ p - \alpha \sqrt{\frac{p(1-p)}{n}} , p + \alpha \sqrt{\frac{p(1-p)}{n}}]
}

に標本の比率が含まれるかで検定できる。

  • 二つの母集団の比率が等しいかの検定

 正規分布の母集団からの確率変数の差の分布を求めたときのことを思い出し、さらに上述の比率の検定の考え方を用いる。ふたつの母集団は完全に独立しているとかていすれば、二つの母集団間の確率変数の共分散は0だから二つの比率の差を求めるときに用いる検定量

{

Z = \frac{(p_1 - p_2) - (p - p)}{\sqrt{p(1-p)\{\frac{1}{n} + \frac{1}{m}\}}}

}

の分母の式も求められる。

正規母集団の検定

 初めに標本平均と標本分散(標本が少ないときは不偏分散{s^2 = \frac{n}{n-1}S^2})を初めに求める。検定なので有意水準を定めて、さらに帰無仮説と対立仮説を定める。

  • 母平均に関する検定

 正規分布からとった標本の平均値の分布は{N(\mu,\frac{\sigma^2}{n})}に従うことを考える。もしも、分散が既知ならば標準化した確率変数Zの分母は定数なのだからそのまま正規分布をもちいて検定ができるとかんがえて検定量は{\frac{\bar{x} - \mu}{\sqrt{\frac{\sigma^2}{n}}} }とする。分散が未知ならば、先ほどのような検定量では分母と分子に確率変数が存在していて通常の正規分布に当てはめられないとわかりt分布を利用して{\frac{\bar{x} - \mu}{\sqrt{\frac{s^2}{n-1}}} }を検定量としてt分布を利用する。

  • 母分散に関する検定

 分散は2乗和の平均で確率変数の2乗和の形からカイ2乗分布を使うkとがわかる、あとは母平均と同じようにして検定量は{\frac{(n-1)s^2}{\sigma^2}}とわかる。

適合度検定


適合度検定

独立性検定

以下を参照。詳しい証明は難しいし試験には出なかった。
独立性の検定 カイ2乗検定 統計学入門

回帰分析は省略。