めも

メモ.

統計検定についておさらいとメモ

論文の state-of-the-art について有意なものかどうかの議論が目に入ったのと、自分も最近手法の比較とかで同じデータセットでパラメータの比較などをよく行う機会が多いので確認のため。参考文献を読み進めながら開いたページのめも。

母集団と標本

実験する上で注意すべきことは、手元のいくつかのデータで有意に発生する現象は(想定している環境・対象について)世界中のどこで同じ実験しても同じ結果がえられることを期待していることを意識する。つまり、「母集団」=「研究などで調べる対象の全て」、「標本」=「データ」。

→ 手元の標本のデータから母集団を推定することが研究の目的

母集団の全体調査が実質的には不可能なとき,標本を調査をすることにより母集団を推定するわけであり、限られた標本の数(サンプルサイズ)から得られる情報にもとづいて推測しようとするのだから不確実性は必ずある。この不確実性を統計学を通じて理解する必要がある。

”サンプルサイズ”、”標本の数”、”標本数”などの言葉が混在するとわかりにくいので

  • サンプルサイズ:一つの集団の中の標本の数
  • サンプル数:集団の数

で統一、つまりA・B・C間の比較を行うならばサンプル数=3、Anoサンプルサイズ=Aに含まれる標本数。

パラメトリック・ノンパラメトリック検定

母集団の分布がある特定の分布(例:正規分布)に従うとわかっているならば、パラメトリック検定を採用して有意差があるかを調べることができる。分布がわからないならば順序尺度を利用したノンパラメトリック検定を行う。サンプルサイズが少なく分布に仮定を置くことが難しい場合はノンパラメトリック検定を使う。

正規性検定

パラメトリック検定を適用するにあたり、標本が正規分布にしたがっていると仮定する前に、標本が正規分布にしたがっているかを検定する必要があり、そのような検定としてShapiro-Wilkの正規性検定がある。

なので正規性検定を通過した可動化によって

  • 正規性検定を...
    • 通過した → t-検定を行う
    • 棄却された → → Wilcoxon 検定

などの使い分けがされる[4]。

標準偏差と分散

手元の標本データから母集団の性質を知りたいのだから、知りたいのは母集団の標準偏差、母標準偏差。

  • 標本標準偏差:標本のバラツキ具合を示す値
  • 不偏標準偏差:母分散を推定するための値

ただ、母集団の平均(母平均)と標準偏差(母標準偏差)を知る上で測定には測定誤差が含まれること・検定には測定誤差は配慮されていないことを頭の隅に置いておく。

dora.bk.tsukuba.ac.jp

標準正規分布

任意の正規分布を平均0、分散12 の正規分布(標準正規分布)に変換することで一つの表から特定の区間に含まれる確率を調べることができる.

  • 標準誤差:標本の平均値が母平均と比較してどれくらいばらつくかを示す値=母平均のありそうな範囲を示す

研究する上で対象の平均値に特に興味がある場合、標準誤差を見る。平均値と同時にその分散も興味がある場合、標準偏差も調べる必要がある。

パラメトリック検定

2つの母集団が等しい平均を持つという仮説を検定する. 標本間に対応のある二つの郡の間での平均の差についての仮説を検定する場合、unpaired t-testを使用すると有意差が出にくくなる。

等分散性の検定

正規分布に従う2つの群の「標準偏差が等しい」という帰無仮説についての検定。

同じ母集団から取り出した標本データはボブんさんが同じのはずだが、不偏分散は一致するとは限らない。二つの不偏分散の比率を計算し、その値がF分布の裾に行かないかをみる。ただ、データ数が少数(一例として30以下)の場合、等分散性の検定結果は有意であっても注意が必要。 等分散でないならば、比較している二つの郡の母集団が異なることを考える必要がある。

ノンパラメトリック検定

母集団のデータが正規分布に従うとすでにわかっているならばパラメトリック検定の枠組みを使用することができるが、母集団の分布がわからない場合はノンパラメトリック検定を使用する。 ノンパラメトリックの場合も、比較する二郡の間に対応関係があるかどうかで使用する手法にバリエーションがある。

  • 母集団の分布が正規分布であるという仮定は必要ない
  • ただし、実際に母集団の分布が正規分布だったなら検出力は落ちる
  • 順位和検定ではデータを並べて比較するのでデータのばらつき具合は関係なくなる、外れ値があってもいい

三郡以上の比較を行う

一元配置分散分析(one-way ANOVA)

3郡以上、標本間に対応がない場合に平均の差を検定する手法。 各郡の内部での変動と各郡の間での変動をみて、郡間の変動が大きいならば郡の間でなんらかの変化があったとする。

参考文献

  • [1] 池田郁男. "統計検定を理解せずに使っている人のために I." 化学と生物 51.5 (2013): 318-325.
  • [2] 池田郁男. "統計検定を理解せずに使っている人のために II." 化学と生物 51.6 (2013): 408-417.
  • [3] 池田郁男. "統計検定を理解せずに使っている人のために III." 化学と生物 51.7 (2013): 483-495.
  • [4] 鈴木大慈, "データ解析 第八回「検定」"講義資料(pdf), 2015