読者です 読者をやめる 読者になる 読者になる

数理統計1 基本的な用語

情報・数理

A.分布を表す指標

A.1 代表値

平均値

{ \displaystyle
{\mu}_n = \sum_{i=0}^{N} _i
}

幾何平均

{ \displaystyle
\sqrt{x_1 x_2 x_3 ... x_N}
}

調和平均

{ \displaystyle
\frac{N}{\frac{1}{x_1} + \frac{1}{x_2} + ... + \frac{1}{x_N}}
}

中央値

全体のデータ数をN個として順に並べたときの下からN/2番めのデータの値。

Nが奇数ならば(N-1)/2番めのデータと(N+1)/2番めのデータの間の値をとる。

最頻値

一番たくさん出現したデータ。

A.2 散布度(measure of dispersion)

要はばらつき具合を表した指標。

分散

{ \displaystyle
s^2 = \frac{1}{N} \sum_{i = 1}^{N} (x_i - \mu)^2 \\
    = \frac{1}{N} \sum_{i=1}^{N} {x_i}^2 - {\mu}^2

}

A.3 二変数の記述

共分散

{ \displaystyle
s_{xy} = \frac{1}{N} \sum_{i=1}^{N}(x_i - {\mu}_x)(y_i - {\mu}_y)
}

相関係数

{ \displaystyle
 r = \frac{r_{xy}}{r_x r_y}
}

回帰直線

二変数のデータ(X、Y)をプロットしたときにその点が同一の直線上にちかい場所にあると仮定してその直線を

y = a + bx

とする。この直線の係数a,bをデータから推定する。その方法として直線とデータとの間にy軸と平行に直線を引いて、その二乗和が最小になるようなa,bを求める。
{ \displaystyle

f = \sum_{i=1}^{n} (y_i - a - b_i x)^2 として\\
\frac{\partial f}{\partial x} = 0\\
\frac{\partial f}{\partial y} = 0
}
となるようにすれば
{ \displaystyle
a = (yの平均) - b*(xの平均)\\
b = \frac{s_{xy}}{{s_x}^2}
}
と求められる。