めも

メモ.

数理統計1 基本的な用語

A.分布を表す指標

A.1 代表値

平均値

{ \displaystyle
{\mu}_n = \sum_{i=0}^{N} _i
}

幾何平均

{ \displaystyle
\sqrt{x_1 x_2 x_3 ... x_N}
}

調和平均

{ \displaystyle
\frac{N}{\frac{1}{x_1} + \frac{1}{x_2} + ... + \frac{1}{x_N}}
}

中央値

全体のデータ数をN個として順に並べたときの下からN/2番めのデータの値。

Nが奇数ならば(N-1)/2番めのデータと(N+1)/2番めのデータの間の値をとる。

最頻値

一番たくさん出現したデータ。

A.2 散布度(measure of dispersion)

要はばらつき具合を表した指標。

分散

{ \displaystyle
s^2 = \frac{1}{N} \sum_{i = 1}^{N} (x_i - \mu)^2 \\
    = \frac{1}{N} \sum_{i=1}^{N} {x_i}^2 - {\mu}^2

}

A.3 二変数の記述

共分散

{ \displaystyle
s_{xy} = \frac{1}{N} \sum_{i=1}^{N}(x_i - {\mu}_x)(y_i - {\mu}_y)
}

相関係数

{ \displaystyle
 r = \frac{r_{xy}}{r_x r_y}
}

回帰直線

二変数のデータ(X、Y)をプロットしたときにその点が同一の直線上にちかい場所にあると仮定してその直線を

y = a + bx

とする。この直線の係数a,bをデータから推定する。その方法として直線とデータとの間にy軸と平行に直線を引いて、その二乗和が最小になるようなa,bを求める。
{ \displaystyle

f = \sum_{i=1}^{n} (y_i - a - b_i x)^2 として\\
\frac{\partial f}{\partial x} = 0\\
\frac{\partial f}{\partial y} = 0
}
となるようにすれば
{ \displaystyle
a = (yの平均) - b*(xの平均)\\
b = \frac{s_{xy}}{{s_x}^2}
}
と求められる。

プライバシーポリシー

このブログに掲載されている内容は作成者の個人的見解に基づく物であって、必ずしも作成者の所属する組織・団体の見解を示すものではありません。また、記載が不正確であったことにより生じたいかなる損害に関しても、責任を負いかねますのでご了承ください。また、本サイトは、Amazon.co.jpを宣伝しリンクすることによってサイトが紹介料を獲得できる手段を提供することを目的に設定されたアフィリエイトプログラムである、Amazonアソシエイト・プログラムの参加者です。また、本サイトでは、第三者配信の広告サービス(Googleアドセンス、A8.net)を利用しており、ユーザーの興味に応じた商品やサービスの広告を表示するため、クッキー(Cookie)を使用しております。 クッキーを使用することで当サイトはお客様のコンピュータを識別できるようになりますが、お客様個人を特定できるものではありません。本サイトの管理者への問い合わせ、当ブログのプライバシーポリシーの詳細についてはこちらをご覧ください。