読者です 読者をやめる 読者になる 読者になる

ゆるふわめも

in Kyoto or Tokyo

パターン認識と機械学習(C.M.ビショップ著)のメモ

この本の中の演習問題等のメモを書いておきます。

第一章

訓練集合:サンプルとその解答のラベルがセットになった集合

演習1.1,1.2
閉じた形 = x = 1 + 2 + ... と無限に続く項が無いこと、あとで式が求まるので省略 ■


 p(Y|X) = \frac{p(X|Y)p(Y)}{p(X)}

ただし加法定理を用いたら分母の  p(X)  \sum_Y p(X|Y)p(Y) と書き表すことが出来る。

演習1.5
 

var(f)
 = \frac{1}{n} \sum ( f(x) - \bar{f(x)} )^2 \\
 = \frac{1}{n} \sum \{ f(x)^2 - 2f(x)\bar{f(x)} + \bar{f(x)}^2 \} \\
 = E( f(x)^2) - E(f(x) )^2

演習1.6
 
 Cov(x,y)\\
 = E( (x - \mu_x)(y - \mu_y) ) \\
 = E(xy -x \mu_y - y \mu_x + \mu_x \mu_y ) \\
 = E(xy) - E(x) \mu_y - \mu_x E(y) + \mu_x \mu_y
もしもxとyが独立ならば  E(xy) = E(x) E(y) = \mu_x \mu_y となり、共分散は0になる ■

  • ベイズ定理の重要性の確認
    • 事前確率を、観測したデータを用いて事後確率に変換する
      •  p(w) :仮説を事前分布の形で式に取り込む
      •  D : 観測したデータDを用いて
      •  p(D|w) :事後分布を表現する

その結果,


 p(w|D) = \frac{p(D|w)p(w)}{p(D)}

の式を用いて、観測したデータからwの不確実性を知ることができる。<- wが”それっぽい”かを知るための尤度関数
別のいい方をすると、この式は「wを固定したときに、どれくらいそのデータDが発生しやすいのか」の尺度になっている。

最尤推定  p(D|w) を最大にするパラメータwを求めること、つまりwに関する微分をすることで求められる


 N(x | \mu, \sigma^2) = \frac{1}{(2 \pi \sigma^2)^{\frac{1}{2}}} \exp( { - \frac{1}{2 \sigma^2} ( x - \mu)^2 })

※精度パラメータは  \frac{1}{\sigma^2}で表される

  • 演習問題1.7

あとで書く予定、数理統計ハンドブックにあったはず。


 N(x | \mu , \Sigma ) = \frac{1}{(2 \pi)^{D/2} | \Sigma |^{1/2} } exp( -\frac{1}{2} (x - \mu)^T \Sigma^{-1}(x - \mu) )

がそのD次元の連続変数xに対するガウス分布。この式に地位して微分を行い、最尤推定を行う。それぞれのデータが独立で同一な分布に従って生成されたとして、そのデータ集合Xに対する確率は

 p(X | \mu, \sigma^2) = \prod_{n = 1}^N N(x_n | \mu, \sigma^2)

と書くことができる。そのためにこの関数の対数をとると...


 log p(X| \mu, \sigma^2 ) = - \frac{1}[2 \sigma^2} \sum (x_n - \mu)^2 - \frac{N}{2} ln \sigma^2 - \frac{N}{2} ln(2 \pi)
とかける、この式を\mu,\sigma^2に関して微分することでこの式を最大化するパラメータを求めることが出来るようになる。