情報理論のメモ
http://www.t.kyoto-u.ac.jp/syllabus-s/?mode=subject&lang=ja&year=2014&b=6&c=91200
主に授業の内容と上記参考文献の演習問題の回答についてのメモ。正しいかどうかはわからないので自己責任で。走り書きなので細かい定義はすべてかっ飛ばしている、だから記事もあんまり長くないし内容もない感じ。講義でのメモは灰色枠。
第2章 エントロピー,相対エントロピー,相互情報量


定義
そしてのエントロピーは
のエントロピーと
が決まっている時の
のエントロピーの和と考えると
は納得の行く等式。成り立つ理由は
だから。両辺に条件をつけた
も言える。
- 相互情報量(カルバックライブラー距離)
と記述する。明らかに0なのは二変数が独立しているとき。式を展開して
が言える。
- チェイン則
これは全体のばらつきはのばらつき、
のばらつきを求めたから
を決め打ちしたときの
のばらつき、...と足していくということだと思う。そして直感にあっている。
- Jensen's inequarity
(要約すると)が下に凸な関数で成り立つ。
証明:
参考文献に記載あり。それ以外では関数を平均まわりでテイラー展開して二次以降の項を無視、そのあと両辺の平均をとれば式を示せるはず。この不等式は相互情報量が0以上であることの証明に利用するために必要。
- データ処理不等式
データは加工すればするほど、もとのデータを予測しにくくなることを数式で示す。マルコフ連鎖に付いては省略、Wikipedia参照*2。などと書く。
が成り立つとき
が成り立ち、これをデータ処理不等式と呼ぶ。
証明:
がなりたつ、だけど今マルコフ連鎖であるという仮定があるから、さらに相互情報量は非負の値をとるからデータ処理不等式が成り立つ。
- ファノの不等式
通信路を経過して得られた
から
を推測した値
としたときに、不等式
であり、ここから
が導ける。
理由:
- エントロピーの最大値は1
- ある記号に対して誤りが発生するパターンは
通り
証明:
後ほど追記予定。
確率変数を新たに定義する、それは
となる確率変数でここで推測したときの入力とその推測が正しいか(を示す確率変数)のばらつき具合をしめす条件つきエントロピーを考える。
と二通りに展開できる。ここで「推測値」と「実際の値」が条件についていたらそれが外れているかどうかがわかるからである。最後の不等式は条件付きエントロピーは条件なしより大きくなることはないこと、エントロピーを最大にするのは一様分布であり誤りかたは
個あることから分かる。
- 相互情報量は0以上
証明:
演習問題2.1
(a)
(b)同じ。
演習問題2.2
の式を考える、もしもxとyが一対一に対応していれば、y=f(x)となるxはyを決めれば一つに決まる。また、
である。はじめの不等式はlogが増加関数であることから、二つ目の等式は
を代入すれば得られる。
以上の式を用いると、Xのエントロピーについて、
となる。この不等式の等号が成り立つのは、
で等号が成り立つときのみで、それはxとyが一対一に対応しているとき。よって解答は(a) H(X) = H(Y) (b) H(X) => H(Y) となる。
演習問題2.3
上の式を最小にする時、
が成り立つ、この式の最小値はp=0,1の時の0である。
となる。
演習問題2.4
演習問題2.5
H(Y|X)=0ということは、Xが決まると曖昧さが全くなくYが決まるということ、直感的には。式で書いて証明すると、
ここでもしも、YがXの関数でないならあるx'が存在して、それに対応するy’、y''が存在する。このようなx',y',y''がある時、上の式が0にならないことを示せば背理法で問が正しいことを示せる。
ここで、上の式のサメンション(Σ)について、特にx'に注目すると
という項とp(x')との積の項がある。p(x')>0と仮定しているのでこの式が0でないと、H(Y|X)=0ではない。そして、p(y'|x')>0,p(y''|x')>0と仮定しているので成り立たない。
演習問題2.06
となるような例を作る。
(a) Zの条件がついたら情報量が下がるのだからZの値とX、Yの値に関連があるはず。よって必ずY=Z、Y=Xとなる時、Zが分かっている条件だと何もあたらしい情報がなく
となる。
(b)こんどはZが分かっている時の方が相互情報量がおおい、つまりZがXとYの情報の”共通部分”に関する情報をもっている。
簡単にするためにXとYは全く独立とすれば、.
そして Z=X * Y とすればいい。
演習問題2.11
a
と
は同一の文応だからエントロピーも同じであり
b
だから
が0未満になることはない.
c
aの式より二変数の相互情報量が0の時。
それは二変数が同一分布で独立な時。
d
aの式よりが0の時。それは二変数が等しいとき、もっと一般的には二変数が一対一対応しているとき。
演習問題2.14
a H ( Z | X ) = H ( Y | X )
Z = X + Yなのだから、
が成り立つ。このことから、
x、Yが完全に独立な確率変数ならば、である。この場合、
となる。
b
と
の和が常に限られた値しかとらないにもかかわらず、
と
の値が定まらないような分布にする。
の分布と
の分布が同じになるようにすればいい。
c
は
と
の値に依存した確率変数だから、
は明らか。もっと詳しく記述すると
となる。すべての部分で等号が成り立つためには
「XとYは完全に独立」
「ZはXとYの関数」
である必要がある。
演習問題2.15
演習問題2.29
a
b
c
d
であり、
でここから
よって
となる。
第3章 AEP

大数の法則のエントロピー版のイメージがある。また典型集合という概念を導入する。たとえ0が1より出やすくても「00000」よりも「00100」「01000」「00001」のような列の方がよく出現しそう...、そんな列の集まり。
漸近等分割性(AEP)
もしも確率変数が独立で同一な分布
に従うならば
である。は確率収束*5の意味。
典型集合(typical set)
典型集合を以下のように定義。
となるような列の集合。
典型集合が満たす性質
むしろ満たすようにうまく定義したように感じる。
*1 \\ = max_{p(x)} (H(Y) - \sum_x p(x) H(Y|X = x)) \\ = max_{p(x)} H(Y) - H(\alpha) }"/>
特に、
について
だから
と考えられる。実際、
と書ける。以上から二元対称通信路の通信路容量は
対称通信路
二元対称通信路*21の一般化。通信路行列によっての条件付き分布が与えられているとすればその行列の第
行は入力
を条件付けしたときの
の分布でありその行ベクトルを
と記述する。
とできる。等号が成り立つのは出力が一様分布の時(そもそも、離散ならばエントロピーを最大にする分布は一様分布、連続ならばガウス分布)。そして出力を一様分布にするような入力の分布を求めればいい。対称通信路だからそれも同様に一様分布だと分かる。
演習問題7.01
a
今、が通信路をとおり
となってそれに対して変換
としたのだからこの一連の変換
に対してデータ処理不等式
が言える。通信路容量の定義式に当てはめると
となるので、通信路容量は改善しない。
b
で等号がなり縦倍いのだから、が1対1の変換であればいい。
演習問題7.02
であり
、
だから
。なので
の要素の数によって場合分けする。
によって入力にノイズが加わることはないから、
。
によって入力にノイズが加わることで
の要素が増える。
を計算。
によって入力にノイズが加わっても
は入力でないと分かるから、
。
関連記事や参考文献及び引用文献元へのリンク
*3:http://www.neuro.sfc.keio.ac.jp/~masato/study/SVM/lagrange.htm
*9:引用元:参考文献 第三章、同一問題の問題文より
*13:Variable-length code - Wikipedia, the free encyclopedia
*19:Sardinas–Patterson algorithm - Wikipedia, the free encyclopedia
*22:Noisy-channel coding theorem - Wikipedia, the free encyclopedia
*23:Additive white Gaussian noise - Wikipedia, the free encyclopedia
*1:x_i,\dots,x_n) \in \chi^n) \geq 1 - \epsilon}"/>を満たす十分大きなnが存在する
証明: これらの性質から典型集合に属していない列の出現確率はnを十分大きくすればの要素数は
以下である
ひとつめは定義式の両辺のlogをとって漸近的等分割性を適用するとすぐわかる。
ふたつめはとすればいい。他の性質もはじめに書いた参考文献に記載されている。
によって押さえることができる。つまり、符号の平均長を考えるときに典型集合に属していない符号の長さを(
以下でしか出現しないから)無視できるようになる。その結果として一情報源符号あたりの符号の長さは
以下であるようにすることができると分かる。
演習問題3.02
[tex:{
- \frac{1}{n} \log \frac{p(X^n) p(Y^n) }{p(X^n , Y^n)} \\
= -\frac{1}{n} \log \prod_{k=1}^n \frac{p(X_k) p(Y_k)}{p(X_k , Y_k)} \\
= -\sum \log \frac{1}{n} \frac{p(X_k) p(Y_k)}{p(X_k , Y_k)} \\
->_{n -> \infty} E(-\log \frac{p(X) p(Y)}{p(X, Y)})
}]
そして最後の式は相互情報量の定義の式そのもの。そして相互情報量は二変数が完全に独立のときに0になるのだから問題の与式は1に収束。
演習問題3.04
問題は
と記号を定義する。
a
漸近等分割性から言える。
b
各回の試行において各事象の起こる確率というものが、試行回数を重ねることで、各事象の出現回数によって捉えられるというのが大数の法則の主張するところ
やがて平均に収束することを踏まえると
である。ここからあ以下の条件を満たす十分小さな値と自然数
が存在する。
だからこれらをともに満たす集合に属する確率は
よって正しい。
c
出現する要素の確率をすべて足したら1になることから
であり、典型集合に含まれる要素の確率は
なのだから、
d
典型集合に含まれる要素の確率は
であり、ある十分大きい実数Mで
となるMが存在することは問bより分かる。よって問cと同じような解き方で(M > M)として
と求められる。
演習問題3.06
であり、
を代入して、
となる。