情報理論のメモ
あくまでメモなので、"定義域を○×として、..."といった記述はないです。
参考文献
- ELEMENTS OF INFORMATION THEORY : Thomas M.Cover, Joy A.Thomas
- 情報理論 基礎と広がり: Thomas M.Cover, Joy A.Thomas, 山本 博資, 古賀 弘樹, 有村 光晴 他
エントロピーと相互情報量
エントロピーの定義
を離散的な確率変数Xに対するエントロピーと定める。logの底は2。つまり、この定義では0か1の二値しかとらずにともに等しい確率ならばその確率変数のエントロピーは1となる。
- ex1 確率変数Yは
条件付きエントロピー
(1)、(2)式がよく使う式。
相互情報量
相互情報量はXがYの情報をどれだけ含んでいるかの尺度で、その数値をしらべるには「X、Yの同時分布」と「X、Yが独立だと仮定したときの分布」の二つの分布をくらべる。そのため、 D(p(x,y) || p(x)q(x))という式になると考える。あとここからしたは総和の範囲は明示しない限りX,Yなどのとりうる離散値すべてとする。また(2-1,2-2)の式から、一方の情報が分かっている時の残りのエントロピー(?)のような式の形になることからも、この定義がXがYの情報をどれだけ含んでいるかの尺度のひとつであると思い出せる。
エントロピーのチェイン規則
とわかる、変数がならば、
とわかる。
各エントロピーに関する不等式
イェンセンの不等式(Jensen's inequality)
下に凸の関数、Xは変数として
が成り立つ。この式を利用する。証明はテイラー展開を使ってもいいし、うまく式変形してもできる。
情報不等式
証明:
以上より、情報不等式(カルバック・ライブラー距離は非負)が成り立つ。
証明:
が成り立つ。今、相互情報量は非負だから
一様分布がエントロピー界で最強
これを示すために離散確率変数Xの定義域の要素数をnとすると任意のについてである。ここで一様分布uniform(X)と任意の分布p(X)についての相対エントロピーを求めると
だから、この不等式から一様分布のときにエントロピーが最大となることが分かる。これが証明。
データ処理不等式
この式はざっくりと「元のデータにどのような加工を加えても元データを越えた情報を含むことはない」という式らしい。そしてこの式が成り立つためにいくつか過程を導入、というかこの項目だけX->Y->Z (X,Y,Zの順でマルコフ連鎖になっている)と過程する。するとデータ処理不等式
が成り立つ。
証明:
と式変形できる。ここで、X,Zは独立だからI(X;Z|Y)=0。さらに相互情報量は非負だからI(X;Y|Z)は零以上で(1)式より、
である。等号が成り立つためには最後の式で I(X;Y|Z) = 0である必要がある、つまりX->Z->Yでもマルコフ連鎖になっている必要がある。■
Fanoの不等式(ファノの不等式)
この不等式は確率変数Xが通信路を通じてYになったとするとき、X≠Yである(誤った情報になっている)かどうかに関係するエントロピーH(X|Y)とXを推測した際の誤り率を結びつける不等式でもちろんあとから通信路関係で重要な式になるらしい。
【ファノの不等式】、であるとする。この時、
が成り立つ。この式でエントロピーが最大1であることを考慮すれば、
この式から、誤り率には下界があることがわかる。
証明:
参考文献*情報理論 基礎と広がり p29より
誤りが発生したことを示す確率変数Eを用意して以下のように定義する。
つまり、誤りが発生したときには1になる確率変数である。いま、を考える。この式を考える理由はこの式を書き換えると元の不等式に含まれるを引き出すことができるから。
ここで式の意味を考えると
- :Xを推測した値とXの真の値が条件なのでそれが誤りかどうかは明らかに分かるから、エントロピーは0
- :真の値を知っているときに、推測する値が間違っていることを示すエントロピーはH(E)。これと比較すると条件つきエントロピーはかならずエントロピーを同じ(つまり条件つけしたけど意味ない)かエントロピーを小さくするので
- :推測した値とそれが誤りかをしっているとき、Xが二値変数ならエントロピーは0だけど今は一般的な場合を言っているので個のパターンの誤り方がある。エントロピーを最大にする時は一様分布の時だったことを踏まえてとなる。
このことを踏まえて、もとの式に上であたらしく分かった大小関係を代入すると、
である。この式から結果を得ることができる。■
情報理論、エントロピーからガウス型通信路まで:2 - 雑なメモ