情報理論のメモ
あくまでメモなので、"定義域を○×として、..."といった記述はないです。
参考文献
- ELEMENTS OF INFORMATION THEORY : Thomas M.Cover, Joy A.Thomas
- 情報理論 基礎と広がり: Thomas M.Cover, Joy A.Thomas, 山本 博資, 古賀 弘樹, 有村 光晴, 岩
エントロピーと相互情報量について
とりあえず、授業でつかうエントロピーの定義とその他定理や定義を紹介。
情報の概念をとらえる方法はいろいろあるけれど、確率分布に基づいた見方をしたらエントロピーの式が出てくる。エントロピーには直感的にも納得できるような性質もいくつかある。章を読み進めていけば、この定義が情報のやり取りに関する多くの疑問に自然な解答を与えてくれるでしょう。
エントロピー
この定義によると、確率1/2で表裏になるコイントスが与える情報量は1.この式を書き換えると、
つまりの平均と見て取れる。そして不等式
が成り立つ。なぜならがいつも成り立つから。
以下では(すこし混乱を招くかもしれないけど)便利な記述
を導入する。この式を微分すると
この式はp=1/2のとき、最大となる。そのとき、エントロピーは1.
結合エントロピー(joint entropy)
とする、先と同じように
条件付きエントロピー
と定義する、この式も少し変形をすれば、
と記述できる。そして、結合エントロピーはこの条件付きエントロピーを用いて、
「XとYによるエントロピー」=「Xのみによるエントロピー」+「Xが決まったときのYによるエントロピー」
に分解できる。
である。
各エントロピーに関する不等式
イェンセンの不等式(Jensen's inequality)
下に凸の関数、Xは変数として
が成り立つ。この式を利用する。証明はテイラー展開を使ってもいいし、うまく式変形してもできる。
情報不等式
証明:
以上より、情報不等式(カルバック・ライブラー距離は非負)が成り立つ。
が成り立つ。今、相互情報量は非負だから
データ処理不等式(Data processing inequality)
この不等式は、要するに元のデータにいかなる処理を加えてももとのデータよりも多い情報量にすることはできない。(もとのデータが一番情報量が多い)と、自分は解釈。データ処理不等式(まだ出てきていない)なるものが成り立つためには、それらがマルコフ連鎖に従っている必要がある。