Information Theory

Similar documents
aaa

Information Theory

.n.s.N.._...{.\1

untitled

オートマトン 形式言語及び演習 3. 正規表現 酒井正彦 正規表現とは 正規表現 ( 正則表現, Regular Expression) オートマトン : 言語を定義する機械正規表現 : 言語

Microsoft PowerPoint - 14MDL.pptx

オートマトンと言語

離散数学

Z...QXD (Page 1)

オートマトン 形式言語及び演習 4. 正規言語の性質 酒井正彦 正規言語の性質 反復補題正規言語が満たす性質 ある与えられた言語が正規言語でないことを証明するために その言語が正規言語であると

混沌系工学特論 #5

様々なミクロ計量モデル†

Microsoft Word - 微分入門.doc

オートマトン 形式言語及び演習 1. 有限オートマトンとは 酒井正彦 形式言語 言語とは : 文字列の集合例 : 偶数個の 1 の後に 0 を持つ列からなる集合 {0, 110, 11110,

スライド 1

Microsoft PowerPoint - mp11-02.pptx

Microsoft PowerPoint - 7.pptx

Microsoft PowerPoint - DA2_2019.pptx

PowerPoint Presentation

Microsoft PowerPoint - 09re.ppt [互換モード]

Microsoft PowerPoint - 13approx.pptx

<4D F736F F D208CF68BA48C6F8DCF8A C30342C CFA90B68C6F8DCF8A7782CC8AEE967B92E8979D32288F4390B394C529332E646F63>

学習指導要領

2-1 / 語問題 項書換え系 4.0. 準備 (3.1. 項 代入 等価性 ) 定義 3.1.1: - シグネチャ (signature): 関数記号の集合 (Σ と書く ) - それぞれの関数記号は アリティ (arity) と呼ばれる自然数が定められている - Σ (n) : アリ

Microsoft PowerPoint - multi_media05-dct_jpeg [互換モード]

アルゴリズムとデータ構造

2015年度 信州大・医系数学

Microsoft PowerPoint - multi_media05-dct_jpeg [互換モード]

2017年度 千葉大・理系数学

SAP11_03

2013年度 信州大・医系数学

koji07-02.dvi

Microsoft PowerPoint - mp13-07.pptx

<4D F736F F F696E74202D2091E6824F82538FCD8CEB82E88C9F8F6F814592F990B382CC8CB4979D82BB82CC82505F D E95848D8682CC90B69


2014年度 千葉大・医系数学

イントロ

学習指導要領

2014年度 筑波大・理系数学

Microsoft PowerPoint - algo ppt [互換モード]

_KyoukaNaiyou_No.4

Microsoft PowerPoint - 10.pptx

2018年度 筑波大・理系数学

基礎統計

高ゼミサポSelectⅢ数学Ⅰ_解答.indd

相関係数と偏差ベクトル

そもそも情報とはなに? ある事柄に関して知識を得たり判断のより所としたりするために不可欠な 何らかの手段で伝達 ( 入手 ) された種々の事項 ( の内容 ) ( 新明解国語辞典第 6 版 三省堂より一部抜粋 ) コンピュータで取り扱う情報の定義 Claud Elwood Shannon( 情報理論

Microsoft PowerPoint slide2forWeb.ppt [互換モード]

モジュール1のまとめ

PowerPoint プレゼンテーション

Microsoft PowerPoint - qcomp.ppt [互換モード]

a n a n ( ) (1) a m a n = a m+n (2) (a m ) n = a mn (3) (ab) n = a n b n (4) a m a n = a m n ( m > n ) m n 4 ( ) 552

2019年度 千葉大・理系数学

2018年度 神戸大・理系数学

数学 ⅡB < 公理 > 公理を論拠に定義を用いて定理を証明する 1 大小関係の公理 順序 (a > b, a = b, a > b 1 つ成立 a > b, b > c a > c 成立 ) 順序と演算 (a > b a + c > b + c (a > b, c > 0 ac > bc) 2 図

Probit , Mixed logit

スライド 1

( 最初の等号は,N =0, 番目は,j= のとき j =0 による ) j>r のときは p =0 から和の上限は r で十分 定義 命題 3 ⑵ 実数 ( 0) に対して, ⑴ =[] []=( 0 または ) =[6]+[] [4] [3] [] =( 0 または ) 実数 に対して, π()

2015年度 京都大・理系数学

A ,000 7,539 7,593

2016年度 京都大・文系数学

Microsoft PowerPoint - mp11-06.pptx

2017年度 金沢大・理系数学

, 1. x 2 1 = (x 1)(x + 1) x 3 1 = (x 1)(x 2 + x + 1). a 2 b 2 = (a b)(a + b) a 3 b 3 = (a b)(a 2 + ab + b 2 ) 2 2, 2.. x a b b 2. b {( 2 a } b )2 1 =

学習指導要領

Microsoft Word - lec_student-chp3_1-representative

Microsoft PowerPoint - statistics pptx

学習指導要領

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

重要例題113

Ⅰ 情報圧縮はやわかり夢の圧縮法? すべてのファイルを 1/100 のサイズに圧縮します 詐欺 長さ1000 ビットのファイル 個 長さ10 ビットのファイル 2 10 個 長さ999 ビットのファイル 個 N 個のものを N-1 個に入れたら.. かならず人のほうががあま

Microsoft Word - t30_西_修正__ doc

母平均 母分散 母標準偏差は, が連続的な場合も含めて, すべての個体の特性値 のすべての実現値 の平均 分散 標準偏差であると考えてよい 有限母集団で が離散的な場合, まさにその意味になるが, そうでない場合も, このように理解してよい 5 母数 母集団から定まる定数のこと 母平均, 母分散,

千葉大学 ゲーム論II

æœ•å¤§å–¬ç´—æŁ°,æœ•å°‘å–¬å•“æŁ°,ã…¦ã…¼ã‡¯ã…ªã……ã…›ã†®äº™éŽ¤æ³Ł

NOTE P, A,. A P ( A, P ),,.,. P A. (set) (set), (). (element), (element).,.,. ( A, B, X, Y, P ), { } (),..3 (union) A, B,A B, A B (union),. A B = {x x

Microsoft Word - 町田・全 H30学力スタ 別紙1 1年 数学Ⅰ.doc

Microsoft PowerPoint - Inoue-statistics [互換モード]

工業数学F2-04(ウェブ用).pptx

情報量と符号化

調和系工学 ゲーム理論編

融合規則 ( もっとも簡単な形, 選言的三段論法 ) ll mm ll mm これについては (ll mm) mmが推論の前提部になり mmであるから mmは常に偽となることがわかり ll mmはllと等しくなることがわかる 機械的には 分配則より (ll mm) mm (ll mm) 0 ll m

Microsoft PowerPoint - while.ppt

Microsoft Word - 201hyouka-tangen-1.doc

() ): (1) f(x) g(x) x = x 0 f(x) + g(x) x = x 0 lim f(x) = f(x 0 ), lim g(x) = g(x 0 ) x x 0 x x0 lim {f(x) + g(x)} = f(x 0 ) + g(x 0 ) x x0 lim x x 0

Microsoft PowerPoint - 画像工学 印刷用

Microsoft PowerPoint - 基礎・経済統計6.ppt

Microsoft PowerPoint L03-Syntex and Semantics-1-students ( )

学習指導要領

Microsoft PowerPoint - 9.pptx

PowerPoint Presentation

Microsoft PowerPoint - 9.pptx

第 6 回の目的 確定年金現価の算式について理解する 終身年金現価の算式について理解する 簡単な例で掛金の計算をしてみる 極限方程式を理解する 年金数理第 6 回 2

2017年度 神戸大・理系数学

2013年度 九州大・理系数学

2014年度 信州大・医系数学

2016年度 九州大・理系数学

2015-2018年度 2次数学セレクション(整数と数列)解答解説

学習指導要領

<4D F736F F F696E74202D2091E6824F82568FCD8CEB82E892F990B382CC8CF889CA82BB82CC82515F B834E838A B9797A3959C8D F A282E982C682AB82CC8CEB82E897A62E >

Transcription:

前回の復習 情報をコンパクトに表現するための符号化方式を考える 情報源符号化における基礎的な性質 一意復号可能性 瞬時復号可能性 クラフトの不等式 2 l 1 + + 2 l M 1 ハフマン符号の構成法 (2 元符号の場合 ) D. Huffman 1

前回の練習問題 : ハフマン符号 符号木を再帰的に構成し, 符号を作る A B C D E F 確率 0.3 0.2 0.2 0.1 0.1 0.1 符号語 0.3 0.2 0.2 0.1 0.1 0.1 A B C D E F 平均符号語長は... 0.3 + 0.2 0.2 + 0.1 +0.1 +0.1 = 2

今日の講義の方向性 情報源符号が目指すべきもの 瞬時復号可能性 クラフトの不等式 2 l 1 + + 2 l M 1 平均符号語長の最小化 この制約の範囲内で, 平均符号語長 M p i l i i=1 を最小化することを考える 3

あらすじ 1. 平均符号語長の下界を示す 2. シャノン ファノ符号の紹介 下界に迫る 平均符号語長を持つ符号 ハフマン符号との関係 3. 情報源の拡大と情報源符号化定理 Robert Fano 1917-4

最初の目標 前回からの お約束 定常無記憶情報源 S の発生する記号を一個ずつ符号化 記号は M 通り, 各記号の発生確率は p 1,, p M 瞬時復号可能な符号を考え, 平均符号語長を L で表す 補題 1: 平均符号語長は必ず L H 1 (S) となる シャノンの補助定理 (2 回目の講義で紹介 ) を利用して証明 q 1 + + q M 1 を満たす非負数 q i に対し, M M p i log 2 q i p i log 2 p i i=1 i=1 5

補題 1 の証明 補題 1: 平均符号語長は必ず L H 1 (S) となる 符号語の長さを l 1,, l M とし,q i = 2 l i とする l i = log 2 q i M L = p i l i i=1 M = p i log 2 q i i=1 q 1 + + q M = 2 l 1 + + 2 l M 1 ( クラフトの不等式 ) M i=1 ( シャノンの補助定理 ) p i log 2 p i = H 1 (S) 6

補題 1 の意味するところ 補題 1: 平均符号語長は必ず L H 1 (S) となる 情報源 S の発生する記号を符号化するためには, 必ず H 1 S ビットの平均符号語長が必要 どれだけ高速なコンピュータや, どれだけスゴイ天才が 将来出現しても,H 1 (S) ビットの壁を超えることはできない エントロピー... 統計的に導かれた 情報理論的な量 平均符号語長の下界... データ圧縮の限界という 操作的な量... 情報理論は, 情報に関する 普遍的な物理法則 を与える 7

下界への到達可能性 補題 1: 平均符号語長は必ず L H 1 (S) となる H 1 (S) は, あくまでも平均符号語長の 下界 次の疑問... どこまで H 1 (S) に迫ることができるのか? 補題 2: 平均符号語長が L < H 1 (S) + 1 となる符号を構成可能 シャノンとファノが, 独立に発見した符号の構成法 シャノン ファノ符号 ( 本講義では, シャノン ファノ符号のアイデア部分だけを説明 ) 8

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 補題 2 の証明 補題 2: 平均符号語長が L < H 1 (S) + 1 となる符号を構成可能 符号の構成方法 : x x 以上の整数 step 1: l i = log 2 p i として, 符号語の長さを決定する step 2: 深さ l 1,, l M に葉を持つ符号木を構成する step 3: 符号木から符号語を決定する 5 4 3 2 1 0 log 2 p i log 2 p i 確認すべき事項 : 本当に符号木が構成できるのか? 平均符号語長は? p i 9

補題 2 の証明 ( 続 ) 本当に符号木が構成できるのか? = l i はクラフトの不等式を満たすのか? l i = log 2 p i より l i log 2 p i さらに変形すると,2 l i 2 log 2 p i = p i 2 l 1 + + 2 l M p 1 + + p M = 1 平均符号語長は? l i < log 2 p i + 1であることを利用する : M M L = p i l i < p i ( log 2 p i + 1) i=1 i=1 M M = p i log 2 p i + p i = H 1 S + 1 i=1 i=1 10

補題 2 に関する補足 前スライドの証明では... 符号木以降の議論を省略 シャノン ファノ符号... 具体的な符号木の作り方までを規定確率を 2 進数表記したときの, 小数部に着目 証明のために構成された符号 の色合いが強い 一番効率が良い わけではないたとえば,M = 2, p 1 = 0.9, p 2 = 0.1の場合... シャノン ファノ符号では,l 1 = 1, l 2 = 4 ハフマン符号では,l 1 = 1, l 2 = 1 11

補題 1+2 補題 1: 平均符号語長は必ず L H 1 (S) となる どんな符号を使っても越えられない壁 補題 2: 平均符号語長が L < H 1 (S) + 1 となる符号を構成可能 シャノン ファノ符号を使えば, 下界に迫ることが可能 ハフマン符号の位置づけは? vs. 12

ハフマン符号の最適性 最適符号 = 平均符号語長を最小にする瞬時符号可能符号 定理 : ハフマン符号は最適符号である... 予備的な補題 + 数学的帰納法で証明する 補題 : ハフマン符号の符号木, 最適符号の符号木とも, 確率最小の 2 記号は, 最も深いレベルに兄弟として存在する... 背理法で証明可能 ( 証明略 ) もし, ここの確率が小さければ... 子が 1 個の節点は存在しないはず より深いところと交換して, 平均符号語長の削減が可能 13

証明 : ハフマン符号は最適符号である 記号数 M に関する帰納法で証明する M = 1のとき... 自明 M = N 以下で定理の成立を仮定,M = N + 1の場合を考える ハフマン符号の符号木 L 平均符号語長 L L opt のはず... L opt 最適符号の符号木 p N p N+1 p N p N+1 記号数 N + 1 記号数 N 確率最小の 2 記号を併合 L (p N + p N+1 ) L opt (p N + p N+1 ) p N + p N+1 これより L L opt したがって L = L opt p N + p N+1 14

補題 1+2, 改良版 補題 1: 平均符号語長は必ず L H 1 (S) となる どんな符号を使っても越えられない壁 補題 2: 平均符号語長が L < H 1 (S) + 1 となる符号を構成可能 ハフマン符号を使えば, 下界に迫ることが可能 H 1 S L opt = L Huffman L Shannon Fano < H 1 S + 1 15

2 ページの例で確認 符号木を再帰的に構成し, 符号を作る 平均符号語長は L Huffman = 2.5 エントロピーは H S = 0.3 log 2 0.3 0.2 log 2 0.2 0.1 log 2 0.1 = 2.45 A B C D E F 確率 0.3 0.2 0.2 0.1 0.1 0.1 符号語 00 10 11 010 0110 0111 H 1 S L opt = L Huffman L Shannon Fano < H 1 S + 1 2.45 2.5? 3.45 16

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 シャノン ファノ符号の場合 5 4 3 2 1 0 l i = log 2 p i log 2 p i p i A B C D E F 確率 0.3 0.2 0.2 0.1 0.1 0.1 l i 2 3 3 4 4 4 符号語 00 010 100 1011 1100 1110 vs. ハフマン 00 10 11 010 0110 0111 L Shannon Fano = 0.3 2 + + 0.1 4 = 3.0 H 1 S L opt = L Huffman L Shannon Fano < H 1 S + 1 2.45 2.5 3.0 3.45 17

ここまでのまとめ 補題 1: 平均符号語長は必ず L H 1 (S) となる どんな符号を使っても越えられない壁 補題 2: 平均符号語長が L < H 1 (S) + 1 となる符号を構成可能 ハフマン符号を使えば, 下界に迫ることが可能 H 1 S L opt = L Huffman L Shannon Fano < H 1 S + 1 この +1 が気になる 18

お約束 を破る : 符号化の単位とブロック化 1 個の記号を,1 個の符号語に変換する A 0 平均符号語長は, 必ず 1 以上となる 2 元情報源の符号化を考えても, 意味がない B 10 A 0 C 11 C 11 A 0 記号確率 A 0.8 B 0.2 平均符号語長 C 1 0 1 1.0 C 2 1 0 1.0 複数の記号をまとめて符号化 ( ブロック符号化 ) すると... 1 記号あたりの平均符号長を1 以下にできるかも... 2 元情報源の符号化にもチャンスが... A B A C C A 10 1101 01 19

ブロック符号化のイメージ 記号の系列 ABCBCBBCAA... ブロック化 ブロック化された記号の系列 AB CBC BB CAA... ハフマン符号化 符号語系列 01 10 001 1101... ( 実際には, 符号語の間のスペースはナシ...) 20

ブロック符号化の例 (2-1) A B 確率 0.8 0.2 符号語 0 1 平均符号語長は 0.8 1 + 0. 2 1 = 1.0 AA AB BA BB 確率 0.64 0.16 0.16 0.04 符号語 0 10 110 111 長さ2のブロックを考える AAの発生確率 = 0.8 0.8=0.64... 平均符号語長は 0.64 1 + 0.16 2 +... + 0.04 3 = 1.56 記号 1 個当たりでは,1.56 / 2 = 0.78 2 元情報源でも, 効率改善 21

ブロック符号化の例 (2-2) AAA AAB ABA ABB BAA BAB BBA BBB 確率 0.512 0.128 0.128 0.032 0.128 0.032 0.032 0.008 符号語 0 100 101 11100 110 11101 11110 11111 ブロック長を大きくすると, 1 記号あたり平均符号語長は小さくなる ( 効率が良くなる ) 長さ 3 のブロックを考える AAA の発生確率 = 0.8 3 =0.512... 平均符号語長は 0.512 1 +... + 0.008 5 = 2.184 記号 1 個当たりでは,2.184 / 3 = 0.728 ブロック長 1 2 3 : 1 記号あたり平均符号語長 1.0 0.78 0.728 : 22

ブロック符号の平均符号長 ブロック長を大きくすると,1 記号あたり平均符号語長は小さくなる... ただの偶然? n 個単位でブロック化した記号 =n 次拡大情報源 S n の記号 1 個 記号を 1 個ずつ符号化する 場合の 議論が適用できる ブロック長 n のときの平均符号語長を L n とすると 平均符号語長は必ず L n H 1 (S n ) となる平均符号語長が L n < H 1 S n + 1 となる符号を構成可能 23

不等式の変形 H 1 S n L n < H 1 S n + 1 n で割る H 1 S n n L n n < H 1 S n + 1 n H 1 S n lim n n 極限を取る L n lim n n < lim H 1 S n + 1 n n 極限エントロピーで表現する H S L n n < H S + ε 1 記号あたりの平均符号語長 24

情報源符号化定理 情報源 S に対し, 瞬時復号可能な符号を構成する 構成した符号の,1 記号あたりの平均符号長を L とする H S L n n < H S + ε シャノンの情報源符号化定理 逆定理 L < H(S) であるような符号は存在しない 順定理 L が H(S) に限りなく近い符号を構成することができる 25

情報源符号化定理の意味するところ 逆定理 L < H(S) であるような符号は存在しない どれだけブロック長を大きくしても, エントロピーの壁は 越えられない 順定理 L が H(S) に限りなく近い符号を構成することができる ブロック長を大きく設定し, ハフマン符号を使えば, いくらでも下界に近づくことができる A B 確率 0.8 0.2 符号語 0 1 H(S) = 0.723 ブロック長 1 2 3 : 一通報あたり平均符号長 1.0 0.78 0.728 : 0.723 + ε 26

別視点からの説明 ブロック化すると, どうして効率が良くなるか? 理想的な符号語長は実数値 l i = log 2 p i p 1 = 0.8, p 2 = 0.2 の場合, 理想的な符号語の長さは... 0.8l 1 + 0.2l 2 min s.t. 2 l 1 + 2 l 2 1 l 1 = log 2 0.8 0.322 l 2 = log 2 0.2 2.322 現実には, 符号語長は整数値しか許されない シャノン ファノ符号の場合,l i = log 2 p i 符号語長は, 理想的な場合の log 2 p i log 2 p i 倍になる 27

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 別視点からの説明 ( 続 ) 確率値が大きくなると, 理想と現実のギャップが顕著に 15 10 5 log 2 p i log 2 p i 0 p i ブロック化すると... 各記号の発生確率が比較的小さくなる 理想と現実の間に多少ギャップがあっても, 1 記号あたり で考えるために n で割れば, 影響は小さくなる 28

本日のまとめ シャノンの情報源符号化定理 逆定理 L < H(S) であるような符号は存在しない 順定理 LがH(S) に限りなく近い符号を構成することができる情報源をブロック化し, ハフマン符号を使えばよい 理論的には完結しているが, 実用上の問題は残る符号化 復号の ( 時間 空間 ) 計算量削減前提条件の緩和 ( 確率分布が未知のケース etc.) 可逆でない 情報源符号化 続きは,III 期の 符号理論 で... 29

練習問題 ハフマン符号を構成するプログラムを作成せよ さらに, 拡大情報源に対して利用できるよう改良せよ 30