そもそも情報とはなに? ある事柄に関して知識を得たり判断のより所としたりするために不可欠な 何らかの手段で伝達 ( 入手 ) された種々の事項 ( の内容 ) ( 新明解国語辞典第 6 版 三省堂より一部抜粋 ) コンピュータで取り扱う情報の定義 Claud Elwood Shannon( 情報理論

Similar documents
情報理論 第5回 情報量とエントロピー

情報量と符号化

Information Theory

混沌系工学特論 #5

Information Theory

aaa

計算機概論

Microsoft Word - t30_西_修正__ doc

スライド 1

Microsoft PowerPoint - 7.pptx

コンピュータにおける情報の表現 (2)

Microsoft PowerPoint _Encoding.pptx

Microsoft Word - no103.docx

ボルツマンマシンの高速化

生命情報学

プログラミング実習I

Microsoft PowerPoint - 14MDL.pptx

文字コード略歴 よこやままさふみ社内勉強会 2012/05/18 文字コード略歴 Powered by Rabbit 2.0.6

Microsoft Word - 18環設演付録0508.doc


<4D F736F F F696E74202D2091E6824F82538FCD8CEB82E88C9F8F6F814592F990B382CC8CB4979D82BB82CC82505F D E95848D8682CC90B69

Microsoft PowerPoint kiso.ppt

Microsoft PowerPoint - 熱力学Ⅱ2FreeEnergy2012HP.ppt [互換モード]

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

様々なミクロ計量モデル†

Microsoft PowerPoint - 10.pptx

Microsoft PowerPoint - 画像工学 印刷用

untitled

23_33.indd

ポインタ変数

C プログラミング 1( 再 ) 第 4 回 講義では C プログラミングの基本を学び 演習では やや実践的なプログラミングを通して学ぶ 1

Microsoft Word - 微分入門.doc

ソフトウェア基礎 Ⅰ Report#2 提出日 : 2009 年 8 月 11 日 所属 : 工学部情報工学科 学籍番号 : K 氏名 : 當銘孔太

問 題

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

線形システム応答 Linear System response

Microsoft PowerPoint - 5Chap15.ppt

情報量・音声画像動画のA/D変換

画像処理工学

経済学 第1回 2010年4月7日

物理学 II( 熱力学 ) 期末試験問題 (2) 問 (2) : 以下のカルノーサイクルの p V 線図に関して以下の問題に答えなさい. (a) "! (a) p V 線図の各過程 ( ) の名称とそのと (& きの仕事 W の面積を図示せよ. # " %&! (' $! #! " $ %'!!!

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

PowerPoint プレゼンテーション

PowerPoint Presentation

2015年度 岡山大・理系数学

Microsoft PowerPoint - multi_media05-dct_jpeg [互換モード]

言語モデルの基礎 2

Microsoft PowerPoint - 5.ppt [互換モード]

Microsoft PowerPoint - multi_media05-dct_jpeg [互換モード]

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

スライド 1

<4D F736F F D208CF68BA48C6F8DCF8A C30342C CFA90B68C6F8DCF8A7782CC8AEE967B92E8979D32288F4390B394C529332E646F63>

アルゴリズムとデータ構造

Microsoft PowerPoint slide2forWeb.ppt [互換モード]

オートマトン 形式言語及び演習 1. 有限オートマトンとは 酒井正彦 形式言語 言語とは : 文字列の集合例 : 偶数個の 1 の後に 0 を持つ列からなる集合 {0, 110, 11110,

Microsoft PowerPoint - enshu4.ppt [äº™æ‘łã…¢ã…¼ã…›]

SAP11_03

OCW-iダランベールの原理

Microsoft Word - ㅎ㇤ㇺå®ı璃ㆨAIã†®æŁ°ç’ƒ.docx

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

測量試補 重要事項

2014年度 信州大・医系数学

H22-syokuiku.xls

解析力学B - 第11回: 正準変換

授業のあとで 情報処理工学 : 第 3 回 10 進数を 16 進数に変換する方法と 16 進数を 10 進数に変換する方法は 標準的な方法でも良いですか? 履修申告は済みましたか? 割り算 方法 ) 54 余り 6 16 ) 3 余り 3 ) 0 第 4 回へ 201

Microsoft PowerPoint - 2.ppt [互換モード]

Microsoft PowerPoint - H21生物計算化学2.ppt

. 角の二等分線と調和平均 平面上に点 を端点とする線分 と を重ならないようにとる, とし とする の二等分線が線分 と交わる点を とし 点 から に垂直に引いた直線が線分 と交わる点 とする 線分 の長さを求めてみよう 点 から に垂直な直線と および との交点をそれぞれ, Dとする つの直角三

Microsoft Word - 11 進化ゲーム

DVIOUT

Microsoft Word - No5_code_netbasic.doc

Microsoft Word - NumericalComputation.docx

08+11Extra

確率分布 - 確率と計算 1 6 回に 1 回の割合で 1 の目が出るさいころがある. このさいころを 6 回投げたとき,1 度も 1 の目が出ない確率を求めよ. 5 6 /6 6 =15625/46656= (5/6) 6 = ある市の気象観測所での記録では, 毎年雨の降る

PowerPoint プレゼンテーション

Microsoft PowerPoint - 基礎・経済統計6.ppt

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

Microsoft PowerPoint - 09macro3.ppt

講義「○○○○」

23_33.indd

Microsoft PowerPoint - アルデIII 10回目12月09日

2012-第14回.pptx

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

ポインタ変数

< 文字式問題文の意味を文字式で表す > No. 桁 ( ケタ ) の整数 自然数 例 ) 8 という整数は が つ が 8 つ集まってできている整数である これを踏まえて 8 = + 8 と表すことができる (1) 十の位の数字が χ 一の位の数字が у である 桁の整数は χ と у を用いてど

増設メモリ 1. 機能 型名 N N N N N GB 16GB 3 (x2 枚 ) (x2 枚 ) (x2 枚 ) (8GBx2 枚 ) (16GBx2 枚 ) DDR3-1066(PC3-8500) 動作クロック

Probit , Mixed logit

増設メモリ (2010/06/17)

増設メモリ 1. 機能 型名 N8102-G342 N8102-G343 N8102-G344 1GB (1GBx1 枚 ) (x1 枚 ) (x1 枚 ) SDRAM-DIMM, Unbuffered,ECC 1.5V 型名 N N N (1GBx1

増設メモリ 1. 機能 型名 N N N (x1 枚 ) (x1 枚 ) (x1 枚 ) DDR3-1333(PC ) SDRAM-DIMM, Unbuffered,ECC 動作クロック 667MHz( 差動 ) 1.5V 型名 N8102

木村の理論化学小ネタ 理想気体と実在気体 A. 標準状態における気体 1mol の体積 標準状態における気体 1mol の体積は気体の種類に関係なく 22.4L のはずである しかし, 実際には, その体積が 22.4L より明らかに小さい

PowerPoint プレゼンテーション

BIT -2-

<4D F736F F D F90948A F835A E815B8E8E8CB189F090E05F8E6C8D5A>

Microsoft Word - 中村工大連携教材(最終 ).doc

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

増設メモリ 1. 機能 型名 N N N N GB (x1 枚 ) (x1 枚 ) (x1 枚 ) (8GBx1 枚 ) DDR3-1333(PC ) 動作クロック 667MHz( 差動 ) 1.5V 型名 N8102-3

<4D F736F F F696E74202D B835E82CC8EED97DE B835E82CC834F BB F0955C82B793C190AB926C>

Windows Server 2016 Hyper-V ストレージQoS機能の強化

<4D F736F F D FCD B90DB93AE96402E646F63>

Transcription:

情報理論の基礎 l 自己情報量 (self information) l 平均情報量 (average information) l エントロピー (entropy) l 最大エントロピー (maximum entropy) l 冗長度 (redndancy) 可逆圧縮の原理と実践 l ランレングス符号化 l ハフマン符号化 ( エントロピー符号化 )

そもそも情報とはなに? ある事柄に関して知識を得たり判断のより所としたりするために不可欠な 何らかの手段で伝達 ( 入手 ) された種々の事項 ( の内容 ) ( 新明解国語辞典第 6 版 三省堂より一部抜粋 ) コンピュータで取り扱う情報の定義 Claud Elwood Shannon( 情報理論の発案者 ) 変化するパターンの中から選択できるもの 例 :T 子さんが結婚する ( 未婚 既婚への変化 )

ここで問題です Q. オバケの Q 太郎 という漫画には 毎日三食とも必ずラーメンを食べている小池さんというキャラクターが登場します 小池さんが今日何を食べたかは 情報と呼べるでしょうか? A. 小池さんは いつでも必ずラーメンを食べているのですから まったく変化がありません したがって 小池さんが今日何を食べたかは 情報とは呼べません もしも 小池さんの食事が ラーメンを食べる / カレーを食べる のように変化するなら情報と呼べます

情報の最小単位 天気という情報は 晴れ 曇り 雨 雪の 4 通りに変化します 道路信号は 青 黄 赤の 3 通りに変化します それでは 最も少ない変化は 何通りでしょう YES/ NO 男 / 女 前 / 後のような 2 通りの変化です すなわち 2 通りの変化が情報の最小単位であり これを ビット と呼びます ビット (bit) は binary digit(2 進数 ) を略した言葉です 情報源 電線 伝達先 電線 本で ビットの情報を伝える 電圧がかかっていない 0 電圧がかかっている

情報の基本単位 コンピュータは 8 本の電線をセットで使った 8 ビットを 情報の基本単位としています これを バイト と呼びます 8 ビット = バイト (byte) です 0 0 0 0 0 0 0 0 0 0 0 最近のコンピュータは 64 ビット CPU (central processing unit: 中央処理装置 ) が搭載されている 800 京通り 8 本 = バイトで表せるパターンは 256 通り すなわち 256 通りの変化を処理できる 024 byte(b) = KB ( キロバイト ) 024 KB = MB ( メガバイト ) 024 MB = GB ( ギガバイト ) 024 GB = TB ( テラバイト ) 2 0 byte 2 20 byte 2 30 byte 2 40 byte

情報の量とは その情報を得た人にとっての内容の豊富さのことであると考えてよい これから S 君の部屋へ遊びに行くぞ! 部屋はどこだっけ? A 君 入口 3 4 5 6 9 0 2 5 6 7 8 2 3 4 アパートのモデル図 A 君は入口で次の情報を教えてもらった 情報 : S 君は 号室に住んでいる この情報は A 君にとって果たしてどれぐらいの情報の量であったのか Q. ケースとケース2では, どちらが入口で得た情報の量が多い ( 豊富 ) と考えられるか? /6 Case :A 君は S 君が何階に住んでいるのか知らなかった. Case 2:A 君は S 君が 3 階に住んでいるのを知っていた. /4

情報の量は, 情報を得る前の可能性の数 ( 前例では部屋の数 ) に関係し, その数が増すにつれ情報の量も増すようでなければならない ( 単調増加関数 ). 情報の加法性が成り立たなければならない. 情報 :S 君の部屋は6 室の 号室である. 情報 2:S 君の部屋は3 階にある. 情報 3:S 君の部屋は左から3 番目の部屋である. 情報 の量 = 情報 2 の量 + 情報 3 の量 情報の量は, 可能性の数の対数で定義するのが便利 対数の底を 2 にとると, 最小の情報 ( 二択 ) の量は log 2 2= となり, 情報量の単位として都合がよい.

情報量の定義 I( p i : ある出来事が発生する確率 ( 事前確率 ) p i ) = = log log 2 2 事後確率事前確率 = log2 p i p i I(p i ) 自己情報量 or 選択情報量 自己情報量のグラフ p i 情報量の単位はビット [bit] p i = /2 のとき I(p i ) = p i = のとき I(p i ) = 0

自己情報量の例 [ 例 ] 赤ん坊が生まれたとき その男女比が : とする 男が生まれる事象を boy 女が生まれる事象を girl とすると それぞれの自己情報量は次のようになる I ( boy) = log 2 2 = bit I ( girl) = log 2 2 = bit [ 例 2] ある試験では 合格する可能性が /8 である この試験に合格した場合の自己情報量は I( 合格 ) = log 2 8 = 3 bit となる 一方 不合格になったときの自己情報量は 7 I( 不合格 ) = log 2 8 = log 2 7+ log 2 8 = 2.807+3 = 0.93 bit

情報の加法性 情報 :S 君の部屋は 6 室の 号室である. 情報 2:S 君の部屋は 3 階にある. 情報 3:S 君の部屋は左から 3 番目の部屋である. 情報 の量 = 情報 2 の量 + 情報 3 の量 log 2 6 = 4 log 2 4 = 2 log 2 4 = 2 [ 例 ] ジョーカーを除いた 52 枚のトランプを相手に引いて貰い その内容を教えてもらうことを考える 引いたカードが ハートのAであることを知ったときの情報量は I( ハートのA) = log 2 5.7 bit 52 引いたカードが ハートであることのみを知ったときの情報量は I( ハート ) = log 2 = 2 bit 4 引いたカードが Aであることのみを知ったときの情報量は I(A) = log 2 3.7 bit 3

平均情報量 (average information) 情報量の平均 ( 期待値 ) について考えよう いま ある事象系を {a, a 2,, a N } とする これら N 個の事象は互いに排反で その生起確率 p i の総和は とする ( 完全事象系 ) このとき 情報量 I(p i ) の平均 すなわち平均情報量 H は次のように示される H = p ( log 2 p ) + p 2 ( log 2 p 2 ) + + p N ( log 2 p N ) = N i= p i log 2 p i ただし N i= p i =.0 平均情報量の取りうる値は 0 H log 2 N bit 事象系 {a, a 2,, a N } において 一つの事象 a i の生起確率が p i = で その他の事象の生起確率がすべて 0 のとき H = 0 これは結果を聞く前から結果が既知なので情報としては価値がない 事象系 {a, a 2,, a N } において すべての事象の生起確率が p i = /N と一様の場合は 平均情報量は最大の H = log 2 N bit となる これはどれが起きるか全く予想できない状態

平均情報量の例 [ 例 ] ある家の本日の晩ご飯の生起確率が以下の通りだとする p( カレー ) = p( からあげ ) = p( ステーキ ) = 4 8 6,,, p( ハンバーグ ) = p( とんかつ ) = p( すき焼き ) = 4 8 0,, p( 焼き魚 ) = p( さしみ ) = 8 6 H = log 4 = 4 4 8 = i= + p i log2 p i 9 8 2 2 log2 3 log2 4 8 8 6 6 8 + + 0 = +.25 + 0.5 = 2.625 6 ただし x 0 のとき x log 2 x 0 2 0log bit 2 0

エントロピー (entropy) 無秩序, 混乱 熱力学における分子の無秩序さを表す尺度 熱力学におけるエントロピー H = K k n k ln n k K はポルツマン定数,n k は気体分子の k 番目のエネルギー状態にある確率 情報理論におけるエントロピー H 2 = k p i log p i 熱力学におけるエントロピーと平均情報量は定数倍, 対数の底を除いて一致する. そのため, 平均情報量を情報理論におけるエントロピーと呼ぶことにする.

最大エントロピー (maximum entropy) 2 種類の文字 A,B が, それぞれ確率 p, p で生起する情報源のエントロピーは次のように表される. H { p log p + ( p) log( p) } = H(p) H を確率 p の関数として示すと右のようなグラフ ( エントロピー関数 ) になる. 文字 A と B どちらであるか半々である状態 H が零になるのは,p = か p = 0 のとき. H が最大になるのは,p = 0.5 のとき. 文字 B であるにきまっている p 文字 A であることがわかりきっている すべての出来事が等確率で発生すると仮定した場合のエントロピーを最大エントロピー (maximum entropy) という.

最大エントロピーの例 以下の例はいずれも各事象の生起確率が等確率と仮定する. サイコロを一回振る時の最大エントロピー 6 H max = log2 = log2 6 = 6 6 i= 2.585 英数字 (A~Z と空白, 計 27 文字 ) の最大エントロピー 27 H max = log2 = log2 27 = 27 27 i= 4.755 bit bit 常用漢字 (945 文字 ) の最大エントロピー 945 H max = log2 = log2 945 = 0.925 945 945 i= bit

冗長度 (redundancy) 最大エントロピー :H max とエントロピー :H の違いは情報源に含まれる 無駄さ である. 与えられた情報源がどれだけ無駄なものを含むかの度合いを冗長度 (Redundancy) という. これは情報の中で実際の情報以外のものの割合とも言える. 冗長度 :r は次のように定義される r H = = H max エントロピー最大エントロピー 冗長性があるおかげで... データの圧縮が可能 正確な情報通信が可能 情報そのものは減らすことなく, 情報以外の冗長な部分を切り詰める あえて冗長な部分を付加 利用して, 情報の正確さを判定 担保する

例 : 4 つの文字 (A,B,C,D) からなるデータ 出現率が均等である場合 p A = p B = p C = p D = ¼ 冗長度がなく, 最大エントロピー H max に一致する 平均情報量 H = log 2 4 = 2.0 bit 出現率に偏りがある場合 p A = /2, p B = /4, p C = p D = /8 冗長度があり, 得られる情報量は見かけより少ない 平均情報量 H = ½ log 2 2 + ¼ log 2 4 +¼ log 2 8 = 0.5 + 0.5 + 0.75 =.75 bit 冗長度 r = -.75/ 2.0 = 0.25 情報量を, 情報を表現できるビット数であると考えれば, 出現率に偏りがある情報のほうが情報量が小さくなる. すなわち, 少ないビット数で表現できることを意味する. これは, データ圧縮, 特に可逆圧縮の基本原理である. 可逆圧縮は元のデータに完全に復元できる. それに対して非可逆圧縮は元のデータに完全には復元できない.

最小符号長 平均情報量 ( エントロピー ) = 冗長性を廃した場合のデータ量 = 最小符号長 例 : 4 つの値からなるデータ (A,B,C,D) ( 情報を表現するのに必要な最低限の符号の長さ ) 出現率が均等である場合 p A = p B = p C = p D = /4 平均情報量 =2.0 ビット 出現率に偏りがある場合 p A = /2, p B = /4, p C = p D = /8 平均情報量 =.75 ビット 4 つの値を表現するのに必要なビット数に一致する 4 つの値を表現するのに必要なビット数より少ない 統計的な偏り があれば, 情報量を保持したままデータを圧縮することができる

データ量と情報量 例 : 00 種類の文字からなる 00 文字の文字列 データ量 文字 =8 ビット 8 00=800 ビット ( アルファベットなど ) 文字 =6 ビット 6 00=600 ビット ( ひらがな, 漢字など ) 情報量データ量は変わっても, 情報の質は変わらない 00 文字の文字列である 情報量は同じでも, データ化によってデータ量に差が生じる 情報量 < データ量 データの冗長性

FAX FAX には基本的なデータ圧縮処理が使われている

FAX で使われる 圧縮技術 Run Length encoding ランレングス符号化 ( 連長符号化 )

FAX で使われる 圧縮技術 2 Haffman encoding ハフマン符号化 エントロピー符号化の一種

ランレングス符号化 元データ データ内に同じ値が並んでいる場合, その並びの数を記録していく方法 0 0 2 2 2 3 3 3 圧縮データ 4 2 0 4 3 2 3 3 3

ランレングス符号化のバリエーション 元データ 0 2 2 2 3 方法 基本的なランレングス符号化 4 0 4 3 2 5 3 方法 2 ランレングスを示すコードを挿入する 0xFF 4 0 0xFF 4 0xFF 3 2 0xFF 5 3 方法 3 ラン長部分をランレングスを示すコードとする 0x84 0 0x84 0x82 2 0x85 3

エントロピー符号化 データ値の出現頻度に応じてビット長の違う符号を割り当てる方法 モールス符号と基本的には同じ考え方 普通の符号化 出現頻度に基づく符号化 データ値符号データ値出現頻度符号 A 00 B 0 C 0 D A 0.8 0 B 0. 0 C 0.05 0 D 0.05 平均符号長 0.25 2+ 0.25 2 + 0.25 2 + 0.25 2 = 2.0 ( ビット ) 平均符号長 0.8 + 0. 2 + 0.05 3 + 0.05 3 =.3 ( ビット ) 代表的なもの : シャノン ファノ符号化, ハフマン符号化

ハフマン符号化 各データを重みを持った葉と捉え, 出現頻度の低いものをまとめて ハフマン木 と呼ばれる木構造のデータを構築し, ハフマン木から各データに割り当てるビット列を決定する ハフマン木の例 :

ハフマン木の作成法 データのなかで出現頻度の低いもの 2 つをまとめ, ツリー状のデータ構造で表現する そして, 2 つの出現頻度を合計したものを新たなデータ値の出現頻度とする 2 で作成したデータ値と次に出現頻度の低いデータとで の処理を行う これをハフマン木が つにまとまるまで繰り返す

ハフマン木の作成例 0 0 0 0 0 0

ハフマン符号化されたデータの復号 復号にもハフマン木が必要 元のデータの出現頻度情報を付加しておく データ値 バイト A B C D バイト バイト バイト 出現頻度 0.8 0. 0.05 0.05 4 バイト 4 バイト 4 バイト 4 バイト 4 バイト + 6 バイト 出現頻度情報の付加によるデータ量の増加分 = 20 バイト ハフマン木のための付加情報によってデータ量が多くなってしまうこともあり得る

圧縮してみよう! 画素を bit で表現した 2 値画像 :(6 6 画素 ) データ量はいくつか? 平均情報量はいくつか? ランレングス符号化後のデータ量はいくつか? ランレングス符号化 + ハフマン符号化後のデータ量はいくつか?