Microsoft PowerPoint - multi_media05-dct_jpeg [互換モード]

マルチメディア工学マルチメディアデータの解析データ圧縮 : 離散コサイン変換と JPEG 佐藤嘉伸マルチメディア工学 : 講義計画マルチメディアデータの解析基礎数理代表的解析手法データ圧縮 : 離散コサイン変換 JPEG データ表現 : 形状の主成分分析奈良先端科学技術大学院大学情報科学研究科生体医用画像研究室 yoshi@is.naist.jp http://icb lab.naist.jp/members/yoshi/ 講義ホームページ : 日本語ページ授業の資料マルチメディア工学マルチメディアデータの解析基礎数理最小二乗法直交変換直交関数展開代表的解析手法データ圧縮 : 離散コサイン変換 JPEG データ表現 : 形状の主成分分析 ( データ認識 : 隠れマルコフモデル ) 音声言語を含む時系列データに対して有効 ( 音声の独立成分分析 ) データ圧縮 :JPEG JPEG 圧縮の原理離散コサイン変換 (DCT) アダマール変換 8 8 離散コサイン変換離散フーリエ変換との比較 JPEG 方式概要画像分割離散コサイン変換量子化エントロピー符号化量子化エントロピー符号化 ( ハフマン符号化 ) e x 直交変換 : 正規直交基底 x e' x e' e =Tx x=t T x = T 離散コサイン変換 e, e ( 恒等変換 ) - e, e' ' -

このイメージは現在表示できません直交変換 : 正規直交基底の例次元ベクトル 4 次元ベクトル e k e' e k k e' k k k k 3 k 3 - ( 恒等変換 ) ( アダマール変換 ) アダマール変換の直交基底 e k,k e' k,k ( 恒等変換 ) k 3 k k 3 マトリックス e k,k k ( 恒等変換 ) e'k,k k k = = = = 3 (4 4 マトリックス = 6 次元ベクトル ) 4 - e 離散コサイン変換の直交基底 (DCT: Discrete Cosine Transform) cos i N k k cos i N (8 8 マトリックス = 64 次元ベクトル ) ' k, (, ) k i i k k k 直交条件 N N i i e' k, k ( i, i ) e' ( i (for ( k, k ) ( k', k' ) ) N for k N for k k', k' e' k,k k 3 4 5 6 7 k i N = 8 i 3 i 4, i) 5 6 7 低周波高周波低周波高周波i i i 離散コサイン変換と離散フーリエ変換の比較離散コサイン変換が用いられる理由離散コサイン変換の目的画像を空間領域 ( 直交基底 e k,k の係数 ) から周波数領域 ( 直交基底 e k,k の係数 ) に変換して情報源のエントロピーを小さくする ( 直交基底 e k,k が三角関数系のとき変換後の空間は周波数領域と呼ばれる ) 空間領域の画像ではどの画素値も同じビット数で表現されるこれはどの画素においてもとりうる画素値の確率分布が同じと仮定しなければならないからであるエントロピーが大きい周波数領域の画像では一部の画素 ( 低周波成分 ) を除いてとりうる画素値の確率分布幅を大幅に小さくできるエントロピーを小さくできる空間領域周波数領域周波数領域では真中あたり ( 低周波成分 ) を除いてに近い値のみをとる確率が極めて高くなるエントロピーが小さくなる離散コサイン変換の目的情報源符号化の際平均符号長は情報源のエントロピーより小さくすることはできないすなわちエントロピーを小さくすれば圧縮効果は高まるよってエントロピーの低減はキーポイントである離散コサイン変換も離散フーリエ変換も画像を空間領域から周波数領域に変換するという点では同じであるしかし離散コサイン変換は離散フーリエ変換よりエントロピーを小さくするすなわち低周波成分への集中度を高めることができるそれはなぜか? その理由を理解するにはそれぞれの連続空間における数学的意味の検討が必要である

フーリエ変換 iux F( u) f ( x) e dx フーリエ変換 f ( x){cos( ux) isin( ux)} dx 関数 f(x) と直交関数系である三角関数系の複素数表記 e iux = cos(ux) i sin(ux) との内積をとる直交変換後の関数は周波数 u の関数 F(u) となる F(u) の実数 (Re) 成分が cos 成分虚数 (Im) 成分が sin 成分がとなる x が実数の場合 F(u) = F*( u) である (* は複素共役 ) フーリエ変換展開の整理 ( 連続関数の ) フーリエ変換入力 ( 空間 ) f(x): 連続無限 ( 定義域 - から ( 無限区間 ) の連続関数 ) 出力 ( 周波数 ) F(u): 連続無限 ( 定義域 - から ( 無限区間 ) の連続関数 ) フーリエ級数展開 ( 周期的連続関数のフーリエ変換 ) 入力 ( 空間 ) f(x): 連続周期 ( 周期的連続関数 ) 出力 ( 周波数 ) c n : 離散無限 ( 離散値の無限系列 ) 離散フーリエ変換 ( 有限長の標本値系列のフーリエ変換 ) 入力 ( 空間 ) x n : 離散有限 ( 離散値の有限系列 ) 出力 ( 周波数 ) c n : 離散有限 ( 離散値の有限系列 ) フーリエ変換展開の整理 ( 連続関数の ) フーリエ変換入力 ( 空間 ) f(x): 連続無限 ( 定義域 - から ( 無限区間 ) の連続関数 ) 出力 ( 周波数 ) F(u): 連続無限 ( 定義域 - から ( 無限区間 ) の連続関数 ) フーリエ級数展開 ( 周期的連続関数のフーリエ変換 ) 入力 ( 空間 ) f(x): 連続周期 ( 周期的連続関数 ) 出力 ( 周波数 ) c n : 離散無限 ( 離散値の無限系列 ) フーリエ変換フーリエ級数展開離散フーリエ変換 ( 有限長の標本値系列のフーリエ変換 ) 入力 ( 空間 ) x n : 離散周期 ( 有限 ) ( 離散値の周期的系列 ) 出力 ( 周波数 ) c n : 離散周期 ( 有限 ) ( 離散値の周期的系列 ) 離散フーリエ変換 http://en.wikipedia.org/wiki/relations_between_fourier_transforms_and_fourier_series 離散フーリエ変換の連続空間における数学的意味デジタル信号のフーリエ変換 ( 離散フーリエ変換 ) 入出力 : 離散有限 ( 離散値の有限系列 ) 空間領域 x=x ii c=c kk i e x i c x e' c x c e' k e k c = Tx x = T T c x = c 周波数領域 e' k,k は三角関数系離散フーリエ変換の連続空間における数学的意味離散フーリエ変換の連続空間における意味入出力 : 有限の定義域区間を周期とする ( 無限区間の ) 周期関数を一定間隔で標本化したもの離散周期離散周期 ( 空間領域 ) f(x) F(u) ( 周波数領域 ) 周期離散 3

コサイン変換 F c コサイン変換 ( u) f ( x)cos( ux) dx 区間 [, ] で定義される関数 f(x) を原点に関して鏡像変換して得られる ( 偶 ) 関数 f'(x) (f'(x) = f'( x)) をフーリエ変換した結果 ( の/) と等価である iux Fc ( u) f ( x)cos( ux) dx f '( x) e dx F c (u) は実数 (Re) 成分のみとなる F c (u) = F( u) である離散フーリエ変換 (DFT) と離散コサイン変換 (DCT) 連続空間における数学的意味 f (x) i 離散フーリエ変換右の画像を上下左右に並べていき周期関数にしたものをフーリエ変換したものに等価離散コサイン変換上下左右の鏡像変換画像を並べた右の画像をさらに上下左右に並べていき周期関数にしたものをフーリエ変換したものに等価 ( 偶関数になっていることに注意!) i f'(x) i i 離散フーリエ変換 (DFT) と離散コサイン変換 (DCT) 連続空間における数学的意味離散フーリエ変換 i 離散コサイン変換 i i (Re) (Re) (Im) お知らせ授業改善のためのアンケートが KOANで実施されます. 回答期間は7/6 8/3です清川先生担当分のレポート課題をCLEに設定しました 7/6 締切に設定しています今年度のマルチメディア工学の講義は本日が最終回です i 離散フーリエ変換 (DFT) と離散コサイン変換 (DCT) 連続空間における数学的意味離散フーリエ変換 i (Re) (Im) 離散フーリエ変換 (DFT: Discrete Fourier Transform) i 離散コサイン変換対称性のため情報は半分だけ i i さらなる対称性のため情報は /4 だけ 4

離散コサイン変換 (DCT: Discrete Cosine Transform) 離散フーリエ変換 (DFT: Discrete Fourier Transform) 不連続 ( 継ぎ目 ) がある離散コサイン変換 (DCT: Discrete Cosine Transform) 不連続 ( 継ぎ目 ) がない離散フーリエ変換 (DFT) 離散コサイン変換 (DCT) 連続系で解釈すれば離散フーリエ変換は有限の離散画像を単純に並べて周期化したものを連続フーリエ変換したものである画像の境界で不連続が発生する ( 本来の画像には無い高周波数成分が発生してしまう ) これにより低周波数成分への集中が弱まりエントロピーが大きくなる離散コサイン変換は有限の離散画像を ( 縦横それぞれ ) 鏡像変換しながら並べて周期化したものである鏡像変換することにより画像境界が連続的につながる ( 離散フーリエ変換のような高成分が発生しない ) DFT DCT JPEG 方式の概要 JPEG 方式本資料ではモノクロ画像 ( 輝度成分 ) のみを対象とする画像を8 8 画素のブロック分割を行う離散コサイン変換 (DCT) によりエントロピーを低減する DCTの各係数値を量子化する. 量子化した各係数値を以下の手順で符号化する 8 8の次元的配列をジグザグスキャンにより低周波成分から高周波成分に並ぶよう次元系列化にする次元系列となった係数値に対して差分符号化 ( 直流成分 ) ランレングス符号化を行う 5

画像 JPEG 方式の概要 8 8 画素のブロックに分割離散コサイン変換 (DCT) 変換後各係数の量子化ジグザグスキャンによる次元系列化次元系列の符号化ジグザグスキャン次元系列 8 8 画素ブロックブロック毎の JPEG 方式の概要画像を8 8 画素のブロック分割を行う離散コサイン変換によりエントロピーを低減する DCTの各係数値を量子化する. 量子化した各係数値を以下の手順で符号化する 8 8の次元的配列をジグザグスキャンにより低周波成分から高周波成分に並ぶよう次元系列化にする次元系列となった係数値に対して差分符号化 ( 直流成分 ) ランレングス符号化を行う 8 8 ブロック分割 8 8 ブロック分割 8 8 ブロック 8 8 ブロック分割 8 8 ブロック分割 8 8 ブロック 8 8 ブロック 6

JPEG 方式の概要画像を 8 8 画素のブロック分割を行う離散コサイン変換によりエントロピーを低減する DCT の各係数値を量子化する. 量子化した各係数の値を以下の手順で符号化する 8 8の次元的配列をジグザグスキャンにより低周波成分から高周波成分に並ぶよう次元系列化にする次元系列となった係数値に対して差分符号化 ( 直流成分 ) ランレングス符号化を行う離散コサイン変換 (DCT) 8 8 画素値内積 (x, e' ) DCT 基底 k (Re) DFT (Im) x e' 直流成分 ( 平均輝度 ) k e' k,k 離散コサイン変換 (DCT) 8 8 画素値 x 離散コサイン変換 (DCT) 8 8 画素値 x 内積 (x, e' ) DCT 基底 k 内積 (x, e' ) DCT 基底 k (Re) DFT (Im) (Re) DFT (Im) e' k e' k,k e' k e' k,k 離散コサイン変換 (DCT) 8 8 画素値 x 離散コサイン変換 (DCT) 8 8 画素値 x 内積 (x, e' ) DCT 基底 k 内積 (x, e' ) DCT 基底 k (Re) DFT (Im) (Re) DFT (Im) e' k e' k,k e' k e' k,k 7

離散コサイン変換 (DCT) 8 8 画素値 (Re) DFT (Im) e' x 内積 (x, e' ) DCT 基底 k k e' k,k JPEG 方式の概要画像を8 8 画素のブロック分割を行う離散コサイン変換によりエントロピーを低減する DCTの各係数値を量子化する. 量子化した各係数値を以下の手順で符号化する 8 8の次元的配列をジグザグスキャンにより低周波成分から高周波成分に並ぶよう次元系列化にする次元系列となった係数値に対して差分符号化 ( 直流成分 ) ランレングス符号化を行うの特性浮動小数点の数値データである通常の画像では高周波成分 ( 青領域 ) は直流 ( 赤枠 ) 低周波成分 ( ピンク領域 ) にくらべはるかに小さな数値 ( 無視できる程度の数値 / ほぼゼロ ) となる 8 8 画素値 ( 境界付近が含まれている場合 ) の特性不動小数点の数値データである通常の画像では高周波成分 ( 青領域 ) は直流 ( 赤枠 ) 低周波成分 ( ピンク領域 ) にくらべはるかに小さな数値 ( 無視できる程度の数値 / ほぼゼロ ) となる 8 8 画素値 ( 濃淡値変化が小さい場合 ) 直流成分低周波成分直流成分低周波成分高周波成分高周波成分量子化テーブル DCTの各係数を予め与えられた量子化テーブルの数値で割り算し小数点以下を丸める ( 高周波数成分の多くはゼロになる ) 量子化テーブル DCTの各係数を予め与えられた量子化テーブルの数値で割り算し小数点以下を丸める ( 高周波数成分の多くはゼロになる ) 低周波成分 k 高周波成分 48..83 6 6 77 k k k [JPEG Standard Annex K] この ( 推奨 ) 量子化テーブルの値は人間の視覚特性に基づいて定められたものであるすなわち感度のよい周波数帯により小さな値が設定されている [JPEG Standard Annex K] 絶対値が小さい傾向にある高周波数成分ほど大きな値で割り算されさらに小さな値となる 8

量子化 ( 濃淡値変化が小さい場合 ) 量子化 ( 濃淡値変化が大きい場合 ) テーブル値量子化量子化テーブルテーブル値量子化量子化テーブル直流成分以外ごく一部の低周波成分を除いてほとんどがゼロ直流成分以外一部の低周波成分が比較的大きナ値をもつがそれでも多くの成分がゼロ JPEG 方式の概要画像を8 8 画素のブロック分割を行う離散コサイン変換によりエントロピーを低減する DCTの各係数値を量子化する. 量子化した各係数値を以下の手順で符号化する 8 8の次元的配列をジグザグスキャンにより低周波成分から高周波成分に並ぶよう次元系列化にする次元系列となった係数値に対して差分符号化 ( 直流成分 ) ランレングス符号化を行うジグザグスキャン直流成分を出発点として低周波から高周波成分までジグザグスキャンにより量子化されたを次元の数値系列に変換する量子化された c k,k k 次元系列化された c,c, c,c, c,c, c 3,c, c,c 3, c 4,c 3,c,c 3,c 4,c 5,.., c 75,c 76, c 67,c 77 直流低周波高周波 k ジグザグスキャン 8 8 画素ブロック内において濃淡変化が小さい場合量子化 k ジグザグスキャン 8 8 画素ブロック内において濃淡変化が大きい場合量子化 k k 次元系列化された 6,,,,,-,-, -, -,,,,......,,,, 直流低周波高周波 k 次元系列化された 49,8,8,6,4,3,-,,-,-,,-,-3,-,,,,-,,,,...,,,, 直流低周波高周波 9

JPEG 方式の概要画像を8 8 画素のブロック分割を行う離散コサイン変換によりエントロピーを低減する DCTの各係数値を量子化する. 量子化した各係数値を以下の手順で符号化する 8 8の次元的配列をジグザグスキャンにより低周波成分から高周波成分に並ぶよう次元系列化にする次元系列となった係数値に対して差分符号化 ( 直流成分 ) ランレングス符号化を行う差分符号化 ( 直流成分 ) 隣り合う 3 つのブロックの量子化係数値系列濃淡変化が比較的小さい場合 3 6 6 7 3 5 隣接するブロックの平均輝度値は近いので前ブロックの直流成分との差分を用いることにより値の可変範囲 ( エントロピー ) を低減する (6,3,7,. のかわりに (6),6,-5,.. を記憶する ) 差分符号化 ( 直流成分 ) 隣り合う 3 つのブロックの量子化係数値系列濃淡変化が大きい場合次元量子化系列の特徴ジグザグスキャンにより次元系列化された量子化値の例 5,-3,-9,-,,,,,,,,,,,,,,,,,,,,,,-,,,,,,-,,,,,,,,,,,,,.,, 9 5 4 49 9 43 濃淡変化が大きい場合には必ずしも隣接ブロックの直流成分値は近いとは言えないがそれでも成分値そのものよりも差分値の可変範囲は小さい 7,-,,,-,,,-,,,,,-,,,,,-,,,,,,,-,,,..,, が続く傾向にあるのでについてはが続く数 ( ランレングス ) を記憶させる ( よりもが 7 回のほうが短い ) ランレングス符号化符号化の方針直流成分は差分符号化するその他の成分は以外の値が出現した時点でその値が出現する直前までにが続いた数とその値のペアとして符号化する以外の値がそれ以降出現しなければ EOB としてそのブロックの符号化を完了する符号化の例 ( 直流成分以外 ) 5, -3,-9,-,,,,,,,,,,,,,,,,,,,,,,-,,,,,,-,,,,,,,,,,,,,.,, (,-3) (,-9) (,-) (,) (,) (,) (,) (,) (,) (,-) (5,-) (8,) EOB (Run, Coef) の意味 : が Run 回続いた後 ( 以外の )Coef が出現 JPEG 方式の概要画像を8 8 画素のブロック分割を行う離散コサイン変換によりエントロピーを低減する DCTの各係数値を量子化する. 量子化した各係数値を以下の手順で符号化する 8 8の次元的配列をジグザグスキャンにより低周波成分から高周波成分に並ぶよう次元系列化にする次元系列となった係数値に対して差分符号化 ( 直流成分 ) ランレングス符号化を行う

エントロピー符号ハフマン符号と JPEG 情報源 ( シンボル列の有限空間とその上の確率分布 ) をシンボル毎の出現確率に基づいた符号語長を用いて符号化する出現確率大 ( 小 ) 符号語長短 ( 長 ) を割り当てることにより高い圧縮効果を得る平均符号長はエントロピーより小さくすることはできないエントロピー : 情報源を表現するのに必要な平均ビット数ハフマン符号はコンパクト符号 ( 一意複号可能で平均符号長を最小化する符号 ) である JPEGにおけるハフマン符号直流成分に対する差分符号 ( の数値 ) その他の成分 ( 交流成分 ) に対するランレングス符号 ( の数値列 ) のそれぞれに対して異なるハフマン符号が定義されるハフマン符号の復習前提条件各シンボルの出現確率が既知であるアルゴリズム以下のペア化の処理を繰り返す最も出現確率の低いつのシンボルをペアにするこれらつのシンボルを新しいつのシンボルとみなす以上の処理により分木が構成される分木の各分岐に / を割り当てる根から各分岐の / を連結することにより符号を得る A. B.5 C.3 D.75 E..45.75.575. 直流 (DC) 成分差分のサイズ分類とそのハフマン符号直流成分の差分符号化における仮定隣接ブロックの直流成分 ( 平均輝度値 ) は近い値である差分値の出現頻度が最も高く差分値の絶対値が大きくなるにしたがい出現頻度は低下する差分値を size 分類符号テーブルに従って符号化 Kingsbury DC Coef Difference Size Typical Huffman codes Additional Bits (in for Size binary),, 3,,,3,,, 7,, 4,4,,7 3,,,, 5, 8,8,,5 4,,,,, 3, 5,5,,3,, 47, 4,4, 47,, http://cnx.org/content/m96/latest/ 直流 (DC) 成分差分のサイズ分類とそのハフマン符号具体例差分値 : Size (Code ), Additional Bits Huffman Code: 差分値 : Size (), Additional Bits Huffman Code: 差分値 4: Size 3 (), Additional Bits Huffman Code 差分値 5: Size 4 (), Additional Bits Huffman Code Kingsbury DC Coef Difference Size Typical Huffman codes Additional Bits (in for Size binary),, 3,,,3,,, 7,, 4,4,,7 3,,,, 5, 8,8,,5 4,,,,, 3, 5,5,,3,, 47, 4,4, 47,, http://cnx.org/content/m96/latest/ 直流 (DC) 成分差分のハフマン符号差分値出現頻度分布の実例エントロピー差分符号なし : 6.4 bits 差分符号あり : 6.7 bits Kingsbury 差分符号なし差分符号あり http://cnx.org/content/m96/latest/ 交流 (AC) 成分のハフマン符号交流成分はランレングス符号 (Run, Coef) の系列 (Run, Coef) : が Run 回続いた後係数値 Coef が出現例 :(, 3) (, 9) (, ) (,) (,) (,) (,) (,) (,) (, ) (5, ) (8,) EOB (Run, Coef) のハフマン符号 (Run, Coef の Size) のハフマン符号と付加ビットで表現する Coef の Size 分類については DC 成分と同じ分類に基づく Kingsbury (Run,Size) Code Byte (hex) Code Word Code Word (Run,Size) Code Byte (hex) (binary) (binary) (,) (,6) 6 (,) (,3) 3 (,3) 3 (5,) 5 (EOB) (6,) 6 (,4) 4 (,7) 7 (,) (,) (,5) 5 (7,) 7 (,) (,4) 4 (,) (3,) 3 (ZRL) F (4,) 4 http://cnx.org/content/m96/latest/

交流 (AC) 成分のハフマン符号具体例 (Run, Coef)= (, 7) : (Run Size)=(,3) + 付加ビット (Run, Coef)= (,3): (Run, Size) = (,) + 付加ビット交流成分係数の出現頻度 (Run Size)=(,) (Run,Size) Code Word (binary) (Run Size)=(,) (,) AC Coef Size Additional Bits (in binary),, (,) (,3) (EOB) (,4) (,) (Run Size)=(,) 3,,,3,,, (,5) 7,, 4,4,,7 3,,,, (,) (,) Kingsbury http://cnx.org/content/m96/latest/ 8 8 画素ブロック分割 JPEG 方式まとめブロック単位の離散コサイン変換 (DCT) によるエントロピー削減人間視覚の周波数感度特性を考慮したの量子化ジグザグスキャンによる量子化の次元化 ( 直流低周波 ~ 高周波数数成分 ) ( 直流成分の ) 差分符号化 ( 交流成分の ) ランレングス符号化ハフマン符号化ジグザグスキャン 8 8 画素 (,-3) (,-9) (,-) (,) (,) (,) (,) (,) (,) (,-) (5,-) (8,) EOB ハフマン符号テーブルハフマン符号画像直交変換 JPEG 関連の有用なウェブページ信州大学井澤先生のホームページ http://laputa.cs.shinshu u.ac.jp/~yizawa/infsys/basic/index.htm http://laputa.cs.shinshu u.ac.jp/~yizawa/infsys/advanced/index.htm http://laputa.cs.shinshu u.ac.jp/~yizawa/infsys/ref_contents/index.htm 広島大学浅野先生のホームページ http://kuva.mis.hiroshima u.ac.jp/~asano/kougi/a/tokuron/ スタンフォード大 Prof. Bernd Girod の Image Communication I 講義資料 http://www.stanford.edu/class/ee398a/handouts.htm JPEG Entropy Coding and D DCT by Nick Kingsbury http://cnx.org/content/m96/latest/ http://cnx.org/content/m94/latest/ Wikipedia JPEG, 離散コサイン変換