2008 年 6 月 16 日 音 声 符 号 化 方 式 作 業 班 高 度 衛 星 デジタル 放 送 音 声 符 号 化 方 式 報 告 書 案 ( 技 術 的 条 件 ) 1
1. 暫 定 方 式 の 概 要 項 目 内 容 音 声 入 力 信 号 最 大 入 力 音 声 チャンネル 数 入 力 サンプリング 周 波 数 量 子 化 ビット 数 音 声 モード 22.2 チャンネル(1 ストリームあたり) 48kHz 16 20 24 ビット モノラル ステレオ マルチチャンネルステレオ (0-3/0/0-0.0 (3.0), 0-2/0/1-0.0 (3.0), 0-3/0/1-0.0 (4.0), 0-2/0/2-0.0 (4.0), 0-3/0/2-0.0 (5.0), 0-3/0/2-0.1 (5.1), 0-3/0/3-0.1 (6.1), 2/0/0-2/0/2-0.1 (6.1), 0-5/0/2-0.1 (7.1), 0-3/2/2-0.1 (7.1), 2/0/0-3/0/2-0.1 (7.1), 0/2/0-3/0/2-0.1 (7.1), 2/0/0-3/2/3-0.2 (10.2), 3/3/3-5/2/3-3/0/0.2 (22.2)) ( 注 ) 2 音 声 (デュアルモノラル) 音 声 符 号 化 方 式 ( 基 本 サービス 用 ) 符 号 化 方 式 符 号 化 パラメータ 音 声 符 号 化 方 式 ( 非 圧 縮 ロスレス 高 音 質 サービス 用 ) 下 線 を 引 いたモードが 推 奨 音 声 モード ( 注 )マルチチャンネルステレオの 音 声 モード 表 記 法 として チャンネル 数 を 次 のように 表 す 上 層 中 層 下 層.LFE 割 り 当 てチャンネルがない 層 は0 とし 割 り 当 てチャンネルがある 層 のチャン ネル 数 を 次 のように 表 す フロント/サイド/バック なお 括 弧 内 は 従 来 の 表 記 MPEG-2 AAC LC プロファイル AAC+SBR(Spectral Band Replication)の 使 用 も 可 能 既 存 方 式 に 順 ずる ただし 音 声 入 力 信 号 の 拡 張 に 伴 うパラメータの 拡 張 を 実 施 符 号 化 方 式 ( 非 圧 縮 符 号 化 ) リニア PCM 音 声 符 号 化 符 号 化 方 式 (ロスレス 符 号 化 ) MPEG-4 ALS( 放 送 応 用 に 適 したサブセット 化 検 討 中 ) 最 大 音 声 入 力 チャンネル 数 5.1 チャンネル 2
2. 音 声 入 力 信 号 (1) 最 大 入 力 音 声 チャンネル 数 最 大 入 力 音 声 チャンネル 数 は 22 チャンネル 及 び 低 域 を 強 調 する 2 チャンネル( 以 下 22.2 チャンネル)とする (2) 入 力 サンプリング 周 波 数 48kHz とする (3) 入 力 量 子 化 ビット 数 16 20 24 ビットとする (4) 音 声 モード 音 声 モードは 以 下 の 通 りとする *モノラル *ステレオ *マルチチャンネルステレオ ( 注 ) 0-3/0/0-0.0 (3.0), 0-2/0/1-0.0 (3.0), 0-3/0/1-0.0 (4.0), 0-2/0/2-0.0 (4.0), 0-3/0/2-0.0 (5.0), 0-3/0/2-0.1 (5.1), 0-3/0/3-0.1 (6.1), 2/0/0-2/0/2-0.1 (6.1), 0-5/0/2-0.1 (7.1), 0-3/2/2-0.1 (7.1), 2/0/0-3/0/2-0.1 (7.1), 0/2/0-3/0/2-0.1 (7.1), 2/0/0-3/2/3-0.2 (10.2), 3/3/3-5/2/3-3/0/0.2 (22.2) *2 音 声 (デュアルモノラル) 下 線 は 推 奨 音 声 モードを 示 す ( 注 )マルチチャンネルステレオの 音 声 モード 表 記 法 として チャンネル 数 を 次 のように 表 す 上 層 中 層 下 層.LFE 割 り 当 てチャンネルがない 層 は0 とし 割 り 当 てチャンネルがある 層 のチャンネル 数 を 次 のように 表 す フロント/サイド/バック なお 括 弧 内 は 従 来 の 表 記 ( 理 由 ) 最 大 入 力 音 声 チャンネル 数 22.2 チャンネルは HDTV を 超 える 高 精 細 度 映 像 サー ビス(UHDTV:SMPTE 2036-1)に 対 応 した 音 場 空 間 として 位 置 付 けられており 高 度 衛 星 デジタル 放 送 の 音 声 入 力 フォーマットとしてふさわしいと 考 えられる 現 行 のデジタル 放 送 でもサンプリング 周 波 数 32kHz と 44.1kHz は 使 用 されておら ず 利 用 ケースを 考 慮 して サンプリング 周 波 数 は 48kHz のみとした ( 留 意 すべき 事 項 ) 非 圧 縮 ロスレス 高 音 質 サービス 用 符 号 化 方 式 のサンプリング 周 波 数 として 高 音 質 化 を 考 慮 した 96kHz 採 用 に 向 けた 検 討 が 行 われている 3
4
3. 音 声 符 号 化 方 式 3.1. 音 声 符 号 化 方 式 ( 基 本 サービス 用 ) (1) 準 拠 規 格 MPEG-2 AAC 方 式 (ISO/IEC 13818-7)LC プロファイルとする AAC+SBR(Spectral Band Replication) 方 式 ( 符 号 化 サンプリング 周 波 数 は 入 力 サンプリング 周 波 数 の 半 分 )の 使 用 も 可 能 とする (2) 符 号 化 における 制 約 条 件 最 大 音 声 符 号 化 チャンネル 数 :22.2 チャンネルとする ( 理 由 ) MPEG-2 AAC 方 式 は 既 存 のデジタル 放 送 の 音 声 符 号 化 方 式 として 実 績 があり 最 大 22.2 チャンネルの 音 声 入 力 にも 対 応 可 能 と 考 えられる MPEG-2 AAC+SBR 方 式 も 既 存 のデジタル 放 送 での 比 較 的 低 ビットレート 応 用 における 音 声 符 号 化 方 式 として 実 績 があり マルチリンガル 音 声 サービス 等 の 用 途 において 有 用 性 があると 考 えられる 3.2. 音 声 符 号 化 方 式 ( 非 圧 縮 ロスレス 高 音 質 サービス 用 ) (1) 準 拠 規 格 (ア) 非 圧 縮 符 号 化 方 式 リニア PCM 音 声 符 号 化 方 式 とする リニア PCM 音 声 信 号 (AES3 データ)の 伝 送 には SMPTE302M に 準 拠 し た PES 伝 送 方 式 を 用 いる (PES 伝 送 方 式 については 参 考 5.1 参 照 ) AES3 のユーザビット(192 ビット)を 用 いて 音 声 モード 識 別 ダウンミ ックス 係 数 等 の 音 声 関 連 メタ 情 報 を 伝 送 する (イ) ロスレス 符 号 化 方 式 MPEG-4(ISO/IEC 14496-3)ALS 方 式 を 候 補 とする ただし MPEG-4 ALS 方 式 について 放 送 応 用 に 適 したサブセット 化 ( 符 号 化 ツールおよびパラメータの 制 約 )を 行 う ( 詳 細 検 討 中 ) パラメータ 記 述 部 (ALSSpecificConfig)の AUX 領 域 を 用 いて 音 声 モード 識 別 ダウンミックス 係 数 等 の 音 声 関 連 メタ 情 報 を 伝 送 する (2) 符 号 化 における 制 約 条 件 最 大 音 声 符 号 化 チャンネル 数 :5.1 チャンネルとする 5
サンプリング 周 波 数 : 96kHz の 追 加 を 検 討 する ( 詳 細 検 討 中 ) ( 理 由 ) 非 圧 縮 音 声 符 号 化 であるリニア PCM 音 声 符 号 化 方 式 は 非 圧 縮 ロスレス 高 音 質 音 声 サービスの 実 現 が 可 能 であり 高 度 衛 星 デジタル 放 送 の 音 声 符 号 化 方 式 の 1 つとしてふさわしいと 考 えられる ロスレス 音 声 符 号 化 である MPEG-4 ALS 方 式 は MPEG 国 際 標 準 であり 高 能 率 な 符 号 化 を 実 現 しつつ 非 圧 縮 ロスレス 高 音 質 音 声 サービスの 実 現 が 可 能 である そのため リニア PCM 音 声 符 号 化 方 式 と 同 様 高 度 衛 星 デジタル 放 送 の 音 声 符 号 化 の 1 つとしてふさわしいと 考 えられる ただし MPEG-4 ALS の 最 終 的 な 採 用 にあたっては 放 送 応 用 に 適 したサブセット 化 の 検 討 が 必 要 である リニア PCM 音 声 符 号 化 方 式 については リニア PCM 音 声 信 号 を AES-3 データ として 格 納 し SMPTE302M に 準 拠 した PES 伝 送 を 行 う 技 術 的 実 現 性 を 机 上 で 確 認 したほか 実 証 実 験 を 通 じてその 有 効 性 を 確 認 した MPEG-4 ALS 方 式 については 技 術 的 実 現 性 を 机 上 で 確 認 した また ALS スト リームを 含 む MPEG-2 TS 生 成 実 験 により TS 化 の 実 現 性 を 確 認 した 非 圧 縮 ロスレス 高 音 質 サービス 用 符 号 化 方 式 においては 高 音 質 化 を 考 慮 し サンプリング 周 波 数 96kHz の 追 加 を 検 討 する ただし 96kHz の 最 終 的 な 採 用 に あたっては 周 波 数 有 効 利 用 の 観 点 を 考 慮 し 適 用 可 能 な 運 用 の 制 約 条 件 など 詳 細 の 検 討 が 必 要 である ( 留 意 すべき 事 項 ) これまでデジタル 放 送 の 映 像 音 声 の 符 号 化 に 関 しては 周 波 数 有 効 利 用 の 観 点 から 効 率 的 な 伝 送 技 術 の 一 つとして 圧 縮 符 号 化 方 式 の 導 入 が 図 られてきた 周 波 数 有 効 利 用 の 観 点 は 今 回 の 衛 星 デジタル 放 送 高 度 化 においても 同 様 であり こ れを 受 けて 低 ビットレートかつ 高 音 質 な 符 号 化 方 式 であること が 音 声 符 号 化 方 式 の 要 求 条 件 として 求 められている 非 圧 縮 ロスレス 高 音 質 サービス は 原 音 を 全 く 劣 化 なく 放 送 するサービスを 想 定 しているため このサービスを 実 現 する 音 声 符 号 化 方 式 として いわゆる 高 能 率 圧 縮 符 号 化 とは 異 なる 概 念 の 符 号 化 方 式 すなわち 非 圧 縮 音 声 符 号 化 ロス レス 音 声 符 号 化 を 選 定 したところである そのため 周 波 数 有 効 利 用 に 関 する 上 記 の 要 求 条 件 との 整 合 性 において これまでに 無 い 大 きな 伝 送 容 量 を 要 し 効 率 的 な 伝 送 の 点 で 課 題 があることを 認 識 する 必 要 がある 特 に 非 圧 縮 音 声 符 号 化 であるリニア PCM においては 音 声 信 号 のベースバンド でのビットレート( 例 えば 5.1ch 48kHz 24bit の 場 合 約 6.9Mbps)を 固 定 的 に 伝 送 路 として 割 り 当 てる 必 要 がある 6
ロスレス( 圧 縮 ) 音 声 符 号 化 である MPEG-4 ALS は 音 源 によりその 程 度 は 異 なる ものの 一 般 にリニア PCM に 比 べれば 一 定 の 周 波 数 有 効 利 用 に 資 すると 考 えられ る ただし そのビットレートは 基 本 的 に 音 源 に 依 存 することから サービス 運 用 上 の 柔 軟 性 については リニア PCM 同 様 の 課 題 がある また トータルでの 周 波 数 有 効 利 用 に 寄 与 するためには 音 声 を 優 先 した 映 像 データとの 統 合 的 ビッ トレート 制 御 技 術 が 必 要 である このような 技 術 はまだ 基 本 的 なシミュレーショ ン 検 討 が 始 まった 段 階 にあり 今 後 実 用 的 に 使 用 可 能 な 機 器 開 発 など さらなる 総 合 的 技 術 検 討 が 必 要 である 7
4. 解 説 高 度 衛 星 デジタル 放 送 高 度 化 に 伴 う 音 声 符 号 化 方 式 の 暫 定 方 式 案 を 策 定 するにあた り その 背 景 として 想 定 される 利 用 ケース 検 討 の 経 緯 ( 方 式 採 否 の 理 由 等 )を 以 下 に 示 す また 暫 定 方 式 を 採 用 するにあたっての 今 後 の 課 題 も 紹 介 する 4.1 想 定 利 用 ケース 既 存 のデジタル 放 送 で 実 現 されている 音 声 サービス(MPEG-2 AAC LC プロファイルを 使 用 )に 加 えて 以 下 の 利 用 ケースを 想 定 し 暫 定 方 式 の 策 定 を 行 った (1) UHDTV に 対 応 した 高 臨 場 感 音 声 サービス HDTV を 超 える 高 精 細 度 映 像 サービス いわゆる UHDTV に 対 応 する 音 場 空 間 と して 最 大 22.2 チャンネルの 音 声 入 力 フォーマットを 提 案 受 信 した 22.2 チャンネル 音 声 を 家 庭 での 様 々な 再 生 環 境 に 応 じて 柔 軟 な 処 理 を 行 うことで 3 次 元 音 再 生 が 可 能 になる 本 サービスに 伴 う 想 定 ビットレート: 1.60Mbps 程 度 (22.2ch の 場 合 ) 72kbpsx22ch+10kbpsx2ch(LFE)で 算 出 (2) 非 圧 縮 ロスレス 高 品 質 音 声 サービス 現 行 の BS デジタル 放 送 及 び 広 帯 域 CS デジタル 放 送 と 同 等 又 はそれ 以 上 の 音 質 が 望 まれることを 考 慮 し MPEG-2 AAC 圧 縮 符 号 化 による 音 声 品 質 を 超 える 最 高 音 質 サービスを 実 現 するため 非 圧 縮 およびロスレス 音 声 符 号 化 を 提 案 音 声 チャ ンネル 数 は 最 大 5.1 チャンネル 非 圧 縮 ロスレス 高 音 質 音 声 サービスとして 新 たな 音 質 表 示 の 割 り 当 てを 提 案 本 サービスに 伴 う 想 定 ビットレート: < 非 圧 縮 音 声 符 号 化 > 1.53Mbps(2ch サンプリング 周 波 数 :48kHz 量 子 化 ビット 数 :16bit の 場 合 ) 最 大 6.9Mbps(5.1ch サンプリング 周 波 数 :48kHz 量 子 化 ビット 数 :24bit の 場 合 ) <ロスレス 音 声 符 号 化 > 音 源 によりビットレートは 変 動 するが 一 般 的 に 非 圧 縮 音 声 符 号 化 に 比 べて 少 ないビットレートでのサービスが 可 能 (3) マルチリンガル 音 声 サービス マルチリンガル 音 声 サービスなど 1 サービスあたりの 音 声 ストリーム 数 が 増 え るサービスを 想 定 し 比 較 的 低 ビットレート( 概 ね 64kbps/ステレオ 以 下 )にお 8
いて 有 効 と 考 えられる AAC+SBR 方 式 を 提 案 4.2 検 討 の 経 緯 衛 星 デジタル 放 送 の 高 度 化 に 関 する 方 式 提 案 募 集 に 対 して 音 声 符 号 化 関 連 では 2 社 からの 提 案 があった 提 案 内 容 は 以 下 の 通 り 大 きく 3 つに 分 類 される 音 声 入 力 フォーマット( 最 大 22.2 チャンネルへの 拡 張 ) 圧 縮 符 号 化 方 式 ( 既 存 方 式 に 加 えて AAC+SBR 方 式 ) 非 圧 縮 符 号 化 方 式 (リニア PCM 音 声 符 号 化 伝 送 方 式 ) また 原 音 を 忠 実 に 再 現 可 能 かつ 高 能 率 符 号 化 が 可 能 な ロスレス 符 号 化 方 式 につ いて 追 加 提 案 募 集 を 行 った 結 果 2 方 式 (MPEG-4 ALS 方 式 および AAL for Broadcasting 方 式 )の 提 案 があった これらの 提 案 について 以 下 の 通 り 検 討 を 行 い その 採 用 の 可 否 の 判 断 を 行 った (1) 音 声 入 力 フォーマット 想 定 利 用 ケース 視 聴 環 境 について 最 大 チャンネル 数 22.2ch は 前 述 の 通 り UHDTV に 対 応 する 音 場 空 間 とし て 提 案 されている 視 聴 環 境 としては 必 ずしも 22.2ch 分 のスピーカ 配 置 を 前 提 とするもので はなく 視 聴 者 の 環 境 に 応 じて 柔 軟 なダウンミックス 処 理 を 行 い 3 次 元 音 再 生 を 実 現 することも 想 定 している 22.2 チャンネルの 音 場 空 間 およびダウンミックス 処 理 による 5.1 チャンネ ル 2 チャンネルステレオでの 音 再 生 について 音 声 符 号 化 方 式 作 業 班 内 で デモンストレーションを 実 施 し その 効 果 を 確 認 した ( 参 考 5.2 を 参 照 ) 技 術 的 実 現 性 について 想 定 ビットレートは 22.2ch で 1.60Mbps 程 度 であり 1 トランスポンダ 内 で のビットレート 割 り 当 てや 送 出 運 用 上 の 実 現 可 能 性 は 特 に 問 題 ないと 考 え られる 96kHz サンプリング 周 波 数 について 高 度 衛 星 デジタル 放 送 の 音 声 入 力 フォーマットとして 96kHz サンプリング 周 波 数 の 採 用 可 否 について 検 討 を 行 った 96KHz サンプリング 周 波 数 は プロオーディオの 分 野 では 多 くのデジタ ル 機 器 で 採 用 されており 家 庭 用 次 世 代 メディア(Blu-ray や HD-DVD など)でも 採 用 されている したがって 番 組 制 作 (ベースバンド)に おいては パッケージメディアなどへの 二 次 展 開 を 考 慮 すると 96KHz サンプリング 周 波 数 は 有 効 なフォーマットと 考 えられる 9
一 方 デジタル 放 送 を 対 象 とした 場 合 以 下 の 考 察 となる 圧 縮 符 号 化 方 式 (MPEG-2 AAC 方 式 )は 規 格 上 96kHz サンプリン グ 周 波 数 に 対 応 しているが 現 在 の 想 定 ビットレート(72kbps/チ ャンネル)では 全 帯 域 (~50kHz)を 伝 送 することが 難 しく 圧 縮 効 率 上 の 課 題 がある 非 圧 縮 符 号 化 (リニア PCM 音 声 )の 場 合 96kHz サンプリング 周 波 数 に 対 応 させるためには 5.1ch サラウンドで 約 13.8Mbps が 必 要 となり 衛 星 デジタル 放 送 の 高 度 化 で 検 討 されている 1 中 継 器 あ たり HDTV4 番 組 (4TS)では 5.1ch サラウンドの 伝 送 は 事 実 上 不 可 能 と 言 わざるを 得 ない 一 方 ロスレス 音 声 符 号 化 を 採 用 した 場 合 リニア PCM に 比 べて 一 般 的 に 少 ないビットレートでの 伝 送 が 可 能 であり またリニア PCM でも 例 えば 音 声 チャンネル 数 を 2ch とした 場 合 96kHz 24bit で 4.6Mbps となる 以 上 により 今 回 の 衛 星 デジタル 放 送 高 度 化 に 限 定 した 場 合 基 本 サー ビス 用 としては 96kHz サンプリング 周 波 数 は 不 採 用 と 判 断 した 一 方 非 圧 縮 ロスレス 高 音 質 符 号 化 用 としては 高 音 質 化 を 考 慮 し 96kHz サンプリング 周 波 数 の 採 用 を 継 続 検 討 することとする ただし 周 波 数 有 効 利 用 の 観 点 から その 採 用 についてはメリットの 明 確 化 適 用 可 能 な 運 用 制 約 の 詳 細 検 討 が 必 要 である (2) 音 声 符 号 化 方 式 ( 基 本 サービス 用 ) 想 定 利 用 ケースについて 提 案 方 式 として 明 示 されてはないが 各 提 案 の 前 提 ( 基 本 サービスにおける 音 声 符 号 化 方 式 )として 既 存 のデジタル 放 送 の 音 声 符 号 化 方 式 として 使 用 されている MPEG-2 AAC 方 式 が 想 定 されている 一 方 AAC+SBR 方 式 は 比 較 的 低 ビットレート( 概 ね 64kbps/ステレオ 以 下 ) において 有 効 な 方 式 であり マルチリンガル 音 声 サービスなど 1 サービス あたりの 音 声 ストリーム 数 が 増 えるサービスでの 利 用 を 想 定 している 例 え ば メインチャンネルは MPEG2-AAC 方 式 のままとし 複 数 のサブチャンネ ルに AAC+SBR 方 式 を 採 用 する 利 用 ケースなどが 想 定 される なお AAC+SBR 方 式 は 上 述 の 通 り 利 用 ケースが 限 定 されるため サービス 上 また 受 信 端 末 上 オプション の 位 置 付 けとなることが 想 定 される 技 術 的 実 現 性 について MPEG-2 AAC 方 式 は 既 にデジタル 放 送 に 使 用 されており 基 本 的 な 問 題 はな い また AAC+SBR 方 式 も 地 上 デジタルテレビジョン 放 送 の 携 帯 向 けサービ 10
ス(ワンセグ)や 地 上 衛 星 デジタル 音 声 放 送 等 で 既 に 使 用 されており 比 較 的 低 ビットレートの 応 用 において 実 績 がある 最 大 入 力 音 声 チャンネル 数 22.2ch に 対 応 した AAC デコーダは 現 行 デジタ ル 放 送 に 比 べて MIPS4 倍 以 上 メモリ 4 倍 以 上 程 度 と 想 定 され 2011 年 時 点 でのハードウェア 実 現 性 はあると 考 えられる 同 様 に AAC エンコーダに ついても 実 現 性 はあると 考 えられる ただし 音 声 入 力 フォーマットの 拡 張 ( 最 大 22.2 チャンネル)に 対 応 した MPEG-2 AAC 方 式 のチャンネル 構 成 (Channel Configuration)が 規 格 上 規 定 されていないなど 今 後 MPEG 規 格 改 訂 等 の 作 業 が 必 要 となる (3) 音 声 符 号 化 方 式 ( 非 圧 縮 ロスレス 高 音 質 サービス 用 ) 想 定 利 用 ケースについて 前 述 の 通 り MPEG-2 AAC 圧 縮 符 号 化 による 音 声 品 質 を 超 える 最 高 音 質 の 音 声 サービスを 想 定 これは とりわけ 放 送 の 音 声 品 質 向 上 に 期 待 する 視 聴 者 や オーディオ 業 界 および 団 体 等 からの 要 望 にこたえるため 家 庭 でもスタジオ 品 質 の 音 声 放 送 を 楽 しめるよう 最 大 5.1 チャンネルの 非 圧 縮 ロスレス 高 品 質 音 声 サービスを 目 指 すものである 既 存 のデジタル 放 送 (MPEG-2 AAC 方 式 )においても 音 質 表 示 において 現 行 の 衛 星 標 準 テレビ 放 送 の B モードに 相 当 する 音 声 品 質 の 基 準 が 示 されて いるが 提 案 された 非 圧 縮 音 声 符 号 化 方 式 (リニア PCM 方 式 )およびロス レス 音 声 符 号 化 方 式 (2 方 式 )は 非 圧 縮 (あるいはロスレス) 高 音 質 で あることを 特 徴 としている そのため 本 提 案 方 式 に 対 応 した 新 たな 音 質 表 示 モードの 割 り 当 てが 併 せて 提 案 されている 技 術 的 実 現 性 について 1 トランスポンダ 内 でのビットレート 割 り 当 て 送 出 運 用 上 の 実 現 可 能 性 リニア PCM 方 式 の 場 合 想 定 ビットレートは 2ch で 1.53Mbps 最 大 でも 5.1ch で 6.9Mbps であり 特 に 問 題 ないと 考 えられる また ロスレス 音 声 符 号 化 方 式 の 場 合 ビットレートは 音 源 によって 可 変 であるが リニア PCM 方 式 の 伝 送 方 式 である SMPTE 302M-2007 より 低 ビットレートであり 同 様 に 問 題 ないと 考 えられる なお 96kHz サンプリング 周 波 数 については 周 波 数 有 効 利 用 の 観 点 から 実 現 可 能 な 範 囲 での 運 用 制 約 を 前 提 としてその 採 用 に 向 けた 検 討 を 継 続 中 である ハードウェア 実 現 性 リニア PCM 方 式 については 実 証 実 験 を 通 じてその 実 現 性 を 確 認 した( 参 考 5.3 参 照 ) ロスレス 音 声 符 号 化 方 式 については ハードウェア 実 現 性 を 机 上 で 確 認 した 11
( 参 考 5.5 参 照 ) また ロスレス 音 声 符 号 化 ストリームを 含 む MPEG-2 TS 生 成 実 験 により TS 化 の 実 現 性 を 確 認 した( 参 考 5.7 参 照 ) ロスレス 音 声 符 号 化 方 式 について 非 圧 縮 ロスレス 高 音 質 サービスが 実 現 可 能 かつ 高 能 率 符 号 化 が 可 能 な 方 式 として ロスレス 音 声 符 号 化 方 式 の 技 術 検 討 を 行 った 技 術 検 討 に 際 しては 追 加 提 案 募 集 を 実 施 した 結 果 2 方 式 の 提 案 があった 以 下 方 式 選 定 の 経 緯 ロスレス 音 声 符 号 化 のメリット そして 同 等 のサービス 要 件 を 満 たすリ ニア PCM 方 式 との 併 記 に 関 する 検 討 結 果 を 記 す ロスレス 音 声 符 号 化 方 式 選 定 の 経 緯 以 下 2 方 式 について 方 式 選 定 を 目 的 とした 技 術 検 討 その 他 検 討 を 実 施 した 1MPEG-4 ALS(Audio Lossless Coding) ( 以 下 ALS) 2AAL(ATRAC Advanced Lossless) for Broadcasting ( 以 下 AAL) ALS 方 式 は MPEG 国 際 標 準 であり 圧 縮 率 や MPEG-2 Systems との 整 合 性 に 対 するメリットが 期 待 できる 方 式 である 一 方 AAL 方 式 は 実 装 の 容 易 性 (ハードウェア 演 算 量 規 模 が 小 さくできる)や IPR(ライセ ンス 条 件 ) 面 でのメリットを 追 求 した 方 式 である この 2 方 式 について 方 式 選 定 を 目 的 とした 比 較 表 を 作 成 した(2 方 式 の 技 術 概 要 および 方 式 比 較 表 については 参 考 5.5 を 参 照 ) その 結 果 主 に 国 際 標 準 であることのメリットを 理 由 として ALS 方 式 をロスレス 音 声 符 号 化 方 式 の 第 1 候 補 として 選 定 した (AAL 方 式 は 第 2 候 補 ) ALS 方 式 を 第 1 候 補 として 選 定 したものの ハードウェア 演 算 量 規 模 の 小 ささも 方 式 採 用 における 重 要 項 目 の 一 つと 考 えられる そのため 適 正 なハードウェア 演 算 量 規 模 の 実 現 を 目 的 として ALS 方 式 の 新 プロ ファイル レベルの 検 討 を 引 き 続 き 行 うこととする なお 現 在 ALS 方 式 のライセンス 条 件 は 確 定 していない(MPEG 国 際 標 準 のため RAND によるパテントプール 設 立 準 備 中 ) 方 式 の 実 際 の 採 用 にあたっては 今 後 ライセンス 条 件 の 確 認 も 重 要 である ロスレス 音 声 符 号 化 採 用 のメリット ロスレス 音 声 符 号 化 は 一 般 論 として 平 均 的 に 原 データに 対 して 数 十 % の 圧 縮 率 が 得 られ 帯 域 の 有 効 活 用 が 期 待 できる 一 方 で 最 悪 値 ( 例 え ば 白 色 雑 音 を 音 源 とした 場 合 )はほぼ 原 データ 同 等 の 情 報 量 となり 削 減 したビットレートを 固 定 的 に 他 のサービスに 割 り 当 てられない 点 が ネックとして 指 摘 されていた 逆 に 言 えば この 点 を 克 服 できるシナリ オの 存 在 がロスレス 音 声 符 号 化 方 式 を 採 用 する 上 で 不 可 欠 である 12
検 討 の 結 果 ロスレス 音 声 符 号 化 の 採 用 により 帯 域 の 有 効 活 用 が 図 れる シナリオとして 例 えば 以 下 のシナリオを 確 認 した 1 事 前 収 録 番 組 に おいて オンエア 事 前 に 番 組 内 のビットレート 最 悪 値 が 把 握 できれば 理 論 最 悪 値 と 番 組 最 悪 値 との 差 分 に 応 じた 固 定 的 なビットレート 削 減 が 可 能 2 将 来 的 に 音 声 を 優 先 した 映 像 データとの 統 合 的 ビットレート 制 御 可 能 な 送 出 装 置 およびそれを 考 慮 した 受 信 装 置 が 開 発 されれば 瞬 間 的 なビットレート 変 動 にかかわらず トータルでの 帯 域 有 効 活 用 が 可 能 3 将 来 的 にダウンロード 型 ( 事 前 ファイル 化 )のサービスにおいては 平 均 圧 縮 率 に 相 当 する 帯 域 有 効 活 用 が 可 能 一 方 上 記 シナリオの 実 現 可 否 の 判 断 については さらに 詳 細 な 検 討 が 必 要 である 例 えば1のシナリオは 事 前 収 録 番 組 に 限 られ さらに 番 組 単 位 での 帯 域 制 御 が 可 能 な 送 出 設 備 が 前 提 となる また2のように 実 現 には 時 期 的 かつコスト 面 での 課 題 を 含 むシナリオも 含 まれている また リニア PCM と 比 較 して ロスレス 符 号 化 を 採 用 することによるデコー ダのコストアップの 可 能 性 も 指 摘 された しかしながら (メリットを 十 分 に 発 揮 できるかどうかはさておき)2011 年 の 段 階 でロスレス 符 号 化 自 体 の 実 現 は 技 術 的 に 問 題 ないこと また 将 来 的 にはロスレス 音 声 符 号 化 の 採 用 による 帯 域 の 有 効 活 用 が 期 待 で きることから 結 論 として 現 時 点 でロスレス 音 声 符 号 化 方 式 を 採 用 する こととした リニア PCM 方 式 との 併 記 について 上 述 の 通 り ロスレス 音 声 符 号 化 のメリットを 享 受 できるシナリオは 当 面 限 定 的 であり 事 業 者 の 運 用 形 態 によってはリニア PCM の 方 にメリ ットがあるケースも 想 定 される( 例 えば 生 放 送 中 心 のサービス) 将 来 的 にはロスレス 音 声 符 号 化 が 主 流 となり 得 ると 考 えられるが 現 時 点 ではリニア PCM の 方 がデジタル 放 送 への 適 用 において 実 証 実 験 によ る 実 証 済 みの 方 式 であり またロスレス 音 声 符 号 化 に 対 して 相 対 的 処 理 量 や 実 装 コストが 小 さいため 方 式 併 記 によるデメリットも 少 ない そ のため リニア PCM 方 式 とロスレス 音 声 符 号 化 方 式 を 併 記 することと した 4.3 今 後 の 課 題 (1) 音 声 入 力 フォーマット 22.2ch 音 場 空 間 の 定 義 13
SMPTE へ UHDTV Audio(デジタルオーディオ 特 性 ならびに 22.2 マルチチャ ンネル)に 関 する 規 格 案 を 提 出 し 現 在 審 議 中 IEC/TC100 において 22.2 マルチチャンネル 音 響 方 式 を 含 む General Channel Assignment 規 格 を 審 議 中 (2) 音 声 符 号 化 方 式 ( 基 本 サービス 用 ) 音 声 入 力 フォーマットの 追 加 に 伴 う AAC 規 格 の 拡 張 Channel Configuration その 他 MPEG 規 格 の 改 訂 提 案 を 行 い 現 在 審 議 中 (3) 音 声 符 号 化 方 式 ( 非 圧 縮 ロスレス 高 音 質 サービス 用 ) リニア PCM 方 式 : 音 声 メタ 情 報 の 伝 送 ダウンミックス 係 数 音 声 モード 識 別 等 AES-3 ユーザビット(192bit)の 利 用 を 検 討 JEITA (インタフェース 標 準 化 グループ)とのリエゾンにより IEC60958-3 への 改 訂 提 案 を 審 議 中 検 討 中 の 音 声 メタ 情 報 案 について 参 考 5.4 を 参 照 MPEG-4 ALS 方 式 : 放 送 応 用 に 応 じたサブセット 化 の 検 討 実 証 実 験 の 実 施 新 しいプロファイル レベルの 検 討 (ツールやパラメータの 制 約 ) 伝 送 実 験 による 実 現 性 の 検 証 ( 特 に 周 波 数 有 効 利 用 シナリオの 実 現 性 ) 上 記 検 討 実 施 の 後 MPEG 規 格 の 改 訂 提 案 を 行 うことを 検 討 非 圧 縮 ロスレス 音 声 符 号 化 における 96kHz サンプリング 周 波 数 の 検 討 周 波 数 有 効 利 用 の 観 点 から 適 用 可 能 な 運 用 制 約 の 検 討 96kHz サンプリング 周 波 数 追 加 に 伴 うメリットの 検 討 14
5. 参 考 5.1 リニア PCM 音 声 の PES 伝 送 方 式 リニアPCM 音 声 信 号 (AES3 データ)の 伝 送 方 式 として SMPTE 302M に 準 拠 する PES 伝 送 方 式 を 用 いる 5.1.1 準 拠 規 格 SMPTE 302M-2007 Mapping of AES3 Data into an MPEG-2 Transport Stream 5.1.2 概 要 複 数 の AES3 ストリーム(5.1ch の 場 合 3 つ)は 1 本 の SMPTE AES3 ES に 時 分 割 多 重 される SMPTE AES3 ES は MPEG-2 Systems(ISO/IEC 13818-1) 準 拠 の PES パケット にマッピングされる 5.1.3 PES パケット (1) データ 構 造 AES3 データを 伝 送 する PES のデータ 構 造 は 以 下 の 通 りとする 図 5.1-1 PES パケットのデータ 構 造 (2) PES ヘッダ MPEG-2 Systems(ISO/IEC 13818-1)に 準 拠 する ストリーム 識 別 子 :0xBD(プライベートストリーム 1) PTS_DTS_flags:01(PTS あり) PTS の 値 はビデオフレームに 対 応 した PTS と 同 一 とする (3) SMPTE 302M AES3 データヘッダ SMPTE 302M-2007 SMPTE AES3 data elementary stream header の 規 定 に 準 拠 する 15
number_channels: 最 大 6 データチャンネル(AES3 データ 3 本 )とする (4) SMPTE 302M AES3 データ 本 体 SMPTE 302M-2007 SMPTE AES3 elementary streams の 規 定 に 準 拠 する 16
5.2 22.2 チャンネル 音 声 デモンストレーション 5.2.1 22.2 マルチチャンネル 音 響 方 式 の 概 要 22.2 マルチチャンネル 音 響 は 超 高 精 細 かつ 広 視 野 大 画 面 映 像 がもたらす 臨 場 感 や 没 入 感 に 対 応 した 音 場 再 現 を 行 う 目 的 で 開 発 された 次 世 代 のマルチチャンネル 音 響 システ ムである 基 本 的 な 開 発 コンセプトは 下 記 のとおり (1) 映 像 と 音 像 の 方 向 を 一 致 させるために 広 視 野 画 面 上 に 安 定 した 音 像 定 位 を 実 現 (2) 聴 取 者 に 対 しあらゆる 方 向 からの 音 の 到 来 と 音 の 上 下 感 を 実 現 (3) 臨 場 感 や 現 実 感 の 高 い 三 次 元 音 響 空 間 再 生 (4) 高 品 質 な 音 場 再 生 を 受 聴 できるエリアが 広 い (5) 既 存 のマルチチャンネル 音 響 方 式 と 互 換 性 を 有 する これらのコンセプトに 基 づき 下 図 のように 上 層 に 9 チャンネル 中 層 に 10 チャンネ ル 下 層 に 3 チャンネルを 配 置 し LFE( 低 域 効 果 チャンネル)を 2 チャンネルとした TpFL TpFC TpFR TpSiL TpC TpSiR Top layer 9 channels TpBL BL SiL FL BtFL TpBC TpBR FLc FC FRc TV Screen BtFC SiR LFE1 LFE2 BR FR Middle layer 10 channels BtFR Bottom layer 3 channels BC LFE 2 channels 図 5.2-1 22.2 マルチチャンネル 音 響 システム 17
5.2.2. 22.2 チャンネル 音 声 の 聴 取 確 認 22.2 チャンネル 音 声 の 品 質 確 認 のため NHK 技 研 において 当 作 業 班 委 員 に 対 し 22.2 チャンネル 音 声 のデモンストレーションを 行 った また 22.2 チャンネル 音 声 からダウ ンミックスした 5.1 チャンネル 音 声 の 品 質 確 認 も 同 時 に 行 った 実 施 日 平 成 19 年 10 月 18 日 実 施 場 所 NHK 放 送 技 術 研 究 所 デモンストレーション 内 容 1. シアター 形 式 ( 画 面 サイズ 450 インチの SHV)での 試 聴 (5.1 チャンネルダウ ンミックス 音 声 含 む) 2. 家 庭 などの 小 空 間 再 生 を 想 定 した 試 聴 ( 画 面 サイズ 50 インチの HDTV) (5.1 チャンネルダウンミックス 音 声 含 む) 委 員 の 講 評 現 行 の 5.1 マルチチャンネル 音 声 に 比 べ シアター 形 式 小 空 間 双 方 において 22.2 マルチチャンネル 音 声 による 空 間 再 生 品 質 が 十 分 に 高 いことを 確 認 した 18
5.3 リニア PCM 音 声 符 号 化 伝 送 実 証 実 験 報 告 高 度 BS デジタル 放 送 の 音 声 符 号 化 暫 定 方 式 の 検 討 に 関 連 して ARIB 音 声 符 号 化 方 式 作 業 班 では SMPTE302M に 基 づくリニア PCM 音 声 信 号 の MPEG-2 システム 伝 送 の 特 性 確 認 を 行 った 実 施 日 平 成 19 年 12 月 13 日 参 加 者 浦 野 ( 音 声 符 号 化 方 式 作 業 班 主 任 日 本 テレビ) 濱 崎 (NHK) 中 山 (NHK) 実 験 場 所 NHK 技 術 研 究 所 CB209 実 験 室 実 験 項 目 1 エンコーダ-デコーダの 5.1 マルチチャンネル 音 声 信 号 の 各 チャンネル 間 同 期 性 能 の 確 認 2 エンコーダ-デコーダの 映 像 信 号 と 音 声 信 号 の 同 期 確 認 3 映 像 音 声 素 材 による 視 聴 確 認 符 号 化 器 概 要 AVC/H.264 SMPTE 302M(2ch/4ch/6ch/8ch) エンコード+デコードの 遅 延 量 約 800msec(メーカ 公 表 値 標 準 モード) デコーダの 音 声 遅 延 用 バッファ 量 約 0.5sec 参 考 :MPEG2(video) MPEG-1 Audio Layer II MPEG-2 AAC の 機 能 を 持 つ 実 証 実 験 で 使 用 した 符 号 化 パラメータ TS RATE 17Mbps VIDEO RATE 8.775Mbps(H.264 4:2:0 フォーマット) AUDIO RATE 6.912Mbps (SMPTE302M 準 拠 6ch モード) 19
実 験 1 エンコーダ-デコーダの 5.1 マルチチャンネル 音 声 信 号 の 各 チャンネル 間 同 期 性 能 の 確 認 < 実 験 方 法 > 音 声 フォーマット 24bit/48kHz リニアPCM 信 号 (AES3 方 式 ) 映 像 フォーマット 1920x1080(1080i) 16:9 (HD-SDI 方 式 ) 音 声 テスト 信 号 広 帯 域 ピンクノイズ( 全 チャンネルに 同 位 相 信 号 ) 評 価 方 法 チャンネル 間 の 相 互 相 関 関 数 の 測 定 使 用 機 器 エンコーダ/デコーダ NTT エレクトロニクス HVE9100/HVD9100 デジタルオーディオワ フェアライト Merlin ークステーション ビデオ 再 生 器 ソニー HDW-250 DA コンバータ Emmlab MarkIV DAC シンクジェネレータ ROSENDAHL Nanosyncs HD 測 定 器 小 野 測 器 マルチパーパース FFT アナライザ CF-5220 < 実 験 システム> Sync DAW Gen Word AES3 sync Video Time code sync Ref HD-SDI HDCAM MPEG2-TS AES3 Audio ENC DEC DAC FFT ANALYIZER < 実 験 結 果 > 1ch に 対 して 2~6ch の 時 間 差 を 1ch アナログ 信 号 とその 他 のアナログ 信 号 の 相 互 相 関 関 数 を 測 定 しピーク 位 置 を 観 測 した その 結 果 1ch と 他 のチャンネルの 時 間 差 はすべて 0μsec であった 20
2 エンコーダ-デコーダの 映 像 信 号 と 音 声 信 号 の 同 期 確 認 < 実 験 方 法 > 音 声 フォーマット 24bit/48kHz リニアPCM 信 号 (AES3 方 式 ) 映 像 フォーマット 1920x1080(1080i) 16:9 (HD-SDI 方 式 ) テスト 信 号 評 価 方 法 使 用 機 器 エンコーダ/ デコーダ 測 定 器 測 定 器 の 測 定 用 信 号 を 使 用 タイムコード(TTC,LTC)を 利 用 した AV 時 間 差 の 測 定 NTT エレクトロニクス HVE9100/HVD9100 YEM エレテックス マルチフォーマットタイムラグチェッカー EDD 5130 < 実 験 システム> ENC MPEG2-TS DEC HD-SDI AES3 Time lag checker < 実 験 結 果 > 電 源 の ON/OFF を 数 回 繰 り 返 し AV 時 間 差 を 測 定 した 1 回 目 0msec 2 回 目 0msec 3 回 目 0msec 4 回 目 0msec 参 考 : 測 定 開 始 時 に 1msec の 時 間 差 が 測 定 された 符 号 化 器 のリセットをしなかったため にエラーが 生 じたものと 思 われる 21
3 映 像 音 声 素 材 による 視 聴 確 認 < 実 験 方 法 > 音 声 フォーマット 24bit/48kHz リニアPCM 信 号 (AES3 方 式 ) 映 像 フォーマット 1920x1080(1080i) 16:9 (HD-SDI 方 式 ) テスト 信 号 NHK 制 作 の 5.1ch サラウンド 番 組 集 評 価 方 法 専 門 家 による 視 聴 確 認 使 用 機 器 エンコーダ/デコーダ NTT エレクトロニクス HVE9100/HVD9100 デジタルオーディオワ フェアライト Merlin ークステーション ビデオ 再 生 器 ソニー HDW-250 ビデオモニタ ソニー BVW-D32E1WU 再 生 スピーカ Musikelectronic Geithain RL901K サラウンドモニタコン トローラ GRACE design m906 シンクジェネレータ ROSENDAHL Nanosyncs HD < 視 聴 システム> MPEG2-TS Sync DAW ENC DEC Gen Word sync Video Ref AES3 Time code sync HD-SDI HDCAM Surround Monitoring Controller AES3 HD-SDI Audio Loudspea kers Video Monitor < 試 聴 結 果 > いくつかの 番 組 を 視 聴 したが 問 題 なく 再 生 できていることを 確 認 した 参 考 :AES3 のユーザビット(192 ビット)を 用 いた 音 声 モード 識 別 ダウンミックス 係 数 等 の 音 声 関 連 メタ 情 報 の 伝 送 は 今 回 実 施 していない まとめ 高 度 BS デジタル 放 送 の 音 声 符 号 化 暫 定 方 式 の 検 討 に 関 連 して SMPTE302M に 基 づく リニア PCM 音 声 信 号 の MPEG-2 システム 伝 送 の 確 認 を 行 った 実 験 結 果 より 現 在 実 現 化 されている 符 号 化 器 で 問 題 なく 伝 送 できることを 確 認 した 22
高 度 BS デジタル 放 送 の 暫 定 方 式 において 映 像 符 号 化 方 式 として H.264 が 提 案 されて ている 本 実 験 で 使 用 した 実 機 の 場 合 エンコード/デコードの 処 理 時 間 として 約 800msec である デコーダ 側 に 0.5 秒 の 音 声 遅 延 用 バッファを 利 用 することにより 映 像 と 音 声 の 同 期 ずれを 補 償 している 23
5.4 AES3 のユーザビットを 用 いたリニア PCM 音 声 関 連 メタ 情 報 の 伝 送 リニアPCM 方 式 において AES3 のユーザビットを 用 いた 音 声 関 連 メタ 情 報 伝 送 の 検 討 が 行 われている 以 下 伝 送 することが 望 ましい 音 声 メタ 情 報 について 検 討 状 況 を 紹 介 する リニア PCM 音 声 メタ 情 報 例 データ 構 造 ビット ビット 列 数 表 記 LinerPCM_Meta_descriptor(){ component_type 8 uimsbf matrix_mixdown_idx 3 uimsbf future_reserve 13 uimsbf } [コンセプト] SMPTE302M では 複 数 の AES3ストリームを 一 つの MPEG2-PES にした 際 のデコード 情 報 を 規 定 している AES3 では 1AES ストリームをデコードするための 情 報 をチャンネルステ ータスビットとして 規 定 している そこで これらの 情 報 を 利 用 したうえで 放 送 に 必 要 な 音 声 メタ 情 報 を AES3 のユーザビットに 規 定 することとする [ 各 規 格 のメタ 情 報 の 役 割 ] MPEG2-PES AES3 Digital 音 声 プロセシング 再 生 AES3 Digital 音 声 AES3 AES3 情 報 本 提 案 情 報 SMPTE302M ヘッダ 情 報 サンプリング 周 波 数 ダウンミックスなど ストリーム 数 など ビット 解 像 度 など ( 将 来 のラウドネス 制 御 など) [ 識 別 子 詳 細 ] component_type( 音 声 モード 識 別 ); 8 ビット 音 声 コンポーネント 種 別 ARIB STD-B10 第 2 部 表 6-43 参 照 + 提 案 分 含 む matrix_mixdown_idx(ダウンミックス 係 数 );3 ビット ダウンミックス 係 数 ARIB STD-B21 第 6 章 表 6-DM2 参 照 future_reserve( 将 来 利 用 のための 予 約 );13 ビット [コメント] 番 組 間 音 量 差 チャンネル 間 音 量 差 の 改 善 を 目 的 に future_reserve の 一 部 もしくはすべ てを reference_loudness_idx として ITU-R で 現 在 審 議 されている 参 照 ラウドネスを 伝 送 し 受 信 環 境 のラウドネスコントロールを 行 うために 使 用 できればと 考 える 24
5.5 ロスレス 音 声 符 号 化 に 関 する 提 案 方 式 (2 方 式 )の 技 術 概 要 および 方 式 比 較 ロスレス 音 声 符 号 化 方 式 の 技 術 方 式 提 案 募 集 に 対 して 提 案 された 2 つの 方 式 について その 技 術 概 要 および 2 方 式 の 特 長 比 較 を 以 下 にまとめる 5.5.1 提 案 方 式 の 技 術 概 要 (1) MPEG-4 ALS(Audio Lossless Coding) < 技 術 方 式 の 概 要 > 歪 を 伴 わない 圧 縮 符 号 化 ISO/IEC 14496-3 MPEG-4 ALS(Audio Lossless Coding) 準 拠. エンコーダ デコーダで 完 全 に 整 合 がとれた 確 定 的 整 数 演 算 により 復 号 時 に 入 力 波 形 を 完 全 再 構 成 することを 理 論 的 に 保 証 線 形 予 測 による 隣 接 サンプル 間 の 冗 長 性 除 去 による 情 報 圧 縮 予 測 誤 差 サンプルの 振 幅 値 をエントロピー 符 号 化 して 振 幅 分 布 の 偏 りの 冗 長 性 除 去 による 情 報 圧 縮 音 声 メタ 情 報 はパラメータ 記 述 部 (ALSSpecificConfig)の Aux 部 分 を 拡 張 して 記 述 整 数 入 力 予 測 分 析 係 数 量 子 化 ー エントロピー 符 号 化 短 期 予 測 予 測 誤 差 (30 倍 拡 大 ) 整 数 出 力 係 数 逆 量 子 化 短 期 予 測 + エントロピー 復 号 化 入 力 波 形 図 5.5-1 ALS のエンコーダ デコーダの 原 理 < 放 送 システムへの 適 用 > MPEG-2 TS のオーディオパケットは PES パケットを 含 む MPEG-2 システムの PMT パケットに MPEG-4_audio_extension_descriptor を 含 み その 中 に AudioSpecificConfig と ALSSpecificConfig を 含 む MPEG-2 システムの PES パケットにフレーム 単 位 で ALS 準 拠 ペイロードを 含 む 25
ALS over MPEG-2 systems ISO/IEC 13818-1:2007/Amd 1:2007 (Transport of MPEG-4 streaming text and MPEG-4 lossless audio over MPEG-2 systems ) http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=44170 PMT header PMT payload PES header PES payload TS MPEG-4_audio_extension_descriptor 3 33 サンプル*チャネル ALS フレームデータ ISO/IEC 14496-3:2008 (subpart 11) AudioSpecificConfig ALSSpecificConfig (ミキシングパラメータなど 拡 張 可 能 ) 図 5.5-2 MPEG-2 Systems での 伝 送 方 法 (2) AAL(ATRAC Advanced Lossless) for Broadcasting < 技 術 方 式 の 概 要 > ロスレス 符 号 化 技 術 ATRAC Advanced Lossless for Broadcasting (AAL for BC) 16bit 固 定 小 数 点 演 算 を 前 提 とした 確 定 的 整 数 演 算 により プラットフォームを 選 ばずに 入 力 波 形 を 完 全 再 構 成 することが 可 能 線 形 予 測 分 析 によるサンプル 間 相 関 除 去 により 効 率 的 な 情 報 量 圧 縮 が 可 能 必 要 かつ 十 分 な 線 形 予 測 次 数 による 高 速 な 符 号 化 / 復 号 化 が 可 能 圧 縮 率 の 最 悪 値 が 確 定 しており リニア PCM とほぼ 同 等 である 具 体 的 にはフ レーム 長 2048, 16bit, 2ch データの 場 合 リニア PCM の 100.07% AAL for BC エンコーダ PCM 入 力 - エントロピー 符 号 化 線 形 予 測 線 形 予 測 分 析 係 数 量 子 化 AAL for BC デコーダ 係 数 逆 量 子 化 線 形 予 測 PCM 出 力 + エントロピー 復 号 化 図 5.5-3 AAL for Broadcasting エンコーダおよびデコーダ ブロック 図 26
< 放 送 システムへの 適 用 > MPEG-2 TS の PES パケットにて 伝 送 する AAL for BC の Elementary Stream を 以 下 のように MPEG2-TS の PES にマッ ピングした 上 で 伝 送 を 行 う -PES ヘッダは MPEG-2 Systems (ISO/IEC13818-1) に 準 拠 -ストリーム ID はプライベート 用 のものを 使 用 -ビデオと 同 期 した PTS を 付 加 MPEG2 PES packet MPEG2 PES payload MPEG-2 AAL for BC AAL for BC AAL for BC PES header config extra config data payload 図 5.5-4 AAL for BC PES パケット 構 造 AAL for BC 設 定 情 報 は AAL for BC 設 定 情 報 AAL データペイロードを 含 む AAL for BC 設 定 情 報 は AAL for BC 基 本 設 定 情 報 AAL for BC 拡 張 設 定 情 報 を 含 む AAL for BC 拡 張 設 定 情 報 はチャンネル 配 置 情 報 を 伝 送 可 能 AAL for BC 拡 張 設 定 情 報 はメタ 情 報 領 域 を 持 ち 最 大 2 32 バイトまでのメタ 情 報 を 伝 送 可 能 5.5.2 提 案 方 式 の 方 式 比 較 2 方 式 の 方 式 比 較 表 を 表 5.5-1 に 示 す なお 比 較 表 には 参 考 のためリニア PCM (SMPTE302M)についても 記 載 している 5.5.3 その 他 考 慮 すべき 事 項 2 方 式 の 比 較 検 討 において 上 記 の 比 較 表 への 記 載 事 項 のほか 考 慮 すべき 事 項 とし て 指 摘 された 項 目 を 以 下 に 示 す 国 際 標 準 化 のリスク AAL は 現 時 点 で 国 際 標 準 化 されておらず 今 後 国 際 標 準 化 機 関 に 提 案 した 場 合 時 期 的 に 遅 れる あるいは 国 際 標 準 化 できないリスクがある 一 方 ALS に ついても 新 規 規 定 のプロファイル レベルは 現 時 点 で 国 際 標 準 化 されてい ないため 同 様 のリスクがある 帯 域 有 効 活 用 シナリオ ロスレス 音 声 符 号 化 方 式 である ALS AAL のビットレートは 音 源 によって 変 動 27
し 最 悪 の 場 合 圧 縮 効 果 が 認 められないケースが 理 論 上 あり 得 る そのた め ロスレス 音 声 符 号 化 方 式 の 採 用 にあたっては 音 声 ビットレートの 変 動 においても 総 合 的 に 帯 域 有 効 活 用 できるシナリオ 例 えば 映 像 やデータとの 統 合 制 御 シナリオの 存 在 が 重 要 である 28
提 案 方 式 の 特 徴 方 式 上 の 比 較 圧 縮 率 ( 注 1) ( 圧 縮 後 のレート/PCM レート) ハードウェアの 実 現 性 表 5.5-1 提 案 方 式 (2 方 式 )の 比 較 表 ALS 国 際 標 準 準 拠 で 柔 軟 性 自 由 度 圧 縮 性 能 に 優 れる 線 形 予 測 最 高 15 次 付 加 ツールで 圧 縮 性 能 改 善 多 様 な 入 力 に 対 応 可 変 レート( 入 力 信 号 依 存 ) ファイル 毎 の 平 均 値 : 0.17%~106.32% フレーム 毎 の 最 悪 値 : 8.67%~106.32% 低 演 算 プロファイルで AAC-LC と 同 程 度 25 MHz (48 khz, 24 bit, 2 ch) @ARMulator ARM9E ROM 6 Kbyte, RAM 80 KByte @ARMulator ARM9E 国 際 標 準 との 整 合 性 伝 送 は MPEG-2 準 拠 符 号 化 復 号 化 は MPEG-4 準 拠 低 演 算 プロファイル 提 案 予 定 IPR の 扱 い RAND によるパテントプール 設 立 準 備 中 コンテンツ 課 金 なし 方 式 実 現 に 向 けた 今 後 の 課 題 MPEG-4 Audio の 改 訂 : 新 規 の 低 演 算 量 プロファイル レベル 定 義 ( 注 1)ロスレス 音 声 符 号 化 圧 縮 性 能 実 証 実 験 ( 参 考 5.6 章 参 照 )での 実 測 値 ( 参 考 ) AAL for Broadcasting リニア PCM(SMPTE302M) 実 装 が 容 易 で 無 償 ライセンス 最 悪 伝 送 蓄 積 などで 使 用 実 績 が 豊 富 レートが PCM レートとほぼ 同 じ 線 形 予 測 8 次 予 測 係 数 精 度 が 16 ビットで 演 算 量 低 減 可 変 レート( 入 力 信 号 依 存 )( 注 2) 固 定 レート( 平 均 = 最 悪 ) ファイル 毎 の 平 均 値 : 16 bit のとき(20 16=)125% 24 26.65%~100.12% bit のとき(28 24 )117% フレーム 毎 の 最 悪 値 : 33.84%~100.12% 容 易 非 常 に 容 易 16.3 Mcyc/s (48 khz, 16 bit, 2 ch) @NEC MP201 18.6 Mcyc/s (48 khz, 24 bit, 2 ch) @NEC MP201 ROM 7 Kbyte, RAM 16.6 KByte @NEC MP201 SMPTE302M (2007) 対 価 請 求 はなし 提 案 符 号 化 方 式 の 国 際 標 準 化 提 案 伝 送 方 式 の 国 際 標 準 化 ( 注 2) 今 回 測 定 に 用 いた AAL アルゴリズムは 20 ビット 入 力 に 対 して エンコード 時 に 4 ビット 右 シフトし LSB 側 20 ビット 詰 めで 24 ビット 処 理 を 行 い デコード 時 には 4 ビット 左 シフトし MSB 側 20 ビットを 取 り 出 し 出 力 している 無 償 29
5.6 ロスレス 音 声 符 号 化 圧 縮 性 能 実 証 実 験 報 告 目 的 高 度 衛 星 デジタル 放 送 方 式 のロスレス 音 声 符 号 化 方 式 として 提 案 された 2 方 式 (MPEG-4 ALS AAL for Broadcasting)について 複 数 の 音 源 音 声 入 力 パラメータを 用 いて 圧 縮 性 能 を 測 定 し その 性 能 を 実 証 する 実 験 概 要 1 圧 縮 性 能 測 定 (フレーム 毎 平 均 最 悪 ) 複 数 の 音 源 入 力 パラメータ 提 案 方 式 ENC 提 案 方 式 DEC (PC 上 の 実 行 形 式 ) 2 原 音 と DEC 後 波 形 の 比 較 確 認 ロスレス 音 声 符 号 化 提 案 2 方 式 の CODEC(PC 上 の 実 行 形 式 ファイル)に 対 して 複 数 の 音 源 入 力 パラメータを 入 力 し 以 下 の 測 定 を 行 う 原 音 データに 対 する 圧 縮 後 の 情 報 量 の 割 合 ( 値 が 小 さいほうが 効 率 がよい)の フレーム 毎 の 平 均 値 およびフレーム 毎 の 最 悪 値 を 測 定 情 報 量 の 割 合 (%)=( 圧 縮 後 の 情 報 量 ) (PCM の 情 報 量 ) 100 原 音 とデコード 後 波 形 の 一 致 の 比 較 確 認 使 用 CODEC の 諸 元 2 方 式 ともにフレームサイズ=2048 サンプル/フレーム ALS サブセット: 48 khz: 線 形 予 測 次 数 最 大 15 次 MCC/JS, 3 段 までのブロック 分 割 LTP 96 khz: 線 形 予 測 次 数 最 大 15 次 MCC/JS 評 価 音 源 名 称 入 力 パラメータ 提 供 者 MPEG 評 価 音 源 x15 種 48kHz 16bit 2ch 30sec MPEG 評 価 音 源 x15 種 48kHz 20bit 2ch 30sec MPEG 評 価 音 源 x15 種 48kHz 24bit 2ch 30sec MPEG 評 価 音 源 x15 種 96kHz 24bit 2ch 30sec シンセ 48kHz 24bit 2ch 184sec SONY 30
室 内 楽 48kHz 16bit 2ch 44sec SONY ノイズ 48kHz 16bit 2ch 55sec SONY 合 成 試 験 音 源 ( 一 様 分 布 白 色 雑 音 ) 48kHz 16bit 1ch 10sec NTT 合 成 試 験 音 源 ( 正 弦 波 1 khz) 48kHz 16bit 1ch 10sec NTT 合 成 試 験 音 源 ( 矩 形 波 1 khz) 48kHz 16bit 1ch 10sec NTT 合 成 試 験 音 源 ( 定 数 無 音 ) 48kHz 16bit 1ch 10sec NTT チェンバロ 96kHz 24bit 2ch 34sec NHK 和 太 鼓 96kHz 24bit 2ch 43sec NHK ピアノ 96kHz 24bit 2ch 35sec NHK チェロ+ピアノ 演 奏 96kHz 24bit 2ch 42sec NHK 弦 楽 四 重 奏 96kHz 24bit 2ch 43sec NHK 合 奏 曲 1 96kHz 24bit 5.1ch 30sec NTT 合 奏 曲 2 96kHz 24bit 5.1ch 30sec NTT 担 当 およびスケジュール 項 目 担 当 スケジュール 実 験 計 画 の 承 認 音 源 の 選 定 音 声 符 号 化 方 式 WG ~6/2 実 験 準 備 (PC 実 行 形 式 CODEC 音 源 測 定 用 スクリプト) 方 式 提 案 社 ~6/6 測 定 実 施 WG 主 任 6/6 6/13( 追 加 ) 実 験 結 果 (1) 原 音 データとデコード 後 データの 同 一 性 の 検 証 今 回 実 施 した 全 てのデータにおいて 原 音 データとデコード 後 データが 同 一 であること を PC 上 でのファイル 比 較 コマンドにより 確 認 した (2) 各 音 源 に 対 するフレーム 平 均 値 フレーム 最 悪 値 いずれも 単 位 :[%] MPEG 音 源 (48 khz, 16 bit, stereo) AAL 平 均 AAL 最 悪 ALS 平 均 ALS 最 悪 avemaria 40.39 55.46 38.54 52.97 blackandtan 56.60 74.63 55.11 73.82 broadway 50.50 76.27 48.57 73.68 cherokee 54.01 71.77 52.86 70.75 clarinet 48.47 62.40 46.96 61.19 cymbal 30.32 85.23 29.05 83.78 dcymbals 61.35 80.88 60.39 80.60 etude 43.78 57.85 41.63 56.03 31
flute 41.21 51.28 39.94 50.02 fouronsix 47.15 67.59 45.76 66.60 haffner 56.04 67.49 54.55 66.10 mfv 32.18 53.10 29.96 42.58 unfo 52.55 74.04 50.72 73.57 violin 49.56 63.72 47.68 61.74 waltz 54.01 76.23 52.55 75.52 MPEG 音 源 (48 khz, 20 bit, stereo) AAL 平 均 AAL 最 悪 ALS 平 均 ALS 最 悪 avemaria 52.23 64.39 50.56 62.32 blackandtan 65.29 79.71 63.99 79.07 broadway 60.44 81.02 58.84 78.96 cherokee 63.16 77.42 62.13 76.62 clarinet 58.82 70.03 57.47 68.98 cymbal 39.98 88.18 38.88 87.07 dcymbals 69.09 84.71 68.33 84.51 etude 55.01 66.33 53.11 64.85 flute 52.98 61.14 51.85 60.07 fouronsix 57.59 74.12 56.26 73.30 haffner 64.93 74.01 63.63 72.90 mfv 45.60 62.64 43.66 54.00 unfo 61.98 79.23 60.30 78.88 violin 59.72 70.98 58.12 69.40 waltz 63.20 81.00 61.90 80.45 注 ) 今 回 測 定 に 用 いた AAL アルゴリズムは 20 ビット 入 力 に 対 して エンコード 時 に 4 ビット 右 シフト し LSB 側 20 ビット 詰 めで 24 ビット 処 理 を 行 い デコード 時 には 4 ビット 左 シフトし MSB 側 20 ビッ トを 取 り 出 し 出 力 している MPEG 音 源 (48 khz, 24 bit, stereo) AAL 平 均 AAL 最 悪 ALS 平 均 ALS 最 悪 avemaria 60.19 70.33 58.79 68.59 blackandtan 71.07 83.09 69.97 82.55 broadway 67.04 84.18 65.68 82.45 cherokee 69.30 81.18 68.42 80.50 clarinet 65.68 75.02 64.54 74.14 cymbal 49.93 90.15 48.99 89.19 dcymbals 74.24 87.26 73.59 87.08 etude 62.51 71.94 60.91 70.69 32
flute 60.82 67.63 59.86 66.70 fouronsix 64.66 78.43 63.53 77.73 haffner 70.78 78.34 69.68 77.40 mfv 54.67 68.87 53.03 61.65 unfo 68.31 82.69 66.90 82.38 violin 66.43 75.81 65.08 74.49 waltz 69.34 84.16 68.23 83.68 MPEG 音 源 (96 khz, 24 bit, stereo) AAL 平 均 AAL 最 悪 ALS 平 均 ALS 最 悪 avemaria 52.48 61.30 50.90 58.69 blackandtan 52.68 87.87 45.45 60.87 broadway 58.63 76.77 57.44 73.47 cherokee 51.17 65.35 44.75 58.73 clarinet 49.76 59.20 42.75 50.22 cymbal 47.23 90.13 46.20 89.66 dcymbals 60.81 79.37 59.85 78.75 etude 54.10 64.05 52.40 61.38 flute 47.93 53.56 42.80 46.91 fouronsix 46.82 69.11 40.93 54.95 haffner 54.96 62.87 48.79 54.15 mfv 52.48 67.61 50.40 65.18 unfo 50.93 88.25 43.71 60.39 violin 51.07 57.57 45.89 51.33 waltz 51.60 88.98 44.37 61.04 独 自 音 源 (48 khz) AAL 平 均 AAL 最 悪 ALS 平 均 ALS 最 悪 item1(シンセ) 73.58 86.98 72.00 86.08 Sony (2ch) item2( 室 内 楽 ) 38.22 44.08 37.01 42.50 item3(ノイズ) 100.06 100.06 106.32 106.32 Rand( 白 色 雑 音 ) 100.12 100.12 103.17 103.44 NTT (1ch) Sine_1kHz( 正 弦 波 ) 33.80 33.84 9.01 9.89 Square_1kHz( 矩 形 波 ) 88.40 88.43 36.07 42.92 ZeroConst( 定 数 ) 26.65 63.77 0.17 8.67 独 自 音 源 (96 khz) AAL 平 均 AAL 最 悪 ALS 平 均 ALS 最 悪 NHK (2ch) cembalo 73.48 82.49 72.03 81.68 33
drum_japan 51.29 80.34 49.09 79.48 Pf+cello 57.65 67.08 55.53 64.70 piano 47.59 59.24 45.24 50.59 quartet 50.94 60.15 48.22 54.54 NTT Ensemble1 41.51 46.60 39.68 43.03 (5.1ch) Ensemble2 39.35 42.70 37.38 40.83 ( 注 )SMPTE302M の 点 線 は リニア PCM 使 用 時 の 原 音 データに 対 する 情 報 量 を 示 す 120 SMPTE 302M (125%@16bit) 100 情 報 量 の 割 合 (%) 80 60 40 AAL 平 均 AAL 最 悪 ALS 平 均 ALS 最 悪 20 0 avemaria blackandtan broadway cherokee clarinet cymbal dcymbals etude flute fouronsix haffner mfv unfo violin waltz 入 力 ファイル 図 5.6-1(a) MPEG 音 源 15 種 類 (48kHz 16bit stereo) 34
120 100 SMPTE 302M (120%@20bit) ( 注 )SMPTE302M の 点 線 は リニア PCM 使 用 時 の 原 音 データに 対 する 情 報 量 を 示 す AAL 平 均 AAL 最 悪 ALS 平 均 ALS 最 悪 80 60 40 20 0 avemaria blackandtan broadway cherokee clarinet cymbal dcymbals etude flute 情 報 量 の 割 合 (%) fouronsix haffner mfv unfo violin waltz 入 力 ファイル 図 5.6-1(b) MPEG 音 源 15 種 類 (48kHz 20bit stereo) 120 ( 注 )SMPTE302M の 点 線 は リニア PCM 使 用 時 の 原 音 データに 対 する 情 報 量 を 示 す 情 報 量 の 割 合 (%) 100 80 60 40 20 SMPTE 302M (117%@24bit) AAL 平 均 AAL 最 悪 ALS 平 均 ALS 最 悪 0 avemaria blackandtan broadway cherokee clarinet cymbal dcymbals etude flute 入 力 ファイル fouronsix haffner mfv unfo violin waltz 図 5.6-1(c) MPEG 音 源 15 種 類 (48kHz 24bit stereo) 35
120 ( 注 )SMPTE302M の 点 線 は リニア PCM 使 用 時 の 原 音 データに 対 する 情 報 量 を 示 す 100 SMPTE 302M (117%@24bit) AAL 平 均 AAL 最 悪 ALS 平 均 ALS 最 悪 情 報 量 の 割 合 (%) 80 60 40 20 0 avemaria blackandtan broadway cherokee clarinet cymbal dcymbals etude flute 入 力 ファイル fouronsix haffner mfv unfo violin waltz 図 5.6-1(d) MPEG 音 源 15 種 類 (96kHz 24bit stereo) ( 注 )SMPTE302M の 点 線 は リニア PCM 使 用 時 の 原 音 データに 対 する 情 報 量 を 示 す 情 報 量 の 割 合 (%) 120 100 80 60 40 SMPTE 302M (117%@24bit) AAL 平 均 AAL 最 悪 ALS 平 均 ALS 最 悪 SMPTE 302M (125%@16bit) 20 0 item1 item2 item3 Rand Sine_1kHz Square_1kHz ZeroConst Sony (2ch) 入 力 ファイル NTT (1ch) 図 5.6-1(e) 独 自 音 源 (48kHz) 36
120 100 SMPTE 302M (117%@24bit) ( 注 )SMPTE302M の 点 線 は リニア PCM 使 用 時 の 原 音 データに 対 する 情 報 量 を 示 す 情 報 量 の 割 合 (%) 80 60 40 20 AAL 平 均 AAL 最 悪 ALS 平 均 ALS 最 悪 0 cembalo drum_japan Pf+cello piano quartet Ensemble1 Ensemble2 NHK (2ch) 入 力 ファイル NTT (5.1ch) 図 5.6-1(f) 独 自 音 源 (96kHz) (3) 一 音 源 内 でのフレーム 毎 の 圧 縮 性 能 比 較 今 回 測 定 した 音 源 のうち 典 型 例 として 2 例 (SONY 音 源 : 室 内 楽 NHK 音 源 : 和 太 鼓 )について 音 声 フレーム 毎 の 圧 縮 性 能 を 以 下 にグラフで 示 す ( 注 )SMPTE302M の 点 線 は リニア PCM 使 用 時 の 原 音 データに 対 する 情 報 量 を 示 す 情 報 量 の 割 合 (%) 120 100 80 60 40 SMPTE 302M 125%@16bit AAL ALS 20 0 1 101 201 301 401 501 601 701 801 901 1001 フレーム 番 号 図 5.6-2(a) フレーム 毎 の 圧 縮 性 能 ( 室 内 楽 :48kHz 16bit 2ch) 37
120 ( 注 )SMPTE302M の 点 線 は リニア PCM 使 用 時 の 原 音 データに 対 する 情 報 量 を 示 す 100 SMPTE 302M 117%@24bit 情 報 量 の 割 合 (%) 80 60 40 20 0 1 101 201 301 401 501 601 701 801 901 1001 1101 1201 1301 1401 1501 1601 1701 1801 1901 フレーム 番 号 AAL ALS 図 5.6-2(b) フレーム 毎 の 圧 縮 性 能 ( 和 太 鼓 :96kHz 24bit 2ch) 38
5.7 ロスレス 音 声 符 号 化 TS 生 成 実 証 実 験 報 告 目 的 ロスレス 音 声 符 号 化 方 式 である MPEG-4 ALS 符 号 化 および AAL for broadcasting で 音 声 信 号 をロスレス 圧 縮 し MPEG-2 システム 準 拠 の TS を 生 成 できることを 確 認 する MPEG-4 ALS の 詳 細 は 付 録 1 AAL for broadcasting の 詳 細 は 付 録 2 を 参 照 実 施 日 平 成 20 年 6 月 13 日 参 加 者 浦 野 ( 音 声 符 号 化 方 式 作 業 班 主 任 日 本 テレビ) ソニー NTT NHK 実 験 場 所 ARIB 会 議 室 実 験 項 目 1 MPEG-4 ALS で 符 号 化 されたビットストリームを 含 む TS の 生 成 MPEG-4 ALS で 圧 縮 されたビットストリームによる MPEG-2 TS の 生 成 が 可 能 であ ることを 下 記 により 確 認 した TS 用 のエディタでストリーム 内 容 確 認 専 用 ソフトウェアでリアルタイム 多 重 分 離 復 号 再 生 2 AAL for broadcasting で 符 号 化 されたビットストリームを 含 む TS の 生 成 AAL for broadcasting で 圧 縮 されたビットストリームによる MPEG-2 TS の 生 成 が 可 能 であることを 下 記 により 確 認 した TS 用 のエディタでストリーム 内 容 確 認 専 用 ソフトウェアでリアルタイム 多 重 分 離 復 号 再 生 TS 作 成 付 帯 デモンストレーション (MPEG-4 ALS のみ 付 録 3 参 照 ) ロスレス 圧 縮 符 号 化 音 声 と 映 像 (H264/AVC)との TS レベルでの 多 重 化 と 再 生 音 声 を 優 先 した 映 像 との 統 合 ビットレート 制 御 による TS レベルでの 多 重 化 と 再 生 まとめ ロスレス 音 声 符 号 化 方 式 による 圧 縮 ビットストリームにより MPEG-2 システム 準 拠 のTS の 生 成 を 確 認 した また 付 帯 デモンストレーションにより 音 声 のロスレス 符 号 化 の 有 効 利 用 についての 議 論 の 具 体 化 が 喚 起 された 39
付 録 1 MPEG-4 ALS で 符 号 化 されたビットストリームを 含 む TS の 生 成 実 験 目 的 MPEG-4 ALS 符 号 化 で 圧 縮 し 圧 縮 ビットストリームにより MPEG-2 システム 準 拠 の TS を 生 成 できることを 確 認 する 符 号 化 パラメータ フレームサイズ: 8008 サンプル/フレーム 線 形 予 測 次 数 最 大 15 次 ブロック 分 割 最 大 3 段 LTP MCC/JS 実 験 結 果 本 実 験 では まず 5 種 類 の 音 声 信 号 (いずれも 48kHz,24bit,5.1ch)について ALS 圧 縮 性 能 を 事 前 に 測 定 した その 後 各 音 声 信 号 における 最 悪 ビットレートを 固 定 的 に 割 り 当 てて TS を 作 成 した 実 験 に 用 いた 音 声 信 号 の ALS 圧 縮 性 能 を 表 に 示 す 表 実 験 に 用 いた 5.1 マルチチャネル 音 声 信 号 の MPEG-4 ALS 圧 縮 性 能 音 声 入 力 信 号 サラウンド 収 録 PCM レート 再 生 時 間 [sec] 平 均 [Mbps] 最 悪 [Mbps] 標 準 偏 差 48kHz/24bit/5.1ch [Mbps] 1 スポーツ( 相 撲 ) 6.912 326.5 3.939 4.614 0.373 2 オーディオドラマ( 浅 間 ) 354.8 3.815 5.120 0.489 3 音 楽 インドラマ(ジャズ) 271.1 4.304 5.159 0.579 4 音 楽 (パイプオルガン) 571.3 4.026 4.628 0.322 5 音 楽 インドラマ(ドラマ 音 楽 ) 258.3 3.688 5.101 0.927 最 悪 レートは 8008 サンプル/フレーム 3 フレーム( 約 500ms)を 単 位 とした 時 の 最 悪 値 作 成 した MPEG-2 TS の 妥 当 性 は 机 上 およびエンコーダ 多 重 化 ツールの 出 力 ログ TS エディタによる 内 容 の 分 析 により 確 認 した さらに 上 記 生 成 された TS を PC を 用 いてソ フトウェアによりリアルタイムで 多 重 分 離 し 再 生 可 能 であることで TS の 妥 当 性 を 確 認 し た まとめ MPEG-4ALS 符 号 化 方 式 で 音 声 信 号 をロスレス 圧 縮 し MPEG-2 システム 準 拠 の TS を 生 成 し 机 上 およびエンコーダ MUX ツールの 出 力 したログおよび TS エディタによる 内 容 確 認 によって TS の 妥 当 性 の 検 証 と PC を 用 いた TS のリアルタイムに 多 重 分 離 再 生 する 実 験 により MPEG-4 ALS を 用 いた TS の 生 成 を 確 認 した 40
付 録 2 ATRAC Advanced Lossless for Broadcasting の TS 作 成 実 験 目 的 高 度 衛 星 デジタル 放 送 方 式 のロスレス 音 声 符 号 化 方 式 の 検 討 に 関 連 して ATRAC Advanced Lossless for Broadcasting 符 号 化 方 式 で 音 声 信 号 をロスレス 圧 縮 し MPEG-2 システム 準 拠 の TS を 生 成 できることを 確 認 する 実 験 概 要 ソフトウェア AAL エンコーダ 固 定 長 TS 化 ツール 固 定 長 TS 入 力 のソフトウェア AAL デコーダを 用 いてTSの 生 成 復 号 再 生 を 模 擬 する これにより エンコーダ 入 力 とデ コーダ 出 力 の 一 致 検 証 を 行 い ロスレスで 復 号 できていることを 確 認 する このとき エ ンコーダ 入 力 をプリスキャンして 最 悪 フレームサイズを 算 出 しておき この 最 悪 フレーム サイズに 基 づき 固 定 長 TS 化 に 必 要 な NULL パケットを 挿 入 して 固 定 レート 化 を 実 現 する LPCM 入 力 AAL エンコーダ 非 固 定 長 PES ペイロード 固 定 長 TS 化 ツール 固 定 長 TS LPCM 出 力 固 定 長 TS 入 力 のソフトウェア AAL デコーダ 符 号 化 器 概 要 - AAL (2ch) - デコーダの 音 声 遅 延 用 バッファ 量 約 42.67msec に 設 定 実 験 に 用 いた 音 源 - 48 khz, 16 bit, 2ch の 音 楽 信 号 41
参 考 : 実 験 に 用 いた 2 チャネル 音 声 信 号 の AAL の 圧 縮 性 能 < 実 験 方 法 > 音 声 入 力 信 号 音 声 符 号 化 方 式 符 号 化 パラメータ 使 用 機 器 48kHz/16bit/2ch ATRAC Advanced Lossless for Broadcasting 音 声 符 号 化 フレームサイズ 2048 サンプル/フレーム 線 形 予 測 次 数 最 大 8 次 Windows PC < 実 験 結 果 > 音 声 入 力 信 号 2 チャネルステレオ 収 録 PCM レート 再 生 時 間 [sec] 平 均 [Mbps] 最 悪 [Mbps] 48kHz/16bit/2ch [Mbps] 1 Sony item2 1.536 44.3 0.586 0.676 2 Sony item4 10.0 0.489 0.992 最 悪 レートは 2048 サンプル/フレーム( 約 42.66ms)を 単 位 とした 時 の 最 悪 値 まとめ ATRAC Advanced Lossless for Broadcasting 符 号 化 方 式 で 音 声 信 号 をロスレス 圧 縮 し MPEG-2 システム 準 拠 の TS を 生 成 し PC を 用 いた TS のリアルタイム 再 生 する 実 験 によ り ATRAC Advanced Lossless for Broadcasting を 用 いて TS の 生 成 が 可 能 であることを 確 認 した 42
付 録 3 MPEG-4 ALS と AVC/H.264 映 像 符 号 化 との TS 作 成 多 重 化 再 生 デモンストレ ーション 目 的 TS 作 成 実 験 に 付 随 して 映 像 との 多 重 化 TS を 作 成 し 実 時 間 再 生 した 実 施 項 目 1 ロスレス 圧 縮 符 号 化 音 声 と 映 像 (H264/AVC)との TS レベルでの 多 重 化 と 再 生 2 音 声 を 優 先 した 映 像 との 統 合 ビットレート 制 御 による TS レベルでの 多 重 化 と 再 生 符 号 化 伝 送 パラメータ - TS RATE 17Mbps 注 1) - AUDIO ES RATE 6.912Mbps-ALS 圧 縮 余 剰 (MPEG-4 ALS 準 拠 ) 注 2) 注 - VIDEO ES RATE 8.775Mbps+ALS 圧 縮 余 剰 1) (H.264 4:2:0 フォーマット) - 映 像 エンコード+デコードの 遅 延 量 約 500msec に 設 定 - デコーダの 音 声 遅 延 用 バッファ 量 約 500msec に 設 定 注 1)ALS 圧 縮 余 剰 = 入 力 PCM レート(6.912Mbps)-ALS 圧 縮 後 のレート 注 2)VIDEO ES RATE の 数 値 はターゲットレート デモに 用 いた 音 源 画 像 - 音 楽 信 号 5 種 類 (48 khz, 24 bit, 5.1 ch) - ハイビジョン システム 評 価 用 標 準 動 画 像 (1920x1080, 16:9) デモ 内 容 1 ロスレス 圧 縮 符 号 化 音 声 と 映 像 (H264/AVC)との TS レベルでの 多 重 化 と 再 生 事 前 収 録 放 送 ( 完 パケ)を 想 定 して 当 該 プログラムにおける ALS 圧 縮 後 の 最 悪 レート に 関 する 情 報 が 事 前 に 得 られたとして 最 悪 レート 相 当 を 音 声 符 号 化 側 に 割 り 当 て 残 り を 映 像 符 号 化 側 に 固 定 的 に 割 り 当 てて 多 重 化 した TS を 作 成 する 例 えば 音 声 信 号 4. 音 楽 (パイプオルガン) の 場 合 では ファイル 全 体 の ALS 圧 縮 後 の 最 悪 レートが 4.628Mbps であったことから 最 悪 レートをもとに 計 算 した ALS 圧 縮 余 剰 は 6.912-4.628=2.284Mbps となった これにより 映 像 の ES レートは 8.775Mbps+ 2.284Mbps=11.059 Mbps とした 以 上 の 手 順 により ソフトウェアにより ALS ストリーム( 音 声 )および H.264/AVC スト リーム( 映 像 )をオフラインエンコードし MPEG-2 TS に 多 重 化 した さらに 上 記 生 成 され た TS を PC を 用 いてソフトウェアによりリアルタイムで 多 重 分 離 し 再 生 可 能 であるこ とを 示 した 43
ビデオ ファイル 入 力 Audio Enc (MPEG-4 ALS) プログラム 全 体 の オーディオ 最 悪 レート オフラインエンコード Video Enc (H.264/AVC) MUX MPEG2-TS オーディオ ファイル 入 力 Audio Enc (MPEG-4 ALS) PC 上 のソフトウェア HDD HDD MPEG2-TS リアルタイムデコード Video Dec (H.264/AVC) DE MUX Audio Dec (MPEG-4 ALS) ディスプレイ オーディオ デバイス PC 上 のソフトウェア 図 5.7-1 デモシステム( 余 剰 ビットレートをプログラム 内 固 定 割 り 当 て) 2 音 声 を 優 先 した 映 像 との 統 合 ビットレート 制 御 による TS レベルでの 多 重 化 と 再 生 事 前 に 測 定 した 入 力 音 声 信 号 に 対 する ALS 圧 縮 性 能 のデータ(フレーム 毎 の 圧 縮 率 )を 用 いて 500ms の GOP 単 位 ごとに 直 前 の GOP での ALS 圧 縮 後 の 余 剰 ビットレートを 映 像 に 追 加 で 動 的 に 割 当 てた(GOP 単 位 で 映 像 のターゲットレートを 制 御 ) これによって 実 効 的 には PCM レートから ALS 圧 縮 後 の 平 均 レートを 差 し 引 いた 余 剰 ビットレート 相 当 を 映 像 に 追 加 で 割 り 当 てることができる 例 えば 4. 音 楽 (パイプオルガン) では フ ァイル 全 体 の ALS 圧 縮 後 の 平 均 レート( 実 測 値 )が 4.026Mbps であったことから ALS 圧 縮 余 剰 は 6.912-4.026=2.886Mbps であった 余 剰 ビットレートを 映 像 に 動 的 に 割 り 当 て ることで 映 像 ES の 平 均 レートはおよそ 8.775Mbps+2.886Mbps=11.661Mbps となった 以 上 の 手 順 により ソフトウェアにより ALS ストリーム( 音 声 )および H.264/AVC スト リーム( 映 像 )をオフラインエンコードし MPEG-2 TS に 多 重 化 した さらに 上 記 生 成 され た TS を PC を 用 いてソフトウェアによりリアルタイムで 多 重 分 離 し 再 生 可 能 であるこ とを 示 した 44
オフラインエンコード ビデオ Video Enc ファイル 入 力 (H.264/AVC) 当 該 ビデオフレームエンコード 時 点 までの 各 オーディオ MUX フレームの 圧 縮 率 情 報 Audio Enc オーディオ (MPEG-4 ALS) ファイル 入 力 PC 上 のソフトウェア MPEG2-TS HDD リアルタイムデコード MPEG2-TS Video Dec ディスプレイ (H.264/AVC) DE MUX Audio Dec HDD オーディオ (MPEG-4 ALS) デバイス PC 上 のソフトウェア 図 5.7-2 デモシステム( 余 剰 ビットレートをフレーム 単 位 で 動 的 割 り 当 て) 下 記 の3 種 の 条 件 の TS を PS3 で 多 重 分 離 し 映 像 部 分 だけを 実 時 間 再 生 した (1) リニア PCM 音 声 符 号 化 相 当 (SMPTE302M, H.264/AVC 固 定 レート) (2) 1の 映 像 への 固 定 割 り 当 て (MPEG-4 ALS, H.264/AVC 固 定 レート) (3) 2の 映 像 への 動 的 割 り 当 て (MPEG-4 ALS, H.264/AVC 可 変 レート) 表 5.7-1 レート 割 り 当 ての 実 例 ( 音 声 入 力 ファイル 4. 音 楽 (パイプオルガン) の 例 ) 音 声 フォーマット (48kHz,24bit,5.1ch) 映 像 フォーマット (1920x1080 (1080i) 16:9) 伝 送 フォーマット 音 声 ALS のレートは 実 測 値 映 像 のレートはターゲットレート (1) リニア PCM 相 当 8.064 Mbps (ES レート) (SMPTE302M) (2) MPEG-4 ALS 固 定 レート 4.628 Mbps (プログラム 毎 の 最 悪 レートに 設 定 ) (3) MPEG-4 ALS 平 均 約 4.026Mbps 可 変 レート (6.912-[ALS 圧 縮 余 剰 ] Mbps) (1) 固 定 レート 7.623 Mbps (ES レート) (リニア PCM 相 当 に 対 応 ) (2) 固 定 レート 11.059 Mbps (ALS 固 定 レートに 対 応 ) ( 音 声 圧 縮 後 の 余 剰 を 割 当 て) (3) 可 変 レート 平 均 約 11.661 Mbps (ALS 可 変 レートに 対 応 ) (8.775+[ALS 圧 縮 余 剰 ] Mbps) MPEG-2 TS 45