ICD-ARC 共 催 研 究 会 パネル 討 論 新 時 代 におけるマルチコア 戦 略 ( 株 ) 東 芝 セミコンダクター 社 2008 年 5 月 13 日 斎 藤 光 男
プロセッサ 周 波 数 の 年 代 別 の 伸 び 10000 CISCプロセッサの 時 代 アウトオブオーダーの 導 入 3.2GHz P4 3.0GHz P4 3.8GHz P4 3.4GHz 3.6GHz P4 P4 2.93GHz Core2 Ext 6GHz 5GHz 3.2GHz PLAYSTATION3 2006/11/11 4GHz 3GHz 2.0GHz Pentium 4 1.4GHz Pentium 4 3.2GHz XBox360 2005/12/10 2GHz 1000 Clock Rate (MHz) 100 RISCプロセッサ 優 位 構 造 が 単 純 と 言 う 利 点 100MHz R4000 187MHz 21064 275MHz 21064 200MHz 21064 66MHz Pentium 66MHz 486DX2 300MHz 21164 100MHz Pentium 600MHz 21164 500MHz 21164 300MHz Pentium II 200MHz Pentium Pro 150MHz Pentium Pro 33MHz PlayStation 1994/12/3 100MHz Nintendo64 1996/6/18 700MHz 21264 450MHz Pentium II 1GHz Athlon/PIII 600MHz Pentium III 800MHz Pentium III 300MHz PlayStation2 2000/3/4 200MHz Dreamecast 1998/11/24 733MHz XBox 2001/11/15 485MHz GameCube 2001/9/14 Hiend Processor x86 Processor GAME console 1999 SIA local clk(hi-perf.) マルチコアの 時 代 周 波 数 性 能 1999 SIA chip-across clk(hi-perf.) 10 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 Year (Chip or System Shipment) 2
マルチコア 化 が 進 むマイクロプロセッサ PC-Watch 後 藤 弘 茂 氏 資 料 3
マルチコアプロセッサ 構 成 の 分 類 種 類 説 明 マルチスレッド 性 能 シングルスレッド 性 能 性 能 / 消 費 電 力 ソフトウエア 移 植 性 Homogeneous Multi-core 汎 用 CPU 汎 用 CPU 汎 用 CPU 汎 用 CPU 従 来 型 の 汎 用 CPUコア を2 個 以 上 搭 載 する そこそこ 高 い 非 常 に 高 い 悪 い Homogeneous Multi-core (small core) シンプル シンプル シンプル シンプル CPU CPU CPU CPU シンプル シンプル シンプル シンプル CPU CPU CPU CPU シンプル 化 したCPU コアを 多 数 搭 載 する 非 常 に 高 い 低 い 良 い Heterogeneous Multi-core (simple) シンプル 制 御 用 CPU シンプル シンプル シンプル シンプル データ 用 データ 用 データ 用 データ 用 CPU CPU CPU CPU シンプル シンプル シンプル シンプル データ 用 データ 用 データ 用 データ 用 CPU CPU CPU CPU 比 較 的 シンプルな 制 御 用 CPUコアとシンプル なデータ 用 CPUコアを 組 み 合 わせる 非 常 に 高 い 高 い 非 常 に 良 い 抜 本 的 変 更 4
Processorとしての としてのCellは? Integer 性 能 Multimedia 命 令 追 加 による 軌 道 修 正 64ビット MM 命 令 周 波 数 /CPIに 比 例 した 性 能 曲 線 PC 用 プロセッサ 128ビット MM 命 令 Integer 性 能 余 り PCの 周 波 数 が 上 がっても 体 感 速 度 は 変 わらないなー Media 性 能 不 足 映 像 の 再 生 が 出 来 るよ うになったが 画 質 サイズ に 不 満 Cell Media 処 理 Media 性 能 5
Synergistic Processor Element (SPE)の 特 長 データ 演 算 処 理 向 けの 新 しいアーキテクチャ メディア 演 算 浮 動 小 数 点 演 算 RISC 命 令 セット 体 系 のプロセッサ 高 級 言 語 指 向 SIMD 演 算 命 令 128 ビットデータに 対 して 並 列 演 算 を 実 行 (eg. 4x32ビット) 128 本 の 128 ビット 幅 レジスタファイル 256KB のローカルストア 様 々なパフォーマンス 測 定 機 能 PPE PPU L2 Cache SPE SPE SPE SPE MFC MFC MFC MFC xio FlexIO Element Interconnect Bus (EIB) MFC MFC MFC MFC SPE SPE SPE SPE 注 ) 注 ) 25.6GB/s XDR DRAM Cell/GPU 等 76.8GB/s 注 ) Super Companion Chip PPE:Power Processor Element SPE: Synergistic Processor Element : Local Storage I/O 6
CellはRISC 以 来 の 新 しい 方 向 かもしれない RISCが が 提 案 したもの プログラムをアセンブラで 書 く のをあきらめる コンパイラが 扱 いやすい 単 純 な 命 令 のみに 限 定 効 率 的 なプログラムをコンパイ ラにゆだねる その 結 果 計 算 機 のHWの 中 身 をユーザは 直 接 は 知 らなく ても 良 い 高 級 言 語 によってプログラムが 容 易 に リアルタイム 性 は 追 求 しない 圧 倒 的 なコストパフォーマンス を 実 現 簡 単 なハードウエアで 高 性 能 3 倍 程 度 の 性 能 が 得 られた Cellが が 提 案 したもの ハードウエアをありのままにユー ザに 見 せる HWの 構 成 メモリサイズなどを 意 識 してプログラム プログラムを 効 率 的 にするには 工 夫 が 必 要 その 代 わり 計 算 機 の 中 で 何 が 起 きているのかをユーザに 出 来 るだ け 知 らせる 性 能 のチューニングが 容 易 に リアルタイム 性 が 容 易 に 確 保 できる 圧 倒 的 なコストパフォーマンスを 実 現 はるかに 小 さい1 個 がPC 用 プ ロセッサ2 個 以 上 に 相 当 する 例 も 7
アカデミック 研 究 機 関 への 期 待 並 列 性 の 特 徴 マルチレベル 粒 度 の 並 列 処 理 (スレッド データ 命 令 ) Determisticな 可 制 御 性 の 高 い 計 算 機 モデル 新 しい 研 究 テーマ 例 自 動 並 列 化 コンパイラ SIMD 化 やマルチコアに 対 応 する 細 粒 度 から 粗 粒 度 の 多 様 な 自 動 並 列 化 多 階 層 のストレージモデルに 適 したコード データの 自 動 分 割 並 列 プログラミングモデル OpenMP 等 の 多 様 な 生 産 性 の 高 いプログラミング 言 語 やスキーム 新 しいアプリケーション 生 物 学 航 空 宇 宙 学 等 の 産 業 分 野 向 けスーパーコンピュータ 映 像 認 識 性 能 を 活 かす 家 庭 向 けエンターテイメント 8
FAIS:Cell/B.E.の 新 研 究 拠 点 が 九 州 に 誕 生 北 九 州 産 業 学 術 推 進 機 構 (FAIS) FAIS)に ソ ニー 東 芝 IBMが 支 援 する 米 国 ジョージ ア 工 科 大 学 に 続 く 第 2の 研 究 拠 点 画 像 処 理 技 術 や 脳 情 報 学 等 の 様 々な 研 究 者 が 連 携 する 応 用 研 究 を 推 進 画 像 処 理 脳 情 報 学 FAIS Cell/B.E. 研 究 拠 点 Software Document Forum Cell/B.E.オンライン 環 境 日 本 経 済 新 聞 (2007/10/30) 9
STI Center of Competence (CoC) at Georgia Tech 米 国 ジョージア 工 科 大 学 に ソニー 東 芝 IBMが 支 援 し て STI Center of Competence (CoC( CoC) 研 究 拠 点 を 開 設 情 報 共 有 コミュニティサイトCellBuzz wiki http://wiki.cc.gatech.edu/cellbuzz ワークショップ プログラミングワークショップを2007 年 2 6 月 開 催 引 用 元 : http://www.cc.gatech.edu/news/college-of of-computing-designated-first-sti-center-of-competence-focused-on-cell-processor 10
Trend of HW Solution to SW Solution (H.265) 1080i HW MPEG-2, MPEG-4, H.264, DivX, VC-1, On2 True Motion VP6, RealVideo, Indeo, MJPEG, Theora, XVD, etc. SW 720p solution solution D1(SD) QVGA Year 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 Node 65nm 45nm 32nm 22nm 11
SpursEngineとCell/B.E.の 比 較 Cell/B.E.と と 共 通 のプロセッサコアSPE SPEを4 基 内 蔵 するコプロセッサ Cell/B.Eと と 比 較 して 映 像 処 理 の 性 能 対 消 費 電 力 を 大 幅 に 改 善 Cell/B.E. SPE SPE 映 像 認 識 SPE SPE 映 像 処 理 Cell/B.E.のDNA 柔 軟 性 と 高 性 能 SPE SPE SPE SPE 映 像 認 識 映 像 処 理 SPE SPE SPE SPE Decode Encode 定 型 処 理 ハード 化 低 消 費 電 力 MPEG2 DEC H.264 DEC MPEG2 ENC H.264 ENC XIO XDR PPE Linux FlexIO IO Bridge コプロセッサ 化 ホスト 汎 用 化 XIO XDR PCI Express Host Linux Windows 12
SoC Platform based on Venezia Sub-system MeP Base (Current) MeP SoC SoC Bus Memory Bridge Controller, (Memory Host Controller) I/F, etc Venezia Base MeP SoC Bus Memory Bridge Controller, (Memory Controller) Host I/F, etc Host CPU (ARM, MIPS, Etc.) DMAC Peripheral I/O Bus Bridge Global Bus Video Video CODEC MeP task Module MeP 0 Module Filter FIlter MeP MeP task Module 1 Module Audio MeP Audio Module MeP task2 Module 2 HW Module Host CPU (ARM, MIPS, Etc.) DMAC Peripheral I/O Bus Bridge Global Bus Venezia Sub-system Filter task IVC2 IVC2 Video task Audio task... Video thread Filter thread Video thread Video thread Video thread Filter thread Audio thread Filter thread Video thread Audio thread Video thread Filter threadfilter thread Filter thread... JTAG Debug I/F Module JTAG Debug I/F Module 13
今 後 の 展 開 プログラムモデルを 変 えないマルチコア,メニーコアは 今 後 も 続 く シングルコアに 戻 る 事 は 無 い サーバ, PCなどはこの 方 向 新 しいプログラムモデルにより, 性 能 重 視 のヘテロコアが 増 える 新 しいプログラムモデルを 使 いこなせれば, 性 能 は 飛 躍 的 に 上 がる アカデミアへの 期 待 の 大 きいところ 一 方 でHWで HWとの 融 合 を 目 指 すSpursEngineす SpursEngine,Veneziaのような 試 みが 増 える 効 率 の 良 いハードウエアの 置 き 換 えを 目 指 し, ソフトウエアの 最 適 化 と, 専 用 ハードウエア,リコンフィギャラブルアーキテク チャの 組 み 合 わせで, 消 費 電 力, コストの 最 適 化 を 図 る やわらかいハードウエアを 目 指 して 新 しいプログラミングモデルと, 消 費 電 力 などの 効 率 化 で SOCの 時 代 を 生 き 抜 き ソフトウエアの 時 代 への 供 えを 作 る 事 が 重 要 14