Microsoft PowerPoint - Lecture ppt

Size: px

Start display at page:

Download "Microsoft PowerPoint - Lecture ppt"

しほこたけすえ
4 years ago
Views:

1 2007 年前学期 Bus Network 計算機アーキテクチャ第一 (E) Bidirectional network switch Processor node 12. チップマルチプロセッサ, その他吉瀬謙二計算工学専攻 W641 講義室木曜日 13:20-14:50 N processors, 1 switch ( ), 1 link (the bus) Only 1 simultaneous transfer at a time NB (best case) = link (bus) bandwidth * 1 BB (worst case) = link (bus) bandwidth * 1 Ring Network Crossbar (Xbar) Network N processors, N switches, 2 links/switch, N links N simultaneous transfers NB (best case) = link bandwidth * N BB (worst case) = link bandwidth * 2 If a link is as fast as a bus, the ring is only twice as fast as a bus in the worst case, but is N times faster in the best case N processors, N 2 switches (unidirectional), 2 links/switch, N 2 links N simultaneous transfers NB = link bandwidth * N BB = link bandwidth * N/2 2D and 3D Mesh/Torus Network A Typical I/O System ( 代表的な入出力装置 ) Processor Interrupts Cache Mesh Torus Memory - I/O Bus N processors, N switches, 2, 3, 4 (2D torus) or 6 (3D torus) links/switch, 4N/2 links or 6N/2 links Main Memory I/O I/O I/O N simultaneous transfers NB = link bandwidth * 4N or link bandwidth * 6N Disk Disk Graphics Network BB = link bandwidth * 2 N 1/2 or link bandwidth * 2 N 2/3

Interrupt-Driven Input Direct Memory Access (DMA) Processor Memory Receiver Keyboard 1. input interrupt 2.1 save state 2.

3 service interrupt input interrupt service routine For high-bandwidth devices (like disks) interruptdriven I/O would consume a lot

processor There may be multiple DMA devices in one system Processor Cache Interrupts Memory - I/O Bus memory Main Memory I/O I/O

先端マイクロプロセッサ Intel Montecito 先端マイクロプロセッサ Intel Core 2 Duo Core2 Duo (2006 7/27 発表 ) 65nmプロセス 143mm 2 291M トランジスタ 65W Core Micro

2 Interrupt-Driven Input Direct Memory Access (DMA) Processor Memory Receiver Keyboard 1. input interrupt 2.1 save state 2.2 jump to interrupt service routine 2.4 return to user code add sub and or beq lbu sb... jr user program 2.3 service interrupt input interrupt service routine For high-bandwidth devices (like disks) interruptdriven I/O would consume a lot of processor cycles DMA the I/O controller has the ability to transfer data directly to/from the memory without involving the processor There may be multiple DMA devices in one system Processor Cache Interrupts Memory - I/O Bus memory Main Memory I/O I/O I/O Disk Disk Graphics Network マイクロプロセッサプロセッサ出荷年トランジスタ数 ,250 出典 : フリー百科事典ウィキペディア (Wikipedia), Intel ミュージアム先端マイクロプロセッサ Intel Montecito 先端マイクロプロセッサ Intel Core 2 Duo Core2 Duo (2006 7/27 発表 ) 65nmプロセス 143mm 2 291M トランジスタ 65W Core Micro Architecture Intelligent power capability Micro-Fusion RISC vs CISC Advanced Smart Cache 2005 年 11 月 JEITA 情報システム技術シンポジウム, 次世代計算機システムの中核技術を探るの資料から, データは ISSCC-2005 Intel Developer Forum

先端マイクロプロセッサ Intel Core 2 Duo 先端マイクロプロセッサ IBM BlueGene/L Advanced Smart Cache Intel Developer Forum 2005 年 11 月 JEITA

Engine ヘテロジニアスチップマルチプロセッサ PowerPC Processor Element (PPE) 1 個 Synergistic Processor Element (SPE) 8 個 PlayStation3

com (Japan) から Synergistic Processor Element (SPE) 128bitのSIMD 演算インオーダー命令発行 2 命令同時発行パイプと命令アドレスの Even/Oddがそろっている時のみ

SIMDローテート Register 128bit 128Entry Evenパイプ実行ユニット Oddパイプ実行ユニット Instruction Issue ロードストアチャネル命令 128bitシフト 128bitローテート

発表スライド ( 吉瀬, 佐々木 ) からの引用 EIB Element Interconnect Bus 先端マイクロプロセッサ Cell Broadband Engine ピーク性能 1 サイクルで積和演算を 1 回実行できる演算器

3 先端マイクロプロセッサ Intel Core 2 Duo 先端マイクロプロセッサ IBM BlueGene/L Advanced Smart Cache Intel Developer Forum 2005 年 11 月 JEITA 情報システム技術シンポジウム, 次世代計算機システムの中核技術を探るの資料から, データは ISSCC-2005 先端マイクロプロセッサ Cell Broadband Engine 先端マイクロプロセッサ Cell Broadband Engine ヘテロジニアスチップマルチプロセッサ PowerPC Processor Element (PPE) 1 個 Synergistic Processor Element (SPE) 8 個 PlayStation3 の写真は PlaySation.com (Japan) から Synergistic Processor Element (SPE) 128bitのSIMD 演算インオーダー命令発行 2 命令同時発行パイプと命令アドレスの Even/Oddがそろっている時のみキャッシュを持たない load/storeの対象は 256KBのLocal Storeのみ DMA 転送 SPE SPU 論理演算 Local Store 整数加減算 (256KByte) 浮動小数点演算整数乗算 SIMDシフト SIMDローテート Register 128bit 128Entry Evenパイプ実行ユニット Oddパイプ実行ユニット Instruction Issue ロードストアチャネル命令 128bitシフト 128bitローテートシャッフル演算分岐命令 Channel Interface Memory Flow Diagram created by IBM to promote the CBEP, 2005 WIKIPEDIAより SWoPP2007 発表スライド ( 吉瀬, 佐々木 ) からの引用 EIB Element Interconnect Bus 先端マイクロプロセッサ Cell Broadband Engine ピーク性能 1 サイクルで積和演算を 1 回実行できる演算器 (2 FLOP/cycle) SIMD 構成で,SPE あたりの並列性 4 チップ内の SPE の数 8 動作周波数 4GHz =256 GFLOPS 積和演算 SIMD 化マルチコア動作周波数ペンティアムは 8GFLOPS 程度 IEEE Micro, Cell Multiprocessor Communication Network: Built for Speed 性能を引き出す鍵は DMA 転送とローカルストアの使い方,SIMD 化, 並列化...

メニーコアへの流れ, ムーアの法則プロセッサ出荷年トランジスタ数 4004 1971 2,250 8008 1972 2,500 8080 1974 5,000 8086 1978 29,000 286 1982 120,000 386 processor 1985 275,000 486 DX processor

: Intel 社, http://www.intel.com/research/silicon/mooreslaw.

MICRO-36, 2003 The Optimal Useful Logic Depth Per Pipeline Stage is 6-8 FO4, International Symposium on Computer Architecture (ISCA-2002) pp.

4 メニーコアへの流れ, ムーアの法則プロセッサ出荷年トランジスタ数 , , , , , processor , DX processor ,180,000 Pentium processor ,100,000 Pentium II processor ,500,000 Pentium III processor ,000,000 Pentium 4 processor ,000,000 出典 : Intel 社, メニーコアへの流れ, 配線遅延の増大メニーコアへの流れ, 動作周波数の劇的向上の終焉 ( 動作周波数 ) 10 年で 300 倍の動作周波数の向上 Kerry Bernstein, Caution Flag Out Microarchitecture s Race for Power Performance, MICRO-36, 2003 The Optimal Useful Logic Depth Per Pipeline Stage is 6-8 FO4, International Symposium on Computer Architecture (ISCA-2002) pp マルチコア (2 個 ~10 個程度 ) からメニーコア ( 多数 ) へマルチコア (2 個 ~10 個程度 ) からメニーコア ( 多数 ) へ数世代の RISC プロセッサのサイズ Single-ISA Heterogeneous Multi-Core Architectures: The Potential for Processor Power Reduction, MICRO Platform 2015: Intel Processor and Platform Evolution for the Next Decade

Raw プロセッサとの比較 MIT Raw タイルプロセッサのパイオニア MIT

限られたピンの有効利用同じ構成のタイルを16 個敷きつめる構成 MIPSライクな

コンパイラによる命令の割り当て MIT Raw プロトタイプシステム 2002 年の

5 タイルアーキテクチャ小さいサイズの機能ブロック ( タイル ) を規則的に敷きつめることで高速なプロセッサを構成する方式タイルのサイズを小さくすることで, タイルの内部で発生する配線遅延の問題を軽減近くに配置されているタイル間でのみデータの送受信をおこなうことで, タイル間の通信遅延を軽減同じ構成のタイルを複製して, 設計と検証の作業の簡略化スーパースカラの Pentium 4 プロセッサと, タイルアーキテクチャの MIT Raw プロセッサとの比較 MIT Raw タイルプロセッサのパイオニア MIT Raw sample assembly 豊富な並列資源の活用, 配線遅延の克服, 限られたピンの有効利用同じ構成のタイルを16 個敷きつめる構成 MIPSライクな compute pipeline Static router, 静的に決まるネットワーク, 隣接したタイルにデータを送信 Dynamic router, 動的に宛先を指定して利用するネットワーク MIT Raw RawCC コンパイラによる命令の割り当て MIT Raw プロトタイプシステム 2002 年の 10 月に,IBM から 120 個の Raw chip (180nm, ASIC) を受け取る. 1 個の Raw chip を搭載するマザーボードを試作 Michael Taylor,, Evaluation of the Raw Microprocessor: An Exposed-Wire-Delay Architecture for ILP and Streams, The 31st Annual International Symposium on Computer Architecture, June 2004.

6 MIT Raw 様々なアーキテクチャとの性能比較 Pentium 3 の性能を基準とした速度向上率. Raw は, 様々なアプリケーションを動作可能. 多くのアプリケーションで,Raw はベストに近い性能を達成する. Michael Taylor,, Evaluation of the Raw Microprocessor: An Exposed-Wire-Delay Architecture for ILP and Streams, The 31st Annual International Symposium on Computer Architecture, June 2004.

SIMD アクセラレータ IMAP 43 FIT2006 イベント企画これからが面白いプロセッサアーキテクチャ FIT2006 イベント企画これからが面白いプロセッサアーキテクチャ

この例では, 左の4 個のコア ( 赤色 ) が融合して 8-way のコアとして動作している. 2 個のコア ( 緑色 ) が融合して 4- way として動作している.

コアから FMU, FMU からコアへの通信レイテンシ ( ラウンドトリップ ) は 2 サイクル.

i8 Core Fusion: Accommodating Software Diversity in Chip Multiprocessors, The 34th International

8 SIMD アクセラレータ IMAP 43 FIT2006 イベント企画これからが面白いプロセッサアーキテクチャ FIT2006 イベント企画これからが面白いプロセッサアーキテクチャコアフュージョンのコンセプトコアフュージョン, フロントエンドと集団命令フェッチ 8 個のコアによるチップの例それぞれのコアは 2-way (2-issue). この例では, 左の4 個のコア ( 赤色 ) が融合して 8-way のコアとして動作している. 2 個のコア ( 緑色 ) が融合して 4- way として動作している. 右の2 個のコアは, それぞれ 2- way として動作している. Fetch management unit (FMU) が集団フェッチを管理する. コアの情報を受け取り, 必要な指令を送る. コアから FMU, FMU からコアへの通信レイテンシ ( ラウンドトリップ ) は 2 サイクル. Core 0 Core 1 Core 2 Core 3 i0 i1 i2 i3 i4 i5 i6 i7 Core 0 Core 1 Core 2 Core 3 i8 i9 i10 i11 jump i8 Core Fusion: Accommodating Software Diversity in Chip Multiprocessors, The 34th International Symposium on Computer Architecture (ISCA), June 2007 Core Fusion: Accommodating Software Diversity in Chip Multiprocessors, The 34th International Symposium on Computer Architecture (ISCA), June 2007

評価環境評価結果, 逐次プログラムにおける性能比較過去の研究から,2-way と比較して,4-way のコアのエリアは1.9 倍, 6-wayのコアのエリアは3.

FineGrain-2i は 9 個のコア CoreFusion は 8 個のコア Asymmetric-4i, Asymmetric-6i SPECINT Figure 7 FineGrain-2i の性能を1とした相対性能の比較逐次プログラムでは,

Core Fusion: Accommodating Software Diversity in Chip Multiprocessors, The 34th International Symposium on Computer Architecture (ISCA), June

2007-6i はステージが逐次 (stage0) で有利, 進むに従って不利. -2i は並列化された場合に有利, 逐次の部分で不利 CoreFusion はすべての領域で, 高い性能を示す. 扱いやすい.

9 評価環境評価結果, 逐次プログラムにおける性能比較過去の研究から,2-way と比較して,4-way のコアのエリアは1.9 倍, 6-wayのコアのエリアは3.5 倍 CoarseGrain-4i は 4-way のコアを4 個 CoarseGrain-6i は 6-way のコアを 2 個コアフュージョンのために追加したエリアは, トータルで 8.64mm 2 コアの半分程度なので, 保守的に1 個分程度と見積もる. FineGrain-2i は 9 個のコア CoreFusion は 8 個のコア Asymmetric-4i, Asymmetric-6i SPECINT Figure 7 FineGrain-2i の性能を1とした相対性能の比較逐次プログラムでは, コアを強力にすることで性能向上 6-issue で 47% の性能向上 CoreFusion は 30% の性能向上, 4-issue の 27% よりも高い性能逐次プログラムでは 2-issue の性能が最も悪い. Core Fusion: Accommodating Software Diversity in Chip Multiprocessors, The 34th International Symposium on Computer Architecture (ISCA), June 2007 Core Fusion: Accommodating Software Diversity in Chip Multiprocessors, The 34th International Symposium on Computer Architecture (ISCA), June 2007 並列アプリケーションの評価インクリメンタルに並列化した場合コアの数が多い FineGrain-2i が最も高い性能を達成する. CoarseGrain-6i の性能が最も低い. CoreFusion は ( ベストではないが ) 高い性能. Core Fusion: Accommodating Software Diversity in Chip Multiprocessors, The 34th International Symposium on Computer Architecture (ISCA), June i はステージが逐次 (stage0) で有利, 進むに従って不利. -2i は並列化された場合に有利, 逐次の部分で不利 CoreFusion はすべての領域で, 高い性能を示す. 扱いやすい. Core Fusion: Accommodating Software Diversity in Chip Multiprocessors, The 34th International Symposium on Computer Architecture (ISCA), June 2007 Cell スピードチャレンジ 2007 における試み ( 規定課題 ) 主催 : 協賛 : 情報処理学会計算機アーキテクチャ研究会情報処理学会組込みシステム研究会情報処理学会ハイパフォーマンスコンピューティング研究会東芝セミコンダクター社株式会社ソニーコンピュータエンタテインメント日本アイビーエム株式会社

1 要素はキーとデータのリストからなるキーとデータは単精度浮動小数点実数図ではリスト長は 7,

data[3] data[4] data[5] data[6] 4byte 4byte 4byte

スピードチャレンジ参加チーム分布規定課題部門決勝予選ラウンドの合計北海道 1 宮城県 1 茨城県 3

10 プログラミング例 Cell スピードチャレンジにおける試みちょっと複雑なソーティングをの上でどれだけ高速に解くことができるか. 1 要素はキーとデータのリストからなるキーとデータは単精度浮動小数点実数図ではリスト長は 7, リスト長は可変でパラメータまずデータのリストからキーを計算する! データの最大値, あるいはデータの 2 乗和要素数 N, リスト長 M, キーの計算方法で様々な問題パターン要素 key data[0] data[1] data[2] data[3] data[4] data[5] data[6] 4byte 4byte 4byte 4byte 4byte 4byte 4byte 4byte 要素ソーティング対象のデータ Cell スピードチャレンジ参加チーム分布規定課題部門決勝予選ラウンドの合計北海道 1 宮城県 1 茨城県 3 千葉県 1 東京都 17 神奈川県 1 新潟県 1 石川県 1 静岡県 1 愛知県 4 京都府 3 大阪府 2 兵庫県 2 岡山県 1 広島県 1 高知県 1 福岡県 2 宮崎県 1 沖縄県 1 44 チームの参加 3 ヶ月程度のプログラミング期間 25 チームがプログラムを提出

ソースコード (C 言語 ) の行数と実行回数 Cell スピードチャレンジ決勝ラウンドの結果ソースコードの行数 4500 4000 3500 3000 2500 2000 1500 1000 500 3285 1319 ソースコードの行数プログラムの実行回数 3703 3467 3437 1850 1447 1153

11 ソースコード (C 言語 ) の行数と実行回数 Cell スピードチャレンジ決勝ラウンドの結果ソースコードの行数ソースコードの行数プログラムの実行回数プログラムの実行回数 10 問を出題, それぞれの問題の得点の合計で順位赤色の部分は実行エラーあるいはタイムアウトマルチコアのプログラミングの難しさポイントを獲得した 11 チームの順位 0 Cell Broadband Engine Roadmap OpenMP on Cell 授業評価アンケート授業科目名計算機アーキテクチャ第一 (E) 科目コード : 7225 レポート提出方法 8 月 6 日 ( 午後 5 時 ) までに電子メールで提出 report@arch.cs.titech.ac.jp 電子メールのタイトル Computer Architecture Report ( 学籍番号 ) 電子メールの内容氏名, 学籍番号回答テキスト形式, あるいはPDFファイルを添付

レポート問題研究としてのプロセッサアーキテクチャ 1. プログラム go.txt におけるロードとストアのそれぞれの実行回数を測定せよ.( ヒント, ロードとストアの合計は 48384671) 2. ページサイズを2KBとする.2エントリ, ダイレクトマップ方式のTLB( アドレス変換バッファ ) のヒット率を測定するプログラム ( 変更点のみ ) と測定結果を示せ.

12 レポート問題研究としてのプロセッサアーキテクチャ 1. プログラム go.txt におけるロードとストアのそれぞれの実行回数を測定せよ.( ヒント, ロードとストアの合計は ) 2. ページサイズを2KBとする.2エントリ, ダイレクトマップ方式のTLB( アドレス変換バッファ ) のヒット率を測定するプログラム ( 変更点のみ ) と測定結果を示せ. エントリ数を 4, 8, 16, 32, 64 に変更した場合のヒット率を測定せよ. 3. ページサイズを2KBとする.2エントリ,2ウェイセットアソシアティブ方式の TLBのヒット率を測定プログラムと測定結果を示せ. 置き換えアルゴリズムはLRUとする. エントリ数を 4, 8, 16, 32, 64 に変更した場合のヒット率を測定せよ. 4. ページサイズを2KBとする.8, 16エントリ, フルアソシアティブ方式のTLBのヒット率を測定するプログラムと測定結果を示せ. 置き換えアルゴリズムは LRUとする. 5. 余裕があれば. TLB のヒット率の向上を目指す方式を考え, その効果を議論せよ. プロセッサアーキテクチャ (1) 何を作るの? 命令セット, プロセッサの機能, 構成 (2) どうやって作るの? アイデアを実現するアルゴリズム, 戦略, トレードオフ (3) 性能は? ソフトウェアシミュレータによる評価 FPGA を用いるプロトタイプシステムによる評価これから面白くなるプロセッサアーキテクチャ参考書背景潤沢なハードウェア資源制約動作周波数は抑えたい, 配線遅延からモジュール化作れること, 正しく動くこと, 使えること要求速い, 低消費電力 ( 低温 ), 高信頼, 低価格などコンピュータの構成と設計第 3 版パターソン & ヘネシー ( 成田光彰訳 ) 日経 BP 社 2006 コンピュータアーキテクチャ, 村岡洋一著, 近代科学社,1989 計算機システム工学, 富田真治, 村上和彰著, 昭晃堂,1988 コンピュータハードウヱア, 富田真治, 中島浩著, 昭晃堂,1995 計算機アーキテクチャ, 橋本昭洋著, 昭晃堂, 計算機アーキテクチャ What's Computer Architecture? Computer Architecture is the science and art of selecting and interconnecting hardware components to create computers that meet functional, performance and cost goals. Computer architecture is not about using computers to design buildings. アナウンス期末試験 7 月 26 日 ( 木 ) 13:20 本館 H121 教室講義スライド計算機アーキテクチャのホームページから 72

スライド 1

スライド 1 講義用の計算機の使い方計算機アーキテクチャ特論 (Advanced Computer Architectures) マルチコアプロセッサ吉瀬謙二計算工学専攻 kise _at_ cs.titech.ac.jp www.arch.cs.titech.ac.jp W831 講義室木曜日 9:00 10:30 ユーザ名 advance で serv.arch.cs.titech.ac.jp にログイン