Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Size: px

Start display at page:

Download "Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments"

かんじいなくら
7 years ago
Views:

1 加藤真平計算機アーキテクチャ特論計算機アーキテクチャ特論後半第 1 回最先端アーキテクチャのトレンド本資料は授業用です無断で転載することを禁じます講師加藤真平

2 前半の趣旨 : 並列化プログラミング for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } シングルプロセッサマルチプロセッサ x[0]=a[0]+b[0]; x[1]=a[1]+b[1]; x[2]=a[2]+b[2]; x[n-1]=a[n-1]+b[n-1]; シングルプロセッサ func1(); func2(); funcn(); マルチプロセッサ func1(); func2(); func3(); funcn();

3 後半の趣旨 : 並列アーキテクチャ Network NIC NIC NIC NIC Flash Memory Memory Memory Memory CPU Many Cores Many Cores GPU CPU

講師の紹介加藤真平講師 IB 電子情報館南棟 491 号室 shinpei@is.nagoya-u.ac.

4 講師の紹介加藤真平講師 IB 電子情報館南棟 491 号室専門分野サイバーフィジカルシステムスーパーコンピュータクラウドコンピューティング組込みシステムオペレーティングシステム計算機アーキテクチャ

5 講義内容と成績評価講義内容 Very Long Instruction Word (VLIW) Simultaneous Multithreading (SMT) Chip Multiprocessing (CMP) Graphics Processing Unit (GPU) Many Integrated Core (MIC) 成績評価各講義の理解度クイズ ( 出席点含む ) レポートは未定 ( 出席率による )

6 今日の講義並列アーキテクチャの使用事例並列アーキテクチャの概要 VLIW SMT CMP GPU MIC 理解度クイズ

7 iphone 5 (Mobile Device) ARM Cortex-A15 (CMP) NVIDIA Tegra 3 (GPU)

8 MacBook Air (Laptop) Intel Nehalem (CMP&SMT)

9 DELL PowerEdge (Workstation) Intel Nehalem-EX (CMP&SMT) CPU CPU L3 Cache CPU CPU CPU CPU L3 Cache CPU CPU

10 Titan (Supercomputer) AMD Interlagos (CMP) NVIDIA Kepler GK110 (GPU)

11 Stampede (Supercomputer) Intel Nehalem-EX (CMP) Intel MIC (GPU)

12 Sequoia (Supercomputer) IBM BlueGene/Q (CMP)

13 津波シミュレーション ( ロスアラモス国立研究所 & ワシントン大学 )

14 並列アーキテクチャのトレンド VLIW SMT CMP GPU MIC ざっと見ていきましょう! ( 詳細は来週以降に説明します )

15 その前になぜ並列アーキテクチャが生まれたのか? ちょっと歴史を振り返りましょう!

基本的には4004とほぼ同じ開発のきっかけは科学技術計算用 LSI ( 日本の精工舎 ) 1974 年マイクロプロセッサ 8080 約 6,000トランジスタを使用 ( プロセステクノロジ6μm) 8008 動作周波数は2MHz 世界最初のパーソナル

16 九州大学井上弘士先生の講義のスライドよりインテルマイクロプロセッサの歴史 1971 年世界最初のマイクロプロセッサ 4004 データ語長は4ビット約 2,300トランジスタを使用 ( プロセステクノロジ10μm) 動作周波数は108KHz 46 種類の命令開発のきっかけは電卓計算用 LSI ( ビジコン社 ) 年世界最初の8ビットマイクロプロセッサ 8008 約 3,500トランジスタを使用 ( プロセステクノロジ10μm) 動作周波数は200KHz 基本的には4004とほぼ同じ開発のきっかけは科学技術計算用 LSI ( 日本の精工舎 ) 1974 年マイクロプロセッサ 8080 約 6,000トランジスタを使用 ( プロセステクノロジ6μm) 8008 動作周波数は2MHz 世界最初のパーソナルコンピュータとして知られるAltair(MITS) に搭載 1978 年 16ビットマイクロプロセッサ 8016 約 29,000トランジスタを使用 ( プロセステクノロジ3μm) 動作周波数は5MHz( 後に8MHz 10MHz 版が登場 ) 1MBのメモリ空間を扱えるようになる ( これまでは64KB)

ビット対応の周辺機器やソフトが殆ど存在しない 81 年に IBM 最初のパソコン IBM PC に搭載されるマイクロソフトが開発した発の OS

17 九州大学井上弘士先生の講義のスライドよりインテルマイクロプロセッサの歴史 19?? 年 8016 のデータパスを 8 ビットに縮めた 8088 開発の理由複雑な内部構造のため処理性能が急激に低下 16 ビット対応の周辺機器やソフトが殆ど存在しない 81 年に IBM 最初のパソコン IBM PC に搭載されるマイクロソフトが開発した発の OS (PC-DOS) IBM インテルマイクロソフトが終結した IBM PC が大ヒット 1982 年マイクロプロセッサ約 134,000 トランジスタを使用 ( プロセステクノロジ 1.5μm) 動作周波数は 6MHz( 後に 8/10/12/16MHz が登場 ) PGA パッケージを採用現在の DOS/V パソコンの原型である IBM PC/AT に採用される 1985 年 32 ビットマイクロプロセッサ約 275,000 トランジスタを使用 ( プロセステクノロジ?μm) 動作周波数は 12/16/20MHz

九州大学井上弘士先生の講義のスライドよりインテルマイクロプロセッサの歴史 1989 年キャッシュ

命令キャッシュ (8KB) と浮動小数点演算を内臓 5 段の命令パイプライン 1991 年 50MHz

で異なる周波数 1993 年マイクロプロセッサ Pentium I586 ではなくギリシャ語で 5

18 九州大学井上弘士先生の講義のスライドよりインテルマイクロプロセッサの歴史 1989 年キャッシュメモリを搭載したマイクロプロセッサ約 275,000 トランジスタを使用 ( プロセステクノロジ 1.0μm) 動作周波数は 25MHz( 当時 i386 は 33MHz) 1990 年 5 月には 33MHz 命令キャッシュ (8KB) と浮動小数点演算を内臓 5 段の命令パイプライン 1991 年 50MHz のマイクロプロセッサ i486dx i486dx2 にて内部 (50MHz) と外部 (25MHz) で異なる周波数 1993 年マイクロプロセッサ Pentium I586 ではなくギリシャ語で 5 を意味する Pent にラテン語系名詞語尾の ium を付けて Pentium の名称を作り出す並列度 2 のスーパスカラーアーキテクチャ 16KB の L1 キャッシュ動作周波数は 60/66MHz i486 Pentium

九州大学井上弘士先生の講義のスライドよりインテルマイクロプロセッサの歴史 199?

MMX Pentium 1 命令で複数データを同時に処理 57 個の新しい命令を追加プロセス

35μm 動作周波数は 166/233MHz 1997 年マイクロプロセッサ PentiumII

19 九州大学井上弘士先生の講義のスライドよりインテルマイクロプロセッサの歴史 199? 年 L2 キャッシュを搭載したマイクロプロセッサ PentiumPro 256KB の L2 キャッシュを内臓プロセステクノロジ 0.8μm~0.35μm 動作周波数は 150/166/180/200MHz 1997 年マルチメディア命令をサポート MMX Pentium 1 命令で複数データを同時に処理 57 個の新しい命令を追加プロセステクノロジ 0.35μm 動作周波数は 166/233MHz 1997 年マイクロプロセッサ PentiumII (PentiumPro を改良 ) 512KB の L2 キャッシュを基板上 ( 別チップ ) に実装し同一パッケージに搭載動作周波数向上と低コスト化のため MMX 命令プロセステクノロジ 0.35μm 動作周波数は 233~450MHz PentiumPro Pentium2

九州大学井上弘士先生の講義のスライドよりインテルマイクロプロセッサの歴史 1998 年

20 九州大学井上弘士先生の講義のスライドよりインテルマイクロプロセッサの歴史 1998 年ローエンド向けマイクロプロセッサ Celeron プロセステクノロジ0.25μm 動作周波数は300~553MHz 1999 年マイクロプロセッサ PentiumIII MMXに更に70 個のSIMD 命令を追加プロセステクノロジ0.25μm 動作周波数は450~600MHz その後 0.18μmプロセスで1.1GHz 2000 年マイクロプロセッサPentium4 プロセステクノロジ0.18μm 4000 万個のトランジスタ動作周波数は1.5GHz PentiumIII Pentium4

21 M Tran. 九州大学井上弘士先生の講義のスライドよりプロセッサの回路規模はどの程度? ( トランジスタ数の観点から ) 半導体集積度は 3 年で約 4 倍に!( ムーアの法則 ) 1000 インテルプロセッサの場合 100 Pentium 4 Itanium Pentium II 10 Pentium III Pentium

22 Frequency (MHz) 九州大学井上弘士先生の講義のスライドより動作周波数の観点から ( プロセッサはどの程度高速動作する?) プロセッサの動作周波数は 3 年で約 2 倍に! インテルプロセッサの場合 Pentium Pentium III Pentium II Pentium

23 SPEC INT 九州大学井上弘士先生の講義のスライドより性能の観点から ( プロセッサはどの程度高性能なのか?) プロセッサの性能は 3 年で約 3~4 倍に! インテルプロセッサの場合 Pentium Pentium III Pentium II Pentium

九州大学井上弘士先生の講義のスライドよりプロセッサチップはこの 34 年間で 1971 年 4 ビットの 1 チップマイクロプロセッサ 4004 プロセステクノロジ :10μm トランジスタ数 : 約 2,300 動作周波数 :108KHz トランジスタ数は 10 万倍以上! 動作周波数は 4 万倍以上!

24 九州大学井上弘士先生の講義のスライドよりプロセッサチップはこの 34 年間で 1971 年 4 ビットの 1 チップマイクロプロセッサ 4004 プロセステクノロジ :10μm トランジスタ数 : 約 2,300 動作周波数 :108KHz トランジスタ数は 10 万倍以上! 動作周波数は 4 万倍以上! 2005 年 9 個のコアを搭載したチップマルチプロセッサ Cell 人間の脳のニューロン数 >1,000 億トランジスタ集積度は 3 年で 4 倍 2020 年にはトランジスタ数 >2,000 億プロセステクノロジ :90nm トランジスタ数 : 約 2 臆 3400 万動作周波数 : 最大 4.6GHz 出展 : Sony

25 Power (W) 九州大学井上弘士先生の講義のスライドよりおいしい話ばかりではない! ~ 消費電力の観点から ~ プロセッサの消費電力は 3 年で約 3 倍に! 1000 インテルプロセッサの場合 Pentium Pentium III Pentium II Pentium

26 九州大学井上弘士先生の講義のスライドより 26 プロセッサの消費電力はどのくらい? F. Pollack: New Microarchitecture Challenges in the Coming Generations of CMOS Process Technologies (MICRO99)

27 九州大学井上弘士先生の講義のスライドより 27 その結果, どうなる? *Image Next Generation Burn-in & Test System for Athlon Microprocessors : Hybrid Burn-in, Mark Miller, Burn-in & Test Socket Workshop, 2001

28 プロセッサの動作周波数

29 並列アーキテクチャの時代に突入 ~ マルチスレッドマルチコアメニーコア ~

30 基礎知識パイプライン処理命令 A 命令 B 命令 C 命令 D IF ID EX MEM WB IF ID EX MEM WB IF ID EX MEM WB IF ID EX MEM WB スーパースカラ方式命令 A 命令 B 命令 C 命令 D 命令 E 命令 F IF ID EX MEM WB IF ID EX MEM WB IF ID EX MEM WB IF ID EX MEM WB IF ID EX MEM WB IF ID EX MEM WB 時間

31 VLIW: Very Long Instruction Word 命令 A 命令 B 命令 C 命令 D IF ID EX MEM WB EX EX IF ID EX MEM WB EX EX IF ID EX MEM WB EX EX IF ID EX MEM WB EX EX 1 つの命令に複数の命令 ( 固定長 ) を詰め込む方式よって命令のワード長がとても長くなる (Very Long)

32 スーパースカラと VLIW の限界命令レベル並列性 Instruction Level Parallelism (ILP) プログラムの中で複数同時に実行できる命令の数には限界がある ( ハザードなど )

33 クロックサイクル SMT: Simultaneous Multithreading 複数のプログラムから並列性を抽出命令発行スロット命令発行スロット命令発行スロットスーパースカラ細粒度マルチスレッディング + スーパースカラ SMT

34 SMT の限界スレッドレベル並列性 Thread Level Parallelism (ILP) 複数のプログラムがハードウェア資源を共有しパイプライン上で競合する

35 SMT の限界スレッド間の競合が発生 Thread Thread Intel ではハイパースレッディングとも呼ぶ Processor Cache Interconnect (PCIバスなど) Main Memory I/O

36 CMP: Chip Multiprocessing コアごとに資源分割 Processor Core Processor Core Cache Cache Processor Cache 一般的にはマルチコアと呼ばれている Interconnect (PCIバスなど) Main Memory I/O

37 マルチコアの登場により速くて大きい 1 つプロセッサではなく遅くて小さい複数のプロセッサが好まれる時代へ

38 GPU: Graphics Processing Unit NVIDIA Kepler GeForce GTX small cores L1 L1 L1 L1 L1 L1 L1 L2 Cache Video Memory CPU Main Memory

39 MIC: Many Integrated Core Intel MIC Knights Corner 64 big cores X86 Vec L1 Cache X86 Vec L1 Cache X86 Vec L1 Cache L2 Cache L2 Cache L2 Cache Interprocessor Network Memory & I/O Interface CPU Main Memory

40 GFLOPS GFLOPS / Watt 42 CPU と GPU の性能比較単精度浮動小数点性能 GTX NVIDIA GPU 1600 Intel CPU GTX 580 GTX GTX 285 GTX GTX 8800 GTX GTX E4300 E6850 Q9650 E X XE /3/4 2007/9/ /3/ /10/9 2012/4/ NVIDIA GPU Intel CPU 電力性能 GTX GTX GT GTX 285 GTX GTX GTX E GTX Q9650 E4300 E6850 X XE /3/4 2007/9/ /3/ /10/9 2012/4/21

41 2012 年 11 月のスパコンランキング CMP GPU CMP CMP (SMT) CMP CMP CMP CMP MIC CMP GPU CMP CMP

42 システムとプロセッサの市場シェアプロセッサシステム

43 GPU と MIC の台頭

44 電力と性能電力電力 ( 予想 ) 性能 / 電力

45 この講義の方針 1. 目的ごとに異なる計算機システムおよびアプリケーションに適したアーキテクチャを選定できる知識を育む 2. 計算機アーキテクチャの研究室を有する大学院のような講義内容にはしない

46 参考文献 VLIW Software pipelining: An effective scheduling technique for VLIW machines Lam et. al., PLDI 1988 SMT Simultaneous multithreading: maximizing on-chip parallelism Tullsen et. al., ISCA 1995 CMP The case for a single-chip multiprocessor Olukotun et. al., ASPLOS 1996 GPU NVIDIA Tesla: A Unified Graphics and Computing Architecture Lindholm et. al., IEEE Micro 2008 MIC Larrabee: A Many-Core x86 Architecture for Visual Computing Seiler et. al., SIGGRAPH 2008

47 理解度クイズ当日配布

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments 計算機アーキテクチャ第 11 回マルチプロセッサ本資料は授業用です無断で転載することを禁じます名古屋大学大学院情報科学研究科准教授加藤真平デスクトップジョブレベル並列性スーパーコンピュータ並列処理プログラムプログラムの並列化 for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } プログラムの並列化 x[0] = a[0] + b[0];