Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Size: px
Start display at page:

Download "Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments"

Transcription

1 加藤真平計算機アーキテクチャ特論 計算機アーキテクチャ特論後半第 1 回最先端アーキテクチャのトレンド 本資料は授業用です 無断で転載することを禁じます 講師加藤真平

2 前半の趣旨 : 並列化プログラミング for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } シングルプロセッサ マルチプロセッサ x[0]=a[0]+b[0]; x[1]=a[1]+b[1]; x[2]=a[2]+b[2]; x[n-1]=a[n-1]+b[n-1]; シングルプロセッサ func1(); func2(); funcn(); マルチプロセッサ func1(); func2(); func3(); funcn();

3 後半の趣旨 : 並列アーキテクチャ Network NIC NIC NIC NIC Flash Memory Memory Memory Memory CPU Many Cores Many Cores GPU CPU

4 講師の紹介 加藤真平講師 IB 電子情報館南棟 491 号室 専門分野 サイバーフィジカルシステム スーパーコンピュータ クラウドコンピューティング 組込みシステム オペレーティングシステム 計算機アーキテクチャ

5 講義内容と成績評価 講義内容 Very Long Instruction Word (VLIW) Simultaneous Multithreading (SMT) Chip Multiprocessing (CMP) Graphics Processing Unit (GPU) Many Integrated Core (MIC) 成績評価 各講義の理解度クイズ ( 出席点含む ) レポートは未定 ( 出席率による )

6 今日の講義 並列アーキテクチャの使用事例 並列アーキテクチャの概要 VLIW SMT CMP GPU MIC 理解度クイズ

7 iphone 5 (Mobile Device) ARM Cortex-A15 (CMP) NVIDIA Tegra 3 (GPU)

8 MacBook Air (Laptop) Intel Nehalem (CMP&SMT)

9 DELL PowerEdge (Workstation) Intel Nehalem-EX (CMP&SMT) CPU CPU L3 Cache CPU CPU CPU CPU L3 Cache CPU CPU

10 Titan (Supercomputer) AMD Interlagos (CMP) NVIDIA Kepler GK110 (GPU)

11 Stampede (Supercomputer) Intel Nehalem-EX (CMP) Intel MIC (GPU)

12 Sequoia (Supercomputer) IBM BlueGene/Q (CMP)

13 津波シミュレーション ( ロスアラモス国立研究所 & ワシントン大学 )

14 並列アーキテクチャのトレンド VLIW SMT CMP GPU MIC ざっと見ていきましょう! ( 詳細は来週以降に説明します )

15 その前に なぜ並列アーキテクチャが生まれたのか? ちょっと歴史を振り返りましょう!

16 九州大学井上弘士先生の講義のスライドより インテル マイクロプロセッサの歴史 1971 年 世界最初のマイクロプロセッサ 4004 データ語長は4ビット 約 2,300トランジスタを使用 ( プロセス テクノロジ10μm) 動作周波数は108KHz 46 種類の命令 開発のきっかけは電卓計算用 LSI ( ビジコン社 ) 年 世界最初の8ビット マイクロプロセッサ 8008 約 3,500トランジスタを使用 ( プロセス テクノロジ10μm) 動作周波数は200KHz 基本的には4004とほぼ同じ 開発のきっかけは科学技術計算用 LSI ( 日本の精工舎 ) 1974 年 マイクロプロセッサ 8080 約 6,000トランジスタを使用 ( プロセス テクノロジ6μm) 8008 動作周波数は2MHz 世界最初のパーソナル コンピュータとして知られるAltair(MITS) に搭載 1978 年 16ビット マイクロプロセッサ 8016 約 29,000トランジスタを使用 ( プロセス テクノロジ3μm) 動作周波数は5MHz( 後に8MHz 10MHz 版が登場 ) 1MBのメモリ空間を扱えるようになる ( これまでは64KB)

17 九州大学井上弘士先生の講義のスライドより インテル マイクロプロセッサの歴史 19?? 年 8016 のデータパスを 8 ビットに縮めた 8088 開発の理由 複雑な内部構造のため処理性能が急激に低下 16 ビット対応の周辺機器やソフトが殆ど存在しない 81 年に IBM 最初のパソコン IBM PC に搭載される マイクロソフトが開発した発の OS (PC-DOS) IBM インテル マイクロソフトが終結した IBM PC が大ヒット 1982 年 マイクロプロセッサ 約 134,000 トランジスタを使用 ( プロセス テクノロジ 1.5μm) 動作周波数は 6MHz( 後に 8/10/12/16MHz が登場 ) PGA パッケージを採用 現在の DOS/V パソコンの原型である IBM PC/AT に採用される 1985 年 32 ビット マイクロプロセッサ 約 275,000 トランジスタを使用 ( プロセス テクノロジ?μm) 動作周波数は 12/16/20MHz

18 九州大学井上弘士先生の講義のスライドより インテル マイクロプロセッサの歴史 1989 年 キャッシュ メモリを搭載したマイクロプロセッサ 約 275,000 トランジスタを使用 ( プロセス テクノロジ 1.0μm) 動作周波数は 25MHz( 当時 i386 は 33MHz) 1990 年 5 月には 33MHz 命令キャッシュ (8KB) と浮動小数点演算を内臓 5 段の命令パイプライン 1991 年 50MHz のマイクロプロセッサ i486dx i486dx2 にて 内部 (50MHz) と外部 (25MHz) で異なる周波数 1993 年 マイクロプロセッサ Pentium I586 ではなく ギリシャ語で 5 を意味する Pent に ラテン語系名詞語尾の ium を付けて Pentium の名称を作り出す 並列度 2 のスーパスカラー アーキテクチャ 16KB の L1 キャッシュ 動作周波数は 60/66MHz i486 Pentium

19 九州大学井上弘士先生の講義のスライドより インテル マイクロプロセッサの歴史 199? 年 L2 キャッシュを搭載したマイクロプロセッサ PentiumPro 256KB の L2 キャッシュを内臓 プロセス テクノロジ 0.8μm~0.35μm 動作周波数は 150/166/180/200MHz 1997 年 マルチメディア命令をサポート MMX Pentium 1 命令で複数データを同時に処理 57 個の新しい命令を追加 プロセス テクノロジ 0.35μm 動作周波数は 166/233MHz 1997 年 マイクロプロセッサ PentiumII (PentiumPro を改良 ) 512KB の L2 キャッシュを基板上 ( 別チップ ) に実装し 同一パッケージに搭載 動作周波数向上と低コスト化のため MMX 命令 プロセス テクノロジ 0.35μm 動作周波数は 233~450MHz PentiumPro Pentium2

20 九州大学井上弘士先生の講義のスライドより インテル マイクロプロセッサの歴史 1998 年 ローエンド向けマイクロプロセッサ Celeron プロセス テクノロジ0.25μm 動作周波数は300~553MHz 1999 年 マイクロプロセッサ PentiumIII MMXに更に70 個のSIMD 命令を追加 プロセス テクノロジ0.25μm 動作周波数は450~600MHz その後 0.18μmプロセスで1.1GHz 2000 年 マイクロプロセッサPentium4 プロセス テクノロジ0.18μm 4000 万個のトランジスタ 動作周波数は1.5GHz PentiumIII Pentium4

21 M Tran. 九州大学井上弘士先生の講義のスライドより プロセッサの回路規模はどの程度? ( トランジスタ数の観点から ) 半導体集積度は 3 年で約 4 倍に!( ムーアの法則 ) 1000 インテル プロセッサの場合 100 Pentium 4 Itanium Pentium II 10 Pentium III Pentium

22 Frequency (MHz) 九州大学井上弘士先生の講義のスライドより 動作周波数の観点から ( プロセッサはどの程度高速動作する?) プロセッサの動作周波数は 3 年で約 2 倍に! インテル プロセッサの場合 Pentium Pentium III Pentium II Pentium

23 SPEC INT 九州大学井上弘士先生の講義のスライドより 性能の観点から ( プロセッサはどの程度高性能なのか?) プロセッサの性能は 3 年で約 3~4 倍に! インテル プロセッサの場合 Pentium Pentium III Pentium II Pentium

24 九州大学井上弘士先生の講義のスライドより プロセッサ チップはこの 34 年間で 1971 年 4 ビットの 1 チップ マイクロプロセッサ 4004 プロセス テクノロジ :10μm トランジスタ数 : 約 2,300 動作周波数 :108KHz トランジスタ数は 10 万倍以上! 動作周波数は 4 万倍以上! 2005 年 9 個のコアを搭載したチップ マルチプロセッサ Cell 人間の脳のニューロン数 >1,000 億 トランジスタ集積度は 3 年で 4 倍 2020 年にはトランジスタ数 >2,000 億 プロセス テクノロジ :90nm トランジスタ数 : 約 2 臆 3400 万 動作周波数 : 最大 4.6GHz 出展 : Sony

25 Power (W) 九州大学井上弘士先生の講義のスライドより おいしい話ばかりではない! ~ 消費電力の観点から ~ プロセッサの消費電力は 3 年で約 3 倍に! 1000 インテル プロセッサの場合 Pentium Pentium III Pentium II Pentium

26 九州大学井上弘士先生の講義のスライドより 26 プロセッサの消費電力はどのくらい? F. Pollack: New Microarchitecture Challenges in the Coming Generations of CMOS Process Technologies (MICRO99)

27 九州大学井上弘士先生の講義のスライドより 27 その結果, どうなる? *Image Next Generation Burn-in & Test System for Athlon Microprocessors : Hybrid Burn-in, Mark Miller, Burn-in & Test Socket Workshop, 2001

28 プロセッサの動作周波数

29 並列アーキテクチャの時代に突入 ~ マルチスレッド マルチコア メニーコア ~

30 基礎知識 パイプライン処理 命令 A 命令 B 命令 C 命令 D IF ID EX MEM WB IF ID EX MEM WB IF ID EX MEM WB IF ID EX MEM WB スーパースカラ方式 命令 A 命令 B 命令 C 命令 D 命令 E 命令 F IF ID EX MEM WB IF ID EX MEM WB IF ID EX MEM WB IF ID EX MEM WB IF ID EX MEM WB IF ID EX MEM WB 時間

31 VLIW: Very Long Instruction Word 命令 A 命令 B 命令 C 命令 D IF ID EX MEM WB EX EX IF ID EX MEM WB EX EX IF ID EX MEM WB EX EX IF ID EX MEM WB EX EX 1 つの命令に複数の命令 ( 固定長 ) を詰め込む方式 よって命令のワード長がとても長くなる (Very Long)

32 スーパースカラと VLIW の限界 命令レベル並列性 Instruction Level Parallelism (ILP) プログラムの中で複数同時に実行できる命令の数には限界がある ( ハザードなど )

33 クロックサイクル SMT: Simultaneous Multithreading 複数のプログラムから並列性を抽出 命令発行スロット命令発行スロット命令発行スロット スーパースカラ 細粒度マルチスレッディング + スーパースカラ SMT

34 SMT の限界 スレッドレベル並列性 Thread Level Parallelism (ILP) 複数のプログラムがハードウェア資源を共有し パイプライン上で競合する

35 SMT の限界 スレッド間の競合が発生 Thread Thread Intel ではハイパースレッディングとも呼ぶ Processor Cache Interconnect (PCIバスなど) Main Memory I/O

36 CMP: Chip Multiprocessing コアごとに資源分割 Processor Core Processor Core Cache Cache Processor Cache 一般的にはマルチコアと呼ばれている Interconnect (PCIバスなど) Main Memory I/O

37 マルチコアの登場により速くて大きい 1 つプロセッサではなく遅くて小さい複数のプロセッサが好まれる時代へ

38 GPU: Graphics Processing Unit NVIDIA Kepler GeForce GTX small cores L1 L1 L1 L1 L1 L1 L1 L2 Cache Video Memory CPU Main Memory

39 MIC: Many Integrated Core Intel MIC Knights Corner 64 big cores X86 Vec L1 Cache X86 Vec L1 Cache X86 Vec L1 Cache L2 Cache L2 Cache L2 Cache Interprocessor Network Memory & I/O Interface CPU Main Memory

40 GFLOPS GFLOPS / Watt 42 CPU と GPU の性能比較 単精度浮動小数点性能 GTX NVIDIA GPU 1600 Intel CPU GTX 580 GTX GTX 285 GTX GTX 8800 GTX GTX E4300 E6850 Q9650 E X XE /3/4 2007/9/ /3/ /10/9 2012/4/ NVIDIA GPU Intel CPU 電力性能 GTX GTX GT GTX 285 GTX GTX GTX E GTX Q9650 E4300 E6850 X XE /3/4 2007/9/ /3/ /10/9 2012/4/21

41 2012 年 11 月のスパコンランキング CMP GPU CMP CMP (SMT) CMP CMP CMP CMP MIC CMP GPU CMP CMP

42 システムとプロセッサの市場シェア プロセッサ システム

43 GPU と MIC の台頭

44 電力と性能 電力電力 ( 予想 ) 性能 / 電力

45 この講義の方針 1. 目的ごとに異なる計算機システムおよびアプリケーションに適したアーキテクチャを選定できる知識を育む 2. 計算機アーキテクチャの研究室を有する大学院のような講義内容にはしない

46 参考文献 VLIW Software pipelining: An effective scheduling technique for VLIW machines Lam et. al., PLDI 1988 SMT Simultaneous multithreading: maximizing on-chip parallelism Tullsen et. al., ISCA 1995 CMP The case for a single-chip multiprocessor Olukotun et. al., ASPLOS 1996 GPU NVIDIA Tesla: A Unified Graphics and Computing Architecture Lindholm et. al., IEEE Micro 2008 MIC Larrabee: A Many-Core x86 Architecture for Visual Computing Seiler et. al., SIGGRAPH 2008

47 理解度クイズ 当日配布

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments 計算機アーキテクチャ第 11 回 マルチプロセッサ 本資料は授業用です 無断で転載することを禁じます 名古屋大学 大学院情報科学研究科 准教授加藤真平 デスクトップ ジョブレベル並列性 スーパーコンピュータ 並列処理プログラム プログラムの並列化 for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } プログラムの並列化 x[0] = a[0] + b[0];

More information

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx シングルコアとマルチコア 長岡技術科学大学電気電子情報工学専攻出川智啓 今回の内容 前々回の授業の復習 CPUの進化 半導体集積率の向上 CPUの動作周波数の向上 + 複雑な処理を実行する回路を構成 ( 前々回の授業 ) マルチコア CPU への進化 均一 不均一なプロセッサ コプロセッサ, アクセラレータ 210 コンピュータの歴史 世界初のデジタルコンピュータ 1944 年ハーバードMark I

More information

[email protected] No1 No2 OS Wintel Intel x86 CPU No3 No4 8bit=2 8 =256(Byte) 16bit=2 16 =65,536(Byte)=64KB= 6 5 32bit=2 32 =4,294,967,296(Byte)=4GB= 43 64bit=2 64 =18,446,744,073,709,551,615(Byte)=16EB

More information

特集新世代マイクロプロセッサアーキテクチャ ( 後編 ) 3. 実例 3 ユビキタス コンピューティング時代の組み込みマイクロコンピュータ, SuperH と M32R 清水徹 * 1 長谷川淳 * 2 服部俊洋 * 3 近藤弘郁 * 4 ( 株 ) ルネサステクノロジシステムソリューション統括本部

特集新世代マイクロプロセッサアーキテクチャ ( 後編 ) 3. 実例 3 ユビキタス コンピューティング時代の組み込みマイクロコンピュータ, SuperH と M32R 清水徹 * 1 長谷川淳 * 2 服部俊洋 * 3 近藤弘郁 * 4 ( 株 ) ルネサステクノロジシステムソリューション統括本部 3. 実例 3 ユビキタス コンピューティング時代の組み込みマイクロコンピュータ, SuperH と M32R 清水徹 * 1 長谷川淳 * 2 服部俊洋 * 3 近藤弘郁 * 4 ( 株 ) ルネサステクノロジシステムソリューション統括本部システムコア技術統括部 * 1 [email protected] * 2 [email protected] * 3 [email protected]

More information

07-二村幸孝・出口大輔.indd

07-二村幸孝・出口大輔.indd GPU Graphics Processing Units HPC High Performance Computing GPU GPGPU General-Purpose computation on GPU CPU GPU GPU *1 Intel Quad-Core Xeon E5472 3.0 GHz 2 6 MB L2 cache 1600 MHz FSB 80 GFlops 1 nvidia

More information

スライド 1

スライド 1 東北大学工学部機械知能 航空工学科 2019 年度クラス C D 情報科学基礎 I 5. 命令セットアーキテクチャ ( 教科書 6.1 節, 6.2 節 ) 大学院情報科学研究科 鏡慎吾 http://www.ic.is.tohoku.ac.jp/~swk/lecture/ 計算機の基本構成 メモリ プロセッサ データ領域 データデータデータ load store レジスタ PC プログラム領域 命令命令命令

More information

ムーアの法則に関するレポート

ムーアの法則に関するレポート 情報理工学実験レポート 実験テーマ名 : ムーアの法則に関する調査 職員番号 4570 氏名蚊野浩 提出日 2019 年 4 月 9 日 要約 大規模集積回路のトランジスタ数が 18 ヶ月で2 倍になる というムーアの法則を検証した その結果 Intel 社のマイクロプロセッサに関して 1971 年から 2016 年の平均で 26.4 ヶ月に2 倍 というペースであった このことからムーアの法則のペースが遅くなっていることがわかった

More information

GPGPU

GPGPU GPGPU 2013 1008 2015 1 23 Abstract In recent years, with the advance of microscope technology, the alive cells have been able to observe. On the other hand, from the standpoint of image processing, the

More information

26102 (1/2) LSISoC: (1) (*) (*) GPU SIMD MIMD FPGA DES, AES (2/2) (2) FPGA(8bit) (ISS: Instruction Set Simulator) (3) (4) LSI ECU110100ECU1 ECU ECU ECU ECU FPGA ECU main() { int i, j, k for { } 1 GP-GPU

More information

システムソリューションのご紹介

システムソリューションのご紹介 HP 2 C 製品 :VXPRO/VXSMP サーバ 製品アップデート 製品アップデート VXPRO と VXSMP での製品オプションの追加 8 ポート InfiniBand スイッチ Netlist HyperCloud メモリ VXPRO R2284 GPU サーバ 製品アップデート 8 ポート InfiniBand スイッチ IS5022 8 ポート 40G InfiniBand スイッチ

More information

高性能計算研究室の紹介 High Performance Computing Lab.

高性能計算研究室の紹介 High Performance Computing Lab. 高性能計算研究室 (HPC Lab) の紹介 High Performance Computing Lab. 静岡理工科大学総合情報学部コンピュータシステム学科 ( 兼 Web デザイン特別プログラム ) 幸谷智紀 543 研究室 幸谷研究室 @ 静岡 検索 概要 1. 幸谷智紀 個人の研究テーマ 2. 3 年生ゼミ ( 情報セミナー II) 3. 卒研テーマ 4. 過去の卒研 5. 今後について

More information

< コンピュータの基本的仕組み > コンピュータは, クロック信号と呼ばれる周期的な論理信号に同期し, 主記憶装置に記憶され ている命令を, 以下の手順で読み込み, 実行することにより動作している. 命令読み込み Instruction Fetch 命令解読 Decode 命令実行 Executio

< コンピュータの基本的仕組み > コンピュータは, クロック信号と呼ばれる周期的な論理信号に同期し, 主記憶装置に記憶され ている命令を, 以下の手順で読み込み, 実行することにより動作している. 命令読み込み Instruction Fetch 命令解読 Decode 命令実行 Executio 1 回目 : マイクロプロセッサとパーソナルコンピュータの誕生と発展 < コンピュータの仕組み : ノイマン型コンピュータ > 現在使用されているコンピュータは, ほぼ例外なく, ノイマン型コンピュータである. 主記憶装置 Main memory 中央演算処理装置 Central Processing Unit (CPU) 入出力装置 Input/Output ノイマン型コンピュータは, バスとその他の制御線

More information

熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation

熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation 熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date 2011-03-17 Type URL Presentation http://hdl.handle.net/2298/23539 Right GPGPU による高速演算について 榎本昌一 東京大学大学院工学系研究科システム創成学専攻

More information

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8 Web キャンパス資料 超音波シミュレーションの基礎 ~ 第 4 回 ComWAVEによる超高速超音波解析 ~ 科学システム開発部 Copyright (c)2006 ITOCHU Techno-Solutions Corporation 本日の説明内容 ComWAVEの概要および特徴 GPGPUとは GPGPUによる解析事例 CAE POWER 超音波研究会開催 (10 月 3 日 ) のご紹介

More information

Microsoft PowerPoint - GPU_computing_2013_01.pptx

Microsoft PowerPoint - GPU_computing_2013_01.pptx GPU コンピューティン No.1 導入 東京工業大学 学術国際情報センター 青木尊之 1 GPU とは 2 GPGPU (General-purpose computing on graphics processing units) GPU を画像処理以外の一般的計算に使う GPU の魅力 高性能 : ハイエンド GPU はピーク 4 TFLOPS 超 手軽さ : 普通の PC にも装着できる 低価格

More information

GPUコンピューティング講習会パート1

GPUコンピューティング講習会パート1 GPU コンピューティング (CUDA) 講習会 GPU と GPU を用いた計算の概要 丸山直也 スケジュール 13:20-13:50 GPU を用いた計算の概要 担当丸山 13:50-14:30 GPU コンピューティングによる HPC アプリケーションの高速化の事例紹介 担当青木 14:30-14:40 休憩 14:40-17:00 CUDA プログラミングの基礎 担当丸山 TSUBAME の

More information

GPUを用いたN体計算

GPUを用いたN体計算 単精度 190Tflops GPU クラスタ ( 長崎大 ) の紹介 長崎大学工学部超高速メニーコアコンピューティングセンターテニュアトラック助教濱田剛 1 概要 GPU (Graphics Processing Unit) について簡単に説明します. GPU クラスタが得意とする応用問題を議論し 長崎大学での GPU クラスタによる 取組方針 N 体計算の高速化に関する研究内容 を紹介します. まとめ

More information

iphone GPGPU GPU OpenCL Mac OS X Snow LeopardOpenCL iphone OpenCL OpenCL NVIDIA GPU CUDA GPU GPU GPU 15 GPU GPU CPU GPU iii OpenMP MPI CPU OpenCL CUDA OpenCL CPU OpenCL GPU NVIDIA Fermi GPU Fermi GPU GPU

More information

main.dvi

main.dvi PC 1 1 [1][2] [3][4] ( ) GPU(Graphics Processing Unit) GPU PC GPU PC ( 2 GPU ) GPU Harris Corner Detector[5] CPU ( ) ( ) CPU GPU 2 3 GPU 4 5 6 7 1 [email protected] 45 2 ( ) CPU ( ) ( ) () 2.1

More information

12 PowerEdge PowerEdge Xeon E PowerEdge 11 PowerEdge DIMM Xeon E PowerEdge DIMM DIMM 756GB 12 PowerEdge Xeon E5-

12 PowerEdge PowerEdge Xeon E PowerEdge 11 PowerEdge DIMM Xeon E PowerEdge DIMM DIMM 756GB 12 PowerEdge Xeon E5- 12ways-12th Generation PowerEdge Servers improve your IT experience 12 PowerEdge 12 1 6 2 GPU 8 4 PERC RAID I/O Cachecade I/O 5 Dell Express Flash PCIe SSD 6 7 OS 8 85.5% 9 Dell OpenManage PowerCenter

More information

ためのオーバーヘッドが課題となりつつある しかしこのオーバーヘッドに関する数値はほとんど公開されていない この論文ではこの cache coherency の時間を Linux カーネルで提供されている atomic_inc 関数を用いて測定する方法を新たに考案し 実測プログラムを作成した 実測はプ

ためのオーバーヘッドが課題となりつつある しかしこのオーバーヘッドに関する数値はほとんど公開されていない この論文ではこの cache coherency の時間を Linux カーネルで提供されている atomic_inc 関数を用いて測定する方法を新たに考案し 実測プログラムを作成した 実測はプ Intel Xeon プロセッサにおける Cache Coherency 時間の測定方法と大規模システムにおける実測結果 Performance Measurement Method of Cache Coherency Effects on a large Intel Xeon Processor System 河辺峻 1 古谷英祐 2 KAWABE Shun, FURUYA Eisuke 要旨現在のプロセッサの構成は,

More information

main.dvi

main.dvi GameDeep GameDeep Game is (not) social /... 3 /... 11 /... 17 AMD : 2013 /... 21 GameDeep Propaganding License GameDeep GameDeep 2 Game is (not) social Not Social : 3 GameDeep 4 Game is (not) social Game

More information

パーソナルコンピュータのヘドニック回帰式

パーソナルコンピュータのヘドニック回帰式 2002 8 2002 8 1 HDD 2 2 8 1 wp01-24 1 BP 6 PC 2 DELL SOTEC IBM IBM Net Vista Series IBM 1 PC IBM Net Vista Series 2 2001 2002 246 293 2 2 1 2 CPU HDD CRT TFT CPU HDD CRT TFT CPU HDD 1 2.0kg 2.0kg 1 0 TFT

More information

Microsoft PowerPoint - sales2.ppt

Microsoft PowerPoint - sales2.ppt 最適化とは何? CPU アーキテクチャに沿った形で最適な性能を抽出できるようにする技法 ( 性能向上技法 ) コンパイラによるプログラム最適化 コンパイラメーカの技量 経験量に依存 最適化ツールによるプログラム最適化 KAP (Kuck & Associates, Inc. ) 人によるプログラム最適化 アーキテクチャのボトルネックを知ること 3 使用コンパイラによる性能の違い MFLOPS 90

More information

GPU n Graphics Processing Unit CG CAD

GPU n Graphics Processing Unit CG CAD GPU 2016/06/27 第 20 回 GPU コンピューティング講習会 ( 東京工業大学 ) 1 GPU n Graphics Processing Unit CG CAD www.nvidia.co.jp www.autodesk.co.jp www.pixar.com GPU n GPU ü n NVIDIA CUDA ü NVIDIA GPU ü OS Linux, Windows, Mac

More information

1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境 Lin

1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境 Lin Windows で始める CUDA 入門 GTC 2013 チュートリアル エヌビディアジャパン CUDA エンジニア森野慎也 1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境

More information

インテルの現行ラインナップは と Refresh アーキテクチャはそのままラインナップ強化 第 2 世代 Sandy Bridge 第 3 世代 Ivy Bridge 第 4 世代 Refresh アーキテクチャ刷新 AVX 対応 32nm プロセスルール 性能 電力とも大幅進化 22nm プロセス

インテルの現行ラインナップは と Refresh アーキテクチャはそのままラインナップ強化 第 2 世代 Sandy Bridge 第 3 世代 Ivy Bridge 第 4 世代 Refresh アーキテクチャ刷新 AVX 対応 32nm プロセスルール 性能 電力とも大幅進化 22nm プロセス インテル最新 CPU 談義 人気の K シリーズだけじゃない 無印も省電力も Xeon もあるよ! テクニカルライター 鈴木雅暢 インテルの現行ラインナップは と Refresh アーキテクチャはそのままラインナップ強化 第 2 世代 Sandy Bridge 第 3 世代 Ivy Bridge 第 4 世代 Refresh アーキテクチャ刷新 AVX 対応 32nm プロセスルール 性能 電力とも大幅進化

More information

Microsoft PowerPoint - CCS学際共同boku-08b.ppt

Microsoft PowerPoint - CCS学際共同boku-08b.ppt マルチコア / マルチソケットノードに おけるメモリ性能のインパクト 研究代表者朴泰祐筑波大学システム情報工学研究科 [email protected] アウトライン 近年の高性能 PC クラスタの傾向と問題 multi-core/multi-socket ノードとメモリ性能 メモリバンド幅に着目した性能測定 multi-link network 性能評価 まとめ 近年の高性能 PC

More information

最新の並列計算事情とCAE

最新の並列計算事情とCAE 1 大島聡史 ( 東京大学情報基盤センター助教 / 並列計算分科会主査 ) 最新の並列計算事情と CAE アウトライン 最新の並列計算機事情と CAE 世界一の性能を達成した 京 について マルチコア メニーコア GPU クラスタ 最新の並列計算事情と CAE MPI OpenMP CUDA OpenCL etc. 京 については 仕分けやら予算やら計画やらの面で問題視する意見もあるかと思いますが

More information

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU GPGPU (I) GPU GPGPU 1 GPU(Graphics Processing Unit) GPU GPGPU(General-Purpose computing on GPUs) GPU GPGPU GPU ( PC ) PC PC GPU PC PC GPU GPU 2008 TSUBAME NVIDIA GPU(Tesla S1070) TOP500 29 [1] 2009 AMD

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション みんなの ベクトル計算 たけおか @takeoka PC クラスタ コンソーシアム理事でもある 2011/FEB/20 ベクトル計算が新しい と 2008 年末に言いました Intelに入ってる! (2008 年から見た 近未来? ) GPU 計算が新しい (2008 年当時 ) Intel AVX (Advanced Vector Extension) SIMD 命令を進めて ベクトル機構をつける

More information

H1-4

H1-4 High End Style AcerWindows Vista Home Premium Aspire M5621 ASM5621-A21 ASM5621-A22 ASM5621-A23 High End Style Aspire M5621 MAIN SPEC CPU ASM5621-A21ASM5621-A22ASM5621-A23 MEMORY HDD DRIVE OS GRAPHICS LAN

More information

Microsoft PowerPoint - NxLec-2010-11-01.ppt

Microsoft PowerPoint - NxLec-2010-11-01.ppt 2010 年 後 学 期 レポート 問 題 計 算 機 アーキテクチャ 第 二 (O) 4. シングルサイクルプロセッサの 実 装 とパイプライン 処 理 大 学 院 情 報 理 工 学 研 究 科 計 算 工 学 専 攻 吉 瀬 謙 二 kise _at_ cs.titech.ac.jp S321 講 義 室 月 曜 日 5,6 時 限 13:20-14:50 1 1. 1から100までの 加 算

More information

<4D F736F F F696E74202D20837D E838D B835E82CC926190B682C694AD B93C782DD8EE682E890EA97705D>

<4D F736F F F696E74202D20837D E838D B835E82CC926190B682C694AD B93C782DD8EE682E890EA97705D> マイクロコンピュータ CPU Chip Select Read/Write アキュムレータレジスタ インストラクションデコーダ 1 モトローラ社 MC6800 マイクロプロセッサ 2 メモリー IC MC6800 マイクロコンピュータの製作 MC6800 マイクロコンピュータのコンソール 3 MCS 6502 マイクロプロセッサのレジスタ構成 8 ビットマイクロプロセッサ Z80 マイクロプロセッサ

More information

IPSJ SIG Technical Report Vol.2013-ARC-203 No /2/1 SMYLE OpenCL (NEDO) IT FPGA SMYLEref SMYLE OpenCL SMYLE OpenCL FPGA 1

IPSJ SIG Technical Report Vol.2013-ARC-203 No /2/1 SMYLE OpenCL (NEDO) IT FPGA SMYLEref SMYLE OpenCL SMYLE OpenCL FPGA 1 SMYLE OpenCL 128 1 1 1 1 1 2 2 3 3 3 (NEDO) IT FPGA SMYLEref SMYLE OpenCL SMYLE OpenCL FPGA 128 SMYLEref SMYLE OpenCL SMYLE OpenCL Implementation and Evaluations on 128 Cores Takuji Hieda 1 Noriko Etani

More information

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc 2.3. アプリ性能 2.3.1. Intel クアッドコア CPU でのベンチマーク 東京海洋大学吉岡諭 1. はじめにこの数年でマルチコア CPU の普及が進んできた x86 系の CPU でも Intel と AD がデュアルコア クアッドコアの CPU を次々と市場に送り出していて それらが PC クラスタの CPU として採用され HPC に活用されている ここでは Intel クアッドコア

More information

Microsoft Word - archip.doc

Microsoft Word - archip.doc 131 71 71 71 7 1 71 71 71 71 71 71 7 1 71 71 71 71 71 71 7-1 71 71 71 71 71 71 7-1 71 71 7 1 71 71 71 71 71 71 71 71 71 71 71 71 71 71 7 1 71 71 71 71 71 71 7 1 71 71 71 71 71 71 71 71 71 71 71 71 71 71

More information

高性能計算研究室の紹介 High Performance Computing Lab.

高性能計算研究室の紹介 High Performance Computing Lab. 高性能計算研究室 (HPC Lab) の紹介 High Performance Computing Lab. 静岡理工科大学総合情報学部コンピュータシステム学科 ( 兼 Web デザイン特別プログラム ) 幸谷智紀 http://na-inet.jp/ 概要 1. 幸谷智紀 個人の研究テーマ 2. 3 年生ゼミ ( 情報セミナー II) 3. 卒研テーマ 4. Webデザイン特別プログラム 5. 今後について

More information

untitled

untitled A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }

More information

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1 GPU 4 2010 8 28 1 GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1 Register & Shared Memory ( ) CPU CPU(Intel Core i7 965) GPU(Tesla

More information

-2 外からみたプロセッサ GND VCC CLK A0 A1 A2 A3 A4 A A6 A7 A8 A9 A10 A11 A12 A13 A14 A1 A16 A17 A18 A19 D0 D1 D2 D3 D4 D D6 D7 D8 D9 D10 D11 D12 D13 D14 D1 MEMR

-2 外からみたプロセッサ GND VCC CLK A0 A1 A2 A3 A4 A A6 A7 A8 A9 A10 A11 A12 A13 A14 A1 A16 A17 A18 A19 D0 D1 D2 D3 D4 D D6 D7 D8 D9 D10 D11 D12 D13 D14 D1 MEMR 第 回マイクロプロセッサのしくみ マイクロプロセッサの基本的なしくみについて解説する. -1 マイクロプロセッサと周辺回路の接続 制御バス プロセッサ データ バス アドレス バス メモリ 周辺インタフェース バスの基本構成 Fig.-1 バスによる相互接続は, 現在のコンピュータシステムのハードウェアを特徴づけている. バス (Bus): 複数のユニットで共有される信号線システム内の データの通り道

More information

計算機アーキテクチャ特論 後半第2回 アウトオブオーダー実行 Out-of-Order Execution

計算機アーキテクチャ特論 後半第2回  アウトオブオーダー実行 Out-of-Order Execution 計算機アーキテクチャ特論 後半第 2 回 アウトオブオーダー実行 Out-of-Order Execution 講師加藤真平 本資料は授業用です 無断で転載することを禁じます 前回の理解度クイズ 問 1 マルチコア (CMP) 化が進んだ理由を簡潔に述べよ 答え消費電力や発熱の問題により 単一プロセッサの動作周波数を上げることができなくなったため 複数のプロセッサコアを並べることで性能を改善するようになった

More information

パフォーマンスレポート PRIMERGY TX100 S2

パフォーマンスレポート PRIMERGY TX100 S2 ホワイトペーパー パフォーマンスレポート PRIMERGY TX100 S2 ホワイトペーパー FUJITSU PRIMERGY サーバパフォーマンスレポート PRIMERGY TX100 S2 本書では PRIMERGY TX100 S2 で実行したベンチマークの概要について説明します PRIMERGY TX100 S2 のパフォーマンスデータを 他の PRIMERGY モデルと比較して説明しています

More information

openmp1_Yaguchi_version_170530

openmp1_Yaguchi_version_170530 並列計算とは /OpenMP の初歩 (1) 今 の内容 なぜ並列計算が必要か? スーパーコンピュータの性能動向 1ExaFLOPS 次世代スハ コン 京 1PFLOPS 性能 1TFLOPS 1GFLOPS スカラー機ベクトル機ベクトル並列機並列機 X-MP ncube2 CRAY-1 S-810 SR8000 VPP500 CM-5 ASCI-5 ASCI-4 S3800 T3E-900 SR2201

More information

情報科学概論

情報科学概論 情報科学概論 映像 1 年前期 選択 担当 : 浦谷則好 http://uratani-n.com/info-science/ [email protected] 前回の課題 コンピュータの歴史について学んだことをできるだけ記せ 将来の PC に備えて欲しい機能, あるいはアプリケーションについて記せ クラウド上に自分の記憶の保存または他の人の記憶のインストール 人間が見た映像や聴いた音を記録し

More information

CELSIUSカタログ(2012年5月版)

CELSIUSカタログ(2012年5月版) CELSIUS PC "MADE IN JAPAN" 2012.5 New W520 ハイエンドの過酷な要求に応えるパワフルなデュアルと高信頼を搭載 トを搭載 RAID構成 選択可能 New グラフィックス/GPUカード 500GB 1TB 500GB 2 RAID1 Quadro 5000 Quadro 4000 Quadro 2000 Quadro 600 4 Quadro 4000 TeslaTM

More information

資料3 今後のHPC技術に関する研究開発の方向性について(日立製作所提供資料)

資料3 今後のHPC技術に関する研究開発の方向性について(日立製作所提供資料) 今後の HPC 技術に関する 研究開発の方向性について 2012 年 5 月 30 日 ( 株 ) 日立製作所情報 通信システム社 IT プラットフォーム事業本部 Hitachi, Hitachi, Ltd. Ltd. Hitachi 2012. 2012. Ltd. 2012. All rights All rights All rights reserved. reserved. reserved.

More information

! 行行 CPUDSP PPESPECell/B.E. CPUGPU 行行 SIMD [SSE, AltiVec] 用 HPC CPUDSP PPESPE (Cell/B.E.) SPE CPUGPU GPU CPU DSP DSP PPE SPE SPE CPU DSP SPE 2

! 行行 CPUDSP PPESPECell/B.E. CPUGPU 行行 SIMD [SSE, AltiVec] 用 HPC CPUDSP PPESPE (Cell/B.E.) SPE CPUGPU GPU CPU DSP DSP PPE SPE SPE CPU DSP SPE 2 ! OpenCL [Open Computing Language] 言 [OpenCL C 言 ] CPU, GPU, Cell/B.E.,DSP 言 行行 [OpenCL Runtime] OpenCL C 言 API Khronos OpenCL Working Group AMD Broadcom Blizzard Apple ARM Codeplay Electronic Arts Freescale

More information

車載マイコンの動向

車載マイコンの動向 車載マイコンの現状について ~2008 年度サーベイ ~ 2008 年 11 月 28 日 ( 財 ) 九州先端科学技術研究所 車のエレクトロニクス化 トヨタ自動車 (1996 - *1936) 燃費 : 7 km/l トヨタ自動車 (Prius HEV 2006) 燃費 :35.5 km/l センサー : 無 ECUs: 無 センサー : 約 100 ECUs: 約 70 ECU: Electronic

More information

HP Workstation Xeon 5600

HP Workstation Xeon 5600 HP Workstation Xeon 5600 HP 2 No.1 HP 5 3 Z 2No.1 HP :IDC's Worldwide Quarterly Workstation Tracker, 2009 Q4 14.0in Wide HP EliteBook 8440w/CT Mobile Workstation 15.6in Wide HP EliteBook 8540w Mobile Workstation

More information

スパコンに通じる並列プログラミングの基礎

スパコンに通じる並列プログラミングの基礎 2018.09.10 [email protected] ( ) 2018.09.10 1 / 59 [email protected] ( ) 2018.09.10 2 / 59 Windows, Mac Unix 0444-J [email protected] ( ) 2018.09.10 3 / 59 Part I Unix GUI CUI:

More information

160311_icm2015-muramatsu-v2.pptx

160311_icm2015-muramatsu-v2.pptx Linux におけるパケット処理機構の 性能評価に基づいた NFV 導 の 検討 村松真, 川島 太, 中 裕貴, 林經正, 松尾啓志 名古屋 業 学 学院 株式会社ボスコ テクノロジーズ ICM 研究会 2016/03/11 研究 的 VM 仮想 NIC バックエンド機構 仮想化環境 仮想スイッチ パケット処理機構 物理環境 性能要因を考察 汎 IA サーバ NFV 環境に適したサーバ構成を検討

More information

CELSIUSカタログ(2012年7月版)

CELSIUSカタログ(2012年7月版) CELSIUS PC "MADE IN JAPAN" 2012.7 W520 ハイエンドの過酷な要求に応えるパワフルなデュアルと高信頼を搭載 RAID構成 選択可能 富士通がお勧めする Windows 7. ミニタワーエントリーモデル より速く より強力に 最新の技術をフル投入 スピードとパワー 安定性を提供 RAID構成 選択可能 Windows 7 Professional 32bit版 正規版

More information

TopSE並行システム はじめに

TopSE並行システム はじめに はじめに 平成 23 年 9 月 1 日 トップエスイープロジェクト 磯部祥尚 ( 産業技術総合研究所 ) 2 本講座の背景と目標 背景 : マルチコア CPU やクラウドコンピューティング等 並列 / 分散処理環境が身近なものになっている 複数のプロセス ( プログラム ) を同時に実行可能 通信等により複数のプロセスが協調可能 並行システムの構築 並行システム 通信 Proc2 プロセス ( プログラム

More information