Microsoft PowerPoint - GPGPU実践基礎工学（web）.pptx

Similar documents

GPU のアーキテクチャとプログラム構造長岡技術科学大学電気電子情報工学専攻出川智啓

Microsoft PowerPoint - GPGPU実践基礎工学（web）.pptx

<4D F736F F D2095CA8E A90DA91B18C9F93A289F1939A8F D8288B3816A5F E646F63>

今回の内容 GPU の発展 GPU のアーキテクチャ CPU の発展性能の変化シングルコアからマルチコア GPU の応用例 6

質問票 ( 様式 3) 質問番号 62-1 質問内容鑑定評価依頼先は千葉県などは入札制度にしているが神奈川県は入札なのか?または随契なのか?その理由は? 地価調査業務は単にそれぞれの地点の鑑定

新生産管理システムご提案書２００２年１０月１５日ムラテック情報システム株式会社

KINGSOFT Office 2016 動作環境対応日本語版版共通利用上記動作以上以上空容量以上他接続環境推奨必要 2

2 役員の報酬等の支給状況平成 27 年度年間報酬等の総額就任退任の状況役名報酬 ( 給与 ) 賞与その他 ( 内容 ) 就任退任 2,142 ( 地域手当 ) 17,205 11,580 3,311 4 月 1

<4D F736F F D E598BC68A8897CD82CC8DC490B68B7982D18E598BC68A8893AE82CC8A C98AD682B782E993C195CA915B C98AEE82C382AD936F985E96C68B9690C582CC93C197E1915B927582CC898492B75F8E96914F955D89BF8F915F2E646F6

積載せずかつ燃料冷却水及び潤滑油の全量を搭載し自動車製作者が定める工具及び付属品 (スペアタイヤを含む )を全て装備した状態をいうこの場合において燃料の全量を搭載するとは燃料

4 参加資格要件本提案への参加予定者は以下の条件を全て満たすこと 1 地方自治法施行令 ( 昭和 22 年政令第 16 号 ) 第 167 条の4 第 1 項各号の規定に該当しない者であること 2 会社

一般競争入札について

<4D F736F F D F4390B3208A948C E7189BB8CE F F8C668DDA97702E646F63>

Microsoft PowerPoint - 報告書(概要).ppt

預金を確保しつつ資金調達手段も確保する収益性を示す指標として営業利益率を採用し営業利益率の目安となる数値を公表する株主の皆様への還元については持続的な成長による配当可

続に基づく一般競争 ( 指名競争 ) 参加資格の再認定を受けていること ) c) 会社更生法に基づき更生手続開始の申立てがなされている者又は民事再生法に基づき再生手続開始の申立てがなさ

その他事業推進体制平成 20 年 3 月 26 日に石垣島国営土地改良事業推進協議会を設立し事業を推進 ( 構成 : 石垣市石垣市議会石垣島土地改良区石垣市農業委員会沖縄県農

4 応募者向けメニュー画面が表示されます応募者向けメニュー画面で [ 交付内定時の手続を行う] [ 交付決定後の手続を行う]をクリックします 10

GPU n Graphics Processing Unit CG CAD

資料３家電エコポイント制度の政策効果等について

私立大学等研究設備整備費等補助金（私立大学等

<819A955D89BF92B28F BC690ED97AA8EBA81418FA48BC682CC8A8890AB89BB816A32322E786C7378>

は固定流動及び繰延に区分することとし減価償却を行うべき固定の取得又は改良に充てるための補助金等の交付を受けた場合においてはその交付を受けた金額に相当する額を長期前受金とし

第２回　制度設計専門会合事務局提出資料

平成27年度大学改革推進等補助金（大学改革推進事業）交付申請書等作成・提出要領

3 独占禁止法違反事件の概要 (1) 価格カルテル山形県の庄内地区に所在する5 農協が, 特定主食用米の販売手数料について, 平成 23 年 1 月 13 日に山形県酒田市所在の全国農業協

Microsoft PowerPoint - 経営事項審査.ppt

03_主要処理画面.xlsx

<4D F736F F D F8D828D5A939982CC8EF68BC697BF96B38F9E89BB82CC8A6791E52E646F63>

<4D F736F F D20819C486F70658F6F93588ED297708AC7979D89E696CA837D836A B E A2E646F63>

事前チェック提出用現況報告書作成ツール入力マニュアル(法人用)

<4D F736F F D F93878CA797708F4390B3816A819A95CA8B4C976C8EAE91E682538B4C8DDA97E12E646F6378>

全設健発第　　　　　号

<6D313588EF8FE991E58A778D9191E5834B C8EAE DC58F4992F18F6F816A F990B32E786C73>

MetaMoJi ClassRoom/ゼミナール授業実施ガイド

研究者情報データベース

Transcription:

補足 MPIプログラムのコンパイル, 実行標準の環境ではmpic++やmpiexecを実行できない OSがmpic++やmpiexecの場所を把握していないことが原因 bash 3.2$ mpic++ bash: mpic++: command not found bash 3.2$ mpiexec bash: mpiexec: command not found bash 3.2$ OSが実行ファイルなどを探す場所 (PATH)を設定 PATH(パス)にmpic++やmpiexecがあるディレクトリを追加 PATHは.bashrcに記述.bashrcはホームディレクトリ(grouseにログインしたときのディレクトリ)に置く 337

補足 MPIプログラムのコンパイル, 実行ホームディレクトリでls a を実行して.bashrcが見つかる場合エディタで.bashrcを開いて編集.bashrcが見つからない場合ホームディレクトリに.bashrcを新しく作成.(ドット)から始まるファイルはlsで表示されない lsに aオプションを付けて実行すると全てのファイルを表示 338

補足 MPIプログラムのコンパイル, 実行.bashrcに記述 ( 追記 )する内容 MPIROOT=/opt/mpi/openmpi/gcc PATH=$MPIROOT/bin:$PATH LD_LIBRARY_PATH=$MPIROOT/lib:$LD_LIBRARY_PATH MANPATH=$MPIROOT/share/man:$MANPATH export PATH export LD_LIBRARY_PATH export MANPATH.bashrcに記述した内容を有効化 sourceコマンドを利用 source 設定ファイル名として実行 339

補足 MPIプログラムのコンパイル, 実行.bashrcをストリーミング配信サイトからダウンロードして利用するには 1.ストリーミング配信サイト(GPGUP 実践基礎工学第 8 回 )にアクセス 2.bashrcをダウンロードしてホームディレクトリに置くアップロードしているファイル名はbashrc 3.mvコマンドを使ってファイル名を変更 mv 変更前ファイル名変更後ファイル名 mv bashrc.bashrc 4.sourceコマンドで設定を有効化 source.bashrc 340

GPUのアーキテクチャ長岡技術科学大学電気電子情報工学専攻出川智啓

今回の内容 GPUの進化の歴史 GPUのアーキテクチャ grouse 利用の復習 ( 実習 ) 342

GPU(Graphics Processing Unit)とは画像処理専用のハードウェア具体的には画像処理用のチップチップ単体では販売されていない PCI Exカードで販売 (チップ単体と区別せずにGPUと呼ぶことも多い) マザーボードやノートPCに搭載 PCI Exカードとして販売されるGPUには,ビデオメモリと呼ばれるRAMが搭載 343

GPU(Graphics Processing Unit)とは代表的な製品 NVIDIA GeForce AMD Radeon Intel HD Graphics( 内蔵 ) 代表的な用途 3Dグラフィックス処理 3Dゲーム,3DCAD,3DCG 作成エンコードデコード支援 GPU 上に専用チップを搭載していることが多いデスクトップPCのGUI 処理 Windows Aeroが比較的高性能なGPUを要求 344

GPU(Graphics Processing Unit)の役割グラフィックスを表示するために様々な処理を行い, 処理の結果をディスプレイに出力 3 次元グラフィックスの発展に伴って役割が大きく変化描画情報 CPU 3 次元座標変換ポリゴンとピクセルの対応付けピクセル色計算テクスチャ参照フレームバッファ(ビデオメモリ)への書き込みディスプレイ出力ビデオカード過去 CPU が 3D 描画の演算を実行 GPUが出力画面出力描画情報 3 次元座標変換ポリゴンとピクセルの対応付けピクセル色計算テクスチャ参照フレームバッファ(ビデオメモリ)への書き込みディスプレイ出力 GPU 現在 GPUが演算から出力までの全てを担当 CPUは描画情報の生成やGPUへの情報の引き渡し,GPU の制御を行う画面出力 345

GPUの描画の流れ 1. CPUからGPUへ描画情報を送信 2. 頂点処理 ( 頂点シェーダ) 座標変換画面上での頂点やポリゴンの位置大きさの決定頂点単位での照明の計算 3. 頂点やポリゴンからピクセルを生成 (ラスタライザ) 4. ピクセル処理 (ピクセルシェーダ) 画面上のピクセルの色テクスチャの模様 5. 画面出力ピクセルの色情報をフレームバッファに書き込み 2. 3. 4. 346

ビデオカードの利点 CPUで描画のための演算を行うと,CPUにかかる負荷が大きい 3 次元画像処理の専用回路を備えたハードウェアを導入 CPUにかかる負荷を減らすことができる頂点ピクセルごとに並列処理が可能なため,ハードウェアによる並列処理が可能 347

ビデオカードの欠点 3 次元画像処理の専用回路を備えたハードウェアを導入新しい描画方法を開発しても,GPUへ実装製品化されるまで利用できないユーザが所有しているGPUによって利用できる機能にばらつきが生じるある描画手法用の専用回路を実装しても,その描画方法が常に使われる訳ではないのでGPU 全体の利用効率が下がる 348

ビデオカードからGPUへ CGの多様化と共に固定機能の実装が困難に頂点処理とピクセル処理をユーザが書き換えられるプログラマブルシェーダの実装ビデオカード GPU 頂点処理用回路頂点シェーダユニットピクセル処理用回路ピクセルシェーダユニット 349

レンダリングパイプライン処理頂点情報光源情報形状データの画面への投影像実数演算投影変換視野変換陰影計算材質情報クリッピング投影像を画素へ変換整数演算とメモリアクセスビューポート変換走査変換合成テクスチャ出力画像 350

レンダリングパイプライン処理頂点情報光源情報形状データの画面への投影像実数演算実数演算を行うハードウェアは高価だった視野変換陰影計算投影変換クリッピング材質情報ハードウェアで処理 ( 固定機能 ) ビューポート変換走査変換合成テクスチャ出力画像 351

レンダリングパイプライン処理頂点情報光源情報視野変換ハードウェアで処理 ( 固定機能 ) 投影変換陰影計算材質情報クリッピングハードウェアで処理 ( 固定機能 ) ビューポート変換走査変換合成テクスチャ出力画像 352

レンダリングパイプライン処理頂点情報頂点シェーダ投影変換視野変換陰影計算光源情報材質情報クリッピングピクセルシェーダビューポート変換走査変換合成テクスチャ出力画像 353

ビデオカードからGPUへ描画する画像によって頂点処理とピクセル処理の負荷が変化処理によっては利用効率に差が発生し, 利用効率が低下頂点処理重視の処理 GPU 頂点シェーダユニットピクセル処理重視の処理 GPU 頂点シェーダユニット空きユニットピクセルシェーダユニットピクセルシェーダユニット空きユニット 354

ビデオカードからGPUへ頂点シェーダとピクセルシェーダを統合したユニファイドシェーダへの進化頂点処理とピクセル処理を切り替えることで利用率を向上頂点処理重視の処理 GPU ユニファイドシェーダユニットピクセル処理重視の処理 GPU ユニファイドシェーダユニット 355

ビデオカードからGPUへ各ピクセルに対して並列に処理実行できるように進化単純な処理を行う演算器を大量に搭載高い並列度で処理を実行 GPUの誕生とGPGPUの普及高性能な3DCG 画像処理への要求 GPUの高性能化 GPUの長所消費電力あたりの浮動小数点理論演算性能が高い GPU 単体の消費電力は高い ( 相対的に) 安価 CPUだけで同等の計算能力を達成するより安価 356

Teslaアーキテクチャ * の構造 *CUDAのサポートから外れます Tesla C1060の仕様 SM 数 30 CUDA Core 数 240(=8 Core/SM 30 SM) キャッシュを搭載せず 357

Teslaアーキテクチャの構造 Tesla C1060の仕様 CUDAコア数 ( 単精度 ) CUDAコアクロック周波数 240 Cores 1,296 MHz 単精度演算ピーク性能 622* 1 (933* 2 ) GFLOPS 倍精度演算ユニット数 30* 3 Units 倍精度演算ピーク性能メモリクロック周波数メモリバス幅最大メモリバンド幅 * 4 78 GFLOPS 800 MHz 512 bit 102 GB/s * 1 単精度演算ピーク性能 = コアクロック周波数コア数命令の同時発行数 (2) * 2 CUDA CoreとSFUが同時に命令を発行できれば1296 MHz 240 3 * 3 一つのSMに倍精度演算器が一つ搭載 * 4 最大メモリバンド幅 =メモリクロック周波数メモリバス幅 /8 2(Double Data Rate) 358

Fermiアーキテクチャの構造 Tesla M2050の仕様 SM 数 14 CUDA Core 数 448(=32 Core/SM 14 SM) L1/L2 キャッシュを搭載 ECC( 誤り訂正機能 )を搭載 359

Fermiアーキテクチャの構造 Tesla M2050の仕様 CUDAコア数 ( 単精度 ) CUDAコアクロック周波数単精度演算ピーク性能倍精度演算ユニット数倍精度演算ピーク性能メモリクロック周波数メモリバス幅最大メモリバンド幅 448 Cores 1,150 MHz 1.03 TFLOPS 0* 1 Unit 515 GFLOPS 1.55 GHz 384 bit 148 GB/s * 1 単精度 CUDA Coreを2 基使って倍精度演算を実行 360

Keplerアーキテクチャの構造 Tesla K20c/mの仕様 SMX 数 13 Streaming Multiprocessor extreme (?) CUDA Core 数 2,496(=192 Core/SM 13 SMX) 361

Keplerアーキテクチャの構造 Tesla K20c/mの仕様 CUDAコア数 ( 単精度 ) 2,496 Cores CUDAコアクロック周波数 706 MHz 単精度演算ピーク性能 3.52 TFLOPS 倍精度演算ユニット数 832* 1 Units 倍精度演算ピーク性能 1.17 TFLOPS メモリクロック周波数 2.6 GHz メモリバス幅 320 bit 最大メモリバンド幅 208 GB/s * 1 64 基 /SMX 13 基 362

Maxwellアーキテクチャ GeForce GTX TITAN Xの仕様 SM 数 24 CUDA Core 数 3,072(=128 Core/SM 24 SM) http://www.itmedia.co.jp/pcuser/articles/1409/19/news051.htmlより引用 363

Maxwellアーキテクチャ GeForce GTX TITAN Xの仕様 * CUDAコア数 ( 単精度 ) CUDAコアクロック周波数単精度演算ピーク性能 3,072 Cores 1,002 MHz 6.14 TFLOPS 倍精度演算ユニット数 0* 1 Units 倍精度演算ピーク性能 192 GFLOPS* 2 メモリクロック周波数 3.5 GHz* 3 メモリバス幅最大メモリバンド幅 *http://ja.wikipedia.org/wiki/flops http://http://www.geforce.com/hardware/desk top gpus/geforce gtx titan x/specifications 384 bit 336.5 GB/s * 1 http://www.4gamer.net/games/121/g012181/20141225075/ * 2 倍精度演算は単精度演算の性能の1/32 (1/16 Flop/Core/clock) * 3 DDR(Double Data Rate) 7GHz 相当と書かれている場合もある 364

Pascalアーキテクチャ 2016 年にリリース予定倍精度演算器を搭載予定 NVLink GPU 同士やGPUとCPUを接続する独自の方式通信 (CPU メモリ PCI Express メモリ GPU)のボトルネックを解消 (PCI Express3.0の5~12 倍 ) 複数のGPUを使って大規模な計算が可能 3Dメモリ(High Bandwidth Memory, HBM)* 3 次元積層技術を利用し,メモリの容量と帯域を大幅に増加最大 32GB,メモリ帯域 1TB/s *http://pc.watch.impress.co.jp/docs/column/kaigai/20150421_698806.html 365

Voltaアーキテクチャ Pascalの後継詳しい情報は不明アメリカの次世代スーパーコンピュータへ採用予定オークリッジ国立研究所 SUMMIT 150~300PFLOPS ローレンスリバモア研究所 SIERRA 100PFLOPS 以上地球シミュレータと同等の演算性能を1ノードで実現現在 Top500 2 位のスーパーコンピュータと同じ電力で5~10 倍高速,サイズは1/5 *http://www.4gamer.net/games/121/g012181/20141225075/ 366

GPUの普及の要因 GPUの進展は15 年程普及の速度は驚異的 CPUは数十年かけて進展 CPUも驚異的な速度で進展様々な高速化技術を導入 GPUが普及している要因は何か? 367

TOP500 List(2015, Jun.) スーパーコンピュータの性能の世界ランキング GPUを搭載したコンピュータは2 基だけ計算機名称 ( 設置国 ) アクセラレータ実効性能 [PFlop/s] /ピーク性能 [PFlop/s] 消費電力 [MW] 1 Tianhe 2 (China) Intel Xeon Phi 33.9/54.9 17.8 2 Titan (U.S.A.) NVIDIA K20x 17.6/27.1 8.20 3 Sequoia (U.S.A.) 17.2/20.1 7.90 4 K computer (Japan) 10.5/11.3 12.7 5 Mira (U.S.A.) 8.59/10.1 3.95 6 Piz Daint (Switzerland) NVIDIA K20x 6.27/7.79 2.33 7 Shaheen II(Saudi Arabia) 5.54/7.24 2.83 8 Stampede (U.S.A.) Intel Xeon Phi 5.17/8.52 4.51 9 JUQUEEN (Germany) 5.01/5.87 2.30 10 Vulcan (U.S.A.) 4.29/5.03 1.97 http://www.top500.org/より引用 368

CPUの性能向上サイクル性能向上半導体回路の細線化動作周波数向上消費電力が低下低下分の電力をトランジスタのスイッチングに利用 369

CPUの性能向上サイクル性能向上半導体回路の細線化 2 倍のトランジスタを使っても性能は 1.4 倍程度にしか伸びない絶縁部が狭くなり漏れ電流が発生, 電力が低下しない動作周波数向上消費電力が低下消費電力の増加によって発熱量が増加, 空冷の限界低下分の電力をトランジスタのスイッチングに利用 370

CPUの性能向上サイクル性能向上半導体回路の細線化コア数の増加 2 倍のトランジスタを使っても性能は 1.4 倍程度にしか伸びない絶縁部が狭くなり漏れ電流が発生, 電力が低下しない動作周波数向上消費電力が低下消費電力の増加によって発熱量が増加, 空冷の限界低下分の電力をトランジスタのスイッチングに利用 371

CPUの性能向上 FLOPS = 1コアの演算性能コア数 CPUの動作周波数 1コアの演算性能の向上演算器 (トランジスタ)の増加コア数の増加トランジスタ数の増加 CPUの動作周波数回路の効率化や印可電圧の向上コンパイラの最適化を利用複数のコアを使うようにプログラムを書かないと速くならない劇的な性能向上は期待できない 372

GPUを使うという選択 GPU 普及の要因の一つはCPUクロックの頭打ちクロックを下げてマルチコア化したCPUへの対応が必要なぜGPUという選択か? CPU 用プログラムの並列化でもいいのでは? 消費電力の低減数値計算や高性能計算 (HPC)の業界がGPUに注目スーパーコンピュータの性能向上高機能なCPUを大量に使うと消費電力が問題に高機能な制御用プロセッサと, 計算を実行する低性能なアクセラレータの組み合わせ 373

Green500(2015, Jun.) 日本の次世代機がTOP3を独占 AMD 社のGPUが4 位 NVIDIA 社のGPUが5 位以降を占める計算機名称アクセラレータ GFLOPS/W 消費電力 [kw] 1 Shoubu PEZY SC 7.03 50.32 2 Suiren Blue PEZY SC 6.84 28.25 3 Suiren PEZY SC 6.22 32.59 4 AMD FirePro S9150 5.27 57.15 5 TSUBAME KFC NVIDIA K20x 4.25 39.83 6 XStream NVIDIA K80 4.11 190.0 7 Storm1 NVIDIA K40m 3.96 44.54 8 Wilkes NVIDIA K20 3.63 52.62 9 Taurus NVIDIA K80 3.61 58.01 10 idataplex NVIDIA K20x 3.54 54.60 http://www.green500.org/より引用 374

まとめ GPUの特徴低性能の演算器を大量に搭載 (~3000コア) GPUが使われる理由理論演算性能が高いメモリとチップ間の帯域も広い省電力と高性能を両立今後の計算機の主流になると考えられる将来に対する投資 GPUだけでなく, 制御用 CPU+ 計算用アクセラレータという思想は今後しばらく主流であり続ける 375

GROUSEの利用方法 ( 復習 )

情報処理センターGPGPUシステム 16 台の計算サーバで構成 NVIDIA Tesla M2050を搭載各サーバに4 機ずつ計 64 機 grouse 外部ネットワーク tesla01 tesla04 tesla05 tesla08 tesla09 tesla12 tesla13 tesla16 M2050 16 M2050 16 M2050 16 M2050 16 377

grouseへのログイン 378 2013 年度 GPGPU 講習会資料より引用

grouseへのログイン統合アカウントとパスワード入力 379 2013 年度 GPGPU 講習会資料より引用

ターミナルの起動 System Terminal 380 2013 年度 GPGPU 講習会資料より引用

ターミナルの起動 381 2013 年度 GPGPU 講習会資料より引用

実行イメージキー入力,マウス入力処理結果出力 grouse 処理 382

プログラムの作成と保存 383 2013 年度 GPGPU 講習会資料より引用

実行イメージ共有 grouse 共有ハードディスク共有ファイル保存 tesla01 tesla04 tesla05 tesla08 tesla09 tesla12 tesla13 tesla16 384

tesla??へのログインもう一つターミナルを起動し, 下のターミナルでログイン $ ssh l ユーザID tesla?? (??には01~16の番号を入力 ) 385 2013 年度 GPGPU 講習会資料より引用

tesla??でのコンパイルとプログラム実行 grouseでの作業用 tesla??でのコンパイルと実行用 386 2013 年度 GPGPU 講習会資料より引用

tesla??でコンパイルとプログラム実行コンパイル nvcc ソースファイル名 nvccがコンパイル対象とするソースファイルの拡張子は.cu エラーがなければa.outという実行ファイルが作成される実行./a.out nvccはgccと同じオプションを持っていることが多い対応オプションの一覧は hオプションで確認 nvcc h 387

実行イメージキー入力,マウス入力 $ ssh tesla16 処理結果出力 grouse 処理処理結果キー入力処理 388 tesla16

実行イメージキー入力,マウス入力 $ ssh tesla16 $ nvcc??.cu 処理結果出力 grouse ハードディスク??.cu 処理結果キー入力コンパイル 389 tesla16

実行イメージキー入力,マウス入力処理結果出力 $ ssh tesla16 $ nvcc??.cu $./a.out grouse ハードディスク a.out 処理結果キー入力実行 390 tesla16

実行イメージキー入力,マウス入力処理結果出力 $ ssh tesla16 $ nvcc??.cu $./a.out grouse ハードディスク a.out 391 GPU3 GPU2 GPU1 GPU0 処理結果 tesla16 キー入力実行

情報処理センターでのCUDAの使い方 1. grouseやtesla??で開発する場合 grouseやtesla??にログインソースファイルを作成し,tesla?? 上でコンパイル実行 grouseはgpuを搭載していないため実行できない(コンパイルは可能 ) 2. 研究室のPC 等, 情報処理センター外で開発する場合研究室のPCでソースファイルを作成 WinSCPなどでファイルをgrouseにアップロード grouseを経由してtesla??にログインした後,コンパイル実行 392

ターミナルのみの利用 ( 特に演習室外から利用する場合 ) 1. Tera Termでgrouseにログイン 393 2013 年度 GPGPU 講習会資料より引用

ターミナルのみの利用 ( 特に演習室外から利用する場合 ) 2. sshでtesla??にログイン $ ssh l ユーザID tesla?? (??には01~16の番号を入力 ) 394 2013 年度 GPGPU 講習会資料より引用

grouseへのファイル転送 (WinSCP) Unixコマンドscp(secure copy)のwindows GUIクライアント Secure Shell (ssh) に含まれるsshの機能を利用して安全性の高いファイル転送を行う Host 名 grouse 統合アカウントのユーザ名とパスワード login 395

Windows 上のソースファイルをコピー WinSCPでコピーハードディスク grouse ハードディスクソースファイル共有共有共有 tesla01 tesla04 tesla05 tesla08 tesla09 tesla12 tesla13 tesla16 396

ログインしているサーバの確認 grouseにログインしているかtesla??にログインしているか分からなくなったら $ hostname 397

GPUの選択計算機がGPUを複数搭載している場合 CUDAで利用するGPUを選択 CUDA APIを利用したGPUの選択 cudasetdevice() 命令 int main(void){ 変数宣言 //ここでは標準でGPU0が使われる GPUやCPUを使った処理 // cudasetdevice(3); //ここからGPU3が使われる... return 0; } 398

レポート課題 1( 提出期限は2 学期末 ) grouseにログインして, 以降のスライドに示す3 個のプログラムを作成,コンパイル, 実行せよ helloworld.cu hellokernel.cu hellothread.cu 各プログラムで指定された事項について考察せよ 399

レポート課題 1( 提出期限は2 学期末 ) 通常のC 言語のプログラムとの違いは何か違いがあるとすればどの箇所か違いがないとすればその理由はなぜか #include<stdio.h> int main(void){ printf("hello world n"); } return 0; helloworld.cu 400

レポート課題 1( 提出期限は2 学期末 ) 通常のC 言語の関数との違いは何か違いがあるとすればどの箇所か(どのように違うか) #include<stdio.h> global void kernel(){} int main(void){ kernel<<<1,1>>>(); printf("hello world n"); return 0; } hellokernel.cu 401

レポート課題 1( 提出期限は2 学期末 ) 三重括弧 (<<<1,1>>>) 内の数字を変えると実行結果はどのように変化するか cudadevicesynchronize();をコメントアウトすると実行結果はどのように変化するか,その理由はなぜか #include<stdio.h> global void hello(){ printf( Hello Thread n );//printfを実行するには,コンパイルの際に } // arch=sm_20オプションが必要 int main(void){ hello<<<1,1>>>(); cudadevicesynchronize(); return 0; } hellothread.cu 402

レポートの書式必ず表紙を付けること授業名, 課題番号, 学籍番号, 氏名, 提出日に加えて課題に要した時間を書く課題内容,プログラム, 実行結果 (ターミナルの出力結果 ), 考察で構成プログラムを実行したtesla??およびGPUの番号も明記すること pdf 形式に変換してメールで提出宛先 degawa at vos.nagaokaut.ac.jp メール題目課題 1( 氏名 ) 403