情報処理学会研究報告 IPSJ SIG Technical Report Vol.2016-CSEC-75 No /12/1 ハッシュ関数 Keccak の GPU 実装 グェンダットトゥオン 1 1 岩井啓輔 1 黒川恭一 概要 : 次世代ハッシュ関数 SHA-3 の候補であった Ke

Size: px
Start display at page:

Download "情報処理学会研究報告 IPSJ SIG Technical Report Vol.2016-CSEC-75 No /12/1 ハッシュ関数 Keccak の GPU 実装 グェンダットトゥオン 1 1 岩井啓輔 1 黒川恭一 概要 : 次世代ハッシュ関数 SHA-3 の候補であった Ke"

Transcription

1 ハッシュ関数 Keccak の GPU 実装 グェンダットトゥオン 1 1 岩井啓輔 1 黒川恭一 概要 : 次世代ハッシュ関数 SHA-3 の候補であった Keccak は 2012 年 10 月 2 日のコンペティションの勝者として選定され,2015 年 8 月 5 日に正式版が FIPS PUB 202 として公表された.Keccak は, スポンジ構造に基づくハッシュ関数であり,MD5 や SHA-1 に対する攻撃の研究の進展に対応したものであった. 本研究では,GPU 向けの統合開発環境 CUDA を用いて, ハッシュ関数 Keccak(SHA3-512) の高速化実装を行った. Tesla K20Xm を用いて Keccak を実行した結果, ブロック数が 2,048 個, 一つのブロックあたりのスレッド数が 32 個の場合, 一秒あたり約 23.7M ハッシュを処理することが確認できた. キーワード : ハッシュ関数 Keccak,SHA-3,GPU,CUDA, 実装 Implementation of the hash function Keccak on GPU THUONG NGUYENDAT 1, KEISUKE IWAI 1, and TAKAKAZU KUROKAWA 1 Abstract: Keccak was selected as the winner of the competition on October 2, 2012 for the next-generation hash function SHA-3. The official version has been published as FIPS PUB 202 on August 5, A hash function Keccak is bases on the sponge structure, and is corresponding to the progress of research on the attack against MD5 and SHA-1. In this paper, we are using the integrated development environment CUDA for GPU, aiming at the speed up of the implementation of Keccak (SHA3-512). Implementation result of Keccak on Tesla K20Xm confirmed that the process approximately 23.7M Hash per second with 2048 blocks and 32x2048 threads. Keywords: Hash Function Keccak, SHA-3, GPU, CUDA, Implementation 1. はじめに ネットワーク上で通信するデータにおいて, 個人情報や 秘匿性の高い情報を扱う機会が増加している. これらを保 護するためには, 暗号化技術やハッシュ関数を利用する必 要がある. ハッシュ関数は, 同じ入力値からは必ず同じ値が得られ る一方, 少しでも異なる入力値からはまったく違う値が得 られるという特徴がある. 不可逆な一方向関数を含むため, ハッシュ値から入力値を割り出すことは簡単には出来ない. しかし, 全数探索を行えば入力値を得ることが可能である ため, コンピュータの処理速度の向上により一部のハッシ ュ関数の安全性は低下してきている. 次世代ハッシュ関数 SHA-3 の候補であった Keccak は 2012 年 10 月 2 日のコンペティションの勝者として選定さ れ,2015 年 8 月 5 日に正式版が FIPS PUB 202[1] として公 表された.Keccak は, スポンジ構造に基づくハッシュ関数 であり,MD5 や SHA-1 に対する攻撃の研究の進展に対応 したものであった. Guillaume Sevestre らの公開されている先行研究 [2] では, Tree 構造による Keccak の GPU への実装を行った.GeForce GTS 250 グラフィック カードに実装した結果,1,183MB/s 1 防衛大学校 National Defense Academy のスループットとなったことが示されている. 本稿では GPU 向けの統合開発環境 CUDA を用いてハッシュ関数 Keccak(SHA3-512) の実装を行い, 処理速度を測定する. その結果から, パスワード管理における Keccak の安全性について検討する. 2. GPU と CUDA プログラミング 2.1 概要コンピュータで演算機能を担うのは CPU である. しかし, 近年ではグラフィック処理専用に開発された Graphics ProcessingUnit(GPU) の利用が進んでいる.CPU とは違い, GPU には数千ものコアが搭載され, 高い演算機能を持っている. その特徴により, 数値演算に GPU を使った GPGPU (GeneralPurpose Computation on Graphics Processing Unit) の研究が盛んになっている.[3][4] GPGPU は, 当初 OpenGL や Direct X などのグラフィックス API(Application Programing Interface) とシェーダ言語を用いてプログラミングされていたため,GPGPU のプログラミングは容易ではなかった. しかし,2006 年 11 月に NVIDIA 社が C 言語を用いた開発環境である GPU コンピューティング環境 CUDA ( Compute Unied Device Architecture)[5] をリリースし,GPGPU のプログラミングが容易になり, 広く普及した. さらに, ビデオカードの機能を目的とせずに, 数値計算を高速化する GPGPU 専用の c2016 Information Processing Society of Japan 1

2 アクセラレータボード Tesla が開発され, 多くのスーパーコンピュータに採用され, 現在では高速数値計算の一翼を担っている. 2.2 CUDA のプログラム階層 GPU の構造 CUDA のプログラム階層構造は, 図 1 に示すように, スレッド ブロック及びグリッドから構成される. スレッドはプログラムを実行する最小単位であり, 複数のスレッドをまとめたものはブロックとなる. さらに, ブロックをまとめたものはグリッドである. GPU は, 複数のストリーミングマルチプロセッサとメモリなどの周辺回路がブロック状に並んだ構成になっている. 1 つのブロックは 1 つのストリーミングマルチプロセッサに割り当てられる. それぞれのストリーミングマルチプロセッサごとに 32 個 (Kepler アーキテクチャでは,192 個 ) の ストリーミングプロセッサ が搭載されており, このストリーミングプロセッサによって並列処理が行われる.CUDA のプログラム構造では,1スレッドは1つのストリーミングプロセッサによって計算される. また, 各ストリーミングマルチプロセッサ内には, それぞれ シェアードメモリ ( 共有メモリ ) とレジスタが搭載されている. これらのメモリは容量が小さくアクセスが高速である. そして, 全てのストリーミングプロセッサからアクセスできるグローバルメモリが存在する. このメモリは, シェアードメモリやレジスタなどに比べるとアクセス速度は遅いが, 容量が大きい.[5] 図 2.CUDA プログラム構成のイメージ 3. ハッシュ関数 Keccak の仕様 米国の国立標準技術研究所 (NIST) は,2012 年 10 月 2 日に次世代の暗号学的ハッシュ関数の標準を決める SHA-3 候補から,Keccak を選定した. Keccak は, STMicroelectronics の Guido Bertoni, Joan Daemen 及び Gilles Van Assche と NXP Semiconductor の Michael Peeters が設計したスポンジ構造を有するハッシュ関数である. 3.1 スポンジ構造スポンジ構造は, 固定長の permutation と padding に基づいた利用モードの一種である. このスポンジ構造を図 3 に示す. 図 3. スポンジ構造 (The sponge construction Z=SPONGE[f,pad,r](N,d)) [5] より引用 ストリーミングマルチプロセッサ 図 1.CUDA プログラムの階層構造 2.3 CUDA CUDA( Compute Unified Device Architecture )[4] は, NVIDIA が提供する GPU 向けの C 言語の統合開発環境であり, コンパイラ (nvcc) やライブラリなどから構成されている.CUDA のプログラムは, 図 2 に示すように,CPU 側 ( ホスト ) と GPU 側 ( デバイス ) に分けることができる. GPU で実行されるカーネルプログラムはホスト側で起動する.[5] スポンジ構造は,absorbing と squeezing の大きく 2 つのフェーズに分かれている.absorbing では, パディング後のメッセージデータ Mp を r [bit] のデータに分割し, ステートの r [bit] のデータとの XOR 演算の後に関数 f に入力する.squeezing では,f 関数とこの取り出しを行う. 3.2 デュプレックス構造 Keccak には, 前述のスポンジ構造において absorbing と squeezing を交互に行うデュプレックス構造 ( 図 4) も用意されている. c2016 Information Processing Society of Japan 2

3 図 4. デュプレックス構造 (The duplex construction) [5] よ り引用 3.3 Keccak-f 置換関数 Keccak-f 置換関数は,θ,ρ,π,χの 4 つのステップとラウンド定数との XOR 処理を行うιステップにより,3 次元のステートを計算する. 本研究の対象は Keccak-512 であるため, ラウンド数が 24 であった. それぞれのラウンドでは, 次の処理が行われる. ( 詳細は FIPS PUB 202[1] を参照 ) (1) θステップ ( 図 5) x と y が 0 4 で, C[x] = A[x,0] xor A[x,1] xor A[x,2] xor A[x,3] xor A[x,4] D[x] = C[x-1] xor rot(c[x+1],1) A[x,y] = A[x,y] xor D[x] (1) 図 7.πステップ (3) χステップ ( 図 8) x と y が 0 4 で, A[x,y] = B[x,y] xor ((not B[x+1,y]) and B[x+2,y]) (3) 図 8.χ ステップ 図 5.θステップ (2) ρとπステップ ( 図 6,7) x と y が 0 4 で, B[y,2*x+3*y] = rot(a[x,y], r[x,y]) (2) (rot (W, r) はビット毎の巡回右シフト演算であり, 位置 i のビットを位置 i + r に移動する ) (4) ιステップ A[0,0] = A[0,0] xor RC (4) (RC はラウンド定数 (round constants) である.) ( 図 5~8:[6][7] より引用 ) 3.4 ハッシュ関数 SHA-3 入力メッセージMに対し, ハッシュ関数 SHA-3 は以下の通り定義されている.[1] SHA3-224(M) = Keccak[448](M 01, 224); SHA3-256(M) = Keccak[512](M 01, 256); SHA3-384(M) = Keccak[768](M 01, 384); SHA3-512(M) = Keccak[1024](M 01, 512); (5) SHAKE128(M,d) = Keccak[256](M 1111,d); SHAKE256(M,d) = Keccak[512](M 1111,d); (6) 本研究の対象は, ハッシュ関数 SHA3-512(M) とした. 4. Keccak の GPU 実装 図 6.ρ ステップ 4.1 概要 本研究では,CUDA を用いてハッシュ関数 Keccak の GPU c2016 Information Processing Society of Japan 3

4 実装を行った. パスワードを想定した入力メッセージ M に対し, ハッシ ュ値 SHA3-512(M), つまり Keccak[1024](M 01, 512) を計算 した. 複数の入力メッセージ ( パスワードを想定した平文 ) を一つの 2 次元配列にまとめて GPU 上のメモリにコピー する.GPU では, 各スレッドがそれに割り当てられた入力 メッセージのハッシュ処理を行った. これは総当たり攻撃 (brute force attack) のように大量のハッシュ処理を行うプ ログラムとなる. 4.2 高速化 CUDA プログラムの流れ 今回の高速化実装プログラムの大まかな流れを逐次的 に列挙すると, 次のようになる. 1 cudasetdevice(gpu 番号 ) を用いて, 使用する GPU ( デバイス ) を選択する. 2 cudamalloc で GPU 側メモリを宣言し, 確保する. 3 CPU 側で入力メッセージを生成し,2 次元配列に格 納する. その後,cudaMemcpyHostToDevice を用いてその 入力メッセージの情報を GPU 側に転送する. 4 global void kernel() で定義したカーネル関数を kernel<<< ブロック, スレッド >>>() のように呼び出し, GPU の各スレッドでハッシュ処理を行う. 5 時間を測定し, その結果を表示する. 6 使用したメモリを解放する. 4.3 高速化実装の提案手法 GPU でのプログラム実行の効率を向上させるために今 回用いた高速化手法を次に示す. (1) 条件分岐の回避 GPU では, 条件分岐命令によって性能が低下する. 今回 の実装では, 入力メッセージはパスワードを想定したもの であるため, パディング後の長さを固定することになり, ブロックに対するループを除去できた. これにより, カー ネル関数内で条件分岐命令を減少させた. (2) GPU 上のメモリ階層の有効利用 本実装では, ハッシュ処理において各スレッドで共有で きる定数をコンスタントメモリに設定した. コンスタント メモリは, スレッドで共通の変数を置くところであり, 各 スレッドから高速にアクセスできる. しかし, 使用するス レッド総数が膨大な数に増えると, 同時にコンスタントメ モリへのアクセスが集中するため速度が低下する. そこで さらにシェアードメモリを利用し, より高速にアクセスす ることにした. より効率的にカーネル関数を実行できるように, キャッ シュの設定を行い, カーネル関数の直前で次のように呼び 出した : cudafuncsetcacheconfig(keccak,cudafunccachepreferl1);[8] GPU でレジスタのアクセス速度は速いがレジスタの数 が限られている. そのため, レジスタを多く取り過ぎない ように処理に影響しない変数を再使用した. (3) ブロック数 スレッド数の構成変更 GPU はスレッド数 ブロック数の組み合わせ設定するこ とによってスレッド総数が同じでも処理速度が変化するこ とが知られている. 本実装では, これらの数の組み合わせ を変化させ, 最適な組み合わせを調べた. 5. 実装結果 5.1 実装環境 表 1 と表 2 を用いて, 実装環境を示す. 表 1. 使用した GPU のスペック メーカ グローバルメモリ Tesla K20Xm 5 GB CUDA コア数 2688 (14*192) Warp サイズ 32 表 2. 実装環境とコンパイルオプション OS CentOS release 6.2 (kernel ver ) CPU GPU CUDA Ver. 6.0 Compiler Compiler option Intel Xeon E (2.00Ghz, 6 Core) Tesla K20Xm (2688 CUDA Core) gcc ver 4.4.7; nvcc ver 6.0 (CUDA) CPU: -O3; GPU: -O3 ( 最適化オプション ) 5.2 GPU 上のメモリ階層の有効利用 CUDA プログラムで提案手法による処理速度の向上を検 討するために, 提案手法を使わないプログラム及び改良し たプログラム両方のハッシュ処理を測定して比較した. 4.3 の (1),(2) で述べた提案手法を使わない, 改良前の プログラムでは, 長さ任意の入力メッセージを対応し, 適 量のレジスタに改良しない, 処理に必要な定数をコンスタ ントメモリに格納すると共にデフォルトのキャッシュ設定 で実行した. 改良後のプログラムは固定長の入力メッセージ (70 文字 まで対応可能 ) をハッシュ処理し, レジスタ数を最適化し, 一部のコンスタントメモリを使った値をシェアードメモリ に移した, キャッシュ設定も設定して実行した. キャッシュ設定のオプションで cudafunccachepreferl1 (L1 キャッシュを 48kB, シェアードメモリを 16kB) を使 用する場合に一番効果が得られた. 1 ブロックあたり 128 個のスレッドを使用した場合の実 行結果は表 3 に示す. c2016 Information Processing Society of Japan 4

5 スループット [MHps] 表 3. 改良前 後の処理スループットの比較 単位 :MH/s 入力メッセージ数 改良前 改良後 提案手法によって,GPU でハッシュ関数 Keccak の処理 スループットを 2.5 倍上げることができた. 5.3 GPU のブロック スレッド数の変化 ブロック数及び 1 ブロックあたりのスレッド数を変更し つつ, ハッシュ処理のスループットを測定した結果を表 4 に示す. この結果のグラフを図 9 に示す. ブロック数が約 256 個 以上になると, スループットが向上することが確認できた. また,1 ブロックあたりのスレッド数が 32 個の場合, 最大 のスループットが得られた. 表 4. ブロック スレッド構成によるスループットの変化 * 単位 :MH/s ** 一列目 : ブロック数, 一行目 : 一ブロックあたりのスレッド数 ブロック数 図 9. ブロック スレッド構成によるスループットの変化 5.4 CPU と GPU の処理時間比較 CPU と GPU での処理速度を比較するために, 同じアル ゴリズムで実装を行い, それぞれの実行時間を測定した. 入力メッセージの数を変更し, ハッシュの処理時間を表 5 に示す. GPU では, 一ブロック当たりのスレッド数を 128 個と設 定した. スレッド総数が入力メッセージと一致するように ブロック数を増やして測定を行った. 表 5.Keccak の処理時間の比較 単位 : ミリ秒 メッセージ数 CPU GPU この結果を図 10 で確認すると, 圧倒的に GPU の処理能 力が高いことがわかった. 入力メッセージ数が 131,072 メ ッセージ (512*128) の場合,GPU の処理は CPU より 25.5 倍の速度となることが確認できた. c2016 Information Processing Society of Japan 5

6 処理時間 [ ミリ秒 ] CPU GPU 入力メッセージ数図 10.CPU と GPU の処理時間の比較 同じプログラムを CPU 及び GPU に実装し, 処理時間を測定した.Tesla K20m の GPU は Xeon E の CPU より最大 25.5 倍の速度でハッシュ処理を行った. GPU のパフォーマンスを上げるために, カーネル関数内の条件分岐の回避, 効率的なメモリの利用及びブロック数, スレッド数の組み合わせを検討し実験を行った.GPU では 1 ブロックあたり 32 個の場合, 最大のスループットを出せることができた.1 秒当たり約 23.7 メガハッシュを処理できた結果から考えると, 約 2.2e14 の組合せが存在する英文字の小文字, 大文字及び数字を使った 8 文字のパスワードに対し, 全体の検索に必要な時間は 2,572 時間 (3 か月以上 ) となる.MD5,SHA-1 に比べるとより安全性が持っていることが確認できた. 今後の課題として, 与えられたハッシュ値からもとのパスワードのクラック処理を検証し, さらなるパスワード管理における Keccak の可能性を考察する. 6. 考察 CUDA を用いて Keccak の GPU への高速化実装を行った結果,1 ブロックあたり 32 個のスレッドの場合に最大のスループットが出ていることが確認できた. しかし, パスワードクラックの前提を考えると入力メッセージが多くなり, 全体の処理時間も考慮すると,1 ブロックあたり 256 個のスレッドが効果を出せると考えられる. 1 ブロックあたりのスレッド数が 32 個の場合,1 秒間に最大 23.7 メガハッシュを処理できた. 本研究では, パスワードを想定した入力メッセージであったため, パディングの処理は単純になり,70 文字までの入力メッセージまで対応できる一方,70 文字までパスワードの文字数を増やしても処理速度が低下せず, 安定したスループットを出せることができる. 本研究の対象であった Keccak-512 のハッシュ値は 64 文字になるので, さらにこのハッシュ値を入力メッセージとした場合にも対応できる. 先行研究である Guillaume Sevestre らの Tree 構造による Keccak の GPU への実装が公開されているソースコード [9] を同じマシンで実行した結果,GPU の処理速度は 1,117,550 kb/s であった. 本研究で 70 文字の入力メッセージで考える場合, 最大 1,663,177 kb/s の処理速度となった.Tree 構造は, 大きいなブロックの入力に対するハッシュ処理が非常に優れていたが, 本研究の対象入力はパスワードを想定した入力メッセージであったため, 効果が少ないと考えられる. 参考文献 [1] SHA-3 Standard: Permutation-Based Hash and Extendable-Output Functions. (2015-8). [2] Keccak Tree Gpu Project documentation. pdf. [3] 青木尊之, 額田彰. はじめての CUDA プログラミング. 工学社, [4] 伊藤智義. GPU プログラミング入門 CUDA5 による実装. 講談社,2013. [5] CUDA Zone.developer.nvidia.com/category/zone/cuda-zone/. [6] G.Bertoni, J.Daemen, M.Peeters, and G.Van Assche. The Sponge Functions Corner. [7] ハッシュ関数 SHA-224, SHA-512/224, SHA-512/256 及び SHA-3 (Keccak) に関する実装評価. [8] CUDA Toolkit Documentation. com/cuda/cuda-runtime-api/group CUDART EXECUTION. html. [9] Keccak Tree Gpu Project sources おわりに ハッシュ関数 Keccak SHA3-512 に対し CUDA を用いて GPU への高速化実装を行った. 処理速度を比較するため, c2016 Information Processing Society of Japan 6

熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation

熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation 熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date 2011-03-17 Type URL Presentation http://hdl.handle.net/2298/23539 Right GPGPU による高速演算について 榎本昌一 東京大学大学院工学系研究科システム創成学専攻

More information

GPGPU

GPGPU GPGPU 2013 1008 2015 1 23 Abstract In recent years, with the advance of microscope technology, the alive cells have been able to observe. On the other hand, from the standpoint of image processing, the

More information

1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境 Lin

1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境 Lin Windows で始める CUDA 入門 GTC 2013 チュートリアル エヌビディアジャパン CUDA エンジニア森野慎也 1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境

More information

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments 計算機アーキテクチャ第 11 回 マルチプロセッサ 本資料は授業用です 無断で転載することを禁じます 名古屋大学 大学院情報科学研究科 准教授加藤真平 デスクトップ ジョブレベル並列性 スーパーコンピュータ 並列処理プログラム プログラムの並列化 for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } プログラムの並列化 x[0] = a[0] + b[0];

More information

07-二村幸孝・出口大輔.indd

07-二村幸孝・出口大輔.indd GPU Graphics Processing Units HPC High Performance Computing GPU GPGPU General-Purpose computation on GPU CPU GPU GPU *1 Intel Quad-Core Xeon E5472 3.0 GHz 2 6 MB L2 cache 1600 MHz FSB 80 GFlops 1 nvidia

More information

Microsoft PowerPoint - GPU_computing_2013_01.pptx

Microsoft PowerPoint - GPU_computing_2013_01.pptx GPU コンピューティン No.1 導入 東京工業大学 学術国際情報センター 青木尊之 1 GPU とは 2 GPGPU (General-purpose computing on graphics processing units) GPU を画像処理以外の一般的計算に使う GPU の魅力 高性能 : ハイエンド GPU はピーク 4 TFLOPS 超 手軽さ : 普通の PC にも装着できる 低価格

More information

[4] ACP (Advanced Communication Primitives) [1] ACP ACP [2] ACP Tofu UDP [3] HPC InfiniBand InfiniBand ACP 2 ACP, 3 InfiniBand ACP 4 5 ACP 2. ACP ACP

[4] ACP (Advanced Communication Primitives) [1] ACP ACP [2] ACP Tofu UDP [3] HPC InfiniBand InfiniBand ACP 2 ACP, 3 InfiniBand ACP 4 5 ACP 2. ACP ACP InfiniBand ACP 1,5,a) 1,5,b) 2,5 1,5 4,5 3,5 2,5 ACE (Advanced Communication for Exa) ACP (Advanced Communication Primitives) HPC InfiniBand ACP InfiniBand ACP ACP InfiniBand Open MPI 20% InfiniBand Implementation

More information

本文ALL.indd

本文ALL.indd Intel Xeon プロセッサにおける Cache Coherency 時間の性能測定方法河辺峻田口成美古谷英祐 Intel Xeon プロセッサにおける Cache Coherency 時間の性能測定方法 Performance Measurement Method of Cache Coherency Effects on an Intel Xeon Processor System 河辺峻田口成美古谷英祐

More information

EnSightのご紹介

EnSightのご紹介 オープン CAE シンポジウム 2014 汎用ポストプロセッサー EnSight の大規模データ対応 CEI ソフトウェア株式会社代表取締役吉川慈人 http://www.ceisoftware.co.jp/ 内容 大規模データで時間のかかる処理 クライアント サーバー機能 マルチスレッドによる並列処理 サーバーの分散処理 クライアントの分散処理 ( 分散レンダリング ) EnSightのOpenFOAMインターフェース

More information

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx GPU のプログラム構造 長岡技術科学大学電気電子情報工学専攻出川智啓 今回の内容 GPU プログラミング環境 (CUDA) GPU プログラムの実行の流れ CUDA によるプログラムの記述 カーネル (GPU で処理する関数 ) の構造 記述方法とその理由 GPU 固有のパラメータの確認 405 GPU(Graphics Processing Unit) とは 画像処理専用のハードウェア 具体的には画像処理用のチップ

More information

1 OpenCL OpenCL 1 OpenCL GPU ( ) 1 OpenCL Compute Units Elements OpenCL OpenCL SPMD (Single-Program, Multiple-Data) SPMD OpenCL work-item work-group N

1 OpenCL OpenCL 1 OpenCL GPU ( ) 1 OpenCL Compute Units Elements OpenCL OpenCL SPMD (Single-Program, Multiple-Data) SPMD OpenCL work-item work-group N GPU 1 1 2 1, 3 2, 3 (Graphics Unit: GPU) GPU GPU GPU Evaluation of GPU Computing Based on An Automatic Program Generation Technology Makoto Sugawara, 1 Katsuto Sato, 1 Kazuhiko Komatsu, 2 Hiroyuki Takizawa

More information

untitled

untitled A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }

More information

main.dvi

main.dvi PC 1 1 [1][2] [3][4] ( ) GPU(Graphics Processing Unit) GPU PC GPU PC ( 2 GPU ) GPU Harris Corner Detector[5] CPU ( ) ( ) CPU GPU 2 3 GPU 4 5 6 7 1 toyohiro@isc.kyutech.ac.jp 45 2 ( ) CPU ( ) ( ) () 2.1

More information

ストリームを用いたコンカレントカーネルプログラミングと最適化 エヌビディアジャパン CUDAエンジニア森野慎也 GTC Japan 2014

ストリームを用いたコンカレントカーネルプログラミングと最適化 エヌビディアジャパン CUDAエンジニア森野慎也 GTC Japan 2014 ストリームを用いたコンカレントカーネルプログラミングと最適化 エヌビディアジャパン CUDAエンジニア森野慎也 GTC Japan 2014 コンカレントな処理の実行 システム内部の複数の処理を 平行に実行する CPU GPU メモリ転送 カーネル実行 複数のカーネル間 ストリーム GPU 上の処理キュー カーネル実行 メモリ転送の並列性 実行順序 DEFAULT STREAM Stream : GPU

More information

Slide 1

Slide 1 CUDA プログラミングの基本 パート I - ソフトウェアスタックとメモリ管理 CUDA の基本の概要 パート I CUDAのソフトウェアスタックとコンパイル GPUのメモリ管理 パートII カーネルの起動 GPUコードの具体項目 注 : 取り上げているのは基本事項のみです そのほか多数の API 関数についてはプログラミングガイドを ご覧ください CUDA インストレーション CUDA インストレーションの構成

More information

untitled

untitled A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }

More information

修士論文

修士論文 AVX を用いた倍々精度疎行列ベクトル積の高速化 菱沼利彰 1 藤井昭宏 1 田中輝雄 1 長谷川秀彦 2 1 工学院大学 2 筑波大学 1 目次 1. 研究背景 目的 2. 実装, 実験環境 3. 実験 - 倍々精度ベクトル演算 - 4. 実験 - 倍々精度疎行列ベクトル積 - 5. まとめ 多倍長精度計算フォーラム 2 目次 1. 研究背景 目的 2. 実装, 実験環境 3. 実験 - 倍々精度ベクトル演算

More information

Slide 1

Slide 1 CUDA プログラミングの基本 パート II - カーネル CUDA の基本の概要 パート I CUDAのソフトウェアスタックとコンパイル GPUのメモリ管理 パート II カーネルの起動 GPUコードの具体像 注 : 取り上げているのは基本事項のみです そのほか多数の API 関数についてはプログラミングガイドを ご覧ください GPU 上でのコードの実行 カーネルは C 関数 + 多少の制約 ホストメモリはアクセスできない戻り値型は

More information

システムソリューションのご紹介

システムソリューションのご紹介 HP 2 C 製品 :VXPRO/VXSMP サーバ 製品アップデート 製品アップデート VXPRO と VXSMP での製品オプションの追加 8 ポート InfiniBand スイッチ Netlist HyperCloud メモリ VXPRO R2284 GPU サーバ 製品アップデート 8 ポート InfiniBand スイッチ IS5022 8 ポート 40G InfiniBand スイッチ

More information

CUDA を用いた画像処理 画像処理を CUDA で並列化 基本的な並列化の考え方 目標 : 妥当な Naïve コードが書ける 最適化の初歩がわかる ブロックサイズ メモリアクセスパターン

CUDA を用いた画像処理 画像処理を CUDA で並列化 基本的な並列化の考え方 目標 : 妥当な Naïve コードが書ける 最適化の初歩がわかる ブロックサイズ メモリアクセスパターン CUDA 画像処理入門 エヌビディアジャパン CUDA エンジニア森野慎也 GTC Japan 2014 CUDA を用いた画像処理 画像処理を CUDA で並列化 基本的な並列化の考え方 目標 : 妥当な Naïve コードが書ける 最適化の初歩がわかる ブロックサイズ メモリアクセスパターン RGB Y( 輝度 ) 変換 カラー画像から グレイスケールへの変換 Y = 0.299 R + 0.587

More information

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc 2.3. アプリ性能 2.3.1. Intel クアッドコア CPU でのベンチマーク 東京海洋大学吉岡諭 1. はじめにこの数年でマルチコア CPU の普及が進んできた x86 系の CPU でも Intel と AD がデュアルコア クアッドコアの CPU を次々と市場に送り出していて それらが PC クラスタの CPU として採用され HPC に活用されている ここでは Intel クアッドコア

More information

計算機アーキテクチャ

計算機アーキテクチャ 計算機アーキテクチャ 第 11 回命令実行の流れ 2014 年 6 月 20 日 電気情報工学科 田島孝治 1 授業スケジュール ( 前期 ) 2 回日付タイトル 1 4/7 コンピュータ技術の歴史と コンピュータアーキテクチャ 2 4/14 ノイマン型コンピュータ 3 4/21 コンピュータのハードウェア 4 4/28 数と文字の表現 5 5/12 固定小数点数と浮動小数点表現 6 5/19 計算アーキテクチャ

More information

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード] 200/0/9 数値流体解析の並列効率とその GPU による高速化の試み 清水建設 ( 株 ) 技術研究所 PHAM VAN PHUC ( ファムバンフック ) 流体計算時間短縮と GPU の活用の試み 現 CPUとの比較によりGPU 活用の可能性 現 CPU の最大利用 ノード内の最大計算資源の利用 すべてCPUコアの利用 適切なアルゴリズムの利用 CPU コア性能の何倍? GPU の利用の試み

More information

Microsoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc

Microsoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc Article ID: NVSI-050110JP Created: 2005/10/19 Revised: - NetVault 仮想テープ ライブラリのパフォーマンス検証 : dothill SANnetⅡSATA 編 1. 検証の目的 ドットヒルシステムズ株式会社の SANnetll SATA は 安価な SATA ドライブを使用した大容量ストレージで ディスクへのバックアップを行う際の対象デバイスとして最適と言えます

More information

この方法では, 複数のアドレスが同じインデックスに対応づけられる可能性があるため, キャッシュラインのコピーと書き戻しが交互に起きる性のミスが発生する可能性がある. これを回避するために考案されたのが, 連想メモリアクセスができる形キャッシュである. この方式は, キャッシュに余裕がある限り主記憶の

この方法では, 複数のアドレスが同じインデックスに対応づけられる可能性があるため, キャッシュラインのコピーと書き戻しが交互に起きる性のミスが発生する可能性がある. これを回避するために考案されたのが, 連想メモリアクセスができる形キャッシュである. この方式は, キャッシュに余裕がある限り主記憶の 計算機システム Ⅱ 演習問題学科学籍番号氏名 1. 以下の分の空白を埋めなさい. CPUは, 命令フェッチ (F), 命令デコード (D), 実行 (E), 計算結果の書き戻し (W), の異なるステージの処理を反復実行するが, ある命令の計算結果の書き戻しをするまで, 次の命令のフェッチをしない場合, ( 単位時間当たりに実行できる命令数 ) が低くなる. これを解決するために考案されたのがパイプライン処理である.

More information

Pervasive PSQL v11 のベンチマーク パフォーマンスの結果

Pervasive PSQL v11 のベンチマーク パフォーマンスの結果 Pervasive PSQL v11 のベンチマークパフォーマンスの結果 Pervasive PSQL ホワイトペーパー 2010 年 9 月 目次 実施の概要... 3 新しいハードウェアアーキテクチャがアプリケーションに及ぼす影響... 3 Pervasive PSQL v11 の設計... 4 構成... 5 メモリキャッシュ... 6 ベンチマークテスト... 6 アトミックテスト... 7

More information

GPU チュートリアル :OpenACC 篇 Himeno benchmark を例題として 高エネルギー加速器研究機構 (KEK) 松古栄夫 (Hideo Matsufuru) 1 December 2018 HPC-Phys 理化学研究所 共通コードプロジェクト

GPU チュートリアル :OpenACC 篇 Himeno benchmark を例題として 高エネルギー加速器研究機構 (KEK) 松古栄夫 (Hideo Matsufuru) 1 December 2018 HPC-Phys 理化学研究所 共通コードプロジェクト GPU チュートリアル :OpenACC 篇 Himeno benchmark を例題として 高エネルギー加速器研究機構 (KEK) 松古栄夫 (Hideo Matsufuru) 1 December 2018 HPC-Phys 勉強会 @ 理化学研究所 共通コードプロジェクト Contents Hands On 環境について Introduction to GPU computing Introduction

More information

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1 GPU 4 2010 8 28 1 GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1 Register & Shared Memory ( ) CPU CPU(Intel Core i7 965) GPU(Tesla

More information

研究報告用MS-Wordテンプレートファイル

研究報告用MS-Wordテンプレートファイル マルチコアおよび GPGPU 環境における画像処理最適化 矢野勝久 高山征大 境隆二出宮健彦 スケーラを題材として, マルチコアおよび GPGPU 各々の HW 特性に適した画像処理の最適化を図る. マルチコア環境では, 数値演算処理の削減,SIMD 化など直列性能の最適化を行った後,OpenMP を利用して並列化を図る.GPGPU(CUDA) では, スレッド並列を優先して並列処理の設計を行いブロックサイズを決める.

More information

ComputerArchitecture.ppt

ComputerArchitecture.ppt 1 人間とコンピュータの違い コンピュータ 複雑な科学計算や膨大な量のデータの処理, さまざまな装置の制御, 通信などを定められた手順に従って間違いなく高速に実行する 人間 誰かに命令されなくても自発的に処理したり, 条件が変化しても臨機応変に対処できる 多くの問題解決を経験することで, より高度な問題解決法を考え出す 数値では表しにくい情報の処理ができる 2 コンピュータの構成要素 構成要素 ハードウェア

More information

TSUBAME2.0におけるGPUの 活用方法

TSUBAME2.0におけるGPUの 活用方法 GPU プログラミング 基礎編 東京工業大学学術国際情報センター 1. GPU コンピューティングと TSUBAME2.0 スーパーコンピュータ GPU コンピューティングとは グラフィックプロセッサ (GPU) は グラフィック ゲームの画像計算のために 進化を続けてきた 現在 CPU のコア数は 2~12 個に対し GPU 中には数百コア その GPU を一般アプリケーションの高速化に利用! GPGPU

More information

GPGPUイントロダクション

GPGPUイントロダクション 大島聡史 ( 並列計算分科会主査 東京大学情報基盤センター助教 ) GPGPU イントロダクション 1 目的 昨今注目を集めている GPGPU(GPU コンピューティング ) について紹介する GPGPU とは何か? 成り立ち 特徴 用途 ( ソフトウェアや研究例の紹介 ) 使い方 ( ライブラリ 言語 ) CUDA GPGPU における課題 2 GPGPU とは何か? GPGPU General-Purpose

More information

GPGPU によるアクセラレーション環境について

GPGPU によるアクセラレーション環境について GPGPU によるアクセラレーション環境について 長屋貴量 自然科学研究機構分子科学研究所技術課計算科学技術班 概要 GPGPU とは 単純で画一的なデータを一度に大量に処理することに特化したグラフィックカードの演算資源を 画像処理以外の汎用的な目的に応用する技術の一つである 近年 その演算能力は CPU で通常言われるムーアの法則に則った場合とは異なり 飛躍的に向上しており その演算性能に魅力を感じた各分野での応用が広がってきている

More information

hotspot の特定と最適化

hotspot の特定と最適化 1 1? 1 1 2 1. hotspot : hotspot hotspot Parallel Amplifier 1? 2. hotspot : (1 ) Parallel Composer 1 Microsoft* Ticker Tape Smoke 1.0 PiSolver 66 / 64 / 2.76 ** 84 / 27% ** 75 / 17% ** 1.46 89% Microsoft*

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 総務省 ICTスキル総合習得教材 概要版 eラーニング用 [ コース2] データ蓄積 2-5: 多様化が進展するクラウドサービス [ コース1] データ収集 [ コース2] データ蓄積 [ コース3] データ分析 [ コース4] データ利活用 1 2 3 4 5 座学本講座の学習内容 (2-5: 多様化が進展するクラウドサービス ) 講座概要 近年 注目されているクラウドの関連技術を紹介します PCやサーバを構成するパーツを紹介後

More information

memcached 方式 (No Replication) 認証情報は ログインした tomcat と設定された各 memcached サーバーに認証情報を分割し振り分けて保管する memcached の方系がダウンした場合は ログインしたことのあるサーバーへのアクセスでは tomcat に認証情報

memcached 方式 (No Replication) 認証情報は ログインした tomcat と設定された各 memcached サーバーに認証情報を分割し振り分けて保管する memcached の方系がダウンした場合は ログインしたことのあるサーバーへのアクセスでは tomcat に認証情報 IdPClusteringPerformance Shibboleth-IdP 冗長化パフォーマンス比較試験報告書 2012 年 1 月 17 日国立情報学研究所 Stateless Clustering 方式は SAML2 を想定しているため CryptoTransientID は不使用 使用するとパフォーマンスが悪くなる可能性あり Terracotta による冗長化について EventingMapBasedStorageService

More information

NUMAの構成

NUMAの構成 GPU のプログラム 天野 アクセラレータとは? 特定の性質のプログラムを高速化するプロセッサ 典型的なアクセラレータ GPU(Graphic Processing Unit) Xeon Phi FPGA(Field Programmable Gate Array) 最近出て来た Deep Learning 用ニューロチップなど Domain Specific Architecture 1GPGPU:General

More information

スライド 1

スライド 1 知能制御システム学 画像処理の高速化 OpenCV による基礎的な例 東北大学大学院情報科学研究科鏡慎吾 swk(at)ic.is.tohoku.ac.jp 2007.07.03 リアルタイム処理と高速化 リアルタイム = 高速 ではない 目標となる時間制約が定められているのがリアルタイム処理である.34 ms かかった処理が 33 ms に縮んだだけでも, それによって与えられた時間制約が満たされるのであれば,

More information

GPUを用いたN体計算

GPUを用いたN体計算 単精度 190Tflops GPU クラスタ ( 長崎大 ) の紹介 長崎大学工学部超高速メニーコアコンピューティングセンターテニュアトラック助教濱田剛 1 概要 GPU (Graphics Processing Unit) について簡単に説明します. GPU クラスタが得意とする応用問題を議論し 長崎大学での GPU クラスタによる 取組方針 N 体計算の高速化に関する研究内容 を紹介します. まとめ

More information

Microsoft Word - no103.docx

Microsoft Word - no103.docx 次は 数える例です ex19.c /* Zeller の公式によって 1 日の曜日の分布を求めるプログラム */ int year, month, c, y, m, wnumber, count[7] = {0, i; for(year = 2001; year

More information

ワークステーション推奨スペック Avid Avid Nitris Mojo SDI Fibre 及び Adrenaline MC ソフトウェア 3.5 以降のバージョンが必要です Dual 2.26 GHz Quad Core Intel 構成のに関しては Configuration Guideli

ワークステーション推奨スペック Avid Avid Nitris Mojo SDI Fibre 及び Adrenaline MC ソフトウェア 3.5 以降のバージョンが必要です Dual 2.26 GHz Quad Core Intel 構成のに関しては Configuration Guideli ワークステーション推奨スペック Avid Avid Nitris Mojo SDI Fibre 及び Adrenaline MC/Symphony ソフトウェア 5.0.3 以降のバージョンが必要です Two 2.66 GHz 6-Core *Mojo SDI 及び Adrenaline サポート Intel Xeon (12 コア ) 32-bit カーネルで実 して下さい 64-bit カーネルは対応していません

More information

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司 4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司 3 1 1 日本原子力研究開発機構システム計算科学センター 2 理科学研究所計算科学研究機構 3 東京大学新領域創成科学研究科

More information

製品開発の現場では 各種のセンサーや測定環境を利用したデータ解析が行われ シミュレーションや動作検証等に役立てられています しかし 日々収集されるデータ量は増加し 解析も複雑化しており データ解析の負荷は徐々に重くなっています 例えば自動車の車両計測データを解析する場合 取得したデータをそのまま解析

製品開発の現場では 各種のセンサーや測定環境を利用したデータ解析が行われ シミュレーションや動作検証等に役立てられています しかし 日々収集されるデータ量は増加し 解析も複雑化しており データ解析の負荷は徐々に重くなっています 例えば自動車の車両計測データを解析する場合 取得したデータをそのまま解析 ホワイトペーパー Excel と MATLAB の連携がデータ解析の課題を解決 製品開発の現場では 各種のセンサーや測定環境を利用したデータ解析が行われ シミュレーションや動作検証等に役立てられています しかし 日々収集されるデータ量は増加し 解析も複雑化しており データ解析の負荷は徐々に重くなっています 例えば自動車の車両計測データを解析する場合 取得したデータをそのまま解析に使用することはできず

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション LAN 1. LAN,. NAT,., LAN. NTMobile Network Traversal with Mobilty [1]. NTMobile. OS TUN/TAP, LAN. 2. NTMobile NTMobile NAT, IPv4/IPv6,,. NTMobile. DC Direction Coordinator. NTMobile. DC,. NTMobile NTMfw.

More information

Operating System 仮想記憶

Operating System 仮想記憶 Operating System 仮想記憶 2018-12 記憶階層 高速 & 小容量 ( 高価 ) レジスタ アクセスタイム 数ナノ秒 容量 ~1KB CPU 内キャッシュ (SRAM) 数ナノ秒 1MB 程度 ランダムアクセス 主記憶 (DRAM) 数十ナノ秒 数 GB 程度 ランダムアクセス フラッシュメモリ (SSD) 約 100 万倍 シーケンシャルアクセス 磁気ディスク (HDD) 数十ミリ秒

More information

Microsoft PowerPoint - 11Web.pptx

Microsoft PowerPoint - 11Web.pptx 計算機システムの基礎 ( 第 10 回配布 ) 第 7 章 2 節コンピュータの性能の推移 (1) コンピュータの歴史 (2) コンピュータの性能 (3) 集積回路の進歩 (4) アーキテクチャ 第 4 章プロセッサ (1) プロセッサの基本機能 (2) プロセッサの構成回路 (3) コンピュータアーキテクチャ 第 5 章メモリアーキテクチャ 1. コンピュータの世代 計算する機械 解析機関 by

More information

GPUコンピューティング講習会パート1

GPUコンピューティング講習会パート1 GPU コンピューティング (CUDA) 講習会 GPU と GPU を用いた計算の概要 丸山直也 スケジュール 13:20-13:50 GPU を用いた計算の概要 担当丸山 13:50-14:30 GPU コンピューティングによる HPC アプリケーションの高速化の事例紹介 担当青木 14:30-14:40 休憩 14:40-17:00 CUDA プログラミングの基礎 担当丸山 TSUBAME の

More information

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015 ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ 本セッションの目的 本セッションでは ERDAS IMAGINEにおける処理速度向上を目的として機器 (SSD 等 ) 及び並列処理の比較 検討を行った 1.SSD 及び RAMDISK を利用した処理速度の検証 2.Condorによる複数 PCを用いた並列処理 2.1 分散並列処理による高速化試験 (ERDAS IMAGINEのCondorを使用した試験

More information

WebGL OpenGL GLSL Kageyama (Kobe Univ.) Visualization / 57

WebGL OpenGL GLSL Kageyama (Kobe Univ.) Visualization / 57 WebGL 2014.04.15 X021 2014 3 1F Kageyama (Kobe Univ.) Visualization 2014.04.15 1 / 57 WebGL OpenGL GLSL Kageyama (Kobe Univ.) Visualization 2014.04.15 2 / 57 WebGL Kageyama (Kobe Univ.) Visualization 2014.04.15

More information

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx GPU のメモリ階層 長岡技術科学大学電気電子情報工学専攻出川智啓 今回の内容 GPU のメモリ階層 グローバルメモリ 共有メモリ モザイク処理への適用 コンスタントメモリ 空間フィルタへの適用 577 GPU の主要部品 基盤 GPU( チップ )+ 冷却部品 画面出力端子 電源入力端子 メモリ 特性の把握が重要 電源入力端子 画面出力端子 メモリ チップ PCI Ex 端子 http://www.geforce.com/whats

More information

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU GPGPU (I) GPU GPGPU 1 GPU(Graphics Processing Unit) GPU GPGPU(General-Purpose computing on GPUs) GPU GPGPU GPU ( PC ) PC PC GPU PC PC GPU GPU 2008 TSUBAME NVIDIA GPU(Tesla S1070) TOP500 29 [1] 2009 AMD

More information

CELSIUSカタログ(2012年7月版)

CELSIUSカタログ(2012年7月版) CELSIUS PC "MADE IN JAPAN" 2012.7 W520 ハイエンドの過酷な要求に応えるパワフルなデュアルと高信頼を搭載 RAID構成 選択可能 富士通がお勧めする Windows 7. ミニタワーエントリーモデル より速く より強力に 最新の技術をフル投入 スピードとパワー 安定性を提供 RAID構成 選択可能 Windows 7 Professional 32bit版 正規版

More information

GPU のアーキテクチャとプログラム構造 長岡技術科学大学電気電子情報工学専攻出川智啓

GPU のアーキテクチャとプログラム構造 長岡技術科学大学電気電子情報工学専攻出川智啓 GPU のアーキテクチャとプログラム構造 長岡技術科学大学電気電子情報工学専攻出川智啓 今回の内容 GPU のアーキテクチャ CUDA CUDA によるプログラミング 58 GPU(Graphics Processing Unit) とは 画像処理専用のハードウェア 具体的には画像処理用のチップ チップ単体では販売されていない PCI Ex カードで販売 ( チップ単体と区別せずに GPU と呼ぶことも多い

More information

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2015-GI-34 No /7/ % Selections of Discarding Mahjong Piece Using Neural Network Matsui

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2015-GI-34 No /7/ % Selections of Discarding Mahjong Piece Using Neural Network Matsui 2 3 2000 3.3% Selections of Discarding Mahjong Piece Using Neural Network Matsui Kazuaki Matoba Ryuichi 2 Abstract: Mahjong is one of games with imperfect information, and its rule is very complicated

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション みんなの ベクトル計算 たけおか @takeoka PC クラスタ コンソーシアム理事でもある 2011/FEB/20 ベクトル計算が新しい と 2008 年末に言いました Intelに入ってる! (2008 年から見た 近未来? ) GPU 計算が新しい (2008 年当時 ) Intel AVX (Advanced Vector Extension) SIMD 命令を進めて ベクトル機構をつける

More information

工学院大学建築系学科近藤研究室2000年度卒業論文梗概

工学院大学建築系学科近藤研究室2000年度卒業論文梗概 耐災害性の高い通信システムにおけるサーバ計算機の性能と消費電力に関する考察 耐障害性, 消費電力, 低消費電力サーバ 山口実靖 *. はじめに 性能と表皮電力の関係について調査し, 考察を行う 災害においては, 減災活動が極めて重要である すなわち 災害が発生した後に適切に災害に対処することにより, その被害を大きく軽減できる. 適切な災害対策を行うには災害対策を行う拠点が正常に運営されていることが必要不可欠であり,

More information

Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ 3.7x faster P100 V100 P10

Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ 3.7x faster P100 V100 P10 NVIDIA TESLA V100 CUDA 9 のご紹介 森野慎也, シニアソリューションアーキテクト (GPU-Computing) NVIDIA Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ

More information

CLEFIA_ISEC発表

CLEFIA_ISEC発表 128 ビットブロック暗号 CLEFIA 白井太三 渋谷香士 秋下徹 盛合志帆 岩田哲 ソニー株式会社 名古屋大学 目次 背景 アルゴリズム仕様 設計方針 安全性評価 実装性能評価 まとめ 2 背景 AES プロジェクト開始 (1997~) から 10 年 AES プロジェクト 攻撃法の進化 代数攻撃 関連鍵攻撃 新しい攻撃法への対策 暗号設計法の進化 IC カード, RFID などのアプリケーション拡大

More information

IBM Internet Security Systems NTFS ファイルシステム必須 一覧の 以後にリリースされた Service Pack (Release 2 等は除く ) は特に記載の無い限りサポートいたします メモリ 最小要件 512MB 推奨要件 1GB 最小要件 9GB 推奨要件

IBM Internet Security Systems NTFS ファイルシステム必須 一覧の 以後にリリースされた Service Pack (Release 2 等は除く ) は特に記載の無い限りサポートいたします メモリ 最小要件 512MB 推奨要件 1GB 最小要件 9GB 推奨要件 SiteProtector 2.0 Service Pack 9.0 システム要件 2012 年 2 月 13 日 SiteProtector 2.0 Service Pack 9.0 システム要件... 1 Service Pack 9.0 - SiteProtector システム要件... 1 Service Pack 9.0 仮想環境... 1 Deployment Manager のインストール要件...

More information

IPSJ SIG Technical Report Vol.2013-HPC-138 No /2/21 GPU CRS 1,a) 2,b) SpMV GPU CRS SpMV GPU NVIDIA Kepler CUDA5.0 Fermi GPU Kepler Kepler Tesla

IPSJ SIG Technical Report Vol.2013-HPC-138 No /2/21 GPU CRS 1,a) 2,b) SpMV GPU CRS SpMV GPU NVIDIA Kepler CUDA5.0 Fermi GPU Kepler Kepler Tesla GPU CRS 1,a),b) SpMV GPU CRS SpMV GPU NVIDIA Kepler CUDA5.0 Fermi GPU Kepler Kepler Tesla K0 CUDA5.0 cusparse CRS SpMV 00 1.86 177 1. SpMV SpMV CRS Compressed Row Storage *1 SpMV GPU GPU NVIDIA Kepler

More information

27_02.indd

27_02.indd GPGPU を用いたソフトウェア高速化手法 Technique to Speedup of the software by GPGPU 大田弘樹 馬場明子 下田雄一 安田隆洋 山本啓二 Hiroki Ota, Akiko Baba, Shimoda Yuichi, Takahiro Yasuta, Keiji Yamamoto PCやワークステーションにおいて画像処理に特化して使用されてきたGPUを

More information

IPSJ SIG Technical Report Vol.2013-ARC-203 No /2/1 SMYLE OpenCL (NEDO) IT FPGA SMYLEref SMYLE OpenCL SMYLE OpenCL FPGA 1

IPSJ SIG Technical Report Vol.2013-ARC-203 No /2/1 SMYLE OpenCL (NEDO) IT FPGA SMYLEref SMYLE OpenCL SMYLE OpenCL FPGA 1 SMYLE OpenCL 128 1 1 1 1 1 2 2 3 3 3 (NEDO) IT FPGA SMYLEref SMYLE OpenCL SMYLE OpenCL FPGA 128 SMYLEref SMYLE OpenCL SMYLE OpenCL Implementation and Evaluations on 128 Cores Takuji Hieda 1 Noriko Etani

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション プロシージャ プロシージャの種類 Subプロシージャ Functionプロシージャ Propertyプロシージャ Sub プロシージャ Subステートメント~ステートメントで囲まれる 実行はするけど 値は返さない 途中で抜けたいときは Exit Sub を行なう Public Sub はマクロの実行候補に表示される Sub プロシージャの例 Public Sub TestSubProc() Call

More information

N08

N08 CPU のキモチ C.John 自己紹介 英語きらい 絵かけない 人の話を素直に信じない CPUにキモチなんてない お詫び 予告ではCとC# とありましたがやる気と時間の都合上 C++のみを対象とします 今日のネタ元 MSDN マガジン 2010 年 10 月号 http://msdn.microsoft.com/ja-jp/magazine/cc850829.aspx Windows と C++

More information

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2014-DPS-159 No.31 Vol.2014-MBL-71 No /5/16 仮想化環境における読込み書込み比率を考慮した動的 VM メモリ割り当て 1 坂本雅哉 1 山口実靖 近年, サーバの

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2014-DPS-159 No.31 Vol.2014-MBL-71 No /5/16 仮想化環境における読込み書込み比率を考慮した動的 VM メモリ割り当て 1 坂本雅哉 1 山口実靖 近年, サーバの 仮想化環境における読込み書込み比率を考慮した動的 VM メモリ割り当て 1 坂本雅哉 1 山口実靖 近年, サーバの消費電力増加, 設置スペース肥大化が問題となっており, その解決策の一つとして, 仮想化技術を用いて複数の仮想マシンを一台の物理マシンに集約する手法がある. 仮想化環境では, 仮想マシンを停止させることなくメモリの割り当て量を変更することが可能である. 一つの物理マシンにて複数の仮想マシンを稼働させ,

More information

Microsoft PowerPoint pptx

Microsoft PowerPoint pptx 情報セキュリティ 第 4 回 2011 年 5 月 13 日 ( 金 ) 1/24 本日学ぶこと 使い捨てパッド DES (Data Encryption Standard) AES (Advanced Encryption Standard) ブロック暗号のモード 2 ( 復習 ) 暗号系 平文 平文 暗号化 暗号化鍵 復号鍵 復号 盗聴可能な通信路 暗号文 暗号文 3 ( 復習 ) 単一換字暗号

More information

21 e-learning Development of Real-time Learner Detection System for e-learning

21 e-learning Development of Real-time Learner Detection System for e-learning 21 e-learning Development of Real-time Learner Detection System for e-learning 1100349 2010 3 1 e-learning WBT (Web Based training) e-learning LMS (Learning Management System) LMS WBT e-learning e-learning

More information

OpenGL GLSL References Kageyama (Kobe Univ.) Visualization / 58

OpenGL GLSL References Kageyama (Kobe Univ.) Visualization / 58 WebGL *1 2013.04.23 *1 X021 2013 LR301 Kageyama (Kobe Univ.) Visualization 2013.04.23 1 / 58 OpenGL GLSL References Kageyama (Kobe Univ.) Visualization 2013.04.23 2 / 58 Kageyama (Kobe Univ.) Visualization

More information

Microsoft PowerPoint - ARCEMB08HayashiSlides.ppt [互換モード]

Microsoft PowerPoint - ARCEMB08HayashiSlides.ppt [互換モード] 演算 / メモリ性能バランスを考慮した CMP 向けオンチップ メモリ貸与法の提案 九州大学 林徹生今里賢一井上弘士村上和彰 1 発表手順 背景 目的 演算 / メモリ性能バランシング 概要 アクセスレイテンシの削減とオーバーヘッド 提案手法の実現方法 着目する命令 (Cell プロセッサへの ) 実装 性能評価 姫野ベンチマーク Susan@MiBench おわりに 2 チップマルチプロセッサ (CMP)

More information

提案書

提案書 アクセスログ解析ソフト Angelfish インストールについて Windows 版 2018 年 05 月 07 日 ( 月 ) 有限会社インターログ TEL: 042-354-9620 / FAX: 042-354-9621 URL: http://www.interlog.co.jp/ はじめに Angelfish のインストールに手順について説明致します 詳細は US のヘルプサイトを参照してください

More information

三者ミーティング

三者ミーティング Corral Puzzle の 整数計画法による解法と評価 第 11 回組合せゲーム パズル研究集会 2016 年 月 7 日 ( 月 ) 大阪電気通信大学 弘中健太鈴木裕章上嶋章宏 2016//7 第 11 回組合せゲーム パズル研究集会 2 発表の流れ 研究の背景 整数計画法と先行研究 2 Corral Puzzle ルールと定義 定式化 2 種類の閉路性の定式化 7 1 6 評価 計測結果と考察

More information

Microsoft PowerPoint - suda.pptx

Microsoft PowerPoint - suda.pptx GPU の HWアーキテクチャと高性能化手法 須田礼仁 ( 東京大学 ) 2011/03/22 GPU 高性能プログラミング GPU のハードウェアを理解する CUDA のソフトウェアを理解する CUDA でプログラムを書くのは難しくないが, CUDA で高速なプログラムを書くのは難しい どうすれば遅くなるかを理解する! 効果が大きいものから順に説明します 1 高性能プログラミングの手順 1. 現在のコードの,

More information

MATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~

MATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~ MATLAB における並列 分散コンピューティング ~ Parallel Computing Toolbox & MATLAB Distributed Computing Server ~ MathWorks Japan Application Engineering Group Takashi Yoshida 2016 The MathWorks, Inc. 1 System Configuration

More information

28 SAS-X Proposal of Multi Device Authenticable Password Management System using SAS-X 1195074 2017 2 3 SAS-X Web ID/ ID/ Web SAS-2 SAS-X i Abstract Proposal of Multi Device Authenticable Password Management

More information

GPGPUクラスタの性能評価

GPGPUクラスタの性能評価 2008 年度理研 HPC シンポジウム第 3 世代 PC クラスタ GPGPU クラスタの性能評価 2009 年 3 月 12 日 富士通研究所成瀬彰 発表の概要 背景 GPGPU による高速化 CUDA の概要 GPU のメモリアクセス特性調査 姫野 BMT の高速化 GPGPU クラスタによる高速化 GPU Host 間のデータ転送 GPU-to-GPU の通信性能 GPGPU クラスタ上での姫野

More information

! 行行 CPUDSP PPESPECell/B.E. CPUGPU 行行 SIMD [SSE, AltiVec] 用 HPC CPUDSP PPESPE (Cell/B.E.) SPE CPUGPU GPU CPU DSP DSP PPE SPE SPE CPU DSP SPE 2

! 行行 CPUDSP PPESPECell/B.E. CPUGPU 行行 SIMD [SSE, AltiVec] 用 HPC CPUDSP PPESPE (Cell/B.E.) SPE CPUGPU GPU CPU DSP DSP PPE SPE SPE CPU DSP SPE 2 ! OpenCL [Open Computing Language] 言 [OpenCL C 言 ] CPU, GPU, Cell/B.E.,DSP 言 行行 [OpenCL Runtime] OpenCL C 言 API Khronos OpenCL Working Group AMD Broadcom Blizzard Apple ARM Codeplay Electronic Arts Freescale

More information

CELSIUSカタログ(2012年5月版)

CELSIUSカタログ(2012年5月版) CELSIUS PC "MADE IN JAPAN" 2012.5 New W520 ハイエンドの過酷な要求に応えるパワフルなデュアルと高信頼を搭載 トを搭載 RAID構成 選択可能 New グラフィックス/GPUカード 500GB 1TB 500GB 2 RAID1 Quadro 5000 Quadro 4000 Quadro 2000 Quadro 600 4 Quadro 4000 TeslaTM

More information

hpc141_shirahata.pdf

hpc141_shirahata.pdf GPU アクセラレータと不揮発性メモリ を考慮した I/O 性能の予備評価 白幡晃一 1,2 佐藤仁 1,2 松岡聡 1 1: 東京工業大学 2: JST CREST 1 GPU と不揮発性メモリを用いた 大規模データ処理 大規模データ処理 センサーネットワーク 遺伝子情報 SNS など ペタ ヨッタバイト級 高速処理が必要 スーパーコンピュータ上での大規模データ処理 GPU 高性能 高バンド幅 例

More information

改版履歴 Ver. 日付履歴初版 2011/06/30 目次 1. はじめに 本文中の記号について RemoteFX 設定の全体の流れ システム構成例 RemoteFX を利用するための事前準備 サーバーの設定.

改版履歴 Ver. 日付履歴初版 2011/06/30 目次 1. はじめに 本文中の記号について RemoteFX 設定の全体の流れ システム構成例 RemoteFX を利用するための事前準備 サーバーの設定. NEC Express5800 シリーズ Windows Server 2008 R2 Service Pack1 RemoteFX 設定手順書 1.0 版 2011/6/30 Microsoft Windows Windows Server Hyper-V および RemoteFX は 米国 Microsoft Corporation の米国およびその他の国における登録商標または商標です その他

More information

6 文字列処理 ( 教科書 p.301p.332) 今回は 言語の文字列処理について復習し, 文字列の探索手法について学びます. 文字列とはプログラム上での文字の並びを表すのが文字列です. これは中身が空であっても同様に呼ばれます. 言語では "STRING" のように文字の並びを二重引用符 " で囲んだものを文字列リテラルと呼びます. SII コードの場合, 割り当てられる数値は図 1 のようになっています.

More information

Microsoft PowerPoint ppt

Microsoft PowerPoint ppt 情報セキュリティ第 06 回 大久保誠也 静岡県立大学経営情報学部 はじめに はじめに いままでの復習 RS 暗号の特徴 一方向関数とハッシュ値 演習 : ハッシュ値 2/34 復習 : 盗聴 lice からデータが来た 前回までの復習 送信 lice 盗聴 送信 :> で送信した情報は 基本的に盗聴し放題! 3/34 覗き見してやろう Eve 重要な情報は送らない or 暗号化 4/34 復習 :

More information

proventia_site_protector_sp8_sysreq

proventia_site_protector_sp8_sysreq SiteProtector 2.0 Service Pack 8.x システム要件 2010 年 7 月 26 日 SiteProtector 2.0 Service Pack 8.x システム要件... 1 Service Pack 8.1 - SiteProtector システム要件... 1 Service Pack 8.1 仮想環境... 1 Service Pack 8.1 - Express

More information

IPSJ SIG Technical Report Vol.2014-CG-155 No /6/28 1,a) 1,2,3 1 3,4 CG An Interpolation Method of Different Flow Fields using Polar Inter

IPSJ SIG Technical Report Vol.2014-CG-155 No /6/28 1,a) 1,2,3 1 3,4 CG An Interpolation Method of Different Flow Fields using Polar Inter ,a),2,3 3,4 CG 2 2 2 An Interpolation Method of Different Flow Fields using Polar Interpolation Syuhei Sato,a) Yoshinori Dobashi,2,3 Tsuyoshi Yamamoto Tomoyuki Nishita 3,4 Abstract: Recently, realistic

More information

Microsoft PowerPoint - SWoPP2010_Shirahata

Microsoft PowerPoint - SWoPP2010_Shirahata GPU を考慮した MapReduce の タスクスケジューリング 白幡晃一 1 佐藤仁 1 松岡聡 1 2 3 1 東京工業大学 2 科学技術振興機構 3 国立情報学研究所 大規模データ処理 情報爆発時代における 大規模データ処理 気象 生物学 天文学 物理学など様々な科学技術計算での利用 MapReduce 大規模データ処理のためのプログラミングモデルデ スケーラブルな並列データ処理 GPGPU

More information

Microsoft Word - Dolphin Expressによる10Gbpソケット通信.docx

Microsoft Word - Dolphin Expressによる10Gbpソケット通信.docx Dolphin Express による 10Gbps ソケット通信 Dolphin Express は 標準的な低価格のサーバを用いて 強力なクラスタリングシステムが構築できる ハードウェアとソフトウェアによる通信用アーキテクチャです 本資料では Dolphin Express 製品の概要と 実際にどの程度の性能が出るのか市販 PC での実験結果をご紹介します Dolphin Express 製品体系

More information

ビッグデータやクラウドのシステム基盤向けに処理性能を強化した「BladeSymphony」および「HA8000シリーズ」の新製品を販売開始

ビッグデータやクラウドのシステム基盤向けに処理性能を強化した「BladeSymphony」および「HA8000シリーズ」の新製品を販売開始 2013 年 9 月 19 日 株式会社日立製作所 ビッグデータやクラウドのシステム基盤向けに処理性能を強化した BladeSymphony および HA8000 シリーズ の新製品を販売開始 運用管理工数の削減を実現するサーバ管理ソフトウェア Hitachi Compute Systems Manager を標準添付 BS520H サーバブレード / PCI 拡張ブレード HA8000/RS220-h

More information

HULFT Series 製品における Javaの脆弱性(CVE )に対する報告

HULFT Series 製品における Javaの脆弱性(CVE )に対する報告 2017 年 4 月 28 日 お客様各位 株式会社セゾン情報システムズ HULFT Series 製品における Java の脆弱性 (CVE-2017-3512) に対する報告 HULFT 事業部 HULFT Series 製品における Java の脆弱性 (CVE-2017-3512) に対する報告をご案内いたします - 記 - 1. 脆弱性の内容 Java において 脆弱性が公表されました (CVE-2017-3512)

More information

はじめに Dell PowerVault DL2000 Powered by Symantec Backup Exec は シンプルで管理しやすいデータ保護機能を提供する 柔軟かつ経済的なバックアップソリューションです 本ホワイトペーパーでは PowerVault DL2000 の バリューシリーズ

はじめに Dell PowerVault DL2000 Powered by Symantec Backup Exec は シンプルで管理しやすいデータ保護機能を提供する 柔軟かつ経済的なバックアップソリューションです 本ホワイトペーパーでは PowerVault DL2000 の バリューシリーズ Dell PowerVault DL2000 のバックアップ性能 デルテクニカルホワイトペーパー Dell PowerVault DL2000 Powered By Symantec 作成 : Muffadal Quettawala Scott Reichmanis はじめに Dell PowerVault DL2000 Powered by Symantec Backup Exec は シンプルで管理しやすいデータ保護機能を提供する

More information

OS

OS Operatig System 仮想記憶 2017-12 記憶階層 高速 & 小容量 ( 高価 ) レジスタ アクセスタイム 数ナノ秒 容量 ~1KB ランダムアクセス ランダムアクセス CPU 内キャッシュ (SRAM) 主記憶 (DRAM) フラッシュメモリ 数ナノ秒 数十ナノ秒 1MB 程度 数 GB 程度 シーケンシャルアクセス 磁気ディスク (HDD) 光磁気ディスク (CD-R DVD-RW

More information

暗号実装委員会報告(CRYPTRECシンポジウム2012)

暗号実装委員会報告(CRYPTRECシンポジウム2012) 暗号実装委員会報告 応募暗号と現リスト掲載暗号に対する実装性能評価の進行状況 1 目次 1. リスト作成の基本的な流れ 2. 評価対象 3. 体制 4. スケジュール 5. 評価方針 6. 評価内容 7. 評価結果の位置づけ ( 精度 ) 8. ソフトウェア実装性能評価 9. ハードウェア実装性能評価 10. まとめ 2 1. リスト作成までの基本的な流れ 事務局選出暗号 公募暗号技術 現リスト掲載暗号

More information

Microsoft PowerPoint - 6-盛合--日文.ppt

Microsoft PowerPoint - 6-盛合--日文.ppt CLEFIA Sony s s Lightweight Block Cipher Shiho Moriai Sony Corporation 1 目次 ソニーにおける暗号技術 ソニーのブロック暗号 :CLEFIA 設計の背景 アルゴリズム仕様 設計方針 実装性能評価 まとめ 2 ソニーにおける暗号技術 暗号 / 情報セキュリティ技術搭載製品の増加 各種暗号アルゴリズム 著作権保護 機器認証 電子マネー

More information

<4D F736F F D2091B28BC68CA48B8695F18D908F912E646F63>

<4D F736F F D2091B28BC68CA48B8695F18D908F912E646F63> 卒業研究報告書 題目 並列処理によるデータベース 指導教員 石水隆助教 報告者 04-1-47-175 三宅健太 近畿大学理工学部情報学科 平成 21 年 1 月 31 日提出 概要 膨大な量のデータから成るテーブルに対し検索し 1 つの応答時間が非常に大きなものの場合がある その原因には SQL 文の文法が悪い あるいはインデックスの張り方が悪いなどデータがきちんとそれぞれのテーブルに割り振られていない場合や

More information

iphone GPGPU GPU OpenCL Mac OS X Snow LeopardOpenCL iphone OpenCL OpenCL NVIDIA GPU CUDA GPU GPU GPU 15 GPU GPU CPU GPU iii OpenMP MPI CPU OpenCL CUDA OpenCL CPU OpenCL GPU NVIDIA Fermi GPU Fermi GPU GPU

More information

並列計算導入.pptx

並列計算導入.pptx 並列計算の基礎 MPI を用いた並列計算 並列計算の環境 並列計算 複数の計算ユニット(PU, ore, Pなど を使用して 一つの問題 計算 を行わせる 近年 並列計算を手軽に使用できる環境が急速に整いつつある >通常のP PU(entral Processing Unit)上に計算装置であるoreが 複数含まれている Intel ore i7 シリーズ: 4つの計算装置(ore) 通常のプログラム

More information

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h 23 FPGA CUDA Performance Comparison of FPGA Array with CUDA on Poisson Equation (lijiang@sekine-lab.ei.tuat.ac.jp), (kazuki@sekine-lab.ei.tuat.ac.jp), (takahashi@sekine-lab.ei.tuat.ac.jp), (tamukoh@cc.tuat.ac.jp),

More information

BRXL-14シリーズの仕様

BRXL-14シリーズの仕様 BRXL-14 シリーズの仕様 最新の情報や対応機種については カタログまたはインターネットホームページ (buffalo.jp) をご参照ください 対応メディア (BRXL-14FBS : SATA 接続時 / BRXL-14U3 : USB 3.0 接続時 ) メディアの種類書き込み (*2) 読み出し (*2) BD-R(1 層 )(*1)(*3) 最大 14 倍速 (*4) 最大 12 倍速

More information

CUDA 連携とライブラリの活用 2

CUDA 連携とライブラリの活用 2 1 09:30-10:00 受付 10:00-12:00 Reedbush-H ログイン GPU 入門 13:30-15:00 OpenACC 入門 15:15-16:45 OpenACC 最適化入門と演習 17:00-18:00 OpenACC の活用 (CUDA 連携とライブラリの活用 ) CUDA 連携とライブラリの活用 2 3 OpenACC 簡単にGPUプログラムが作成できる それなりの性能が得られる

More information

Microsoft Word - HOKUSAI_system_overview_ja.docx

Microsoft Word - HOKUSAI_system_overview_ja.docx HOKUSAI システムの概要 1.1 システム構成 HOKUSAI システムは 超並列演算システム (GWMPC BWMPC) アプリケーション演算サーバ群 ( 大容量メモリ演算サーバ GPU 演算サーバ ) と システムの利用入口となるフロントエンドサーバ 用途の異なる 2 つのストレージ ( オンライン ストレージ 階層型ストレージ ) から構成されるシステムです 図 0-1 システム構成図

More information

tabaicho3mukunoki.pptx

tabaicho3mukunoki.pptx 1 2 はじめに n 目的 4倍精度演算より高速な3倍精度演算を実現する l 倍精度では足りないが4倍精度は必要ないケースに欲しい l 4倍精度に比べてデータサイズが小さい Ø 少なくともメモリ律速な計算では4倍精度よりデータ 転送時間を減らすことが可能 Ø PCIeやノード間通信がボトルネックとなりやすい GPUクラスタ環境に有効か n 研究概要 l DD型4倍精度演算 DD演算 に基づく3倍精度演算

More information

スライド 1

スライド 1 計算科学が拓く世界スーパーコンピュータは何故スーパーか 学術情報メディアセンター中島浩 http://www.para.media.kyoto-u.ac.jp/jp/ username=super password=computer 講義の概要 目的 計算科学に不可欠の道具スーパーコンピュータが どういうものか なぜスーパーなのか どう使うとスーパーなのかについて雰囲気をつかむ 内容 スーパーコンピュータの歴史を概観しつつ

More information