GPUによる樹枝状凝固成長のフェーズフィールド計算 青木尊之 * 小川慧 ** 山中晃徳 ** * 東京工業大学学術国際情報センター, ** 東京工業大学理工学研究科 溶融金属の冷却過程において形成される凝固組織の形態によって材料の機械的特性が決定することは良く知られている このようなミクロな組織の

Size: px
Start display at page:

Download "GPUによる樹枝状凝固成長のフェーズフィールド計算 青木尊之 * 小川慧 ** 山中晃徳 ** * 東京工業大学学術国際情報センター, ** 東京工業大学理工学研究科 溶融金属の冷却過程において形成される凝固組織の形態によって材料の機械的特性が決定することは良く知られている このようなミクロな組織の"

Transcription

1 1 創刊号 TSUBAME 2.0 の全貌 GPU による樹枝状凝固成長のフェーズフィールド計算 TSUBAME を用いたフラーレン ナノチューブ グラフェンの構造変化と新物質研究

2 GPUによる樹枝状凝固成長のフェーズフィールド計算 青木尊之 * 小川慧 ** 山中晃徳 ** * 東京工業大学学術国際情報センター, ** 東京工業大学理工学研究科 溶融金属の冷却過程において形成される凝固組織の形態によって材料の機械的特性が決定することは良く知られている このようなミクロな組織の形態形成を解明するために 近年強力な組織形成シミュレーション法として注目されているフェーズフィールド モデルを用いて界面の動的な変化と温度変化を解き 凝固過程を計算する これまで フェーズフィールド モデルは計算負荷が大きいため 3 次元計算が殆ど行われてこなかったが TSUBAME 1.2 のGPU を使うことで非常に高速に計算を行うことができ 60 GPUで 10TFlopsという実行性能が得られた はじめに 1 フェーズフィールド モデル 2 金属材料の機械的強度や特性はミクロの組織的構造に基づくため より高性能な材料を得るためにはミクロなダイナミクスの解明が必要である 近年 材料の相転移や相分離などの解明に非平衡統計力学から導出されるフェーズフィールド モデル [1] が注目されている 導出される方程式は時間空間の偏微分方程式になっていて 有限差分法や有限要素法などで解かれることが多い しかしフェーズフィールド モデルは計算負荷が大きいため HPC 分野において最近注目されているアクセラレータ技術 [2] 特に GPGPU(General-Purpose Graphics Processing Unit) [3] を使うことを考える GPUはパソコンにも普通に使われる画像表示専用のプロセッサであるが グラフィクス処理の高度化に伴い機能が急速に進化し 画像処理以外の一般的な計算も行えるようになってきた 浮動小数点演算の性能が高く ビデオメモリへのバンド幅が大きいため 従来のアクセラレータと違いさまざまなアプリケーションへの適用が可能である さらに 2006 年にNVIDIAがGPGPU 用の統合開発環境であるCUDA [3] をリリースしたことにより 標準 C 言語でGPGPUのアプリケーションを開発できるようになり 一気に利用が広がっている 本稿では フェーズフィールド モデルに基づいて純金属の過冷却凝固における樹枝状 ( デンドライト ) 組織の成長を計算する CUDAを用いて有限差分法で離散化された時間発展方程式をプログラミングし TSUBAME 1.2 のGPU 上で計算することにより CPU と比較して圧倒的に高速に計算できることを示す 従来のGPU 計算が単一 GPUを利用することが多かったのに対し 本研究では 1 つの GPU 上のメモリには載らないような大規模の計算に対し 領域分割法で並列化すると共に 複数ノードに搭載されたGPUを使う計算のスケーラビリティを調べた フェーズフィールド モデルは 非平衡統計物理学から導出され 分子スケールとマクロなスケールの中間のメソスケールの現象を記述できる 秩序変数 φを導入し 固相部分 φ=1に 液相部分にφ =0 と設定する 界面を含む領域ではφが 0 から 1 へと急峻かつ滑らかに変化する拡散界面として扱い φ= 0.5を界面として扱う フェーズフィールド モデルでは従来使われていた界面追跡法等の手法が不要となり 領域全体で同一の計算を行うことができる 本研究で対象とする純金属のデンドライト凝固成長ではフェーズフィールド モデルから導出されるAllen-Cahn 方程式と熱伝導方程式を解く [4] 界面エネルギーの異方性を考慮したφに対する方程式として式 (1) を用いる (1) また 式 ( 1 ) 中 β は式 ( 2 ) ε は式 ( 3 ) である (2) (3) ただし L は潜熱 Χ は [-1.0,1.0 ] の乱数 α は乱数の振幅 γ は異方性 強度 Τ m は融点 δ は界面厚さ σ は界面エネルギー λ は界面幅制 05

3 GPU による樹枝状凝固成長のフェーズフィールド計算 御パラメータ 他定数はb =tanh -1 ( 1-2 λ) W =σb /δ M =bt m µ/3 δl である 一方 凝固過程に最も関係する温度 T について 界面からの潜熱の発生を考慮した熱伝導方程式 (4) を用いる GPU コンピューティング 3 (4) 本研究では東京工業大学学術国際情報センタースーパーコンピュータTSUBAME 1.2を利用する 各ノードはSun Fire X4600 (AMD Opteron 2.4 GHz 16 コア, 32 GByte) であり ノード間は 2 本の10 Gbps のSDR Infinibandで接続されている GPU 計算のために使用するノードには NVIDIA Tesla S1070 ( 動作周波数 :1.44GHz VRAM 4GByte 最大 1036GFLOPS メモリバンド幅 102GByte/s) のうち 2 機のGPUがPCI-Express Gen1.0 8で接続されているが 本研究では 1ノードにおいて 1 機のGPUのみを用いる 一方 各ノードの Opteron CPUは 1コア当たり 4.8 GFLOPS メモリバンド幅 6.4 GByte/ sec (DDR-400) である 実行環境は CUDA 2.2 対応 Runtime NVIDIA Kernel Module OSはSUSE Enterprise Linux 10である 3-1 高速化技術 CUDAを用いてGPUのプログラミングを行った (1) 式と (4) 式を 2 次精度有限差分法で離散化し 1 次精度の時間積分 ( オイラー法 ) を行っている 従属変数である秩序変数 φの時間発展に必要なnステップとn+1ステップの配列をビデオメモリ (CUDAではグローバルメモリと呼ばれる ) 上に確保する 時間発展の過程で 必要な時だけデータをCPU 側に転送するようにし PCI-Express Bus を介したデータ通信は可能な限り頻度を減らしている 1 つのGPUが担当する計算領域の格子点数をnx ny nzとする それらをx 方向にL 分割 y 方向にM 分割 z 方向にN 分割すると 分割された小領域の格子点数はMX MY MZとなる ただし MX=nx/L MY=ny/M MZ=nz/Nである 各々の小領域に対してCUDAのブロック内のスレッドを (MX MY 1) として割り当てる 各スレッドでは z 方向にMZ 個の格子点をループで計算する 高い実行性能を得るためには 問題サイズに合わせ適切な分割数を選ぶ必要があり MX=64 MY=4 が最適であった φに対する式 (1) の離散化式は隣接の18 個の格子点にアクセスする グローバルメモリへのアクセス回数を低減させるために シェアードメモリをSoftware Managed Cache として用いる さらにシェアードメモリの使用量を節約するためにブロック内に (MX+2) (MY+2) の大きさの 3 つの配列をシェアードメモリ上に確保し サイクリック 図 1 純金属の樹枝状凝固成長の過程 に使い廻している 温度 T n に関する計算でも同じようにシェアードメモリを使い計算を行う ただし 式 (2) の右辺にφ n の時間微分 φ/ t n i, j,kが表れるため φ n i, j,k φ n+1 i, j,k の時間発展とT n i, j,k T n+1 i, j,kの時間発展のカーネル関数をフューズさせ スレッド内で φ/ t n i, j,kを保持することにより グローバルメモリへのアクセスを減らしている 3-2 単一 GPU 計算の実行性能 GPU 計算の計算結果の検証と実効性の比較のためにCPUのコードも作成している CPUコードを用いて 1 格子点あたりの浮動小数点演算数をPAPI (Performance API) [5] を用いハードウェア カウンターで測定する GPUでは整数演算もSPが処理を行うため CPUコードで数えた浮動小数点演算数を基に経過時間を測定して実行性能を評価する Tesla S1070 の1GPUからアクセスできるメモリサイズが 4 GByteであるため 計算できる最大の問題サイズが格子数 程度までに制限される 1 GPUによる計算において格子点数を変えながら 実行性能を測定すると 格子で116.8 GFLOPS 格 06

4 子にて161.6 GFLOPS 格子にて GFLOPS 格子にて GFLOPS 格子にて171.4 GFLOPSとなる CPU ( Opteron 1 コア ) での実行性能が GFLOPSであるのに対し 格子の計算では 171 GFLOPSの性能が得られ TSUBAME1.2のCPU Opteron 2.4GHz の 1CPU 計算と比較すると約 190 倍の高速化が達成された 本計算では 1 格子点当たりの浮動小数点演算が373 回である 一方 シェアードメモリを使わないと 26 回のグローバルメモリへの読み込みと 2 回の書き込みの計 28 wordのメモリアクセスがある 本研究では単精度計算を行っていて 全ての格子点で同じ計算を行うので 3.33 FLOP/Byteの演算密度がある これに対し シェアードメモリを用いることで 袖領域を含まない格子点においては読み込みを 2 回に減らすことができ メモリアクセスを 4 回に低減することができる その結果 演算密度を FLOP/Byteにまで高めることができる この値は一般的な流体計算などと比較すると非常に大きく 計算インテンシブになっているため GPUの高い演算性能を引き出すことができた マルチ GPU コンピューティング 複数ノードに搭載されたGPU 計算複数のGPUを用いて計算する目的は次の 2 つである 1 単一 GPUのカードに搭載されているメモリに入りきらないような大規模計算を行う 2 決められた格子点数の問題に対して 1 GPUよりさらに高速化を図る 複数個のGPUを用いるには GPU 単位での並列化が必要となる 3 章で述べたようにGPU 計算では 単一 GPU 内でもスレッドのブロックがあるので並列化の階層がさらに 1 つ増えた多階層の並列化になる GPU 間の並列計算にはMPIライブラリの通信を行い GPU 数とMPIのプロセス数は等しくなる 領域間のデータ転送量を減らすためには 計算全体の格子に対して 3 次元的な領域分割 ( サイの目型の分割 ) をする方が有利であるが ここではz 軸方向に沿って 1 次元的な領域分割 ( 短冊型分割 ) を行い 計算とのバランスを明らかにすることを優先する 4-2 通信と計算のオーバーラップ複数ノードのCPUを用いた計算では 各プロセスに割り当てられた領域内のすべての格子の計算 ( 時間発展 ) を行ってから 袖領域のデータ通信を行うことが多い 本方法を 非オーバーラップ計算 (Non- Overlapping) と呼ぶことにする 一方 計算とデータ通信のオーバーラップ により 通信時間を隠ぺいすることができる オーバーラップ手法を導入したGPU 計算では まず袖領域のデータとして交換される格子を先に計算する 計算後 非同期に 2 つのstreamを生成し同時実行する stream 0 では袖領域を除いた中心部分の格子点に対する計算を行い stream 1 は袖領域の通信を行う 図 2 マルチ GPU によるオーバーラップ / 非オーバーラップ計算の実行性能 4.3 マルチ GPU 計算の実行性能 4つの解像度での計算 ( 格子 格子 格子 ) の各々についてGPU 間通信とGPU 計算をオーバーラップさせる計算と 非オーバーラップ計算に対して GPU 数を変えて得られた実行性能の強スケーラビリティを図 2 に示す いずれの解像度においてもオーバーラップ計算は非オーバーラップ計算に対して性能が大幅に改善されていることが分かる オーバーラップ計算では 格子について1 ~ 8 GPUまでの範囲 格子について4 ~ 24 GPUまで範囲 格子において 30 ~ 48 GPUまでの範囲で理想的な強スケーリングを示していることが分かる また 問題サイズを大きくすることによる弱スケーラビリティについては 試した計算の範囲内で理想的な性能が示されている オーバーラップ計算の特徴として 強スケーラビリティはGPU 数が少ないときに理想的な直線に近づくが GPU 数が増えて計算時間より通信時間の方が長くなり もはや通信を隠ぺいできなくなると急激に性能が頭打ちになる 本稿で特筆するべき点は 格子数 の計算に対して 60 GPUを用いたオーバーラップ計算の実行性能が 10 TFLOPS に達したことである 世界トップクラスのスパコンで実現されるアプリケーションの性能である TSUBAME 1.2のCPU 計算との実行性能の比較を行うために 全く同じ 格子の計算をCPUとGPUの両者で行った GPU 計算の最大性能は オーバーラップ計算を行った場合に 24 GPU で 3.7 TFLOPSである CPUとGPUの実行性能の比較を図 3 に示す 検証可能な範囲のCPU 計算は 128コアまでほぼ理想的な強スケーリングを示しているが GPUの最高性能である 3.7 TFLOPSに達するには理想的な強スケーリングを仮定しても4000CPUコア強が必要 07

5 GPU による樹枝状凝固成長のフェーズフィールド計算 となる 同じ計算を同じ時間で得ようとすると CPU 計算ではGPU 数の 150 倍のコア数が必要になることが分かる 参考文献 [1] Tomohiro Takaki, Toshimichi Fukuoka and Yoshihiro Tomita, Phase-field simulation during directional solidification of a binary alloy using adaptive finite element method, J. Crystal Growth 283 (2005)pp [2] 遠藤敏夫 松岡聡 橋爪信明 長坂真路 ヘテロ型スーパーコンピュータTSUBAMEのLinpackによる性能評価 情報処理学会論文誌コンピューティングシステム 48(SIG 8(ACS 18)): [3] NVIDIA Corporation, NVIDIA CUDA Compute Unified Device Architecture Programming Guide Version 2.0, NVIDIA Corporation, California, [4] Ryo Kobayashi, Modeling and numerical simulations of dendritic crystal growth, Physica D, 63, 3-4, pp , [5] PAPI, 図 3 TSUBAME 1.2 において 格子の CPU 計算と GPU 計算の比較 おわりに 5 純金属の樹枝状凝固成長に対して フェーズフィールド モデルに基づいたAllen-Cahn 方程式と熱伝導方程式を連立させた計算を NVIDIA のTesla GPUを搭載したTSUBAME 1.2を用いて実行した CUDAによりプログラミングを行い 単一 GPUで171 GFLOPS( 単精度計算 ) を達成した さらにマルチGPUに対して領域分割に基づく並列化を行い 強スケーラビリティと弱スケーラビリティを示した CPU 計算に対して 100 倍以上の高速化を行うことができ これは消費電力を大きく下げることでもある 60GPUを用いることで 10 TFLOPSの実行性能を達成することができ GPUが次世代スパコンの中心的な役割を担う可能性が高いことを示すことができた 謝辞本研究の一部は日本学術振興会 (JSPS) グローバルCOE プログラム 計算世界観の深化と展開 (Comp View) 科学研究費補助金 基盤研究 (B) 課題番号 多モーメント手法による多目的 CFD コアの開発 および科学技術振興機構 (JST)CREST 次世代テクノロジーのモデル化 最適化による低消費電力ハイパフォーマンスコンピューティング (ULP-HPC) から支援を受けている 本研究を遂行するにあたり スーパーコンピュータTSUBAME Grid Cluster での大規模並列計算キューの利用に対して東京工業大学学術国際情報センターよりご協力を頂いた 記して謝意を表す 08

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード] 200/0/9 数値流体解析の並列効率とその GPU による高速化の試み 清水建設 ( 株 ) 技術研究所 PHAM VAN PHUC ( ファムバンフック ) 流体計算時間短縮と GPU の活用の試み 現 CPUとの比較によりGPU 活用の可能性 現 CPU の最大利用 ノード内の最大計算資源の利用 すべてCPUコアの利用 適切なアルゴリズムの利用 CPU コア性能の何倍? GPU の利用の試み

More information

熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation

熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation 熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date 2011-03-17 Type URL Presentation http://hdl.handle.net/2298/23539 Right GPGPU による高速演算について 榎本昌一 東京大学大学院工学系研究科システム創成学専攻

More information

TSUBAME 2.0 の全貌 松岡聡 * 遠藤敏夫 ** 丸山直也 * 佐藤仁 * 滝澤真一朗 * * 東京工業大学学術国際情報センター ** 東京工業大学情報理工学研究科 2010 年 11 月に東京工業大学は新しいスーパーコンピュータTSUBAME 2.0 を稼働開始する TSUBAME 2.

TSUBAME 2.0 の全貌 松岡聡 * 遠藤敏夫 ** 丸山直也 * 佐藤仁 * 滝澤真一朗 * * 東京工業大学学術国際情報センター ** 東京工業大学情報理工学研究科 2010 年 11 月に東京工業大学は新しいスーパーコンピュータTSUBAME 2.0 を稼働開始する TSUBAME 2. 1 創刊号 TSUBAME 2.0 の全貌 GPU による樹枝状凝固成長のフェーズフィールド計算 TSUBAME を用いたフラーレン ナノチューブ グラフェンの構造変化と新物質研究 TSUBAME 2.0 の全貌 松岡聡 * 遠藤敏夫 ** 丸山直也 * 佐藤仁 * 滝澤真一朗 * * 東京工業大学学術国際情報センター ** 東京工業大学情報理工学研究科 2010 年 11 月に東京工業大学は新しいスーパーコンピュータTSUBAME

More information

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8 Web キャンパス資料 超音波シミュレーションの基礎 ~ 第 4 回 ComWAVEによる超高速超音波解析 ~ 科学システム開発部 Copyright (c)2006 ITOCHU Techno-Solutions Corporation 本日の説明内容 ComWAVEの概要および特徴 GPGPUとは GPGPUによる解析事例 CAE POWER 超音波研究会開催 (10 月 3 日 ) のご紹介

More information

NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ

NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ K20 GPU2 個に対するスピードアップ NVIDIA は Fermi アーキテクチャ GPU の発表により パフォーマンス エネルギー効率の両面で飛躍的な性能向上を実現し ハイパフォーマンスコンピューティング (HPC) の世界に変革をもたらしました また 実際に GPU

More information

スライド 1

スライド 1 GPU クラスタによる格子 QCD 計算 広大理尾崎裕介 石川健一 1.1 Introduction Graphic Processing Units 1 チップに数百個の演算器 多数の演算器による並列計算 ~TFLOPS ( 単精度 ) CPU 数十 GFLOPS バンド幅 ~100GB/s コストパフォーマンス ~$400 GPU の開発環境 NVIDIA CUDA http://www.nvidia.co.jp/object/cuda_home_new_jp.html

More information

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU GPGPU (I) GPU GPGPU 1 GPU(Graphics Processing Unit) GPU GPGPU(General-Purpose computing on GPUs) GPU GPGPU GPU ( PC ) PC PC GPU PC PC GPU GPU 2008 TSUBAME NVIDIA GPU(Tesla S1070) TOP500 29 [1] 2009 AMD

More information

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments 計算機アーキテクチャ第 11 回 マルチプロセッサ 本資料は授業用です 無断で転載することを禁じます 名古屋大学 大学院情報科学研究科 准教授加藤真平 デスクトップ ジョブレベル並列性 スーパーコンピュータ 並列処理プログラム プログラムの並列化 for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } プログラムの並列化 x[0] = a[0] + b[0];

More information

GPUコンピューティング講習会パート1

GPUコンピューティング講習会パート1 GPU コンピューティング (CUDA) 講習会 GPU と GPU を用いた計算の概要 丸山直也 スケジュール 13:20-13:50 GPU を用いた計算の概要 担当丸山 13:50-14:30 GPU コンピューティングによる HPC アプリケーションの高速化の事例紹介 担当青木 14:30-14:40 休憩 14:40-17:00 CUDA プログラミングの基礎 担当丸山 TSUBAME の

More information

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc 2.3. アプリ性能 2.3.1. Intel クアッドコア CPU でのベンチマーク 東京海洋大学吉岡諭 1. はじめにこの数年でマルチコア CPU の普及が進んできた x86 系の CPU でも Intel と AD がデュアルコア クアッドコアの CPU を次々と市場に送り出していて それらが PC クラスタの CPU として採用され HPC に活用されている ここでは Intel クアッドコア

More information

hpc141_shirahata.pdf

hpc141_shirahata.pdf GPU アクセラレータと不揮発性メモリ を考慮した I/O 性能の予備評価 白幡晃一 1,2 佐藤仁 1,2 松岡聡 1 1: 東京工業大学 2: JST CREST 1 GPU と不揮発性メモリを用いた 大規模データ処理 大規模データ処理 センサーネットワーク 遺伝子情報 SNS など ペタ ヨッタバイト級 高速処理が必要 スーパーコンピュータ上での大規模データ処理 GPU 高性能 高バンド幅 例

More information

最新の並列計算事情とCAE

最新の並列計算事情とCAE 1 大島聡史 ( 東京大学情報基盤センター助教 / 並列計算分科会主査 ) 最新の並列計算事情と CAE アウトライン 最新の並列計算機事情と CAE 世界一の性能を達成した 京 について マルチコア メニーコア GPU クラスタ 最新の並列計算事情と CAE MPI OpenMP CUDA OpenCL etc. 京 については 仕分けやら予算やら計画やらの面で問題視する意見もあるかと思いますが

More information

Microsoft Word - HOKUSAI_system_overview_ja.docx

Microsoft Word - HOKUSAI_system_overview_ja.docx HOKUSAI システムの概要 1.1 システム構成 HOKUSAI システムは 超並列演算システム (GWMPC BWMPC) アプリケーション演算サーバ群 ( 大容量メモリ演算サーバ GPU 演算サーバ ) と システムの利用入口となるフロントエンドサーバ 用途の異なる 2 つのストレージ ( オンライン ストレージ 階層型ストレージ ) から構成されるシステムです 図 0-1 システム構成図

More information

工学院大学建築系学科近藤研究室2000年度卒業論文梗概

工学院大学建築系学科近藤研究室2000年度卒業論文梗概 耐災害性の高い通信システムにおけるサーバ計算機の性能と消費電力に関する考察 耐障害性, 消費電力, 低消費電力サーバ 山口実靖 *. はじめに 性能と表皮電力の関係について調査し, 考察を行う 災害においては, 減災活動が極めて重要である すなわち 災害が発生した後に適切に災害に対処することにより, その被害を大きく軽減できる. 適切な災害対策を行うには災害対策を行う拠点が正常に運営されていることが必要不可欠であり,

More information

九州大学がスーパーコンピュータ「高性能アプリケーションサーバシステム」の本格稼働を開始

九州大学がスーパーコンピュータ「高性能アプリケーションサーバシステム」の本格稼働を開始 2014 年 1 月 31 日 国立大学法人九州大学 株式会社日立製作所 九州大学がスーパーコンピュータ 高性能アプリケーションサーバシステム の本格稼働を開始 日立のテクニカルサーバ HA8000-tc/HT210 などを採用 従来システム比で 約 28 倍の性能を実現し 1TFLOPS あたりの消費電力は約 17 分の 1 に低減 九州大学情報基盤研究開発センター ( センター長 : 青柳睦 /

More information

VXPRO R1400® ご提案資料

VXPRO R1400® ご提案資料 Intel Core i7 プロセッサ 920 Preliminary Performance Report ノード性能評価 ノード性能の評価 NAS Parallel Benchmark Class B OpenMP 版での性能評価 実行スレッド数を 4 で固定 ( デュアルソケットでは各プロセッサに 2 スレッド ) 全て 2.66GHz のコアとなるため コアあたりのピーク性能は同じ 評価システム

More information

CLEFIA_ISEC発表

CLEFIA_ISEC発表 128 ビットブロック暗号 CLEFIA 白井太三 渋谷香士 秋下徹 盛合志帆 岩田哲 ソニー株式会社 名古屋大学 目次 背景 アルゴリズム仕様 設計方針 安全性評価 実装性能評価 まとめ 2 背景 AES プロジェクト開始 (1997~) から 10 年 AES プロジェクト 攻撃法の進化 代数攻撃 関連鍵攻撃 新しい攻撃法への対策 暗号設計法の進化 IC カード, RFID などのアプリケーション拡大

More information

Microsoft PowerPoint - GPU_computing_2013_01.pptx

Microsoft PowerPoint - GPU_computing_2013_01.pptx GPU コンピューティン No.1 導入 東京工業大学 学術国際情報センター 青木尊之 1 GPU とは 2 GPGPU (General-purpose computing on graphics processing units) GPU を画像処理以外の一般的計算に使う GPU の魅力 高性能 : ハイエンド GPU はピーク 4 TFLOPS 超 手軽さ : 普通の PC にも装着できる 低価格

More information

GPUを用いたN体計算

GPUを用いたN体計算 単精度 190Tflops GPU クラスタ ( 長崎大 ) の紹介 長崎大学工学部超高速メニーコアコンピューティングセンターテニュアトラック助教濱田剛 1 概要 GPU (Graphics Processing Unit) について簡単に説明します. GPU クラスタが得意とする応用問題を議論し 長崎大学での GPU クラスタによる 取組方針 N 体計算の高速化に関する研究内容 を紹介します. まとめ

More information

研究報告用MS-Wordテンプレートファイル

研究報告用MS-Wordテンプレートファイル マルチコアおよび GPGPU 環境における画像処理最適化 矢野勝久 高山征大 境隆二出宮健彦 スケーラを題材として, マルチコアおよび GPGPU 各々の HW 特性に適した画像処理の最適化を図る. マルチコア環境では, 数値演算処理の削減,SIMD 化など直列性能の最適化を行った後,OpenMP を利用して並列化を図る.GPGPU(CUDA) では, スレッド並列を優先して並列処理の設計を行いブロックサイズを決める.

More information

GPUコンピューティング講習会パート1

GPUコンピューティング講習会パート1 GPU コンピューティング (CUDA) 講習会 GPU と GPU を用いた計算の概要 丸山直也 スケジュール 13:20-13:50 GPU を用いた計算の概要 担当丸山 13:50-14:30 GPU コンピューティングによる HPC アプリケーションの高速化の事例紹介 担当青木 14:30-14:40 休憩 14:40-17:00 CUDA プログラミングの基礎 担当丸山 TSUBAME の

More information

GPU n Graphics Processing Unit CG CAD

GPU n Graphics Processing Unit CG CAD GPU 2016/06/27 第 20 回 GPU コンピューティング講習会 ( 東京工業大学 ) 1 GPU n Graphics Processing Unit CG CAD www.nvidia.co.jp www.autodesk.co.jp www.pixar.com GPU n GPU ü n NVIDIA CUDA ü NVIDIA GPU ü OS Linux, Windows, Mac

More information

HPC143

HPC143 研究背景 GPUクラスタ 高性能 高いエネルギー効率 低価格 様々なHPCアプリケーションで用いられている TCA (Tightly Coupled Accelerators) 密結合並列演算加速機構 筑波大学HA-PACSクラスタ アクセラレータ GPU 間の直接通信 低レイテンシ 今後のHPCアプリは強スケーリングも重要 TCAとアクセラレータを搭載したシステムに おけるプログラミングモデル 例

More information

パソコンシミュレータの現状

パソコンシミュレータの現状 第 2 章微分 偏微分, 写像 豊橋技術科学大学森謙一郎 2. 連続関数と微分 工学において物理現象を支配する方程式は微分方程式で表されていることが多く, 有限要素法も微分方程式を解く数値解析法であり, 定式化においては微分 積分が一般的に用いられており. 数学の基礎知識が必要になる. 図 2. に示すように, 微分は連続な関数 f() の傾きを求めることであり, 微小な に対して傾きを表し, を無限に

More information

OpenFOAM(R) ソースコード入門 pt1 熱伝導方程式の解法から有限体積法の実装について考える 前編 : 有限体積法の基礎確認 2013/11/17 オープンCAE 富山富山県立大学中川慎二

OpenFOAM(R) ソースコード入門 pt1 熱伝導方程式の解法から有限体積法の実装について考える 前編 : 有限体積法の基礎確認 2013/11/17 オープンCAE 富山富山県立大学中川慎二 OpenFOAM(R) ソースコード入門 pt1 熱伝導方程式の解法から有限体積法の実装について考える 前編 : 有限体積法の基礎確認 2013/11/17 オープンCAE 勉強会 @ 富山富山県立大学中川慎二 * OpenFOAM のソースコードでは, 基礎式を偏微分方程式の形で記述する.OpenFOAM 内部では, 有限体積法を使ってこの微分方程式を解いている. どのようにして, 有限体積法に基づく離散化が実現されているのか,

More information

らかとしました 本成果は あらゆるセル構造形成現象の理解に対し有益な基盤を与えるものと期待されます 本研究は英国のオンライン科学雑誌 Nature Partner Journal (npj) Computational Materials に日本時間 7 月 3 日 ( 月 ) 午後 7 時 ( 英

らかとしました 本成果は あらゆるセル構造形成現象の理解に対し有益な基盤を与えるものと期待されます 本研究は英国のオンライン科学雑誌 Nature Partner Journal (npj) Computational Materials に日本時間 7 月 3 日 ( 月 ) 午後 7 時 ( 英 平成 29 年 7 月 3 日 京都大学記者クラブ所属報道機関各社御中 京都工芸繊維大学広報委員会 担当 : 総務課広報室 tel:724-7016 fax:724-7029 理想粒成長の統計的ふるまいを超大規模シミュレーションにより解明 あらゆるセル構造形成現象の理解と予測に筋道 1. 発表者 : 高木知弘 ( 京都工芸繊維大学機械工学系准教授 ) 大野宗一 ( 北海道大学大学院工学研究院材料科学部門准教授

More information

<4D F736F F F696E74202D208D E9197BF5F8B9E8D E55F8D8296D82E B8CDD8AB B83685D>

<4D F736F F F696E74202D208D E9197BF5F8B9E8D E55F8D8296D82E B8CDD8AB B83685D> 京都大学計算科学ユニット 01 年度第 回研究交流会 工学における計算科学の展開 開催日程 : 平成 4 年 6 月 6 日 ( 火 ) 開催場所 : 工学部 3 号館 階 N3 講義室 Phse-ield 法による 多様な形態発展シミュレーション 京都工芸繊維大学大学院工芸科学研究科機械システム工学部門 高木知弘 発表内容 1. Phse-ield 法の基本モデル. 多様なphse-ieldシミュレーション

More information

CCS HPCサマーセミナー 並列数値計算アルゴリズム

CCS HPCサマーセミナー 並列数値計算アルゴリズム 大規模系での高速フーリエ変換 2 高橋大介 daisuke@cs.tsukuba.ac.jp 筑波大学計算科学研究センター 2016/6/2 計算科学技術特論 B 1 講義内容 並列三次元 FFT における自動チューニング 二次元分割を用いた並列三次元 FFT アルゴリズム GPU クラスタにおける並列三次元 FFT 2016/6/2 計算科学技術特論 B 2 並列三次元 FFT における 自動チューニング

More information

GPGPUクラスタの性能評価

GPGPUクラスタの性能評価 2008 年度理研 HPC シンポジウム第 3 世代 PC クラスタ GPGPU クラスタの性能評価 2009 年 3 月 12 日 富士通研究所成瀬彰 発表の概要 背景 GPGPU による高速化 CUDA の概要 GPU のメモリアクセス特性調査 姫野 BMT の高速化 GPGPU クラスタによる高速化 GPU Host 間のデータ転送 GPU-to-GPU の通信性能 GPGPU クラスタ上での姫野

More information

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日 TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日 目次 1. TSUBAMEのGPU 環境 2. プログラム作成 3. プログラム実行 4. 性能解析 デバッグ サンプルコードは /work0/gsic/seminars/gpu- 2011-09- 28 からコピー可能です 1.

More information

本文ALL.indd

本文ALL.indd Intel Xeon プロセッサにおける Cache Coherency 時間の性能測定方法河辺峻田口成美古谷英祐 Intel Xeon プロセッサにおける Cache Coherency 時間の性能測定方法 Performance Measurement Method of Cache Coherency Effects on an Intel Xeon Processor System 河辺峻田口成美古谷英祐

More information

TSUBAME2.0におけるGPUの 活用方法

TSUBAME2.0におけるGPUの 活用方法 GPU プログラミング 基礎編 東京工業大学学術国際情報センター 1. GPU コンピューティングと TSUBAME2.0 スーパーコンピュータ GPU コンピューティングとは グラフィックプロセッサ (GPU) は グラフィック ゲームの画像計算のために 進化を続けてきた 現在 CPU のコア数は 2~12 個に対し GPU 中には数百コア その GPU を一般アプリケーションの高速化に利用! GPGPU

More information

main.dvi

main.dvi PC 1 1 [1][2] [3][4] ( ) GPU(Graphics Processing Unit) GPU PC GPU PC ( 2 GPU ) GPU Harris Corner Detector[5] CPU ( ) ( ) CPU GPU 2 3 GPU 4 5 6 7 1 toyohiro@isc.kyutech.ac.jp 45 2 ( ) CPU ( ) ( ) () 2.1

More information

Microsoft PowerPoint - 演習1:並列化と評価.pptx

Microsoft PowerPoint - 演習1:並列化と評価.pptx 講義 2& 演習 1 プログラム並列化と性能評価 神戸大学大学院システム情報学研究科横川三津夫 yokokawa@port.kobe-u.ac.jp 2014/3/5 RIKEN AICS HPC Spring School 2014: プログラム並列化と性能評価 1 2014/3/5 RIKEN AICS HPC Spring School 2014: プログラム並列化と性能評価 2 2 次元温度分布の計算

More information

Microsoft PowerPoint - pr_12_template-bs.pptx

Microsoft PowerPoint - pr_12_template-bs.pptx 12 回パターン検出と画像特徴 テンプレートマッチング 領域分割 画像特徴 テンプレート マッチング 1 テンプレートマッチング ( 図形 画像などの ) 型照合 Template Matching テンプレートと呼ばれる小さな一部の画像領域と同じパターンが画像全体の中に存在するかどうかを調べる方法 画像内にある対象物体の位置検出 物体数のカウント 物体移動の検出などに使われる テンプレートマッチングの計算

More information

ストリームを用いたコンカレントカーネルプログラミングと最適化 エヌビディアジャパン CUDAエンジニア森野慎也 GTC Japan 2014

ストリームを用いたコンカレントカーネルプログラミングと最適化 エヌビディアジャパン CUDAエンジニア森野慎也 GTC Japan 2014 ストリームを用いたコンカレントカーネルプログラミングと最適化 エヌビディアジャパン CUDAエンジニア森野慎也 GTC Japan 2014 コンカレントな処理の実行 システム内部の複数の処理を 平行に実行する CPU GPU メモリ転送 カーネル実行 複数のカーネル間 ストリーム GPU 上の処理キュー カーネル実行 メモリ転送の並列性 実行順序 DEFAULT STREAM Stream : GPU

More information

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h 23 FPGA CUDA Performance Comparison of FPGA Array with CUDA on Poisson Equation (lijiang@sekine-lab.ei.tuat.ac.jp), (kazuki@sekine-lab.ei.tuat.ac.jp), (takahashi@sekine-lab.ei.tuat.ac.jp), (tamukoh@cc.tuat.ac.jp),

More information

<4D F736F F D20332E322E332E819C97AC91CC89F090CD82A982E78CA982E9466F E393082CC8D5C91A291CC90AB945C955D89BF5F8D8296D85F F8D F5F E646F63>

<4D F736F F D20332E322E332E819C97AC91CC89F090CD82A982E78CA982E9466F E393082CC8D5C91A291CC90AB945C955D89BF5F8D8296D85F F8D F5F E646F63> 3.2.3. 流体解析から見る Fortran90 の構造体性能評価 宇宙航空研究開発機構 高木亮治 1. はじめに Fortran90 では 構造体 動的配列 ポインターなど様々な便利な機能が追加され ユーザーがプログラムを作成する際に選択の幅が広がりより便利になった 一方で 実際のアプリケーションプログラムを開発する際には 解析対象となる物理現象を記述する数学モデルやそれらを解析するための計算手法が内包する階層構造を反映したプログラムを作成できるかどうかは一つの重要な観点であると考えられる

More information

Microsoft PowerPoint - CCS学際共同boku-08b.ppt

Microsoft PowerPoint - CCS学際共同boku-08b.ppt マルチコア / マルチソケットノードに おけるメモリ性能のインパクト 研究代表者朴泰祐筑波大学システム情報工学研究科 taisuke@cs.tsukuba.ac.jp アウトライン 近年の高性能 PC クラスタの傾向と問題 multi-core/multi-socket ノードとメモリ性能 メモリバンド幅に着目した性能測定 multi-link network 性能評価 まとめ 近年の高性能 PC

More information

資料3 今後のHPC技術に関する研究開発の方向性について(日立製作所提供資料)

資料3 今後のHPC技術に関する研究開発の方向性について(日立製作所提供資料) 今後の HPC 技術に関する 研究開発の方向性について 2012 年 5 月 30 日 ( 株 ) 日立製作所情報 通信システム社 IT プラットフォーム事業本部 Hitachi, Hitachi, Ltd. Ltd. Hitachi 2012. 2012. Ltd. 2012. All rights All rights All rights reserved. reserved. reserved.

More information

RICCについて

RICCについて RICC 1 RICC 2 RICC 3 RICC GPU 1039Nodes 8312core) 93.0GFLOPS, 12GB(mem), 500GB (hdd) DDR IB!1 PC100Nodes(800core) 9.3 GPGPU 93.3TFLOPS HPSS (4PB) (550TB) 0.24 512GB 1500GB MDGRAPE33TFLOPS MDGRAPE-3 64

More information

07-二村幸孝・出口大輔.indd

07-二村幸孝・出口大輔.indd GPU Graphics Processing Units HPC High Performance Computing GPU GPGPU General-Purpose computation on GPU CPU GPU GPU *1 Intel Quad-Core Xeon E5472 3.0 GHz 2 6 MB L2 cache 1600 MHz FSB 80 GFlops 1 nvidia

More information

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司 4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司 3 1 1 日本原子力研究開発機構システム計算科学センター 2 理科学研究所計算科学研究機構 3 東京大学新領域創成科学研究科

More information

システムソリューションのご紹介

システムソリューションのご紹介 HP 2 C 製品 :VXPRO/VXSMP サーバ 製品アップデート 製品アップデート VXPRO と VXSMP での製品オプションの追加 8 ポート InfiniBand スイッチ Netlist HyperCloud メモリ VXPRO R2284 GPU サーバ 製品アップデート 8 ポート InfiniBand スイッチ IS5022 8 ポート 40G InfiniBand スイッチ

More information

3次多項式パラメタ推定計算の CUDAを用いた実装 (CUDAプログラミングの練習として) Implementation of the Estimation of the parameters of 3rd-order-Polynomial with CUDA

3次多項式パラメタ推定計算の CUDAを用いた実装 (CUDAプログラミングの練習として)  Implementation of the Estimation of the parameters of 3rd-order-Polynomial with CUDA 3 次多項式パラメタ推定計算の CUDA を用いた実装 (CUDA プログラミングの練習として ) Estimating the Parameters of 3rd-order-Polynomial with CUDA ISS 09/11/12 問題の選択 目的 CUDA プログラミングを経験 ( 試行錯誤と習得 ) 実際に CPU のみの場合と比べて高速化されることを体験 問題 ( インプリメントする内容

More information

FEM原理講座 (サンプルテキスト)

FEM原理講座 (サンプルテキスト) サンプルテキスト FEM 原理講座 サイバネットシステム株式会社 8 年 月 9 日作成 サンプルテキストについて 各講師が 講義の内容が伝わりやすいページ を選びました テキストのページは必ずしも連続していません 一部を抜粋しています 幾何光学講座については 実物のテキストではなくガイダンスを掲載いたします 対象とする構造系 物理モデル 連続体 固体 弾性体 / 弾塑性体 / 粘弾性体 / 固体

More information

並列・高速化を実現するための 高速化サービスの概要と事例紹介

並列・高速化を実現するための 高速化サービスの概要と事例紹介 第 4 回 AVS 可視化フォーラム 2019 並列 高速化を実現するための 高速化サービスの概要と事例紹介 株式会社アーク情報システム営業部仮野亮ソリューション技術部佐々木竜一 2019.08.30 はじめに アーク情報システムの紹介 高速化サービスとは? 事例紹介 コンサルティングサービスについて アーク情報システムの紹介 設立 資本金 :1987 年 10 月 :3 億 600 万円 従業員数

More information

高性能計算研究室の紹介 High Performance Computing Lab.

高性能計算研究室の紹介 High Performance Computing Lab. 高性能計算研究室 (HPC Lab) の紹介 High Performance Computing Lab. 静岡理工科大学総合情報学部コンピュータシステム学科 ( 兼 Web デザイン特別プログラム ) 幸谷智紀 543 研究室 幸谷研究室 @ 静岡 検索 概要 1. 幸谷智紀 個人の研究テーマ 2. 3 年生ゼミ ( 情報セミナー II) 3. 卒研テーマ 4. 過去の卒研 5. 今後について

More information

HP High Performance Computing(HPC)

HP High Performance Computing(HPC) ACCELERATE HP High Performance Computing HPC HPC HPC HPC HPC 1000 HPHPC HPC HP HPC HPC HPC HP HPCHP HP HPC 1 HPC HP 2 HPC HPC HP ITIDC HP HPC 1HPC HPC No.1 HPC TOP500 2010 11 HP 159 32% HP HPCHP 2010 Q1-Q4

More information

HPEハイパフォーマンスコンピューティング ソリューション

HPEハイパフォーマンスコンピューティング ソリューション HPE HPC / AI Page 2 No.1 * 24.8% No.1 * HPE HPC / AI HPC AI SGIHPE HPC / AI GPU TOP500 50th edition Nov. 2017 HPE No.1 124 www.top500.org HPE HPC / AI TSUBAME 3.0 2017 7 AI TSUBAME 3.0 HPE SGI 8600 System

More information

Microsoft PowerPoint - シミュレーション工学-2010-第1回.ppt

Microsoft PowerPoint - シミュレーション工学-2010-第1回.ppt シミュレーション工学 ( 後半 ) 東京大学人工物工学研究センター 鈴木克幸 CA( Compter Aded geerg ) r. Jaso Lemo (SC, 98) 設計者が解析ツールを使いこなすことにより 設計の評価 設計の質の向上を図る geerg の本質の 計算機による支援 (CA CAM などより広い名前 ) 様々な汎用ソフトの登場 工業製品の設計に不可欠のツール 構造解析 流体解析

More information

<4D F736F F D B B B835E895E97708A4A8E6E82C A98418C6782CC8E6E93AE2E646F63>

<4D F736F F D B B B835E895E97708A4A8E6E82C A98418C6782CC8E6E93AE2E646F63> 京都大学学術情報メディアセンター 新スーパーコンピュータ運用開始と T2K 連携の始動 アピールポイント 61.2 テラフロップスの京大版 T2K オープンスパコン運用開始 東大 筑波大との T2K 連携による計算科学 工学分野におけるネットワーク型研究推進 人材育成 アプリケーション高度化支援の活動を開始概要国立大学法人京都大学 ( 総長 尾池和夫 ) 学術情報メディアセンター ( センター長 美濃導彦

More information

(速報) Xeon E 系モデル 新プロセッサ性能について

(速報) Xeon E 系モデル 新プロセッサ性能について ( 速報 ) Xeon E5-2600 系モデル新プロセッサ性能について 2012 年 3 月 16 日 富士通株式会社 2012 年 3 月 7 日 インテル社より最新 CPU インテル Xeon E5 ファミリー の発表がありました この最新 CPU について PC クラスタシステムの観点から性能検証を行いましたので 概要を速報いたします プロセッサインテル Xeon プロセッサ E5-2690

More information

supercomputer2010.ppt

supercomputer2010.ppt nanri@cc.kyushu-u.ac.jp 1 !! : 11 12! : nanri@cc.kyushu-u.ac.jp! : Word 2 ! PC GPU) 1997 7 http://wiredvision.jp/news/200806/2008062322.html 3 !! (Cell, GPU )! 4 ! etc...! 5 !! etc. 6 !! 20km 40 km ) 340km

More information

目次 LS-DYNA 利用の手引き 1 1. はじめに 利用できるバージョン 概要 1 2. TSUBAME での利用方法 使用可能な LS-DYNA の実行 4 (1) TSUBAMEにログイン 4 (2) バージョンの切り替え 4 (3) インタラ

目次 LS-DYNA 利用の手引き 1 1. はじめに 利用できるバージョン 概要 1 2. TSUBAME での利用方法 使用可能な LS-DYNA の実行 4 (1) TSUBAMEにログイン 4 (2) バージョンの切り替え 4 (3) インタラ LS-DYNA 利用の手引 東京工業大学学術国際情報センター 2016.04 version 1.10 目次 LS-DYNA 利用の手引き 1 1. はじめに 1 1.1 利用できるバージョン 1 1.2 概要 1 2. TSUBAME での利用方法 1 2.1 使用可能な 1 2.2 LS-DYNA の実行 4 (1) TSUBAMEにログイン 4 (2) バージョンの切り替え 4 (3) インタラクティブ実行

More information

27_02.indd

27_02.indd GPGPU を用いたソフトウェア高速化手法 Technique to Speedup of the software by GPGPU 大田弘樹 馬場明子 下田雄一 安田隆洋 山本啓二 Hiroki Ota, Akiko Baba, Shimoda Yuichi, Takahiro Yasuta, Keiji Yamamoto PCやワークステーションにおいて画像処理に特化して使用されてきたGPUを

More information

<4D F736F F D F B835E82CC8D8291AC8F88979D82F08FAC8C5E82A982C288C089BF82C88D5C90AC82C AC82B782E996A78C8B8D878C5E836E815B C695C097F18F88979D82F091678D8782B982BD8C768E5A8B

<4D F736F F D F B835E82CC8D8291AC8F88979D82F08FAC8C5E82A982C288C089BF82C88D5C90AC82C AC82B782E996A78C8B8D878C5E836E815B C695C097F18F88979D82F091678D8782B982BD8C768E5A8B テーマ名ビッグデータの高速処理を小型かつ安価な構成で達成する密結合型ハードウェアと並列処理を組合せた計算機システム組織名国立大学法人電気通信大学情報システム学研究科吉永務教授技術分野 IT 概要ビッグデータの高速処理を実現するために ストレージ 光通信ネットワーク FPGA SSD 等を密接に結合させたハードウェアと高効率の並列処理を組合せ 小型かつ安価なシステム構成でありながら Hadoop Impala

More information

untitled

untitled A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }

More information

! 行行 CPUDSP PPESPECell/B.E. CPUGPU 行行 SIMD [SSE, AltiVec] 用 HPC CPUDSP PPESPE (Cell/B.E.) SPE CPUGPU GPU CPU DSP DSP PPE SPE SPE CPU DSP SPE 2

! 行行 CPUDSP PPESPECell/B.E. CPUGPU 行行 SIMD [SSE, AltiVec] 用 HPC CPUDSP PPESPE (Cell/B.E.) SPE CPUGPU GPU CPU DSP DSP PPE SPE SPE CPU DSP SPE 2 ! OpenCL [Open Computing Language] 言 [OpenCL C 言 ] CPU, GPU, Cell/B.E.,DSP 言 行行 [OpenCL Runtime] OpenCL C 言 API Khronos OpenCL Working Group AMD Broadcom Blizzard Apple ARM Codeplay Electronic Arts Freescale

More information

ポスト「京」でのコデザイン 活動報告

ポスト「京」でのコデザイン 活動報告 重点課題 9 でのポスト 京 に対す るコデザイン活動報告 広島大学理学研究科 石川健一 1 目次 1. コデザイン活動 2. ポスト京関連公開情報 3. 重点課題 9 に関するコデザイン活動 2 1. コデザイン活動 RIKEN,R-CCS と FUJITSU によるポスト京計算機開発 コデザイン活動 重点課題からのターゲットアプリケーションの開発とシステムやソフトウェア開発を連携して開発 9 個のターゲットアプリケーション

More information

Microsoft PowerPoint - SWoPP2010_Shirahata

Microsoft PowerPoint - SWoPP2010_Shirahata GPU を考慮した MapReduce の タスクスケジューリング 白幡晃一 1 佐藤仁 1 松岡聡 1 2 3 1 東京工業大学 2 科学技術振興機構 3 国立情報学研究所 大規模データ処理 情報爆発時代における 大規模データ処理 気象 生物学 天文学 物理学など様々な科学技術計算での利用 MapReduce 大規模データ処理のためのプログラミングモデルデ スケーラブルな並列データ処理 GPGPU

More information

高性能計算研究室の紹介 High Performance Computing Lab.

高性能計算研究室の紹介 High Performance Computing Lab. 高性能計算研究室 (HPC Lab) の紹介 High Performance Computing Lab. 静岡理工科大学総合情報学部コンピュータシステム学科 ( 兼 Web デザイン特別プログラム ) 幸谷智紀 http://na-inet.jp/ 概要 1. 幸谷智紀 個人の研究テーマ 2. 3 年生ゼミ ( 情報セミナー II) 3. 卒研テーマ 4. Webデザイン特別プログラム 5. 今後について

More information

Microsoft PowerPoint _OpenCAE並列計算分科会.pptx

Microsoft PowerPoint _OpenCAE並列計算分科会.pptx 地球流体力学に関する GPGPU を用いた数値計算 神戸大学惑星科学研究センター西澤誠也 地球流体力学とは 地球 惑星に関連がある流体の力学 回転, 重力の影響 e.g. 大気, 海洋, マントル 数値計算は天気予報 & 弾道軌道予測から始まった ベクトル計算機 地球流体の計算はベクトル長が長いものが多い ベクトル計算機の凋落 某社の次世代スパコンからの撤退 個人的スパコンの将来予想 個々の演算器はシンプルに

More information

ペタスケール計算環境に向けたFFTライブラリ

ペタスケール計算環境に向けたFFTライブラリ A01 高橋班 大規模並列環境における 数値計算アルゴリズム 研究代表者 : 高橋大介 筑波大学大学院システム情報工学研究科 研究組織 研究代表者 高橋大介 ( 筑波大学 ): 研究統括および高速アルゴリズム 研究分担者 今村俊幸 ( 電気通信大学 ): 性能チューニング 多田野寛人 ( 筑波大学 ): 大規模線形計算 連携研究者 佐藤三久 ( 筑波大学 ): 並列システムの性能評価 朴泰祐 ( 筑波大学

More information

様々なミクロ計量モデル†

様々なミクロ計量モデル† 担当 : 長倉大輔 ( ながくらだいすけ ) この資料は私の講義において使用するために作成した資料です WEB ページ上で公開しており 自由に参照して頂いて構いません ただし 内容について 一応検証してありますが もし間違いがあった場合でもそれによって生じるいかなる損害 不利益について責任を負いかねますのでご了承ください 間違いは発見次第 継続的に直していますが まだ存在する可能性があります 1 カウントデータモデル

More information

スライド 1

スライド 1 計算科学が拓く世界スーパーコンピュータは何故スーパーか 学術情報メディアセンター中島浩 http://www.para.media.kyoto-u.ac.jp/jp/ username=super password=computer 講義の概要 目的 計算科学に不可欠の道具スーパーコンピュータが どういうものか なぜスーパーなのか どう使うとスーパーなのかについて雰囲気をつかむ 内容 スーパーコンピュータの歴史を概観しつつ

More information

1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境 Lin

1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境 Lin Windows で始める CUDA 入門 GTC 2013 チュートリアル エヌビディアジャパン CUDA エンジニア森野慎也 1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境

More information

2014 年 10 月 2 日 本日の講義及び演習 数値シミュレーション 2014 年度第 2 回 偏微分方程式の偏微分項をコンピュータで扱えるようにする 離散化 ( 差分化 ) テイラー展開の利用 1 階微分項に対する差分式 2 階微分項に対する差分式 1 次元熱伝導方程式に適用して差分式を導出

2014 年 10 月 2 日 本日の講義及び演習 数値シミュレーション 2014 年度第 2 回 偏微分方程式の偏微分項をコンピュータで扱えるようにする 離散化 ( 差分化 ) テイラー展開の利用 1 階微分項に対する差分式 2 階微分項に対する差分式 1 次元熱伝導方程式に適用して差分式を導出 04 年 0 月 日 本日の講義及び演習 数値シミュレーション 04 年度第 回 偏微分方程式の偏微分項をコンピュータで扱えるようにする 離散化 ( 差分化 テイラー展開の利用 階微分項に対する差分式 階微分項に対する差分式 次元熱伝導方程式に適用して差分式を導出 Ecel を利用した温度変化シミュレーション 永野 ( 熱流体システム研究室 hagao@tc.ac.p 重要! 熱の伝わり方 ( 伝熱モード

More information

Microsoft Word ●MPI性能検証_志田_ _更新__ doc

Microsoft Word ●MPI性能検証_志田_ _更新__ doc 2.2.2. MPI 性能検証 富士通株式会社 志田直之 ここでは,Open MPI および富士通 MPI を用いて,MPI 性能の評価結果について報告する 1. 性能評価のポイント MPI の性能評価は, 大きく 3 つに分けて評価を行った プロセス数増加に向けた検証 ノード内通信とノード間通信の検証 性能検証 - 連続データ転送 - ストライド転送 2. プロセス数増加に向けた検証 評価に用いたシステムを以下に示す

More information

Microsoft PowerPoint - OS07.pptx

Microsoft PowerPoint - OS07.pptx この資料は 情報工学レクチャーシリーズ松尾啓志著 ( 森北出版株式会社 ) を用いて授業を行うために 名古屋工業大学松尾啓志 津邑公暁が作成しました 主記憶管理 主記憶管理基礎 パワーポイント 27 で最終版として保存しているため 変更はできませんが 授業でお使いなる場合は松尾 (matsuo@nitech.ac.jp) まで連絡いただければ 編集可能なバージョンをお渡しする事も可能です 復習 OS

More information

Microsoft Word - 0_0_表紙.doc

Microsoft Word - 0_0_表紙.doc 2km Local Forecast Model; LFM Local Analysis; LA 2010 11 2.1.1 2010a LFM 2.1.1 2011 3 11 2.1.1 2011 5 2010 6 1 8 3 1 LFM LFM MSM LFM FT=2 2009; 2010 MSM RMSE RMSE MSM RMSE 2010 1 8 3 2010 6 2010 6 8 2010

More information

tabaicho3mukunoki.pptx

tabaicho3mukunoki.pptx 1 2 はじめに n 目的 4倍精度演算より高速な3倍精度演算を実現する l 倍精度では足りないが4倍精度は必要ないケースに欲しい l 4倍精度に比べてデータサイズが小さい Ø 少なくともメモリ律速な計算では4倍精度よりデータ 転送時間を減らすことが可能 Ø PCIeやノード間通信がボトルネックとなりやすい GPUクラスタ環境に有効か n 研究概要 l DD型4倍精度演算 DD演算 に基づく3倍精度演算

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 総務省 ICTスキル総合習得教材 概要版 eラーニング用 [ コース2] データ蓄積 2-5: 多様化が進展するクラウドサービス [ コース1] データ収集 [ コース2] データ蓄積 [ コース3] データ分析 [ コース4] データ利活用 1 2 3 4 5 座学本講座の学習内容 (2-5: 多様化が進展するクラウドサービス ) 講座概要 近年 注目されているクラウドの関連技術を紹介します PCやサーバを構成するパーツを紹介後

More information

iphone GPGPU GPU OpenCL Mac OS X Snow LeopardOpenCL iphone OpenCL OpenCL NVIDIA GPU CUDA GPU GPU GPU 15 GPU GPU CPU GPU iii OpenMP MPI CPU OpenCL CUDA OpenCL CPU OpenCL GPU NVIDIA Fermi GPU Fermi GPU GPU

More information

スライド 1

スライド 1 東北大学工学部機械知能 航空工学科 2019 年度クラス C D 情報科学基礎 I 14. さらに勉強するために 大学院情報科学研究科 鏡慎吾 http://www.ic.is.tohoku.ac.jp/~swk/lecture/ 0 と 1 の世界 これまで何を学んだか 2 進数, 算術演算, 論理演算 計算機はどのように動くのか プロセッサとメモリ 演算命令, ロード ストア命令, 分岐命令 計算機はどのように構成されているのか

More information

PowerPoint Presentation

PowerPoint Presentation GF(2) 上疎行列線形解法の 現状と評価 中央大学 21 世紀 COE プログラム JST CREST 西田晃 July 8, 2006 JSIAM JANT Conference 1 背景 情報システムの安全性 公開鍵暗号システムに依存 最新の計算機環境による素因数分解のコストを常に正確に評価する必要 July 8, 2006 JSIAM JANT Conference 2 関連研究 公開鍵暗号

More information

Probit , Mixed logit

Probit , Mixed logit Probit, Mixed logit 2016/5/16 スタートアップゼミ #5 B4 後藤祥孝 1 0. 目次 Probit モデルについて 1. モデル概要 2. 定式化と理解 3. 推定 Mixed logit モデルについて 4. モデル概要 5. 定式化と理解 6. 推定 2 1.Probit 概要 プロビットモデルとは. 効用関数の誤差項に多変量正規分布を仮定したもの. 誤差項には様々な要因が存在するため,

More information

LS-DYNA 利用の手引 第 1 版 東京工業大学学術国際情報センター 2017 年 9 月 25 日

LS-DYNA 利用の手引 第 1 版 東京工業大学学術国際情報センター 2017 年 9 月 25 日 LS-DYNA 利用の手引 第 1 版 東京工業大学学術国際情報センター 2017 年 9 月 25 日 目次 1. はじめに 1 1.1. 利用できるバージョン 1 1.2. 概要 1 1.3. マニュアル 1 2. TSUBAME3 での利用方法 2 2.1. LS-DYNA の実行 2 2.1.1. TSUBAME3 にログイン 2 2.1.2. バージョンの切り替え 2 2.1.3. インタラクティブノードでの

More information

羽藤.pptx

羽藤.pptx 11 / / @ hato0816@gmail.com A 1928 / 1958OD 1960 1967PT " /() 土木計画 ( 主に交通計画 ) のための観測と理論 1960s PT 調査 紙調査票回答, ゾーン単位, 集計モデル ( 四段階推定法 ) (1955 CATS, 1967 広島都市圏など ) 計算機性能の向上 1980s Activity based model 非集計モデル

More information

<4D F736F F F696E74202D20906C8D488AC28BAB90DD8C7689F090CD8D488A D91E F1>

<4D F736F F F696E74202D20906C8D488AC28BAB90DD8C7689F090CD8D488A D91E F1> 人工環境設計解析工学構造力学と有限要素法 ( 第 回 ) 東京大学新領域創成科学研究科 鈴木克幸 固体力学の基礎方程式 変位 - ひずみの関係 適合条件式 ひずみ - 応力の関係 構成方程式 応力 - 外力の関係 平衡方程式 境界条件 変位規定境界 反力規定境界 境界条件 荷重応力ひずみ変形 場の方程式 Γ t Γ t 平衡方程式構成方程式適合条件式 構造力学の基礎式 ひずみ 一軸 荷重応力ひずみ変形

More information

untitled

untitled A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション Dell PowerEdge C6320 スケーラブルサーバアプライアンス 仮想化アプライアンスサーバ 最新のプロセッサを搭載したサーバプラットフォーム vsmp Foundation によるサーバ仮想化と統合化の適用 システムはセットアップを完了した状態でご提供 基本構成ではバックプレーン用のスイッチなどが不要 各ノード間を直接接続 冗長性の高いバックプレーン構成 利用するサーバプラットフォームは

More information

SMM_02_Solidification

SMM_02_Solidification 第 2 章凝固に伴う組織形成 3 回生 金属材料学 凝固に伴う組織形成 2.1. 現実の凝固組織この章では 図 1.3に示したような一般的なバルク金属材料の製造工程において最初に行われる鋳造プロセスに伴い生じる凝固組織を考える 凝固 (solidification) とは 液体金属が固体になる相変態 (phase transformation) のことであり 当然それに伴い固体の材料組織が形成される

More information

about MPI

about MPI 本日 (4/16) の内容 1 並列計算の概要 並列化計算の目的 並列コンピュータ環境 並列プログラミングの方法 MPI を用いた並列プログラミング 並列化効率 2 並列計算の実行方法 Hello world モンテカルロ法による円周率計算 並列計算のはじまり 並列計算の最初の構想を イギリスの科学者リチャードソンが 1922 年に発表 < リチャードソンの夢 > 64000 人を円形の劇場に集めて

More information

スライド 1

スライド 1 本日 (4/25) の内容 1 並列計算の概要 並列化計算の目的 並列コンピュータ環境 並列プログラミングの方法 MPI を用いた並列プログラミング 並列化効率 2 並列計算の実行方法 Hello world モンテカルロ法による円周率計算 並列計算のはじまり 並列計算の最初の構想を イギリスの科学者リチャードソンが 1922 年に発表 < リチャードソンの夢 > 64000 人を円形の劇場に集めて

More information

分のゲージ行列である. γ µ は, 式 2 に示すような x の行 列である. なお, いずれの物理量も複素数で表される. γ i i γ 3 i i i i i i γ 2 γ よって, 式 は, 隣接する 8 方向の格子点上の 3x のス ピノルに, 格子間の 3x3 のゲージ行列と x のガ

分のゲージ行列である. γ µ は, 式 2 に示すような x の行 列である. なお, いずれの物理量も複素数で表される. γ i i γ 3 i i i i i i γ 2 γ よって, 式 は, 隣接する 8 方向の格子点上の 3x のス ピノルに, 格子間の 3x3 のゲージ行列と x のガ Vol.25-HPC-9 No. 25/6/26 格子 QCD における CPU と GPU の協調協調動作についての考察 土井淳 ペタスケールからエクサスケールへと計算機システムが巨大になるにつれ, 電力効率や集積度の点から,GPU のようなアクセラレーターを組み合わせた計算機システムの重要度がますます高まっている. しかしながら,CPU 自体の計算能力も日々向上しており, 計算機システム全体の計算能力を活かすためには,GPU

More information

で通常 0.1mm 程度であるのに対し, 軸受内部の表面の大きさは通常 10mm 程度であり, 大きさのスケールが100 倍程度異なる. 例えば, 本研究で解析対象とした玉軸受について, すべての格子をEHLに用いる等間隔構造格子で作成したとすると, 総格子点数は10,000,000のオーダーとなる

で通常 0.1mm 程度であるのに対し, 軸受内部の表面の大きさは通常 10mm 程度であり, 大きさのスケールが100 倍程度異なる. 例えば, 本研究で解析対象とした玉軸受について, すべての格子をEHLに用いる等間隔構造格子で作成したとすると, 総格子点数は10,000,000のオーダーとなる 論文の内容の要旨 論文題目 転がり軸受における枯渇弾性流体潤滑とマクロ流れのマルチスケール連成解析手法の開発 氏名柴﨑健一 転がり軸受は, 転動体が, 外輪および内輪上の溝を転がることにより, 軸を回転自在に支持する機械要素であり, 長寿命化, 低摩擦化が強く求められている. 軸受の摩耗や焼付を防ぎ, 寿命を延ばすため, 通常は潤滑油またはグリースなどの潤滑剤が用いられる. 潤滑油は, 転がり接触する二表面間に表面粗さよりも厚い膜を形成し,

More information

画像解析論(2) 講義内容

画像解析論(2) 講義内容 画像解析論 画像解析論 東京工業大学長橋宏 主な講義内容 信号処理と画像処理 二次元システムとその表現 二次元システムの特性解析 各種の画像フィルタ 信号処理と画像処理 画像解析論 処理の応答 記憶域 入出力の流れ 信号処理系 実時間性が求められる メモリ容量に対する制限が厳しい オンラインでの対応が厳しく求められる 画像処理系 ある程度の処理時間が許容される 大容量のメモリ使用が容認され易い オフラインでの対応が容認され易い

More information

Microsoft PowerPoint - 6-盛合--日文.ppt

Microsoft PowerPoint - 6-盛合--日文.ppt CLEFIA Sony s s Lightweight Block Cipher Shiho Moriai Sony Corporation 1 目次 ソニーにおける暗号技術 ソニーのブロック暗号 :CLEFIA 設計の背景 アルゴリズム仕様 設計方針 実装性能評価 まとめ 2 ソニーにおける暗号技術 暗号 / 情報セキュリティ技術搭載製品の増加 各種暗号アルゴリズム 著作権保護 機器認証 電子マネー

More information

Microsoft PowerPoint - qcomp.ppt [互換モード]

Microsoft PowerPoint - qcomp.ppt [互換モード] 量子計算基礎 東京工業大学 河内亮周 概要 計算って何? 数理科学的に 計算 を扱うには 量子力学を計算に使おう! 量子情報とは? 量子情報に対する演算 = 量子計算 一般的な量子回路の構成方法 計算って何? 計算とは? 計算 = 入力情報から出力情報への変換 入力 計算機構 ( デジタルコンピュータ,etc ) 出力 計算とは? 計算 = 入力情報から出力情報への変換 この関数はどれくらい計算が大変か??

More information

合金の凝固

合金の凝固 合金の一方向凝固 ( 古典論 by T.Koyama (-3 分配係数平衡分配係数は, と定義される 凝固において基本的にベースとなる独立変数は液相の濃度である 状態図の局所平衡を仮定することにより から が決まる つまり は従属変数となり 特に が定数である場合 は上記の式から簡単に計算できる 融点をT とし 液相線の温度 T と固相線の温度 T をそれぞれ m T Tm α, T Tm α とすると

More information

研究成果報告書(一部基金分)

研究成果報告書(一部基金分) 様式 C-19 F-19 Z-19( 共通 ) 1. 研究開始当初の背景近年 測定技術の発展により 細胞内における分子局在や濃度勾配などの定量的な解析が可能となった これに伴い 分子の空間的な偏りが細胞のダイナミクスに与える影響の解析が盛んに行われている このような生命システムのダイナミクスを理解する手法の一つとして 空間情報を考慮した数理モデルによる空間モデルシミュレーションが挙げられる 空間モデルシミュレーションでは偏微分方程式モデルを扱う際

More information

Microsoft PowerPoint - ICD2011UenoSlides.pptx

Microsoft PowerPoint - ICD2011UenoSlides.pptx 画像認識向け 3 次元積層 アクセラレータ アーキテクチャの検討 九州大学大学院システム情報科学府学院 * 九州大学大学院システム情報科学研究院 ** 上野伸也 * Gauthier Lovic Eric** 井上弘士 ** 村上和彰 ** 1 概要 画像認識技術 アクセラレータによる高性能 低消費エネルギー化 アプリケーション分析 アクセラレータ アーキテクチャ検討ア 性能 消費エネルギー評価 まとめ

More information

EEM-FDM 電磁界シミュレータ 〇差分法を用いた電磁界シミュレータ 時間領域差分法 (FDTD 法 ) : 高周波用 ( 計算対象 > 波長 ) 周波数領域差分法 : 低周波用 ( 計算対象 < 波長 ) 〇用途 準静電界 (10 3 Hz) から光 (10 15 Hz) まであらゆる電磁界現象

EEM-FDM 電磁界シミュレータ 〇差分法を用いた電磁界シミュレータ 時間領域差分法 (FDTD 法 ) : 高周波用 ( 計算対象 > 波長 ) 周波数領域差分法 : 低周波用 ( 計算対象 < 波長 ) 〇用途 準静電界 (10 3 Hz) から光 (10 15 Hz) まであらゆる電磁界現象 EEM-FDM のご紹介 ~GPU 高速計算を中心に ~ 株式会社 EEM 2017/03/14 EEM-FDM 電磁界シミュレータ 〇差分法を用いた電磁界シミュレータ 時間領域差分法 (FDTD 法 ) : 高周波用 ( 計算対象 > 波長 ) 周波数領域差分法 : 低周波用 ( 計算対象 < 波長 ) 〇用途 準静電界 (10 3 Hz) から光 (10 15 Hz) まであらゆる電磁界現象に対応

More information

IPSJ SIG Technical Report Vol.2012-ARC-202 No.13 Vol.2012-HPC-137 No /12/13 Tightly Coupled Accelerators 1,a) 1,b) 1,c) 1,d) GPU HA-PACS

IPSJ SIG Technical Report Vol.2012-ARC-202 No.13 Vol.2012-HPC-137 No /12/13 Tightly Coupled Accelerators 1,a) 1,b) 1,c) 1,d) GPU HA-PACS Tightly Coupled Accelerators 1,a) 1,b) 1,c) 1,d) HA-PACS 2012 2 HA-PACS TCA (Tightly Coupled Accelerators) TCA PEACH2 1. (Graphics Processing Unit) HPC GP(General Purpose ) TOP500 [1] CPU PCI Express (PCIe)

More information