PowerPoint Presentation

Similar documents
PowerPoint Presentation

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

EnSightのご紹介

ParallelCalculationSeminar_imano.key

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8

スライド 1

HPC (pay-as-you-go) HPC Web 2

密集市街地における換気・通風性能簡易評価ツールの開発 (その2 流体計算部分の開発)」

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

PowerPoint プレゼンテーション

MATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015

Microsoft PowerPoint - 演習1:並列化と評価.pptx

技術資料 JARI Research Journal OpenFOAM を用いた沿道大気質モデルの開発 Development of a Roadside Air Quality Model with OpenFOAM 木村真 *1 Shin KIMURA 伊藤晃佳 *2 Akiy

PowerPoint プレゼンテーション

PowerPoint Presentation

<4D F736F F D20332E322E332E819C97AC91CC89F090CD82A982E78CA982E9466F E393082CC8D5C91A291CC90AB945C955D89BF5F8D8296D85F F8D F5F E646F63>

次 CAE を取り巻く環境と展望 企業がシミュレーションに抱える痛み :3 つの例 クラウド CAE サービス Cistr Cistr のシステム概要 最新版 Cistr でできること Cistr を利 してみる 2

Microsoft Word - HOKUSAI_system_overview_ja.docx

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司

cp-7. 配列

粒子画像流速測定法を用いた室内流速測定法に関する研究

CCS HPCサマーセミナー 並列数値計算アルゴリズム

並列・高速化を実現するための 高速化サービスの概要と事例紹介

CAE/CFD Revolution2007セミナー社長挨拶

NUMAの構成

平成 22 年度 革新的な三次元映像技術による超臨場感コミュニケーション技術研究開発 の開発成果について 1. 施策の目標 人体を収容できる大きさの 3 次元音響空間についてリアルタイムに音響レンダリングできるシステム ( シリコンコンサートホール ) を 2013 年までに開発する 具体的には,

PowerPoint プレゼンテーション

hpc141_shirahata.pdf

Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ 3.7x faster P100 V100 P10

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

組込み Linux の起動高速化 株式会社富士通コンピュータテクノロジーズ 亀山英司 1218ka01 Copyright 2013 FUJITSU COMPUTER TECHNOLOGIES LIMITED

STAR-CCM+ の大規模並列化仕様とクラウドライセンス (PoD) ソリューション 株式会社 CD-adapco 吉田稔彦

1

Coding theorems for correlated sources with cooperative information

データセンターの効率的な資源活用のためのデータ収集・照会システムの設計

スライド 0

地図情報の差分更新・自動図化 概要版

Microsoft PowerPoint - 高速化WS富山.pptx

【資料3】エクサスケール時代に向けたソフトウェアベンダの産業利用に対する考え方・将来展望

スパコンに通じる並列プログラミングの基礎

スパコンに通じる並列プログラミングの基礎

本文ALL.indd

コンピュータグラフィックス第8回

スライド 1

Microsoft PowerPoint - OpenMP入門.pptx

修士論文

差分スキーム 物理 化学 生物現象には微分方程式でモデル化される例が多い モデルを使って現実の現象をコンピュータ上で再現することをシミュレーション ( 数値シミュレーション コンピュータシミュレーション ) と呼ぶ そのためには 微分方程式をコンピュータ上で計算できる数値スキームで近似することが必要

製品開発の現場では 各種のセンサーや測定環境を利用したデータ解析が行われ シミュレーションや動作検証等に役立てられています しかし 日々収集されるデータ量は増加し 解析も複雑化しており データ解析の負荷は徐々に重くなっています 例えば自動車の車両計測データを解析する場合 取得したデータをそのまま解析

Microsoft PowerPoint - stream.ppt [互換モード]

Microsoft PowerPoint - ARC-SWoPP2011OkaSlides.pptx

研究背景 大規模な演算を行うためには 分散メモリ型システムの利用が必須 Message Passing Interface MPI 並列プログラムの大半はMPIを利用 様々な実装 OpenMPI, MPICH, MVAPICH, MPI.NET プログラミングコストが高いため 生産性が悪い 新しい並

enshu5_6.key

<4D F736F F F696E74202D A A814590DA904796E291E882C991CE82B782E946726F6E CC95C097F190FC8C60835C838B836F815B82C982C282A282C42E >

メモリ階層構造を考慮した大規模グラフ処理の高速化

Microsoft PowerPoint _QSG AIR PRO WiFi_iphone.ppt

슬라이드 1

int main(int argc, char *argv[]) #include "setrootcase.h" #include "createtime.h" #include "createmesh.h" #include "createfields.h" #include "initcont

ソフト活用事例③自動Rawデータ管理システム

Microsoft PowerPoint - GPU_computing_2013_01.pptx

最新の並列計算事情とCAE

Microsoft PowerPoint - スライド_河村.pptx

Presentation Title

第 1 回ディープラーニング分散学習ハッカソン <ChainerMN 紹介 + スパコンでの実 法 > チューター福 圭祐 (PFN) 鈴 脩司 (PFN)

GPGPUクラスタの性能評価

Microsoft PowerPoint - H24全国大会_発表資料.ppt [互換モード]

HPC可視化_小野2.pptx

目次 第 1 章はじめに 本ソフトの概要... 2 第 2 章インストール編 ソフトの動作環境を確認しましょう ソフトをコンピュータにセットアップしましょう 動作を確認しましょう コンピュータからアンインストー

Microsoft PowerPoint - CAEworkshop_ _01.ver1.3

板バネの元は固定にします x[0] は常に0です : > x[0]:=t->0; (1.2) 初期値の設定をします 以降 for 文処理のため 空集合を生成しておきます : > init:={}: 30 番目 ( 端 ) 以外については 初期高さおよび初速は全て 0 にします 初期高さを x[j]

PowerPoint プレゼンテーション

<4D F736F F F696E74202D208C7997CA89BB8E9E8AD491AA92E B2E B8CDD8AB B83685D>

スライド 1

スライド 1

Microsoft PowerPoint - sales2.ppt

行列、ベクトル

目次 第 1 章はじめに 本ソフトの概要... 2 第 2 章インストール編 ソフトの動作環境を確認しましょう ソフトをコンピュータにセットアップしましょう 動作を確認しましょう コンピュータからアンインストー

小型移動ロボット

目次 1. CAD インターフェイス (3D_Analyzer&3D_Evolution) ユーザーインターフェイス機能強化 (3D_Analyzer&3D_Evolution)... 3 レポート... 3 クリッピング機能... 4 言語... 4 表示オプション

PowerPoint プレゼンテーション

Microsoft PowerPoint - 2_FrontISTRと利用可能なソフトウェア.pptx

2007年度 計算機システム演習 第3回

Microsoft PowerPoint ppt

平成 24 年度 革新的な三次元映像技術による超臨場感コミュニケーション技術研究開発 の研究開発目標 成果と今後の研究計画 1. 実施機関 研究開発期間 研究開発費 実施機関同志社大学 ( 幹事者 ), 北陸先端科学技術大学院大学, 東北大学 研究開発期間平成 21 年度から平成 24 年度 (4


並列計算導入.pptx

JavaプログラミングⅠ

Microsoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc

PowerPoint プレゼンテーション

平成 28 年 6 月 3 日 報道機関各位 東京工業大学広報センター長 岡田 清 カラー画像と近赤外線画像を同時に撮影可能なイメージングシステムを開発 - 次世代画像センシングに向けオリンパスと共同開発 - 要点 可視光と近赤外光を同時に撮像可能な撮像素子の開発 撮像データをリアルタイムで処理する

PowerPoint プレゼンテーション

3次多項式パラメタ推定計算の CUDAを用いた実装 (CUDAプログラミングの練習として) Implementation of the Estimation of the parameters of 3rd-order-Polynomial with CUDA

Microsoft Word - 卒業論文.doc

スライド 1

研究報告用MS-Wordテンプレートファイル

Microsoft PowerPoint - OS07.pptx

今後の予定 6/29 パターン形成第 11 回 7/6 データ解析第 12 回 7/13 群れ行動 ( 久保先生 ) 第 13 回 7/17 ( 金 ) 休講 7/20 まとめ第 14 回 7/27 休講?

単位、情報量、デジタルデータ、CPUと高速化 ~ICT用語集~

RICCについて

Transcription:

OpenFOAM の性能強化と 1 千億格子規模データのポスト処理の試み 清水建設株式会社 PHAM VAN PHUC 内山学

京 における OpenFOAM に関する取組み 第 1 回 OpenFOAM ワークショップ (2013) 京 への移植 10 億格子計算の壁 解決策 (Int32, プリ ポスト ) 第 2 回 OpenFOAM ワークショップ (2014) 1 万並列計算の壁 解決策 (MPI プラットフォーム ) 第 3 回 OpenFOAM ワークショップ (2015) 超並列 超大規模解析の性能評価 (10 5 並列 1 千億格子 ) 第 4 回 OpenFOAM ワークショップ ( 本日 ) OpenFOAM 性能強化, 超大規模ポスト処理 (1 千億格子 ) 2

内容 OpenFOAM の性能強化 ( 内山 ) 1 千億格子規模データのポスト処理の試み ( フック ) 3

OpenFOAM の性能強化ー thread 並列化 ( 非構造格子対応 ) - 清水建設株式会社 内山学 4

1. 目的と背景 目的 : 流体解析やFEM 解析をHybrid 並列化する ( 本報告ではthread 並列化まで ) 背景 Flat MPIによる超並列計算では通信の負担が大 流体コードで, 直交格子については文献 [3] で検討したが 実用面では非構造格子に適用できる方法が必要 格子単位のマルチカラー法では PCG 法の収斂性が悪い 色数を増やせば収斂性は改善されるが, 並列性は悪化 係数行列の行単位の並列化は性能が悪い( 演算量小 ) 使用コード :OpenFOAM-v1606+(pisoFOAM) [3] 内山, 他, OpenFOAM による流体コードの Hybrid 並列化の評価, 第 151 回ハイパフォーマンスコンピューティング報告発表会,2015. 5

2. 格子のオーダリングと行列格納方法 格子のグループ分け Figure 1 32 32 格子のグループ分け 6

2. 格子のオーダリングと行列格納方法 モデル :motorbike グループ数 :(32, 4, 2) Figure 2 係数行列の非零項の分布イメージ 格子の 99% 以上が level=0 と level=1 に含まれる 7

2. 格子のオーダリングと行列格納方法 対角ブロックのオーダリング U[*][4] の形に格納 (m1=4 の場合 ) Figure 3 対角ブロック内のオーダリング 8

3. 計算方法 対角ブロックの A 部分 (m1=3): 前進代入 A 部分の行数 対角ブロックの A 部分 (m1=3): 後退代入と行列ベクトル積 9

4. 数値実験 : 高層ビル 風速 10m/s 1 Δt=0.0001 s 最初の 2 step の圧力方程式を解く ICCG 法を計測 計算機 :Xeon E5-2697 v2 (2.70GHz, 12 cores, 30 MB Cache) 2 10

4. 数値実験 : 高層ビル 2 (6 色 ) CM: Cuthill-Mckey ordering S: profile reduction by Sloan EGMC: multi-color b128_s0: level0 が 128 ブロックブロック内が Sloan b128_s2: b128_s0 に対してブロック内を部分的に U[*][m1] と保持 number of iterations 4000 3500 3000 2500 2000 1500 1000 CM0 EGMC b128_cm0/1 b128_s0/2 b256_s2 500 0 11

4. 数値実験 : 高層ビル 収斂計算回数の増加以上に遅い 計算の制御が増加並列時に逆転 16 threads での高速化率が良くない 対角ブロック内 Sloan で悪化 対角ブロック内提案方法で高速化 Figure 6 Elapsed Time of ICCG Figure 7 高速化率 12

4. 数値実験 :motorbike 風速 10m/s 3 Δt=0.0001 s 最初の 10 step の圧力方程式を解く ICCG 法を計測 13

4. 数値実験 :motorbike 4 CM: Cuthill-Mckey ordering S: profile reduction by Sloan b128_s0: level0 が 128 ブロックブロック内が Sloan b128_s2: b128_s0 に対してブロック内を部分的に U[*][m1] と保持 16 threads での高速化率が良くない Figure 9 Elapsed Time of ICCG Figure 10 高速化率 14

4. 数値実験 EGMC ICCG 法の収斂性は著しく悪化し, 高速化率も余り良くない b128_s2 CM0と比べてICCG 法の収斂性を殆ど悪化させない Thread 並列化しない状態で計算時間を約 5% 短縮 8 threads 時で高速化率が5.3であり 良い結果と言える 16 threadsでは高速化率の伸びが良くない 15

他の部分の高速化の例 surfacescalarfield phihbya ("phihbya", (fvc::interpolate(hbya) & mesh.sf()) + fvc::ddtphicorr(rau, U, phi)); コードを展開 : 多次元配列化 作業配列削除 #pragma omp parallel if(nths>1) { #pragma omp for for (register idata i=0; i<ncells; i++) { irauu[i][0] = irau[i]*(c0*iu0[i][0]-c00*iu00[i][0]); irauu[i][1] = irau[i]*(c0*iu0[i][1]-c00*iu00[i][1]); irauu[i][2] = irau[i]*(c0*iu0[i][2]-c00*iu00[i][2]); } #pragma omp for nowait for (register idata fi=0; fi<nfaces; fi++) { idata i=p[fi], j=n[fi]; rdata s1 = isf[fi][0]*( iweights[fi]*(iu0[i][0]-iu0[j][0]) +iu0[j][0] ) +isf[fi][1]*( iweights[fi]*(iu0[i][1]-iu0[j][1]) +iu0[j][1] ) +isf[fi][2]*( iweights[fi]*(iu0[i][2]-iu0[j][2]) +iu0[j][2] ); rdata ddtcouplingcoeff = 1.0 -min( fabs(iphi0[fi]-s1)/(fabs(iphi0[fi])+vsmall), 1.0 ); 当該箇所の計算時間 : 高層ビル (9,973,802 格子 ) 2.21 sec 0.66 sec ( コードを展開 ) 0.35 sec (8 threads) 未展開部分があり十分に並列化されていない こういう部分はたくさんある C++ の良さはなくなるが速くなる } 以下略. rdata gamma_ra = iweights[fi]*(irau[i] -irau[j]) + irau[j]; rdata s2 = isf[fi][0]*( iweights[fi]*(irauu[i][0]-irauu[j][0]) +irauu[j][0] ) +isf[fi][1]*( iweights[fi]*(irauu[i][1]-irauu[j][1]) +irauu[j][1] ) +isf[fi][2]*( iweights[fi]*(irauu[i][2]-irauu[j][2]) +irauu[j][2] ); rdata ddtphicorr = rdt *ddtcouplingcoeff *( gamma_ra*(c0*iphi0[fi]-c00*iphi00[fi]) -s2 ); rdata s3 = isf[fi][0]*( iweights[fi]*(ihbya[i][0]-ihbya[j][0]) +ihbya[j][0] ) +isf[fi][1]*( iweights[fi]*(ihbya[i][1]-ihbya[j][1]) +ihbya[j][1] ) +isf[fi][2]*( iweights[fi]*(ihbya[i][2]-ihbya[j][2]) +ihbya[j][2] ); iphihbya[fi] = s3 + ddtphicorr; 計算機 :Xeon E5-2637 v3 (3.50GHz, 4 cores) 2 16

1 千億格子規模データのポスト処理の試み 清水建設株式会社 PHAM VAN PHUC

超並列 超大規模解析の性能 第 3 回 OpenFOAM ワークショップ (2015) Weak Scaling ( 単相流解析ソルバ pisofoam) PHAM VAN PHUC 内山学 ( 清水建設 ), 井上義昭 浅見暁 (RIST), 千葉修一 ( 富士通 ) : 京 コンピュータでの C++ 型流体コードにおける MPI の評価, 第 151 回ハイパフォーマンスコンピューティング研究発表会論文集 (2015.9)

超並列 超大規模解析の性能 第 3 回 OpenFOAM ワークショップ (2015) Weak Scaling ( 単相流解析ソルバ pisofoam) 1,000 億格子規模の計算は可能である

最新 OpenFOAM の並列性能 Weak Scaling ( 二相流解析ソルバ interfoam) 清水建設 理研 富士通との共同研究 計算コア部分の大きな技術課題はほぼクリア プリ ポストの課題 32 億格子 256 億格子 PHAM VAN PHUC( 清水建設 ): Large Scale Transient CFD Simulations for Buildings using OpenFOAM on a World s Top-class Supercomputer, The 4th Annual OpenFOAM User Conference 2016/ 2016 North American OpenFOAM User Conference, Keynote 講演, 2016

プリ ポスト処理の課題 シリアル処理の限界 ( データハンドリング メモリ不足 ) データの分割 結合が非常にかかる 10 億格子の壁 10 億格子データ 1TB メモリの利用 京のプリ ポスト処理 PC: 1TB モデル作成 ( プリ処理 ) 初期化領域分割 シミュレーション データ結合ポスト処理 出力 可視化 Computational domain in a single processor Computational domain, results in a single processor

プリ ポスト処理プロセスの提案 第 1 回 OpenFOAM ワークショップ (2013) 分散処理による解決 OpenFOAMの既存ツールの改良モデルの作成 ( プリ ) 初期化ロードバランス シミュレーション ポスト処理 データ出力 可視化 画像処理 データ処理等

京 における可視化プロセスの実装 風洞実験の再現 (64 億格子 ) 広域市街地の再現 (20 億格子 ) 1,000 億格子規模データ可視化のトライ

大規模 超高速の可視化システムの開発取組み TSUBAME2.0 スパコンでの実施検討 (2012) PHAM VAN PHUC と渡辺宏一 ( 清水建設 ): 建築環境の超高速計算可視化システム, 招待講演, 2012 http://www.cybernet.co.jp/avs/seminar_event/conf/18/program.html#03 24

シミュレーション技術のコンセプト 精緻なデータの利用 ( プリ ) 3 次元データの利用 高解像度計算モデルの作成 プロ 素人とは関係なく 自動作成 高速 大規模計算の実施 ( 解析 ) 最新ハード 分散処理 超高速 超並列計算の実施 高精度予測 リアルタイム性処理 どこでも活用できる ( ポスト ) リモート クラウド技術の活用 客先と対話可能

シミュレーション技術のフレームワーク Database (3D データ ) どこでも活用できる ユーザー Platform 画像レンダリング 流体解析 構造解析 IT Services 京 : 解析の高精度化 CPUs GPUs CPU GPU クラウド ユーザー

数値流体解析データ容量の次元 2K 4K 8K 1KB~100MB 1GB~1TB 1TB~100TB 画像レンダリング データ合体 Screen pixels Image pixels 必要な可視化データ 計算領域物理情報 可視化エンジン Paraview Ensight FieldView

戦略的な可視化方法の概要 2K 4K 8K 1KB~100MB 1GB~1TB 1TB~100TB 画像レンダリング 低解像度化データ伝送 Screen pixels 画像伝送 Image pixels 必要な可視化データ データ合体 画像処理 計算領域物理情報 Multi-Screen pixels 多並列の画像レンダリング LOCAL (PC) REMOTE ( 京 コンピュータ等 )

京 での可視化エンジンの移植 対応ソフト ParaView-3.12.0 ParaView-3.98.1 ParaView-4.1.0 コードの一部修正 移植 画像処理ソフトは独自コード

対象とする解析モデル (1,000 千億 ) 京 利用課題の 竜巻シミュレーション 2m 竜巻のコア 建物 16m processors: 256 24 16=98,304 総格子数 : 25,856 2,424 1,616 1 千億 3m

データ容量 ハンドリング 計算格子 : 3.19TB *) 物理量 (U, p) : 0.56TB/ ステップ *) データファイルのハンドリング Processor 数 : 98,304 ステージングイン時間 : 約 10 分 (proc=98,304) *) tgz 圧縮フォーマット

画像の概要 Resolution 解像度 X Y Pixels per Frame ( 画素数 ) Full HD(2K) 1,920 1,080 2,073,600 4K 3,840 2,160 8,294,400 8K 7,680 4,320 33,177,600 16K 15,360 8,640 132,710,400(1 億 ) 32K 30,720 17,280 530,841,600(5 億 ) 48K 46,080 25,920 1,194,393,600(11 億 ) 64K 61,400 34,560 2,123,366,400(21 億 ) 世界最高画素数カメラ : 5,060 万画素 ( キャノン EOS 5Ds) 超高精細ディスプレイ : ~8K 世界最大画像サイズ : 3,650 億画素 ( 画像処理 )

可視化の画素数 ( 投影面 ) 1pixel/ 格子 4pixels/ 格子 9pixels/ 格子 十分な画素数を用いる必要がある

全メッシュ図の可視化 9pixels/ 格子 フォト表示サイズ :722.5KB Pixel サイズ :91,648 17,184 ~ 16 億画素数 ~ 64K 34

建物周辺のメッシュ図 9pixels/格子 サイズ:2.21MB Pixelサイズ 8,000 8,000 ~ 6400万画素数 8K 35

風速コンター図の可視化 9pixels/ 格子 フォト表示サイズ :16.3MB Pixel サイズ :91,648 17,184 ~ 16 億画素数 ~ 64K 1,000 億のデータを技術的に可視化できることを確認! 36

計算格子の低解像度化による変化 1,000 億格子 データマッピング 2 億格子 画像はやや劣化しているが 現象の観察について十分

まとめ 1,000 億格子規模データのハンドリングや可視化は分散処理により行うことが可能である 現象の把握を目的とした場合 部分可視化やデータの低解像度化を行うことは有効な方法である 可視化レベルによってそれを限らない