PowerPoint プレゼンテーション

Similar documents
目次 日立テクニカルサーバラインナップ 日立サーバラインナップ 物理乱数発生カードの紹介 4 GPU コンピューティングへの取り組み 5 TOP50 状況 2

資料3 今後のHPC技術に関する研究開発の方向性について(日立製作所提供資料)

Microsoft PowerPoint - ★13_日立_清水.ppt

統合サービスプラットフォーム BladeSymphony(CA-894S)

サーバプラットフォーム「BladeSymphony」、「HA8000シリーズ」の新モデルを販売開始

「BladeSymphony」「HA8000 シリーズ」において最新OS Windows Server 2008 プレインストールモデルを販売開始

システムソリューションのご紹介

Red Hat Enterprise Linux Server 7 動作確認表

Microsoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc

日立アドバンストサーバ「HA8000シリーズ」の2プロセッサーモデル3機種を強化

PowerPoint プレゼンテーション

<4D F736F F F696E74202D204E505F8E9F90A291E E815B CFC82AF B838B B838B C5E B8D5C91A E E4E41532E7

MAGNIA Storage Server Configuration Guide

Red Hat Enterprise Linux Server 7 動作確認表

PowerPoint プレゼンテーション

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015

MATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8

FY14Q4 SMB Magalog December - APJ Version

CELSIUSカタログ(2012年7月版)

【Cosminexus V9】クラウドサービスプラットフォーム Cosminexus

Windows Server 2016 Hyper-V ストレージQoS機能の強化

HP High Performance Computing(HPC)

Software-Defined Storage ware Virtual SAN ware Virtual SAN

Express5800/GT110d スペック表 製品名称 Express5800/GT110d 製品型名 N Y N Y N Y 搭載 CPU インテル Celeron プロセッサー G530 インテル Pentium プロセッサー G630 インテ

Microsoft PowerPoint PCクラスタワークショップin京都.ppt

CELSIUSカタログ(2012年5月版)

Corp ENT 3C PPT Template Title

スライド 1

(^^

kaisetu.book

HPE Integrity NonStop NS2300 サーバー

JP1 Version 11

12 PowerEdge PowerEdge Xeon E PowerEdge 11 PowerEdge DIMM Xeon E PowerEdge DIMM DIMM 756GB 12 PowerEdge Xeon E5-

仮想ファイルプラットフォーム「Hitachi Virtual File Platform」のラインアップを刷新

Hitachi Compute Adapter -Hitachi Compute Plug-in for VMware vCenter- サポートマトリックス

NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ

FUJITSU Software Systemwalker Centric Manager Lite Edition V13.5 機能紹介資料

038_h01.pdf

NEC Hyper Converged System の機能 サービス提供内容 NEC Hyper Converged System 構築サービス : 本サービスを利 する事で すぐに仮想マシンの作成を開始できる仮想化基盤を導 できます お客様はシステム導 までの期間を短縮 業務の構築に集中すること

FUJITSU Integrated System 新着 情報 PRIMEFLEX for VMware vsanエンハンス ハイパーコンバージドインフラストラクチャー(HCI)は Software Defined Storage(SDS)技術によりサーバ のローカルディスクを共有ストレージとして使

情報解禁日時 :12 月 20 日 ( 木 )11:00 以降 株式会社マウスコンピューター News Release MousePro 第 9 世代インテル CPU 搭載ビジネス向けデスクトップパソコンを 12 月 20 日 ( 木 ) 販売開始! ビジネス向けデスクトップパソコン MousePr

NEC 製PC サーバ『Express5800 R120f-1E』とSanDisk『ioMemory SX /SX 』検証報告書

(速報) Xeon E 系モデル 新プロセッサ性能について

(Microsoft PowerPoint - Mirapoint\220\273\225i\221\316\224\344\225\\\(6\203V\203\212\201[\203Y_7\203V\203\212\201[\203Y\).ppt)

HA8000xH ハードウェア アーキテクチャーガイド

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

1 本体 2.5 型ドライブモデル ( フレームモデル ) 製品名称 / 概要 Express5800/R110i-1(4C/E3-1220v6) 1 x インテル Xeon プロセッサー E3-1220v6 (3GHz, 4C/4T, 8 MB), メモリセレクタブル, ディスクレス, ODD レ

Microsoft PowerPoint - CCS学際共同boku-08b.ppt

性能を強化した 第 12 世代 Dell PowerEdge サーバの RAID コントローラ Dell PERC H800 と PERC H810 の OLTP ワークロード性能比較 ソリューション性能分析グループ Luis Acosta アドバンストストレージエンジニアリング Joe Noyol

Microsoft PowerPoint - DELL EMC PowerEdge 選定ガイド_ [読み取り専用]

PowerPoint プレゼンテーション

GPUを用いたN体計算

V8_教育テキスト.dot

Microsoft Word - アーキテクチャガイドxL_r1.doc

Dell-PowerEdge_handbook_12p_final.indd

Express5800/GT110gS( 空冷 ) スペック表 Express5800/GT110gS( フレームモデル ) N Y N Y 搭載 G GHz E31220v3 3.10GHz コア数 (C)/ スレッド数 (T) (1) 3MB 2C/2

Z8 G4 WorkstationでのANSYS19.1 Mechanical ベンチマーク結果紹介資料(フル版)

EGunGPU

Microsoft PowerPoint - (WEB)01-0_iStorage_M_ _r2.pptx

スライド 1

名称 : 日本 GPU コンピューティングパートナーシップ (G-DEP) 所在 : 東京都文京区本郷 7 丁目 3 番 1 号東京大学アントレプレナープラザ, 他工場 URL アライアンスパートナー コアテクノロジーパートナー NVIDIA JAPAN ソリュ

Microsoft PowerPoint - (WEB)01-0_iStorage_M_ pptx

StoreEasy 1x40 RAID構成ガイド

Transcription:

PC クラスタワークショップ in 神戸 日立のテクニカルコンピューティングへの取り組み 211/2/18 株式会社日立製作所中央研究所清水正明 1 目次 1 2 3 日立テクニカルサーバラインナップ 日立サーバラインナップ GPU コンピューティングへの取り組み 4 SC 1 日立展示 2 1

1-1 日立テクニカルサーバ : History & Future Almost 3 Years of Super Computing Development Vector S-81 First Japanese vector supercomputer S-82 Single CPU peak performance 3 GFlops Scalar Parallel (MPP type) SR221 S-38 Single CPU peak performance 8 GFlops (fastest in the world) SR8 First commercially available distributed memory parallel processor Vector-Scalar Combined type First HPC machine with combined vector & scalar processing SR11 147.2 GFlops of node peak performance with POWER5+ processor (Model K2) PC Server HA8 Series SR16 Over 3-4 times node peak performance with POWER6 processor HA8-tc/RS425 High Performance Server for Cluster System Petaflop computer '96 Hitachi started development of Hitachi s original chipset and server for Itanium processor. '82 '85 '9 '95 ' 5 1 POWER6 is a trademark of IBM corporation. POWER5+ is a trademark of IBM corporation. 3 1-2 日立テクニカルサーバラインアップ PC クラスタからスカラ SMP までラインアップ拡充 最新 POWER7 TM プロセッサ 32way 搭載 SR16 Xeon TM 2 ソケットプロセッサ 今後の最新 cpu にも対応予定 Xeon TM 2.93HGz 12way (1U DP サーバ ) HA8/RS21 PC クラスタ SR16 XM1 モテ ル スカラ SMP クラスタ POWER7 TM 3.3GHz 32way 空冷モデル 4 2

1-3 SR16XM1 の紹介 電力性能比 価格性能比に優れた POWER7 搭載の SR16 シリーズ次世代機第一弾 日立開発 製造 : IBM 社との戦略的アライアンスに基づく 日立開発 製造の POWER7 搭載サーバ EP8/75 と共通プラットフォーム 電力性能比の向上 : SR16 モデル L1/L2 と同等の 32way SMP 構成を POWER7 4 ソケットで実現 ノード消費電力は約 1/3 に大幅に削減 抜群の価格性能比 : POWER7 の圧倒的な性能と 戦略的な価格付けにより 価格競合力を強化! 日立開発 製造機 SR16/XM1 中規模 SMP ノード クラスタ : SR シリーズのコンセプトを受継ぐデザイン 中規模 SMP ノードのクラスタシステムによりスループット指向の中規模システムに最適 5 2 日立サーバラインアップ ブレードサーバ ラックマウントサーバ 6 3

2-1 BladeSymphony ラインアップ ブレードサーバを核に ストレージ ネットワーク 管理ソフトウェアを一体化した統合サービスプラットフォーム BladeSymphony 各製品 充実のラインナップで 用途に応じた製品を提供 仮想化環境やソリューションを含めたシステム提供も可能 ターゲット ブレードサーバ部 ストレージ部 ネットワーク部 Web3 階層統合システム, 大規模データベース等 ハイエンドモデル BS2 BS2fx Hitachi Storage Solutions CommuniMax PC サーバ統合データセンター中小規模の部門サーバ 小型高集積モデル BS32 SMS1 BR16E BR16S BR2 ロードバランサ AX25 サーバ仮想化日立サーバ仮想化機構 Virtage VMware ESX Windows Server 28 Hyper-V TM ミドルウェア BladeSymphony システム管理ソフトウェア 主要 ISV ソフトウェア プラットフォームソリューション / サポートサービス 7 2-2 ハイエンドモデル BS2/BS2fx 高性能 高信頼志向のシステム向け 仮想化による集約 高速処理に適応した性能 拡張性 - サーバブレード間 SMP 接続 (64cores MAX メモリ 1TBMAX) - I/O スロット拡張装置 (64 スロット MAX) 日立サーバ仮想化機構 Virtage 標準搭載 (*1) メインフレームの高信頼 高可用化技術を継承業界最高レベルの高効率電源 - CSCI Gold 基準適合, 8 PLUS GOLD 認証取得 (*2) 基幹システムの長期安定稼働を支援 - E タイプ ハードウェア長期保守対応 - ロングライフサポートサービス 7 年 /1 年 (*3) 標準サーバブレード高性能サーバブレード NEW fx 仮想統合を実現する高信頼スケーラブル ブレードサーバ スケールアウト *1:Essentialモデル *2: 電源負荷 5% 時の変換効率 92% を実現最大 8ブレード /1U *3:BS2 Eタイプにて提供 8 4

2-3 小型高集積モデル BS32 より軽く より小さく高密度実装を追求 幅広い用途に対応する高集積 省電力ブレードサーバ 高さ6U( 約 27cm) に最大 1ブレード搭載可能 最大重量約 98kg/ シャーシの軽量設計 用途に応じた多彩なサーバブレードをラインアップ 日立サーバ仮想化機構 Virtageに対応 (*1) 高効率電源 (CSCI Silver 基準適合,8 PLUS SILVER 認証取得 (*2)) ハードウェア長期保守対応 ( ロングライフサポートサービス :7 年 ) 標準サーバブレード SAN 専用サーバブレード HDD 拡張サーバブレード PCI 拡張サーバブレードロードバランサブレード *1:PCI 拡張サーバブレード Virtage モデルで提供 *2: 負荷 5% 時の変換効率 89% 以上を実現 9 2-4 (4Processor) (2Processor) HA8/TS2 出荷開始時期 :21/11/3 (1Processor) HA8/SS1 出荷開始時期 :21/11/3 Xeon(X567/E564/E562/E553) RAID 追加機能 2.5 型 HDD 15krpm 追加 3.5 型 2TB SATA HDD 追加動的パワーキャッピング SSD Core i3-54/pentium G695 RAID 追加機能 3.5 型 2TB SATA HDD 追加 HA8 ラインアップ HA8/RS44 出荷開始時期 :21/11/3 HA8/RS22 出荷開始時期 :21/11/3 HA8/RS21 出荷開始時期 :21/11/3 HA8/RS11 出荷開始時期 :21/11/3 HA8/TS1 出荷開始時期 :21/11/3 Xeon(X756/X755/E754 /E752) RAID 追加機能 2.5 型 HDD 容量アップ SSD ロングライフサポート ENERGY STARモテ ル Xeon(X568/X567/E564/E556/L563/E5 53) CPU 追加 RAID 追加機能 2.5 型 HDD 15krpm 追加 3.5 型 2TB SATA HDD 追加動的パワーキャッピング SSD AC2V 低電圧メモリ Xeon(X567/E564/E562/L563/E55 3) CPU 追加 RAID 追加機能 2.5 型 HDD 15krpm 追加 3.5 型 2TB SATA HDD 追加動的パワーキャッピング SSD AC2V 低電圧メモリ Xeon(X348/X347/X346/X34 3) Core i3-54/pentium G695 CPU 追加 RAID 追加機能 3.5 型 2TB SATA HDD 追加 Xeon(X348/X347/X346/X34 3) Core i3-54/pentium G695 CPU 追加 RAID 追加機能 3.5 型 2TB SATA HDD 追加 1 5

3 3 GPU コンピューティングへの取り組み 日立の GPGPU への取り組み HPC システムとアプリケーションの性能 11 11 3-1 日立の GPGPU への取組み (1) 計算科学を用いた研究開発分野で GPU 利用が拡大中研究所を中心に技術交流会を定期的に開催 < 利用分野 ( 検討中含む )> 原子炉炉心解析 火力 原子力発電の蒸気タービン流れ解析 ボイラ燃焼効率解析 粒子線治療シミュレーション 材料物性 ナノシミュレーション 機械 ( 熱流体, 構造, 振動 ) 電磁場 ライフサイエンス 金融 ( 実効金利計算 ) 他 12 6

3-2 日立の GPGPU への取組み (2) GPGPU 技術に関し 学術系 ~ 産業系アプリの先行評価 提案中 (1) 分子動力学 (2) 電磁場解析 (3) 医用画像処理 (4) 監視画像処理 領域サイズ ; 12x12x7A カットオフ半径 ; 5.2A 近傍の分子リストの作成処理 time 8.12 秒 faster X Z マクスウェル方程式による 3 次元解析 94.5 秒 Y 給電面 ダイポールアンテナ faster 複数医用画像の重ね合せ位置決定 78 秒 CT 画像 1 CT 画像 2 faster 対象画像サイズ =XGA(124x768) 補正分割単位 =16x16 魚眼レンズ画像を平面図に変換 286 秒 faster.12 秒 従来 GPGPU 加速率 = 約 8 倍 18.2 秒従来 GPGPU 約 5.6 倍 5.7 秒従来 GPGPU 約 14 倍 15.6 秒従来 GPGPU 約 18 倍 学術系 産業系 13 3-3 GPGPU の性質と日立の取り組み GPGPU 性質 : アプリによって加速率に大差 投資判断が難しい 日立取組 : 業務アプリを解析し 投資前に加速率を評価可能に アプリ (1)~(4) の加速率比較 ; 16 [ 倍 ] 12 8 4 x8 (1) 分子動力学 x5.6 (2) 電磁場解析 x14 x18 (3) 医用 (4) 監視画像画像 我々のアプリはどの程度加速するの? 日立取組み例 ; 流体アプリの事前評価 time 従来 66.4 秒ボトルネック解析 - アクセス解析 - データ配置最適化 22.4 秒 次 改善 本実装 実装 見込み 事前評価により 高精度に加速率を算出! 7.35 秒 8.96 秒 14 7

3-4 社内には GPU ユーザ多数 利用技術 最適化技術も蓄積中 ソリューションメニューも整備 ( 事前評価からサポート ) GPU 対応製品 (PCIe x8,x16 搭載 ) HA8 他販売中 GPU 搭載した大規模クラスタ (HPC システム ) 検討中 15 3 GPU コンピューティングへの取り組み 日立の GPGPU への取り組み HPC システムとアプリケーションの性能 16 16 8

3-5 システムバランスとアプリケーションの性能 アプリケーションの実効性能 ( 効率 ) を以下の 2 点から定量評価 node (1) ピーク演算性能に対するメモリバンド幅 [Byte/flop] (2) ピーク演算性能に対するネットワークバンド幅 [Byte/flop] Memory CPU core CPU core Inter-node Network Example of high performance sever (1),(2) の数値を変化させて実効性能への影響を見る ( シミュレーション ) アプリケーションが求めるシステムバランスを求める 17 3-6 評価アプリケーション 4 種類の並列アプリについて評価を実施並列化スキームとプロセス間通信パターンは以下の通り No. Application Calculation method Partition type 1 Ab initio MD FFT, DGEM Band Energy 1 2 Structural Calculation Finite Element Method 3-Dim. space 2 3 Atmosphere Difference Method 2-Dim. 3 4 Ocean Difference Method 2-Dim. 3 Type Partition Communication Pattern MPI function 1 X MPI_allreduce (MPI_sum) z y 2 x MP_send, MPI_recv MP_send, MPI_recv MPI_allreduce(MPI_sum) z y 3 x 18 9

CPU time ratio% CPU time ratio% 3-7 メモリバンド幅と演算性能のバランス ( メモリバンド幅 GB/s) / ( 演算性能 GFlop/s) >.4[Byte/flop] CPU time ratio becomes lower..2 ~.4[Byte/flop] Better to keep more than 1. [Byte/flop] 1 8 6 4 2 ab initio MD Structural Calculation Atmosphere Ocean.5 1 1.5 2 Memory throughput/calculation performance[byte/flop] 19 3-8 ネットワーク性能と演算性能のバランス ( ネットワークバンド幅 GB/s) / ( 演算性能 GFlop/s) >.2 [Byte/flop] The ratio of the communication time depends on the application. Better to keep more than.2 [Byte/flop] 1 8 6 4 2.1.2.3.4.5 Communicatin throughput/ Computation performance[byte/flop].6.7.8.9.1.2.3.4.5 ab initio MD Structural Calculation Atmosphere Ocean グラフは Memory throughput/calculation performance[byte/flop] =.4 の場合 2 1

Throughput throughput[gb/s] [GB/s] 3-9 アプリケーションの要請 ( メモリバンド幅 GB/s) / ( 演算性能 GFlop/s) >.4[Byte/flop] ( ネットワークバンド幅 GB/s) / ( 演算性能 GFlop/s) >.2 [Byte/flop] マルチ GPU システムのバランス ( メモリバンド幅 GB/s) / ( 演算性能 GFlop/s) =.25[Byte/flop] ( ネットワークバンド幅 GB/s) / ( 演算性能 GFlop/s) =.4 [Byte/flop] 実際にアプリケーションの性能はどうなるか? 21 3-1 GPU システムでのアプリの性能推定 演算時間 : GPU システムの B/F より実効効率を計算サーバのメモリ周波数を変化させて実行時間を測定実行時間を CPU 時間とデータ転送時間に分解 メモリ周波数 F Ma (high) F Mb (low) CPU time data transfer time メモリバンド幅の影響 実行時間 通信時間 : PC クラスタで並列実行して通信プロファイルを取得 個々の通信に対して通信量から通信時間をグラフから求める data size [B] 22 11

性能 ( 比 ) 性能 ( 比 ) 3-11 Ocean の並列性能 [ 推定 ] 同じ規模の問題を x 方向 y- 方向の順で分割を繰り返す strong scaling 1 プロセスのメモリ使用量が GPU に収まる最小の並列数を基準 ( グラフのプロセス数 ( 比 )=1) プロセス数 ( 比 )=1 のメモリ使用量 2.6GB S25 で利用可能な最大値 プロセス数 ( 比 )=1 のときの通信時間 全実行時間の 9.4% 演算効率は B/F から推測 3.3% 1 Ocean の性能 1% 9% 1 1 並列効率 := ( 実効性能 /Ideal) Ideal 1 プロセス実行からの加速 8% 7% 6% 5% 4% 1 3% 2% 1% 1 1 2 4 8 16 32 64 128 256 512 124 プロセス数 ( 比 ) % 23 3-12 Ocean の並列性能 [ 推定 ] の改善 [1] 通信アルゴリズムによる対策隣接通信する境界面を多層化して通信回数を削減 [2] 資源増強による対策さらに InfiniBannd を追加して 2 方向の隣接間通信を同時実行 7 Ocean の性能 6 61.3 5 52.7 49.3 通信対策 [2] 4 3 2 1 1. 1.8 1.9 3.2 3.3 3.1 5.7 5.6 5.4 9.3 8.7 15. 12.8 13.6 21.8 19.2 16.9 1 2 4 8 16 32 64 128 256 512 124 プロセス数 ( 比 ) 31.5 27. 2.4 4.5 33.7 23.2 43.1 25.5 27.2 通信対策 [1] オリジナル 24 12

性能 ( 比 ) 3-13 Atmospher の並列性能 [ 推定 ] プロセス数 ( 比 )=1 のメモリ使用量 1.8GB 演算効率は B/F から推測 3.8% プロセス数 ( 比 )=1 のとき通信時間は 16% 7 6 Atmoshere 並列性能 [ 推定 ] 65.19 5 通信対策 [2] 4 44.18 42.18 3 3.42 31.39 通信対策 [1] 2 23.86 16.58 17.88 24.73 オリジナル 1 1..97 1.4 3.22 3.4 3.45 1.1 8.41 8.29 1 4 16 64 256 124 プロセス数 ( 比 ) [1] 通信アルゴリズムによる対策隣接通信する境界面を多層化して通信回数を削減 [2] 資源増強による対策さらに InfiniBannd を追加して 2 方向の隣接間通信を同時実行 25 3-14 まとめ : マルチ GPU システムとアプリの性能 マルチ GPU システムの特徴 ( メモリバンド幅 GB/s) / ( 演算性能 GFlop/s) =.25[Byte/flop] メモリ性能バランスは PC サーバよりやや低め 効率は良い (8%) ( ネットワークバンド幅 GB/s) / ( 演算性能 GFlop/s) =.4 [Byte/flop] ネットワーク性能が相対的に低く見える レイテンシ > 2μs GPU Direct はデータ長 > 16KB で効果大 アプリケーションの並列実行性能 GPU のメモリを最大に使用した weak scaling ではネットワークの弱さは目立たない strong scaling でのスケーラビリティ劣化は早い今回の評価では 16GPU で約 1 倍加速 以後急速に劣化 strong scaling でのスケーラビリティを保つには努力が必要演算に隠蔽できれば良い転送データ長が大きい場合はパイプライン化転送データ長が小さい場合は通信回数の削減演算数が増えても通信回数削減を検討 (shadow 領域の多層化など ) 26 13

4 SC 1 日立展示 27 4-1 日立ブース SC1 11/15-11/18 NewOrleans 28 14

4-2 次世代サーバボード 29 4-3 3.3 PC 関連 3 15

4-4 3.4 GPU 関連 31 32 16