hpc141_shirahata.pdf

Similar documents
VXPRO R1400® ご提案資料

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015

PowerPoint プレゼンテーション

システムソリューションのご紹介

東芝 MAGNIA R3320b での SSD 性能の検証 2012 年 8 月 株式会社東芝 クラウド & ソリューション事業統括部 目次 1. はじめに ソリッドステートドライブの概要 使用機器一覧 単体性能について サーバー用途別のテスト

自己紹介 1982 年 4 月に日商エレクトロニクス株式会社入社 Sybase を使った銀行系システムの開発 保守を担当 Oracle データベースを使ったアプリケーション設計 開発 保守 およびパフォーマンス チューニングなどのコンサルティング業務を担当 Oracle データベースのデータ移行 再

Microsoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc

Microsoft Word LenovoSystemx.docx

038_h01.pdf

Microsoft Word - HOKUSAI_system_overview_ja.docx

April 2014 Flash-aware MySQL フラッシュが MySQL を変える Takeshi Hasegawa Senior Sales Engineer APAC Japan Fusion-io

[4] ACP (Advanced Communication Primitives) [1] ACP ACP [2] ACP Tofu UDP [3] HPC InfiniBand InfiniBand ACP 2 ACP, 3 InfiniBand ACP 4 5 ACP 2. ACP ACP

PowerPoint プレゼンテーション

NEC 製PC サーバ『Express5800 R120f-1E』とSanDisk『ioMemory SX /SX 』検証報告書

OPENSQUARE

Microsoft Word - JP-AppLabs-MySQL_Update.doc

パフォーマンスレポート PCIe-SSDs

Microsoft Word - WP-1GBpsStorage-win1.00.doc

スライド 1

Fusion-io製品ご紹介

富士通株式会社製サーバ「PRIMERGY TX200 S6」とVIRIDENT社製「tachIOn」接続検証結果

スライド 1

Microsoft Word ●MPI性能検証_志田_ _更新__ doc

富士通社製PC サーバ『PRIMERGY』とFusion-io 社Solid State Storage『ioDrive Duo』の接続検証報告書

160311_icm2015-muramatsu-v2.pptx

スライド 1

Microsoft Word - Dolphin Expressによる10Gbpソケット通信.docx

Microsoft Word - gori_web原稿:TrusSPSにおけるNAS OSのパフォーマンス評価.docx

Microsoft PowerPoint - ARCEMB08HayashiSlides.ppt [互換モード]

[PRESS RELEASE] ITGMARKETING 2018-PR 年 1 月 24 日 ITG マーケティング株式会社 Samsung 64 層 V-NAND 搭載 SATA SSD 新ラインアップ 860 PRO と 860 EVO を 2 月上旬より販売 日本サムスン株式

名称 : 日本 GPU コンピューティングパートナーシップ (G-DEP) 所在 : 東京都文京区本郷 7 丁目 3 番 1 号東京大学アントレプレナープラザ, 他工場 URL アライアンスパートナー コアテクノロジーパートナー NVIDIA JAPAN ソリュ

CELSIUSカタログ(2012年7月版)

CCS HPCサマーセミナー 並列数値計算アルゴリズム

PowerPoint プレゼンテーション

富士通PCサーバ「PRIMERGY RX2530 M4」における「TeraStation TS5010 / TS3010」シリーズ動作検証報告

12 PowerEdge PowerEdge Xeon E PowerEdge 11 PowerEdge DIMM Xeon E PowerEdge DIMM DIMM 756GB 12 PowerEdge Xeon E5-

工学院大学建築系学科近藤研究室2000年度卒業論文梗概

PowerPoint プレゼンテーション

パフォーマンスレポート PCIe-SSDs ioDrive®2

MAGNIA Storage Server Configuration Guide

(Microsoft PowerPoint - \214\237\217\330\214\213\211\312\225\361\215\220\217\221-R120d-2M_GCN800 for Windows_Rev02.ppt)

Windows Server 2016 Hyper-V ストレージQoS機能の強化

Microsoft PowerPoint PCクラスタワークショップin京都.ppt

スライド 1

i Ceph

Oracle Database におけるDELL|EMC CX4 とエンタープライズ向けフラッシュ・ドライブの効果的な活用法

目次 1. はじめに 用語説明 対象アダプタ P HBA/2P HBAで異なる性能 付録 ( 性能測定環境 ) P HBAでの性能測定環境 P HBAでの性能測定環境 本書の

九州大学がスーパーコンピュータ「高性能アプリケーションサーバシステム」の本格稼働を開始

KEK 技術研究会 2010/3/ /03/19 JPARC 実験データの共通計算機システムへの転送 高エネルギー加速器研究機構技術研究会 2010 年 3 月 19 日 KEK 共通基盤研究施設計算科学センター八代茂夫 2010/3/19 1/27 KEK 技術研究会 報告集の修正が入

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

PowerPoint プレゼンテーション

Virident社製FlashMAXとPRIMERGY RX200 S6の接続検証報告書

アレイコントローラの仕様・選択

資料3 今後のHPC技術に関する研究開発の方向性について(日立製作所提供資料)

目次 1. はじめに 用語説明 対象アダプタ P HBA/2P HBA/4P HBA で異なる性能 付録 P HBA での性能測定環境 P HBA での性能測定環境 P

平成20年度成果報告書

Microsoft PowerPoint - ARC-SWoPP2011OkaSlides.pptx

の SATA 接続 SSD, HDD と差があるのかを調査した. 各デバイスをファイルシステム ext4fs でフォーマットし, IO 性能ベンチマーク FIO (Flexible IO test)[7]( バージョン ) を用い計測した. 比較に用いたデバイスと実験環境を表 1, 表

Microsoft Word - nvsi_050080jp_dell_d2d.doc

目次 1 はじめに 登録商標 商標 注意事項 免債事項 SR-IOV の機能概要 性能検証事例 測定環境 測定結果 各方式による共有 NIC 性能比較 ( ポートあ

GPUコンピューティング講習会パート1

Microsoft Word - nvsi_090198_quantum dxi7500_nvb.doc

Microsoft PowerPoint - SWoPP2010_Shirahata

CELSIUSカタログ(2012年5月版)

(Microsoft PowerPoint - Mirapoint\220\273\225i\221\316\224\344\225\\\(6\203V\203\212\201[\203Y_7\203V\203\212\201[\203Y\).ppt)

PassMark PerformanceTest ™

Microsoft Word - nvsi_080177jp_trendmicro_bakbone.doc

istorage NS100Tg, NS300Rg ご使用時の注意事項 この度は弊社製品をお買い上げいただき 誠にありがとうございます 本製品のご使用において ご注意いただくことがございます 誠に恐れ入りますが ご使用前に下記内容を必ずご一読いただきますようお願い致します なお 本書は必要なときにす

supercomputer2010.ppt

スライド 1

PCIe SSD (PY-BS08PA*/PY-BS16PA*/PY-BS20PA*) / スイッチカード (PY-PC301)

HP_PPT_Standard_16x9_JP

PowerPoint Presentation

Microsoft PowerPoint - yamagata.ppt

<4D F736F F F696E74202D204E505F8E9F90A291E E815B CFC82AF B838B B838B C5E B8D5C91A E E4E41532E7

PowerPoint Presentation

PowerPoint プレゼンテーション

SSD Performance White Paper

<4D F736F F D F B835E82CC8D8291AC8F88979D82F08FAC8C5E82A982C288C089BF82C88D5C90AC82C AC82B782E996A78C8B8D878C5E836E815B C695C097F18F88979D82F091678D8782B982BD8C768E5A8B

インテル® Xeon® プロセッサー E7ファミリー時代のマルチプロセッサー環境での高速化のアプローチと留意点

iscsi_omote

untitled

Rev.6.0 Autodesk Certified Workstations HP Z840 HP Z8 G4 Dell T7920 と TITAN 240 G3 TITAN 240 G4 システム構成比較

目次 : 目次 : 検証の目的 検証 検証及び結果 基本動作確認 性能評価 検証まとめ 検証結果早見表 お問い合わせ先

Microsoft SQL Server 2012 における EMC パフォーマンスの高速化EMC VFCache、EMC Symmetrix VMAX 10K、および EMC FAST VP

情報解禁 時 :11 月 12 ( 月 )14:00 以降 株式会社マウスコンピューター News Release 最新の第 9 世代インテル CPU 搭載デスクトップパソコンを 8 万円台から販売開始!! 動画や音声データの編集がさらに快適に!! LUV MACHINES ih810/ig810

[PRESS RELEASE] ITGMARKETING 2018-PR 年 4 月 25 日 ITG マーケティング株式会社 Samsung NVMe M.2 フォームファクタ SSD 新ラインアップ 970 PRO と 970 EVO を 5 月上旬より販売 日本サムスン株式会社

はじめに Dell PowerVault DL2000 Powered by Symantec Backup Exec は シンプルで管理しやすいデータ保護機能を提供する 柔軟かつ経済的なバックアップソリューションです 本ホワイトペーパーでは PowerVault DL2000 の バリューシリーズ

MIRACLE System Savior による Red Hat Storage 2.1 on HP ProLiant SL4540 Gen8 バックアップ / リストア検証報告書 ミラクル リナックス株式会社 作成者 : エンタープライズビジネス本部 青山雄一

ビッグデータやクラウドのシステム基盤向けに処理性能を強化した「BladeSymphony」および「HA8000シリーズ」の新製品を販売開始

情報解禁日時 :12 月 20 日 ( 木 )11:00 以降 株式会社マウスコンピューター News Release MousePro 第 9 世代インテル CPU 搭載ビジネス向けデスクトップパソコンを 12 月 20 日 ( 木 ) 販売開始! ビジネス向けデスクトップパソコン MousePr

Arcserve Backup r16 新機能 テープブロックサイズの拡張 効果実測 Arcserve Japan 1.5 版

Configuration Maximums

Microsoft PowerPoint - ARC2009HashiguchiSlides.pptx

TITLE 44 POINT META NORMAL LF ALL CAPS

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU

Ver. 3.8 Ver NOTE E v3 2.4GHz, 20M cache, 8.00GT/s QPI,, HT, 8C/16T 85W E v3 1.6GHz, 15M cache, 6.40GT/s QPI,

MySQL+ioDrive2+LifeKeeper検証結果資料

PowerPoint Presentation

IoTを加速するエッジコンピューティング HPE Edgeline Converged IoT Systems

Transcription:

GPU アクセラレータと不揮発性メモリ を考慮した I/O 性能の予備評価 白幡晃一 1,2 佐藤仁 1,2 松岡聡 1 1: 東京工業大学 2: JST CREST 1

GPU と不揮発性メモリを用いた 大規模データ処理 大規模データ処理 センサーネットワーク 遺伝子情報 SNS など ペタ ヨッタバイト級 高速処理が必要 スーパーコンピュータ上での大規模データ処理 GPU 高性能 高バンド幅 例 ) Tesla K20X 3.95Tflops 250 GB/s メモリ容量は 5GB 程度 データの退避が必要 不揮発性メモリ SSD, PCI- E 接続型フラッシュメモリなど 高バンド幅 ( 数 GB/s) 高速 I/O( 1M IOPS) 安価で高性能な msata SSD (mini SATA SSD) の出現 2

問題点 スーパーコンピュータ上でのローカルディスクの最適な構成方法は明らかではない ローカルディスクの構成方法 最適な不揮発性メモリの選択 不揮発性メモリを用いたマシンの構成方法 ローカルディスクから GPU への最適な I/O 手法 ローカルディスクの設定 GPU への転送手法 転送粒度? 3

解決手法 不揮発性メモリから GPU への I/O 手法の比較 複数 msata SSD を用いたプロトタイプマシンの設計 msata SSD のバンド幅を最大限に引き出す設計 既存の不揮発性メモリとの性能比較 複数 msata SSD から GPU への I/O 性能評価 複数 msata SSD の構成 設定 I/O 手法 GPU への転送手法 転送粒度 4

目的と成果 目的 不揮発性メモリから GPU への最適な I/O 手法を把握 成果 16 枚の msata SSD を用いたプロトタイプマシンの設計 複数 msata SSD の I/O 基本性能の評価 16 枚の msata SSD で 7.39 GB/s ( 理論ピークの 92.4%) 8 枚の msata SSD で PCI- E 接続型フラッシュメモリに対して 3.20 7.60 倍の Read 性能 複数 msata SSD から GPU への I/O 性能の予備評価 8 枚の msata SSD から GPU へ 3.06GB/s のスループット 5

発表の流れ 1. 背景 2. 複数 msata SSD を用いた予備評価 1. プロトタイプマシンの設計 2. I/O ベンチマークを用いた評価 3. 既存の不揮発性メモリとの性能比較 3. 複数 msata SSD と GPU を用いた予備評価 1. プロトタイプマシンの設計 2. ベンチマークアプリケーションの実装 3. 予備評価 4. 関連研究 5. まとめ 6

発表の流れ 1. 背景 2. 複数 msata SSD を用いた予備評価 1. プロトタイプマシンの設計 2. I/O ベンチマークを用いた評価 3. 既存の不揮発性メモリとの性能比較 3. 複数 msata SSD と GPU を用いた予備評価 1. プロトタイプマシンの設計 2. ベンチマークアプリケーションの実装 3. 予備評価 4. 関連研究 5. まとめ 7

複数枚の msata SSD を用いた I/O mini SATA SSD (msata SSD) msata: SATA 規格コネクターの仕様の一つ msata SSD: msata 接続の SSD 通常の SSD に比べ面積が小さい 複数枚の msata SSD を組み合わせて使用 高いコストパフォーマンスを実現可能 例 ) crucial m4 msata SSD 256 GB: Read: 500 MB/s Write: 260 MB/s 平均アクティブ時消費電力 : <200mW $260 $300 SSD に比べ 設置面積 消費電力で優位 PCI- E 接続型フラッシュメモリに比べ 価格 バンド幅で優位 8

複数 msata SSD を用いた プロトタイプマシンの設計 msata SSD: 容量 : 256GB x 16 枚 4TB Read バンド幅 : 0.5GB/s x 16 枚 8 GB/s Read バンド幅 : 0.5 GB/s x 8 枚 4 GB/s msata msata msata msata SATA 3.0 0.5 GB/s x 8 ポート 4 GB/s RAID カード PCI- E 3.0 x 8 レーン 8 GB/s ( 片方向 ) (> 4GB/s) マザーボード 9

複数 msata SSD プロトタイプマシン上 での予備評価 複数 msata SSD の基本 I/O 性能評価 ハードウェア RAID の有無 Raw デバイス ( ハードウェア RAID を組まない ) 1 枚毎にマウントし それぞれ Ext4 でファイルシステムを作成 ブロックサイズ (1 枚当たり ): 4KB RAID 0 ストライプサイズ : 64KB, 1MB キャッシュ機能の ON OFF 複数 msata SSD のスケーラビリティ 枚数 : 1, 2, 4, 8, 16 他の不揮発性メモリとの比較 SSD PCI- E 接続型フラッシュメモリ 10

複数 msata SSD プロトタイプマシン上 での予備評価 複数 msata SSD の基本 I/O 性能評価 ハードウェア RAID の有無 Raw デバイス ( ハードウェア RAID を組まない ) 1 枚毎にマウントし それぞれ Ext4 でファイルシステムを作成 ブロックサイズ (1 枚当たり ): 4KB RAID 0 ストライプサイズ : 64KB, 1MB キャッシュ機能の ON OFF 複数 msata SSD のスケーラビリティ 枚数 : 1, 2, 4, 8, 16 他の不揮発性メモリとの比較 SSD PCI- E 接続型フラッシュメモリ 11

複数 msata SSD の基本 I/O 性能評価 目的 : 複数 msata SSD の基本 I/O 性能を確認 シーケンシャル Read, Write の測定 fio の設定 I/O エンジン : libaio I/O queue depth: 1 I/O ブロックサイズ シーケンシャル Read: 4MB シーケンシャル Write: 4MB 使用したデータサイズ : 200GB (1 msata SSD 当たり ) 12

評価環境 msata SSD: crucial m4 msata 256GB SATA 6Gbps Read バンド幅 : 0.5GB/s x 16 枚 = 8 GB/s Write バンド幅 : 0.26 GB/s x 16 枚 = 4.16 GB/s msata msata msata msata SATA 3.0 RAID カード : adaptec ASR- 7805Q PCI- E 3.0 x8 レーン PCI- E 3.0 x8 レーン CPU: Intel Core i7-3770k CPU @ 3.50GHz メモリ : 16.292 GB

Bandwidth [MB/s] Read バンド幅の測定結果 Raw デバイスは RAID0 に対して 10% 程度高速 7.69 GB/s, 理論ピークの 96.2% RAID0 でもストライプサイズを大きくすれば高性能 9000 8000 7000 6000 5000 4000 3000 2000 1000 1MB では 7.39 GB/s ( 理論ピークの 92.4%) 0 0 5 10 15 20 # msatas Raw msata 4KB RAID0 1MB RAID0 64KB RAID0 1MB (cache off) RAID0 64KB (cache off) 14

Write バンド幅の測定結果 RAID0 1MB が最も高速 (3.75 GB/s, 理論ピークの 90.2%) RAID カードが遅延書き込みの最適化を行っている可能性 4000 3500 Bandwidth [MB/s] 3000 2500 2000 1500 1000 500 0 0 5 10 15 20 # msatas Raw msata 4KB RAID0 1MB RAID0 64KB RAID0 1MB (cache off) RAID0 64KB (cache off) 15

他の不揮発性メモリとの性能比較 目的 : 他の不揮発性メモリとの性能差を把握 比較対象 SSD TSUBAME 2.0 の計算ノードに搭載されているローカル SSD を使用 PCI- E 接続型フラッシュメモリ Fusion IO 社の iodrive2 を使用 Read バンド幅 : 1.4 GB/s CPU 上での密行列ベクトル積を用いて比較 シーケンシャル Read が実行時間の多くを占める 16

他のデバイスとの比較結果 msata SSD 8 枚の方が iodrive2 より 3.20 7.60 倍高速 msata SSD はシーケンシャル I/O 性能に優れる 5 4.5 4 Throughput [GB/s] 3.5 3 2.5 2 1.5 1 0.5 8 msata (RAID 0) iodrive2 TSUBAME SSD 0 0.274 0.547 1.09 2.19 4.38 8.75 17.5 35 Matrix Size [GB] 17

複数 msata SSD を用いた 実験のまとめ Read, Write ともに RAID0 を使用した場合に良好な性能 理論ピークの 90% 以上の性能 複数 msata SSD でスケールを確認 ストライプサイズを大きく設定することにより 複数 msata SSD のバンド幅を活かせている 複数 msata SSD を用いることにより既存の不揮発性メモリに対して高いスループット iodrive2 より 3.20 7.60 倍高速 PCI- E 接続型フラッシュメモリは IOPS に特化しているため 18

複数 msata SSD を用いた 実験のまとめ Read, Write ともに RAID0 を使用した場合に良好な性能 理論ピークの 90% 以上の性能 複数 msata SSD でスケールを確認 ストライプサイズを大きく設定することにより 複数 msata SSD のバンド幅を活かせている 複数 msata SSD を用いることにより既存の不揮発性メモリに対して高いスループット iodrive2 より 3.20 7.60 倍高速 PCI- E 接続型フラッシュメモリは IOPS に特化しているため 複数 msata SSD マシンの有効性を確認 19

発表の流れ 1. 背景 2. 複数 msata SSD を用いた予備評価 1. プロトタイプマシンの設計 2. I/O ベンチマークを用いた評価 3. 既存の不揮発性メモリとの性能比較 3. 複数 msata SSD と GPU を用いた予備評価 1. プロトタイプマシンの設計 2. ベンチマークアプリケーションの実装 3. 予備評価 4. 関連研究 5. まとめ 20

複数 msata SSD と GPU を用いた プロトタイプマシンの設計 msata SSD: crucial m4 msata 256GB SATA 6Gbps 容量 : 256GB x 8 枚 2TB Read バンド幅 : 0.5GB/s x 8 枚 4 GB/s msata msata msata msata SATA 3.0 RAID カード : 0.5 GB/s x 8ポート 4 GB/s adaptec ASR- 7805Q PCI- E 3.0 x 8 レーン 8 GB/s ( 片方向 ) (> 4GB/s) GPU: NVIDIA TESLA C2050 144 GB/s GPU PCI- E 2.0 x 8 4 GB/s ( 片方向 ) CPU: Intel Core i7-3770k CPU @ 3.50GHz メモリ : 16.292 GB 21

不揮発性メモリと GPU を用いた 密行列ベクトル積の実装 不揮発性メモリ ホストメモリ GPU メモリ 入力ファイルを開く 行列 ベクトル ベクトルの読み込み 転送行列ベクトル 行列の読み込み 部分行列 ベクトル 行列の転送 (CPU GPU) 部分行列ベクトル 行列ベクトル積の計算 ベクトル ベクトルの転送 (GPU CPU) ベクトル 22

不揮発性メモリと GPU を用いた 密行列ベクトル積の実装 不揮発性メモリ ホストメモリ GPU メモリ 入力ファイルを開く実行時間の大部分は行列の転送が占める行列ベクトルベクトルの読み込み 転送行列ベクトル 行列の読み込み 部分行列 ベクトル 行列の転送 (CPU GPU) 部分行列ベクトル 行列ベクトル積の計算 ベクトル ベクトルの転送 (GPU CPU) ベクトル 23

複数 msata SSD から GPU への I/O 性能の予備評価 目的 : 複数 msata SSD から GPU への基本 I/O 性能を確認 評価方法 密行列ベクトル積ベンチマークを使用 行列データサイズ : 280 MB 140 GB まで変化させて実験 比較内容 ハードウェア RAID の有無 RAID0 を使用するか 使用する場合のストライプサイズ msata SSD からの読み込み手法 mmap, pread ホストメモリから GPU への DMA 転送の有無 Pinned メモリの使用の有無 データ転送粒度 35, 70, 140, 280, 560 MB GPU の使用の有無 ホストメモリ上で CPU が計算する場合との比較 24

3.5 RAID0 と Raw デバイスの比較 Raw デバイスの場合は OpenMP で並列読み込み 行列の転送粒度は 70MB RAID0 1MB が最も高速 OpenMP による並列読み込みが最適化されていない可能性 3 Throughuput [GB/s] 2.5 2 1.5 1 0.5 0 Raw 8 msata 8 msata RAID0 (1MB) 8 msata RAID0 (64KB) 0.274 0.547 1.09 2.19 4.38 8.75 17.5 35 70 140 Matrix Size [GB] 25

読み込み手法による比較 mmap, pread を比較 行列サイズが大きい場合は同等の性能 行列サイズが小さい場合は mmap の方が高速 pread の粒度を 70MB としたため オーバーラップが不十分のため 3.5 3 Throughput [GB/s] 2.5 2 1.5 1 8 msata GPU (pread) 8 msata GPU (mmap) 0.5 0 0.274 0.547 1.09 2.19 4.38 8.75 17.5 35 70 140 Matrix Size [GB] 26

ホストメモリから GPU メモリへの DMA 転送の有無による比較 Pinned メモリを使用した方が 1.21 2.28 倍高速 DMA 転送による効果 3.5 3 Throughput [GB/s] 2.5 2 1.5 1 0.5 8 msata GPU (pinned) 8 msata GPU (non- pinned) 0 0.274 0.547 1.09 2.19 4.38 8.75 17.5 35 70 140 Matrix Size [GB] 27

行列の転送粒度による比較 35 70MB の粒度が最も高速 粒度が大きいとオーバーラップ領域が小さくなるため 3.5 3 Throughput [GB/s] 2.5 2 1.5 1 0.5 8 msata GPU (35MB) 8 msata GPU (70MB) 8 msata GPU (140MB) 8 msata GPU (280MB) 8 msata GPU (560MB) 0 0.274 0.547 1.09 2.19 4.38 8.75 17.5 35 70 140 Matrix Size [GB] 28

GPU を使用しない場合との比較 CPU を使用した方が高速 GPU を使用した場合は PCI- E のバンド幅 (3.06 GB/s) に律速 PCI- E バンド幅の上限が上がれば CPU と同等のスループットになると考えられる 5 4.5 4 Throughput [GB/s] 3.5 3 2.5 2 1.5 1 0.5 0 8 msata GPU 8 msata CPU 0.274 0.547 1.09 2.19 4.38 8.75 17.5 35 70 140 Matrix Size [GB] 29

ブレイクダウン Vampir Trace を使用 行列サイズが 1.12 GB の場合 30

ブレイクダウン Vampir Trace を使用 行列サイズが 1.12 GB の場合 不揮発性メモリ ホストメモリへの読み込み 31

ブレイクダウン Vampir Trace を使用 行列サイズが 1.12 GB の場合 ホストメモリ GPU メモリへの転送 32

ブレイクダウン Vampir Trace を使用 行列サイズが 1.12 GB の場合 GPU 上での計算 33

ブレイクダウン Vampir Trace を使用 行列サイズが 1.12 GB の場合 I/O 転送 計算のオーバーラップを確認 CPU GPU への転送がボトルネック 転送量に対し計算量が不十分であるため 計算が占める割合は 8% 程度 34

複数 msata SSD と GPU を用いた 実験のまとめ 最適な I/O 手法の選択により, 複数 msata SSD から GPU へ PCI- E 上限 (3.06 GB/s) のスループット RAID0 を使用し ストライプサイズを 1MB に設定 Pinned メモリへ 35 70MB 程度の粒度で転送 DMA 転送を用いると 1.21 2.28 倍高速 十分にオーバーラップされる場合は pread と mmap に大きな性能差は見られなかった GPU への転送を隠蔽できる計算量を持つアプリケーションが必要 密行列ベクトル積では計算が占める割合は 8% 程度 35

複数 msata SSD と GPU を用いた 実験のまとめ 最適な I/O 手法の選択により, 複数 msata SSD から GPU へ PCI- E 上限 (3.06 GB/s) のスループット RAID0 を使用し ストライプサイズを 1MB に設定 Pinned メモリへ 35 70MB 程度の粒度で転送 DMA 転送を用いると 1.21 2.28 倍高速 十分にオーバーラップされる場合は pread と mmap に大きな性能差は見られなかった GPU への転送を隠蔽できる計算量を持つアプリケーションが必要 密行列ベクトル積では計算が占める割合は 8% 程度 複数 msata SSD から GPU への最適な転送方法を確認 36

発表の流れ 1. 背景 2. 複数 msata SSD を用いた予備評価 1. プロトタイプマシンの設計 2. I/O ベンチマークを用いた評価 3. 既存の不揮発性メモリとの性能比較 3. 複数 msata SSD と GPU を用いた予備評価 1. プロトタイプマシンの設計 2. ベンチマークアプリケーションの実装 3. 予備評価 4. 関連研究 5. まとめ 37

関連研究 不揮発性メモリ同士の性能比較 * 1 SATA 接続型と PCI- E 接続型不揮発性メモリの性能比較 RAID カード上での不揮発性メモリの性能調査 * 2 パラメータ探索による性能調査 オーバーヘッドの削減による mmap の最適化 * 3 プロセッサ間割り込みの削減による最適化 GPU からファイルシステムへの I/O インターフェイス * 4 GPU メモリ上のバッファキャッシュの最適化 *1: Master et al.: Performance Analysis of Commodity and Enterprise Class Flash Devices, PSDW 2010 *2: He et al.: DASH- IO: an empirical study of flash- based IO for HPC, TG 2010 *3: Song et al.: Low- latency memory- mapped I/O for Data- intensive Applicarons on Fast Storage Devices, DISCS 2012 *4: Silberstein et al.: GPUfs: Integrarng a File System with GPUs, ASPLOS 2013 38

まとめと今後の課題 まとめ 不揮発性メモリから GPU への最適な I/O 手法を把握 16 枚の msata SSD を用いたプロトタイプマシンの設計 複数 msata SSD の I/O 基本性能の評価 16 枚の msata SSD で 7.39 GB/s ( 理論ピークの 92.4%) 8 msata SSD で iodrive2 に対し 3.20 7.60 倍の Read 性能 複数 msata SSD から GPU への I/O 性能の予備評価 8 msata SSD から GPU へ 3.06 GB/s のスループット RAID0 ( ストライプサイズ 1MB) を組み 35 70MB の粒度で DMA 転送 今後の課題 ランダム I/O の評価 大規模グラフ探索など 実アプリケーションを用いた評価 スペクトラルクラスタリングなど 39

Backup 40

mini SATA SSD (msata SSD) msata SSD 大容量 高性能 低消費電力 低価格 例 ) CT256M4SSD3: 256 GB Read: 500 MB/s Write: 260 MB/s 平均アクティブ時消費電力 : <200mW アイドル時消費電力 : <85mW $260- $300 41

複数 msata SSD の IOPS 350000 300000 250000 IOPS 200000 150000 Raw msata SSDs RAID0 64KB 100000 50000 0 1 2 4 8 16 # msata SSDs 42

Implementaron using mulr- msata without RAID 0 Repeat for each chunk GPU 4. Computaron 3. Copy input 5. Copy output CPU 2. Read in parallel (OpenMP) msata msata msata 1. Open input file 43