JPARC 実験データの共通計算機システムへの転送 高エネルギー加速器研究機構技術研究会 2010 年 3 月 19 日 KEK 共通基盤研究施設計算科学センター八代茂夫 2010/3/19 1/27 KEK 技術研究会 報告集の修正が入っています HPSS サーバ計算機の仕様の修正 使用例 に認証のコマンドを追加 再測定した転送速度 NIC の変更後の測定 Web に報告集 本スライドを掲載済み http://research.kek.jp/people/yashiro/html/report.html 2010/3/19 KEK 技術研究会 2/27 S. Yashiro 1
共通計算機システム データ解析システム (KEKCC) KEK のプロジェクト (jparc を含む ) のデータの保管および解析ためのシステム ストレージシステム 計算サーバ 並列サーバ GRID サーバで構成 2009/3 に新システム稼動開始 2010/3/19 KEK 技術研究会 3/27 Central Computing System (Mar. 2009 ) Computing Server 84 IBM System x3550 Intel Xeon-QX 5460 x2 MEM:16GB GPFS/API/VFS API/VFS HPSS API/FTP CIFS/NFSv4 IBM TS3500(3PB) IBM 3592 Tape Drive IBM DS4800(10TB) GPFS Storages Disk Storage IBM DS4800(205TB) LTO4 Tape Drive CIFS/NFSv4 SSH GPFS API/VFS Work Server 4 x3550 Xeon-QX 5460 x2 MEM:16GB/node SSH GPFS Parallel Server 4 x3550 Xeon-QX 5460 x2 MEM:32GB/node GRID Systems LCG System Naregi System irods/srb System Tokai campus J-PARC FW FW KEK intra User s host KEK-FW SINET3 S. Yashiro 2
KEKCC のストレージ 磁気ディスクシステム 205TB ホーム データ解析の作業領域 大容量ストレージシステム 3PB 実験データの保管 階層型ストレージシステムHPSSによる管理 2010/3/19 KEK 技術研究会 5/27 HPSS (High Performance Storage System) HPSS とは アメリカエネルギー省研究所と IBM Houston とで開発され IBM Houston がサポートを行なっている階層型ストレージシステム データの保管先として磁気テープを利用 大容量 省電力 KEKCC での構成 磁気ディスクのキャッシュ領域 10TB 3000 巻の磁気テープによる最大 3PB の領域 ユーザは C/C++ の関数 ftp scp などにより キャッシュ領域との IO をおこなう キャッシュ領域と磁気テープとの間のデータの移動は HPSS が行なう 2010/3/19 KEK 技術研究会 6/27 S. Yashiro 3
HPSS の概略図 Cache disk 10TB Tape library: TS3500 3000vols, max. 3PetaBytes Tape drives: 10 3592E06 1TB/vol, 160MB/s irods server (VFS server) 5 movers Core server 2 VFS servers 2 SMB/NFS servers Work servers (VFS server) API, pftp kftp CIFS SCP iput/iget アクセスのインターフェイス インターフェイス 特徴 FW 相性 NAT 経由 POSIX 準拠 I/O 関数 C の関数 難あり 不可 hssput/hpsscat Parallel FTP (pftp) Kerberos ftp (kftp) VFS SSH irods gridftp CIFS ファイル転送ファイル転送ファイル転送ファイルシステム VFS 経由 VFS 経由 VFS 経由 VFS 経由 難あり難あり良良良良良 不可不可可可可可可 2010/3/19 KEK 技術研究会 8/27 S. Yashiro 4
各インターフェイスの概要 1 POSIX 準拠 I/O 関数 C/C++ プログラムによる IO hssput/hpsscat HPSS パッケージとして提供 Parallel FTP(pftp) HPSS パッケージとして提供 Kerberos ftp(kftp) ftp を kerberos 認証で利用 kerberos の設定により使用可 2010/3/19 KEK 技術研究会 9/27 各インターフェイスの概要 2 VFS ユーザのマシンに入れて利用するのは一般的でない SSH VFS を導入してある SSH サーバを通じてファイル転送 irods irods クライアントを導入して VFS を導入してある irods サーバを通じてファイル転送 Gridftp VFS を導入してある Grid サーバを通じてファイル転送 CIFS VFS を導入してある CIFS サーバを通じてファイル転送 2010/3/19 KEK 技術研究会 10/27 S. Yashiro 5
使用例 1 Hpsscat/hpssputによるファイル転送 $ kinit $ hpssput /hpss/ce_g/cc/yashiro/test/outfile local_file $ hpsscat /hpss/ce_g/cc/yashiro/test/remote_file > outfile Parallel FTPによるファイル転送 $ kinit $ /opt/hpss/bin/pftp_client -v hco01.cc.kek.jp 4021 cd /hpss/ce_g/cc/yashiro/test/ ftp> put local_file ftp> get remote_file bye Kerberos ftpによるファイル転送 $ kinit $ kftp ftp> put local_file ftp> get remote_file bye 2010/3/19 KEK 技術研究会 11/27 使用例 2 Scpによるファイル転送 $ kinit 省略可 $ scp local_file hpss.cc.kek.jp: /hpss/ce_g/cc/yashiro/test/outfile $ scp hpss.cc.kek.jp: /hpss/ce_g/cc/yashiro/test/remote_file outfile Sftpによるファイル転送 $ kinit 省略可 $ /usr/bin/sftp -v hpss.cc.kek.jp cd /hpss/ce_g/cc/yashiro/test/ ftp> put local_file ftp> get remote_file bye irodsによるファイル転送 $ iinit $ iput -f local_file outfile $ iget -f remote_file 2010/3/19 KEK 技術研究会 12/27 S. Yashiro 6
性能測定の条件 実験グループが HPSS にデータを転送するにあたって インターフェイスを選択するための参考となる資料を目指す HPSS のキャッシュディスクとクライアント計算機との間の転送性能 実際の利用環境での性能を測定 チューニングを行わない 約 1GB のファイルの転送 運用システムで 運用中に測定 その時点での利用状況の影響が出ている 2010/3/19 KEK 技術研究会 13/27 測定環境 HPSS6.2.2 Cache disk 10TB RTT=0.9ms XEON-X5450 2CPU 4GB CentOS5.3, kernel 2.6.1 KEK LAN クライアント 5 movers POWER5+ 1.65GHz 4Core 2CPU, 2GB 2 VFS servers Xeon-QX5460 3.16GHz 4Core 2CPU, 8GB Core server POWER6 3.5GHz 4Core 2CPU, 8GB API, pftp router kftp SINET L2VPN 経由 RTT=10ms JLAN クライアント 2 SMB/NFS servers Work servers (VFS server) Xeon-QX5460 3.16GHz 4Core 2CPU, 16GB irods server (VFS server) Xeon-QX5460 3.16GHz 4Core 2CPU, 8GB SCP iput/iget XEON-X5450 2CPU 4GB CentOS5.3, kernel 2.6.1 S. Yashiro 7
KEK 内での転送性能 インターフェイス kftp pftp hpssput/cat irods scp 書き込み (MB/s) 64.0 97.3 89.5 23.5 32.4 読み出し (MB/s) 83.0 86.7 85.2 16.1 31.3 2010/3/19 KEK 技術研究会 15/27 KEK 内での転送 HPSS の提供するインターフェイスは高性能 scp, irods も 一定の性能 2010/3/19 KEK 技術研究会 16/27 S. Yashiro 8
JPARC との間の転送性能 インターフェイス 書き込み (MB/s) 読み出し (MB/s) kftp pftp hpssput/cat irods scp 12.0 26.6 19.7 23.2 33.6 25.0 17.2 16.9 17.6 30.2 2010/3/19 KEK 技術研究会 17/27 JPARC との間の転送 Scp と irods は KEK 内からのアクセスの場合と同じ性能 HPSS への書き込みは scp, pftp, irods が高速 ただし NAT 経由の場合には pftp は使えない HPSS からの読み出しは scp, kftp が高速 irods については 第 5 分科会 5-007 も参照のこと 2010/3/19 KEK 技術研究会 18/27 S. Yashiro 9
Tc の有効性 インターフェイス KEK 内で RTT=10ms に設定 JPARC(MB/s) kftp-put 10.0 pftp-put 18.1 HPSSへの書き込み hpssput 16.0 iput 24.0 scp-j2k 30.2 kftp-get 18.0 pftp-get 14.6 HPSSからの読み出し hpsscat 14.1 iget 21.1 scp-k2j 16.5 2010/3/19 KEK 技術研究会 19/27 12.0 26.6 19.7 23.2 33.6 25.0 17.2 16.9 17.6 30.2 Tc の有効性 動機 RTT=10ms の東海で測定する代わりに つくばの計算機で tc コマンドにより 10ms の遅延を入れて測定することができないか? 結果 おおよその状況を見るには使える 2010/3/19 KEK 技術研究会 20/27 S. Yashiro 10
異なる GbE カードでの転送性能 HPSS への書き込み HPSS からの読み出し インターフェイス kftp-put pftp-put hpssput iput scp-j2k kftp-get pftp-get hpsscat iget scp-k2j planex KEK 内 63.0 64.3 61.3 23.0 28.4 26.0 38.7 24.5 18.3 22.7 intel 64.0 97.3 89.5 23.5 32.4 83.0 86.5 85.2 16.1 31.3 planex JPARC 11.0 26.6 19.7 23.2 31.3 20.0 17.0 16.6 17.6 2010/3/19 KEK 技術研究会 21/27 3.8 intel 12.0 20.0 18.1 22.5 33.6 25.0 17.2 16.9 10.4 30.2 GbE カードによる差異 Planex をつくばのクライアントで使用 Put では 60MB/s 台で頭打ち Get ではさらに悲惨 高速な転送には使えない Planex を東海のクライアントで使用 ほぼ intel と同性能 Scp の get は悲惨 一部 Planex の方が高速 測定時の混み具合か? GbE カードの選択は重要 2010/3/19 KEK 技術研究会 22/27 S. Yashiro 11
Sshfs の性能 インターフェイス つくば 東海 scp 32.4 33.6 HPSS への書き込み sftp 32.4 31.3 sshfs 29.7 29.9 scp 31.3 30.2 HPSS からの読み出し sftp 41.2 27.5 sshfs 38.9 10.5 2010/3/19 KEK 技術研究会 23/27 Sshfs の利用 動機 遠隔地からの利用に有利な SSH を利用してファイルシステムのインターフェイスを実現できないか? テスト結果 KEK 内での利用では Scp, sftp, sshfs の性能がほぼ同一 JPARC からの書き込みは良好な性能 JPARC からの読み出しでは性能が出ない 2010/3/19 KEK 技術研究会 24/27 S. Yashiro 12
まとめ データによって性能が変わること チューニングにより性能向上の可能性があることに留意すること サイト内での利用には HPSS の提供するインターフェイスが高性能 遠距離からの利用には scp, kftp, irods が性能面 および NAT や FW との相性の面でよい 性能確保に NIC の選択は重要 遠距離からの利用の性能調査に tc コマンドの利用は有効 ファイルシステムのインターフェイスの実現のために sshfs 利用は手軽で有効 しかし遠隔地からの書き込みは性能が出るが 読み出しでは性能が出ない 2010/3/19 KEK 技術研究会 25/27 さいごに 謝辞 KEK 計算科学センターの佐々木節氏 飯田好美氏 真鍋篤氏 鈴木聡氏 鈴木次郎氏 日本アイ ビー エム の伊藤義彦氏 玉井千恵子氏 山本智実氏 日本原子力研究開発機構 J-PARC センターの石川弘之氏 2010/3/19 KEK 技術研究会 26/27 S. Yashiro 13
参考資料 共通計算機システム (KEKCC), http://kekcc.kek.jp/ HPSS(High Performance Storage System), http://www.hpsscollaboration.org/hpss/index.jsp irods, https://www.irods.org/ SSHfs, http://fuse.sourceforge.net/sshfs.html 飯田好美 irods を用いたデータ管理システムの導入 第 5 分科会 5-007 2010/3/19 KEK 技術研究会 27/27 S. Yashiro 14