Reedbush-U の概要 ログイン方法 東京大学情報基盤センタースーパーコンピューティング研究部門 http://www.cc.u-tokyo.ac.jp/
東大センターのスパコン 2 基の大型システム,6 年サイクル ( だった ) FY 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 2 Yayoi: Hitachi SR16000/M1 IBM Power-7 5459 TFLOPS, 1152 TB T2K Tokyo 140TF, 3153TB Oakleaf-FX: Fujitsu PRIMEHPC FX10, SPARC64 IXfx 1513 PFLOPS, 150 TB メニーコア型大規模スーパーコンピュータ JCAHPC: 筑波大 東大 Oakforest-PACS Fujitsu, Intel KNL 25PFLOPS, 919M3TB Big Data & Extreme Computing BDEC System 60+ PFLOPS (?) データ解析 シミュレーション融合スーパーコンピュータ Oakbridge-FX 13652 TFLOPS, 1854 TB 長時間ジョブ実行用演算加速装置付き並列スーパーコンピュータ Reedbush, HPE Broadwell + Pascal 1593 PFLOPS Reedbush-L HPE 1543 PFLOPS Oakbridge-CX Intel Xeon Scalable Proc s 6561 PFLOPS 大規模超並列スーパーコンピュータ
2( または 3,4) システム運用中 3 Oakleaf-FX ( 富士通 PRIMEHPC FX10) 1.135 PF, 京コンピュータ商用版, 2012 年 4 月 2018 年 3 月 Oakbridge-FX ( 富士通 PRIMEHPC FX10) 136.2 TF, 長時間実行用 (168 時間 ), 2014 年 4 月 2018 年 3 月 Reedbush (HPE, Intel BDW + NVIDIA P100 (Pascal)) データ解析 シミュレーション融合スーパーコンピュータ 2016-Jun.2016 年 7 月 ~2020 年 6 月 東大情基セ初のGPU 搭載システム Reedbush-U: CPU only, 420 nodes, 508 TF (2016 年 7 月 ) Reedbush-H: 120 nodes, 2 GPUs/node: 1.42 PF (2017 年 3 月 ) Reedbush-L: 64 nodes, 4 GPUs/node: 1.43 PF (2017 年 10 月 ) Oakforest-PACS (OFP) ( 富士通, Intel Xeon Phi (KNL)) JCAHPC ( 筑波大 CCS& 東大 ITC) 25 PF, 世界第 12 位 (2018 年 6 月 ) ( 日本第 2 位 ) Omni-Path アーキテクチャ, DDN IME (Burst Buffer)
JPY (=Watt)/GFLOPS Rate 4 Smaller is better (efficient) System Oakleaf/Oakbridge-FX (Fujitsu) (Fujitsu PRIMEHPC FX10) Reedbush-U (HPE) (Intel BDW) Reedbush-H (HPE) (Intel BDW+NVIDIA P100x2/node) Reedbush-L (HPE) (Intel BDW+NVIDIA P100x4/node) Oakforest-PACS (Fujitsu) (Intel Xeon Phi/Knights Landing) JPY/GFLOPS 125 61.9 15.9 13.4 16.5
Research Area based on CPU Hours FX10 in FY.2017 (Commercial Version of K) 5 Material Science Engineering Earth & Space Science Engineering Earth/Space Material Energy/Physics Information Sci5 Education Industry Bio Social Sci5 & Economics Data Data Assimilation Oakleaf-FX + Oakbridge-FX
Oakforest-PACS http://www.cc.u-tokyo.ac.jp/system/ofp/ 2016 年 12 月 1 日稼働開始 8,208 Intel Xeon/Phi (KNL), ピーク性能 25PFLOPS 富士通が構築 TOP 500 #14 (#2 in Japan), HPCG #9 (#3) (June 2017) 最先端共同 HPC 基盤施設 (JCAHPC: Joint Center for Advanced High Performance Computing) 筑波大学計算科学研究センター 東京大学情報基盤センター http://jcahpc.jp 6
2( または 3,4) システム運用中 7 Oakleaf-FX ( 富士通 PRIMEHPC FX10) 1.135 PF, 京コンピュータ商用版, 2012 年 4 月 2018 年 3 月 Oakbridge-FX ( 富士通 PRIMEHPC FX10) 136.2 TF, 長時間実行用 (168 時間 ), 2014 年 4 月 2018 年 3 月 Reedbush (HPE, Intel BDW + NVIDIA P100 (Pascal)) データ解析 シミュレーション融合スーパーコンピュータ 2016-Jun.2016 年 7 月 ~2020 年 6 月 東大情基セ初のGPU 搭載システム Reedbush-U: CPU only, 420 nodes, 508 TF (2016 年 7 月 ) Reedbush-H: 120 nodes, 2 GPUs/node: 1.42 PF (2017 年 3 月 ) Reedbush-L: 64 nodes, 4 GPUs/node: 1.43 PF (2017 年 10 月 ) Oakforest-PACS (OFP) ( 富士通, Intel Xeon Phi (KNL)) JCAHPC ( 筑波大 CCS& 東大 ITC) 25 PF, 世界第 12 位 (2018 年 6 月 ) ( 日本第 2 位 ) Omni-Path アーキテクチャ, DDN IME (Burst Buffer)
東大センターのスパコン 2 基の大型システム,6 年サイクル ( だった ) FY 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 8 Yayoi: Hitachi SR16000/M1 IBM Power-7 5459 TFLOPS, 1152 TB T2K Tokyo 140TF, 3153TB Oakleaf-FX: Fujitsu PRIMEHPC FX10, SPARC64 IXfx 1513 PFLOPS, 150 TB メニーコア型大規模スーパーコンピュータ JCAHPC: 筑波大 東大 Oakforest-PACS Fujitsu, Intel KNL 25PFLOPS, 919M3TB Big Data & Extreme Computing BDEC System 60+ PFLOPS (?) データ解析 シミュレーション融合スーパーコンピュータ Oakbridge-FX 13652 TFLOPS, 1854 TB 長時間ジョブ実行用演算加速装置付き並列スーパーコンピュータ Reedbush, HPE Broadwell + Pascal 1593 PFLOPS Reedbush-L HPE 1543 PFLOPS Oakbridge-CX Intel Xeon Scalable Proc s 6561 PFLOPS 大規模超並列スーパーコンピュータ
9 OpenACC GPU の導入 OpenMP と類似したインタフェース : 使いやすいが性能悪かった 昨今の性能向上,CUDA とそれほど大きな差がなくなった NVIDIA 研究者との共同研究 OpenACC 専門家など GPU に詳しい人材の情報基盤センターへの加入 データ科学, 深層学習 (Deep Learning) 従来の計算科学, 計算工学分野とは異なった分野の新規ユーザー開拓が急務 : 電気代 = 負担金 東京大学ゲノム医科学研究機構 東京大学病院 医療画像処理への深層学習適用
Research Area based on CPU Hours Medical Image Recognition 医療画像処理 Molecular Sim. Biomechanics 生体力学 Reedbush-H in FY.2018 2-GPU s/node Engineering Info. Sci: AI Engineering Earth/Space Material Energy/Physics Info5 Sci5 : System Info5 Sci5 : Algrorithms Info5 Sci5 : AI Education Industry Bio Bioinformatics Social Sci5 & Economics Data 10
Research Area based on CPU Hours Data Medical Assim. Image Climate Recognition Human Dose Sim. Deep Learning In Medical Care Reedbush-L in FY.2018 Info. Sci: AI 4-GPU s/node Eng. Astro Physics Engineering Earth/Space Material Energy/Physics Info5 Sci5 : System Info5 Sci5 : Algrorithms Info5 Sci5 : AI Education Industry Bio Bioinformatics Social Sci5 & Economics Data 11
12 Reedbush (1/2) システム構成 運用 :SGI => HPE Reedbush-U (CPU only, 2016 年 7 月 ) Intel Xeon E5-2695v4 (Broadwell-EP, 2.1GHz, 18core) x 2ソケット (1.210 TF), 256 GiB (153.6GB/sec) InfiniBand EDR, Full bisection BW Fat-tree システム全系 : 420 ノード, 508.0 TF Reedbush-H (with GPU,2017 年 3 月 ) CPU メモリ :Reedbush-U と同様 NVIDIA Tesla P100 (Pascal 世代 GPU: 5.3TF, 720GB/sec, 16GiB) x 2 / ノード InfiniBand FDR x 2ch, Full bisection BW Fat-tree 120 ノード, 145.2 TF(CPU)+ 1.27 PF(GPU)= 1.42 PF Reedbush-L (with GPU: 長時間ジョブ用,2017 年 10 月 ) CPU メモリ :Reedbush-U と同様 NVIDIA Tesla P100 (Pascal 世代 GPU: 5.3TF, 720GB/sec, 16GiB) x 4 / ノード InfiniBand EDR x 2ch, Full bisection BW Fat-tree (U, Hとは少し遠い ) 64 ノード, 76.8 TF(CPU)+ 1.35 PF(GPU)= 1.43 PF
13 Reedbush (2/2) ストレージ / ファイルシステム 並列ファイルシステム (Lustre) 5.04 PB, 145.2 GB/sec 高速ファイルキャッシュシステム : Burst Buffer (DDN IME (Infinite Memory Engine)) : SSDによるキャッシュ Reedbush-U,H: 230.4 TB, 385.2 GB/sec Reedbush-L: 153.6 TB, 166.4 GB/sec 電力, 冷却, 設置面積 空冷, 368 kw (RB-U,H) + 134 kw (RB-L) ( 冷却除く ) < 90 m 2 データ解析 ディープラーニング向けソフトウェア ツールキット OpenCV, Theano, Anaconda, ROOT, TensorFlow, Torch, Caffe, Chainer, GEANT4
Compute Node of Reedbush-H Reedbush-L: 各ソケットに Pascal 1 個 =>2 個ずつ,FDR=>EDR
Compute Node of Reedbush-L Reedbush-L: 各ソケットに Pascal 1 個 =>2 個ずつ,FDR=>EDR
16
17 Reedbush-U へのログイン
ログイン方法 18 鍵による認証について 公開鍵認証を用います センター発行のパスワード (8 桁 ) はログインには使い ません 18
ログイン方法 19 パスワード (8 桁 ) は何に使うのか?? 鍵を登録するために使います 鍵を作った人が本当にセンターの利用者であることを確認するために必要です マニュアル閲覧のために使います 著作権上の問題でマニュアルは利用者のみへの公開となります 鍵を用いて SSH の Port Forwarding をすることもできます 19
ログイン方法 20 手順 鍵の生成 鍵の登録 ログイン 20
鍵の生成 (UNIX, Mac, Cygwin) UNIX(MNc を含む ) 系システムと Cygwin では OpenSSH を使います 鍵の生成コマンド $ ssh-keygen t rsn 最初に鍵の保存場所を聞かれます 何も入力せずにリターンしてください 次にパスフレーズを聞かれます 必ず入力してください もう一度パスフレーズを入力したら完了です 21
鍵の生成 (UNIX, Mac, Cygwin) >$ ssh-keygen -t rsa Generating public/private rsa key pair. Enter file in which to save the key (/home/guestx/.ssh/id_rsa): Enter passphrase (empty for no passphrase):( 自分の好きなパスワード ) Enter same passphrase again: Your identification has been saved in /home/guestx/.ssh/id_rsa. Your public key has been saved in /home/guestx/.ssh/id_rsa.pub. The key fingerprint is: >$ cd ~/.ssh >$ ls -l total 12 -rw------- -rw-r--r-- 1 guestx guestx 1743 Aug 23 15:14 id_rsa 1 guestx guestx 413 Aug 23 15:14 id_rsa.pub >$ cat id_rsa.pub 文字列出力 22
23 Reedbush-U への公開鍵登録
ユーザ名の確認 本講習会でのユーザー名 利用者番号 : t00xxx~ 利用グループ : gt00 ここで 00xxx~ は数字 24
Reedbush-U への公開鍵の登録 以下へアクセスする httpst//reedbush-www.cc.u-tokyo.ac.jp/ ユーザ名とパスワードを聞かれるので センター発行のユーザ名とパスワードを入力 注意 : 記載パスワードは そのままでは NG Password 25
ポータル画面 ( ログイン前 ) センターから配られた利用者番号とパスワードを入れる 26
言語の変更 ChNnge LNnguNge で日本語に変更できます JNpNnese (JA_JP.UTF-8) を選んで ChNnge を押す 終わったら ブラウザで再読み込み 1. ここをクリック 3. ここをクリック 2. ここを選択 27 講習会 : ライブラリ利用 [RB]
鍵の登録 1. 左側メニューの 公開鍵アップロード をクリックする 2. 公開鍵を追加 をクリックし 画面に 公開鍵をカットアンドペーストする 3. 作成 ボタンを押す 28 講習会 : ライブラリ利用 [RB]
ポータル画面 ( 言語変更後 ) ここをクリック 29 講習会 : ライブラリ利用 [RB]
ポータル画面 ( 公開鍵登録 ) 公開鍵をペースト 30 講習会 : ライブラリ利用 [RB] ペースト後クリック
ポータル画面 ( 公開鍵登録成功 ) ペーストした鍵が表示されていれば OK 31 講習会 : ライブラリ利用 [RB]
32 スパコンへのログイン ファイル転送 基本コマンド
Reedbush へログイン ターミナルから 以下を入力する $ ssh reedbush.cc.u-tokyo.nc.jp -l tyyxxx $ ssh tyyxxx@reedbush.cc.u-tokyo.nc.jp -l はハイフンと小文字の L tyyxxx は利用者番号 ( 数字 ) 接続するかと聞かれるので yes を入れる 鍵の設定時に入れた自分が決めたパスワード ( パスフレーズ ) を入れる 成功すると ログインができる 33
Reedbush における注意 ログインするとホームディレクトリ (/home/gt00/t001xx) にいます /home ファイルシステムは容量が小さく ログインに必要なファイルだけを置くための場所です /home に置いたファイルは計算ノードから参照できません ジョブの実行もできません 計算に必要なファイルは /lustre ファイルシステムに移動 (mv) させてください ホームディレクトリ : /home/gt00/t00xxx cd コマンドで移動できます Lustre ディレクトリ : /lustre/gt00/t00xxx cdw コマンドで移動できます 34
PC のファイルを Reedbush に置く ターミナルから 以下を入力する $ scp./n.f90 tyyxxx@reedbush-u.cc.u-tokyo.nc.jp: tyyxxx は利用者番号 ( 数字 ) tyyxxx は 利用者番号を入れる PC のカレントディレクトリにある N.f90 を Reedbush 上のホームディレクトリに置く ディレクトリごと置くには -r を指定 $ scp -r./samp tyyxxx@reedbush-u.cc.u-tokyo.nc.jp: PC のカレントディレクトリにある SAMP フォルダを その中身ごと Reedbush 上のホームディレクトリに置く 35
Reedbush のデータを PC に取り込む ターミナルから 以下を入力する $ scp tyyxxx@reedbush-u.cc.u-tokyo.nc.jp:~/n.f90./ tyyxxx は利用者番号 ( 数字 ) tyyxxx は 利用者番号を入れる Reedbush 上のホームディレクトリにある N.f90 を PC のカレントディレクトリに取ってくる ディレクトリごと取ってくるには -r を指定 $ scp -r tyyxxx@reedbush-u.cc.u-tokyo.nc.jp:~/samp./ Reedbush 上のホームディレクトリにある SAMP フォルダを その中身ごと PC のカレントディレクトリに取ってくる 36
UNIX 備忘録 emncs の起動 : emncs 編集ファイル名 ^x ^s (^ は control) : テキストの保存 ^x ^c : 終了 ( ^z で終了すると スパコンの負荷が上がる 絶対にしないこと ) ^g : 訳がわからなくなったとき ^k : カーソルより行末まで消す 消した行は 一時的に記憶される ^y : ^k で消した行を 現在のカーソルの場所にコピーする ^s 文字列 : 文字列の箇所まで移動する ^M x goto-line : 指定した行まで移動する 37
UNIX 備忘録 rm ファイル名 : ファイル名のファイルを消す rm *~ : test.c~ などの ~ がついたバックアップファイルを消す 使う時は慎重に *~ の間に空白が入ってしまうと 全てが消えます ls : 現在いるフォルダの中身を見る cd フォルダ名 : フォルダに移動する cd.. : 一つ上のフォルダに移動 cd ~ : ホームディレクトリに行く 訳がわからなくなったとき cnt ファイル名 : ファイル名の中身を見る mnke : 実行ファイルを作る (MNkefile があるところでしか実行できない ) mnke clenn : 実行ファイルを消す (clenn が MNkefile で定義されていないと実行できない ) 38
UNIX 備忘録 less ファイル名 : ファイル名の中身を見る (cnt では画面がいっぱいになってしまうとき ) スペースキー : 1 画面スクロール / : 文字列の箇所まで移動する q : 終了 ( 訳がわからなくなったとき ) cp ファイル名フォルダ名 : ファイルをコピーする mv ファイル名フォルダ名 : ファイルを移動させる 39