TSUBAME-KFC: 液 浸 冷 却 を 用 いた ウルトラグリーンスパコン 研 究 設 備 [SC13にてグリーン 世 界 一 ] 遠 藤 敏 夫 東 京 工 業 大 学 学 術 国 際 情 報 センター
東工大ブース@SC13
TSUBAME KFCに 関 する 成 果 2015 年 度 末 稼 働 予 定 のTSUBAME3.0のプロトタイプである TSUBAME KFCが11 月 SC13 国 際 会 議 にて 発 表 されたスパコ ンの 電 力 効 率 ランキングGreen500, Green Graph 500の 両 方 において 世 界 一 位 となり 世 界 初 の 二 冠 を 達 成 両 リストとも 日 本 のスパコンが 一 位 になるのは 初 めて Green500において 達 成 した 電 力 効 率 は4.508GigaFlops/Wと 前 回 の 一 位 から5 割 近 く 向 上 今 回 の 二 位 も24% 引 き 離 す
現 在 ~ 将 来 のスパコンは 電 力 あ たり 性 能 で 決 まる 省 エネスパコンランキング Green500におけるFlops/Wの 推 移 [Wu Feng et al, IGCC13] 現 実 的 なスパコンセンターの 電 力 の 限 界 は20MW 程 度 とされる Exaflopsのシステムを 実 現 する には 50GFlops/W を 実 現 する 技 術 は 不 可 欠 Exaflops 2020 年 ごろ 計 算 機 の 電 力 冷 却 などの 設 備 電 力 の 双 方 からアプローチする 必 要 本 研 究 では 液 浸 冷 却 に 着 目
TSUBAME KFC KFC: Kepler Fluid Cooling = ( 液 浸 冷 却 技 術 + 外 気 冷 却 技 術 +GPU 搭 載 高 密 度 ノード) を20フィートコンテナ 中 に
TSUBAME KFC: ウルトラグリーン スパコンテストベッド 液 浸 冷 却 + 大 気 冷 却 + 高 密 度 スパコン 技 術 を 統 合 した コンテナ 型 研 究 設 備 TSUBAME3.0プロトタイプ 4GPU 搭 載 計 算 サーバ 群 K20X GPU 液 浸 サーバラック 熱 はプロセッサチップから 油 へ 熱 交 換 器 熱 は 油 から 水 へ 蒸 散 熱 自 然 大 気 中 へ NEC LX104Re 1G 改 40 台 合 計 理 論 性 能 210TFlops ( 倍 精 度 ) 630TFlops ( 単 精 度 ) 計 算 機 合 計 電 力 ~40kW コンテナ 型 研 究 設 備 20フィートコンテナ(16m 2 ) 冷 却 塔 : 熱 は 水 から 自 然 大 気 へ ねらい 世 界 トップクラスの 電 力 性 能 比, 3GFlops/Watt 以 上 超 省 電 力 スパコン 技 術 の 実 証 実 験
TSUBAME KFC 外 観
なぜ 効 率 的 な 冷 却 と 期 待 される? 60~80 一 般 的 な 冷 却 (TSUBAME2の 場 合 ) air water 17 9 chiller < 自 然 大 気 0~35 外 気 温 より 低 温 の 冷 媒 水 を 作 るためのチラーが 電 力 を 食 う 冷 蔵 庫 クーラーと 同 様 に コンプレッサーなどを 使 うた め チラー 電 力 が 全 体 電 力 の25%!
なぜ 効 率 的 な 冷 却 と 期 待 される? 一 般 的 な 冷 却 (TSUBAME2の 場 合 ) air water chiller 自 然 大 気 60~80 17 9 0~35 TSUBAME KFC 油 浸 ラック 熱 交 換 器 冷 却 塔 oil water 自 然 大 気 60~80 35~45 25~35 0~35
なぜ 効 率 的 な 冷 却 と 期 待 される? KFCでは 高 温 部 低 温 部 に 熱 が 流 れる 液 体 の 比 熱 > 空 気 の 比 熱 のため 有 利 原 則 的 に 冷 媒 を 動 かすための 電 力 のみ(ポンプ) 真 夏 にどうなるかの 評 価 は 将 来 課 題 TSUBAME KFC 油 浸 ラック 熱 交 換 器 冷 却 塔 oil water 自 然 大 気 60~80 35~45 25~35 0~35
東 京 において 自 然 冷 却 可 能 な 時 期 外 気 湿 球 温 度 ( ) 冷 却 塔 の 性 質 より 冷 却 水 温 度 外 気 湿 球 温 度 青 : 問 題 なし 黄 : 冷 却 可 能 見 込 み 赤 : 冷 媒 高 温 時 の 調 査 必 要 独 SuperMUCスパコンの 温 液 冷 却 の 成 果 を 見 ると 赤 の 時 期 ですらokな 見 込 み
GPUを 搭 載 するKFC 計 算 ノード NEC LX 1U-4GPU サーバ, 104Re-1G x 40 台 CPU: Intel Xeon E5-2620 v2 2 (Ivy Bridge EP, 2.1GHz, 6 core) メモリ: DDR3 64GB GPU: NVIDIA Tesla K20X GPU 4 ネットワーク: Mellanox FDR InfiniBand HCA SSD: 120GB SATA K20X GPU システム 最 大 電 力 約 35kW ピーク 演 算 性 能 ( 倍 精 度 ) 1ノード 5.26 TFLOPS システム (40ノード) 210.61 TFLOPS
計 算 ノードの 改 造 (2) 冷 却 ファン(12 個 )を 除 去 (1) 熱 伝 導 グリスを 除 去, 熱 伝 導 シートに 置 き 換 え (3) ファームウェアを 変 更 し, 冷 却 ファンが 除 去 停 止 しても 稼 働 可 能 に
計 算 ノードが 浸 された 油 浸 ラックの 断 面 図 油 浸 ラック 油 出 口 PU 油 入 口 冷 却 された 油 が 噴 出 される GPU2 CPU0 GPU1 Green Revolution Cooling 社 (GRC) CarnotJet systemの 一 部 GPU3 CPU1 GPU0
冷 媒 油 の 選 定 GRC 社 標 準 の 冷 媒 が, 日 本 では 第 四 類 危 険 物 に 相 当 すると 判 明 検 討 の 結 果, ExxonMobil SpectraSyn Polyalphaolefins (PAO) を 選 定 4 6 8 40 動 粘 度 19 cst 31 cst 48 cst Specific Gravity@15.6C 0.820 0.827 0.833 Flash point (Open Cup) 220 C 246 C 260 C Pour point 66 C 57 C 48 C 田 園 調 布 消 防 署 消 防 法 における 危 険 物 該 当 外 である, 引 火 点 が250 超 の 油 を 選 定 消 防 署 との 協 議 により, 危 険 物 の 安 全 規 定 を 考 慮 油 槽 の 周 りの 間 隔,コンテナ 扉 の 材 質 など
油 水 の 熱 交 換 器 チューブ 型 熱 交 換 器 3 冷 媒 油 ポンプ 2 Green Revolution Cooling 社 CarnotJet systemの 一 部 ポンプの 流 速 は 油 温 水 温 に 従 って インテリジェントに 調 整
コンテナ 外 冷 却 塔 ファンあり: 大 気 を 下 から 上 へ 吹 上 冷 媒 水 は 上 から 下 へ 冷 媒 水 用 ポンプ 2
電 力 測 定 システム TSUBAME KFCでは, 毎 秒 毎 に 各 計 算 ノード ネットワークスイッチ の 電 力 を 記 録 Panasonic AKL1000 Data Logger Light Panasonic KW2G Eco-Power Meter RS485 Servers and switches AKW4801C sensors PDU
TSUBAME-KFCの 電 力 評 価 Power (kw) 40 30 20 10 0 Air cooling compute node air conditioner water pump 冷 却 用 電 力 IT 機 器 TSUBAME-KFC network oil pump cooling tower fan 空 冷 ではPUE=1.3と 仮 定 KFCのPUE = 1.15 空 冷 時 ノード 電 力 を 基 準 にすると1.068 同 種 の 計 算 ノードの 空 冷 の 場 合 と 比 較 液 浸 により 冷 却 用 電 力 は 半 減! 計 算 機 電 力 も8% 減! 計 算 機 電 力 減 少 の 理 由 : サーバ 内 のファンの 除 去 チップ 温 度 低 下 による リーク 電 流 削 減
外 気 環 境 のシステムへの 影 響 雨 天 Oct. 29 th 17pm 曇 天 Oct. 30 th 17pm 晴 天 Oct. 31th 17pm 外 気 温 14.8 C 19.7 C 19.8 C 外 気 露 点 温 度 15.2 CDP 15.9 CDP 11.7 CDP 湿 度 99% 75% 56% 冷 媒 水 温 14.8 C 16.8 C 14.9 C 油 槽 上 部 温 度 (2センサー) 25.7 / 28.0 C 27.0 / 29.4 C 25.4 / 27.4 C 冷 媒 油 温 (out) 24.2 C 23.3 C 23.5 C 熱 交 換 (in) 18.0 C 19.3 C 17.8 C 熱 交 換 (out) 18.9 C 19.9 C 18.5 C 熱 交 換 器 電 力 ( 主 に 油 ポンプ) 572W 566W 555W
Top500とGreen500ランキング (www.top500.org, www.green500.org) Top500: Linpackベンチマークの 速 度 性 能 (Flops)でランク Green500:ワットあたりのLinpack 速 度 性 能 (Flops/Watt)でランク 速 度 性 能 がTop500 500 位 以 上 であることが 出 場 条 件 Power Efficiency (GFLOPS/Watt) 電 力 効 率 最 良 記 録 をGreen500に 登 録 各 種 パラメータを 変 更 しては Linpack 実 行 の 繰 り 返 し 最 速 記 録 を Top500に 登 録 Performance (TFLOPS)
KFCがGreen500で 有 利 である 理 由 計 算 ノードデザインによる 利 点 GPU:CPU 比 が4:2 (TSUBAME2.5では3:2) 省 電 力 Ivy Bridge CPU (TSUBAME2.5ではWestmere) 冷 却 方 法 の 影 響 :ノード 内 ファンの 除 去,チップ 温 度 低 下 ソフトウェア チューニングによる 利 点 Linpackソフトウェア 今 回 はNVIDIA 提 供 のバージョンが 最 良 ( 遠 藤 版 は 勝 てず) 行 列 サイズはGPUメモリに 収 まる 範 囲 GPUクロック 周 波 数 電 圧 のチューニング K20Xで 選 択 可 能 な 周 波 数 (MHz): 614 (best), 640, 666, 705, 732 (default), 758, 784 クロック 電 圧 を 落 とすほうが 電 力 効 率 良 Linpackパラメータのチューニング 主 にブロックサイズ (NB),プロセスグリッド (P&Q)
Linpack 中 の 電 力 推 移 とGreen500 提 出 記 録 Core phase, avg. 31.18 kw Middle 80%, avg. 32.10kW 1min. Avg. 27.78kW 電 力 (KWatt) 125.1TFlops / 27.78kW = 4.503GFlops/W Green500 提 出 記 録 冷 却 コスト 込 みでは 125.1TFlops / (31.18+4.3kW) = 3.52GFlops/W
2013/11 Green500ランキング
Graph500 ビッグデータ 時 代 に 向 けた,グラフ 探 索 性 能 によるランキング Kroneckerグラフの 幅 優 先 探 索 性 能 で 決 まる http://www.graph500.org 性 能 評 価 基 準 : TEPS ( 秒 あたり 探 索 枝 数 :Traversed Edges Per Second)と,グラフサイズ 電 力 あたりのTEPS 値 で 決 まるGreenGraph500ランキングあり Neuronal network @ Human Brain Project 89 billion vertices & 100 trillion edges US road network Cyber security 24 million vertices & 58 million edges 15 billion log entries / day
2013/11 Green Graph500 ランキング 電 力 性 能 を TEPS/W 値 で 評 価 http://green.graph500.org TSUBAME KFCは 二 冠 獲 得!
Green500 BoFでの 表 彰 式
おわりに TSUBAME KFCは4.5GFlops/Wで Green500 世 界 一 国 内 スパコンとしては 初 二 位 と24% 差 GreenGraph500(Big)でも 世 界 一 冷 却 コスト 込 み3.5GF/W 50GF/Wへ 向 け 邁 進 TSUBAME KFCランキング 結 果 Top500 311 位 Green500 1 位 Graph500 47 位 GreenGraph500 1 位 (Bigカテゴリ) TSUBAME2.5ランキング 結 果 Top500 11 位 Green500 6 位 Graph500 24 位 GreenGraph500 ( 未 登 録 )