さくらのクラウド ストレージに 関 する 報 告 書 Page 1 of 8 さくらのクラウド ストレージに 関 する 報 告 書 2012 年 6 月 25 日 さくらインターネット 株 式 会 社 代 表 取 締 役 社 長 田 中 邦 裕 平 素 よりさくらインターネットに 格 別 のご 愛 顧 を 賜 り 誠 にありがとうございます 2011 年 12 月 中 旬 から 断 続 的 に 発 生 しておりました さくらのクラウド ストレージ 障 害 につきまして サービスをご 利 用 の 皆 様 に 深 くお 詫 び 申 し 上 げます 現 行 ストレージの 障 害 内 容 の 詳 細 と 新 ストレージの 提 供 に 関 しまして 以 下 の 通 りご 報 告 させていただきます 1. 障 害 の 概 要 と 原 因 その 対 処 2011 年 12 月 9 日 の 最 初 の 障 害 から 2012 年 3 月 末 まで 断 続 的 に 障 害 が 発 生 しておりまし た 個 々の 障 害 については 発 生 の 都 度 報 告 をさせていただいておりましたが 以 下 に 原 因 ごとに 整 理 し その 概 要 と 原 因 再 発 防 止 のための 対 処 について 説 明 いたします 1.1. ストレージ 装 置 とホストサーバ 間 の 接 続 が 切 れる 問 題 サービス 提 供 開 始 後 12 月 中 旬 よりホストサーバとストレージ 間 のトラフィックが 増 加 し これに 伴 い 両 者 のネットワーク 接 続 が 切 れてしまう 問 題 が 発 生 し 1.1.1. ネットワークインターフェースの 問 題 ストレージ 装 置 のネットワークインターフェースは 故 障 の 発 生 に 対 処 するため 2 つのポ ートを 備 えて 冗 長 構 成 を 取 っています 常 用 系 の 異 常 は ICMP(いわゆる ping)によって 監 視 し これが 一 定 期 間 途 絶 えると 故 障 とみなし 予 備 系 へ 切 り 替 えます 12 月 初 旬 より ネットワークインターフェースにおいて 断 続 的 にパケットロスが 発 生 し この 監 視 機 構 において 一 定 期 間 の ICMP 途 絶 と 判 定 される 事 態 が 発 生 しこのため ストレージ 装 置 は 常 用 系 から 予 備 系 へインターフェースの 切 り 替 えを 行 ったのですが 切 り 替 えの 実 施 を 原 因 としてユーザのサーバを 収 容 するホストとストレージ 装 置 間 の 通 信 が 5 分 間 程 度 切 れてしまう 障 害 が 発 生 し ただし その 後 の 調 査 により 実 際 にはネットワークインターフェースは 故 障 しておらず アクセス 量 の 増 大 に 伴 いパケットロスを 引 き 起 こしていたことが 判 明 しこれを 回 避 するため 2 つの 対 処 を 行 い
さくらのクラウド ストレージに 関 する 報 告 書 Page 2 of 8 1. 1 月 初 旬 にネットワークインターフェースの 監 視 を ICMP から LINK 状 態 の 確 認 方 式 に 切 り 替 えた これにより 物 理 的 にリンクダウンした 際 にのみ 予 備 系 に 切 り 替 わるようになった 2. ストレージ 装 置 のファームウェア アップデートを 3 月 19 日 に 実 施 これに よって 装 置 のパケットロスが 発 生 しなくなった 1 番 目 の 対 処 を 実 施 して 以 降 ネットワークインターフェースにおける 冗 長 構 成 の 問 題 は 解 消 しこの 時 点 ではパケットロスの 発 生 を 完 全 に 解 消 できておりませんでしたが 3 月 19 日 のファームウェア アップデートにより 解 消 いたし 1.1.2. InfiniBand ポート(Subnet Manager)の 問 題 12 月 下 旬 より ネットワークインターフェースの 問 題 の 他 にも ストレージ 装 置 へのアク セスが 途 絶 する 障 害 が 数 回 発 生 しこれはストレージ 装 置 においてネットワークイ ンターフェースが 応 答 しなくなり ネットワークが 切 れてしまうことが 原 因 でした ストレージ 装 置 を 接 続 するネットワークは InfiniBand を 用 いています InfiniBand ネット ワークでは 装 置 間 の 接 続 を 管 理 する SM(Subnet Manager)という 装 置 が 必 要 となりま す ネットワーク 断 の 原 因 は SM からの 存 在 確 認 にネットワークインターフェースが 応 答 しなくなり ネットワークから 装 置 が 切 り 離 されたと 判 断 するために 生 じていネ ットワークインターフェースには 物 理 的 な 異 常 が 見 られなかったため 1 月 初 旬 に SM の 確 認 方 法 を 通 常 のモードでは 不 十 分 と 判 断 し heavy sweep モードに 変 更 し 問 題 を 解 消 し 1.2. 共 有 ファイルシステム 数 増 加 に 伴 うパフォーマンスの 問 題 1 月 初 旬 より ユーザの 増 加 にともなってストレージ 上 で 作 成 される 共 有 ファイルシステム (ユーザが 使 用 するディスク) 数 が 徐 々に 増 加 しこの 増 加 とともに CLI (Command Line Interface)の 応 答 が 悪 くなるという 問 題 が 発 生 し CLI は ストレージ 装 置 を 操 作 する 際 にコマンドを 受 け 付 けるインターフェースです ス トレージ 装 置 上 でファイルの 作 成 や 削 除 を 行 うために クラウド システムは CLI を 通 し てコマンドを 送 信 します 1 月 頃 より CLI への 接 続 にかかる 時 間 が 大 きくなる 問 題 が 発 生 しこれを 必 要 最 小 限 の 数 にとどめるため 使 われなくなったファイルシステムを 頻 繁 に 削 除 する 必 要 が 生 じ しかしながら CLI の 応 答 と 共 にコマンドの 処 理 にも 同 様 に 大 きな 時 間 がかかるようにな り クラウド システムで 実 装 していた 手 順 では 正 常 にファイルシステムの 作 成 や 削 除 が 行 えない 事 態 が 発 生 し
さくらのクラウド ストレージに 関 する 報 告 書 Page 3 of 8 1.2.1. 共 有 ファイルシステムの 作 成 削 除 が 遅 くなる ユーザのディスク 作 成 や 削 除 の 指 示 は すべてストレージ 上 の 共 有 ファイルシステムの 作 成 削 除 を 伴 います ファイルシステムの 作 成 の 際 には 起 動 時 間 をごく 短 くするために ストレージのクローン 機 能 スナップショット 機 能 を 利 用 します ファイルシステム 数 増 加 にともなって CLI の 応 答 が 悪 くなると これらのコマンドの 実 行 にも 非 常 に 長 い 時 間 がかかったり システム 上 タイムアウトになって 正 常 に 完 了 しなかっ たりといった 問 題 が 発 生 しこれらは 根 本 的 な 解 決 が 難 しく テンプレート 機 能 の 利 用 停 止 など ユーザの 皆 様 に 多 大 なご 不 便 をおかけすることとなり なお 3 月 19 日 に 実 施 したファームウェアのアップデートにおいても 当 問 題 は 解 消 でき ておらず ファイルシステム 数 を 一 定 以 下 に 抑 えるよう 利 用 されるディスク 数 を 抑 制 する ことで 顕 在 化 を 防 いでいる 状 況 です 1.2.2. ファイルの 誤 削 除 ファイルシステム 数 が 増 加 することがストレージのパフォーマンスの 低 下 を 引 き 起 こす 理 由 の 一 つであることから 1 月 5 日 の 緊 急 メンテナンスにおいて 負 荷 によって 作 成 が 正 常 に 完 了 されていないディスクや 解 約 済 みディスクの 削 除 作 業 を 開 始 し しかしながら ストレージの 負 荷 が 非 常 に 高 い 状 況 であることから 通 常 の 手 順 では 削 除 を 実 行 することができず 本 メンテナンス 専 用 のバッチコマンドを 作 成 し 不 要 なファイ ルシステムの 一 斉 削 除 を 実 行 し この 際 レビューやテストが 不 十 分 であったことから 削 除 すべきファイルシステムの 種 類 ( 作 成 に 失 敗 したものや 解 約 されたものなど)が 誤 っていることを 発 見 できず 稼 働 中 のディスクの 一 部 (53 件 )を 削 除 するという 重 大 な 事 故 を 引 き 起 こしてしまい 誤 って 削 除 されたディスクについては ストレージのパフォーマンス 低 下 を 防 ぐために あらかじめストックとして 作 成 していたファイルシステムであり これらが 正 常 に 作 成 さ れていないディスクと 誤 認 識 されたことが 原 因 でした なお バックアップを 取 得 する 仕 組 みは 用 意 されていましたが ストレージの 負 荷 が 高 く バックアップ 頻 度 が 低 下 していたことや 該 当 するディスクは 作 成 されてから 日 が 浅 くバ ックアップが 開 始 される 前 であったことから バックアップからの 復 元 も 行 えない 状 況 と なり この 事 故 の 後 不 要 なファイルシステムの 削 除 プロセスを 単 純 化 させるとともに レビュ ーやテストが 十 分 でないスクリプトは 実 行 させないよう 徹 底 を 行 うなど 再 発 防 止 策 を 制 定 しております 1.3. アクセス 増 大 に 伴 うパフォーマンスの 問 題 2 月 以 降 ユーザの 利 用 が 本 格 化 するに 伴 ってストレージへのアクセスが 増 大 しこ
さくらのクラウド ストレージに 関 する 報 告 書 Page 4 of 8 れに 伴 い 別 の 問 題 が 顕 在 化 いたし 1.3.1. ディスク I/O 処 理 の 問 題 ストレージのアクセスが 増 え データの 読 み 書 きが 頻 繁 になると 徐 々にストレージの 性 能 の 上 限 に 近 づいていきます 処 理 可 能 な 最 大 IOPS に 到 達 すると 性 能 が 劣 化 し 期 待 した 処 理 能 力 を 下 回 ってしまうことが 判 明 し この 問 題 はストレージ 装 置 の I/O 処 理 において 利 用 するバッファの 数 やプロセスの 数 さ らにはカーネルパラメータ 等 の 内 部 状 態 に 深 く 起 因 するものであり メーカーとの 調 整 の 上 でパラメータの 変 更 の 実 施 さらにはファームウェア アップデートを 3 月 19 日 に 行 い これらの 対 処 により 問 題 の 一 部 を 解 消 しているものの 設 計 仕 様 として 期 待 する 性 能 には 至 っておりません 1.3.2. 監 視 ツールの 問 題 アクセスの 増 大 に 伴 って CLI のみならず 管 理 用 ツールを 提 供 する Web インターフェース においても 表 示 が 極 端 に 遅 くなる アクセスできなくなる 等 の 問 題 が 発 生 しさ らには ストレージ 装 置 の 状 態 (コントローラの CPU メモリの 状 態 から ネットワーク 利 用 状 況 ディスク I/O 各 種 プロトコルごとの 統 計 情 報 搭 載 している HDD のアクセス 頻 度 など)を 記 録 するログ システムが 正 しい 値 を 取 得 保 存 できない 状 態 となりまし た 本 来 これらのツールはトラブルシュートのために 必 須 のものですが 性 能 改 善 のために このツールを 利 用 することができない 状 況 となり 運 用 に 多 大 な 影 響 を 及 ぼすこととなり 1.4. ファイルコピー 機 能 の 動 作 に 伴 う 問 題 3 月 19 日 にファームウェア アップデートを 実 施 しましたが 本 来 短 時 間 の 断 で 完 了 する はずの 作 業 が 長 時 間 に 渡 って 復 旧 できなくなる 障 害 が 発 生 しこれは ストレージ 装 置 が 備 えるファイルコピー 機 能 が 意 図 しないタイミングで 実 行 されることにより 引 き 起 こされてい ファイルコピー 機 能 は 元 ファイルからコピー 先 ファイルへデータをコピーします クラ ウド システムはストレージ 装 置 に 対 して CLI 経 由 でコマンドを 実 行 しますが これはコ ピープロセスを 直 接 起 動 するのではなく 新 しく 作 成 したファイルに 対 して 元 ファイルか らデータをコピーすることを 指 示 する 属 性 を 与 えることで 実 装 されてい 通 常 であ れば この 属 性 のチェックとコピーの 実 行 は 速 やかに 行 われますが ストレージ 装 置 にか かる 負 荷 が 非 常 に 大 きいときの CLI の 不 具 合 により クラウド システムはコマンド 実 行 に 失 敗 してコピーはキャンセルされたものと 解 釈 してい
さくらのクラウド ストレージに 関 する 報 告 書 Page 5 of 8 しかし 実 際 には 新 ファイルに 属 性 が 付 与 されたまま 保 存 されていることが 後 に 判 明 しま した 3 月 19 日 の 長 時 間 に 渡 るストレージ 装 置 のブロックは このような 状 況 にあったフ ァイルのコピー 属 性 が システムのリブートをきっかけにコピープロセスによって 拾 われ 実 行 されたことに 起 因 していさらに 元 ファイルは 数 週 間 前 に 削 除 されていたに もかかわらずコピーが 起 動 されたため ストレージ 装 置 はディスク I/O を 含 め 全 機 能 がブロ ックするという 状 況 に 陥 ってい 3 月 29 日 にも この 属 性 フラグとコピー 機 能 の 不 整 合 が 発 生 し 数 十 分 に 渡 るアクセス 障 害 の 原 因 となりこの 時 点 で 上 記 のような 問 題 の 原 因 がすべて 明 らかとなり 全 ファイルシステムの 精 査 を 行 いコピー 属 性 が 残 っていないことを 確 認 して 対 処 を 完 了 い たし 2. 現 在 の 運 用 状 況 について システムの 安 定 を 図 るため ストレージにかかる 負 荷 を 低 減 させる 必 要 があると 判 断 し さくらのクラウドでは 2 台 目 のストレージ 装 置 を 3 月 12 日 に 追 加 いたしすでにユ ーザの 皆 様 にはご 案 内 しておりますが 2 台 目 のストレージ 装 置 を 選 択 いただけるようにし 移 行 が 可 能 なサーバについては 2 台 目 に 移 行 していただくことで 負 荷 の 低 減 分 散 を 進 めています 2 台 目 のストレージは 3 月 19 日 に 適 用 した 新 ファームウェアが 運 用 開 始 当 初 から 搭 載 され ており またファイルコピー 機 能 は 利 用 していないため 6 月 25 日 の 時 点 まで 障 害 は 発 生 していません また 1 台 目 のストレージについても 負 荷 の 低 減 が 進 むにつれて 動 作 の 安 定 が 図 られ 4 月 以 降 ディスクの 接 続 断 となる 障 害 は 発 生 しておりません 3. ストレージ 装 置 の 変 更 について 以 上 ご 説 明 しました 障 害 対 応 および 運 用 の 状 況 を 踏 まえ 現 行 ストレージをまったく 別 の 新 ストレージ 装 置 に 変 更 することといたし 3.1. 現 行 ストレージについて さくらのクラウドを 開 発 するにあたり ストレージの 選 定 の 条 件 は 以 下 の 通 りでした 1 設 計 仕 様 に 基 づいたサーバ 数 を 収 容 し ディスクアクセスを 処 理 できること 2 ファイルのコピーが 高 速 に 行 えること 具 体 的 にはクローン スナップショ ットの 機 能 を 有 し サーバの 作 成 に 当 たって 短 時 間 で 環 境 を 提 供 できること 3 高 帯 域 アクセスが 利 用 できること 具 体 的 には InfiniBand ポートを 備 え ネ イティブで 接 続 可 能 であること 4 監 視 運 用 に 必 要 な 機 能 が 備 わっていること 5 メーカーのサポートが 充 実 しており 責 任 を 持 って 運 用 できること
さくらのクラウド ストレージに 関 する 報 告 書 Page 6 of 8 これらの 条 件 を 満 たすストレージを 選 定 し 社 内 テスト β 版 サービス 公 開 を 経 て 2011 年 11 月 15 日 に 正 式 リリースいたししかしながら 現 在 までの 運 用 において 以 下 のことが 判 明 いたし i. 性 能 限 界 におけるストレージ 装 置 のテストを 十 分 に 行 うことができなかった 設 計 仕 様 に 基 づいた 最 大 収 容 数 に 相 当 するサーバを 準 備 することができず 予 想 に 基 づいて 生 成 した 負 荷 により 性 能 確 認 をしたため 実 運 用 時 に 発 生 し た 問 題 に 迅 速 かつ 正 確 に 対 処 することができなかった ii. クローン スナップショットの 作 成 所 要 時 間 が 共 有 ファイルシステム 数 の 増 大 により 遅 延 することが 判 明 した iii. InfiniBand ポートにおいてパケットロスが 観 測 され 期 待 していた 性 能 が 発 揮 されなかった ファームウェア アップデートにより 解 消 されたが 対 応 完 了 まで 3 カ 月 を 要 した iv. 監 視 運 用 に 必 要 なツール 類 が ファイル 数 の 増 大 アクセスの 増 大 に 伴 い 利 用 できなくなった このためストレージの 状 態 を 正 確 に 把 握 することがで きなくなり 運 用 上 重 大 な 支 障 をきたすようになった v. ストレージ 装 置 の 仕 様 と 動 作 について 弊 社 エンジニアが 全 容 を 把 握 すること ができず 発 生 した 障 害 に 対 して 十 分 な 対 応 を 実 施 することができなかった メーカーとの 綿 密 な 連 携 により 対 処 を 急 いだが 対 処 のための 調 査 と 確 認 に 長 い 日 数 がかかってしまう 結 果 となった 弊 社 の 対 応 としましては 障 害 が 顕 在 化 した 12 月 末 以 降 サービスの 安 定 化 を 最 優 先 とし 原 因 の 究 明 ならびに 設 定 変 更 機 材 強 化 の 実 施 を 行 うこととしていましたが 最 終 的 には アクセス 帯 域 の 制 限 による 性 能 の 限 定 一 部 機 能 の 停 止 および 新 規 ユーザ 募 集 の 停 止 と いう 手 段 を 取 らざるを 得 ず ユーザの 皆 様 に 多 大 なご 迷 惑 をお 掛 けすることとなってしま いまた 機 材 強 化 や 機 材 数 の 増 加 による 性 能 向 上 を 検 討 いたしましたが 設 計 仕 様 として 望 まれる 安 定 性 を 確 保 することは 困 難 であるとの 判 断 に 至 り 以 上 の 結 果 については 弊 社 におけるストレージ 装 置 の 選 定 と 検 証 プロセスに 大 きな 問 題 があったという 深 い 反 省 に 立 ち 見 直 しを 実 施 することといたし 3.2. 新 ストレージ 装 置 について 弊 社 では 代 替 となる 装 置 の 検 討 を 2012 年 3 月 から 行 い 安 定 性 と 性 能 の 確 保 および 責 任 ある 運 用 を 実 施 するために 自 社 開 発 となるストレージ 装 置 への 転 換 を 実 施 することとし 新 ストレージの 開 発 においては 上 記 の 問 題 点 に 対 し 以 下 のように 対 処 をしています
さくらのクラウド ストレージに 関 する 報 告 書 Page 7 of 8 I. ストレージ 装 置 の 構 成 は 想 定 収 容 数 を 確 実 に 処 理 できる 仕 様 に 変 更 した ストレージ 装 置 の 最 大 収 容 数 に 相 当 するテスト 環 境 を 用 意 し 実 際 に 負 荷 を かけてテストを 実 施 した 新 ストレージの 正 式 ( 課 金 ) 提 供 に 先 立 ち 再 度 βテスト( 無 償 提 供 ) 期 間 を 設 け ユーザの 皆 様 に 確 実 に 満 足 いただけるま でテストを 繰 り 返 すこととした II. ディスク I/O が 過 大 になってもコマンド 処 理 に 支 障 が 出 ないようストレージ 装 置 あたりのディスク 収 容 数 を 見 直 した クローン スナップショット 機 能 はコピー 機 能 で 置 き 換 えた III. ネットワークインターフェースドライバ 等 は 現 在 までの 運 用 実 績 において 問 題 ないホストサーバと 同 等 のものを 採 用 した IV. 監 視 機 能 は ストレージ 装 置 上 では 最 小 限 の 実 装 とし ディスク I/O に 依 存 し ないようにした 解 析 ツールはストレージ 装 置 の 外 部 におき 影 響 を 受 けな いように 変 更 した V. 弊 社 自 身 で 管 理 運 用 ができるよう 自 社 エンジニアによる 開 発 を 行 った 新 ストレージ 装 置 では その 性 能 限 界 における 動 作 の 確 認 に 加 え QoS 設 定 機 能 も 付 加 い たしこれにより 過 大 な 負 荷 がかかった 場 合 にも システムを 安 定 して 運 用 できる よう 調 整 することが 可 能 となっています 新 ストレージ 装 置 は その 機 能 性 能 をユーザの 皆 様 に 確 かめていただくため 6 月 25 日 よりβテスト 版 ( 無 料 提 供 )として 公 開 し 現 在 ご 利 用 中 のユーザの 皆 様 に 提 供 いたしま す βテスト( 無 料 提 供 ) 期 間 中 に 十 分 な 性 能 の 試 験 とくに 性 能 限 界 においても 安 定 性 が 確 保 できているか 運 用 上 支 障 がないか ユーザの 皆 様 に 安 心 して 使 っていただくこ とができるかを 確 認 する 予 定 です 新 ストレージ 装 置 について 十 分 な 性 能 が 確 保 できたことが 確 証 できた 後 旧 ストレージ 装 置 からの 移 行 とともに 新 規 ユーザ 募 集 を 再 開 させていただきます 3.3. 対 応 の 遅 れについて 2011 年 12 月 の 最 初 の 障 害 発 生 以 降 当 報 告 書 の 発 表 が 大 変 遅 くなったことについてお 詫 び 申 し 上 げます ストレージ 装 置 に 関 する 問 題 が 顕 在 化 して 以 降 弊 社 では 現 行 ストレージの 改 善 を 図 るべ く 上 記 の 通 り 対 応 を 続 けてまいり さくらのクラウドにおいては ディスクに 関 連 する 機 能 の 多 くが 今 回 問 題 を 引 き 起 こした ストレージの 機 能 に 依 存 しており ストレージを 変 更 するという 選 択 肢 よりもファームウ ェアのアップデートを 持 って 諸 問 題 を 解 決 するという 選 択 肢 を 優 先 して 解 消 を 目 指 して おり
さくらのクラウド ストレージに 関 する 報 告 書 Page 8 of 8 しかし ストレージがブラックボックス 化 されていることから 問 題 の 原 因 が 解 明 できず 報 告 書 が 発 表 できない 状 況 が 続 くこととなり また 3 月 以 降 に 開 始 した 新 ストレージの 開 発 についても 信 頼 性 の 確 保 のためのテストな どが 長 期 化 することとなり 4. スケジュール サービス 正 常 化 に 向 け 今 後 は 以 下 のスケジュールにて 進 行 して 参 ります 4.1. 新 ストレージのβテスト 版 (6 月 25 日 ) 新 ストレージのβテスト 版 の 提 供 を 2012 年 6 月 25 日 より 提 供 いたします ディスクサ イズについては 運 用 上 支 障 がないか 確 認 をさせていただくため 当 初 は 20GB に 限 定 を させていただきます 4.2. 新 ストレージのβテスト 版 の 容 量 拡 大 (8 月 中 旬 ) 6 月 25 日 に 提 供 させていただく 新 ストレージについて 8 月 まで 安 定 性 を 確 認 させていただ き 問 題 がなければ より 大 きなディスク 容 量 を 提 供 させていただきます 4.3. 新 ストレージの 正 式 運 用 (9 月 以 降 ) 8 月 に 提 供 を 予 定 している 容 量 の 拡 大 した 新 ストレージの 安 定 性 を 確 認 させていただき 十 分 に 課 金 できる 品 質 であると 判 断 させていただきました 後 に 新 ストレージの 正 式 運 用 を 行 います なお 新 ストレージの 容 量 拡 大 正 式 運 用 の 詳 細 な 日 程 や 新 規 ユーザの 募 集 方 法 について は 順 次 弊 社 の Web ページ( http://cloud-news.sakura.ad.jp/ )にて 発 表 させていただ きます 5. おわりに 最 後 になりましたが ユーザの 皆 様 に 対 し あらためてお 詫 び 申 し 上 げます 本 障 害 のような 事 象 を 二 度 と 発 生 させないために サービス 全 体 の 信 頼 性 を 向 上 させ 一 日 も 早 いサービス 正 常 化 を 目 指 して 参 ります 今 後 とも さくらインターネットをどうぞよろしくお 願 いいたします 以 上