PowerPoint プレゼンテーション

Similar documents
OpenStack Days Tokyo 2017 [4-B4-8] 今度は 79,200 パターン! OpenStack&Ceph による Hyper Converged Infrastructure 検証結果 OSCA 技術検討会 OpenStack 分科会

Microsoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc

Dell Red Hat OpenStack - Version Dell Inc.

PowerPoint プレゼンテーション

NEC COBOL Media V2.0 セットアップカード SL438740B01-1

目次 1 はじめに 登録商標 商標 注意事項 免債事項 SR-IOV の機能概要 性能検証事例 測定環境 測定結果 各方式による共有 NIC 性能比較 ( ポートあ

目次 1. はじめに 用語説明 対象アダプタ P HBA/2P HBAで異なる性能 付録 ( 性能測定環境 ) P HBAでの性能測定環境 P HBAでの性能測定環境 本書の

目次 1. はじめに 用語説明 対象アダプタ P HBA/2P HBA/4P HBA で異なる性能 付録 P HBA での性能測定環境 P HBA での性能測定環境 P

Helix Swarm2018.1アップグレード手順

Red Hat OpenShift上でのInterstage Application Serverの動作手順(Java EE 6編)

OpenStack (IceHouse) 向け動作環境 / ( 1) UFSM37-E UFSM37-H UFSM37-E UFSM37-H UFSM37-E UFSM37-H istorage M100 UFSM

性能を強化した 第 12 世代 Dell PowerEdge サーバの RAID コントローラ Dell PERC H800 と PERC H810 の OLTP ワークロード性能比較 ソリューション性能分析グループ Luis Acosta アドバンストストレージエンジニアリング Joe Noyol

Red Hat OpenShift上でのInterstage Application Serverの動作手順(Java EE 7編)

PowerPoint プレゼンテーション

Microsoft Windows Internet Explorer は 米国 Microsoft Corporation の 米国およびその他の国における登録商標または商標です Linux は Linus Torvalds 氏の日本およびその他の国における登録商標または商標です Red Hat

セットアップカード

NEC 製PC サーバ『Express5800 R120f-1E』とSanDisk『ioMemory SX /SX 』検証報告書

PRIMERGY TX100 S3 未サポートOS動作検証確認情報

ビッグデータやクラウドのシステム基盤向けに処理性能を強化した「BladeSymphony」および「HA8000シリーズ」の新製品を販売開始

PowerPoint プレゼンテーション

PRIMERGY TX100 S3 未サポートOS動作検証確認情報

富士通社製PC サーバ『PRIMERGY』とFusion-io 社Solid State Storage『ioDrive Duo』の接続検証報告書

Microsoft Windows Internet Explorer は 米国 Microsoft Corporation の 米国およびその他の国における登録商標または商標です Linux は Linus Torvalds 氏の日本およびその他の国における登録商標または商標です Red Hat

Red Hat Enterprise Linux OSの手動インストール

Microsoft Word - nvsi_090192jp_r2_DELL_NX4.doc

サーバプラットフォーム「BladeSymphony」、「HA8000シリーズ」の新モデルを販売開始

Microsoft Word - nvsi_050080jp_dell_d2d.doc

日立アドバンストサーバ「HA8000シリーズ」の2プロセッサーモデル3機種を強化

PowerPoint Presentation

FUJITSU Software Systemwalker Centric Manager Lite Edition V13.5 機能紹介資料

日立製作所と日本オラクル、Linux 環境における

Microsoft Word - nvsi_090203_r1_sanboot_vaultdr.doc

untitled

Helix Swarm2018.1インストール手順

OpenStack運用実践によるエンタープライズ適用に向けた課題と今後について~ベアメタルサービスの現状とDesign Summitでの討議状況~

Windows Server 2016 Hyper-V ストレージQoS機能の強化

OpenAM 9.5 インストールガイド オープンソース ソリューション テクノロジ ( 株 ) 更新日 : 2013 年 7 月 19 日 リビジョン : 1.8

PRIMERGY RX300 S6 SAS コントローラカード <RAID 5> フリーOS 動作確認情報

CLUSTERPRO SSS 動作環境編

i Ceph

PRIMERGY TX100 S1 未サポートOS動作検証確認情報

日立ディスクアレイサブシステム環境強化サポートオプション

変更履歴 項番版数内容更新日 版新規作成 2013 年 11 月 18 日 1

FUJITSU Cloud Service for OSS 「コンテナサービス」 ご紹介資料

演習に必要な

100123SLES11HA.pptx

(速報) Xeon E 系モデル 新プロセッサ性能について

ダンプ取得機能強化サポートオプション Enterprise Edition

PRIMERGY TX1310 M1 未サポートOS動作検証確認情報

Microsoft Word - gori_web原稿:TrusSPSにおけるNAS OSのパフォーマンス評価.docx

Hitachi Storage Adapter -Hitachi Storage Adapter for VMware vCenter- サポートマトリックス

InfiniDB最小推奨仕様ガイド

Oracle Database におけるDELL|EMC CX4 とエンタープライズ向けフラッシュ・ドライブの効果的な活用法

Red Hat Enterprise Linux Server 7 動作確認表

Software-Defined Storage ware Virtual SAN ware Virtual SAN

アドバンストサーバ「HA8000シリーズ」において最新テクノロジーを採用しシステム性能を強化

目次 : 目次 : 検証の目的 検証 検証及び結果 基本動作確認 性能評価 検証まとめ 検証結果早見表 お問い合わせ先

Microsoft Word - qtsi_120246jp_rhev.doc

ソフト活用事例③自動Rawデータ管理システム

SASカード (PG-228B/BL, PG-224B) 取扱説明書 追補版

win2linux_1022

クラウド基盤向けに処理性能や拡張性を強化した「HA8000シリーズ」の2プロセッサーサーバを販売開始

OPENSQUARE

PRIMERGY TX150 S7 SAS アレイコントローラカード <RAID 5> フリーOS 動作確認情報

untitled

BMR for NVBU NIC bnx2.ko SVR/CLNT 上での SCSI megaraid_sas.ko 自動認識デバイス Partition 構成 (RHEL6.0 uefi/lvm 構成の場合 ) Partition1 /boot/efi EFI 200MB Partition2 /

自己紹介 指崎則夫 ( さしざきのりお ) SCUGJ 運営スタッフ Microsoft MVP

Microsoft Word - nvsi_080177jp_trendmicro_bakbone.doc

2011年11月10日 クラウドサービスのためのSINET 学認説明会 九州地区説明会 九州大学キャンパス クラウドシステムの導入 伊東栄典 情報基盤研究開発センター 1

Arcserve Backup r16 新機能 テープブロックサイズの拡張 効果実測 Arcserve Japan 1.5 版

「BladeSymphony」「HA8000 シリーズ」において最新OS Windows Server 2008 プレインストールモデルを販売開始

FUJITSU Storage ETERNUS DX 構築ガイド(サーバ接続編) SAS/Linux用

SIOS Protection Suite for Linux v9.3.2 AWS Direct Connect 接続クイックスタートガイド 2019 年 4 月

SIer視点からみたハイパーコンバージドの選定構成・サイジングのポイント、注意点

Control Manager 6.0 Service Pack 3 System Requirements

概要 ここでは先程デモを行った OpenStack の中で仮想マシンのデータがどのように管理されているかをご紹介致します OpenStack の中でデータがどのように配置され 管理されているかを知ることは 可用性を検討する上で非常に重要になります 2

スライド 1

Hadoop LZO圧縮機能の検証

Microsoft Word - AFT_3TB_HDD_install_guide doc

PowerPoint プレゼンテーション

HP USB Port Managerご紹介資料 -シンクライアント

改版履歴 版数改版履歴改版年月日 1 新規作成 2013/3/29 2 TESTIO_MODE を追加 OVER_ACTION VG_STALL_ACTION の設定値を変更 2013/9/30 3 CLUSTERPRO MC StorageSaver for BootDisk (for Linux

LSI MegaRAID SAS Device Driver Installation Guide - 日本語

2013年『STSSスキルコミュニティ』 テーマ別Kickoff資料

Docker Haruka Iwao Storage Solution Architect, Red Hat K.K. February 12, 2015

富士通社製サーバ『PRIMERGY RX200 S8』とHGST(旧Virident)社製ソフトウェア『FlashMAX Connect』の機能検証報告書

CLUSTERPRO X IIJ GIO インフラストラクチャー P2 動作検証報告 2017 年 11 月日本電気株式会社クラウドプラットフォーム事業部 CLUSTERPROグループ 1 NEC Corporation 2017

テクニカルガイド RAID コントローラ SAS/SATA

FY14Q4 SMB Magalog December - APJ Version

提案書

富士通PCサーバ「PRIMERGY RX2530 M4」における「TeraStation TS5010 / TS3010」シリーズ動作検証報告

― ANSYS Mechanical ―Distributed ANSYS(領域分割法)ベンチマーク測定結果要約

PRIMERGY BX920 S1 未サポートOS動作検証確認情報

東芝 MAGNIA R3320b での SSD 性能の検証 2012 年 8 月 株式会社東芝 クラウド & ソリューション事業統括部 目次 1. はじめに ソリッドステートドライブの概要 使用機器一覧 単体性能について サーバー用途別のテスト

IBM Presentations: Smart Planet Template

東京エリアDebian勉強会   Buffalo Linkstation向け Debian Installer - 第139回 2016年5月度

12 PowerEdge PowerEdge Xeon E PowerEdge 11 PowerEdge DIMM Xeon E PowerEdge DIMM DIMM 756GB 12 PowerEdge Xeon E5-

InterSecVM/MWc V1.0 for Linux (Amazon EC2 用 ) セットアップ手順説明書 2015 年 9 月第 1 版

Microsoft PowerPoint - APM-VE(install).pptx

PRIMERGY RX100 S5 未サポートOS動作検証確認情報

Transcription:

25,000 のベンチマーク結果からわかった! OpenStack on Ceph の性能 Ver. 1.1 OSCA 技術検討会 OpenStack 分科会 デル株式会社日比野正慶レッドハット株式会社佐々木宏忠株式会社日立ソリューションズ工藤雄大株式会社日立ソリューションズ平原一帆

1. はじめに - OSCA のご紹介と本検証のねらい デル株式会社 エンタープライズソリューション & アライアンスエンタープライズテクノロジスト 日比野正慶

OSCA のご紹介 2012 年 2 月にインテルとデルが中心となり発足 2016 年 6 月時点で 23 社が参加 先進的且つ標準的な技術の情報発信を通じ 参画企業のビジネス活性化を目的とする 2016 年 OSCA v2.0 で ソリューションスコープを拡張 IOT 実現に向けた取り組みを強化

OSCA の活動 各分科会による検証と ブログ ホワイトペーパーを通じた情報発信 ビジネスにつなげるための 各種セミナー主催やイベント参加 お客様やパートナー様との関係を強化する技術交流会やパーティーイベントの開催

OSCA 3 つのテーマ ビッグデータ解析オープンネットワーキングオープンクラウドコンピューティング 現在進行中のプロジェクト Ceph on OpenStack の性能評価 Docker 利用時の I/O 性能評価 NFV 性能評価 - OpenStack NFVI 基盤上での vcpe 性能評価 ホワイトボックススイッチを利用したネットワーク OS 比較検証 Dell Bigdata / IoT ラボ POC/ デモ環境構築 随時新規プロジェクト受付中 オープンネットワーキング ビッグデータ分析 オープンクラウドコンピューティング

検証の思惑と狙い OSCA OpenStack 技術分科会リーダーとしてテーマを検討 最新 RHEL OSP 8 Ceph がライセンスフリーに! 最新 OpenStack RA リリースストレージは Ceph おし Ceph ってどうなの? Ceph を使ってほしい案件が増えてきた Ceph の情報が少ない OSCA でやろう!

デルの最新 OpenStack RA 2016 年 6 月リリース最新 OpenStack RA (RHEL OSP8 対応 ) Director, Instance HA, OpenShift v3.3, Ceph v1.31, Midonet サポート 興味あるかたは 下記 URL またはデルブースまで Download http://www.dell.com/en-us/work/learn/assets/shared-content~data-sheets~en/documents~dell-red-hat-cloud-solutions.pdf

2. 検証環境のご説明 レッドハット株式会社 テクニカル セールス本部ソリューションアーキテクト 佐々木忠弘

2.1 検証構成の特徴 一般的な機器 Dell PowerEdge C6220 (Xeon E5-2620 2(2GHz, 6Core)) HDD は 10,000rpm の SAS SSD は非 NVMe 標準的な構成 設定 特別なチューニング無し ほぼインストールガイドの設定例とおり ほぼチューニングはしていない 条件を変えた時に どのように性能が変わるかがポイント ソフトウェアのバージョン Red Hat OpenStack Platform 7 (Kilo (RHEL7.2)) Red Hat Ceph Storage 1.3 (Hammer (RHEL7.2))

Access Access Access Access Access Trunk Trunk Access Access Access Trunk Trunk Access Access Trunk Trunk 2.2 OpenStack の構成 Director (TripleO) Controller Controller nodes nodes Controller nodes Compute Compute Compute nodes nodes nodes Ceph Ceph nodes nodes Ceph nodes 1Gbps 10Gbps eth0 eth1 eth2 BMC em1 em3 em4 p2p4 BMC em1 p1p1 p1p2 BMC em1 p1p1 p1p2 BMC NW Provisioning NW External NW Internal API NW Storage NW Storage Mgmt NW Tenant NW

2.3 Ceph の特徴 オープンソースの Software Defined Storage OpenStack のストレージバックエンドを Ceph に統合 OPENSTACK USER SURVEY で 59% のユーザが Cinder バックエンドに使用 ( ) CRUSH アルゴリズムにより大規模スケールアウト対応 http://www.openstack.org/assets/survey/april-2016-user-survey-report.pdf

2.4 Journal & Replication データの永続性向上の為に OSD 間で Replication (Erasure Coding も可能 ) Full Data Journal による確実な書き込み Journal を SSD 化することで Write Cache 的な効果 書き込み量が増えると HDD 側の書き込みがボトルネック 今回の検証は継続書き込みの為 HDD 側の書き込みがボトルネック OSD1 O_DIRECT O_DSYNC 書き込み OSD1 OSD2 OSD3 1 Journal (SSD) Replication 2 Data Store (HDD) Buffered I/O

2.5 BlueStore による Ceph の高速化 新しいバックエンド BlueStore 今回の検証はこれじゃないです念のため RHCS2 (Jewel) でリリース (Tech Preview) 2 3 倍の性能向上を期待 Full Data Journal が不要 Block Device への直接書き込み 参考 : http://www.slideshare.net/sageweil1/bluestore-a-new-faster-storage-backend-for-ceph http://redhatstorage.redhat.com/2016/06/23/the-milestone-of-red-hat-ceph-storage-2/

3. 検証方法及び結果 株式会社日立ソリューションズ 技術開発本部研究開発部技師 工藤雄大

3.1 ベンチマーク環境 OpenStack Compute1 VM19 VM22 VM25 VM10 VM13 VM16 VM1 VM4 VM7 OpenStack Controller 兼 Ceph Monitor 1~3 Director Server OpenStack Compute2 VM20 VM23 VM26 VM11 VM14 VM17 OSD Server 1 OSD Server 2 OSD Server 3 Journal (SSD) OS (HDD raid1) OS (HDD raid1) OSD Server 4 OSD Server 5 OSD Server 6 Journal (SSD) OS (HDD raid1) OS (HDD raid1) VM2 VM5 VM8 fio による iops 値測定 Ceph 環境 Journal (SSD) OS (HDD raid1) OS (HDD raid1) Journal (SSD) OS (HDD raid1) OS (HDD raid1) OpenStack Compute3 VM21 VM24 VM27 VM12 VM15 VM18 VM3 VM6 VM9 Journal (SSD) OS (HDD raid1) OS (HDD raid1) Journal (SSD) OS (HDD raid1) OS (HDD raid1) インスタンス (VM) - 各 Compute Server に 9VM 作成 ( 計 27VM ) - Ceph RBD で Block Device としてマウント - RHEL 7.2 上に fio-2.1.7 をインストール - Floating IP を割り当て - Director Server からパスワードレス SSH で fio を実行可能に設定 OSD Server(Svr) - 6 台準備 物理 Disk 仕様は下記 -- OS :300GB SAS 10Krpm x2(raid1) -- OSD Disk :600GB SAS 10Krpm x3 (JBOD) -- Journal : 320GB SSD ( 各 OSD 用に 50GB の Volume を準備 ) 各 OSD(Disk) へ下記パラメータ投入 # ceph tell osd.[osd No] injectargs --journal_max_write_entries 1000 --journal_max_write_bytes 1048576000 --journal_queue_max_ops 3000 --journal_queue_max_bytes 1048576000 -- filestore_max_sync_interval 10

3.2 ベンチマーク方法 Director Server から VM へ SSH 接続し VM 上で fio を実行 ssh (user@instance IP) fio -rw=[read/write] -size=1g -ioengine=libaio -iodepth=4 -invalidate=1 -direct=1 - name=test.bin -runtime=120 -bs=[blocksize]k -numjobs=[job 数 ] -group_reporting > (file name) & ssh 下記を変えながら 2 分ベンチマーク実行 2 分 sleep - VM:1 2 3 9 27 - [read/write]:randread randwrite - [BlockSize]:4 16 32 64 128 - [Job 数 ]:1 4 8 16-3 回繰り返し - OSD Svr :3 4 5 6 台 (1+2+3+9+27) 2 5 4 3 4 =20,160 更に失敗データ ( 後述 ) が 5,000 件程

3.3 ( 余談 ) ベンチマーク用スクリプト スクリプト完了まで 30 時間!!! ( OSD Svr の台数変えて 4 回 )

3.4 データ整形 20,160 の fio データから IOPS BW を抽出 => VM 並列実行時のものを総和 => 3 回繰り返しの中間値を採用 => 整形 ( レコード数 800) WhitePaper の 180 以上のグラフから BlockSize(BS) VM 数 OSD Svr 数観点で抜粋してご説明します

3.5 BS 増加時の傾向 (Write:VM1,27) IOPS VM1 台時 128KB 時は 4KB 時の 0.6 倍の性能 VM27 台時 128KB 時は 4KB 時の 0.5 倍の性能 Throughput VM1 台時 128KB 時は 4KB 時の 25 倍の性能 VM27 台時 128KB 時は 4KB 時の 17 倍の性能

3.6 BS 増加時の傾向 (Read:VM1,27) 拡大 拡大 IOPS VM1 台時 128KB 時は 4KB 時の 0.4 倍の性能 (OSD3 台時は低い ) VM27 台時 128KB 時は 4KB 時の 0.3 倍の性能 Throughput VM1 台時 128KB 時は 4KB 時の 2.7 倍の性能 ( 最大は 64KB 時 ) VM27 台時 BS により性能は変わらず

3.7 VM数増加時の傾向(Write BS 4KB,128KB) IOPS 4KB時 VM27台時は VM1台時の 0.7倍の性能 128KB時 VM27台時は VM1台時の 0.5倍の性能 (共にjob1時除く) Throughput 拡大 4KB時 VM27台時は VM1台時の 0.8倍の性能 128KB時 VM27台時は VM1台時の 0.6倍の性能 (共にjob1時除く)

3.8 VM 数増加時の傾向 (Read:BS 4KB,128KB) IOPS 4KB 時 VM27 台時は VM1 台時の 16 倍の性能 128KB 時 VM27 台時は VM1 台時の 14 倍の性能 Throughput 4KB 時 VM27 台時は VM1 台時の 38 倍の性能 128KB 時 VM27 台時は VM1 台時の 14 倍の性能

3.9 OSD Svr 増加時の傾向 (Write:BS 4KB,128KB) IOPS OSD Svr 台数増加に伴い性能向上 拡大 Throughput OSD Svr 台数増加に伴い性能向上

3.10 OSD Svr 増加時の傾向 (Read:BS 4KB,128KB) IOPS OSD Svr 台数増加してもあまり変化無し Throughput OSD Svr 台数増加してもあまり変化無し (3 台時が少し高い )

3.11 全体傾向 BlockSize からみた全体傾向 # パターン Random Write Random Read IOPS Throughput IOPS Throughput 1 BS 増加 緩やかに低下 大幅に向上 緩やかに低下 大幅に向上 普通の Disk ストレージと同じ傾向 OSD Svr 数からみた全体傾向 # パターン Random Write Random Read IOPS Throughput IOPS Throughput 1 OSD Svr 数増加比例的に向上変化なし Write は OSD Server 数増加に伴い向上 Read は限界性能までベンチをかけきれず

3.12 最大性能値 今回の検証で得られた全データにおける 最大値 # 項目 条件 値 (io/s) 1 Write 時最大 IOPS OSD Svr:6 台 Block Size:16KB Job 数 :4 VM:1 1,805 2 Read 時最大 IOPS OSD Svr:3 台 Block Size:4KB Job 数 :16 VM:27 494,491 # 項目 条件 値 (KB/s) 3 Write 時最大 Throughput OSD Svr:6 台 Block Size:128KB Job 数 :1 VM:3 161,525 4 Read 時最大 Throughput OSD Svr:3 台 Block Size:32KB Job 数 :16 VM:27 28,111,873 今回の検証の範囲 ( 連続的な負荷をかけた場合 ) において Journal の Write Cache はあまり効果無し ( 性能は OSD Disk の本数に依存 ) Journal の Read Cache は絶大な効果 - 本検証では OSD Svr 3 台時の Read 限界にすら達せず - OpenStack Compute 側でのメモリキャッシュ可能性

4. TIPS & 検証まとめ 株式会社日立ソリューションズ 技術開発本部研究開発部 平原一帆

Ceph 性能測定 TIPS と言う名の検証失敗談 4.1 Ceph Deploy による Ceph + OpenStack 連携かなり大変だよ問題 4.2 Disk サイズを揃えないと性能測定の結果がバラつくよ問題 4.3 HDD 台数が少ないから Write 速度遅いんじゃないの問題 4.4 まとめ

4.1 Ceph Deploy による Ceph+OpenStack 連携問題 (1/4) Ceph Deploy による Ceph + OpenStack 連携かなり大変だよ問題 OpenStack+Ceph 環境構築 1.Ceph Deploy 環境つくる 2.Ceph OSD 環境つくる 3.Ceph Deploy で OSD Monitor 設定 4.block volume 作成 配置 マウント 5.OpenStack Controller つくる 6.OpenStack Compute つくる 7.OpenStack Flavor の変更 8.OpenStack の関連設定ファイルの変更 OpenStack Controller Ceph Deploy 兼 Ceph Monitor 1 ~ 3 OpenStack 環境 OpenStack Compute 1 VM VM VM VM OSD Server 1 OSD Server 2 OSD Server 3 Journal ( SSD ) Journal ( SSD ) Journal ( SSD ) Ceph 環境 OpenStack Compute 2 VM VM VM VM OpenStack Compute 3 VM VM VM VM

4.1 Ceph Deploy による Ceph+OpenStack 連携問題 (2/4) Ceph 構築に使ったコマンド (docs.ceph.com/docs/ より抜粋 ) sudo subscription-manager repos --enable=rhel-7-server-extras-rpms sudo yum install -y yum-utils && sudo yum-config-manager --add-repo https://dl.fedoraproject.org/pub/epel/7/x86_64/ && sudo yum install -- nogpgcheck -y epel-release && sudo rpm --import /etc/pki/rpm-gpg/rpm- GPG-KEY-EPEL-7 && sudo rm /etc/yum.repos.d/dl.fedoraproject.org* sudo vim /etc/yum.repos.d/ceph.repo sudo yum update && sudo yum install ceph-deploy sudo yum install ntp ntpdate ntp-doc ssh user@ceph-server sudo useradd -d /home/{username} -m {username} sudo passwd {username} echo "{username} ALL = (root) NOPASSWD:ALL" sudo tee /etc/sudoers.d/{username} sudo chmod 0440 /etc/sudoers.d/{username} ssh-keygen ssh-copy-id {username}@node1 sudo firewall-cmd --zone=public --add-port=6789/tcp permanent sudo iptables -A INPUT -i {iface} -p tcp -s {ip-address}/{netmask} --dport 6789 -j ACCEPT sudo setenforce 0 mkdir my-cluster cd my-clusterceph-deploy purgedata {ceph-node} [{ceph-node}] ceph-deploy forgetkeys ceph-deploy purge {ceph-node} [{ceph-node}] ceph-deploy new {initial-monitor-node(s)} ceph-deploy new node1 ceph-deploy install {ceph-node}[{ceph-node}...] ceph-deploy install admin-node node1 node2 node3 ceph-deploy mon create-initial ceph-deploy osd prepare {ceph-node}:/path/to/directory ceph-deploy osd activate {ceph-node}:/path/to/directory ceph-deploy admin {admin-node} {ceph-node} sudo chmod +r /etc/ceph/ceph.client.admin.keyring ceph health ceph-deploy osd prepare {ceph-node}:/path/to/directory ceph-deploy osd activate osdserver1:/dev/sdb1:/dev/ssd1 ceph w ceph-deploy mon add {ceph-node} ceph quorum_status --format json-pretty rbd create foo --size 4096 [-m {mon-ip}] [-k /path/to/ceph.client.admin.keyring] sudo rbd map foo --name client.admin [-m {mon-ip}] [-k /path/to/ceph.client.admin.keyring] sudo mkfs.ext4 -m0 /dev/rbd/rbd/foo sudo mkdir /mnt/ceph-block-device sudo mount /dev/rbd/rbd/foo /mnt/ceph-block-device cd /mnt/ceph-block-device 別途 OpenStack 構築が必要な上に 連携設定も必要 コマンドが多過ぎて間違いやすい上に 間違いに気付いてからのリカバリが複雑!

4.1 Ceph Deploy による Ceph+OpenStack 連携問題 (3/4) 実際にやった失敗の一例 正しいコマンド ceph-deploy osd activate osdserver1:/dev/sdc:/dev/sdb1 間違えたコマンド ceph-deploy osd activate osdserver1:/dev/sdc:/dev/sdb OS Disk Journal OSD Disk /dev/sda /dev/sdb /dev/sdc /dev/sdd /dev/sde /dev/sdb1 /dev/sdb2 /dev/sdb3 OSD Disk 構成 エラーも特に出ず かつ Journal が使用されず 性能測定結果に大きな影響が 細かすぎて どこが間違っているかなかなか気付かない

4.1 Ceph Deploy による Ceph+OpenStack 連携問題 (4/4) 要するに ( 当初の私のように毛嫌いせずに ) RHEL-OSP Director のような構築ツールがあるならそれを利用しよう! 構築 Director Server 構築 Director の管理下として Server を登録 Server に役割を付与 Network 設定 設定を Director Server に集約 迅速化 OpenStack 環境 OpenStack Compute 1 OpenStack Compute 2 VM 19 VM 22 VM 25 VM 20 VM 23 VM 26 VM 10 VM 13 VM 16 VM 11 VM 14 VM 17 VM 1 VM 4 VM 7 VM 2 VM 5 VM 8 OpenStack Compute 3 VM 21 VM 24 VM 27 VM 12 VM 15 VM 18 VM 3 VM 6 VM 9 というだけでなく 台数を変化させて再構築 設定値を微妙に変更して再構築 再構築が簡単 放置して昼休憩可性能測定のような Scrap&Build 向き OpenStack Controller 兼 Ceph Monitor 1 ~ 3 OSD Server 1 OSD Server 2 OSD Server 3 Journal ( SSD ) Ceph 環境 Journal ( SSD ) Journal ( SSD )

Ceph 性能測定 TIPS 4.1 Ceph Deploy による Ceph + OpenStack 連携かなり大変だよ問題 手入力がとても多いから可能な限りツールを使おうね 4.2 Disk サイズを揃えないと性能測定の結果がバラつくよ問題 4.3 HDD 台数が少ないから Write 速度遅いんじゃないの問題 4.4 まとめ

4.2 Disk 揃えないと測定結果がバラつくよ問題 (1/2) Disk サイズを揃えないと性能測定の結果がバラつくよ問題 2000 1500 1000 500 0 2000 1500 1000 500 IOPS_W:32KB job1 (io/s) OSDf3 OSDf4 OSDf5 OSDf6 VM1 VM2 VM3 VM1 VM2 VM3 当初想定していた性能検証結果 OSD Server が増えていけば IOPS 性能が向上していくだろう 初回性能測定 OSD Server 増やしたら性能すごく悪くなって る? どこかおかしいのでは?? 色々見直す OSD Server に使ってる Disk サイズが問題なのかも? 構成見直し後 再度性能測定だいたい想定どおりの挙動 OSD Server を増やしていけば 性能が向上する! 0 OSD3 OSD4 OSD5 OSD6

4.2 Disk 揃えないと測定結果がバラつくよ問題 (2/2) OSD Server に使ってる Disk サイズの問題なのかも? 600GB 300GB 600GB どういうこと? OSD Server の OSD(HDD) の中に 300GB と 600GB が混在 全台 600GB に統一したら想定通りの性能測定結果 混在しているから性能がバラつくと予測 600GB 600GB 300GB 600GB 300GB 600GB ここで疑問 混在してるとなぜ性能がバラつくの? Disk の利用度合は weight で設定される ceph-deploy コマンドや ceph-disk コマンドによる Disk 追加時 指定がない場合は Disk サイズに応じた weight が自動設定される Disk サイズを揃えることで性能測定結果は安定または weight を揃えることでも安定すると推測

Ceph 性能測定 TIPS 4.1 Ceph Deploy による Ceph + OpenStack 連携かなり大変だよ問題 手入力がとても多いから可能な限りツールを使おうね 4.2 Disk サイズを揃えないと性能測定の結果がバラつくよ問題 性能の安定を重視するなら同じ Disk を選ぼうね 4.3 HDD 台数が少ないから Write 速度遅いんじゃないの問題 4.4 まとめ

4.3 HDD が少ないから Write 速度遅いんじゃないの問題 (1/4) 4KB (1) OSD Server Journal ( SSD ) OSD Server Journal ( SSD ) (3)write (2)write (2 )copy ( 前章再掲 ) 今回の検証の範囲において Journal の Write Cache はあまり効果無し性能は OSD Disk の本数に依存 理由は Ceph のアーキテクチャにあると推測 Ceph ではデータが渡された際に (1) まず Primary がデータを受け取ったら (2) Journal から OSD Disk への書き込みと同時に (2 ) 別 OSD サーバへミラーリングを指示 (3) 別 OSD サーバの Journal から OSD Disk へ書き込み OSD Server Journal ( SSD ) (3)write 速度が遅い原因として Disk の数の問題 キャッシュ時間の問題が考えられる

4.3 HDD が少ないから Write 速度遅いんじゃないの問題 (2/4) Disk 数が少ないから Write 速度遅いんじゃないの? Now Writing 4KB 4KB OSD Server1 Journal ( SSD ) OSD Server2 Journal ( SSD ) どういうこと? Journal(SSD) へ高速に記録しても Sync 先である OSD(HDD) が既に書き込み中だと SSD から OSD(HDD) への書き込みが進まず OSD(HDD) がボトルネックになる 高負荷環境下では結局 OSD(HDD) と同速度となり OSD(HDD) の本数と性能が比例すると推測される

4.3 HDD が少ないから Write 速度遅いんじゃないの問題 (3/4) キャッシュ保持時間の影響で Write 速度遅いんじゃないの? データは次々に来る 4KB OSD Server Journal ( SSD ) 10 秒後 HDD に書き込み中 SSD では書き込み待ち どういうこと? Journal にはデータのキャッシュ時間を設定できる ( 中略 ) --filestore_max_sync_interval 10 OSD(HDD) への書き込み待ちが設定時間を超えると Journal(SSD) が空くまでデータ書き込み受付を停止 SSD 空きまで受付停止 4KB OSD Server Journal ( SSD ) 結局 OSD(HDD) の本数と性能が比例する結果に

4.3 HDD が少ないから Write 速度遅いんじゃないの問題 (4/4) HDD 台数が少ない (~ 中略 ~) 問題の解決 HDD の台数増加 OSD Disk に SSD を使用 OSD Server... Journal ( SSD ) OS ( HDD raid 1) OS ( HDD raid 1) OSD Server OSD Disk (SSD) OSD Disk (SSD) OSD Disk (SSD) Journal ( SSD ) OSD(HDD) の台数を大きく増やす Journal(SSD) 速度 < OSD(HDD) 速度 台数 SSD の性能を HDD の台数で上回れば ボトルネックは解消する OSD Disk として SSD を導入 Journal(SSD) 速度 < OSD(SSD) 速度 台数 OSD Disk の性能が Journal と同等なら 小規模環境でもボトルネックにならない

Ceph 性能測定 TIPS 4.1 Ceph Deploy による Ceph + OpenStack 連携かなり大変だよ問題 手入力がとても多いから可能な限りツールを使おうね 4.2 Disk サイズを揃えないと性能測定の結果がバラつくよ問題 性能の安定を重視するなら同じ Disk を選ぼうね 4.3 HDD 台数が少ないから Write 速度遅いんじゃないの問題 高負荷環境では多数の HDD を用意 または SSD 用意しようね 4.4 まとめ

4.4 まとめ OpenStack on Ceph 検証から得られたこと 今回の検証の範囲 ( 連続的な負荷をかけた場合 ) では Journal の Write Cache はあまり効果無し ( 性能は OSD Disk の本数に依存 ) Journal の Read Cache は絶大な効果 ( メモリキャッシュの可能性も ) 実機検証によるノウハウ 構築ツール推奨 Disk 統一推奨 小規模環境なら SSD 大規模なら多数の HDD 使用を推奨 OSCA ホワイトペーパー発行本日の検証内容や設計の詳細については 下記をご参照ください http://www.osca-jp.com/solution.html - OpenStack on Ceph 性能評価 - OpenStack on Ceph ストレージ設計のポイント

25,000 のベンチマーク結果からわかった! OpenStack on Ceph の性能 OSCA 技術検討会 OpenStack 分科会 Linux は Linus Torvalds の米国およびその他の国における登録商標または商標です OpenStack の文字表記と OpenStack のロゴは 米国とその他の国における OpenStack Foundation の登録商標 / サービスマークまたは商標 / サービスマークのいずれかであり,OpenStack Foundation の許諾を得て使用しています 日立製作所は OpenStack Foundation や OpenStack コミュニティの関連企業ではなく また支援や出資を受けていません デルは OpenStack Foundation または OpenStack コミュニティとは提携しておらず 公認や出資も受けていません Red Hat は OpenStack Foundation と OpenStack コミュニティのいずれにも所属しておらず 公認や出資も受けていません OSCA (Open Standard Cloud Association) は デル株式会社の登録商標です PowerEdge DELL ロゴは 米国 Dell Inc. の商標または登録商標です Red Hat および Red Hat をベースとしたすべての商標とロゴ Ceph は 米国 Red Hat software,inc. の登録商標です その他 記載の商標やロゴは 各社の商標または登録商標です 本講演は 情報提供のみを目的としており 誤字脱字 技術上の誤りには一切責任を負いません 本講演の内容は一般的な原則を記しており すべての環境での動作を保証するものではありません 本講演の内容は検証時のものであり 明示的 暗示的を問わず いかなる内容も保証いたしません 本文書に掲載された文章 画像 図面等は 特に記載がない限り OSCA 日立ソリューションズ レッドハット デルが保有しています 特に記載がない限り 複製 改変したものを無断で再配布することはできません