Oracle Exadata の代表的な機能の特長とその仕組み 1 Copyright 2012, Oracle and/or its affiliates. All rights reserved. テクノロジー製品事業統括本部技術本部 Exadata 技術部エンジニア赤木維磨
2 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
Russia 17 18 April 2012 India 3 4 May 2012 3 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
4 Copyright 2012, Oracle and/or its affiliates. All rights reserved. San Francisco September 30 October 4, 2012
以下の事項は 弊社の一般的な製品の方向性に関する概要を説明するものです また 情報提供を唯一の目的とするものであり いかなる契約にも組み込むことはできません 以下の事項は マテリアルやコード 機能を提供することをコミットメント ( 確約 ) するものではないため 購買決定を行う際の判断材料になさらないで下さい オラクル製品に関して記載されている機能の開発 リリースおよび時期については 弊社の裁量により決定されます Oracle と Java は Oracle Corporation 及びその子会社 関連会社の米国及びその他の国における登録商標です 文中の社名 商品名等は各社の商標または登録商標である場合があります 5 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
6 Copyright 2012, Oracle and/or its affiliates. All rights reserved. Exadata 概要
Oracle Exadata Database Machine Oracle Databaseに最適化されたEngineered System Hardware(H/W) Software(S/W) DBサーバー Oracle Database マルチコア InfiniBand 広帯域 低遅延ネットワーク Storage サーバー Flashカード 大量ディスク 長年培ってきたデータベース技術 Gridアーキテクチャー Exadata Storage Server Software I/Oのボトルネックを排除 Flash 機能 リソース制御機能 高圧縮機能 Best for DWH / OLTP / Consolidation 7 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
8 Copyright 2012, Oracle and/or its affiliates. All rights reserved. Hardware 概要
製品ラインナップ Oracle Exadata X2-2 Oracle Exadata X2-8 Quarter, Half, Full and Multi-Racks Quarter から Half Half から Full Full から複数 Rack へと拡張可能 Full and Multi-Racks Full から複数 Rack へと拡張可能 9 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
Exadata Hardware アーキテクチャー Database サーバー X2-2 2 x 6-core processor 96GB Memory X2-8 8 x 10-core processor 2TB Memory InfiniBand ネットワーク 36-port 40Gb/s switches 一つに統合されたサーバー間ネットワーク Storage サーバー 12 disks Disk Type 600 GB High Performance disk 3 TB High Capacity disk 384 GB PCIe Flash 10 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
Oracle Exadata の各モデルの H/W 構成 X2-8 Full X2-2 Full X2-2 Half X2-2 Quarter Database Servers 2 8 4 2 Database CPU Cores 160 96 48 24 Database Memory (GB) 4096 768 (max 1152) 384 (max 576) 192 (max 288) InfiniBand switches 3 3 3 2 Ethernet switch 1 1 1 1 KVM No Yes Yes Yes Exadata Storage Servers 14 14 7 3 Storage CPU Cores 168 168 84 36 Storage Disks 168 168 84 36 11 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
InfiniBand & Flash カード 広帯域 / 低遅延ネットワークとランダム I/O の高速化 InfiniBand ネットワーク Sun Datacenter 36 ポート Managed QDR(40Gb/s) InfiniBand スイッチ Host Channel Adapter(HCA) InfiniBand 用のインターフェース 広帯域 / 低遅延 /CPU オーバーヘッドの小さいネットワーク ネットワーク帯域のボトルネック排除 低遅延通信により RAC のリニアなスケーラビリティを実現 Flash カード Storage サーバーに Flash カードが搭載 Exadata のディスクと比較し約 30 倍の IOPS を実現 ランダム読み込み /Redo 書き込みの高速化 12 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
13 Copyright 2012, Oracle and/or its affiliates. All rights reserved. Software 概要
マルチコア / 大量ディスク Grid アーキテクチャー データベース層 : Oracle Real Application Clusters(RAC) で仮想化 高可用性 リニアなスケーラビリティ 高拡張性を実現 ストレージ層 : Oracle Automatic Storage Management(ASM) で仮想化 高い I/O 性能 高可用性 高拡張性を実現 複数ノードのマルチコアを使用した マルチコア 並列処理を実行 InfiniBand ネットワーク 全てのディスクにデータを分散 DB サーバーの性能を活かす並列ディスク I/O 処理 大量ディスク 14 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
Exadata Storage Server Software for DWH システム性能のボトルネックになりやすい I/O を効率化 Smart Scan Storage Index Exadata Hybrid Columnar Compression(EHCC) for OLTP Flashテクノロジーによる 安定した高 IOPSの実現 Smart Flash Cache Smart Flash Log for Consolidation ワークロードごとのリソースを動的かつ容易に制御可能 I/O Resource Manager 15 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
Smart Scan Storage サーバーへの処理のオフロード ストレージが問い合わせを解釈し 必要なデータだけをDBサーバーへ転送するサーバーとストレージ間のI/O 量を最小限に留め 安定した性能を実現従来のデータベースシステム Oracle Exadata 一般的なデータベース ( 含 Oracle) 一般的なストレージ (SAN/NAS) 転送量大 アクセス対象のデータ全てを抽出 3 計算 集計 2 データ選別 データの選別をデータベース側で行う為 ネットワークを通るデータ量は多い 1 データ抽出 Database サーバー 転送量小 Storage サーバー 3 計算 集計 計算 集計に使用されるデータのみを選別して返却する為ネットワークを通るデータ量は常に最小限 2 データ選別 1 データ抽出 for DWH Storage サーバーが必要な行 列データのみを選別 抽出 16 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
Exadata Hybrid Columnar Compression 列単位でデータを圧縮し格納することで高い圧縮率を実現 物理 I/O 量が減少することによる読み取り高速化 行指向の格納方式 Col1, Col2, Col3 Col1, Col2, Col3 Col1, Col2, Col3 1 ブロック BASIC/OLTP 圧縮時は 重複データが圧縮される 列指向の格納方式 ランダムアクセス 全表検索 Oracle の実装非圧縮時 BASIC OLTP 圧縮時なし EHCC 時 圧縮率なし中 (3 ~ 5 倍 ) 高高 (10 ~50 倍 ) Column 1 Column 2 Column 3 for DWH 行指向 + 列指向の格納方式 Compression Unit Col 1 Col 2 Col 3 Compression Unit 17 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
I/O Resource Manager(IORM) I/O リソースを論理的に制御 ストレージサーバーで ユーザーごとやデータベースごとに 使用するディスクの I/O リソースを論理的に制御 IORM の使用例 DB ごとのリソース配分 Database A : 33% の I/O リソース Database B : 67% の I/O リソース DB 内のリソース配分 インタラクティブ処理 : 30% の I/O リソース バッチ処理 : 70% の I/O リソース 使用する I/O リソースの上限値も設定可能 スループット重視かレイテンシー重視かを選択可能 OLTP 処理の I/O を DWH 処理の I/O から保護 Database - A (Single-Instance) Database - B (RAC) 33% 67% for Consolidation 70% 30% Exadata Storage 30% 70% 18 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
Oracle Exadata Database Machine Oracle Databaseに最適化されたEngineered System Hardware(H/W) Software(S/W) DBサーバー Oracle Database マルチコア InfiniBand 広帯域 低遅延ネットワーク Storage サーバー Flashカード 大量ディスク 長年培ってきたデータベース技術 Gridアーキテクチャー Exadata Storage Server Software I/Oのボトルネックを排除 Flash 機能 リソース制御機能 高圧縮機能 Best for DWH / OLTP / Consolidation 19 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
Best for OLTP (InfiniBand & Flash) 20 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
InfiniBand テクノロジー 21 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
InfiniBand ネットワーク 広帯域 低遅延のネットワーク Multilane 複数レーンを束ねて 広帯域を実現 Exadata では 4 QDR(40 Gbit/s) を採用 ZDP RDS v3 プロトコル 低遅延を実現 CPU オーバーヘッドも大幅に軽減 トランスポート層 / ネットワーク層の処理を HCA のオフロード (Transport Offload) RDMA を使用し 余計なデータ コピーは作らず Storage サーバー上のデータをデータベース バッファに直接転送 3 GB/sec の転送に 2% 程度の CPU 使用率 カットスルー方式の採用 ( スイッチ ) Exadata での使用 ストレージネットワーク RAC のインターコネクト 外部通信 (optional) 22 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
何故広い!? InfiniBand 広帯域 Multilane による広帯域の実現 1 レーン 一対の信号線のこと 転送レート SDR 2.5Gbps / 1レーン DDR 5Gbps / 1レーン QDR 10Gbs / 1レーン FDR 14Gbps / 1レーン Multilane 複数レーンを束ねる通信規格 1レーン (1 ) 4レーン (4 ) 8レーン (8 ) 12レーン (12 ) 束ねたことによる転送速度の低下なし InfiniBand Trade AssociatoinのWEBページより http://www.infinibandta.org/content/pages.php?pg=technology_overview 23 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
{ 何故速い!? InfiniBand1 カットスルー方式 スイッチでの遅延を軽減 InfiniBand Switch は カットスルー方式を採用 IB Switch カットスルー方式 パケット 低遅延 宛先のみをチェック 一般的な Ethernet Switch ストア & フォワード方式 パケットを蓄積し すべてのパケットをチェック後転送 エラーを見つけたらパケットを破棄 異なる速度の LAN に対応 InfiniBand Switch カットスルー方式 パケットの宛先のみをチェックし転送 エラーチェックはエンドノードのみで実施 低遅延での転送が可能 HCA Transport Offload RDS アプリ サーバー トランスポート層 / ネットワーク層処理のオフロード HCA Transport Offload RDS アプリ サーバー 24 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
H/W S/W 何故速い!? InfiniBand2 低遅延 Transport Offload/RDSプロトコル Transport Offload ネットワーク層 / トランスポート層を HCA のチップがハードウェアで処理 エラーチェックも HCA にて実施 Reliable Datagram Sockets プロトコル Transport Offload 機能を活かすプロトコル RDS プロトコルではエラーチェックを行わない アプリケーションからは UDP として使用可能 一般的なネットワーク アプリケーション プレゼンテーション セッション トランスポート ネットワーク データリンク 物理 H/W S/W InfiniBand アプリケーションプレゼンテーションセッショントランスポートネットワークデータリンク物理 UDP アプリ RDS IP IPoIB user kernel H/W HCA 25 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
何故速い!? InfiniBand3 RDMA 通信 Remote Direct Memory Access リモートホストのメモリ間で直接データを転送できる技術 CPU オーバーヘッドの削減 / メモリ使用量の削減 / レイテンシーの削減 低遅延 非 RDMA 通信リモートホストローカルホスト CPU 1 User Memory IO Memory CPU 3 User Memory IO Memory RDMA 通信リモートホストローカルホスト CPU User Memory IO Memory CPU 1 User Memory IO Memory HCA 2 HCA HCA HCA 26 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
InfiniBand RAC 低遅延通信による RAC のリニアなスケーラビリティの実現ノード間の通信が超高速になるため キャッシュフュージョン多発時もスムーズなブロック転送従来のデータベースシステム Oracle Exadata 40 に更新 30 に更新 40 に更新 30 に更新 低遅延 1 2 高速 40 Ethernet 3 1 2 超高速 40 InfiniBand 3 10 10 1 ディスク読み込み 2 最新データをネットワーク転送 ( キャッシュ フュージョン ) 3 メモリ読み込み 10 10 27 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
InfiniBand RAC 1GbE(UDP) vs InfiniBand(RDS) 検証結果 スクリーンオンリー 28 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
Flash テクノロジー 29 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
Exadata の Flash テクノロジー 各 Storage サーバーに Flash カードが内蔵 Sun Flash Accelerator F20 PCIe Card 4 枚 ストレージ容量 : 384GB(1 台 ) IOPS: 125,000 IOPS(1 台 ) スループット : 5.4 GB/s(1 台 非圧縮時 ) Flash PCIe カードを採用 ディスクコントローラーのボトルネックを解消 Flash Exadata Storage Server Software Smart Flash Cache( ランダム読み取り高速化 ) Smart Flash Log(Redo 書き込み高速化 ) 30 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
Sun Flash Accelerator F20 PCIe Card スーパーキャパシタ Enterprise Flash バックアップ電源としてスーパーキャパシタを搭載 4つのFlashモジュールを搭載 Flashモジュールに実装されるNANDにはSLCを採用 32GB に対して 8GB の予備領域 ウェアレベリング 無効ブロック管理 Vr1 Flash モジュール 4KBの読込 / 書込単位 ( ページサイズ ) SLC(Single Level Cell) MLC(Multi Level Cell) 256KBの消去単位 ( ブロックサイズ ) 1ビット /cell 複数ビット /cell 書込回数 : 約 100,000 書込回数 : 約 10,000 control gate floating gate Vr1 Vr2 Vr3 1 0 しきい電圧 N+ Cell N+ source drain 11 10 01 00 しきい電圧 31 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
Flash カードと SSD の違い Exadata では SSD ではなく Flash カードを搭載 ディスクコントローラ ディスクコントローラ PCIe バス A に PCIe バス B に Flash カード (96GB) Flash カード (96GB) PCIe バス C に Flash カード (96GB) PCIe バス D に Flash カード (96GB) SSD SSD SSD NAND 型フラッシュメモリの構造は同じ サーバに搭載される際のインターフェースに違いがある Flash では PCIe スロットに搭載することにより I/O スループットもスケールし 広帯域が確保できる SSD で搭載する場合には ディスク用のスロットが必要になってしまうが カード型の場合ディスク容量を追求しながら集積性も追及できる 32 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
Exadata Smart Flash Cache ランダム Read I/O のボトルネックを解消 メモリフラッシュハードディスク アクセス 価格 利用頻度の高いデータをFlashに自動でキャッシュ Flashとディスクの併用も可能 (Small I/O => Flash Large I/O => ディスク ) 従来のデータベースシステム Oracle Exadata メモリ DB サーバー メモリ 125,000 IOPS 3,900 IOPS 3,900 IOPS Smart Flash Cache Flash カード 自動的にデータをキャッシュ Hard Disk ストレージ Hard Disk 33 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
Exadata Smart Flash Cache Oracle Database に最適化されたキャッシング Database の I/O の種類を自動で理解してキャッシュ キャッシュしないオブジェクト ASMのミラーコピー バックアップ DataPump 表領域のフォーマット テーブルフルスキャン キャッシュするオブジェクト 制御ファイルのRead/Write ファイルヘッダーのRead/Write Data BlockとIndex Block 管理者は特定のオブジェクトを Flash Cache にキープさせるように指定も可能 完全に自動化され 透過的に実行される 34 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
Exadata Smart Flash Log Redo 書き込みを高速化 ( 通常時 ) ディスクコントローラーキャッシュとFlashメモリーの両方同時にRedo 書き込みを行い どちらかが完了したら 書き込みを完了する 従来のデータベースシステム Redo 書き込み DB サーバー Oracle Exadata Redo 書き込み 通常 ディスクコントローラーキャッシュへの書き込みが速いため Redo 書き込み速度に違いはない 3ACK 1 書き込み命令 2 書き込み完了 ディスクコントローラーキャッシュ 3ACK 1 書き込み命令 Smart Flash Log 2 書き込み完了 ディスクコントローラーキャッシュ Flash カード Hard Disk ストレージ Hard Disk 35 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
Exadata Smart Flash Log Redo 書き込みを高速化 ( 遅延発生時 ) ディスクコントローラーキャッシュへの書き込みが遅い場合 Flash メモリーへの書き込みが終了後 Redo 書き込みが終了する 従来のデータベースシステム Oracle Exadata DBサーバー Redo 書き込み Redo 書き込み 3ACK 1 書き込み命令 遅延ディスクコントローラーキャッシュ Hard Disk ストレージ 遅延 1 書き込み命令 2 書き込み完了 Smart Flash Log Flashカード ディスクコントローラーキャッシュ Hard Disk 36 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
Exadata Smart Flash Log レスポンスタイムの向上と 待機の異常値を削減し データベース全体のスループットの向上を実現 OLTP 処理の Oracle Database の同期書き込みは Redo 書き込みのみ log file parallel write や log file sync の改善 完全に自動化され 透過的に実行される Spike が存在 Smart Flash Log 有効化 待機が削減され レイテンシーが一定 37 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
Exadata Smart Flash Log 社内検証結果 スクリーンオンリー 38 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
39 Copyright 2012, Oracle and/or its affiliates. All rights reserved. まとめ
Oracle Exadata Database Machine Oracle Database に最適化された Engineered System Best for DWH マルチコア / 大量ディスクを活かす Grid アーキテクチャー システムのボトルネックになりやすい I/O を効率化 Best for OLTP InfiniBand RAC 低遅延通信により RAC のリニアなスケーラビリティを実現 Flash デバイス Exadata Storage Server Software Smart Flash Cache( ランダム読み取りを高速化 ) Smart Flash Log(Redo 書き込みを高速化 ) Best for Consolidation ワークロードのリソースを動的かつ容易に制御可能 40 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
41 Copyright 2012, Oracle and/or its affiliates. All rights reserved. Q&A
ご質問 ご相談は OpenWorld 終了後もお受けしております あなたにいちばん近いオラクル Oracle Direct 0120-155-096 ( 平日 9:00-12:00 / 13:00-18:00) http://www.oracle.com/jp/direct/index.html Oracle Direct 検索 各種無償支援サービスもございます 42 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
43 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
44 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
45 Copyright 2012, Oracle and/or its affiliates. All rights reserved. Appendix
X2-2 Database Server (Sun Fire X4170M2) プロセッサ 2 つの 6Core Intel Xeon X5675 プロセッサ (3.06 GHz) メモリ 96GB (12 x 8GB) (144GB(18X8GB) まで拡張可能 ) 内蔵ディスク ディスク コントローラ ネットワーク ホットスワップ可能 4 x 300GB 10K RPM SAS ディスク Disk Controller HBA with 512MB Battery Backed Cache 2 つの InfiniBand 4X QDR (40Gb/s) ポート (1 枚のDual-port PCIe 2.0 HCA) 4 つの 1GbE Ethernet ポート 2 つの 10GbE Ethernet SFP+ ポート リモート管理 1 Ethernet port (ILOM 用 ) 電源冗長化された ホットスペア対応電源 (2 基 ) およびファンモジュール (4 基 ) 46 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
X2-8 Database Server (Sun Fire X4800M2) プロセッサメモリ内蔵ディスクディスク コントローラネットワーク 8 つの 10Core Intel Xeon E7-8870 プロセッサ (2.40 GHz) 2 TB (128 x16 GB) ホットスワップ可能 8 x 300GB 10K RPM SAS ディスク Disk Controller HBA with 512MB Battery Backed Cache 8 つの InfiniBand 4X QDR (40Gb/s) ポート (4 枚の Dual-port PCIe エクスプレス モジュールが搭載 ) 2 つの Network Express Modules (NEM) に下記が搭載 8 つの 1GbE Ethernet ポート 8 つの 10 GbE Ethernet SFP+ ポート リモート管理 1 Ethernet port (ILOM 用 ) 電源冗長化された ホットスペア対応電源 (4 基 ) およびファンモジュール (4 基 ) 47 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
Exadata Storage Server X2-2 (Sun Fire X4270 M2) プロセッサメモリディスク Flash ディスク コントローラネットワーク 2 つの6Core Intel Xeon L5640 プロセッサ (2.26 GHz) 24 GB (6 x 4GB) 12 x 600 GB 15K RPM High Performance SAS ディスクもしくは 12 x 3 TB 7.2K RPM High Capacity SAS ディスク 4 枚の 96 GB Sun Flash Accelerator F20 PCIe カード Disk Controller HBA with 512MB Battery Backed Cache 2つの InfiniBand 4X QDR (40Gb/s) ポート (1 枚のDual-port PCIe 2.0 HCA) 4つのオンボード Gigabit Ethernet ポート リモート マネジメント 1 Ethernet port (ILOM 用 ) 電源冗長化された ホットスペア対応電源 (2 基 ) およびファンモジュール (6 基 ) 48 Copyright 2012, Oracle and/or its affiliates. All rights reserved.
49 Copyright 2012, Oracle and/or its affiliates. All rights reserved.