EMC Data Domain SISL Scaling Architecture

Similar documents
White Paper EMC DATA DOMAIN BOOST と SYMANTEC NETBACKUP の分散重複除外機能によるバックアップ処理の高速化 実機による検証結果の報告 要約 EMC Data Domain Boost for Symantec OpenStorage( 以下 DD

ホワイト ペーパー EMC VFCache により Microsoft SQL Server を高速化 EMC VFCache EMC VNX Microsoft SQL Server 2008 VFCache による SQL Server のパフォーマンスの大幅な向上 VNX によるデータ保護 E

PowerPoint プレゼンテーション

EMC Data Domain Boost for Symantec NetBackup and NetBackup Storage Unit Group Failover

EMC Data Domain Global Deduplication Array

EMC Data Domain Archiver

Copyright 2013 EMC Corporation. All rights reserved. ( 不許複製 禁無断転載 ) EMC Corporation は この資料に記載される情報が 発行日時点で正確であるとみなしています この情報は予告なく変更されることがあります この資料に記載さ

Microsoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc

HP StorageWorks X9000 Network Storage System

スライド 1

PowerPoint プレゼンテーション

NASのバックアップ/リカバリに関する課題の解決

Silk Central Connect 15.5 リリースノート

Oracle Web CacheによるOracle WebCenter Spacesパフォーマンスの向上

MAGNIA Storage Server Configuration Guide

Japanese.p65

はじめに Dell PowerVault DL2000 Powered by Symantec Backup Exec は シンプルで管理しやすいデータ保護機能を提供する 柔軟かつ経済的なバックアップソリューションです 本ホワイトペーパーでは PowerVault DL2000 の バリューシリーズ

038_h01.pdf

Arcserve Backup r16 新機能 テープブロックサイズの拡張 効果実測 Arcserve Japan 1.5 版

Arcserve Unified Data Protection サーバ構成とスペック見積もり方法 2016 年 06 月 Arcserve Japan Ver

Starwood Hotels:Oracle Database 10g RMANを最大に活かすためのベスト・プラクティス

平成20年度成果報告書

InfiniDB最小推奨仕様ガイド

EMC Isilon X シリーズ EMC Isilon X200 EMC Isilon X400 OneFS オペレーティングシステムで動作する EMC Isilon X シリーズは 優れた汎用性を持ちながらもシンプルなスケールアウトストレージアーキテクチャを採用して 大量のデータへの高速アクセス

EMC NetWorker が EMC Data Domain Boost との統合により重複除外のサポートを完成 THE CLIPPER GROUP ナビゲータ TM 1993 年創刊レポート番号 TCG LE 2010 年 10 月 4 日 EMC NetWorker が EMC D

免責事項 Samsung Electronics は 製品 情報 および仕様を予告なく変更する権利を留保します 本書に記載されている製品および仕様は 参照のみを目的としています 本書に記載されているすべての情報は 現状有姿 のまま 何らの保証もない条件で提供されます 本書および本書に記載されているす

目次 1. はじめに SSL 通信を使用する上での課題 SSL アクセラレーターによる解決 SSL アクセラレーターの導入例 SSL アクセラレーターの効果... 6 富士通の SSL アクセラレーター装置のラインナップ... 8

EMC CLARiX CX4エンタープライズ・フラッシュ・ドライブとMicrosoft Exchange

JP1 Version 11

RDX へのバックアップ 3 ベアメタル復旧手順書 2014 年 11 月

ORACLE PARTITIONING

コースの目標 このコースを修了すると 下記のことができるようになります : 1. RAID とそのさまざまな構成の基本的理解を深める 2. RAID で新しいストレージボリュームをセットアップする 前提条件 受講前提条件 : なし 次の項目についての知識を持つ受講生を対象としています : 該当なし

Hadoop LZO圧縮機能の検証

- 主な機能 - 設定機能キャッシュメモリをキャッシュセグメントに分割し 業務で使用する論理ディスクを割り付けるための設定を行います WebSAM istoragemanager のクライアント画面から操作が可能です キャッシュセグメント作成 削除機能キャッシュセグメントの作成 削除を可能にします

Microsoft Word - nvsi_100220jp_dell_nvfr40.doc

性能を強化した 第 12 世代 Dell PowerEdge サーバの RAID コントローラ Dell PERC H800 と PERC H810 の OLTP ワークロード性能比較 ソリューション性能分析グループ Luis Acosta アドバンストストレージエンジニアリング Joe Noyol

ソフト活用事例③自動Rawデータ管理システム

IBM Presentations: Smart Planet Template

東芝 MAGNIA R3320b での SSD 性能の検証 2012 年 8 月 株式会社東芝 クラウド & ソリューション事業統括部 目次 1. はじめに ソリッドステートドライブの概要 使用機器一覧 単体性能について サーバー用途別のテスト

変更履歴 項番版数内容更新日 版新規作成 2013 年 11 月 18 日 1

目次 はじめに... 3 仮想化環境上の仮想マシン保護方法... 4 ( 参考 )Agent for Virtual Machines での仮想マシンのバックアップ... 8 まとめ 改訂履歴 2011/04 初版リリース 2012/10 第 2 版リリース このドキュメントに含まれる特

Oracle Data Pumpのパラレル機能

データ移行ツール ユーザーガイド Data Migration Tool User Guide SK kynix Inc Rev 1.01

目次 1 はじめに 登録商標 商標 注意事項 免債事項 SR-IOV の機能概要 性能検証事例 測定環境 測定結果 各方式による共有 NIC 性能比較 ( ポートあ

PowerPoint プレゼンテーション

Arcserve Unified Data Protection サーバ構成とスペック見積もり方法 2018 年 10 月 Arcserve Japan Ver

JustSystems

【Cosminexus V9】クラウドサービスプラットフォーム Cosminexus

はじめに この 資 料 は データ デデュプリケーション 機 能 を 検 討 いただくにあたり ディス ク 使 用 率 とバックアップ パフォーマンスについて データ デデュプリケーション デバイス( 以 降 DDD と 記 述 )とファイル システム デバイス ( 以 降 FSD と 記 述 )

Microsoft Word - ESX_Restore_R15.docx

Software-Defined Storage ware Virtual SAN ware Virtual SAN

Exam : 日本語版 Title : Enterprise Storage Sales V3 Vendor : IBM Version : DEMO 1 / 5 Get Latest & Valid J Exam's Question and Answers from

内容 1 はじめに バックアップの必要性 Windows Storage Server のバックアップについて ShadowProtect 5 for I-O DATA を利用したバックアップのメリット ShadowProtect 5 for

BUYER CASE STUDY

Copyright 2009 EMC Corporation. All rights reserved. このドキュメントに記載されている情報は ドキュメントの出版日現時点の情報です この情報は予告なく変更されることがあります このドキュメントに記載される情報は 現状有姿 の条件で提供されています

EMC ISILON S シリーズノードの仕様 ISILON S200 ノードの 特長とオプション 300 GB HDD 600 GB HDD 900 GB HDD 1.2 TB HDD (Isilon OneFS 以降が必要 ) 容量 (HDD/SSD) 5.4~7.2 TB/ 10.

Oracle Data Pumpのパラレル機能

クラウド基盤向けに処理性能や拡張性を強化した「HA8000シリーズ」の2プロセッサーサーバを販売開始

Pervasive PSQL v11 のベンチマーク パフォーマンスの結果

ORACLE TUNING PACK 11G

第 7 章 ユーザー データ用表領域の管理 この章では 表や索引を格納するユーザー データ用表領域の作成や 作成後のメンテナンスに ついて解説します 1. ユーザー データ用表領域の管理概要 2. ユーザー データ用表領域作成時の考慮事項 3. ユーザー データ用表領域の作成 4. ユーザー データ

Microsoft Word LenovoSystemx.docx

EMC NetWorker 7.5 for VMware

Microsoft Word - nvsi_100222jp_oracle_exadata.doc

h Dell EMC Data Domain Operating System

スライド 1

Microsoft Word - H2534-J_emc_symmetrix_bu_stor_sol_networker_wp.doc

システム要件 Trend Micro Safe Lock 2.0 SP1 Trend Micro Safe Lock 2.0 SP1 エージェントのシステム要件 OS Client OS Server OS Windows 2000 (SP4) [Professional] (32bit) Wind

Corp ENT 3C PPT Template Title

Oracle Warehouse Builder: 製品ロードマップ

機能紹介:コンテキスト分析エンジン

はじめに この資料は データデデュプリケーション機能を検討いただくにあたり ディスク使用率とバックアップパフォーマンスについて データデデュプリケーションデバイス ( 以降 DDD と記述 ) とファイルシステムデバイス ( 以降 FSD と記述 ) を比較した資料になります FSD は ローカルマ

Oracle Berkeley Database 11g Release 2パフォーマンスの概要

Client Management Solutions および Mobile Printing Solutions ユーザガイド

ビッグデータやクラウドのシステム基盤向けに処理性能を強化した「BladeSymphony」および「HA8000シリーズ」の新製品を販売開始

Microsoft Word - gori_web原稿:TrusSPSにおけるNAS OSのパフォーマンス評価.docx

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015

EMC Virtual Infrastructure for Microsoft SharePoint Server Enabled by EMC CLARiiON and VMware vSphere 4

Oracle Advanced Compression:ディスクの節約とデータベースの高速化を可能にする包括的な圧縮機能

TVS-871T_P6_ RS_201508_(JPN)_web

提案書

エンタープライズ・フラッシュ・ドライブとEMC CLARiX CX4を利用したOracleデータベースの展開

簡単バックアップの使いかた

CLUSTERPRO MC ProcessSaver 2.3 for Windows 導入ガイド 第 5 版 2018 年 6 月 日本電気株式会社

ディスクへのバックアップのためのEMCソリューション EMC Celerra、MPFS、EMC NetWorkerによるNASバックアップの高速化

Microsoft PowerPoint - yamagata.ppt

フラッシュ・ドライブを使用したEMCSymmetrix DMX-4 の超高性能階層0

コース番号:

内容 1 本ホワイトペーパーについて 拡張ボリューム特徴 ファイル単位でのミラーリングを行う拡張ボリューム 冗長性 拡張性 拡張ボリュームの高速性 従来の RAID 方式にも対応 対

VERITAS Backup Exec for Windows Servers Management Pack for Microsoft Operations Manager ガイド

Trend Micro Safe Lock 2.0 Patch1 管理コンソールのシステム要件 OS Windows XP (SP2/SP3) [Professional] Windows 7 (SP なし /SP1) [Professional / Enterprise / Ultimate] W

1.システム構成図

アドバンスト・フォーマットディスクのパフォーマンス

Microsoft PowerPoint - SME_090213_03_公開用.ppt

EaseUS Data Recovery Wizard User Guide

富士通セミコンダクタープレスリリース 2009/05/19

InterSec/LB400k システム構成ガイド 2019 年 01 月第 3 版

共通マイクロアーキテクチャ 富士通はプロセッサー設計に共通マイクロアーキテクチャを導入し メインフレーム UNIX サーバーおよびスーパーコンピューターそれぞれの要件を満たすプロセッサーの継続的かつ効率的な開発を容易にしている また この取り組みにより それぞれの固有要件を共通機能として取り込むこと

Oracleデータベースを使用したEMC Symmetrix DMX-4

Samsung SSD Data Migration v.3.1 導入およびインストールガイド

Transcription:

ホワイト ペーパー 詳細レビュー 要約 数十年にわたり テープはその低コストによって最も有力なデータ保護のストレージ メディアであり続けてきましたが その地位はディスク ベースの重複排除ストレージ システムによって確実に失われつつあります EMC Data Domain システムの CPU 中心の設計は ボトルネックであるディスク I/O の負荷を解消しました 過去 20 年間で ディスクは約 10 倍に向上したのに対して CPU の速度は数百万倍に向上しました このパフォーマンス ギャップは将来的にも大きくなっていくと考えられます 各コアの倍増により Data Domain システムの速度は約 50% 向上すると予測するのがは難しくありません SISL(Stream-Informed Segment Layout) によって Data Domai は 経済的で高スループットの重複排除ストレージ システムを提供するための実績あるアーキテクチャを開発しました 今後も CPU 性能の劇的な進化によって システムの拡張性が強化されることは間違いありません 2012 年 12 月

Copyright 2013 EMC Corporation. All rights reserved.( 不許複製 禁無断転載 ) EMC Corporation は この資料に記載される情報が 発行日時点で正確であるとみなしています この情報は予告なく変更されることがあります この資料に記載される情報は 現状有姿 の条件で提供されています EMC Corporation は この資料に記載される情報に関する どのような内容についても表明保証条項を設けず 特に 商品性や特定の目的に対する適応性に対する黙示の保証はいたしません この資料に記載される いかなる EMC ソフトウェアの使用 複製 頒布も 当該ソフトウェア ライセンスが必要です 最新の EMC 製品名については EMC の Web サイトで EMC Corporation の商標を参照してください パーツ番号 h7221.2-j 2

目次エグゼクティブ サマリー... 4 CPU セントリック コンパクトな設置面積のインライン重複排除... 4 はじめに... 4 対象読者... 4 課題 : フィンガープリントの認識と速度... 5 ディスクあたりの速度... 5 適切な容量... 6 典型的な結果... 8 Data Domain SISL... 8 一意性の特定... 9 冗長性の特定と読み取りの速度... 10 SISL プロセス... 10 将来的な拡張性... 11 まとめ... 12 3

エグゼクティブ サマリー CPU セントリック コンパクトな設置面積のインライン重複排除 数十年にわたり テープはその低コストによって最も有力なデータ保護のストレージ メディアであり続けてきましたが その地位はディスク システムの重複排除によって失われつつあります 重複排除は 従来行われてきた圧縮と比較して大幅なデータ削減の提供が可能なアプローチです これは 重複排除システムではディスクを削減できることを意味しています また ディスク ストレージ システムの構成済みコストは テープの自動化に匹敵するということです お客様は 最も新しい重複排除製品が想像以上にディスクを使用することに驚かれることがあります どのように導入するかを慎重に考慮したうえでないと 重複排除はディスク集中型のアクティビティになる可能性があります ディスク システムのパフォーマンスを向上させるための従来の方法は ディスクの数を増やし より高速で高価なディスクを使用することです これは 負荷を分散することで スピンドルあたりのアクセスと転送速度が比較的低減されます しかし残念ながら 重複排除アレイでのこのアプローチの使用は 比較されるテープ ライブラリよりも短期間で高価なものとなってしまいます 低コストで大容量の SATA ドライブを使用する場合も 各ディスクのスペースが多い分 容量のほとんどが無駄になってしまいます I/O パフォーマンス向上のためだけにディスクを追加することは 不必要な多くの容量にコストを使っていることになります EMC Data Domain は DD OS(Data Domain オペレーティング システム ) 内で SISL(Stream-Informed Segment Layout) 拡張アーキテクチャを使用して早い段階でこの問題を解決しました 重複排除のスループットの拡張性を最適化し ディスク アクセスを抑えることでディスクの占有領域を最小化します これにより システム スループットが CPU 中心となり CPU のパフォーマンス向上が速度の向上に直結します はじめに このホワイト ペーパーは Data Domain SISL アプローチと その重複排除の最適化への貢献について説明します 対象読者 このホワイト ペーパーは Data Domain SISL(Stream-Informed Segment Layout) 拡張アーキテクチャについてより詳しく知りたい EMC のお客様 テクニカル コンサルタント EMC パートナー EMC およびパートナー プロフェッショナル サービス コミュニティのメンバーを対象としています 4

課題 : フィンガープリントの認識と速度 ディスクあたりの速度 重複排除の基本的なアルゴリズムは 受信データ ストリームを再現性のある方法でセグメントに分割し そのセグメントの一意のフィンガープリントを処理します その後 このフィンガープリントはシステム内のその他すべてのフィンガープリントと比較され 一意か重複しているかが判断されます これにより 一意のデータのみがディスクに保存されます クライアントには データが通常どおりにシステムに保存されたように見えますが 内部では同一のセグメントを繰り返し保存してディスク スペースを使用することはありません 代わりに 前に保存された一意のセグメントへの付加的なリファレンスが作成されます データ削減の良い方法は セグメントを小さくすることで データ削減効果を最大に引き出すことです セグメントが小さい方が より多くの場所で検出される可能性が増すからです しかし 小さいセグメントにするとセグメントの数が増え より多くのフィンガープリントの処理と比較が必要になります Data Domain の重複排除技術は 比較的小さいセグメント サイズ ( 平均 8 KB サイズの変動あり ) を使用します これにより 最適な重複排除結果を提供し 柔軟性のある アプリケーションに依存しない保存が可能となります 一意のセグメントを特定した後 ローカルの圧縮 ( 例 :LZ gzip) を適用し そのデータのみがディスクに保存されます 図 1: 大容量 低コストの SATA ディスクを使用したフィンガープリント アプローチ 平均 8 KB 制限のセグメントのフィンガープリントのランダムな検索 ディスクあたり約 1 MB/ 秒でのスループット 5

この種類のアプローチによるフィンガープリント インデックスは システム RAM よりも大幅に大きくなります その結果 一般的にはインデックスがディスクに保存されることになります 通常 各受信セグメントが発生するたびに システムはインデックス検索のためにディスクの読み取りを実行します これが問題となる点です これは 100 MB/ 秒スループットのためには 一般的な場合 ハッシュ ベースのシステムにディスクが 100 台必要になるということです その理由を説明しましょう 500 GB の SATA ディスクは インデックス検索で 1 秒あたり約 120 回のディスク アクセスを維持できます 1 セグメント サイズが 8 KB の場合 単一のディスクでサポートできるのは 受信データ転送レートで約 120 8 KB または約 1 MB/ 秒です さらに高速にする必要がある場合は アクセスの負荷を分散させるために より多くのディスクが必要になります このようなシステムでは ほとんどの場合テープと競合するには高価格になりすぎます シンプルな代替で最適なものはありません 1 つの案として 平均のセグメント サイズを大きくする方法がありますが これは重複排除に著しい悪影響を与え 構成された価格面でもシステムはテープの自動化と競合できません また 高速のファイバ チャネル ディスクを使用する方法もありますが 速度が 2 倍になることで 価格がギガバイトあたり 3 倍 ~5 倍以上になります 適切な容量ディスク 100 台では多すぎますが 適切な台数とはどのくらいでしょうか 従来の圧縮とオンサイト保存期間を使用した重複排除プロセスは 一般的に集約したデータを 10 倍以上削減します 一般的なオンサイト保存期間では 開始時のセット ( 例 : 毎週のフル バックアップと毎日の増分バックアップ 2 か月間 ) の 10 倍のデータ量が保存されます したがって 重複排除用の保存に必要な大きさは 開始時のプライマリ データ セットをバックアップする大きさとほぼ同じです 1 たとえば Seagate Barracuda-ES 500 GB ドライブ 7.2k rpm( モデル :ST3500630NS) は 平均読み取りシーク時間 8.5 ミリ秒をサポートしているので 1 秒あたり 117 回の読み取りシークをサポートします 6

パフォーマンスの制限が原因でデータセットのバックアップがバックアップ ウィンドウに収まらない場合 毎週のフル バックアップとバックアップ ウィンドウで どのくらい高速のシステムが必要かを特定します 最も困難なスループット構成は すべてのフル バックアップを週末の 1 日のみで実行する場合です 問題が発生した場合の再開を含め週末の 16 時間のウィンドウで 100 MB/ 秒の場合 開始時のデータセットは 5.75 TB(16 時間 100 MB/ 秒 ) 未満である必要があります 500 GB ドライブを使用する重複排除ストレージ システムでは RAID やスペアなどを除き ストレージ用には 12 台のドライブが必要です RAID 6 でも 2 台のパリティ ディスクを追加して合計 14 台です これは 14 台あたり 100 MB/ 秒 またはディスクあたり約 7 MB/ 秒ということです この先の状況を予測すると 1 TB 保存可能なディスクを使用した場合 必要なディスクは半数で 容量によって決められたカーブを維持するためには 2 倍の速度が必要になります しかし ディスク自体が速度を変更することはできません 図 2: 拡張性の高い重複排除システムでは フィンガープリントをオン ディスク構造内にインデックス化する必要があります 速度の達成には システムがディスクをシークし フィンガープリントが新規で一意のものか 重複しているかの特定が必要です 現在の平均シーク速度と圧縮率の高い小さいセグメント サイズを使用した場合 希望する容量のディスク数で得られる速度を上回る速度を得るためにはより多くのディスクが必要となります ( 上の図は 500 GB 7.2k rpm SATA ディスク セグメント サイズ平均 8 KB と仮定しています ) 7

典型的な結果 12 台のドライブが必要な構成と 100 台のドライブが必要な構成では 価格面でも管理性でも明らかに大きな違いが生じます ディスクの容量が大きくなり より多くのデータに対応するほど この違いはより深刻になります 速度をベースにしてシステムのディスク ドライブ数を拡張すると 膨大な容量を無駄にすることになります また 必要数以上の多数のドライブを管理する必要性も生じます 当然のことながら それによってコストも増加します さらに データが複数のドライブにわたっている場合 アクセスがすべてのディスクにわたって分散され 読み取りスループットが最適化されません 保存の断片化によって リカバリやテープへのコピーのストリーミングに必要な読み取りパフォーマンスが妥協されることになります 最新の LTO-4 ドライブは ストリームあたり 60 MB/ 秒の速度アプローチを必要としており さもないとシュー シャイン現象が発生し大幅に速度が低下します ディスクあたり 1 MB/ 秒の場合 十分な読み取りを実行するためには システムはスペアなどの追加のディスクを除き 最低でもディスクが 60 台必要です (500 GB のディスク使用で 30 TB 750 GB のディスク使用で 45 TB) 重複排除システムを正常に実行するためには 次のような大容量の論理スペースにおける類似の課題を克服する必要があります RAM の最小化 システムの保存と帯域幅に必要な容量をサポートするための必要最低限の低価格の SATA ディスクを使用した スループット向上に直接つながる CPU 向上の有効化 高速での読み取り リカバリ コピーを可能にするためのディスク保存時の断片化の回避 Data Domain SISL Data Domain SISL テクノロジーには これらの問題を解決するアプローチの組み合わせが含まれています まず SISL テクノロジーは 重複したセグメントを RAM 内で 99% インラインで特定してからディスクに格納します 次に 関連するセグメントとフィンガープリントをまとめて保存するので 大きなグループを 1 回で読み込むことができます これらの特許取得済み 2 の技術により Data Domain では RAM の増設なく 高いスループットの実現に必要なディスク台数は最小限で SATA ディスクの大容量をすべてデータ保護に活用できます 長期間にわたって SISL は DD OS ベースのシステム パフォーマンスを CPU 速度を大幅に向上させながらトラッキングできます 2 これらの技術は特許取得済みです (6,928,526 7,065,619 その他特許出願中 ) 8

一意性の特定 SISL には ディスクのデータ ストレージに保存する前に RAM 内で新しい一意のセグメントと冗長重複セグメントの両方の高速フィルタリングをインライン実行する一連の技術があります それがサマリー ベクタおよびセグメント ローカリティです サマリー ベクタはメモリ上のデータ構造であり DD OS ではこれを使用して迅速に新しい一意のセグメントを特定します 新しいセグメントを特定することで セグメントがそこにないことを確かめるためだけにシステムがディスク上のインデックスを検索す 図 3: サマリー ベクタは 最も新しいセグメントを ディスク上のフィンガープリント インデックスを検索することなく特定することができます 最初は アレイ内のすべてのビットが 0 です (a) に示されている挿入では いくつかのハッシュ ( セグメントのフィンガープリントの h1 h2 h3) によって指定されたビットが 1 に設定されています (b) に示されている検索では 同じハッシュによって指定されたビットがチェックされます このケースのようにいずれかが 0 の場合 そのセグメントはシステム内に存在しません ることを回避します ブルーム フィルタに基づき サマリー ベクタは RAM 内のビット アレイで 最初はすべてゼロに設定されています 新しいセグメントが保存されると アレイ内のいくつかのビットの場所が 1 に設定されます 設定される場所はセグメントのフィンガープリントに基づいて選択されます 後続のセグメントが到着す ると 選択された場所がチェックされます いずれかの場所が 0 の場合 そのセグメントは事前に保存されたことがないとシステムが結論づけ 検索を終了します サマリー ベクタは それのみではセグメントの冗長性を断定するには十分ではありません 通常 1% に満たないごくわずかな時間ですが 新しいセグメントが一意であったとしても選択された場所のすべてが異なるセグメントによって 1 に設定されることがあります これが発生すると システムは認識に結論を出すためにほかのメカニズムに依存する必要があります 9

冗長性の特定と読み取りの速度 インデックス検索のみで重複を見つける問題点は 1 回のディスク アクセスが 1 つのセグメントのみを読み取ることです ディスク効率化の鍵の 1 つは 1 回のアクセスで複数のセグメントを読み取ることと言えます 多くのバックアップ環境において データ中の任意のセグメントに注目してみると その隣同士が常に同じセグメントに連続的に保存されている傾向にあります Data Domain システムは それら隣り合ったデータ セグメント同士を 1 つのシーケンスとしてディスクに書き込みを行います これを セグメント ローカリティと呼び コンテナと呼ばれるデータ格納単位に保存します Data Domain ファイル システムは ログ構造化システムであり その中心はローカリティを保存するコンテナのログです ローカリティは隣り合ったセグメント同士をディスク上で 1 つにまとめます システムは 1 回のディスク アクセスですべてのフィンガープリントか ローカリティ全体にアクセスできます つまり 多数の関連するセグメントやセグメントのフィンガープリントに非常に効率的にアクセスできるということです SISL プロセス新しく読み取ったセグメントの場合 システムはまずサマリー ベクタをチェックします サマリー ベクタが セグメントが新規で保存が必要であることを示している場合 ストリームによって通知されたシステムが 後でディスクに保存するためにストリームに示された順序で セグメントを現在のセグメント ローカリティに追加します それ以外は セグメントが重複しており システムが RAM 内にあるフィンガープリント キャッシュを検索している可能性があります 図 4: バックアップ ストリームの新しいデーバックアップ / リストアでは タ セグメントは フィンガープリントとその他ほとんどのセグメントはあまのメタデータとともにローカリティと呼ばれるユりアクセスされません フニットにまとめて保存され コンテナに保存されル バックアップは バックて コンテナのログに追加されます ローカリアップ プロセスをとおしてティ内のセグメントのフィンガープリントは そファイル システム全体を連の他のファイル システム構造エレメントととも続的に実行し 次のフル にコンテナのメタデータ セクション内にまとめバックアップまで参照されなられます これにより 重複検索時の書き込みやい膨大な数のセグメントを参重複排除ストリームの再構築時の読み取りの効率照します そのため 最近ア的なアクセスのため 書き込まれたフィンガープクセスされたデータに基づくリントとデータはディスク上で近くに一緒にまと従来のキャッシュ戦略は効率められます 的ではありません 10

SISL では セグメントがキャッシュ内に見つからない場合 システムがオン ディスク インデックス内を検索し ローカリティをキャッシュに通知するストリーム全体のフィンガープリントがプリフェッチされます 受信バックアップ ストリーム内の後続セグメントは それ以上のディスクにアクセスを行わなくても通常大半がキャッシュ上で検出されます これらの技術とその他を合わせることで アレイ ハードウェアを最小限に抑えながら アプリケーションに依存しない方法で重複セグメントを素早く検出できます これには 大容量の RAM も大規模ディスク ドライブも必要ありません サマリー ベクタは 新しいセグメントのインデックスの無意味な検索を回避します ローカリティはディスク上のセグメントとセグメント フィンガープリントをまとめ 各ディスク アクセスがセグメントのシーケンスに関連するデータをフェッチします これらのローカリティはキャッシュ内にプリフェッチされ キャッシュ内で最も多く重複するセグメントが迅速に検出されます 実際のバックアップ データを使用した長時間の実行実験で これらの技術は両方でディスクの読み取りを最大 98% 排除し 低コストの SATA ディスク ドライブの全容量を使用したバランスのとれたパフォーマンスを提供し インライン重複排除を可能にしました 将来的な拡張性 DD OS での SISL は ボトルネックになっているディスク I/O の負荷を解消できるため 他の部分のシステム設計は CPU を中心に行うことができます これは素晴らしいことです 過去 20 年間で ディスクは約 10 倍に向上したのに対して CPU のパフォーマンスは数百万倍に向上しました CPU ベンダーは 将来にわたりこれらの利点を維持していくとみられます 各コアの倍増により Data Domain システムの速度は約 50% 向上すると予測するのが妥当です また 大規模データセット向けに複数ノードを集約したものを作成するためのコントローラの統合方法を想像することも容易です コントローラ間のフィンガープリント ベースのダイアログも簡単です この拡張アプローチにおいてメリットを証明するいくつかのアプローチが現時点で存在しますが SISL が対応可能な価格 / パフォーマンスの課題は解決できていません 代わりに 優れたパフォーマンスのために必要なスピンドルをすべて接続することで可能にしているだけです これらの問題を最初に解決することによって Data Domain アーキテクチャは 将来的にコスト パフォーマンスに優れた集約の基盤を提供します 11

まとめ 重複排除は バックアップ ユーザー向けの LZ や gzip などの従来のローカル圧縮と比較して 桁違いに優れたデータ削減を得られます しかし コストに関して 中立的な立場でテープの自動化と比較する場合 重複排除システムを CPU セントリック型にしてディスク アクセスをほとんどなくす必要があります そのため低コストで大容量のディスクを最小限の数で構築します SISL によって Data Domain は 経済的で高スループットの重複排除ストレージ システムを提供するための実績あるアーキテクチャを開発しました 今後も CPU 性能の継続的な進化によって Data Domain の拡張性の強化が可能となります 12