はじめに Web アプリケーションの発展と普及の勢いは弱まる兆しがありません弱まるどころか加速し続けていますこれはこれまでの ERP CRM Web 2.0 などの Web ベースアプリケーションが提供してきたメリットを考えると不思議なことではありません Web アプリケーションの爆発的拡

ncore テクノロジー Web アプリケーションデリバリー性能の飛躍的向上 www.citrix.com

はじめに Web アプリケーションの発展と普及の勢いは弱まる兆しがありません弱まるどころか加速し続けていますこれはこれまでの ERP CRM Web 2.0 などの Web ベースアプリケーションが提供してきたメリットを考えると不思議なことではありません Web アプリケーションの爆発的拡大の一方でコストパフォーマンスの低下も見られます無数の開発手法およびフレームワーク (Ajax SOA Comet Rails など ) と従来の Web サービスや JSON の使用の拡大によりネットワークにはこれまで以上に高いパフォーマンスが求められ使用されるサーバーサイクルとネットワーク帯域幅が急速に増加していますこのようなアプリケーションの進化に対応するにはロードバランサーとアプリケーションデリバリーコントローラ (ADC) のパフォーマンスおよびキャパシティを引き上げる必要がありますしかし必要とされるパフォーマンスはもはやインテルや AMD の最新プロセッサの導入といった単純な手段のみでは解決できなくなっていますプロセッサ単体で向上できるパフォーマンス向上には限りがあるのが現状です従来のプロセッサとは異なり今後のパフォーマンス向上はすべて 1 つのプロセッサパッケージに複数の処理機構が搭載されたマルチコアプロセッサと呼ばれるアーキテクチャの革新によって実現されることになるでしょうたとえば従来のインテル Pentium 4 は同時に 1 つの命令しか処理できませんでしたが 4 コアのインテル Core 2 Quad であれば 4 つの命令を並行して処理することが可能ですアプリケーションとソフトウェアにおいては一般に単純にこれら新型マルチコアプロセッサを使用するだけで夢のようにパフォーマンスが向上するというものではありません別の言い方をするなら 3.33 GHz で動作するクアッド (4) コアと 13.32 GHz で動作するプロセッサ 1 基を同じに考えることはできないということですシングルコアの壁を越えるマルチコアおよびマルチプロセッサの環境で高いパフォーマンスを達成するには負荷の効率的な分散プロセッサ間のリソース共有並列処理ができない重要機能の正確な管理など多くの技術的課題を克服する必要がありますこうした課題すべてに共通する要素が同期です同期は高速なネットワーク処理の障害となっています潜在的な衝突を排除し正しい計算結果を保証するためには処理の依存関係を注意深く吟味する必要がありこれがすべての処理速度の低下を引き起こします正確な結果を得るための同期であるにもかかわらず皮肉にも同期の設計自体が複雑性を増大させます複雑性が増大すればするほどミスが発生する可能性が高くなります同期の影響はマルチスレッドアプリケーションを見るとわかりますマルチスレッドアプリケーションではタスクが複数の小さなプログラム ( スレッド ) に分割されそれらが並行して実行されますマルチスレッドアプリケーションの単純な実装ではパフォーマンスは大幅に向上しますしかしアプリケーションの複雑性とスレッド数が増すにつれてパフォーマンス曲線はすぐに頭打ちになりますパフォーマンス低下の原因はソフトウェアコンポーネント間でのやり取りが増加しより多くの同期処理が必要とされるために結果的にこれらの同期に要する時間がマルチスレッドの利点を打ち消してしまうことにありますわかりやすい解決策は同期を必要とする処理を排除することですがこれは口で言うほど簡単なことではありません同期を排除するにはソフトウェアの完全な再設計と大規模な事前計画が必要になりますまたハードウェアソフトウェアシステム間のやり取りを深く理解する必要があります 2

ncore テクノロジー Citrix NetScaler ncore テクノロジーは最も厳しい Web アプリケーションへの要求にも対応可能な高パフォーマンスをマルチコアテクノロジーの効果的活用により実現する並列処理アーキテクチャですマルチコアプロセッサを効果的に利用するシステムを構築するには (1) システムでどのようにすべてのコアを活用するか (2) プロセッサ間同期処理の必要性をシステムからどのように排除するかという 2 つの課題を検討する必要がありますこの 2 つは相互依存の関係にありますプロセッサ間の同期の必要性が排除されれば各プロセッサは可能な限り最大のパフォーマンスを実現することに処理を集中できますこれがどのように実現されるかを理解するためにはまず既存の NetScaler パケットエンジンの主な特徴を理解する必要があります NetScaler パケットエンジンパケットエンジンの目的はネットワークからパケットを取得し大量の TCP/IP の処理高速化タスクの最適化を実行しセキュリティポリシーを適用することですパケットエンジンはパケットの 1 つのグループの処理を終了すると応答をネットワークに戻し新しいパケットを取得して処理します NetScaler パケットエンジンの効率性ではパケットをマイクロ秒単位で処理することができます NetScaler の超低遅延パケットエンジンは Web アプリケーションデリバリーとユーザー体験を最適化しますパケット処理の一連のステージを慎重に検討して設計されたこのパケットエンジンにより同期処理が不要になっていますこれにより各プロセッサコア上で実行されるそれぞれのパケットエンジンにおいてギガビット単位のスループット性能が実現できます一般的な Linux ベース製品と比較した場合 NetScaler パケットエンジンの効率性の効果が最も確認できます通常の Linux TCP スタックは複数の層の間を移動するときにパケットを 1 つずつキューに追加したりキューから取り出したりする必要がありますアプリケーションがデータを受信するまでに各層で大量の同期オーバーヘッドが発生しますいくつかの Linux ベース製品で使われる追加のスイッチング層と ASIC では層間でのパケットの入れ替えのために発生する遅延が増幅します NetScaler プラットフォームを改善し同期処理を不要にし非常に優れた効率性を保ちながらパケットエンジンを複数のプロセッサコアに拡張することが可能となりました何も共有しない設計パフォーマンスの拡張においてよく課題となるのは共有ですデータを複数のコンポーネントで共有する場合前述の同期が必要になるためすぐにパフォーマンスが問題となりますしかし何も共有しなければ次のような利点が得られます 1. 同期によるオーバーヘッドが発生しない 2. 複雑性が大幅に軽減され安定性が向上する 3. 1 つのコンポーネントが別のコンポーネントに影響を与えることがないため障害を適切に処理しやすい 3

NetScaler パケットエンジンの主な特徴を活用して ncore アーキテクチャは何も共有しない設計により開発されました図 1: 何も共有しない設計何も共有しない設計の仕組み ncore の各パケットエンジンは何も共有しないアーキテクチャです各パケットエンジンは NetScaler のアプリケーション最適化と高速化のためのすべての機能を完全自立型の実装として備え個別のメモリ空間で実行されます各パケットエンジンは独立して必要となるすべての機能を実行できるので他のパケットエンジンの動作に影響を受けることなく Web アプリケーショントランザクションの始めから終わりまでの全工程を処理することができますパケットエンジン間の機能に依存関係がないので同期の問題は発生しませんパケットエンジンがリソース競合のために相互に待機することもありませんこのため NetScaler は非常に高いスループットと最小限の待ち時間で処理を実現できます各パケットエンジンがそれぞれの CPU コア上で実行される場合その状態は 1) 処理するパケットを検索している 2) パケットを実際に処理しているという 2 つのうちのいずれかになります各パケットエンジンはハードウェアベースのパケットキューでパケットを検索します何も共有しないの原則に従いすべてのパケットエンジンは独自のキューを持ちます ( これは他のコアと共有されません ) ハードウェア実装が完全に対称であるため出力パケットもプロセッサごとの個別のキューに送られます 1 つのパケットエンジンは 1 つのコア全体を最大限に利用することができるのでコアとパケットエンジンの間に 1 対 1 のマッピングを作成してハードウェアが提供するすべての利用可能なサイクルが使用されるようにしますこれによりシステムへのコアの追加に比例して直線的にパフォーマンスが向上しプラットフォームの将来的な拡張性が増大しますパケットキュー間でフローを分散する方法ネットワークトラフィックを複数のコアに分散する方法はいくつかあります主に使用される方法は次の 3 つです 1. 機能の並列化 2. ネットワークインターフェイスのプロセッサへのマッピング 3. 個々のフローの分散 ADC での機能の並列化は通常複数のコアにタスクを分割することで実現されますこのため特定のコアに特定の機能が割り当てられることになりますたとえばコア 1 はネットワークトラフィックの管理に特化されコア 2 は TCP/IP の処理コア 3 は第 7 層 (HTTP など ) の処理といった場合が考えられます一見するとこれは処理の急増を機能ごとに分離できるため効果的と言えますしかし実際にはこのようなアーキテクチャは使用率の低下につながりますたとえばアプリケーションが第 7 層の処理を多く必要とし SSL の処理を必要としていない場合使われていない CPU リソースを SSL から第 7 層に割り当てることはできません 4

図 2: 機能の並列化図 3: ネットワークインターフェイスのプロセッサへのマッピングネットワークインターフェイスのプロセッサへのマッピングは物理的ポートを特定のハードウェアに固定する旧来のネットワークから生まれた方法です新しいバージョンではこの代わりに IP アドレスを特定のコアにマッピングしますしかし機能の並列化と同様にこれは不均衡な負荷分散につながり 1 つのアプリケーションが 1 つのコアのキャパシティを最大限に使用できても同じシステム内の他のアイドル状態のコアを活用できないという状態になります機能の並列化とネットワークインターフェイスのプロセッサへのマッピングを評価した結果から ncore テクノロジーの方法として個々のフロー分散が選択されましたこの方法は最も精度の細かい負荷共有メカニズムであり 1 つのパケットエンジンによって製品のすべての機能が実行できるという点を最大限に活用しますこの結果トラフィック負荷は真に均等に分散され 1 つのアプリケーションまたは機能でキャパシティが不足し他のコアのキャパシティが空いているという状況が発生しません 5

図 4: 個々のフローの分散個々のフローを非常に高速で分散するために対称フロー分散機能が使用されますこの特別なハードウェアによって 1 つのネットワークインターフェイスに到着したパケットを取得しどのパケットエンジンの入力キューが特定のネットワークトラフィックを受け取るかを高速に決定できます決定は TCP/IP ヘッダー情報に基づいているためこの分散機能は確実に特定のフローのパケットが常に同じパケットエンジンへ送られるようにします図 5: コアへの入力キューフロー分散機能が使用するアルゴリズムによってすべてのパケットエンジン間の均等な分散が保証されすべてのパケットエンジンによるシステム全体のワークロードへのサポートが確保されます ncore アーキテクチャでは同期オーバーヘッドやネットワークトラフィックの不均衡な分散のために貴重なプロセッサリソースが無駄になることはありません 6

ncore の管理 ADC のリソース管理は従来からの難しい課題でした処理能力が乏しい場合は利用可能なキャパシティをすべてパケットエンジンに割り当てることが望まれますこの場合 SNMP 通信の提供や管理コンソールから 1 つ以上のインターフェイスへのアクセスなど必須管理機能のサポートのためのわずかなキャパシティが残されます NetScaler は管理機能用に常にキャパシティを予約していますこのためトラフィックの負荷が大きい状態でも管理者は効果的にシステムを管理できます図 6: 予備として拡大可能な専用のコアが管理用に割り当てられる ncore アーキテクチャは処理キャパシティの性質を根本的に変えるものであるためかつて乏しいとされていたキャパシティは現在では十分存在していることになりますこのため 1 つのコア全体とその個別メモリスペースを管理機能専用とするアーキテクチャが決定されましたこれによりさらに一段階上の柔軟性が管理層に提供され将来のイノベーションと開発のための可能性が生まれますまたこの重要なポイントは膨大なトラフィックを扱う状況においても確実に機能する管理インターフェイスが管理者に提供されることです ncore の重要性 ncore テクノロジーがもたらすパフォーマンスと拡張性の利点は現在および将来の Web アプリケーションデリバリー要件にとって重要な意味を持ちます ncore テクノロジーが提供する機能は以下のとおりです Web 2.0 およびリッチインターネットアプリケーションパフォーマンスの向上急激なトラフィック増加に対応する機能の強化より多くのユーザーとアプリケーションをサポートするためのキャパシティの拡大第 4 層から第 7 層までのロードバランシングキャッシュ広域負荷分散 (GSLB) 圧縮 SSL VPN SSL オフロードアプリケーションセキュリティパフォーマンスモニタリングなどを始めとする Web アプリケーションのデリバリー要件を満たす一体型プラットフォームたとえば CPU 処理が多くなりがちな複雑な第 7 層ワークロードでは ncore テクノロジーによって最大 6 倍の向上が可能です多数の同時ユーザーをサポートする必要のあるアプリケーションでは同時接続について 7 倍のパフォーマンス向上が可能です 7

まとめ ncore テクノロジーは最も厳しい Web アプリケーションへの要求にも対応できるようにマルチコアテクノロジーを効果的に活用できるように拡張された高パフォーマンスの並列処理アーキテクチャです ncore の何も共有しない設計による更なる革新によってパケットエンジン間のすべての同期オーバーヘッドを排除しマルチコアテクノロジーによるリニアな性能向上が可能になりました ncore アーキテクチャのリニアな性能スケーラビリティは非常に高いパフォーマンスを提供するだけでなく将来の Web アプリケーションデリバリーの課題を解決する革新的なソリューションの可能性を生み出しますメモリとプロセッサのキャパシティが豊富であれば Web テクノロジーについて新開発機能は根本的なアーキテクチャを変更することなく最適化性能向上拡張できます ncore テクノロジーは将来的なキャパシティの増加による新機能の追加や継続的な性能向上が期待できさらに多くのメリットを提供していきます 2010 Citrix Systems, Inc. All rights reserved.citrix NetScaler および ncore は Citrix Systems, Inc. の米国あるいはその他の国における登録商標または商標ですその他の社名商品名はそれぞれの所有者の商標または登録商標です 0509/PDF