HA 機能実装の現実 : ISSU/NSR/NSS/etc Japan Alcatel-lucent yasuo.kashimura@alcatel-lucent.com, #####
ノードレベルでのでのハイアベイラビリティハイアベイラビリティに寄与寄与するする機能 High Availability Capability ハードウェア冗長 Non-Stop Routing Non-Stop サービス リンク ノードレベルプロテクション IP/MPLS In-Service Software Upgrades Key Features FAN, power supplies, switch fabric, control processor module BGP (IPv4 & IPv6), OSPF (IPv4 & IPv6), ISIS (IPv4 & IPv6), RIP, LDP, RSVP-TE, IGMP, RSTP, ECMP, VRRP. VLL (Ethernet, Frame Relay, ATM), VPLS, IP-VPN, Internet Enhanced Service, DHCP lease state Multi-chassis LAG, multi-chassis APS, multi-chassis ring, multi-class MLPPP Primary and standby LSPs, Fast re-route Non-stop RSVP-TE, LDP Minor version ISSU, Major version ISSU(plan) 2 High Availability MPLS JAPAN 2010
Alcatel-lucent Service Router の ISSU In Service Software Upgrade サービスを継続継続したまま Software-Upgradeの際にもにも 機器上で動作動作している Routing/ サービスは Non-Stop Non Stop Routing(NSR) NSS(Non Stop Service) を Active/Standby 異なる Version 間に拡張 3 High Availability MPLS JAPAN 2010
Alcatel-Lucent Service Router ISSU/NSR/NSSの歴史 Service Router 出荷開始 NSR NSR 基本機能のサポート BGP,OSPF,ISIS,RIP L3VPN NSS ポートフォリオ拡張 R4.0 Minor version ISSU ISSUのサポート R9.0 Major version ISSU ISSUのサポート LDP,RSVP-TE VLL,VPLS NSS PIM/IGMP OSPFv3 R6.1 IOM(LC) Soft Soft reset 2003 2006 2008 2010 2011 4 High Availability MPLS JAPAN 2010
ノードレベルでのでのハイアベイラビリティハイアベイラビリティに寄与寄与するする機能 High Availability Capability ハードウェア冗長 Non-Stop Routing Non-Stop サービス リンク ノードレベルプロテクション IP/MPLS In-Service Software Upgrades Key Features FAN, power supplies, switch fabric, control processor module BGP (IPv4 & IPv6), OSPF (IPv4 & IPv6), ISIS (IPv4 & IPv6), RIP, LDP, RSVP-TE, IGMP, RSTP, ECMP, VRRP. VLL (Ethernet, Frame Relay, ATM), VPLS, IP-VPN, Internet Enhanced Service, DHCP lease state Multi-chassis LAG, multi-chassis APS, multi-chassis ring, multi-class MLPPP Primary and standby LSPs, Fast re-route Non-stop RSVP-TE, LDP Minor version ISSU, Major version ISSU(plan) 5 High Availability MPLS JAPAN 2010
SR OS High Available OS Architecture コントロール / フォワーディングプレーンを Modular 化した S/W デザイン (S/W イメージは Full-binary-image で提供 S/W パッチの提供は無し ) Always-on のリライアビリティに対応 分散プロセッシングアーキテクチャ Service Manager サービス プロトコル間統一の割り込み制御 BGP IS-IS OSPF MPLS IP-VPN VPLS VPWS ESM Non Stop Routing Non Stop Service Hi-Availability Platform モジュール間の統一インタフェース 6 High Availability MPLS JAPAN 2010
Non Stop Routing Architecture CP(Standby) Protocol State Route Processing RIB Synchronize RIB/Protocol State,DB,etc Routing update CP(Active) Protocol State Route Processing RIB Routing update Customer Data I/O Data Plane LC FIB SW Fabric LC FIB LC FIB I/O I/O Customer Data 7 High Availability MPLS JAPAN 2010
Pros & Cons of Non Stop Routing Pros サービスへのへの影響影響を最小限最小限に 自己完結するためするため隣接隣接との Interoperabilityを問わない No Headless Forwarding, No black hole Switchover 後も隣接 Router からの再 Update 不要 Switchover 中もRouting Updateに対応可能 Cons そもそものインプリインプリが結構大変結構大変です 大変度合いは H/W, S/Wのアーキテクチャアーキテクチャに依存 8 High Availability MPLS JAPAN 2010
Non Stop Routing インプリ事例 :OSPF Protocol としての処理は全て Active 側で行われ Successful Operation のみが Standby に Sync される Standby 側は全て Active 側の処理結果に追従する (Active 側は Standby 側動作には決して依存しない ) Active/Standby 間に非常に高速で Reliable な Link が必須 非常に高速な Failover 検知が必須 Active CPM OSPF process LSDB & verify Advertisement /Hellos/Acks Switch Fabric Standby CPM OSPF LSDB lsdb to Linecard 9 High Availability MPLS JAPAN 2010
Non Stop Routing インプリ事例 :BGP Active CPM RIBIN RIBIN TCP RX BGP Decision process RIBOUT RIBOUT TCP TX BGP state change sync d RIBIN/RIBOUT は TCP パケットを Snoop して Build Standby CPM RIBIN RIBIN TCP RX BGP Decision process RIBOUT RIBOUT TCP TX TCP state + data sync d TCP CB TCP TCP CB TCP Fabric Standby RIB-IN/OUT は Active 側が Receive/Transmit する TCP BGP パケットを Snooping することで自身の RIB-IN/OUT を Build する 10 High Availability MPLS JAPAN 2010
ISSUの制限事項 現時点ではMinor Version 間のUpgradeのみに対応 (Major Version 間 ISSUには2011 年対応予定 ) Version Upのみに対応 Version Downには非対応 6 世代までのMinor Version 間のUpgradeに対応 6.0R3 6.0R9, then 6.0R9 6.0R15 6.0R3 6.0R15 directly Control Plane ModuleのVersion Up 後 120 分以内にLinecardのResetが必要 Linecard Resetは手動 Operationが可能 11 High Availability MPLS JAPAN 2010
Linecard の Reset (Soft Reset) IOM の control plane がまず最初に Upgrade される その間 Data Plane は維持され Traffic には影響は無い IOM control plane の Upgrade 完了後 Latest の Forwarding Information が CPM から Download される その後 IOM forwarding plane が IOM control plane によって Latest の Forwarding Information によって Reload/Reprogram される 断時間は 1 秒未満 Soft Reset - Download CPU Forwarding Forwarding Tables Tables IOM Upgrade Latest Fwd Info Control Plane Plane Populate new FWD Table Forwarding Tables Traffic 12 High Availability MPLS JAPAN 2010
Multi-Service-Edge 環境における NSS/NSR Testing@ISOCORE 1 筐体で複数複数サービスサービスを収容し Scalability 等実環境を想定したしたテスト : - 22k * IPv4/IPv6 L3 VPN - 19k * L2-VPLS - 88k * L2-VLL - 1M routes - 2M MAC - 4M traffic flows Control process module (CPM) failover high-availability (HA) recovery times of 1.6 ms observed on the 7750-SR while supporting non-stop service of large IP-VPNs, VPLS services, and IPSec tunnels http://www.alcatel-lucent.com/businessvpns/isocore/ 13 High Availability MPLS JAPAN 2010
ISSU: 実際にやってみた 1M Routes BGP Tester BGP 1M flow Traffic 10Gbps@64Byte Tester ISSU 実施 CPM (Act) :8.0R4 CPM (Stby) :8.0R4 LC : 8.0R4 Stby CPM を New Ver で reboot CPM (Act) :8.0R4 CPM (Stby) :8.0R5 LC : 8.0R4 CPM Switchover CPM(Stby) :8.0R5 CPM(Act) :8.0R5 LC : 8.0R4 LC Soft reset CPM(Stby) 8.0R5 CPM(Act) :8.0R5 LC : 8.0R5 14 High Availability MPLS JAPAN 2010
ISSU: 実際にやってみたにやってみた結果 1. Standby CPM reboot 2. CPM Switch Over 3. Linecard Soft Reset 全てのてのケースケースにおいて Zero Lossを保証保証するものではありませんするものではありません 15 High Availability MPLS JAPAN 2010
BGP Route Learning 中にNSR Switchover(ISSU) させたらどうなる?? (PPS) Sent Rate CPM Switchover with ISSU Received Rate Start sending Routes 16 High Availability MPLS JAPAN 2010
まとめ ISSUやNSRのImplementationは結構大変 そもそものH/W, S/W Architectureに大きく依存 NSR/NSSの拡張としてのISSU Full Scalingでもきちんと動作することが必須 Distributed ArchitectureでのS/W versionのsync 既に 実際に使えるレベル の機能になっており 多くのUserで実際に使用されている Version 間の差異をどう扱うかがハードル 特にDowngradeの場合は Higher Functionality vs Price 17 High Availability MPLS JAPAN 2010
www.alcatel-lucent.com www.alcatel-lucent.com 18 High Availability MPLS JAPAN 2010 18 Presentation Title Month 2007