PowerPoint プレゼンテーション

Similar documents
_JANOG44_LINE_tsuchiya

【公開】村越健哉_ヤフーのIP CLOSネットワーク

JANOG14-コンバージェンスを重視したMPLSの美味しい使い方

PowerPoint プレゼンテーション

All Rights Reserved. Copyright(c)1997 Internet Initiative Japan Inc. 1

2017 5G 時代の モバイルユーザープレーン 再検討 松嶋聡 ソフトバンク

PowerPoint Presentation

Microsoft PowerPoint irs14-rtbh.ppt

janog40-sr-mpls-miyasaka-00

初めてのBFD

ループ防止技術を使用して OSPFv3 を PE-CE プロトコルとして設定する

橡3-MPLS-VPN.PDF

網設計のためのBGP入門

MPLS Japan 2015 キャリアサービスへの EVPN 適 用の検討と課題 横 山博基 NTT コミュニケーションズ株式会社 ネットワークサービス部 Copyright NTT Communications Corporation. All right reserved.

外部ルート向け Cisco IOS と NXOS 間の OSPF ルーティング ループ/最適でないルーティングの設定例

PowerPoint プレゼンテーション

橡2-TrafficEngineering(revise).PDF

2011 NTT Information Sharing Platform Laboratories

SOFTWARE DRIVEN NETWORKS (SDN)

PowerPoint プレゼンテーション

アライドテレシス ディストリビューションスイッチ x610シリーズで実現するVRF-Lite + Tagging + EPSR for x610

MK_ computing-and-SRv6

Presentation Template Koji Komatsu

橡C14.PDF

total.dvi

前提情報

MR1000 コマンド設定事例集

第1回 ネットワークとは

宛先変更のトラブルシューティ ング

RENAT - NW検証自動化

PIM-SSMマルチキャストネットワーク

パブリック6to4リレールータに おけるトラフィックの概略

アライドテレシス・コアスイッチ AT-x900 シリーズ で実現するエンタープライズ・VRRPネットワーク

Microsoft PowerPoint - janog20-bgp-public-last.ppt

Agenda トランスポート網におけるMPLS-TPの役割 MPLS-TP の適用シナリオとインタワーキング まとめ Page 2 NEC Corporation 2010

IPIP(Si-RGX)

PowerPoint Presentation

PowerPoint プレゼンテーション

untitled

tcp/ip.key

IPv6 リンクローカル アドレスについて

コア・スイッチAT-SBx908シリーズとデータセンタースイッチAT-DC2552XSシリーズで実現する10Gデータセンターネットワーク

Microsoft PowerPoint - Amazon VPCとのVPN接続.pptx

Microsoft PowerPoint - ykashimu_dslite_JANOG26_rev

Office 365 とのドメイン間フェデレーション

アライドテレシス ディストリビューション・スイッチ AT-x600シリーズで実現するMicrosoft® NAP

IPIP(Si-RG)

Microsoft PowerPoint - NV研究会_201404_amemiya_fin.pptx

SRX License

Cisco HyperFlex セットアップ概要

Non Stop Routing の実装と課題 MPLS JAPAN 2004 ノーテルネットワークス株式会社近藤卓司

EPSRスーパーループプリベンション(SLP) ネットワーク

ネットワークのおべんきょしませんか? 究める BGP サンプル COMMUNITY アトリビュートここまで解説してきた WEIGHT LOCAL_PREFERENCE MED AS_PATH アトリビュートはベストパス決定で利用します ですが COMMUNITY アトリビュートはベストパスの決定とは

BGP/MPLS-VPN とは ルータによる 多様な IF による提供が可能 (ATM~ HSD などの非対称構成も可能 ) 暗号に頼らないセキュリティの確保が可能 (FR などと同等の機能を IP ネットワークで実現 ) お客様側への特別な装置が不要 (a)ipsec-vpn 方式 暗号化装置 (

Clos IP Fabrics with QFX5100 Switches

Teradici Corporation # Canada Way, Burnaby, BC V5G 4X8 Canada p f Teradici Corporation Teradi

Agenda IPv4 over IPv6 MAP MAP IPv4 over IPv6 MAP packet MAP Protocol MAP domain MAP domain ASAMAP ASAMAP 2

Dell EMC Networking OS10 - Configuration and Programmability

untitled

ECL2.0 ロードバランサーNetScaler VPX 10.5 VRRP設定

アライドテレシス・コアスイッチ AT-x900 シリーズとディストリビューションスイッチ AT-x600 シリーズで実現するACLトラフィックコントロール

ict2-.key

Congress Deep Dive

news55.dvi

Motivation 3 Motivation 4 (Availability) Keep High Availability Providing Reliable Service (New service, function) Provide new Services, with new func

アライドテレシス コア・スイッチ AT-x900 シリーズ とディストリビューションスイッチ AT-x600 シリーズ で実現するOSPFv3/OSPFv2 & RIP/RIPng デュアルスタック ・ ネットワーク

データセンター SDN ソリューション

本日のお話 運用 / 運用システムの現状 ネットワーク運用の自動化のススメ 1) ネットワーク管理の自動化 2) ネットワーク工事 ( 設定 ) の自動化 3) ネットワーク運用時 ( 障害時 ) の自動化 Copyright 2012 NTT Communications Corporation.

10年オンプレで運用したmixiをAWSに移行した10の理由

JANOG40_SR_Tutorial

Transcription:

のネットワークを ゼロから再設計した話 JANOG43 Meeting 2019/01/24 Masayuki Kobayashi LINE Corporation

インフラの規模感 2019 年 1 月 1 日イベントトラフィック 165M+ Active Users in JP, TW, TH and ID 30,000+ Physical Servers 1Tbps+ User Traffic

直面していた課題 アーキテクチャの非効率性 1. キャパシティの不足 East-Westトラフィックの増加によってボトルネックが発生水平スケールが困難な2N 構成 2. 運用負荷の増大 複数のプロトコルと冗長化技術要件に応じたサーバ配置の限界手作業の運用による負荷

直面していた課題 課題を根本から解決することを決意 1. アーキテクチャレベルでの見直し East-Westトラフィックをノンブロッキングでさばくことができる N+1で水平スケールが可能な構成 2. 運用負荷を下げる ネットワークのシンプル化オープンかつ最少のプロトコルで構成され ステートレスなネットワークネットワーク運用の自動化と効率化

新しいアーキテクチャの概要 基本設計に 3 階層の CLOS Network を採用 External Spine Leaf ToR Server

新しいアーキテクチャの概要 すべてホワイトボックススイッチで構築 External Spine 100G x 32port White Box Switch Leaf ToR Server 100G x 4 Uplink White Box Switch 10G x 2 Uplink Active-Standby

新しいアーキテクチャの概要 すべてのサーバが 10Gbps Non-blocking で通信できる設計 100G x 80 links 100G x 720 links 72,000Gbps Capacity 100G x 1,440 links 10G x 14,400 links 7,200 servers / POD 7,200 servers / POD

CLOS Network の構築方法 ZTP と Ansible で構築時間を大幅に短縮 1. 電源投入後 DHCPで管理 IPを割り当て 2. ZTPスクリプトをダウンロードして実行 I. 工場出荷時のNOSのバージョンをチェック II. バージョンが異なる場合はONIEで再起動 III. 利用するバージョンのNOSをインストール IV. 再起動して1に戻る 3. ZTPによるライセンスの投入と管理設定の実施 4. Ansibleの実行でサービス利用可能 dhcpd 3 NGINX ztp.sh/onie 1 2 White Box Switch Ansible 4 1,000 台以上の規模でも数時間で構築が完了

ToRとサーバの接続がL2であることの問題トラフィックの切り替えでパケットロスが発生 L2 接続 L3 接続 MC-LAG A B A B BGP BONDING VS BGP サーバ管理者への依頼が必要 ToR 側で切り替えが可能

ToRとサーバの接続がL2であることの問題解決策 : ToRをL2とL3の境界にしない L2 接続 L3 接続 MC-LAG A B A B BGP BONDING VS BGP ToR のメンテナンス性が大幅に向上

BGP Routing on the Host /32 の直接ルーティングのみでエンドツーエンドの接続性を担保 ToR switch ebgp(l3) watch 10.1.1.1/32 for VM1 10.1.1.2/32 for VM2 10.1.1.3/32 for VM3 Hypervisor VM1 VM2 VM3 VM Static(L3) Compute Node Excitingly simple multi-path OpenStack networking: LAG-less, L2-less, yet fully redundant [Blog] https://engineering.linecorp.com/ja/blog/openstack-summit-vancouver-2018-recap-2-2/ 1. Compute Node で BGP Routing Software を起動 2. Hypervisor 上の Routing Table を監視 3. VM の /32 経路の変更を ToR に BGP で広報 VXLAN などの L2 延伸が不要

CLOS Network + Routing on the Host 構成達成したこと 新規構築と機器交換にかかる時間が大幅に短縮されたネットワークのボトルネックを意識しなくてよくなったラック毎にVLANを管理する必要がなくなったベンダ依存のプロトコルや冗長化技術がなくなった L2のオーバーレイネットワークを作らないことで設計の複雑化を回避したトラフィックの迂回が簡単になり メンテナンスがしやすくなった機器の台数分の設定を手動で作る必要がなくなった

フル L3 のシングルテナントネットワークネットワークに必要な機能を一つの面で提供 Data Center DCI Internet ECMP ECMP ECMP + Anycast Live Migration Don t need encapsulate No Overlay Network

BGP in DCをスケールさせるための仕組み個別のパラメータ管理を最小限に Separate 4-byte ASN per Node Lo: 10.128.100.45/32 ASN: 4208414253 10.x.y.z x*(2^16) + y*(2^8) + z + 4200000000 DCで必要なAS 番号の数は1 万以上 Loopback IPから一意なPrivate ASNを自動算出 BGP Unnumbered router bgp 4208414253 ASNを自動算出 bgp router-id 10.128.100.45 neighbor swp1 remote-as external neighbor swp2 remote-as external I/FでBGP 有効化... neighbor swp32 remote-as external RFC5549 Extended Next Hop Encoding capability IPv6 LLA の ebgp session 上で IPv4 経路を交換 P2P Link の明示的なアドレス設定が不要 サーバまで ebgp 接続する LINE のネットワークでは これらが必要不可欠

サーバから見た経路情報 out 方向のトラフィックを片方の ToR に寄せる # vtysh -c "show ip bgp" (snip) Network Next Hop Metric Path *> 0.0.0.0 eth0.100 4208258575 4208258904 4208258884 65001 38631 i * eth1.100 100 4208258576 4208258908 4208258884 65001 38631 i bgp always-compare-med ToR Leaf Spine External Router # vtysh -c "show ip route bgp" RFC5549 Next-Hop Best Path Selection (snip) B>* 0.0.0.0/0 [20/0] via fe80::ee0d:9aff:fe57:63b4, eth0.100, 09w2d21h Linux Kernel Routing Table # ip r default via 169.254.0.1 dev eth0.100 proto zebra metric 20 onlink

経路数 実際どれくらい? External External の機器のキャパシティ 設計上 最も多くの経路を学習する他の機器とは異なる設定が多くなりがち各種リソースの消費量に注意が必要 Link-Local Next-Hop を使うメリット P2P Linkのアドレスを広報する必要がない FIBのリソースを無駄に消費しない外部から見えない

実際に起きた障害 経路集約の負荷による BGP Peer Down 経路集約の設定を止めて解決経路を生成する方式に変更 /16 2. CPU 負荷が急上昇して通信断 1. 数百台のサーバを同時に再起動大量の BGP Update が走る aggregate-address の設定が原因 FRR 4.0 以降では発生しない

運用面での工夫 フル L3 化したことによって考慮が必要なこと サーバのセットアップ ToR swp1 Native vlan.100(tagged) 経路フィルタ ToR Provisioning IPv4 fe80:: Provisioned RFC5549 203.0.113.10/32 203.0.113.10/32 IPv4 Server eth0.100(tagged) Server LB LB PXE Boot 時は RFC5549 が利用不可 完了後にサーバ側の Provisioning 用 IP を削除 サーバの経路ハイジャックを防止 ToR でサーバの広報経路を適切にフィルタ

ホワイトボックススイッチの採用理由必要な BGP Capability を満たす NOS + 運用の効率化 BGP Unnumbered ピアの自動発見とRFC5549 上での通信 I/Fを繋ぐだけで同時に実現できる実装 Hostname Capability for BGP Open MessageにFQDNをエンコードサーバの接続情報の取得に利用 サーバとスイッチで共通の実装を利用

LINE の新 DC アーキテクチャまとめ Use BGP Everywhere High Capacity Fully L3 Redundant Protocol Reduction Horizontally Scalable

データセンタ間ネットワーク 拠点間を L3 で相互接続する構成 DCI DC Site 1 DC Site 2 DC Site 3 1 年で新規 DC を 2 拠点開設 サーバ間通信のための L2 延伸はしない

データセンタ間ネットワーク MPLS-L3VPN + Segment Routing DC Site 2 DC Site 1 DCI 16103 16101 SR-MPLS EBGP EBGP MP-iBGP 16102 16104 AS65000 AS65010 AS65010 SR Label Payload SR Label SR Label VPN Label VPN Label VPN Label Payload Payload Payload Payload

データセンタ間ネットワーク SR-MPLS の採用理由 IGP で動作するのでシンプル MP-iBGP VPN 経路の交換 OSPF SIDの広報 C-PlaneのProtocol RSVP/LDPフリーのネットワークパケットにステート情報を持たせることが可能 複雑な運用はしない 帯域確保はしないので単純な機能で足りる TI-LFAの利用を想定して導入 最適な導入タイミング 検証 構築と 実用段階の時期が一致 (2017 年 ) ラベルスタック数や SID 管理に注意すれば実運用は問題ないと判断

今後の展望と技術的挑戦の一例 以降の内容は研究 開発中のものであり 商用環境へ導入が確定したものではありません

次世代データセンタでの実現目標 ビジネスニーズに対して迅速に対応できるインフラ これまでとは異なる要件のネットワークが増加 現在は都度インフラを構築してサービスを提供 アンダーレイネットワークの断片化 Fintech Business 構築にかかる時間の増加 インフラエンジニアの負担増加 一つのインフラの上で様々な要件を達成できるようにしたい

次世代データセンタでの実現手法 Multi-Tenancy & Service Programmability WIP Tenant C Tenant B Tenant A 柔軟にスケールするオーバーレイ テナントで分離 独立したセキュリティ 将来的なサービスチェイニング SRv6 Underlay 一つに統合されたアンダーレイ 有効な実現手法の一つとして SRv6 に注目

次世代データセンタでの実現手法 SRv6 in DC への期待 WIP 既存プロトコルの多重化 SRv6 Functions VPN User Segregation NFV Service Chaining UDP + VXLAN MP-BGP Underlay SRv6 Segment-ID Locator Function(ARG) IPv6 Underlay DC NW への要求を 128bit SID の Function で表現する

SRv6-L3VPN in DC (Concept Design) WIP Router NFV テナント (VRF) を跨ぐ通信で FW などを経由させることを想定 Leaf SRv6 Node Spine SRv6 Node Spine Leaf Leaf Leaf SRv6 Domain SRv6 Network Node パケットにSRH+IPv6Hのencap/decapを実行するサーバ宛先 (Active Segment) に応じたパケットの転送 CLOS Network Transit Node 現時点で DC のネットワーク機器は SRv6 未対応 SRH を処理せずに IPv6 パケットを ECMP で転送 Hypervisor SRv6 Node Hypervisor SRv6 Node Hypervisor SRv6 Node Hypervisor SRv6 Node Tenant A Tenant B Tenant A Tenant C SRv6 on the Host(Hypervisor) テナント毎に VRF を割り当てパケットに SRH+IPv6H の encap/decap を実行

SRv6-L3VPN in DC (Concept Design) WIP VRF-A A3::1 NFV VRF-B B3::1 10.200.100.2/24 VM C1::3 SV 10.200.100.4/24 VM HV ECMP HV VM C1::1 CLOS NW C1::2 VM 10.200.101.2/24 SRv6 Domain 10.200.101.4/24 HV = Hypervisor(SRv6 enable) SV = Server(SRv6 enable)

SRv6-L3VPN in DC (Concept Design) WIP VRF-A A3::1 NFV VRF-B B3::1 10.200.100.2/24 VM C1::3 SV 10.200.100.4/24 VM HV ECMP HV VM C1::1 CLOS NW C1::2 VM 10.200.101.2/24 SRv6 Domain 10.200.101.4/24 T.Encap End End.DX4 IPv6 (C1::1, C1::2) IPv6 (C1::1, A2::1) IPv4 (10.200.100.2, 10.200.100.4) IPv4 (10.200.100.2, 10.200.100.4) IPv4 (10.200.100.2, 10.200.100.4) IPv4 (10.200.100.2, 10.200.100.4) Payload Payload Payload Payload

SRv6-L3VPN in DC (Concept Design) WIP VRF-A A3::1 NFV VRF-B B3::1 10.200.100.2/24 VM C1::3 SV 10.200.100.4/24 VM HV ECMP HV VM C1::1 CLOS NW C1::2 VM 10.200.101.2/24 SRv6 Domain 10.200.101.4/24 T.Encap End End.DX4 T.Encap End End.DX4 IPv6 (C1::1, C1::3) IPv6 (C1::1, A3::1) IPv6 (C1::3, C1::2) IPv6 (C1::3, B2::1) IPv4 (SA, DA) IPv4 (SA, DA) IPv4 (SA, DA) IPv4 (SA, DA) IPv4 (SA, DA) IPv4 (SA, DA) IPv4 (SA, DA) Payload Payload Payload Payload Payload Payload Payload

SRv6 の取り組みについてもっと詳しく 検証内容や現状の課題について話します http://enog.jp/archives/2014

最後に まだまだ改善が必要な事項 解決が必要な課題はたくさんある Legacy Networkとのインテグレーション新たなアーキテクチャのネットワークへ組み込めないサーバ群新たな監視方法の導入 機器の正常性チェックテストの自動化 設定の妥当性の検証 リファレンスデザインがまだ存在しない分野への取り組みも実施中 より運用負荷の低いスケールするネットワークへ