【公開】村越健哉_ヤフーのIP CLOSネットワーク

Similar documents
PowerPoint プレゼンテーション

Microsoft PowerPoint irs14-rtbh.ppt

宛先変更のトラブルシューティ ング

ネットワークのおべんきょしませんか? 究める BGP サンプル COMMUNITY アトリビュートここまで解説してきた WEIGHT LOCAL_PREFERENCE MED AS_PATH アトリビュートはベストパス決定で利用します ですが COMMUNITY アトリビュートはベストパスの決定とは

All Rights Reserved. Copyright(c)1997 Internet Initiative Japan Inc. 1

RPKI in DNS DAY

BGPルートがアドバタイズされない場合のトラブルシューティング

PowerPoint プレゼンテーション

¥¤¥ó¥¿¡¼¥Í¥Ã¥È·×¬¤È¥Ç¡¼¥¿²òÀÏ Âè5²ó

PowerPoint プレゼンテーション

橡C14.PDF

JUNOSインターネットソフトウェアとIOSのコンフィグレーション変換

untitled

JANOG14-コンバージェンスを重視したMPLSの美味しい使い方

BGP ( ) BGP4 community community community community July 3, 1998 JANOG2: What is BGP Community? 2

untitled

Inter-IX IX/-IX 10/21/2003 JAPAN2003 2

total.dvi

RENAT - NW検証自動化

コア・スイッチAT-SBx908シリーズとデータセンタースイッチAT-DC2552XSシリーズで実現する10Gデータセンターネットワーク

アライドテレシス・コアスイッチ AT-x900 シリーズ で実現するエンタープライズ・VRRPネットワーク

初めてのBFD

_JANOG44_LINE_tsuchiya

学生実験

橡3-MPLS-VPN.PDF

橡2-TrafficEngineering(revise).PDF

第11回ネットワークプランニング18(CS・荒井)

Exam : 日本語版 Title : Introducing Cisco Data Center Networking Vendor : Cisco Version : DEMO 1 / 4 Get Latest & Valid J Exam's Question a

PowerPoint プレゼンテーション

untitled

PIM-SSMマルチキャストネットワーク

ループ防止技術を使用して OSPFv3 を PE-CE プロトコルとして設定する


2011 NTT Information Sharing Platform Laboratories

網設計のためのBGP入門

<4D F736F F F696E74202D C F815B834E95D2836E E9197BF2E707074>

外部ルート向け Cisco IOS と NXOS 間の OSPF ルーティング ループ/最適でないルーティングの設定例

TCP/IP Internet Week 2002 [2002/12/17] Japan Registry Service Co., Ltd. No.3 Internet Week 2002 [2002/12/17] Japan Registry Service Co., Ltd. No.4 2

Microsoft PowerPoint - janog20-bgp-public-last.ppt

Microsoft PowerPoint - ie ppt

仕様と運用

Clos IP Fabrics with QFX5100 Switches

2ACL DC NTMobile ID ACL(Access Control List) DC Direction Request DC ID Access Check Request DC ACL Access Check Access Check Access Check Response DC

routing_tutorial key

2014/07/18 1

IPv6 リンクローカル アドレスについて

内容 お知らせとご利用方法 ( ポイント ) RPKIとOrigin Validation JPNICのRPKIシステム ~ 試験提供とは~ RPKIシステムの使い方 ROAキャッシュサーバの設置方法 RPKIの技術課題 1

Non Stop Routing の実装と課題 MPLS JAPAN 2004 ノーテルネットワークス株式会社近藤卓司

第1回 ネットワークとは

CCIE IP Anycast RP Anycast RP Anycast RP Anycast RP PIM-SM RP RP PIM-SM RP RP RP PIM Register RP PIM-SM RP PIM-SM RP RP RP RP Auto RP/BSR RP RP RP RP

ユニキャスト RIB および FIB の管理

経路奉行の取り組み

ip nat outside source list コマンドを使用した設定例

アライドテレシスコア スイッチ AT-SBx908 シリーズで実現する AMF-SBx908 ソリューション Solution No 主な目的 ネットワークの一元管理 共有化をしたい 既存ネットワークを再構築せずに 簡単に導入したい ネットワーク管理 運用にかかるコストを削減

アライドテレシス・コアスイッチ AT-x900 シリーズとディストリビューションスイッチ AT-x600 シリーズで実現するACLトラフィックコントロール

PowerPoint プレゼンテーション

untitled

技術的条件集別表 35 IP トランスポート仕様

tutorial.dvi

IP.dvi

2004 IPv6 BGP G01P005-5

janog37.5_yahoo-takasawa.pptx

ykashimu_mpls_japan_Nov1

ICND2-Road to ICND2- 前提知識 ICND 2では CCEN Tレベルの知識がある方 (ICND 1 試験の合格レベル ) を対象とし それ同等 の知識が必要になってきます 研修に参加されるまでに以下の項目を復習しておくことを お勧めします IP アドレスとサブネットマスク ホスト

パブリック6to4リレールータに おけるトラフィックの概略

2.5 トランスポート層 147

Polling Question 1

スライド 1

MPLS-VPN とは C 社を中心として RFC2547(Informational) に記された ISP サービスとしての IP-VPN 実現技術 網内パケット転送に MPLS(LDP/TDP) VPN 経路情報交換に BGP(mpBGP:RFC2283) を使用 ルーティングプロトコルがエッジ

当ガイドをご利用になる前に 当内容は お客様 販売店様 その他関係者が System x, Flex Systemなどを活用することを目的として作成しました 詳細につきましては URL( の利用条件をご参照ください 当技術資料に含

技術情報:Si-R/Si-R brinシリーズ設定例 「Oracle Cloud Infrastructure Classic」との接続

第1回 ネットワークとは

LSM-L3-24設定ガイド(初版)

実習 : シングルエリアでの OSPFv3 の基本設定 トポロジ 2014 Cisco and/or its affiliates. All rights reserved. This document is Cisco Public. 1 / 11 ページ

スライド 1

janog40-sr-mpls-miyasaka-00

25.pdf

アライドテレシス ディストリビューションスイッチ x610シリーズで実現するVRF-Lite + Tagging + EPSR for x610

はじめに xsp のルータにおいて設定を推奨するフィルタの項目について の IPv6 版 最低限 設定することが推奨されるフィルタ について まず議論したい 接続形態に変化はないので IPv6 対応をメインに IETF draft RIR でproposal 進行中のものについては今回の検討外とした

Congress Deep Dive

Motivation 3 Motivation 4 (Availability) Keep High Availability Providing Reliable Service (New service, function) Provide new Services, with new func

NetworkKogakuin12

U コマンド

ECL2.0 ロードバランサーNetScaler VPX 10.5 VRRP設定

今日のトピック 実験結果の共有 RPKI/Router 周りの基本的な動き 今後の課題と展望 2012/7/6 copyright (c) tomop 2

Nexus 1000V による UCS の MAC アドレスのトレース

BGP/MPLS-VPN とは ルータによる 多様な IF による提供が可能 (ATM~ HSD などの非対称構成も可能 ) 暗号に頼らないセキュリティの確保が可能 (FR などと同等の機能を IP ネットワークで実現 ) お客様側への特別な装置が不要 (a)ipsec-vpn 方式 暗号化装置 (

P コマンド

アライドテレシス コア・スイッチ SwitchBlade x908 / x900シリーズとディストリビューションスイッチ x600シリーズで実現するIPv4/v6 デュアルスタック・リングネットワーク

VyOSではじめるBGPルータ

Microsoft PowerPoint - janog37.5

(I) RPKI の動向 ~ 実装状況と IP アドレス利用や移 転に関する RIPE での議論 ~ 社団法人日本ネットワークインフォメーションセンター木村泰司 社団法人日本ネットワークインフォメーションセンター

15群(○○○)-8編

Openconfigを用いたネットワーク機器操作

PowerPoint Presentation

MR1000 コマンド設定事例集

MIRACLE LoadBalancerを使用したネットワーク構成と注意点

untitled

情報通信ネットワーク特論 TCP/IP (3)

Transcription:

P ヤフーの IP CLOS ネットワーク サイトオペレーション本部 インフラ技術 3 部 村越健哉

紹介 P n 名前 u 村越健哉 ( むらこしけんや ) n 所属 u サイトオペレーション本部インフラ技術 3 部 n 仕事 u ヤフーのプロダクションネットワーク全般

アジェンダ P n Hadoopネットワーク変遷 n IP CLOS ネットワーク構成詳細 u 設計 u 構築 u 運 n Hadoopテスト結果 n 課題と今後の展望

Hadoop ネットワーク変遷 P

Hadoop ネットワーク変遷 P n Stack/Virtual Chassis 構成 u 当初のHadoop ネットワークは3 10ラック程度 u アップリンクは10Gbps Active-Standby 構成 u ToRのStack/VCで対応 n 問題点 u スケールに限界 10G l Stack/VC では 10 ラック程度 400 ノードくらいまで u 安定性に問題があった

Hadoop ネットワーク変遷 P n L2 Fabric 構成 u 全体を L2 Fabric 構成にすると 30 50 ラック程度に制限される u 2 台の L2 Fabric 構成と Channel 構成によって数の制約を向上 u ToR のアップリンクは 20G または 80G へ L2 Fabric 80G 80G 20G 20G 90 台以上 100 台以上

Hadoop ネットワーク変遷 P n L2 Fabric 構成 u BUM Traffic でコアスイッチの CPU が 騰 l Hadoop 側でチューニングしてもらう u スケールに限界 l シャーシのモジュール数に依存

Hadoop ネットワーク変遷 P n 要件 2015 年春頃 u 120 200ラック u 1ラックあたりのアップリンク 100 200G l サーバの NIC は 10G 1 ラック 20 台弱 u 場所は US DC

P IP CLOS ネットワーク構成 概要

IP CLOS ネットワークとは P n Google, Facebook, Amazon, Yahoo uott(over The Top) が採 している DC ネットワーク構成 引 Introducing data center fabric, the next-generation Facebook data center network https://code.facebook.com/posts/360346274145943/introducingdata-center-fabric-the-next-generation-facebook-data-centernetwork/

IP CLOS ネットワークとは P n East-West Traffic 増 に対応 n スケーラビリティの向上 u ボックススイッチのみであればいくらでもスケール可能 n 可 性の向上 u Spine やアップリンクなど落ちても問題ない構成に n 運 コストの低減 u OSPF,BGP など 般的な構成なので どんな会社のものでも OK

CLOS 構成概要 P n 概要 u Spine: 某 A 社シャーシ Leaf: 某 A 社と White Box 半々 Internet Spine Router Core Layer3 Layer2 OCP サーバ STD サーバ

CLOS 構成概要 P n 概要 u Spine-Leaf 間は BGP u Leaf の Uplink は 40Gx4=160G Internet Spine Router ECMP Core BGP Layer3 Layer2 160G OCP サーバ STD サーバ

P IP CLOS ネットワーク構成 設計

CLOS 設計 P n ケーブル u MPO ケーブルの取り回しが悪いので SMF 利 n アドレス u Spine-Leaf 間は /31 u Leaf 配下は /26, /27 Internet Spine Router /31 40G LR Core Layer3 Layer2 /26 /27

CLOS 設計 P n ボックスのみかシャーシを取り れるか u ボックススイッチのみでいく場合 l 40Gx32portスイッチ 40Gx4port+10Gx48portスイッチ l 200ラック程度の構成にするには3 層で形成する必要がある l 3 層にすれば スケールは充分 l スイッチの数が増 する l 配線,BGP neighbor IP 数など管理が 変

CLOS 設計 P n ボックススイッチ構成 Spine 12 台 Leaf 16 台 ToR 12 台 u Spine 12 台 Leaf 16 台の場合 l ToR 12(Spine に依存 )x 16 セット = 192 台 ( ラック )

CLOS 設計 P n シャーシ構成を取り れる場合 u 前ページのSpine-Leafをシャーシにするイメージ u シャーシSlot8 40Gx32portだと8モジュールx32=256 Leaf u シャーシだとスケールに限界がでる u 配線が少なくて済むので 管理は簡単になる

IP CLOS 設計 P n シャーシスイッチ構成 u Slot 8 モジュールの場合 l 8 x 32port = 256 台 ( ラック )

CLOS 設計 P n 3 層構造と検討結果 2 層を選択 u 管理するものが多い l IF IP アドレス BGP neighbor ケーブル u ホップ数の違い l ToR-Leaf-ToR, ToR-Leaf-Spine-Leaf-ToR u コストの変化 l 以前に較べてシャーシ型のポート単価が下がった

CLOS 設計 P n BGP か OSPF か u 検証でBGPに決定 u 制御しやすさ u 将来的にanycast 構成を検討した場合 l ホスト VM 側でQuaggaなどによりrouting protocolを動作 l OSPFでは helloのマルチキャストが定期的にすべてのvmへ u 安定性

P IP CLOS ネットワーク構成 構築

CLOS 構築 P n 実際の構成 当日公開

CLOS 構築 n 実際の構成 当日公開 P 24

CLOS 構築 P n 納品 設定 u Spine は先 構築 u Leaf はラック納品のため 順次構築 Internet u 設定は ZTP Spine Router Core Leaf OCP サーバ STD サーバ

CLOS 構築 P n 苦労した点 u 場所がUSなので2-3 週間出張 x2で構築 u ラック納品なので に構築 設定できない u ラック納品の遅延 u ケーブル接続とリンクアップ確認 l ケーブル接続は現地の業者に依頼

P IP CLOS ネットワーク構成 運

CLOS 運 P n Leaf から た経路

CLOS 運 P n Leaf から た BGP neighbor

CLOS 運 P n Spine から た BGP neighbor

CLOS 運 P n Leaf Traffic

Spine CLOS 運 P 例 ) n Spine のバージョンアップ u AS-Path prepend で孤 させる xxx.net.cc1# show ip route show ip route Codes: K - kernel route, C - connected, S - static, R - RIP, O - OSPF, I - IS-IS, B - BGP, A - Babel, T - Table, > - selected route, * - FIB route B>* 0.0.0.0/0 [20/0] via xxx.80.130.26, swp50, 00:01:37 * via xxx.80.130.28, swp51, 00:01:37 * via xxx.80.130.30, swp52, 00:01:37 B>* xxx.80.128.8/32 [20/0] via xxx.80.130.26, swp50, 00:01:37 * via xxx.80.130.28, swp51, 00:01:37 * via xxx.80.130.30, swp52, 00:01:37 B>* xxx.80.128.9/32 [20/0] via xxx.80.130.26, swp50, 00:01:37 * via xxx.80.130.28, swp51, 00:01:37 * via xxx.80.130.30, swp52, 00:01:37 as-path prepend 65530 Leaf xxx.net.cc1# show ip bgp BGP table version is 311, local router ID is 100.80.128.43 Status codes: s suppressed, d damped, h history, * valid, > best, = multipath, i internal, r RIB-failure, S Stale, R Removed Origin codes: i - IGP, e - EGP,? - incomplete Network Next Hop Metric LocPrf Weight Path * 0.0.0.0 xxx.80.130.24 0 65000 65530 65001 64550 i *= xxx.80.130.30 0 65000 65001 64550 i *= xxx.80.130.28 0 65000 65001 64550 i *> xxx.80.130.26 0 65000 65001 64550 i * xxx.80.128.8/32 xxx.80.130.24 0 65000 65530 65001 i *= xxx.80.130.30 0 65000 65001 i *= xxx.80.130.28 0 65000 65001 i *> xxx.80.130.26 0 65000 65001 i * xxx.80.128.9/32 xxx.80.130.24 0 65000 65530 65001 i *= xxx.80.130.28 0 65000 65001 i *= xxx.80.130.30 0 65000 65001 i *> xxx.80.130.26 0 65000 65001 i

CLOS 運 P n Spine のバージョンアップ u maintenance mode(a 社スイッチ ) l GSHUT community

CLOS 運 P n Spine のバージョンアップ u maintenance mode(a 社スイッチ ) l GSHUT community

P Hadoop テスト

Hadoop テスト P n 5TB Terasort

Hadoop テスト P n 40TB Distcp

P 課題と展望

MPTCP の利 P n Multi-Path TCP u セッションごとに偏りが出てしまう l MP-TCP kernel module で解消へ l Hadoop のテストで失敗中 MPTCP sub-flow flow MPTCP

これからの課題と展望 P n ACL 問題 u 社内間の通信はセグメントごとに SVI で ACL 管理 u コアスイッチで膨 な ACL 設定が必要 u Spine-Leaf の Leaf 側へ設定をもっていくか あるいはホスト単位か n 今後の展望 u Hadoopネットワークのみではなく その他のProductionへ展開 u SpineやLeafのアップリンクが落ちても深夜対応しない構成へ!

最後に P n IP CLOS ネットワークを採 u Spine-Leaf はどんなスイッチも採 可能な構成へ

P 42

P Thank you for your kind attention!