スライド 1 - PDF 無料ダウンロード

Introduction to Intel DPDK Oct 24 th, 2014 IGEL Co.,Ltd. Tetsuya Mukawa 武川哲也

はじめに Q: Intel DPDK( 以下 DPDK) って? A: 高スループット / 低レイテンシのネットワークを実現する仕組みです Q: DPDK の目的は? A: 高価な NW 機器と同等の機能性能を Linux/BSD 上のソフトウェアで実現することです Q: DPDK はサーバ用途の技術では? A: 今のところその通りです Q: なぜ CELF で? A: 高速化手法が面白いので紹介します Q: あなたは誰? A: 組込みエンジニアですたまに CELF に参加しています 2

DPDK の衝撃 1 ~ 高速転送 ~ 公称 Over 160Mpps(fps) 64byte( ショート ) パケットで約 80Gbps 1024byte パケットで約 1300Gbps 通信事業にとってはショートパケットのパフォーマンスが重要らしい ( 聞いた話 ) 現在手に入る NIC の最速は 40Gbps(?) というわけで 160Mpps は信じられないくらい速い信じられないので調べてみました ( 後述 ) 4

DPDK の衝撃 2 ~ 安価 ~ BSDライセンス Linux/BSD 上で動作 x86だけでなく ARMやPower 上でも動作 ATOM も専用機器に比べて非常に安価なサーバ上で専用機器と同等の性能機能を持つネットワーク機器を作成することが可能にネットワーク業界に大きなインパクト 5

DPDK の生まれた背景 ~ 想像です ~ 通信事業者最近では Linaro IBM ARM ポーティングは Linaro 主導 https://wiki.linaro.org/lng/engineering/dpdk NW 専用機器は高すぎる Intel 自社の CPU や NIC を売りたいソフトウェア会社寡占だった NW 専用機器にビジネスチャンス DPDK 初期では 6WIND Wind River Power ポーティングは IBM 主導 7

DPDK の歴史年月バーション拡張された機能 2012 年 11 月 DPDK-1.2.3 2013 年 6 月 DPDK-1.3.1 2013 年 8 月 DPDK-1.4.1 2013 年 9 月 DPDK-1.5.0 2013 年 10 月 DPDK-1.5.1 2014 年 1 月 DPDK-1.6.0 2014 年 6 月 DPDK-1.7.0 2014 年 11 月? DPDK-1.8.0 VM との通信拡張数種の仮想デバイスサポート機能の詳細については後述アプリ制作に便利なライブラリの追加比較的新しいソフトウェア最近になってアプリ用のライブラリが充実してきている 8

コミュニティ DPDK-1.4? DPDK-1.6 Intel の対応 6WIND の対応利用者の反応 Intel の対応 Intel の公式サイトにてソースコードのみ公開 git は非公開 dpdk.org を立ち上げ独自に ML と git を提供 Intel のソースから作成した git tree dpdk.org に patch を投稿 Intel の DPDK-1.5 より dpdk.org の DPDK-1.5 の方が高機能に dpdk.org を公式な git と認定 Intel 自身も dpdk.org に投稿メンテナは Intel ではなく 6WIND コミュニティでは Intel と共に 6WIND にも存在感 9

概要 ~ 既存フレームワークによる転送の限界 ~ 例えば Linux では 1Mpps 以下 1500byte 程度のパケットでも実測 10Gbps を下回るらしい既存デバドラによる転送はなぜ遅いか? 割り込みによるオーバーヘッドコンテキストスイッチのオーバーヘッド TLBミス (CPU Coreの ) キャッシュミス 11

概要 ~DPDK のアーキテクチャ ( 超基本 )~ uio/vfio を使ったユーザースペースデバイスドライバとライブラリ ( 主に )Intel の NIC 対象ユーザ空間から独自のリソース管理コアメモリ独自のメモリ管理の仕組みを構築サーバ対象のソフトウェアなのに uio/vfio と組込みみたい 12

概要 ~ ブロック図 ~ DPDK Application DPDK EAL ポーリングで動作するアプリケーションポーリング動作するデバイスドライバ (PMD) コアを占有コンテキストスイッチさせない = ポーリング etc... ポート管理 user level device driver コア管理バッファ管理キュー管理メモリ管理キャッシュラインまで意識したバッファの管理ロックレスなキュー独自のメモリ管理機構を構築 uio / vfio CPU affinity OS hugetlbfs 物理メモリを直接ユーザランドに mmap させる NIC CPU memory カーネル空間 13 ユーザ空間

概要 ~ 実際の操作例 1~ 準備 (DPDK はコンパイルしていること前提 ) hugepage を mount Boot オプションを以下のように変更 GRUB_CMDLINE_LINUX_DEFAULT="quiet splash default_hugepagesz=1g hugepagesz=1g hugepages=10 norandmaps=0 fstab に以下のように設定 nodev /mnt/huge hugetlbfs pagesize=1gb 0 0 おまじないを唱える $ sudo modprobe uio $ sudo insmod./build/kmod/igb_uio.ko./dpdk にて DPDK をコンパイルしたと想定 14

概要 ~ 実際の操作例 2~ サンプルアプリケーション (testpmd) の実行まで DPDK の uio ドライバ配下に NIC を配置まずは現状確認 Network devices using DPDK-compatible driver ============================================ <none> 現在は e1000e ドライバ配下 Network devices using kernel driver =================================== 0000:02:00.0 '82572EI Gigabit Ethernet Controller (Copper)' if=p4p1 drv=e1000e unused= 0000:06:00.0 'RTL8111/8168/8411 PCI Express Gigabit Ethernet Controller' if=eth0 drv=r8169 unused= *Active* Other network devices ===================== <none> 15

概要 ~ 実際の操作例 3~ サンプルアプリケーション (testpmd) の実行まで DPDK の uio ドライバ配下に NIC を配置 DPDK の uio ドライバ (igb_uio) に bind $ sudo./dpdk/tools/dpdk_nic_bind.py -b igb_uio 0000:02:00.0 16

概要 ~ 実際の操作例 4~ サンプルアプリケーション (testpmd) の実行まで現在は DPDK 配下 DPDK の uio ドライバ配下に NIC を配置 igb_uio に bind されているか確認 Network devices using DPDK-compatible driver ============================================ 0000:02:00.0 '82572EI Gigabit Ethernet Controller (Copper)' if=p4p1 drv=e1000e unused= Network devices using kernel driver =================================== 0000:06:00.0 'RTL8111/8168/8411 PCI Express Gigabit Ethernet Controller' if=eth0 drv=r8169 unused= *Active* Other network devices ===================== <none> 17

概要 ~ 実際の操作例 5~ サンプルアプリケーション (testpmd) の実行まで testpmd を実行 $ sudo./dpdk/build/app/testpmd c f n 1 vdev eth_pcap0,iface=eth1 -- -i ( 略 ) testpmd> オプションの意味 -c このアプリケーションを動作させるコアマスク指定 f は Core0~Core3 にて DPDK のスレッドが実行されることを示す -n CPU ソケットごとのメモリチャンネルの数 vdev 仮想デバイスの追加指定この場合 ibpcap で eth1 にアクセスする仮想デバイスをアタッチしている -- これ以前は DPDK 共通のオプションこれ以後はアプリケーション固有のオプション -i インタラクティブモードで起動あとは start コマンドにて 0000:02:00.0 と eth1 間の双方向データ転送開始 testpmd 02.0 eth1 18

概要 ~ まとめ 1~ uio/vfioを使ったユーザースペースデバイスドライバとライブラリ ( 主に )Intel の NIC 対象ユーザ空間から独自のリソース管理コアメモリ独自のメモリ管理の仕組みを構築どうやって? 本当に速いの? 19

概要 ~ まとめ 2~ uio / vfio を使っても速い理由コアを占有してポーリング動作どうやって独自のリソース管理をするかコアを占有するために既存の Affinity 用の API を利用コアを占有なので管理といって良いかは微妙だが hugetlbfs を利用して物理メモリを直接マッピング hugepage(1m や 1G) なので TLB ミスも大幅減獲得したメモリ上に独自のメモリ管理機構を構築詳細は後述 20

概要 ~ まとめ 3~ 速さの秘密はポーリングキャッシュに載りやすいコンテキストスイッチなしポーリング動作割り込み駆動の必要なし効率よくポーリングさせる仕組みを DPDK は提供ロックしないキャッシュミスを減らす実はアプリ実装時にも意識する必要要がある 21

詳細 ~ アプリの作り方 ~ Run to completion モデル RX Port パケット処理用ポーリングスレッド (recv send を繰り返す ) TX Port 1 スレッドが受信から送信まで行うモデル単純な処理ならこれで十分レイテンシも抑えられるなお各ポートにアクセスできるのは 1 スレッドまで複数スレッドを使った並列化は不可能この制約は PMD の仕様による 23

詳細 ~ アプリの作り方 ~ Pipeline モデル RX Port 受信専用スレッドロックレスなキュー転送専用転送専用転送専用スレッドスレッド転送専用スレッド転送専用スレッド転送専用スレッドスレッドロックレスなキュー送信専用スレッド TX Port 幾つかのスレッドをつなげてパケット転送を行うモデル転送専用スレッドで複雑なパケット操作を行う当然各スレッドごとにコアを1つ占有する ( -`) 複雑な処理を複数コアに分けて並列度をあげる転送順を乱してはいけない場合は何か考える必要あり複雑なアプリはだいたいこの方式の派生モデルで実装 (?) 事前に処理能力を想定しておく必要あり 24 伝統的な組込みっぽい

詳細 ~ 高速動作の仕組み ~ ロックしない仕組み 1 Pipeline モデル等に使われるロックレスなキューもともと Linux/BSD で使用されてきたキューの軽量版スレッドがコアを占有することを前提にさらに高速化 DPDK では Ring と呼ばれる例えばバッファのアドレスをキューイングする Single/Multi Producer Single/Multi Consumer に対応キューに対して複数スレッドから同時にアクセス可能ただし Multi 環境では完了するまでロックしないがBusy waitすることがある Producer/Consumer 共 Producer Consumer にシングルでもマルチ Ring Producer Consumer スレッドでも良い! 26

詳細 ~ 高速動作の仕組み ~ ロックしない仕組み 1 (contd.) Ring を使用する際の制約 multi producers にてある Ring に対して enqueue するスレッドは同一の Ring に対して multi producers で enqueue する別スレッドに preempt されてはならない multi consumers にてある Ring に対して dequeue するスレッドは同一の Ring に対して multi consumers で dequeue する別スレッドに preempt されてはならない DPDK では 1 スレッドでコアを占有するため Ring の操作中に preempt されることがない 27

詳細 ~ 高速動作の仕組み ~ ロックしない仕組み 2 ロックしない仕組みではないが各 PMD( デバイスドライバ ) は同一ポートに対して複数スレッドがアクセスしてくることはないという前提で実装ポートにアクセス可能なスレッドが一つの理由 28

詳細 ~ 高速動作の仕組み ~ キャッシュの活用 (TLB) TLB ミスの発生回数を低減させる仕組み hugetlbfs を利用 DPDK から物理メモリを map するためにも利用 2MB や 1GB の pagesize を利用黙っていると DPDK のアプリケーションは利用可能な全ての hugetlbfs 用のメモリを map しようとします ( -`) オプションで使用メモリを指定可能 29

詳細 ~ 高速動作の仕組み ~ キャッシュの活用 (Data) DPDK 独自のメモリ管理 CPU キャッシュを効率的に使えるようにキャッシュのアライメント DDR3 や DIMM のチャンネル数ランク数を意識してメモリを割り当てる仕組みちなみに NUMA 構成も考慮 (DPDK Programers guide より ) 30

詳細 ~ 高速動作の仕組み ~ コア単位のデータ構造コア別のバッファリサイクルキューを持つ DPDK はマルチプロセスマルチスレッド対応複数のタスクから共有されるデータは hugetlbfs 上に構築された独自のメモリ機構の上に置かれるがなるべく一つのデータにアクセスしたくないパケットバッファについては巧妙な仕組みで最適化

詳細 ~ 高速動作の仕組み ~ コア単位のデータ構造 (contd.) パケット用バッファには巧妙な仕掛けがあるこのバッファはもちろんキャッシュラインを考慮して獲得されたものバッファの集合 (mempool) を用意し mempool の使用状況を Ring で管理複数スレッド ( コア ) から Ring にアクセスしロックせずに高速にバッファを取得解放可能スレッドスレッドスレッドバッファ解放バッファ獲得バッファ解放 Ring mempool 未使用バッファ未使用バッファ未使用バッファ未使用バッファ未使用バッファ未使用バッファ複数タスクからアクセスすると Ring は Busy wait することがあるんじゃ??? この図は実は正しくないです次ページが正しい図

詳細 ~ 高速動作の仕組み ~ コア単位のデータ構造 (contd.) 複数タスクが同一 Ring にアクセスする場合ロックはしないが Busy wait することがあるこのオーバーヘッドも低減したいスレッドごとにバッファのリサイクルキュー ( 実際は配列 ) 持つ使い終わっても直ぐに返しにはいかないバッファ獲得要求に対し Ring に返さずに取っておいたバッファを割り当てるスレッドリサイクルキュー未使用バッファバッファ解放 mempool 未使用バッファ劇的な高速化! スレッドスレッドリサイクルキュー未使用バッファリサイクルキュー未使用バッファバッファ獲得バッファ解放 Ring 未使用バッファ未使用バッファ未使用バッファ未使用バッファ未使用バッファキャッシュするバッファ数は設定可能

詳細 ~ 高速動作の仕組み 1~ SSE の利用 DPDK における SSE 利用の一例 DPDK は独自の memcpy API を提供 rte_memcpy DPDK スレッド上で DPDK のメモリ機構上のメモリをコピーする速度を比較バッファサイズ平均 rte_memcpy (sec/byte) 平均 memcpy (sec/byte) 8 2.50295E-10 4.58804E-10 16 6.25674E-11 2.50263E-10 24 4.1712E-11 1.66842E-10 32 3.12835E-11 1.25132E-10 40 4.19413E-11 1.00106E-10 48 3.49382E-11 8.34208E-11 56 2.99602E-11 7.74625E-11 64 2.6234E-11 6.77814E-11 128 3.02553E-11 3.65069E-11 192 4.06138E-11 3.65201E-11 256 3.44818E-11 2.99948E-11 320 3.06291E-11 2.72697E-11 384 2.66848E-11 2.44344E-11 448 2.58069E-11 2.46057E-11 512 2.41141E-11 2.34078E-11 34

詳細 ~ 高速動作の仕組み 2~ SSE 拡張の利用 5E-10 4.5E-10 4E-10 3.5E-10 3E-10 256byte 以下の転送が劇的に速い 2.5E-10 2E-10 rte_memcpy memcpy 1.5E-10 1E-10 5E-11 0 0 500 1000 1500 2000 2500

詳細 ~ 高速動作の仕組み ~ 高速化手法のもたらす制約 1 スレッドで 1 コアを占有する制約 Ring はスレッドがコアを占有していることが前提の実装前述のように Ring は DPDK の根幹に食い込んでいるので Ring を使えないのは致命的同一ポートにアクセス可能なのは 1 スレッドという制約 PMD の実装による制約

詳細 ~PMD の書き方 ~ Null PMD /dev/null ライクな PMD を書いてみた幾らでもパケットを受信できる幾らでもパケットを送信できる仮想デバイスに対する PMD http://dpdk.org/dev/patchwork/patch/686/ 非常に単純な構造なのでひな型になるはず Intel 以外の NIC でも PMD を書けば DPDK は動作するので興味がある人は書いてみてください 38

詳細 ~ 限界性能測定 1~ Null PMD を利用して DPDK の限界性能を簡易測定 testpmd は 2 つのポート間の単純な転送を繰り返す 2 つのスレッドを持つ port0 port1 の転送を行うスレッド port1 port0 への転送を行うスレッド Null PMD は ( 非常に小さいコストで ) いくらでもパケットを送受信できるので限界性能が簡易測定できる転送時に 1 コピー本当はゼロコピー環境が転送の限界性能に近いはずだが今回は測定時間がなかったので以前に測定した 1 コピー転送の結果 testpmd port0 Null PMD port1 Null PMD 40

詳細 ~ 限界性能測定 2~ 測定環境 CPU hugetlbfs 割当 Intel(R) Xeon(R) CPU E5-2697 v2 @ 2.70GHz 40GB (pagesize=1gb) 測定結果 ~コアあたりの転送性能 ~ ( かなりざっくり ) 64byte 52Mpps / 26Gbps 1500byte 16.72Mpps / 195.05Gbps 1 コピーでこの速度ならゼロコピーで 160Mpps に届くのかも? もしくは複数コア / ポートを使って 160Mfps という意味なのかも? 1 コピーでこの性能なため複雑なパケット処理を行うとこの値以下になりそう 41

ホスト -VM 間通信ホスト上の DPDK アプリと VM 上の DPDK アプリが高速に通信する仕組みについてなぜ必要なのか? ネットワーク業界でよく言われる SDN-NFV という構成を実現する際に必要になる SDN-NFV とは? ホスト上では OpenFlow に対応したソフトウェアスイッチ (SSW) を動作させ実際のパケット処理は VM で行うという構成 Linux と QEMU 環境の場合について説明 43

ホスト -VM 間通信 ~e1000 & pcap 経由 ~ user space on host Guest DPDK App2 user space on VM DPDK App1 e1000 PMD uio kernel space on VM pcap PMD e1000 tap client QEMU tap driver kernel space on host 44

ホスト -VM 間通信 ~e1000 & pcap 経由 ~ App1 からの送信 QEMU tap client User DPDK App1 pcap PMD コピー Kernel コピー tap driver 注意黒線をまたぐとコンテキストスイッチ発生 Host Guest e1000 コピー割り込みコピーパケットバッファレジスタアクセスレジスタアクセス KVM 割り込み DPDK App2 e1000 PMD 割り込み uio 参考 https://www.nic.ad.jp/ja/materials/iw/2011/proceedings/s09/s09-02.pdf

ホスト -VM 間通信 ~virtio-net & pcap 経由 ~ user space on host Guest DPDK App2 user space on VM DPDK App1 virtio-net PMD uio kernel space on VM pcap PMD virtio-net tap client QEMU tap driver kernel space on host 46

ホスト -VM 間通信 ~virtio-net & pcap 経由 ~ App1 からの送信 QEMU tap client User DPDK App1 pcap PMD コピー Kernel コピー tap driver 注意黒線をまたぐとコンテキストスイッチ発生 Host virtio-net コピー割り込み KVM Guest コピーパケットバッファ割り込み実デバイスをシミュレートしていない virtio-net はそもそも送受信に際してレジスタアクセスを発生させない DPDK App2 virtio-net PMD 割り込み uio 参考 https://www.nic.ad.jp/ja/materials/iw/2011/proceedings/s09/s09-02.pdf

ホスト -VM 間通信 ~virtio-net & vhost & pcap 経由 ~ user space on host Guest DPDK App2 user space on VM DPDK App1 virtio PMD uio kernel space on VM pcap PMD tap driver kernel space on host virtio-net vhost-net tap client QEMU vhost-net はホストのカーネル内で virtio-net のパケット送受信処理を行う仕組みよって送受信の際に virtio-net は関わらなくなる 48

ホスト -VM 間通信 ~virtio-net & vhost & pcap 経由 ~ App1 からの送信 QEMU User DPDK App1 pcap PMD Kernel コピー tap driver コピー注意黒線をまたぐとコンテキストスイッチ発生 tap client Host vhost-net 割り込み KVM Guest コピーパケットバッファ割り込み DPDK App2 virtio-net PMD 割り込み uio 参考 https://www.nic.ad.jp/ja/materials/iw/2011/proceedings/s09/s09-02.pdf

ホスト -VM 間通信 ~virtio-net & cuse & vhost backend 経由 ~ user space on host DPDK App1 vhost backend eventfd kernel module kernel space on host DPDK App2 virtio PMD uio virtio-net CUSE Guest user space on VM CUSE を使って vhost-net の実装を DPDK App1 の中で行ってしまう! この場合 DPDK App1からゲ kernel ストの物理メモリにアクセスで space on VM きる必要がある ( ゲストの物理メモリをhugetlbfs 上から取得す QEMU る必要がある読み書きの権限も必要 ) また通知のために DPDK の提供する特別なカーネルモジュールが必要 Intel 考案! 50

ホスト -VM 間通信 ~virtio-net & cuse & vhost backend 経由 ~ App1 からの送信 User Kernel 注意黒線をまたぐとコンテキストスイッチ発生 Host QEMU DPDK App1 vhost backend コピー割り込み event 通知 kernel module 割り込み KVM Guest パケットバッファ割り込み App1 と App2 が共にポーリングしているので通知は必要なし! DPDK App2 virtio-net PMD 割り込み uio 参考 https://www.nic.ad.jp/ja/materials/iw/2011/proceedings/s09/s09-02.pdf

ホスト -VM 間通信 ~virtio-net & vhost-user backend 経由 ~ user space on host DPDK App1 vhostuser backend DPDK App2 virtio PMD virtio-net eventfd Guest user space on VM QEMU-2.1 以上では vhost-net のバックエンドをユーザ空間にインプリさせるための仕組みが実装されている (vhost-user) kernel space on VM よって CUSEを使う必要はなくなる QEMU なおこの仕組みでもゲストの物理メモリは hugetlbfsから取得する必要があるなおイベント通知には通常の eventfd を使用する ( 特別なカーネルモジュールは必要ない ) kernel space on host 52

ホスト -VM 間通信 ~virtio-net & vhost-user backend 経由 ~ App1 からの送信 User Kernel 注意黒線をまたぐとコンテキストスイッチ発生 QEMU DPDK App1 Host vhost -user backend コピー割り込み eventfd 割り込み KVM Guest パケットバッファ割り込み App1 と App2 が共にポーリングしているので通知は必要なし! DPDK App2 virtio-net PMD 割り込み uio 参考 https://www.nic.ad.jp/ja/materials/iw/2011/proceedings/s09/s09-02.pdf

ホスト -VM 間通信 ~ その他 ~ 他にもいろいろありますがここでは割愛 IVSHMEM + Ring MEMNIC PMD NEC 製高速な転送を実現するものは何らかの共有メモリを実現してそのうえでパケット交換するものです 54

DPDK アプリ例 ~open source のみ ~ アプリ名ライセンス概要 lagopus BSD OpenFlow-1.3 対応のソフトウェアスイッチ dpdk-ovs BSD DPDK 対応した Open vswitch Packetgen BSD パケットジェネレータ dpdk-rumptcpip BSD ipaugenblick rumpkernel の DPDK 対応 GPL/BSD Linux TCP/IP スタックの DPDK ポーティング dpdk-odp BSD BSDのTCP/IPスタックをDPDKにポーティング ( ソースコードをいつまでも公開しないので使わない方が無難?) 56

まとめ既存のフレームワークでは高速転送を実現できない DPDKはユーザランドから CPU メモリ NICを扱う仕組み NICは uio/vfio 経由 CPUは Affinity 管理メモリは hugetlbfs 経由ポーリングを効率的に行うことで高速化を達成実際に DPDKを使用したアプリや製品が出始めている DPDK のコミュニティ Site: http://dpdk.org/ ML: dev@dpdk.org 57