GPU クラウド コンピューティング エンタープライズマーケティング部 佐々木邦暢 (@_ksasaki)
マネージド AI サービスと GPU IaaS クラウドで GPU が活きる二つの選択肢 マネージド AI サービス GPU IaaS Amazon AI Google Cloud Vision API 等 IBM Watson Microsoft Cognitive Services Amazon EC2 P2 インスタンス Google Compute Engine IBM Bluemix Infrastructure Microsoft Azure N シリーズ IDCF - GPU BOOST タイプ
Amazon AI 開発者向け人工知能サービス (API 群 ) Amazon Lex Amazon Rekognition Amazon Polly 音声やテキストを使用した会話型インターフェイスを持つアプリケーションを構築 ディープラーニングに基づくイメージ認識サービス ディープラーニングを使用して文章をリアルな音声に変換
P2 インスタンス Tesla K80 を搭載する GPU インスタンス インスタンス名 GPU 数 GPU メモリ (GB) CUDA コア数 vcpu 数メモリ (GB) p2.xlarge p2.8xlarge p2.16xlarge 1 (K80 半分 ) 8 (K80 4 枚 ) 16 (K80 8 枚 ) 12 2,496 4 61 96 19,968 32 488 192 39,936 64 732
GPU 対応の AMI 各種 GPU ドライバや各種フレームワーク アプリケーション導入済み AWS 提供 Deep Learning AMI 64-bit, Amazon Linux 2015.05.04 NVIDIA GPU ドライバ MXNet, Caffe, TensorFlow, Theano, Torch NVIDIA 提供 NVIDIA DIGITS 4 AMI NVIDIA DIGITS 4 on Ubuntu 14.04 (64-bit) NVIDIA CUDA Toolkit 7.5 AMI CUDA Toolkit 7.5 on Amazon Linux 2016.03 (64-bit) Windows AMI (NVIDIA GPU ドライバ付 ) Windows Server 2012 R2
分散型ディープラーニングを簡単に CloudFormation で GPU クラスタを自動デプロイ MXNet と CloudFormation AWS は MXNet をデフォルトのディープラーニングフレームワークとして採用し そのコードやドキュメンテーションに貢献しています その一環として GPU クラスタを簡単に構築可能な CloudFormation テンプレートが公開されています VPC の作成 セキュリティやオートスケーリングの設定から GPU ドライバやフレームワークのインストールまで完全に自動化されます https://github.com/dmlc/mxnet/tree/master/tools/cfn
AWS パブリックデータセット無料でアクセス可能な大規模データ データセット名ランドサット SpaceNet 地勢タイル NASA NEX TCGA マルチメディアコモンズ Japan Census Data 内容 ランドサット 8 号衛星により作成中の地球全土の衛星画像コレクション コンピュータビジョンアルゴリズムの開発における革新を促進するために衛星画像とラベリングされたトレーニングデータを集めたデータベース 世界各地の地表の標高などの地勢を示すデータセット NASA が保守管理する地球の科学的データセットのコレクション 気候変化予測や地表の衛星画像などが含まれる がんゲノムアトラス (TCGA) からの未処理および処理済みのゲノム トランスクリプトミクス およびエピゲノミクスのデータで がんゲノムクラウドを介して認定された研究者のみが利用可能 オーディオビジュアル機能と注釈を備えた 1 億近い画像と動画のコレクション 日本の国勢調査 事業所 企業統計調査 経済センサス 上記は一部の例 詳しくは : https://aws.amazon.com/jp/public-datasets
パブリックデータセットの利用例 SpaceNet を NVIDIA DIGITS で解析 NVIDIA DIGITS による物体検出 SpaceNet は NVIDIA もその立ち上げにかかわったオンライン衛星画像リポジトリです ディープラーニングフレームワークの Web フロントエンドである NVIDIA DIGITS で DetectNet というオブジェクト検出ネットワークを使って SpaceNet の画像から建物を検出する方法を PARALLEL FORALL ブログで解説しています Exploring the SpaceNet Dataset Using DIGITS https://devblogs.nvidia.com/parallelforall/exploring-spacenet-dataset-using-digits/
Microsoft Cognitive Services インテリジェンスアプリケーション 言語 視覚 検索 音声 知識
Azure N シリーズ GPU インスタンス 2 種類の NVIDIA GPU を搭載 Visualization の NV 系 Tesla M60 搭載 Compute の NC 系 Tesla K80 搭載 名称 コア数 メモリ SSD RDMA GPU NV6 6 56 GB 380 GB - M60 半分 (GPU 1 基 ) NV12 12 112 GB 680 GB - M60 1 枚 (GPU 2 基 ) NV24 24 224 GB 1.5 TB - M60 2 枚 (GPU 4 基 ) NC6 6 56 GB 380 GB - K80 半分 (GPU 1 基 ) NC12 12 112 GB 680 GB - K80 1 枚 (GPU 2 基 ) NC24 24 224 GB 1.5 TB - K80 2 枚 (GPU 4 基 ) NC24r 24 224 GB 1.5 TB InfiniBand K80 2 枚 (GPU 4 基 )
NVIDIA と Microsoft の協業 Cognitive Toolkit ( 旧称 : CNTK) を Azure と DGX-1 の双方に最適化 NVIDIA GPUDL Toolkit NVIDIA DGX-1 Azure Data Center NVIDIA Tesla GPU
Microsoft Cognitive Toolkit (旧称: CNTK) 様々なマイクロソフト製品 サービスを支え AI を民主化 Cortana パーソナルアシスタント Skype 多言語間翻訳 Bing サーチエンジン HoloLens 拡張現実
IBM Watson 日本語に対応した様々な API 自然言語分類検索およびランク付け会話文書変換 性格分析画像認識音声認識音声合成
IBM Bluemix Infrastructure GPU 搭載のベアメタルサーバーを月単位 / 時間単位で GPU 種別 GPU メモリ (GB) CUDA コア数 Tesla K80 24 4,992 Tesla M60 16 4,096 Hourly この他 GRID K2 と Tesla K10 が選択可能 CPU CPU コア数 2 x E5-2620 v3 12 2 x E5-2650 v3 20 2 x E5-2690 v3 24 メモリ (GB) ディスク 64 1TB SATA 2 x E5-2620 v4 16 128 2x 800GB SSD 2 x E5-2620 v3 12 2 x E5-2650 v3 20 2 x E5-2690 v3 24 64 1TB SATA
Google Cloud Platform Google のコアとなるインフラストラクチャ データ解析 機械学習を活用 Cloud Machine Learning Vision API Translation API Speech API Natural Language API Jobs API
Google Compute Engine Google の IaaS に Tesla K80 と P100 がまもなく登場 GCE の GPU マシン Tesla K80 と Tesla P100 を利用可能 様々なインスタンスに GPU をアタッチ可能 分単位の課金で効率的に利用 近日登場予定!
IDCF クラウド Tesla M40 搭載 GPU BOOST 仮想マシン インスタンス名 GPU GPU メモリ (GB) CUDA コア数 vcpu 数メモリ (GB) SSD (GB) gpu.7xlm40 1 x M40 24 3,072 56 256 2,100 gpu.7xlp100 1 x P100 16 3,584 近日登場予定
主催 第 1 回 AI チャレンジコンテスト人工知能技術戦略会議等主催 人工知能技術戦略会議 内閣府 文部科学省 応募受付期間平成 29 年 1 月 10 日 ( 火 )~ 平成 29 年 3 月 9 日 ( 木 ) 参加費 テーマ 無料 料理画像を対象に (1) 料理領域検出 (2) 料理分類 の 2 部門を実施 画像データ提供 : クックパッド株式会社 賞品は NVIDIA TITAN X IDC フロンティア様から Tesla M40 搭載 GPU サーバー提供 ( 参加者間で共同利用 )
Tesla in Datacenter
データセンターのために設計された Tesla 24 時間 365 日の稼働時間 スケーラブルパフォーマンス データセンター仕様 信頼性の最大化 データセンターのスループットをブースト システム運用管理を効率化
システム稼働時間のためのエンドツーエンド設計 24 時間 365 日の稼働時間 スケーラブルパフォーマンス データセンター仕様 信頼性を高めるための様々な技術 長期信頼性のための低動作電圧 品質を保証するため大きな設計マージンを確保 データ整合性を担保する ECC メモリ 広範な出荷判定項目と試験 長時間の高温負荷テスト 1 件のエラーも許容しない厳格な基準 高信頼性のための技術を使用しても 5% の GPU がスクリーニングアウト 保証品質 システム出荷判定試験 : 熱 ストレス 空気流量 衝撃および振動 Tesla のみのシステム監視と管理 障害分析のための専任技術スタッフ
稼働時間を最大化するダイナミックページリタイアメント 24 時間 365 日の稼働時間 スケーラブルパフォーマンス データセンター仕様 GPU メモリ ダイナミックページリタイアメントのない GPU 1. ジョブがクラッシュすると生産性が低下します 2. IT 管理者は物理的にサーバーを開けて障害のある GPU を取り外す必要があります 3. ダウンタイムの発生が顧客満足度を下げる危険があります 弱いメモリが使われ続ける 訂正不可能なデータエラーがアプリケーションをクラッシュさせる ダイナミックページリタイアメントのある Tesla 1. 不良メモリを GPU の再起動で取り除けます 2. IT 管理者のための物理的な作業は発生しません 3. リタイアするページの合計サイズは最大 256KB 程度性能へのインパクトは無視できる範囲です 弱いメモリが使われなくなる
サーバー OEM ベンダーによるデータセンター最適化 24 時間 365 日の稼働時間 エアフロー スケーラブルパフォーマンス データセンター仕様 Tesla GPU を搭載したサーバー GPU 内エアフローを最大にする設計 前後双方向のエアフローをサポート 低い電力消費 温度 : 54 度 LINPACK 実行時の GPU の温度 : 54 度 サーバーのエアフローに反した動作 データセンタ用ではない GPU を搭載したサーバー 大きな電力消費 低い信頼性 温度 : 71 度 LINPACK 実行時の GPU の温度 : 71 度
データセンター GPU マネージメント データセンター運用のためのエンタープライズ向けマネージメントツール 24 時間 365 日の稼働時間 スケーラブルパフォーマンス データセンター仕様 デバイスマネージメント データセンター GPU マネージャー (Tesla GPU のみ ) アクティブヘルスモニタリング ランタイムヘルスチェック プロローグチェック エピローグチェック 診断及びシステム検証 詳しいハードウェア診断 システム検証テスト GPU 毎の構成及びモニタリング デバイス認識 ボードモニタリング クロックマネージメント 全てのエヌビディア GPU が対象 ポリシーとグループ構成管理 事前設定されたポリシー ジョブ毎のモニタリング ステートフル設定 電源及びクロック管理 ダイナミックパワーキャッピング 同期クロックブースト
計画的な製品ライフサイクルとサポート 24 時間 365 日の稼働時間 スケーラブルパフォーマンス データセンター仕様 安定した製品供給 頻繁に EOL を迎えるコンシューマー用 GPU よりも 長い製品ライフサイクル サーバー利用では無保証のコンシューマー用 GPU と異なり 3 年間の保証 エンタープライズサービス 長期間サポート及びメンテナンス 技術専門家との直接のコミュニケーション 問題解決への迅速な対応 専任技術担当者 オンサイトコンサルテーション トレーニング www.nvidia.com/enterpriseservices
GeForce で開発 Tesla で運用 GeForce 開発者とゲーマーのために設計された GPU どこでも入手可能 https://developer.nvidia.com/cuda-gpus Tesla データセンターのために設計された GPU サーバー用に設計ダイナミックページリタイアメント GPUDirect RDMA NVLink データセンター管理ツールエンタープライズサービス
GTC 2017 のご案内
GTC 2017 参加登録受付中 2017/5/8-11 サンノゼで開催 #GTC17 40 % のリピーター割引実施中 (1/18 まで ) 基調講演 テクニカルセッション ハンズオンラボ ポスター展示 専門家との交流 スペシャルイベント http://www.gputechconf.com/