Big Data ウェビナーシリーズ ビッグデータの中心的技術 Hadoop を知る Hadoop ベーシック シスコシステムズ合同会社
Big Data ウェビナーシリーズ 期間 : 2015 年 3 月 11 日 7 月 15 日毎週水曜日時間 : 基本夕方 30 分間 (16:00 17:00の間 ) 対象 : シスコパートナー様 シスコ製品ユーザ様スピーカー : シスコ社員 エコパートナー様 目的 : ビッグデータ初心者に対してビッグデータの一般知識 製品知識をお伝えする また シスコの製品とシスコエコパートナーの組み合わせで実現できるビッグデータ &IoEソリューションについて言及する
ビッグデータウェビナーシリーズ予定 * 現時点での予定でスピーカーの都合などにより予定は変更の可能性がございます 3/11 ビッグデータ シスコパートナー様にとってビッグデータってなに? 3/18 を取り巻くビジネスとは ビッグデータってどういう技術で成り立っているの? 3/25 シスコビッグデータポートフォーリオ 4/8 ビッグデータ Hadoopベーシック 4/15 の中心的技術 Hadoopを知る シスコのHadoopリセールについて 4/22 Hadoopサイジングガイドライン 5/13 シスコのビッグデータ用統合インフラ CPA 5/20 ゲストスピーカー MapR 社の製品概要とシスコとの協業 5/27 ゲストスピーカー Cloudera 社の製品概要とシスコとの協業 6/3 ゲストスピーカー Hortonworks 社の製品概要とシスコとの協業 6/10 Hadoopと Hadoop 環境で考慮すべきネットワークの設計 ネットワーク 6/17 Cisco Application Centric Infrastructure (ACI) とビッグデータ
IoE/ ビッグデータを加速するポートフォーリオ Connected Analytics ( 将来 ) 様々な集めた情報を分析 解析 表示 ソフトウェアおよびサービス Wi-Fi 屋外 室内 キャンパス データセンター 工場サーバルーム 様々なものをつなぎ 情報収集できるものは現場で処理 次世代データ処理基盤構造化データをより高速に処理大量の非構造化データを分散処理 ルータ Cisco UCS 車両 産業用ルーター CGR 1120 IOx Cisco ISR シスコ産業用スイッチ IE2K,4K Cisco Nexus & ACI 店舗 Cisco CGR
ビックデータ :Hadoop 基盤としての Cisco UCS 検証済ソリューションパックで Hadoop 基盤をシンプル & 迅速に構築 Why Cisco UCS? UCS Director Express for Big Data UCS Director Express による一元的な ラックサーバ, ネットワーク Hadoop ソフトの展開 管理 スモールスタート可能で 100 台超への拡張も容易 労力削減! 物理サーバ Hadoop クラスタの展開は テンプレートをコピーして適用するだけ 数 10 台の環境セットアップも数 10 分で完了 Big Data に最適な性能を提供 ( 大容量メモリと広帯域接続 ) 集中的な Hadoop クラスタと物理インフラストラクチャの可視化 インベントリ トラブルシューティングも容易に! 大量のデータを保管するストレージとしても! ビッグデータのスタンダード HW としての豊富な実績 Web で簡単アクセス OS/ Hadoop インストール UCS Director Express Hadoop Manager アプリモニター 検証済ソリューションパック (CPA: Common Platform Architecture) v3 UCS Manager シスコから Cloudera, Hortonworks, MapR の Hadoop ソフトウェアサブスクリプションも購入できます ソリューションパック名 スターターパック ハイパフォーマンスパック パフォーマンス最適化パック サーバ UCS C220 M4 (8 台 ) UCS C220 M4(8 台 ) UCS C240 M4(16 台 ) プロセッサ 2 x Intel Xeon E5-2620 v3 2 x Intel Xeon E5-2680 v3 2 x Intel Xeon E5-2680 v3 キャパシティ最適化パック UCS C240 M4(16 台 ) 2 x Intel Xeon E5-2620 v3 大規模キャパシティパック UCS C3160(2 台 ) 2 x Intel Xeon E5-2695 v2 メモリ 256G 384G 256G 128G 256G ストレージ容量 IO 帯域 8 x1.2-tb 10K SAS SFF HDD UCS VIC 1227 2 10GE 2 x 1.2-TB 10K SAS SFF HDD,, 6 x400- GB SAS SSD UCS VIC 1227 2 10GE 2 x120-gb SATA SSD, 24 x 1.2-TB 10K SAS SFF HDD UCS VIC 1227 2 10GE 2 x120-gb SATA SSD. 12 x 4-TB 7.2K SAS LFF HDD UCS VIC 1227 2 10GE 2 x 120-GB SATA SSD, 60 x 4-TB 7.2K SAS LFF HDD 2 UCS VIC 1227 2 10GE 型番 UCS-SL-CPA3-S UCS-SL-CPA3-H UCS-SL-CPA3-P UCS-SL-CPA3-C UCS-SL-CPA3-D 用途 アナリティクス NoSQL, エントリーレベル Hadoop 非常にパフォーマンスと密度を要求されるアナリティクス Hadoop, NoSQL, MPP 等スケールアウトアプリでパフォーマンス重視 ディスク容量が必要な Hadoop やスケールアウトストレージ 大容量ディスク テラバイト単価がお得 & 高密度 Cloudera MapR Hortonworks
Agenda Hadoop の誕生と進化いろいろなデータソース ( 構造と非構造 ) どのようなときに使うのか Hadoop のエコシステム商用ディストリビューション 活用事例
いろいろなデータソース これらのデータをどのように活用しますか? トラディショナルデータソース Big Data / IOE ソース クラウドデータソース SAP IBM DB2 Oracle Teradata Hadoop MongoDB Salesforce Database HANA REUTERS Amazon
ビックデータの活用イメージ 品質を高める 収益を上げる ( 出典 ) 情報通信審議会 ICT 基本戦略ボード ビッグデータの活用に関するアドホックグループ 資料 総務省 http://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h24/html/nc121410.html データを取り出す データを解析する データを処理する データから価値を引き出す データを視覚化する データを人に伝える Cisco IE Series Wireless AP Firewalll ISR + UCS-E UCS Nexus UCS Invicta UCS Director Express for BigData
ビッグデータの課題 リソース分析事業効率性分析収益の分析 顧客の 360 度分析 現在のデータ環境 データの増加データそのものだけでなく ソースのシステムやバリエーションも増加 分析に対するデマンドデータ解析手法も増加し 経営支援に利用 増える一方の分析手法とアプリケーション 人材管理ソフト 安定した分析環境 Data warehouse 必要なデータを抽出してコピー 財務会計 DB 課金 DB 顧客 DB 安価なストレージ Hadoop ロケーションの集約 Web アクセス履歴 Excel ファイル 接続できないデータソース Web サービス 様々な課題 データ量と種類の課題 DWH に入りきらない 方式で接続不可など セキュリティの課題データ複製によるコンプライアンス低下 時間の課題新しい分析をするには DWH のストレージ増設 抽出のためのスクリプト 分析手法開発などで数か月以上かかる コストの課題データウェアハウスのストレージ 上記開発などの費用がかさむ
同じ値段で得られるストレージの容量 SAN ストレージ $2 - $10/Gigabyte $1M で : 0.5Petabytes 200,000 IOPS 1Gbyte/sec NAS ファイラー $1 - $5/Gigabyte $1M で : 1 Petabyte 400,000 IOPS 2Gbyte/sec ローカルストレージ $0.10/Gigabyte $1M で : 10 Petabytes 800,000 IOPS 800 Gbytes/sec Source: VMWare Strata Conference
ビックデータ処理への適用領域 ビッグデータの 3 大特性 Volume( 量 ) Variety ( 多様性 ) Velocity( 頻度 ) アーキテクチャはスケールアップからスケールアウトへ 主なベンダー Cloudera Hortonworks MapR Pivotal 出所 :NRI IT ソリューションフロンティア 2012 年 4 月号の記事に基づき作成
何故 Hadoop なのか? Big Data の問題 HDD のパフォーマンスが CPU の処理能力 コア密度の急速な発展に追いつけず 処理に対して十分早くデータの提供ができない 非構造化データの爆発的増加の処理においてはトランザクション重視の スキーマに凝り固まった RDBMS は適切ではない 水平型のスケールアウトが必須 Hadoop ソリューション データオリエンテッドな環境に移行 SAN/NAS に起因するボトルネックを解消 ソフトウェアコードに拡張性を実装, コモディティハードウェアを有効活用 頻繁な部分故障を考慮に入れたリカバリメカニズム 分散コンピューティングの開発を容易に 2015 Cisco and/or its affiliates. All rights reserved. Cisco Public 12
Apache Hadoop の来歴 Apache Hadoop は Google File System をもとにしたオープンソースフレームワーク GFS と MapReduce によってクラスタにおける大量のデータを (100TB から PB 級のデータまで ) 保持及び処理方法を規定 Google File System 論文 Apache Hadoop プロジェクト Google MapReduce 論文 Nutch uses MapReduce Nutch から Hadoop プロジェクト独立 2002 2004 2006 2008 2010 2015 Cisco and/or its affiliates. All rights reserved. Cisco Public 13
主な Hadoop の構成要素 非構造化データの格納 (HDFS) と分散処理処理 (MapReduce) 各種インターフェース エコシステム ETL Tools BI Reporting RDBMS PIG Hive Sqoop バッチ処理 (MapReduce / Spark) 全文検索エンジン (Solr) ストリーミング処理 (Spark Streaming) SQL (Hive / Impala) NoSQL (HBase) 分散データ処理 Map-Reduce HBASE 分散ファイルシステム Hadoop Distributed File System (HDFS) 2015 Cisco and/or its affiliates. All rights reserved. Cisco Public 14
Map Reduce の基本 基本概念 ジョブの複雑さ (Map と Reduce) はジョブの利用方法に依存しており またネットワーク負荷に対して大きな影響を与える 例 : 過去の気象データ ( 各年ごとの最大気温 ) Maps: 気温と年を巨大な過去のデータから取り出す Reducers: 各年の最大気温を計算 例 : サーチエンジンインデクシング ( すべての in-links を見つける ) Map: 各サイトの tourl (outlink) のリストを作成 ( 各サイトへ inlink) Reduce: 同種の tourl を統合 Source: O Reilly Hadoop A definitive Guide 2015 Cisco and/or its affiliates. All rights reserved. Cisco Public 15
HDFS アーキテクチャ Switch 1 2 2 3 3 4 1 1 4 4 2 3 Name Node Data Node のマッピング情報をメモリー上に格納 /usr/sean/foo.txt:blk_1,blk_2 /usr/jacob/bar.txt:blk_3,blk_4 Data node 1:blk_1 Data node 2:blk_2, blk_3 Data node 3:blk_4 2015 Cisco and/or its affiliates. All rights reserved. Cisco Public 16
MapReduce アーキテクチャ Switch M1 M2 M1 R2 M1 M3 Job Tracker Map と Reduce タスクを Task Tracker が割り当て M3 R1 Job1:TT1:Mapper1,Mapper2 Job1:TT5:Mapper3,Reducer1 Job2:TT6:Reducer2 Job2:TT7:Mapper1,Mapper3 2015 Cisco and/or its affiliates. All rights reserved. Cisco Public 17
MANAGEMENT MANAGEMENT Hadoop パートナー Hortonworks Open Source Hadoop Apache Hadoop 100% open source distribution を提供 Yahoo からのスピンアウト 主な顧客は Yahoo! 2013/7 HP が Hortonworks と戦略提携 2014/6/24 HP が $50M 投資 Cloudera Open Source Hadoop 2008 年から Apatch Hadoop(CDH) をリリースし Enterprise 機能 ( セキュリティ 管理性 信頼性 ) に対応 管理ツールの Cloudera Manager により管理が容易 2014/3 に Intel が $740M 投資 Open Source MapR Hadoop Hadoop に様々な最適化を実施し配布 バックアップやスナップショット NFS や SMB でのアクセスが可能なため運用性が優れている ARCHITECTURAL INNOVATIONS
どこにどう使われているか ウェブ企業 通信 製造 / 小売 / 公共 / 金融 IoT/BI/ アナリティックス 難易度 DWH/ETL 最適化 ビッグデータストレージ Web アクセス ネットワーク分析
Hadoop の活用場所 各事業部 -> IT HaaS (Hadoop as a Service) MapR ( 参考 )http://itpro.nikkeibp.co.jp/atcl/news/14/111301899/
Hadoop 構成 Client BI Tableau Nexus 9372PX Hadoop クラスタ Cisco UCS C220/240
MapR+NetApp+Cisco による共同検証構成 MapR UCS C シリーズ SAS 6Gb NetApp ビッグデータソリューション for MapR は ネットアップのストレージ NetApp E シリーズ と MapR の Hadoop ディストリビューション MapR M5 シスコの Cisco UCS サーバー ノーチラス テクノロジーズの分散処理フレームワーク Asakusa Framework を組み合わせたソリューション NetApp E シリーズ
Data Platforms Reference Architecture Data Sources Data Storage and Processing Data Consumption (Mobile / Browser / Data Service) Databases ALL other Sources Data Virtualization (Composite) Experience Toolkit Rapid Prototyping / Light Integration Databases Database N ERP SFDC Docs, Cases, Content, Social Media, Clicksteam Data Security, Infra Customer Network, Product Usage Internet of Everything (IoE) Big Data Platform Hadoop on UCS Machine Learning Data Archiving Data Science Network of Truth Agile Analytics SAP HANA on UCS Predictive Engine Real time BI Mission Critical Reporting Teradata Financial SSOTs Stable core Controlled Change SAP Tableau Oracle Analytics & Modeling HANA Hadoop SAS IBM SPSS Self Service Dashboard Rapid Business Intell. Data Exploration Real time Predictive Data Analysis, Text Analytics Machine Learning,, Statistical Analysis (R) Machine Data Insights (e.g. In supply chain) Mission Critical Operational Reports IT App & System Logs & Config. Operational Intelligence Index & Search (ELK+) Financial Reporting & Extract Operational Intelligence(Splu nk UI)
Cisco IT の Hadoop プラットフォーム コンポーネント コンポーネント Cisco UCS 6248UP 概要 ファブリックインターコネクト サーバに高速で低遅延のネットワーク接続を提供し すべての接続デバイスを UCS Manager にて統合統一管理できるようにします Cisco Nexus 2232PP ファブリックエクステンダー 拡張性が高く非常にコスト効率のよいサーバ収容接続を実現します Cisco UCS C240 M3 Intel Xeon E5-2600 256 GB の RAM 24 TB のローカルストレージ (HDFS 22 TB 2 TB オヘ レーティングシステム ) MapR Cisco Tidal Enterprise Scheduler(TES) ラックマウントサーバ コンピューティング I/O ストレージ容量に関するさまざまな要求に対応するために設計された 2RU サーバです Apache Hadoop ジョブのスケジュール管理とワークロードの自動化 C240 M3 x 16 台
リクルート社 HOT PEPPER グルメ Web のアクセス履歴を分析し会員にオススメのお店を紹介 Web アクセスのログ処理従来 1 週間分が限界 1 年半分のログの処理が可能に 8 万人の会員にしかレコメンドメールが送信できない Hadoop による処理の高速化 全会員 20 万人の会員にレコメンドメールが送信が可能に 広告のクリックされた割合 および Web サイトにアクセス数のうち購入に至った割合が約 1.6 倍に上昇 他の Hadoop の利用例 : バナー広告 自然検索 有料検索エンジン登録などのうちどの集客施作が実際に購入に至ったか分析し 広告の費用対効果結果より予算配分 出展 :http://www.amazon.co.jp/ ビッグデータの衝撃 巨大なデータが戦略を決める - 城田 - 真琴 /dp/4492580964
事例 : 大手クレジット会社 大手クレジット会社 18 ヶ月で $25M の投資 (25 億円 $1=100) 1000 台以上のサーバインストール 18 ヶ月で 2000 台インストール予定 HP が競合 数ヶ月におよぶパフォーマンスベンチマーク争いの結果 UCS を選定 複数のサーバドメインがあり Nexus 7000 を使用してドメイン間を接続 使用例 1 億 400 万のカードメンバーに対するサービス パーソナライズサービス提供によるユーザ体験 満足度の向上 不正利用検知 26
Cisco Hadoop PoC 環境 @ 東京ミッドタウン UCS Manager によるサーバ全体管理 連携 UCS Director Express for BigData Baremetal Agent Red Hat ISO - RHEL6.4 MapR ディストリビューション 10GE PoC メニュー例データはお客様に持ち込んでいただできます 導入 運用管理性 UCS C220 M3 CPU E5-2620 v2 6C/2.10 GHz x 2 Memory 64GB (16GB x 4) HDD 300GB SAS 10K RPM x 8 MegaRAID 9271CV x 1 Cisco VIC 1225 x 1 SQL や BI でのアクセス Hadoop へのデータの出し入れ バックアップ