Big Data ウェビナー シリーズ Hadoopベーシック

Similar documents
Big Data ウェビナー シリーズ Hadoopサイジング ガイドライン

PowerPoint プレゼンテーション

Big Data ウェビナー シリーズ CiscoのHadoopリセールについて

Joint Content Development Proposal Tech Docs and Curriculum

Agenda Hadoop Sahara Kilo Q&A Copyright 2015 Mirantis, Inc. All rights reserved Page 2

Cisco ACI とエンタープライズアプリケーション

HP ProLiant Gen8とRed Hatで始めるHadoop™ ~Hadoop™スタートアップ支援サービス~

Corp ENT 3C PPT Template Title

Software-Defined Storage ware Virtual SAN ware Virtual SAN

スライド 1

EM10gR3記者発表

3 4 SAP HANA 5 6 SAP HANA Xeon E7 v3 SAP HANA 6 8 OLTP OLAP 1 9 SAP S/4HANA SAP HANA Studio 13 14

P P P P P P P OS... P P P P P P

Oracle Un お問合せ : Oracle Data Integrator 11g: データ統合設定と管理 期間 ( 標準日数 ):5 コースの概要 Oracle Data Integratorは すべてのデータ統合要件 ( 大量の高パフォーマンス バッチ ローブンの統合プロセスおよ

ビッグデータ / IoT 時代にデジタルトランスフォーメーションを実現する Dell Blueprint Dell Cloudera Apache Hadoop / Dell Validated Systems for SAP HANA ソリューションガイド デルの Hadoop / SAP HAN

Microsoft Word - nvsi_050110jp_netvault_vtl_on_dothill_sannetII.doc

スライド 1

Cisco UCS 管理ツールご紹介

new_emc_panf_Hyoushi_0818

ネットアップクラウドデータサービス

Presentation Template Koji Komatsu

無料セミナー資料:ビッグデータ管理基盤ソフトウェアHadoop入門

PowerPoint プレゼンテーション

IBM クラウド事例から考える OSS による企業向けクラウドの可能性 日本アイ ビー エム株式会社 Linux/OSS エバンジェリスト中井悦司 Feb. 27, IBM Corporation

システム要件 Trend Micro Safe Lock Trend Micro Safe Lock 2.0 エージェントのシステム要件 OS Client OS Server OS Windows 2000 (SP4) [Professional] (32bit) Windows XP (SP1/

OTデータとITデータの双方を統合的に分析可能な社会・産業インフラ分野向けのデータ分析基盤を提供開始

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション

システム要件 Trend Micro Safe Lock 2.0 SP1 Trend Micro Safe Lock 2.0 SP1 エージェントのシステム要件 OS Client OS Server OS Windows 2000 (SP4) [Professional] (32bit) Wind

IBM Internet Security Systems NTFS ファイルシステム必須 一覧の 以後にリリースされた Service Pack (Release 2 等は除く ) は特に記載の無い限りサポートいたします メモリ 最小要件 512MB 推奨要件 1GB 最小要件 9GB 推奨要件

<Insert Picture Here>

データセンター SDN ソリューション

Oracle GoldenGate for Big Data

Trend Micro Safe Lock 2.0 Patch1 管理コンソールのシステム要件 OS Windows XP (SP2/SP3) [Professional] Windows 7 (SP なし /SP1) [Professional / Enterprise / Ultimate] W

MAGNIA Storage Server Configuration Guide

<4D F736F F F696E74202D204E505F8E9F90A291E E815B CFC82AF B838B B838B C5E B8D5C91A E E4E41532E7

データセンターの効率的な資源活用のためのデータ収集・照会システムの設計

【Cosminexus V9】クラウドサービスプラットフォーム Cosminexus

データベースの近代化:シンプルなクロスプラットフォーム、最小のダウンタイムで実現するクラウド移行

Maximize the Power of Flexible NetFlow

JustSystems

StoreEasy 1x40 RAID構成ガイド

概要 ここでは先程デモを行った OpenStack の中で仮想マシンのデータがどのように管理されているかをご紹介致します OpenStack の中でデータがどのように配置され 管理されているかを知ることは 可用性を検討する上で非常に重要になります 2

Microsoft Azure Microsoft Corporation Global Blackbelt Sales Japan OSS TSP Rio Fujita

クラウド セキュリティ インターネット セキュア ゲートウェイ Umbrella

Silk Central Connect 15.5 リリースノート

V8_教育テキスト.dot

スライド 1

Arcserve Unified Data Protection サーバ構成とスペック見積もり方法 2016 年 06 月 Arcserve Japan Ver

IBM Cognos 10 Upgrade FAQ

SAP のプラットフォームとして IBM Cloudを選択すべき理由徹底解説 :SAPをクラウドで活用する 3つのパターン 最善の選択肢は? ERP をクラウド化したいと考える場合 企業システムの中心を担うだけにその実現方法は慎重に検 討したい IBM が SAP システム向けに用意する 3 つのサ

記憶域スペースダイレクト (S2D) を活用したハイパーコンバージドインフラ技術解説ガイド 概要本ドキュメントは Windows Server 2016 で構築したハイパーコンバージドインフラ (Hyper-Converged Infrastructure:HCI) を技術的な観点から解説したガイド

JP1 Version 11

よくある問題を解決する~ 5 分でそのままつかえるソリューション by AWS ソリューションズビルダチーム

SinfonexIDaaS機能概要書

Hadoop LZO圧縮機能の検証

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

i Ceph

VMware vcloud Suite

<Insert Picture Here> Oracle Business Intelligence 2006/6/27

CLUSTERPROXSingleServerSafe SingleServerSafe ご紹介 2007 年 10 月

Veritas System Recovery 16 Management Solution Readme

1 Microsoft Windows Server 2012 Windows Server Windows Azure Hyper-V Windows Server 2012 Datacenter/Standard Hyper-V Windows Server Windo

システム必要条件 - SAS Fraud Management 3.1

(Microsoft PowerPoint - Mirapoint\220\273\225i\221\316\224\344\225\\\(6\203V\203\212\201[\203Y_7\203V\203\212\201[\203Y\).ppt)

2017/8/2 HP SiteScope software 監視機能対応表 この監視機能対応表は HP SiteScope software v11.33) に対応しています モニタ モニタ説明 モニタ説明 SiteScope for Windows SiteScope for Linux ネット

別紙7_ソフトウェア一覧

OSS Mtg

Transcription:

Big Data ウェビナーシリーズ ビッグデータの中心的技術 Hadoop を知る Hadoop ベーシック シスコシステムズ合同会社

Big Data ウェビナーシリーズ 期間 : 2015 年 3 月 11 日 7 月 15 日毎週水曜日時間 : 基本夕方 30 分間 (16:00 17:00の間 ) 対象 : シスコパートナー様 シスコ製品ユーザ様スピーカー : シスコ社員 エコパートナー様 目的 : ビッグデータ初心者に対してビッグデータの一般知識 製品知識をお伝えする また シスコの製品とシスコエコパートナーの組み合わせで実現できるビッグデータ &IoEソリューションについて言及する

ビッグデータウェビナーシリーズ予定 * 現時点での予定でスピーカーの都合などにより予定は変更の可能性がございます 3/11 ビッグデータ シスコパートナー様にとってビッグデータってなに? 3/18 を取り巻くビジネスとは ビッグデータってどういう技術で成り立っているの? 3/25 シスコビッグデータポートフォーリオ 4/8 ビッグデータ Hadoopベーシック 4/15 の中心的技術 Hadoopを知る シスコのHadoopリセールについて 4/22 Hadoopサイジングガイドライン 5/13 シスコのビッグデータ用統合インフラ CPA 5/20 ゲストスピーカー MapR 社の製品概要とシスコとの協業 5/27 ゲストスピーカー Cloudera 社の製品概要とシスコとの協業 6/3 ゲストスピーカー Hortonworks 社の製品概要とシスコとの協業 6/10 Hadoopと Hadoop 環境で考慮すべきネットワークの設計 ネットワーク 6/17 Cisco Application Centric Infrastructure (ACI) とビッグデータ

IoE/ ビッグデータを加速するポートフォーリオ Connected Analytics ( 将来 ) 様々な集めた情報を分析 解析 表示 ソフトウェアおよびサービス Wi-Fi 屋外 室内 キャンパス データセンター 工場サーバルーム 様々なものをつなぎ 情報収集できるものは現場で処理 次世代データ処理基盤構造化データをより高速に処理大量の非構造化データを分散処理 ルータ Cisco UCS 車両 産業用ルーター CGR 1120 IOx Cisco ISR シスコ産業用スイッチ IE2K,4K Cisco Nexus & ACI 店舗 Cisco CGR

ビックデータ :Hadoop 基盤としての Cisco UCS 検証済ソリューションパックで Hadoop 基盤をシンプル & 迅速に構築 Why Cisco UCS? UCS Director Express for Big Data UCS Director Express による一元的な ラックサーバ, ネットワーク Hadoop ソフトの展開 管理 スモールスタート可能で 100 台超への拡張も容易 労力削減! 物理サーバ Hadoop クラスタの展開は テンプレートをコピーして適用するだけ 数 10 台の環境セットアップも数 10 分で完了 Big Data に最適な性能を提供 ( 大容量メモリと広帯域接続 ) 集中的な Hadoop クラスタと物理インフラストラクチャの可視化 インベントリ トラブルシューティングも容易に! 大量のデータを保管するストレージとしても! ビッグデータのスタンダード HW としての豊富な実績 Web で簡単アクセス OS/ Hadoop インストール UCS Director Express Hadoop Manager アプリモニター 検証済ソリューションパック (CPA: Common Platform Architecture) v3 UCS Manager シスコから Cloudera, Hortonworks, MapR の Hadoop ソフトウェアサブスクリプションも購入できます ソリューションパック名 スターターパック ハイパフォーマンスパック パフォーマンス最適化パック サーバ UCS C220 M4 (8 台 ) UCS C220 M4(8 台 ) UCS C240 M4(16 台 ) プロセッサ 2 x Intel Xeon E5-2620 v3 2 x Intel Xeon E5-2680 v3 2 x Intel Xeon E5-2680 v3 キャパシティ最適化パック UCS C240 M4(16 台 ) 2 x Intel Xeon E5-2620 v3 大規模キャパシティパック UCS C3160(2 台 ) 2 x Intel Xeon E5-2695 v2 メモリ 256G 384G 256G 128G 256G ストレージ容量 IO 帯域 8 x1.2-tb 10K SAS SFF HDD UCS VIC 1227 2 10GE 2 x 1.2-TB 10K SAS SFF HDD,, 6 x400- GB SAS SSD UCS VIC 1227 2 10GE 2 x120-gb SATA SSD, 24 x 1.2-TB 10K SAS SFF HDD UCS VIC 1227 2 10GE 2 x120-gb SATA SSD. 12 x 4-TB 7.2K SAS LFF HDD UCS VIC 1227 2 10GE 2 x 120-GB SATA SSD, 60 x 4-TB 7.2K SAS LFF HDD 2 UCS VIC 1227 2 10GE 型番 UCS-SL-CPA3-S UCS-SL-CPA3-H UCS-SL-CPA3-P UCS-SL-CPA3-C UCS-SL-CPA3-D 用途 アナリティクス NoSQL, エントリーレベル Hadoop 非常にパフォーマンスと密度を要求されるアナリティクス Hadoop, NoSQL, MPP 等スケールアウトアプリでパフォーマンス重視 ディスク容量が必要な Hadoop やスケールアウトストレージ 大容量ディスク テラバイト単価がお得 & 高密度 Cloudera MapR Hortonworks

Agenda Hadoop の誕生と進化いろいろなデータソース ( 構造と非構造 ) どのようなときに使うのか Hadoop のエコシステム商用ディストリビューション 活用事例

いろいろなデータソース これらのデータをどのように活用しますか? トラディショナルデータソース Big Data / IOE ソース クラウドデータソース SAP IBM DB2 Oracle Teradata Hadoop MongoDB Salesforce Database HANA REUTERS Amazon

ビックデータの活用イメージ 品質を高める 収益を上げる ( 出典 ) 情報通信審議会 ICT 基本戦略ボード ビッグデータの活用に関するアドホックグループ 資料 総務省 http://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h24/html/nc121410.html データを取り出す データを解析する データを処理する データから価値を引き出す データを視覚化する データを人に伝える Cisco IE Series Wireless AP Firewalll ISR + UCS-E UCS Nexus UCS Invicta UCS Director Express for BigData

ビッグデータの課題 リソース分析事業効率性分析収益の分析 顧客の 360 度分析 現在のデータ環境 データの増加データそのものだけでなく ソースのシステムやバリエーションも増加 分析に対するデマンドデータ解析手法も増加し 経営支援に利用 増える一方の分析手法とアプリケーション 人材管理ソフト 安定した分析環境 Data warehouse 必要なデータを抽出してコピー 財務会計 DB 課金 DB 顧客 DB 安価なストレージ Hadoop ロケーションの集約 Web アクセス履歴 Excel ファイル 接続できないデータソース Web サービス 様々な課題 データ量と種類の課題 DWH に入りきらない 方式で接続不可など セキュリティの課題データ複製によるコンプライアンス低下 時間の課題新しい分析をするには DWH のストレージ増設 抽出のためのスクリプト 分析手法開発などで数か月以上かかる コストの課題データウェアハウスのストレージ 上記開発などの費用がかさむ

同じ値段で得られるストレージの容量 SAN ストレージ $2 - $10/Gigabyte $1M で : 0.5Petabytes 200,000 IOPS 1Gbyte/sec NAS ファイラー $1 - $5/Gigabyte $1M で : 1 Petabyte 400,000 IOPS 2Gbyte/sec ローカルストレージ $0.10/Gigabyte $1M で : 10 Petabytes 800,000 IOPS 800 Gbytes/sec Source: VMWare Strata Conference

ビックデータ処理への適用領域 ビッグデータの 3 大特性 Volume( 量 ) Variety ( 多様性 ) Velocity( 頻度 ) アーキテクチャはスケールアップからスケールアウトへ 主なベンダー Cloudera Hortonworks MapR Pivotal 出所 :NRI IT ソリューションフロンティア 2012 年 4 月号の記事に基づき作成

何故 Hadoop なのか? Big Data の問題 HDD のパフォーマンスが CPU の処理能力 コア密度の急速な発展に追いつけず 処理に対して十分早くデータの提供ができない 非構造化データの爆発的増加の処理においてはトランザクション重視の スキーマに凝り固まった RDBMS は適切ではない 水平型のスケールアウトが必須 Hadoop ソリューション データオリエンテッドな環境に移行 SAN/NAS に起因するボトルネックを解消 ソフトウェアコードに拡張性を実装, コモディティハードウェアを有効活用 頻繁な部分故障を考慮に入れたリカバリメカニズム 分散コンピューティングの開発を容易に 2015 Cisco and/or its affiliates. All rights reserved. Cisco Public 12

Apache Hadoop の来歴 Apache Hadoop は Google File System をもとにしたオープンソースフレームワーク GFS と MapReduce によってクラスタにおける大量のデータを (100TB から PB 級のデータまで ) 保持及び処理方法を規定 Google File System 論文 Apache Hadoop プロジェクト Google MapReduce 論文 Nutch uses MapReduce Nutch から Hadoop プロジェクト独立 2002 2004 2006 2008 2010 2015 Cisco and/or its affiliates. All rights reserved. Cisco Public 13

主な Hadoop の構成要素 非構造化データの格納 (HDFS) と分散処理処理 (MapReduce) 各種インターフェース エコシステム ETL Tools BI Reporting RDBMS PIG Hive Sqoop バッチ処理 (MapReduce / Spark) 全文検索エンジン (Solr) ストリーミング処理 (Spark Streaming) SQL (Hive / Impala) NoSQL (HBase) 分散データ処理 Map-Reduce HBASE 分散ファイルシステム Hadoop Distributed File System (HDFS) 2015 Cisco and/or its affiliates. All rights reserved. Cisco Public 14

Map Reduce の基本 基本概念 ジョブの複雑さ (Map と Reduce) はジョブの利用方法に依存しており またネットワーク負荷に対して大きな影響を与える 例 : 過去の気象データ ( 各年ごとの最大気温 ) Maps: 気温と年を巨大な過去のデータから取り出す Reducers: 各年の最大気温を計算 例 : サーチエンジンインデクシング ( すべての in-links を見つける ) Map: 各サイトの tourl (outlink) のリストを作成 ( 各サイトへ inlink) Reduce: 同種の tourl を統合 Source: O Reilly Hadoop A definitive Guide 2015 Cisco and/or its affiliates. All rights reserved. Cisco Public 15

HDFS アーキテクチャ Switch 1 2 2 3 3 4 1 1 4 4 2 3 Name Node Data Node のマッピング情報をメモリー上に格納 /usr/sean/foo.txt:blk_1,blk_2 /usr/jacob/bar.txt:blk_3,blk_4 Data node 1:blk_1 Data node 2:blk_2, blk_3 Data node 3:blk_4 2015 Cisco and/or its affiliates. All rights reserved. Cisco Public 16

MapReduce アーキテクチャ Switch M1 M2 M1 R2 M1 M3 Job Tracker Map と Reduce タスクを Task Tracker が割り当て M3 R1 Job1:TT1:Mapper1,Mapper2 Job1:TT5:Mapper3,Reducer1 Job2:TT6:Reducer2 Job2:TT7:Mapper1,Mapper3 2015 Cisco and/or its affiliates. All rights reserved. Cisco Public 17

MANAGEMENT MANAGEMENT Hadoop パートナー Hortonworks Open Source Hadoop Apache Hadoop 100% open source distribution を提供 Yahoo からのスピンアウト 主な顧客は Yahoo! 2013/7 HP が Hortonworks と戦略提携 2014/6/24 HP が $50M 投資 Cloudera Open Source Hadoop 2008 年から Apatch Hadoop(CDH) をリリースし Enterprise 機能 ( セキュリティ 管理性 信頼性 ) に対応 管理ツールの Cloudera Manager により管理が容易 2014/3 に Intel が $740M 投資 Open Source MapR Hadoop Hadoop に様々な最適化を実施し配布 バックアップやスナップショット NFS や SMB でのアクセスが可能なため運用性が優れている ARCHITECTURAL INNOVATIONS

どこにどう使われているか ウェブ企業 通信 製造 / 小売 / 公共 / 金融 IoT/BI/ アナリティックス 難易度 DWH/ETL 最適化 ビッグデータストレージ Web アクセス ネットワーク分析

Hadoop の活用場所 各事業部 -> IT HaaS (Hadoop as a Service) MapR ( 参考 )http://itpro.nikkeibp.co.jp/atcl/news/14/111301899/

Hadoop 構成 Client BI Tableau Nexus 9372PX Hadoop クラスタ Cisco UCS C220/240

MapR+NetApp+Cisco による共同検証構成 MapR UCS C シリーズ SAS 6Gb NetApp ビッグデータソリューション for MapR は ネットアップのストレージ NetApp E シリーズ と MapR の Hadoop ディストリビューション MapR M5 シスコの Cisco UCS サーバー ノーチラス テクノロジーズの分散処理フレームワーク Asakusa Framework を組み合わせたソリューション NetApp E シリーズ

Data Platforms Reference Architecture Data Sources Data Storage and Processing Data Consumption (Mobile / Browser / Data Service) Databases ALL other Sources Data Virtualization (Composite) Experience Toolkit Rapid Prototyping / Light Integration Databases Database N ERP SFDC Docs, Cases, Content, Social Media, Clicksteam Data Security, Infra Customer Network, Product Usage Internet of Everything (IoE) Big Data Platform Hadoop on UCS Machine Learning Data Archiving Data Science Network of Truth Agile Analytics SAP HANA on UCS Predictive Engine Real time BI Mission Critical Reporting Teradata Financial SSOTs Stable core Controlled Change SAP Tableau Oracle Analytics & Modeling HANA Hadoop SAS IBM SPSS Self Service Dashboard Rapid Business Intell. Data Exploration Real time Predictive Data Analysis, Text Analytics Machine Learning,, Statistical Analysis (R) Machine Data Insights (e.g. In supply chain) Mission Critical Operational Reports IT App & System Logs & Config. Operational Intelligence Index & Search (ELK+) Financial Reporting & Extract Operational Intelligence(Splu nk UI)

Cisco IT の Hadoop プラットフォーム コンポーネント コンポーネント Cisco UCS 6248UP 概要 ファブリックインターコネクト サーバに高速で低遅延のネットワーク接続を提供し すべての接続デバイスを UCS Manager にて統合統一管理できるようにします Cisco Nexus 2232PP ファブリックエクステンダー 拡張性が高く非常にコスト効率のよいサーバ収容接続を実現します Cisco UCS C240 M3 Intel Xeon E5-2600 256 GB の RAM 24 TB のローカルストレージ (HDFS 22 TB 2 TB オヘ レーティングシステム ) MapR Cisco Tidal Enterprise Scheduler(TES) ラックマウントサーバ コンピューティング I/O ストレージ容量に関するさまざまな要求に対応するために設計された 2RU サーバです Apache Hadoop ジョブのスケジュール管理とワークロードの自動化 C240 M3 x 16 台

リクルート社 HOT PEPPER グルメ Web のアクセス履歴を分析し会員にオススメのお店を紹介 Web アクセスのログ処理従来 1 週間分が限界 1 年半分のログの処理が可能に 8 万人の会員にしかレコメンドメールが送信できない Hadoop による処理の高速化 全会員 20 万人の会員にレコメンドメールが送信が可能に 広告のクリックされた割合 および Web サイトにアクセス数のうち購入に至った割合が約 1.6 倍に上昇 他の Hadoop の利用例 : バナー広告 自然検索 有料検索エンジン登録などのうちどの集客施作が実際に購入に至ったか分析し 広告の費用対効果結果より予算配分 出展 :http://www.amazon.co.jp/ ビッグデータの衝撃 巨大なデータが戦略を決める - 城田 - 真琴 /dp/4492580964

事例 : 大手クレジット会社 大手クレジット会社 18 ヶ月で $25M の投資 (25 億円 $1=100) 1000 台以上のサーバインストール 18 ヶ月で 2000 台インストール予定 HP が競合 数ヶ月におよぶパフォーマンスベンチマーク争いの結果 UCS を選定 複数のサーバドメインがあり Nexus 7000 を使用してドメイン間を接続 使用例 1 億 400 万のカードメンバーに対するサービス パーソナライズサービス提供によるユーザ体験 満足度の向上 不正利用検知 26

Cisco Hadoop PoC 環境 @ 東京ミッドタウン UCS Manager によるサーバ全体管理 連携 UCS Director Express for BigData Baremetal Agent Red Hat ISO - RHEL6.4 MapR ディストリビューション 10GE PoC メニュー例データはお客様に持ち込んでいただできます 導入 運用管理性 UCS C220 M3 CPU E5-2620 v2 6C/2.10 GHz x 2 Memory 64GB (16GB x 4) HDD 300GB SAS 10K RPM x 8 MegaRAID 9271CV x 1 Cisco VIC 1225 x 1 SQL や BI でのアクセス Hadoop へのデータの出し入れ バックアップ