本当に必要なビッグデータ活用インフラはこれだ!! PivotalHD + Isilon が作り出すデータレイク構想東京エレクトロンデバイス株式会社 CN 事業統括本部 2014 年 8 月本掲載内容に関するお問合せはこちらにお願いします東京エレクトロンデバイス株式会社 CN 事業統括本部 TE

本当に必要なビッグデータ活用インフラはこれだ!! PivotalHD + Isilon が作り出すデータレイク構想東京エレクトロンデバイス株式会社 CN 事業統括本部 2014 年 8 月本掲載内容に関するお問合せはこちらにお願いします東京エレクトロンデバイス株式会社 CN 事業統括本部 TEL:03-5908-197

昨今ビッグデータ活用に関する話題はテレビ新聞各種メディアなどでも取り上げられ大きな期待とともに注目されていますその一方でビッグデータ活用を実現するために人データシステムの 3 つの観点で実現しなければならない要素に対する取り組みが必要となってきているのも事実です本資料ではその中でもシステムにフォーカスを当てデータレイクと呼ばれるアプローチにより実現するビッグデータインフラについて解説します < ビッグデータとは?> ビッグデータというと単に大規模なデータを扱うという意味に捉えられがちですですが本当の意味でのビッグデータとはこれまでデータ活の対象としなかったデータをも活対象としそのデータの蓄積処理分析を可能にするシステムとそれを使いこなす人材これらの要素全てを包括したものを指しますこれらの要素が揃って初めて本来の意味を成しそれを実現した企業がビジネスチャンスを出したことからビッグデータという葉が注され始めたといわれていますつまり様々なデータを活していくことこそがビッグデータの本当の意味となります人材組織データサイエンティストなどデータ処理蓄積分析技術 Hadoop NoSQL 機械学習東経解析など非構造化データテキスト動画音声センサー GPS など構造化データ顧客データ売上データなど図 1: ビッグデータの構成要素ビッグデータの活用という観点では従来から基幹システム等で管理利される顧客データや売上データなどの構造化データに加えて今まで活用対象としてられていなかったログデータやセンサーなどの非構造化データも活用対象データとなります加えてそのデータを使いこなすためのシステムと人材計 4 つの要素がビッグデータには含まれます ( 図 1) がこのシステムの部分には多くの技術が登場しておりどの技術が最適なシステムを実現してくれるのか判断が難しくなってきているという課題がありますでは多くの企業ではどういったデータ活がわれているのかを考えてみます < データ活用現場におけるよく聞く声 > データ活そのものは規模のや深さを問わず多くの企業で少なからずわれています全社レベルのデータ活用を実現するまでには小規模なワーキンググループでデータ活用方法と KPI を設定し PDCA サイクルを繰り返し他の部へと範囲規模を拡しながら全社展開していくというアプローチが般的な流れとなっていますしかしこの流れの中でシステムを構築していくため現場レベルではそれぞれが担当する業務に則した使い勝の良い部専のシステムを構築したり新しいプロジェクトのための専システムが構築されたりすることも事実です例えばマーケティング部商品管理経営分析といった部や途に合わせて個別にデータウェアハウスがち上がっている状態が典型ですまさにデータウェアハウスのサイロ化ですさらにそのサイロ化されたシステムからデータを抽出し加工された情報が個人 PC にだけ保存されており有益な情報であるにもかかわらず共有されていないという事もあります現在データ活への注がまる中で新しい気づきが得られるようなデータ分析をう取り組みを開始している企業ではこのサイロ化したシステムが実は大きな問題となっていますデータ活の現場ではきく経営層パワーユーザー管理職般社員の 3 つのプレイヤーに分けられますデータ活への意識がまればまるほど各プレイヤーにより活法のバリエーションは増えますが ( 図 2) サイロ化によりデータが点在するため各が必要なデータがえない活できないという状況がまれ結果としてビックデータ活用の大きな課題となっています ( 図 3) モニタリングツールモニタリングツール ( ダッシュボード ) にて計画に対する達成度の検証戦略修正針の決定経営層パワーユーザー分析ツールデータを使い分析やシュミレーションをい KPI/ 計画値の案経営層一面的なデータだけでなく社外や過去履歴を含めた多面的なデータを使った傾向分析結果が欲しい新しい気づきが得られるような分析データが欲しいオンデマンドでたい観点の分析結果が欲しいパワーユーザー様々な分析手法を試したいが分析対象データが乏しい分析対象データを元管理できていないため理想的な分析がえないレポーティングツールレポーティングツールで KPI/ 計画値を確認しながら日常業務を実施管理職一般社員管理職般社員閲覧可能なデータが限られている環境しかない個々人で好きな観点でデータを使った傾向把握をしたいが元になるデータが散在しているため実現ができない図 2: データ活用者の課題

この点在されたデータの一元管理を実現させさらなる拡張を実現するのがデータレイク構想ですデータレイクとは文字通りデータの湖を作るイメージでデータの元管理を実現する構想ですサイロ化しているデータウェアハスの統合とデータ活用における最適なシステムを実現するという観点で今回 Pivotal 社が提供する Hadoop 製品の PivotalHD と EMC 社が提供するスケールアウト NAS の Isilon 製品が提唱するデータレイク構想を組み合わせたアプローチをご紹介します顧客情報経営分析 DWH <Pivotal のデータレイクの考え方 > Pivotal 社は EMC 社 VMware 社と GE 社 (GeneralElectric 社 ) から共同出資され設された EMC グループ会社の 1 社です EMC VMware 社が開発提供をっていたミドルウエア製品群を集約し EMC グループの第三の柱としてビジネス展開がわれていますその Pivotal 社が手掛ける製品群の中にエンタープライズ向け Hadoop 製品の PivotalHD がデータレイクを実現するソリューションとして提供されています ( 図 4) PivotalHD は ApacheHadoop をベースにした Hadoop 製品ではありますがそのファイルシステムのが持つ高い拡張性に加えて内に格納されたデータを活用の要件に応じてデータ処理エンジンを使い分けることを可能にしデータレイクを実現しています DWH のサイロ化により横断的なデータ分析ができない DWH 外のデータとの連携活用ができない過去履歴を含めた規模データ蓄積環境がないマーケティング部門 DHW 役員マネージャー経営戦略経理財務営業マーケティング外部向け DWH 売上情報分析対象データ図 3: データ活がうまくえないシステム典型例そのデータ処理エンジンには ApacheHadoop で提供される MapReduce Hive Pig などはさることながらストリーミングやインメモリ処理も可能とする機構を備えています中でもビッグデータの活において SQL インターフェースが提供されることは多くの企業に Hadoop を使ったデータ活用の実現ハードルを下げる要素の一つとなりますが PivotalHD はまさにそのハードルを下げる製品で業界標準 SQL をサポートした HAWQ と呼ばれる SQL エンジン活ができるという特を持っています他のエンタープライズ Hadoop 製品の中にも SQL インターフェースを持った製品はありますがこの HAWQ は Pivotal 社が年 GreenplumDB という DWH 用 DB 製品の開発で培った DB エンジンを実装しており性能はもちろん利用可能な SQL 関数も豊富であるため BI/BA ツールや既存の SQL 資産の有効活用を実現します ( 図 5) 部門用 DWH 商品管理 DWH ストリームインジェスチョンストリーミングサービス在庫情報アナリティックワークロード SQL サービスサマリーデータしか扱えない個人 PC に蓄積されているデータが多い分析資産の共有ができないファイルサーバー A ファイルサーバー B ファイルサーバー C ファイルサーバー D メール Web コンテンツアクセスログ M2M SNS 音声画像映像 DataLake: データ処理基盤の基盤要素となるにデータを蓄積あらゆるデータ要件に応じて処理エンジンを使い分ける Pivotal データプラットフォーム DataLake New Data-fabrics Software-DefinedDatacenter 図 4:PivotalDataLake オペレーショナルインテリジェンスインメモリサービス GemFireXD... ETC ランタイムアプリケーションインメモリオブジェクトサービス GemFireXD HAWQ アドバンスドデータベースサービス PivotalHD Enterprise リソース管理 & ワークフロー Yarn Zookeeper Oozie HBase HVE Sqoop Xtension フレームワーク ANSISQL+ アナリティクスカタログサービスダイナミックパイプライニングクエリオプティマイザ Pig,Hive, Mahout MapReduce Flume Command Center コンフィグデプロイモニター管理 Apache PivotalHD 追加機能図 5:PivotalHD+HAWQ

<EMCIsilon( アイシロン ) のデータレイクの考え方 > EMCIsilon( 以下 Isilon) はスモールスタートからリニアに拡張が可能なスケールアウト型 NAS 製品です昨今テクノロジーの進化に伴い様々なプロトコルでデータの取り扱いが可能となる中で Isilon は CIFS/NFS/FTP/HTTP/REST/ など多種多様なプロトコルをサポートしあらゆるプロトコルからのファイルアクセスを可能にするデータレイクを提供していますビッグデータ活用という観点では多種多様なデータを取り込み活用することが求められますが Isilon が備える幅広いインターフェースによりデータの収集とHadoop を利したデータ分析処理をも可能にします ( 図 6) 加えてこのHadoop の利を可能にするインターフェースはデータ活用のみならず Hadoop システムのシステム効率と可性をめることを可能にします具体的には Hadoop システムを構築する場合きくファイルシステムと並列処理機構の2つの観点からサイジングをいますがこのファイルシステム領域をIsilon 側で構築することが可能となるためサイジングが容易になります加えてIsilon が持つ拡張性と可用性によりが持つ拡張メリットを維持しながら可用性図 6:IsilonDataLake の高いの構築を実現します ( 図 7) 高い拡張性全ノード Active で動作するコントローラー複数ノード構成での 1 ボリューム NAS に最小ノード数 : 3 台最大 20PB まで拡張可能 20PB 1)Isilon が持つ高い拡張性最小構成は 3 ノードからスタートでき最大で 144 ノード物理容量 20PB( 実効容量は約 15PB) を 1 つのボリュームとして使うことができます全てのノードには HDD 以外にコントローラとネットワークインターフェースが搭載されており全てのコントローラ ( 全てのノード ) が Active で稼働できるためノード増設とともに全体パフォーマンスが向上していきます必要な時に必要な容量を増設できるスケールアウト型ストレージです 2)Isilon が持つ高い可用性書き込まれるデータはファイル分割されあらかじめ設定された保護レベルに従った数量のパリティデータとともに各ノードに分散書き込みされます Hadoop では 1 つのデータに対して 3 つのレプリカを作成し冗構成を実現していますが Isilon の場合はパリティデータとともに並列分散書き込みをする事でデータ利効率をめながら高い可用性を実現しますまた最大 4 ノード同時障害でも耐えうる保護レベル (N+4) や一般的な NAS でサポートされているようなその他の機能 (SnapShot Replication 他 ) が使えるメリットがあります <Pivotal と Isilon のデータレイクを融合 > これら 2 つのデータレイクの共通項はにあります PivotalHD は上のデータへのアクセスエンジンの利便性をめることで Isilon は上のデータのイン / アウトおよび元管理と拡張を可能にすることでデータレイクを実現しますすなわち汎用ハードウェアで構築する Hadoop システムでは実現が難しかった点を克服するだけではなくさらに使いやすい Hadoop システムを実現するビッグデータプラットフォームを構築できることになります ( 図 8) 高い可用性ファイル分割による分散配置選択可能な保護レベル最大 4ノード同時障害まで対応図 7:Isilon の高い拡張性と可用性分散ファイルシステム 1 3 つレプリカを作成することにより 1 ノードにおけるデータ搭載効率が悪くなる 2 容量要件性能要件を満たすためのサイジングが難しいことがある容量 vs 性能の観点で必要ノード数がマッチしない分散アーキテクチャメリットを残しつつデータ搭載効率をめ更に可用性も担保するシステム EMCISILON + MapReduce 規模分散処理フレームワーク 1 データ処理語 (MapReduce) が専用言語であるため分析ツールからのアクセスが難しい MapReduce エンジニアが少ない 2 枯れたデータ処理語のつである SQL ライクな処理言語 (Hive Pig 等 ) も存在するが汎用 SQL と同等レベルでない性能を含めた処理安定性に不安あり分散アーキテクチャメリットを使いこなし業界標準 SQL に準拠した SQL インターフェース図 8: より使いやすいビッグデータプラットフォーム

<PivotalHD/HAWQ+Isilon 利イメージ > Pivotal と Isilon のデータレイクを使ったビッグデータプラットフォームの利イメージを 2 つご紹介します 1 つ目は Isilon が持つ豊富なインターフェースを利した柔軟なデータ取り込みと活を実現するプラットフォームです ( 図 9) 活用対象のデータの取り込みには CIFS/NFS などのプロトコルを利しファイルサーバー感覚で Isilon にデータを取り込みます取り込まれたデータを Isilon のゲートウェイを利し PivotalHD+HAWQ からアクセスすることにより既存の SQL 資産や BI/BA ツールを用いたデータ活用が可能となります Hadoop 活においてきな課題であるデータの取り込みと活を解決しデータの元管理と柔軟な分析活を可能にするプラットフォームを実現します各種システム SQL アクセスアクセスログ顧客情報購買情報アクセスログ顧客情報購買情報 CIFS/NFS/. OneFS 図 9:PivotalHD/HAWQ+Isilon 利イメージ 1 2 つの利イメージは低スペックマシンにて構築をしてきた Hadoop 環境のシステム効率化を図るイメージです Hadoop のサイジングにおいては性能 (Compute ノード ) とデータ容量 (Data ノード ) の 2 つの軸で検討をいますデータ量の増加やくなる性能要件分析要件の多様化などに対してもサーバー増設により対応ができることが Hadoop のメリットではありますが例えば性能観点では 50 台のサーバーで構成可能であるものの容量の観点では 1 0 台のサーバーが必要となるケースもあり結局サーバー 100 台で構成をする事も珍しくはありません 1 0 台のサーバーで Hadoop システムを稼働させた場合運管理の観点での負荷はくなりがちですそこで Compute ノード Data ノードを担保するシステムを分け Isilon に容量管理の役割を担わせることで効率的なシステムの実現が可能となります加えて Isilon が持つ高い保護機能および高い拡張性により通常の Hadoop システムが持つ拡張性を担保しながらよりい可性でデータの運管理が可能となります ( 図 10) さらに Compute ノード側に PivotalHD+HAWQ を活用することにより既存の MapReduce/Hive 等の資産を有効活用しつつ汎用性の高い SQL を利した新しいデータ活が可能となります Before 低 Spec マシンで SmalStart した Hadoop 環境の大規模化 - 分析データの容量化に伴い性能要件以上のサーバ台数に - システム効率化の観点でオーバーヘッドが多数存在 -MapReduce Hive が使えるエンジニアが必ず必要 After PivotalHD/HAWQ + Isilon にて効率化の図られた利便性の高い Hadoop 環境を実現 -Compute とデータ領域の役割分担でシステム効率化を実現 - 要件に合わせた拡張が可能 - 汎用 SQL の活用が可能なため BI/BA ツールにてアクセスも可能性能増設容量増設図 10:PivotalHD/HAWQ+Isilon 利イメージ 2 EMC ISILON Data

< もっと使える Hadoop を!> まとめになりますがこれまでご紹介した通りビッグデータ活用において重要な要素はデータレイクというアプローチとそれを実現する Hadoop であるということがご理解頂けたかと思いますその Hadoop を使いこなすにはいくつかの越えなければならないハードルがありますが PivotalHD+HAWQ xisilon がそれを実現しますこの 2 つが実現する Hadoop こそがビッグデータの活用につなげるシステムでありまさにもっと使える Hadoop となります (HadoopDistributedFileSystem) 分散ファイルシステム MapReduce 規模分散処理フレームワーク Hadoop 1) 最小 3 つのレプリカを作成することにより 1 ノードにおけるデータ搭載効率が悪くなる 2) 容量性能要件を満たすためのサイジングが難しい - 容量 vs 性能の観点で必要ノード数がマッチしない 1) データ処理語 (MapReduce) が専用言語であるため - 分析ツールからのアクセスが難しい - MapReduce エンジニアが少ない 2) 枯れたデータ処理語のつである SQL ライクな処理減 (Hive Pig 等 ) も存在するが - 汎用 SQL と同等レベルでない - 性能を含めた処理安定性に不安あり PivotalHD+HAWQ xisilon Isilon のインターフェースを活用することにより Isilon が持つスケールアウト NAS としての特を活が可能となりデータ搭載効率の向上とさらにい可性の担保を実現 PivotalHD+HAWQ が持つ分散処理 DB 用 SQL エンジンを機能を使うことにより分散アーキテクチャーである Hadoop システム上で業界標準 SQL に準拠した SQL にて内データへのアクセスを可能に図 11: スモールスタート可能なビッグデータプラットフォーム弊社東京エレクトロンデバイスでは 10 年以上と 6 年以上に渡る Isilon 製品の販売サポートと Pivotal 製品の販売サポートの経験をもとに今後の皆様のビッグデータ活用基盤のご提案構築サポートを提供して参ります

もっと使える Hadoop を!