データマネジメントを取り巻く IT の課題 大規模データの実践的活用に向けて レッドハット株式会社 Senior Solution Architect and Cloud Evangelist 中井悦司 2012/04/13 version1.0
はじめに あなたには何色が見えますか 2
Contents 3 ビジネスにおけるデータの役割 企業データの構造変化とデータマネジメントの課題 これからのビジネスを支える新しいデータ構造 大規模データ活用の現実解にむけて
ビジネスにおけるデータの役割 4
ビジネスモデルが決定するデータ構造 IT システムが扱う データ構造 は それが支える ビジネス構造 から決定されます ビジネス構造 データ構造 データモデル RDB ビジネスがデータ構造を生むのがこれまでの常識 データ構造からビジネスを生むことは可能なのでしょうか 5
ページランク の発見 発明 Google がウェブページの重要度を決定するために使用する ウェブ ページ間の参照構造が ページランク Google はページランクというデータ構造を発見 することで 検索精度を向上させることに成功した Google は検索精度を向上させるために ページランクというデータ構造を発明した どちらの説明が正しいでしょうか 6
データ構造の多様化が生み出す新しいデータストア技術 NoSQL などの新しいデータストア技術が取り 上げられる背景には 従来の RDB では表現 できない構造のデータ を取り扱うビジネス の出現があります データマネジメントを課題を正しく捉えるには データ量の変化だけではなく データ構造の変化 の視点が必要です 列指向 データベース グラフ データベース RDB 7 NoSQL オブジェクト ストレージ
ビジネスの進化とデータ構造の進化 ビジネス特性に応じたデータマネジメントの 手法 ツールの適用が求められます データ構造 複雑 IT 化するビジネスの増加 に伴うデータ構造の複雑化 取り扱うデータの 鮮度 を 担保する手法も考慮が必要 現在のデータマネジメント の課題領域 単純 IT 黎明期の データ領域 少ない 8 新しいタイプのデータを 活用したビジネスの出現 データ量 多い
企業データの構造変化と データマネジメントの課題 9
データ構造の複雑化におけるビジネス要因とは データ構造 複雑 IT 化するビジネスの増加 に伴うデータ構造の複雑化 具体的な複雑化の中身は データマネジメントの課題は 現在のデータマネジメント の課題領域 単純 IT 黎明期の データ領域 少ない 10 データ量 多い
複数視点でのデータ管理に伴う データのサイロ化 ビジネスのさまざまな側面の IT 化に伴ない 異なるデータ構造を持つサイロ 型システムが構築され 結果的に データのサイロ化 が発生しています 販売管理システム 経営情報システム 営業店システム ビジネス構造 CRM カスタマサポート ビジネス構造 ビジネス構造 データ構造 データ構造 データ構造 データマネジメントの主要課題 重複データの整合性確保 データ鮮度の担保 etc... 11
マスタデータの集中管理による解決案 実際のところ 実現容易性は CRM 電話番号 販売管理 システム 会社名 購買記録 型番 名前 商品 カスタマー サポート 地域 所属 価格 在庫数 カテゴリ 経営情報 システム 12 倉庫 営業店 システム
データの移動 複製による管理の発生 ビジネス要求に対する 情報鮮度と柔軟性は 所属 名前 CRM会社名 電話番号 型番 電話番号 販売管理 システム 商品 価格 会社名 カスタマー サポート 購買記録 型番 名前 購買記録 商品 地域 所属 価格 カテゴリ 経営情報 システム 在庫数 カテゴリ 在庫数 倉庫 地域 13 営業店 システム 倉庫
レッドハットの提案 仮想マスタ によるデータ統合 JBoss Enterprise Data Service Platform 企業内のあらゆるデータソースを仮想的に統合する基盤 既存のデータソースを仮想統合し データベースや Web サービスで利用 異種データストアへのリアルタイム読み込み 書き込み 分散データへの単純アクセスによるアプリケーションのスピード開発 データソースの物理構造や論理構造の変化をアプリケーションから隠蔽 物理的に異なるデータソースの依存関係を可視化 集中アクセスコントロール 監査 Web サー ビス データ ベース DWH ODBC Web サービス JDBC AP データ データソース 14 アプリケーション
JBoss EDS が実現する 仮想マスタ によるデータ統合 グローバル営業 販売システム トップ ダウン グローバル顧客 管理システム トップ ダウン 統合マスタ バッチ連携 US マスタ DB 日本 マスタ DB ヨーロッパ マスタ DB 詳細はこの後の セッションでご紹介 15 グローバル営業 販売システム グローバル保守 サービスシステム ボトム アップ 顧客 仮想マスタ 販売 仮想マスタ 考え方はトップダウン 実装はボトムアップ 2 つのアプローチの いいとこ取り を実現 US マスタ DB グローバル顧客 管理システム グローバル保守 サービスシステム サポート 仮想マスタ 仮想化レイア リアルタイム連携 日本 マスタ DB ヨーロッパ マスタ DB 仮想統合 = 必要な情報を必要な時に抽出 リアルタイムで鮮度の高い情報を提供 各システムに合わせた柔軟なデータモデル構築 キャッシュ技術による高速化
これからのビジネスを支える 新しいデータ構造 16
ビジネスの進化とデータ構造の進化 データ構造 複雑 現在のデータマネジメント の課題領域 単純 17 新しいタイプのデータを 活用したビジネスの出現 IT 黎明期の データ領域 少ない 具体的なビジネスの形態は データ構造の特徴は データ量 多い
ビッグデータ と 非構造化データ の神話 ビッグデータ 大量データ 非構造化データ 構造のないデータ 構造のない大量データ にビジネス価値はありません 18 ビジネスの目的に応じて 適切な構 造をもたせることがデータ活用の本 質です 非構造化データ とは 従来の RDB では表現できない構造を持つ データ と捉えるのが正解
新しいデータ構造を生み出したビジネスの例 SNS は ソーシャルネットワークサービス は ネットワーク上の 人間関係 という新しいデータを活用したビジネス そのためのデータを収集するための 仕組み が SNS とは言うものの 新しいデータ構造 データ特性に 対応したデータストアの活用が 求められています 列指向 データベース グラフ データベース 適切なデータストアを どのように選べばよい NoSQL 既存業務データとの 連係 再活用は可能 19 オブジェクト ストレージ
レッドハットの提案 ソフトウェアストレージの活用に よる大量データのアプリケーション連係 レッドハットが目指す ソフトウェアストレージ の特徴 コモディティハードウェアとオープンソース ソフトウェアの組み合わせで 新たなデータ 構造の大量データ処理に最適な ストレージインフラ を実現します ボトルネックを持たないスケールアウト型設計により 大量データへの並列アクセスに対応 複数の API を提供することで さまざまな観点でのアプリケーション処理を実現 レプリケーション機能により 必要なデータを必要なユーザ アプリケーション の下に事 前配置 冗長配置 重複排除 マルチテナンシー ファイル配置の最適化 など NAS Red Hat Storage は オブジェクト 仮想マシン NoSQL ストレージ ディスク データストアの選択にビジネスが束縛されない環境 を実現する新しいソフトウェアストレージ技術 NFS/CIFS REST Hadoop API RHEV API スケールアウト型 ソフトウェアストレージ 20 レプリケーション
大規模データ活用の現実解にむけて 21
大規模データ活用の現状と課題 新たな構造化データ 従来の構造化データ処理 大規模データ 非構造化データは ただ集めるだけ では活用できません 出典 企業システムにおける大規模データの活用と Hadoop の動向 G-CLOUD Magazine 2011 2011/02/11 22
データマネジメントソリューションによる 大規模データ活用 新たな構造化データ 従来の構造化データ処理 データマネジメント技術の活用で 大規模データの 業務連携に向けた 仮説 / 検証 を実現 既存業務とのデータ連携 Red Hat Storage 詳細はこの後の セッションでご紹介 仮想データ統合 ルールエンジン / イベントプロセッシング ビジネスルールに基づく データ抽出 加工 アクション 出典 企業システムにおける大規模データの活用と Hadoop の動向 G-CLOUD Magazine 2011 2011/02/11 23
さいごに あなたの色をみつけましょう 24
WE CAN DO MORE WHEN WE WORK TOGETHER THE OPEN SOURCE WAY