単なる ETL では限界 ビッグデータ活用の最初の難関 データ統合 をどうする? ビッグデータ活用の最初の難関 データ統合 をどうする? 真のデータドリブン経営の実現には レガシーシステムを含めたデータ統合が必要になる だが品質を確保するには従来の ETL ツールでは限界がある どうするか ビッグデータ活用が叫ばれて久しいが データウェアハウス ( 以下 DWH) 構築やデータ統合を考えるとき 置き去りにされがちなのが レガシーシステムやメインフレームが管理しているデータだ データ統合を支える技術にはETL(Extract Transform Load) がある ETLは企業内にある複数のシステムからデータを抽出し 変換 加工といった処理を加えてDWHやビジネスインテリジェンス (BI) ツールに受け渡す役割を担う しかしETLツールでデータを統合するとなった場合 出力するファイル数に応じてバッチ処理が必要になり その都度開発が必要になる またバッチ処理をするための時間がかかり スピードが求められるケースでは実用性が下がってしまう 企業が保有する全てのデータから有用な情報を得て 迅速な意思決定を実現するための基盤作りが求められる今日 最初にして最大級の課題となる データ統合 について考える レガシーな技術と最新技術の融合を実現する会社 Syncsortの創業は1968 年 ほぼ半世紀前 ソフトウェアといえばデータベースと運用管理系のソフトが中心で パッケージソフト という言葉が一般的に使われるようになる以前の時代である IBMが本格的な商用データベースとして Information Management System(IMS) を送り出したのが1960 年代後半であるから Syncsortはほぼ同時期に創業したことになる 以来 一貫してメインフレームをターゲットとしたビジネスを展開してきた スタートは データの並べ替え技術の開発であった 1971 年に発表した並べ替えのアルゴリズムを SyncSort と呼んでいたが 後日これが社名となったのである 同社が主力製品ともいえるETLツールである Syncsort DMExpress を発売したのは2004 年 このころからデータ統合の世界へと業務領域を拡大することになる Syncsortゼネラルマネージャーのジェフ クック氏は 企業にオープンシステムが導入され始めたころから ソート ( データの並べ替え ) 技術に加えてビッグデータ領域へとターゲットを拡大してきた と語る 同社がソート技術に求めたものは 速く安く だった データ統合に関してもテーマは変 わらないとクック氏は語る ジェフ クック氏 1
ビッグデータ時代に求められるデータアーキテクチャ DWH からビッグデータ さらにビジネスインテリジェンス (BI) というように データ活用のステージが変化してきている この流れの中で求められているデータアーキテクチャの方向性として Syncsort の日本法人であるシンクソート ジャパン 代表の北川晋 ( すすむ ) 氏は以下の 4 項目を挙げる データを集中したい 保有データを意思決定力に変えたい ガバナンス コンプライアンス セキュリティ標準を維持したい ITという複雑さを取り除きたい 北川晋氏 最適化と効率を追求する Syncsort 長い歴史の中でSyncsortは 買収や協業といった手法でマーケットの拡大を図ってきた 中でも近年 同社の方向性に大きな影響を与えたのが2016 年のTrillium Software 買収だ Trillium Softwareはデータクレンジングや名寄せツールとして高い評価を得ている製品 Trillium を提供している メインフレームのデータをオープン系システムに移行するとき 単純にデータを移し替えるだけでなく Trilliumを利用して移行時にデータプロファイリング ( 可視化 ) とデータクレンジングを実施することで 移行後のデータ活用までのリードタイムを大幅に短縮できる Trilliumは日本語対応が完了しているので 漢字 かななど2バイト文字と欧文用文字が混在したデータであっても 住所 姓名 法人名キーワードなど各種辞書を用いたデータクレンジング機能により 名寄せの際に問題となる表記違いを効果的に解消し 顧客情報整備を短時間で実現できる Syncsort シニアバイスプレジデントのブライアン アシュレー氏は Syncsortが提供する価値は 最適化 (Optimization) と 効率(Efficiency) の2 語に集約できる と語る この2つの特徴を生かすことで 企業がコスト削減を実現する環境を提供する役割を担うのだ ブライアン アシュレー氏 2
データ統合 Hadoop 連携 データオフロードの 3 分野でビジネス展開 これまで登場しているETLツールでは データ移行のプロセスで 場合によっては利用者がプログラムを記述し バッチ処理でDWHにデータを送り込むといった方法を採用してきた しかしトランザクションが膨大なシステムでは 前日のデータのバッチ処理をして翌朝までに分析系のシステムに受け渡すことが難しくなっている 極端な場合 翌朝のシステム稼働までにバッチ処理が終わらないといったことも発生し得る 最近のBIではスピードが求められる しかし従来の方法ではデータ加工 移行 分析といったプロセスに時間がかかり どうしてもリアルタイム性が犠牲になる側面がある その点 Syncsortが提供するツール群は データ統合からデータ加工 データ移行までのプロセスをスピーディーに しかもリソースに掛かる負荷が最低になるよう最適化した環境を提供できる 北川氏は同社製品群の優位性をこう強調する 同社の主要製品群を見ていこう 1. DMExpress を代表とするデータ統合 DMExpress( 以下 DMX) は高速データ処理を実現するツールであり GUI( グラフィカルユーザーインタフェース ) ベースでジョブの設定が簡単に完了する 一般的にはBIツールを利用する際 DWH 内に 分析用に加工したデータを用意しておく必要がある しかし この作業には多大な工数がかかり また高度な技術レベルが要求される DMXを活用することで 多少 ITリテラシーが高いエンドユーザーであれば 自分でジョブを設定し 必要な未加工データを自由に入手できるようになる このユーザーフレンドリーな設計思想は 他のETLツールにはない特徴だとクック氏は言う DMX の処理フロー 3
2. DMX-h による Hadoop 連携 Syncsort DMX-h はDMXの Apache Hadoop 版ということになる Hadoop 上のデータ処理のジョブ作成は DMX-hを利用することで DMX 同様にGUI 環境で作成することが可能だ これにより Hadoop 上でも高度な技術レベルを必要とすることなく簡単に最適な分散処理環境を実装できる しかもWindows 版のDMXで作成し実行したジョブは そのままDMX-h 上で動作が可能だという つまり Windows 環境の最小構成からHadoop 上のエンタープライズ構成に簡単にスケールアウトすることを可能にしたのだ Syncsort DMX-h 3. DMX Change Data Capture がメインフレームデータと Hadoop のデータ同期を実現 このたび新たにリリースした DMX Change Data Capture( 以下 CDC) は メインフレーム OS IBM z/os 用のデータベース管理システム IBM DB2 とHadoopのデータ同期を実現した CDCは全データを DB2からHadoopに転送後 データの変更 追加 削除などの情報をキャプチャーし 変更のあったデータのみを定期的に Hadoopに転送する仕組みだ これにより 既存のメインフレームのデータとオープンシステムのデータをHadoop 上に集結させることを可能にする 特に大手金融機関では FinTechやInsTech( 注 ) などの新たな取り組みにおいて メインフレームとオープンシステムのデータ融合が大きな課題となっている CDCはこの課題を解決する上で 非常に有望なソリューションの1つといえるだろう 注 : 保険 (Insurance) と情報技術 (Technology) をかけ合わせた概念 4
無駄のない形でメインフレームとオープン系のデータ統合を実現 データソースからのデータをBIシステムで使えるものにするまでの間には 現状では幾つものステップが必要だ それぞれのプロセスにはコストも時間もかかっているのは言うまでもない 日本のユーザー企業は ここでリソースが無駄に使われていることに意外と無頓着なことが多い Syncsortの製品群を活用することでその無駄を解消し 最適なシステムを作り上げることができるだろう DWH の最適なシナリオ ビッグデータ時代 意思決定の迅速化に向けて 機械学習などの人工知能 (AI) 技術が着々と地歩を固めている 一方でそれらの最新技術をビジネスに生かすためには 基本となるデータが使えるものになっていなければならない 地味な領域の見過ごされがちな課題だが ここが解決されなければ データドリブン経営 など望むべくもないことを まずわれわれは知るべきなのである 提供 : シンクソート ジャパン株式会社 アイティメディア営業企画 / 制作 :TechTarget ジャパン編集部 2017 年 6 月 30 日 TechTarget ジャパン ビッグデータ活用の最初の難関 データ統合 をどうする? (http://techtarget.itmedia.co.jp/tt/news/1707/05/news01.html) より転載 5