データ発生源から利用対象のデータを抽出して欠損値処理や名寄せ等の加工を行い蓄積用のストレージに格納する 2 蓄積統合データが利用されるまでの間保管する必要に応じて複数のデータを利用目的に応じた形へ統合結合する 3 分析活用蓄積されたデータに対し BIや統計解析データマイニングなどのツ

特集ビッグデータの利活用ビッグデータの要素技術の動向森井章夫概要クラウドコンピューティングやネットワークの高トラフィック化スマートフォンなどのデバイスの普及を背景にして SNSや動画共有サイトなどのソーシャルメディアや位置情報リアル店舗 eコマース等の商取引情報 IoT M2Mセンサーなど多種多様なビッグデータが日々膨大に生成されているビッグデータを利用することで既存のビジネスの改善や成長に活用しまた顧客の購買行動に合わせたマーケティングや製造設備の故障予測など新たなビジネスに展開しようとする動きが広がりを見せている本稿ではビッグデータを活用するための効率よくデータを収集蓄積し利用するための要素技術ついて 2016年現在の動向を説明する 1. はじめにの興味や関心事を推測して顧客ニーズにマッチしたプロモーションやレコメンドを行うためには構造化データだけではなビッグデータとは Volume データの量 Velocity デーく今後増加するセンサーデータやテキストデータなどの非構タ入出力の速度 Variety データの種類データ発生源の造化データを組み合わせたデータ分析が不可欠でありそれら多様性の３つの特徴を持ち[1] 取引明細や顧客マスタ人を区別なく扱うための要素技術が重要となる事経理などの構造化データの他 WEBシステムのログや表１データの種類 IoT M２M機器から発生するセンサーログソーシャルネットデータの例ワークのテキストデータなどの非構造化データがある国内におけるビッグデータの流通量は２００５年に０４. エクサバイトであったが２０１２年に２２. エクサバイトと７年間で約５５. 構造化データ倍となった[２] 特に非構造化データの増加量が著しく[２] 全世界のトラフィックは２０１６年に年間1.３ゼタバイトになると予測されている[３] この膨大なデータの流通を実現した背景にはコンテンツアプリケーションプラットフォームデバイスの各レイヤーにおける I CTの進展や MVNO Mobile Virtual 非構造化データ顧客データ POSデータ取引明細商品マスタ経理データアンケート選択式入退館記録気象情報会員情報 GPSデータ議事録報告書音声データ動画静止画データ WEBコンテンツ記事アンケート自由回答 WEBアクセスログ防犯カメラの画像センサーログ Network Operator などの安価な回線の普及[4]が後押ししていると考えられるビッグデータの登場より以前からデータウェアハウスや B Business I Intelligence ツールを用いてデータを分析する活動は行われていたがそれは専ら構造化データが対象であった製造設備の故障を予測して予防保守に繋げたり顧客 36 2. ビッグデータの要素技術 2.1 ビッグデータ処理の全体像ビッグデータの処理は一般的に次のプロセスを経て利用目的に合わせた結果を出力する

データ発生源から利用対象のデータを抽出して欠損値処理や名寄せ等の加工を行い蓄積用のストレージに格納する 2 蓄積統合データが利用されるまでの間保管する必要に応じて複数のデータを利用目的に応じた形へ統合結合する 3 分析活用蓄積されたデータに対し BIや統計解析データマイニングなどのツールを用いて結果を出力するデータ利用の目的に応じて次のようにツールを使い分ける B I データの可視化により現状分析を行う場合統計解析データの傾向を算出分類し将来の予測などを行う場合データマイニングデータからこれまで得られなかった新たな知見を見出したい場合第 17 号 2016 特集1 収集加工次節からデータの収集蓄積で用いられる近年の要素技術について説明する 2.2 ストリーム型 ETL/EAI ツール ETL(Extract-Transform-Load)/EAI(Enterprise Application Intelligence) ツールは単一または複数のデータ発生源から対象のデータを収集加工し蓄積用のストレージに格納するアプリケーションである一定間隔でデータを収集するバッチ型のツールの他 WEB アクセスログや位置情報などリアルタイムで生成されるデータを収集する機能に特化したストリーム型のツールがある図 3 に代表的なツールである Pivotal SpringXD を用いた実行例を示すこの例では Twitter Search API を利用して Twitter からデータを取得し Hadoop へ格納しているが SpringXD の内部で JSON ファイルを CSV に変換するなどの加工処理を追加することも可能であるビッグデータ処理 Spring XD Hadoop クラスタデータ収集加工蓄積統合分析活用データ利用 Twitter API 加 1 ビッグデータ処理の流れ図 2 工図 SpringXD の構成収集 on Hadoop データ発生源 ETL/EAI ツール Hadoop/RDB/DWH BI ツール統計解析ツールデータマイニング図 3 SpringXD の実行例 37

2.3 Hadoop ビッグデータの蓄積には構造化非構造化を問わず多種多様なデータを保管できる大量のデータを将来にわたり保管するため保管領域の拡張ができるの 2つの機能が必要であるこれらを満たすツールして Hadoopがある Hadoopは Googleの論文をもとに開発された大規模データの分散処理を支えるソフトウェアフレームワークである Hadoopはデータの蓄積とデータの並列分散処理リソース制御の機能を提供する 1データの蓄積 - (Hadoop Distributed File System: 分散ファイルシステム ) はデータ蓄積の機能を提供する Linuxと似たディレクトリ構造を持ち構造化非構造化を問わずデータを蓄積するはメタ情報を管理する NameNodeとデータを蓄積する複数台のDataNodeから構成される DataNodeを数千台の規模までスケールアウトすることで数ペタバイトのデータを蓄積することも可能であるに投入されたデータは複数のブロックに分割されそれぞれのブロックごとにコピーが作成されるそれらは異なるDataNodeに分散して格納することでデータの完全性を実現しているただしコピー数が 3 のときに同一ブロックを持つ3つの DataNodeが同時に故障した場合はデータ欠損が発生する 2データの並列分散処理 - MapReduce MapReduceは大規模なデータに対する並列分散処理の機能を提供する一般の汎用 OSでは取り扱うことが出来ない数ペタバイトのデータに対しても複数のノードで並列処理することで結果を得ることが可能となる 3リソース制御 - YARN(Yet Another Resource Negotiator) Hadoop2.0 から実装された機能で各ノードのリソースを管理する ResouceManager ジョブを管理する JobHistroyServer 処理ノードを管理する NodeManager で構成される Hadoopはオープンソースとして利用可能であるこの他複数のHadoopディストリビューターが独自実装やHadoop エコシステムを追加した商用版パッケージを提供している商用版パッケージには Cloudera CDH Hortonworks Data Platform Pivotal HDなどがある Hadoopは大量かつ多種多様なビッグデータの蓄積と処理に能力を発揮するが汎用 OSとの違いや Hadoop 特有のデータ処理の仕組みのため利用する際には次の点に注意が必要である 1へのアクセスには専用ツールが必要へのアクセスには Apache Hadoopに同梱されているhdfsコマンドなどのに対応した専用ツールが必要になるこのためデータ収集や分析のツールがに対応する必要がある近年ではに対応したNAS (Network Attached Storage) 製品がリリースされており ( 例 :EMC 社 Isilon) それらを利用するとへのデータ蓄積にSMBやFTPなどの一般的なファイル転送共有のプロトコルを用いることができる 2データの更新が出来ないは一度データを書き込むとそのデータに対する更新が出来ない上のデータを更新する場合には一度対象データをから抽出した後に外部システム側でデータを更新してからへ再ロードする必要がある 3サイズの小さいデータを大量に蓄積するとアクセス効率がマスターノード #1 NameNode マスターノード #2 SecondaryNameNode Resource Manager JobHistoryServer インターコネクトスイッチ ( 10Gbps ) Hadoop クライアントスレーブノード #1 DataNode スレーブノード #2 DataNode スレーブノード #3 スレーブノード #N NodeManager NodeManager Hadoop クラスタ図 4 Hadoop の構成例 38

第 17 号 2016 特悪くなるブロックサイズより小さいデータを大量に蓄積するとメタ情報が大きくなるため NameNode のメモリ使用率が増える結果データへのアクセス効率が低下するこのために蓄積するデータは数ギガバイト ~ 数テラバイトにまとめた方が良い 4Hadoopの技術習得に時間がかかる Hadoop 上のデータを処理するには通常 Javaを用いて MapReduceプログラムを実装する必要がある他に Apache SparkやHiveなどのHadoopエコシステムが開発されているがそれらを利用するには都度新しい技術を習得する必要がある 2.4 MPP 型 RDB 一般的なITシステムで構造化データを扱う場合はリレーショナルデータベース (RDB) がよく用いられるビッグデータにおいても構造化データを扱う場合は RDBを蓄積統合のツールとして用いたほうが既存の対応ツールやスキルが活用できるため効率が良いしかしながら OracleやPostgreなどの代表的なRDBは基本的に単一のハードウェアで稼働するためリソースの拡張に柔軟に対応できない場合がある MPP(Massively Parallel Processing: 超並列分散処理 ) 型 R D B は複数の処理ノードを束ねて一つのデータベースを構成することができるスケールアウト型の RDBである Hadoopと同様処理ノードを追加することで表領域の拡張やデータのロードやクエリの並列分散処理が可能となるこれにより個々の処理ノードの C P U メモリの性能効率を向上させることが出来るこれらの特徴から MPP 型 RDBはデータが膨大になるビッグデータの処理に適している代表的な MPP 型 RDBに Pivotal Greenplum DB HP Vertica がある MPP 型 RDB にはビッグデータの処理に特化するため次のような機能を持つ製品もある 1 列指向型ストア従来の RDB は行指向型のデータ格納方式で特定の行 ( レコード ) に対するアクセスの高速化に特化している一方列指向型ストアは特定の列 ( カラム ) に対する集約処理の高速化に特化しており他の列の読み込みを排除して I/O 負荷を軽減するまた列単位でデータを圧縮してさらなる集計の高速化や表領域の最適化を図ることが可能である行指向型列指向型列 1 列 2 列 3 列 4 列 1 列 2 列 3 列 4 読み出す必要の無いカラムに対してもアクセスを行うため余分な I/O が発生する 2 テーブルの分散配置一つのテーブルを指定した分散キー ( 顧客 ID や製品コードなど ) で分割して各処理ノードに分散配置する顧客ごとの売上点数や合計金額を集計する場合などにおいて集約処理が高速化できる上記のように MPP 型 RDB は大量の構造化データの蓄積や統合処理に能力を発揮する一方非構造化データは RDB では取り扱えないため非構造化データも含めたビッグデータの活用には MPP 型 RDB は不十分である集計対象のカラムのみにアクセスすることで I/O 負荷を軽減する図 6 行指向型と列指向型の違い集39 外部システムデータのロード抽出クエリの実行テーブルクエリの分散負荷分散マスターノード #1 マスターノード #2 インターコネクトスイッチ (10Gbps) セグメントノード #1 セグメントノード #2 セグメントノード #3 セグメントノード #N MPP 型 RDB クラスタ図 5 MPP 型 RDB の構成例

2.5 on Hadoop データ蓄積の基盤としてスケールアウト可能な Hadoopは有益であるが H D F S へのアクセスや M a p R e d u c e の実装などで注意が必要であった一方 MPP 型 RDBは非構造化データが扱えないためビッグデータの利用には不十分であったこれらを解決するために開発された機能が on Hadoopである on Hadoopは上のデータに対しクエリでの操作を実現する機能である WEBアクセスログやTwitter の JSONファイルなどの非構造化データも構造化データと同様にでの操作が可能になるため例えば POSデータに含まれる購買履歴と Twitterのクチコミ情報を組み合わせたデータ分析が実現可能となる代表的な on Hadoopには Apache Hive Cloudera Impara Pivotal HDB(Apache HAWQ) がある図 7に Pivotal HDB(Apache HAWQ) による実行例を示すここでは上のCSVファイルを HAWQの外部テーブルとして定義し SELECT 文を用いて内容を取得している on Hadoopの利用には次の点に注意が必要である 1update delete 文が使えない 2.3 で述べたようには上のデータに対して更新処理が出来ない on Hadoopで扱うテーブルの実体は上の特定のファイルであるためテーブルの特定の行を更新削除することが出来ない 2 高頻度なクエリ処理が不得意自体がJavaで実装された仮想のファイルシステムであるため OracleなどのRDB 専用製品に比べるとパフォーマンスが劣る上記注意点から on Hadoop はRDBの完全な置き換えにはならないしかしながらやMapReduceを考慮することなく Hadoop 上のデータに対して直接で参照することが可能になるため既存のツールやスキルを活用し構造化データと非構造化データを組み合わせたデータ分析が可能になるなどビッグデータの利活用のハードルを下げるものとして近年注目されている 3. まとめ本稿ではビッグデータ処理におけるデータの収集蓄積に関して近年の要素技術を述べたこれらを組み合わせたビッグデータ活用基盤の全体像は図 8のようになる近年では機械学習や人工知能の情報源としてビッグデータが活用されており多種多様なデータを処理できる基盤が求められているリアルタイムなど高速に集約処理する場合には MPP 型 RDBを利用し低速でも大量なデータから結果を得たい場合は on Hadoopを利用するなどビッグデータ活用の目的に応じてツールを使い分ける必要があるまた一般的な I T インフラでは設備コストを抑えるためにクラウドを利用するケースが増えているがビッグデータ処理でもクラウドの利用が始まっているしかしながら Hadoop 図 7 Pivotal HDB の実行例 40

第 17 号 2016 特ビッグデータ活用基盤収集加工蓄積統合分析活用データ発生源 HTTP MQTT 等 SMB FTP 等 ETL EAI 対応 NAS MPP 型 RDB 高頻度アクセスリアルタイム処理 on Hadoop 低頻度アクセスバッチ処理各システム BI 統計解析業務システムデータ利用図 8 ビッグデータ活用基盤の全体像やMPP 型 RDBの製品によっては CPUやメモリネットワーク帯域などの要求リソースが大きくなるためクラウド利用の方がかえってコスト高になるケースもあるデータ分析を短時間で行って利用していない間はインスタンスを停止するオンプレミスで本番環境を構築する前の検証環境として用いるなどデータ分析の目的や利用期間と設備コストを考慮してインフラを選定する必要があるビッグデータの要素技術は日進月歩である社会システムの発展のために中心的な役割を担うビッグデータの活用に貢献するため今後も最新の技術動向に注目していきたい参考文献 [1] Gartner: Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data, (2011) http://www.gartner.com/newsroom/id/1731916 [2] 総務省 : 情報流通蓄積量の計測手法の検討に係る調査研究, (2013) http://www.soumu.go.jp/johotsusintokei/linkdata/ h25_03_houkoku.pdf [3] Cisco Systems: Cisco Visual Networking Index: Forecast and Methodology, 2014-2019 White Paper, (2015) http://www.cisco.com/c/en/us/solutions/collateral/ service-provider/ip-ngn-ip-next-generation-network/ white_paper_c11-481360.html [4] 総務省 :MVNO サービスの利用動向等に関するデータの公表, (2015) http://www.soumu.go.jp/menu_news/s-news/ 01kiban02_02000151.html 本論文には他社の社名商号商標および登録商標が含まれます森井章夫 MORI I Akio 社会システム戦略事業部社会システムプラットフォーム開発部ビッグデータ事業開発に従事集41