オープンソースカンファレンス 2013 Okinawa オープンソース 超 入 門 2013/07/06 株 式 会 社 日 立 ソリューションズ オープンソース 技 術 開 発 センタ 吉 田 行 男 Mail : obci@nri.co.jp Web: http://www.obci.jp/
自 己 紹 介 経 歴 入 社 当 時 は 金 融 端 末 のソフトウェア 開 発 に 従 事 2000 年 頃 より Linux/OSSのビジネス 開 発 を 担 当 2012 年 より オープンソース 技 術 開 発 センタ センタ 長 現 在 の 業 務 OSSを 活 用 するビジネスのための 支 援 新 しい 技 術 /OSSの 発 掘 評 価 検 証 ビジネス ソリューションの 立 ち 上 げ 支 援 現 在 特 にフォーカスしている 領 域 クラウド 業 務 バッチ 処 理 基 盤 クラウドの 運 用 自 動 化 (CloudStack, OpenStack, ) 仮 想 デスクトップ (VERDE, RHEV-D, ) 既 存 COBOL 資 産 の 活 用 (OpenCOBOL) 業 務 バッチ 処 理 の 高 速 化 (Asakusa Framework) 社 外 活 動 OSSコンソーシアム 副 会 長 兼 クラウド 部 会 リーダ オープンソースビジネス 推 進 協 議 会 (OBCI) 理 事 (セミナー 担 当 ) Linux Foundation SI Forum リーダ 他 1
目 次 1. オープンソース(OSS)とは? 2. オープンソースの 状 況 2
1. オープンソース(OSS)とは? 1. オープンソース(OSS)とは? 3
1-2 オープンソースの 定 義 OSI( 1)が 定 めるオープンソースの 定 義 1 Open Source Intiative(オープンソース 文 化 の 啓 蒙 を 目 的 に 設 立 された 国 際 NPO 法 人 ) 1. 自 由 な 再 頒 布 が 出 来 ること 2.ソースコードを 入 手 できること 3. 派 生 物 が 存 在 でき 派 生 物 に 同 じライセンスを 適 用 できること 4. 差 分 情 報 の 配 布 を 認 める 場 合 には 同 一 性 の 保 持 を 要 求 してもかまわない 5. 個 人 やグループを 差 別 しないこと 6. 適 用 領 域 に 対 する 差 別 をしないこと 7. 再 配 布 において 追 加 ライセンスを 必 要 としないこと 8. 特 定 製 品 に 依 存 しないこと 9. 同 じ 媒 体 で 配 布 される 他 のソフトウェアを 制 限 しないこと 10. 技 術 的 な 中 立 を 保 っていること ポイント オープンソース 著 作 権 を 放 棄 されたソフトウェア ソースコードがインターネット 等 で 公 開 されている 再 配 布 の 自 由 と 改 変 の 自 由 がある 4
1-3 オープンソースの 目 的 なぜ ソースコードを 公 開 するのか? ソースコードを 公 開 し 世 界 中 の 技 術 者 が 同 じソフトウェアの 開 発 に 取 り 組 むことで 機 能 品 質 を 継 続 的 に 向 上 していくことができる 機 能 向 上 オープンソース 品 質 向 上 改 良 公 開 世 界 中 の 開 発 者 達 フィードバック 世 界 中 の 利 用 者 達 ポイント オープンソースの 目 的 はソフトウェアの 機 能 品 質 の 向 上 5
1-4 オープンソース 関 連 組 織 団 体 の 全 体 像 (1) 関 連 組 織 団 体 の 全 体 像 開 発 コミュニティ アプリケーション ソフトウェア (ApacheなどのOSS) GNUソフト ライブラリ コマンド Linuxカーネル ドライバ ISV 日 本 語 フォント/ オフィススイート 等 の 商 用 ソフトウェア ディストリビュータ イ ン ス ト ー ラ 他 デ ィ ス ト リ ビ ュ ー シ ョ ン PFベンダ ハ ー ド ウ ェ ア 動 作 確 認 済 み マ シ ン 非 Linuxマシン 業 務 ア プ リ SIer 構 築 シ ス テ ム ユ ー ザ 運 用 管 理 ソフト 等 の 商 用 ソフトウェア 動 作 確 認 済 み 商 用 ソフトウェア 統 合 ベンダ 6 ( 出 典 : 日 本 OSS 推 進 フォーラム オープンソースソフトウェアが 開 発 コミュニティからユーザに 届 くまでの 仕 組 み より
1-4 オープンソース 関 連 組 織 団 体 の 全 体 像 (2) 開 発 コミュニティ 以 外 によるサポート 提 供 形 態 ユーザ 1 2 3 4 SIer PFベンダ ディストリビュータ 5 総 合 ベ ン ダ 開 発 コミュニティ/ 開 発 企 業 作 業 役 割 ( 例 ) 1 2 3 4 5 ディストリビュー ションの 作 成 ターゲットマシン へのインストール ターゲットマシン での 動 作 確 認 様 々な 機 器 やソ フトウェアを 利 用 したシステムの 提 案 システム 構 築 評 価 運 用 時 の 問 題 切 り 分 け 等 ユーザ ディストリ ビュータ ディストリ ビュータ ユーザ ユーザ PFベンダ (ディストリ ビュータ) ディストリ ビュータ PFベンダ (SIer) ユーザ ユーザ ユーザ PFベンダ (SIer) ディストリ ビュータ 総 合 ベンダ 総 合 ベンダ ユーザ ユーザ ユーザ SIer 総 合 ベンダ ユーザ ユーザ ユーザ SIer 総 合 ベンダ ユーザ ユーザ ユーザ SIer (ユーザ) 総 合 ベンダ (ユーザ) ( 出 典 : 日 本 OSS 推 進 フォーラム オープンソースソフトウェアが 開 発 コミュニティからユーザに 届 くまでの 仕 組 み より ポイント ユーザが 自 己 責 任 の 範 囲 を 選 択 することが 可 能 7
1-5 コミュニティとは? オープンソース コミュニティ 一 般 的 な コミュニティ は 共 同 体 集 団 地 域 社 会 特 定 のオープンソース ソフトウェアの 開 発 や 普 及 活 動 を 行 うことを 目 的 と した 人 々の 集 まり 開 発 コミュニティ オープンソースを 開 発 するコミュニティ ( 例 )Seasarプロジェクト Ruby 開 発 コミュニティ 企 業 がコミュニティを 主 導 する 場 合 もある ( 例 )MySQL(Oracle) JBoss(RedHat) ユーザーコミュニティ オープンソースを 利 用 するにあたり 情 報 交 換 を 行 ったり 日 本 語 ドキュメントの 作 成 を 行 ったりするコミュニティ ( 例 ) 日 本 JBossユーザ グループ 日 本 MySQLユーザ 会 日 本 PostgreSQLユーザ 会 日 本 JasperServerユーザ 会 8
1-6 オープンソースは 大 丈 夫? オープンソースの3つ(+1)の 誤 解 オープンソースは 品 質 が 悪 い? 誤 解 です むしろ 商 用 製 品 よりも 品 質 が 高 いケースもあります 大 規 模 システムへの 導 入 実 績 も 豊 富 です オープンソースは 実 は 高 い? 誤 解 です 利 用 ノウハウがない 場 合 は 有 償 サポートサービスを 活 用 することで リスクを 低 減 しつつ 確 実 にソフトウェアコストを 削 減 できます オープンソースを 扱 えるエンジニアがいない? 誤 解 です 商 用 製 品 を 扱 えるエンジニアであれば オープンソースも 簡 単 に 扱 えます ソースコードレベルのサポートは 有 償 サポートサービスのご 利 用 をお 勧 めします オープンソースは 自 己 責 任? 様 々な 有 償 サポートサービスがあります 有 効 に 活 用 しましょう! 9
2. オープンソースの 状 況 2. オープンソースの 状 況 10
2-1 国 内 市 場 動 向 国 内 ソフトウェア 市 場 動 向 2010 年 の 国 内 ソフトウェア 市 場 は2 兆 1,337 億 2,300 万 円 売 上 額 1 位 はマイクロソフト(シェア 18.3%) 2 位 は 富 士 通 (10.0%) IBMと 日 立 が 同 率 3 位 (6.9%) 2011 年 の 国 内 ソフトウェア 市 場 は2 兆 1,235 億 800 万 円 前 年 比 成 長 率 マイナス0.5% 2011 年 5 月 時 点 の 予 測 から7.6ポイント 上 方 修 正 公 共 / 教 育 向 けやメインフレーム 向 けで 震 災 の 影 響 を 強 く 受 けるも 事 業 継 続 面 からのインフラ 補 強 や 企 業 のグローバル 対 応 の 加 速 が 成 長 材 料 2010 年 ~2015 年 の 年 平 均 成 長 率 は2.5% 2015 年 市 場 規 模 は2 兆 4,168 億 9,700 万 円 と 予 測 2013 年 には2008 年 時 ピークの2 兆 2,572 億 8,000 万 円 を 超 える 見 込 み 出 典 :IDC 国 内 ソフトウェア 市 場 動 向 および 予 測 国 内 オープンソースソフトウェア 利 用 実 態 ユーザー 企 業 におけるオープンソースソフトウェア(OSS)の 最 大 メリットはコスト 削 減 ソリューションプロバイダーの30% 以 上 はOSSプロジェクトが 増 加 傾 向 OSSの 使 用 実 績 の 多 さがITビジネス 売 上 高 の 増 加 に 繋 がっている サポートに 対 する 懸 念 やエンジニア 不 足 の 課 題 を 業 界 挙 げて 解 決 していくことが 必 要 出 典 :IDC 国 内 オープンソースソフトウェア 利 用 実 態 調 査 結 果 11
2-2 OSS 導 入 実 績 調 査 (1) Linux Foundation SI Forumが 実 施 した 2011 年 度 オープンソースソフトウェア 導 入 実 績 調 査 から 1 調 査 概 要 調 査 期 間 :2012/3 ~ 2012/4 調 査 対 象 期 間 :2011 年 度 (2011/4~2012/3) 参 加 企 業 (8 社 ) : 株 式 会 社 日 立 製 作 所 ( 日 立 Grは 日 立 で 纏 めて 回 答 ) 株 式 会 社 アシスト 日 本 電 気 株 式 会 社 /NECソフト 株 式 会 社 日 本 電 信 電 話 株 式 会 社 / 株 式 会 社 NTTデータ デル 株 式 会 社 東 芝 ソリューション 株 式 会 社 日 本 ヒューレット パッカード 株 式 会 社 富 士 通 株 式 会 社 / 株 式 会 社 PFU 12
2-2 OSS 導 入 実 績 調 査 (2) 分 野 結 果 OS / Distribution 仮 想 化 / クラウド DB 関 連 ツール 調 査 結 果 全 体 概 況 クラウド/ 仮 想 化 /ビッグデータ 関 連 OSSの 導 入 実 績 が 急 速 に 進 んでいる 本 年 度 検 証 実 績 があるCloudForms CloudFoundryなどは 来 年 は 導 入 実 績 が 予 想 される Android Debian Ubuntuなどが 導 入 され OS 利 用 の 多 様 化 が 進 行 導 入 実 績 多 数 : CentOS, Fedora, Android, Debian, Ubuntu 等 導 入 実 績 あり : LKST, opensuse, Vine Linux クラウドビジネス との 融 合 により 大 規 模 な 仮 想 化 環 境 の 導 入 が 必 要 クラウドインフラの 費 用 を 圧 縮 するためOSSのツールへの 移 行 が 進 展 導 入 実 績 多 数 : KVM, Xen, OpenStack 導 入 実 績 あり : ovirt, VirtualBox, CloudStack, QEMU 等 昨 今 のクラウド ビッグデータビジネスの 影 響 を 色 濃 く 反 映 Hadoopの 導 入 実 績 の 増 加 に 合 わせ 関 連 ツール 類 も 増 加 導 入 実 績 多 数 : PostgreSQL MySQL 導 入 実 績 あり : CDH memcached 13
2-2 OSS 導 入 実 績 調 査 (3) 最 も 積 極 的 に 投 資 が 進 む 分 野 でOSSの 活 用 が 活 発 クラウド ビッグデータ 分 野 OSSツール 導 入 実 績 社 数 クラウド OpenStack 3 CloudStack 2 Eucalyptus 3 ビッグデータ Apache Hadoop 4 Apache Hbase 5 ITのトレンドはOSSが 主 導 し ベンダが 追 従 する 14
(*) 代 表 的 なOSSの 一 覧 代 表 的 なOSSの 一 覧 カテゴリ OS 仮 想 化 ネットワーク セキュリティ ファイルサーバ 運 用 管 理 開 発 テスト DB 関 連 ツール Web APサーバ Desktop OSS Linux FedoraCore CentOS Android opensuse Debian KVM Xen DHCP Asterisk OpenSSH OpenSSL Squid BIND FreeRADIUS OpenSSH OpenSSL Samba NFS WebDAV Samba SWAT Hinemos MRTG OpenLDAP OpenSSO Zabbix Hibernate Perl PHP RubyStruts exo Platform Apache DB OpenOLAP MySQLPostgreSQL Apache Jboss Tomcat zimbra exo Platform Firefox openoffice.org Thunderbird OSSはたくさんの 種 類 があり 上 記 は 代 表 的 なOSSの 一 部 Linuxの 普 及 促 進 団 体 であるThe Linux Foudationが 安 心 して 活 用 できるオープンソースソフト ウェアとして 現 時 点 で 選 別 しているものだけでも 約 400 種 類 存 在 15
(*)2008 年 ~2010 年 まで 継 続 的 に 使 われているOSS Apache Ant Python Dbunit PukiWiki Apatche Samba Eclipse WTP qmail BIND Squid fml qpopper CentOS Apache Struts GanttProject RRDTool CVS Subversion gimp Seasar (S2DAO) Eclipse Apache Tomcat Hibernate Selenium FedoraCore Trac Apache Jakarta sendmail Firefox vsftpd Apache Log4J SQLite Apache JMeter Xen MRTG swatch MySQL rsync MySQL Thunderbird Administrator OpenLDAP ab (apachebench) Nagios Tortoise SVN OpenSSH analog Namazu Ubuntu OpenSSL Apache XML NET-SNMP Ultra Monkey Perl bonnie Openoffice.org VNC PHP Bugzilla OpenOLAP webmin Postfix CACTI OpenPNE WIRESHARK PostgreSQL Courier-IMAP pgadmin III Xoops 企 業 が 中 心 となって 支 援 しているOSS 団 体 が 中 心 となっている 支 援 しているOSS 16
2-3 オープンソースの 利 用 状 況 各 業 界 の トップ 企 業 グループ での 利 用 状 況 業 種 大 手 銀 行 地 銀 信 用 金 庫 大 手 証 券 会 社 大 手 自 動 車 メーカー 大 手 自 動 車 部 品 メーカー 大 手 電 子 機 器 メーカー 大 手 家 電 メーカー 大 手 化 学 メーカー 通 信 会 社 電 力 会 社 電 力 会 社 グループ 企 業 大 手 流 通 業 大 手 商 社 大 手 メディア 企 業 大 手 システムインテグレーター 利 用 しているオープンソース Tomcat / JBoss 他 JBoss / MySQL 他 PostgreSQL 他 Apache / Tomcat / JBoss / OpenAM / Liferay 他 Tomcat / JBoss / MySQL / OpenAM / Liferay 他 Tomcat / Subversion / OpenAM 他 Tomcat / PostgreSQL 他 Tomcat / JBoss / OpenLDAP 他 JBoss / PostgreSQL / OpenAM / Liferay 他 Apace / JBoss / Liferay 他 JBoss / MySQL 他 JBoss / MySQL 他 各 種 OSS 事 例 多 数 17 (OBCI オープンソースカンファレンス2013 Tokyo/Spring OSS 超 入 門 )
2-4 オープンソースの 適 用 状 況 OSからミドルウェア 業 務 アプリケーションの 領 域 へ アプリケーション 領 域 CRM SugarCRM ERP Compiere / ERP5 オフィススイート シングルサインオン OpenSSO ポータル Liferay Bi Jaspersoft OpenOffice ミドルウェア 領 域 アプリケーションサーバー Tomcat / JBossAS データベース MySQL / PostgreSQL Webサーバー Apache スマートフォン 用 プラットフォーム Android オペレーティング システム オペレーティングシステム Linux 情 報 家 電 向 けLinux サーバ 領 域 端 末 領 域 18 (OBCI オープンソースカンファレンス2013 Tokyo/Spring OSS 超 入 門 )
1.ビッグデータ 時 代 の 到 来 1.1. 大 容 量 化 多 様 化 するデータ 1.2. 未 活 用 情 報 に 眠 る 価 値 1.3. ビッグデータを 活 用 するためのテクノロジー 19
1.ビッグデータ 時 代 の 到 来 1.1. ビッグデータ 市 場 動 向 ビッグデータの 市 場 動 向 国 内 ビッグデータ 技 術 /サービス 市 場 は 黎 明 期 今 後 の 成 長 率 も 高 い ビッグデータ 市 場 規 模 ( 億 円 ) 2011 年 度 1,900 億 円 2020 年 度 1 兆 円 CAGR 21.0% (2011 年 ~2020 年 ) 出 典 : 矢 野 経 済 研 究 所 ヒ ック テ ータ 市 場 に 関 する 調 査 結 果 2012 ビッグデータの 認 知 度 実 活 用 メリットや 手 法 の 理 解 はまだまだ 低 い 動 向 調 査 認 知 度 ビッグデータ 活 用 の 検 討 ビッグデータ 活 用 ITシステム 導 入 済 国 内 企 業 1,050 社 情 報 システム 部 門 56.8 % 業 務 部 門 31.1 % 13.6 % 2.6 % 20 出 典 :IDC Japan 2012 年 国 内 ヒ ック テ ータテクノロシ ー/サーヒ ス 市 場 需 要 動 向 分 析
1.ビッグデータ 時 代 の 到 来 1.1. 大 容 量 化 多 様 化 するデータ 1.2. 未 活 用 情 報 に 眠 る 価 値 1.3. ビッグデータを 活 用 するためのテクノロジー 21
1.ビッグデータ 時 代 の 到 来 1.2. ビッグデータの 定 義 特 徴 ビッグデータの 定 義 と 特 徴 Volume ( 容 量 ): 従 来 の 技 術 による 処 理 量 を 超 えた 大 容 量 テ ータ Variety ( 種 類 ): 画 像 / 音 声 /ロク など 非 構 造 化 テ ータ Velocity ( 頻 度 スヒ ート ): テ ータ 生 成 / 分 析 の 高 速 化 リアルタイム 化 Value ( 価 値 ): 分 析 & 利 活 用 で 経 済 的 価 値 が 発 生 ビッグデータの 課 題 的 特 徴 非 構 造 化 テ ータ ビッグデータの 特 徴 定 型 テ ータ 構 造 化 テ ータ テ ータ 種 類 の 多 様 化 テ ータ 容 量 の 増 加 固 定 長 テ ータ 画 像 / 映 像 テ ータ 非 固 定 長 テ ータ 価 値 データ 分 析 から 発 見 創 出 センサテ ータ 手 入 力 テ ータ 定 期 発 生 テ ータ テ ータ 発 生 頻 度 スヒ ート の 高 速 化 プライバシーなどのコンプライアンス: 各 種 情 報 の 組 合 せによって 個 人 特 定 などが 可 能 な 情 報 が 生 成 される 分 析 データの 取 り 扱 い: データ 分 析 する 際 に 利 用 するデータは 自 社 データのみでない 事 も 多 い また 分 析 されたデータをマネタイズするのは 自 社 のみではない 事 もある 22
1.ビッグデータ 時 代 の 到 来 1.1. 大 容 量 化 多 様 化 するデータ 1.2. 未 活 用 情 報 に 眠 る 価 値 1.3. ビッグデータを 活 用 するためのテクノロジー 23
1.3. ビッグデータを 活 用 するためのテクノロジー 1.3.1 ビッグデータをささえる 新 技 術 と 従 来 技 術 の 関 係 大 量 データの 分 析 のための 分 散 コンピューティング 技 術 やストリームデータ 処 理 技 術 が 新 領 域 として 出 現 データ 量 分 散 コンピューティング 技 術 の 適 用 領 域 ストリームデータ 処 理 技 術 の 領 域 並 列 DB (SQL) RDB クラスタ 大 規 模 非 構 造 データ 対 応 の 分 散 処 理 フレームワーク - Hadoop (HDFS/HBase/Pig/Hive 等 ) - 日 立 グリッドバッチ (ucosminexus Grid Processing Server) NoSQLデータベース Key-value-Store ドキュメント/カラム/グラフ 型 指 向 ストリーム データ 処 理 RDB (SQL) COBO L バッチ RDB 画 像, 地 図, XML 検 索 データ 蓄 積 や 文 字 列 分 析 DWH, BI, ETL (ucosminexus Stream Data Platform) 24 蓄 積 検 索 (OLTP) 処 理 組 み 込 み SQLバッチ 処 理 バッチ 処 理 画 像 検 索 処 理 XML 検 索 処 理 文 書 メール 非 定 形 データ 蓄 積 分 析 処 理 データ 収 集 分 析 処 理 リアルタイム 処 理
1.3. ビッグデータを 活 用 するテクノロジー 1.3.2 大 量 データ 処 理 をささえる 分 析 技 術 多 様 化 するニーズを 網 羅 する 日 立 の 技 術 と 適 用 分 類 情 報 系 基 幹 系 ストリーム データ 処 理 Hadoop グリッドバッチ リアルタイム 処 理 バッチ 処 理 ニーズ 技 術 製 品 特 徴 25 膨 大 なデータを 分 析 したい OSSを 活 用 し 安 価 な 分 析 シス テムを 作 りたい 既 存 のバッチを 高 速 化 したい 基 幹 バッチを 高 速 化 大 容 量 化 をしたい 大 量 の 処 理 依 頼 に 対 するリアル タイムレスポンス Hadoop (オープンソース) グリッドバッチ (ucosminexus Grid Processing Server) ストリームデータ 処 理 (ucosminexus Stream Data Platform) ログデータ 等 の 非 構 造 化 データ の 高 速 な 分 析 OSSで 構 成 しライセンス 料 安 い バッチ 処 理 の 大 幅 な 時 間 短 縮 基 幹 でも 対 応 できる 高 い 可 用 性 障 害 の 局 所 化 継 続 的 に 流 れるデータを 瞬 時 に 分 析 処 理 OSS:Open Source Software
2.Hadoopとパラダイムシフト 2.1 Apache Hadoop 概 要 2.2 Hadoopがもたらすパラダイムシフト 26
2.1 Apache Hadoop 概 要 2.1.1 Apache Hadoop 概 要 とは 米 Google 社 の 大 規 模 計 算 技 術 を 基 にオープンソース 化 (Apache) 大 規 模 データ 分 析 の 従 来 の 課 題 : (1) 時 間 内 で 計 算 する (2) 並 列 処 理 の 枠 組 み (3)データの 可 用 性 向 上 Google MapReduce GFS ( Google File System ) Hadoop MapReduce HDFS (Hadoop Distributed FileSystem) 大 量 データを 効 率 的 に 分 散 処 理 するためのJavaソフトウェア 基 盤 サーバを 大 量 に 並 べ 並 列 処 理 を 行 うことで 高 速 計 算 や スケールアウトの 容 易 性 を 実 現 スケールアウトにより 高 速 化 国 内 外 の 多 くの 企 業 が 積 極 的 に 利 用 米 Yahoo! : 世 界 最 大 規 模 でHadoopを 利 用 (25,000 台 82PBデータ 3 年 分 のログ 分 析 を20 分 で 処 理 ) Facebook : 巨 大 ストレージと 分 析 基 盤 に 利 用 (36PBのデータ 保 存 1 日 約 90TBのデータ 処 理 ) VISA : 不 正 カード 利 用 分 析 実 施 (340TBの 分 析 が1ヵ 月 から13 分 に 短 縮 ) JP Morgan : 拡 張 可 能 ストレージと 分 析 基 盤 に 利 用 (RDMSの 費 用 削 減 ) 楽 天 : 会 員 向 けレコメンデーションに 利 用 (4,000 万 会 員 2 億 件 の 分 析 が5 日 間 から5 時 間 に 短 縮 ) N.Y. Times : 書 籍 のOCRとPNG 変 換 (Amazon EC2で4TB80 万 枚 を36 時 間 で 変 換 ) 27
2.1 Apache Hadoop 概 要 2.1.2 HDFS, MapReduceの 構 成 Hadoopの 主 なソフトウェアコンポーネント HDFS(Hadoop Distributed File System) 複 数 のサーバのHDDを1つの 巨 大 なボリュームに 見 せる 分 散 ファイルシステム MapReduce 複 数 のマシンでの 並 列 処 理 を 実 現 するフレームワーク 従 来 の 処 理 方 式 データ ディスク I/Oが ボトル ネックと なる Hadoopの 処 理 方 式 データ データを 自 動 的 に 分 割 し 分 散 配 置 を 行 う マスター サーバ HDFS 処 理 プログラム ディスクI/O が 分 散 される Map Reduce Map Reduce Map Reduce 複 数 のサーバで 1つの 論 理 FSを 構 成 処 理 結 果 処 理 結 果 並 列 分 散 処 理 を 行 うプログラム 28
2.1 Apache Hadoop 概 要 2.1.3 Hadoopの 適 性 データ 規 模 だけでなく システム 要 件 / 業 務 要 件 も 考 慮 が 必 要 Hadoopに 適 しているもの 大 量 データを 全 件 走 査 するバッチ 処 理 数 値 に 加 え 文 字 列 の 処 理 や マルチメディア 処 理 まで 対 応 可 能 テラバイト/ペタバイト クラスの 大 量 データの 分 析 処 理 大 量 データの 情 報 系 システム(レポート 業 務 が 基 幹 業 務 の 場 合 は 除 く) データ 量 が 増 大 するシステム(サーバ 追 加 でスケールアウト 可 能 ) 大 量 データから 価 値 情 報 を 見 つけるBI 的 な 使 い 方 (Hive/Pigの 利 用 ) Hadoopに 適 さないもの 小 さいサイズ/ 件 数 のデータ 処 理 ( 実 行 する 前 処 理 のオーバーヘッドがある) トランザクション 処 理 (RDBのようなトランザクション 処 理 機 能 はない) データを 分 割 し 個 々 処 理 した 場 合 に 結 果 が 同 じにならない 分 析 処 理 データへランダムアクセスする 処 理 リアルタイム 処 理 やクイックレスポンスが 求 められるもの 基 幹 システムや 情 報 系 システムの 信 頼 性 を 求 められるバッチ 29
2.Hadoopとパラダイムシフト 2.1 Apache Hadoop 概 要 2.2 Hadoopがもたらすパラダイムシフト 30
2.2 Hadoopがもたらすパラダイムシフト 2.2.1 Hadoopがもたらすパラダイムシフト Hadoopにより これまで 敷 居 の 高 かった 大 量 データの 分 析 が どこでも 誰 でも どんな 規 模 からでも 実 現 可 能 になります ハードウェア エンタープライズ 向 け サーバ ストレージ ミッドレンジ 向 け サーバ ストレージ コモディティサーバ ストレージ CPUやHDDの 性 能 が 飛 躍 的 に 向 上 し 高 機 能 なPCが 廉 価 で 容 易 に 手 に 入 れられる 時 代 ソフトウェア エンタープライズ 向 け 専 用 ソフトウェア 商 用 ソフトウェア 汎 用 ソフトウェア オープンソース ソフトウェア OSS 利 用 のノウハウの 高 まりに よって 敬 遠 傾 向 から 積 極 的 な 活 用 傾 向 へ 転 換 している 従 来 高 価 なシステム 大 量 データの 取 り 扱 いには 高 価 な システム 環 境 構 築 が 必 須 高 度 な 技 術 専 用 ソフトウェアと 高 度 な 分 析 手 法 などスペシャリストが 必 須 Hadoopによる パラダイムシフト コモディティ 化 システム 高 価 な 機 器 大 規 模 な 設 備 が 無 くと も PB 級 のデータが 取 り 扱 える オープンでグローバルな 技 術 世 界 中 の 誰 でも 入 手 利 用 できる 技 術 やノウハウで 高 度 な 分 析 も 大 量 データの 取 り 扱 いも 可 能 31
2.2 Hadoopがもたらすパラダイムシフト 2.2.2 Hadoop 利 用 により 得 られる 価 値 Hadoopを 利 用 することで より 大 量 なデータを 短 時 間 で 処 理 可 能 となり 新 しい 価 値 が 生 まれます BtoC/ネット センサ 等 の 社 外 情 報 への 利 用 拡 大 社 内 より 大 量 なデータを 対 象 に センサ 情 報 分 析 対 象 データ 範 囲 の 拡 大 SNS 情 報 Web 公 開 情 報 社 外 1 年 分 10 年 分 よりリアルタイムに より 多 様 なデータを 対 象 に レポート 作 成 処 理 30 分 12 時 間 月 次 日 次 作 成 へ メール グラフ 情 報 配 信 15 分 間 隔 6 時 間 間 隔 1 日 4 回 配 信 15 分 おきの 配 信 へ RDB 動 画 文 書 32
4. Hadoop 動 向 と 活 用 事 例 4.2 Hadoopの 動 向 Hadoopの 利 用 機 能 と 利 用 シーン(ニーズ)の 変 化 Hadoopコアコンポーネント Hadoopコアコンポーネント HDFS MapReduce HDFS MapReduce + 一 部 のHadoop 関 連 プロジェクト 変 化 + 各 種 Hadoop 関 連 プロジェクト Hive Pig Hive Pig Flume Sqoop HBase Zookeeper 33 スケールアウト 可 能 な 分 散 ファイルシ ステム(HDFS)と 並 列 処 理 実 行 (MapReduce)による トライアル 的 な 利 用 中 心 並 列 処 理 を 容 易 に 操 作 する 為 一 部 の 関 連 プロジェクトの 利 用 実 データ 分 析 による ビジネス 活 用 の 開 始 データ 収 集 や 視 覚 化 などのシステム 設 計 を 含 めた 各 種 プロジェクト 利 用 実 運 用 レベルでの 活 用 に 向 けた 信 頼 性 可 用 性 設 計
4. Hadoop 動 向 と 活 用 事 例 4.3 Cloudera 社 のCDH/Cloudera Enterprise Cloudera 社 について Apache Hadoopの 商 用 ディストリビューションを 開 発 提 供 している 企 業 Hadoopの 開 発 者 Doug CuttingがCloudera 社 のチーフアーキテクト Hadoopビジネスで 最 も 有 名 な 企 業 であり Cloudera 社 のCDHやCloudera Enterpriseは 世 界 中 で 最 も 多 く 利 用 されている CLOUDERA ENTERPRISE THE PLATFORM FOR BIG DATA 管 理 ソフトウェア &サポート Cloudera Manager Cloudera Support CDH (Cloudera's Distribution including Apache Hadoop) HDFS MapReduce ZooKeeper MapReduce2 HBase Hive Pig Impala CDH OSS 100% Open Source Flume Oozie Sqoop Mahout Hue Whirr ClouderaEnterprise(Core) ClouderaEnterprise(RTD) ClouderaEnterprise(RTQ) 日 立 ソリューションズでは 2012 年 10 月 にCloudera 株 式 会 社 と 販 売 代 理 店 契 約 を 締 結 34
4. Hadoop 動 向 と 活 用 事 例 4.4 Hadoopの 進 化 進 化 が 続 くHadoop(CDH/Cloudera Enterprise)の 動 向 2011 年 4 月 ~ 2012 年 6 月 ~ 2013 年 6 月 頃 登 場 (?!) CDH3 進 化 CDH4 進 化 CDH5 進 化 単 一 障 害 点 (SPOF)の 解 決 次 世 代 フレームワーク MapReduce2(YARN)の 搭 載 フェデレーションサポートでよ り 大 規 模 化 に 対 応 リアルタイムクエリ Impala の 搭 載 HA 機 能 の 強 化 完 全 化 セキュリティ 強 化 等 予 定 情 報 更 なる 関 連 プロジェクト 追 加 や 品 質 向 上 等 Cloudera Manager 3 Cloudera Manager 4 35 高 度 な 運 用 管 理 システム 監 視 機 能 のサポート システム 一 元 管 理 機 能 の 強 化 と 容 易 性 向 上 ダウンロード 数 [CDH] 8,000 超 / 月 [Cloudera Manger] 4,000 超 / 月
4. Hadoop 動 向 と 活 用 事 例 4.5 Hadoopの 活 用 事 例 ~ 利 用 者 共 通 の 目 的 Hadoop 基 礎 機 能 の 利 活 用 大 量 データを 利 用 可 能 なフレームワークへの 期 待 ペタバイト 級 データを 実 際 に 利 活 用 しているメジャー 企 業 の 実 績 数 千 ノードまで 拡 張 可 能 なスケールアウト 性 ハードウェア ソフトウェアとの 高 い 親 和 性 多 種 H/Wでの 稼 働 実 績 多 様 なS/Wとの 接 続 性 スケールアウトで 大 容 量 化 & 高 速 化 OSSとしてのHadoopの 魅 力 グローバルで 利 活 用 可 能 な 共 通 基 盤 としての 期 待 世 界 の 何 処 でも 共 通 基 盤 化 できる(グローバル 展 開 ディザスタリカバリ 等 ) 世 界 の 誰 もが 開 発 保 守 できる ( 維 持 保 守 の 低 コスト 化 等 ) オープンソースに 対 する 意 識 の 変 革 品 揃 え 機 能 の 充 実 品 質 の 高 まりに 対 する 認 知 度 向 上 事 例 問 題 解 決 各 種 ノウハウが 多 く 容 易 に 入 手 可 能 36
4. Hadoop 動 向 と 活 用 事 例 4.6 Hadoopの 活 用 事 例 ~ 個 別 事 例 1~ 金 融 機 関 での 事 例 背 景 対 応 今 後 37 サイトのアクセス 統 計 は 取 得 し ているが 実 操 作 の 動 線 や 離 脱 状 況 理 由 が 把 握 できない 現 システムに 手 を 加 えず( ログ 強 化 やビーコン 埋 込 み 等 ) データ 分 析 で 効 果 あるサー ビス 施 策 やサイト 改 修 をしたい 非 定 型 ログをHadoopで 全 走 査 でクレンジングし ユーザ 毎 の 操 作 をレコード 生 成 実 動 線 レコードとは 別 に 動 線 のパターン 化 離 脱 箇 所 特 定 画 面 毎 の 滞 在 時 間 を 算 出 し WEBアプリからアクセス 可 能 なHBaseに 格 納 ユーザ 操 作 の 実 動 線 とパターン 離 脱 箇 所 や 滞 在 時 間 を 可 視 化 9sec 15user X Y Z A B C ハ ターン3 9sec 11sec 15user 12user 80user 40user 45user 23sec 10sec 52sec D ハ ターン4 正 常 系 ハ ターン1 20user[25%] ハ ターン2 10user[12%] 離 脱 系 分 析 した 事 実 情 報 を 二 次 分 析 し 新 たな 知 見 発 掘 へ - 他 データとの 相 関 分 析 - 機 械 学 習 などの 数 理 分 析 ログ 収 集 などの 安 全 且 つ 確 実 な 自 動 化 - Flume(CDH)の 利 用 即 時 利 用 結 果 取 得 可 能 な アドホック 分 析 の 実 現 - Imapala(CDH)の 利 用 日 立 ソリューションズの 技 術 金 融 機 関 の 最 高 レベルの 機 密 デー タ を 保 持 する 高 機 密 度 システム 構 築 高 可 用 高 信 頼 システムの 構 築
4. Hadoop 動 向 と 活 用 事 例 4.7 Hadoopの 活 用 事 例 ~ 個 別 事 例 2~ 通 信 事 業 での 事 例 背 景 対 応 通 信 機 器 からの 大 量 ログを 長 期 間 確 実 に 保 持 したい - 毎 時 250GBを4ヵ 月 保 管 した 大 量 ログの 検 索 マッチングを 高 速 に 実 施 したい - 最 大 1PBytes Hadoopを 大 規 模 ストレージとして 利 用 し データの 冗 長 性 を 担 保 Hadoopの 多 クラスタ 構 成 により 障 害 時 も24 時 間 365 日 の 確 実 なデータ 保 管 を 実 現 240nodes/クラスタ(1,000nodes 超 / 全 クラスタ) の 超 大 規 模 な 並 列 分 散 処 理 環 境 により 高 速 処 理 を 実 現 参 考 : 処 理 時 間 15TBのログ 全 件 検 索 と50GBのログマッチング:40 分 38 日 立 ソリューションズの 技 術 Hadoopを 多 クラスタ 構 成 で 構 築 運 用 JP1を 利 用 したジョブ 制 御 稼 働 監 視 などの 運 用 管 理 国 内 トップクラスの 大 規 模 クラスタ 構 築 時 のHadoop 設 計 実 構 築 の 技 術 技 術 的 ポイント 100nodes 以 下 でも パラメタ 設 計 な どは 独 特 の 技 術 やノウハウが 必 要 100nodesを 超 えると システム 設 計 にまで 及 ぶ 課 題 やノウハウが 出 現
4. Hadoop 動 向 と 活 用 事 例 4.8 Hadoopの 活 用 事 例 ~ 個 別 事 例 3~ 日 立 社 内 活 用 例 背 景 対 応 セキュリティ 事 故 防 止 のため インターネット 接 続 先 サイトの 規 制 を 行 っているが 各 種 の 見 直 しをしたい - ネット 情 報 利 用 の 重 要 性 利 便 性 と セキュリティ 規 制 のバランス 確 保 - 運 用 部 門 と 実 利 用 部 門 のコスト 低 減 膨 大 なデータに 含 まれる 様 々なノイズを Hadoopで 高 速 にクレンジングすることで 分 析 精 度 を 向 上 膨 大 なデータ 蓄 積 集 計 基 盤 としてHadoopを 活 用 参 考 : 処 理 時 間 数 十 台 のWebサーバのアクセスログ 1 週 間 分 を 60 分 以 内 にクレンジング/ 集 計 39 利 用 状 況 を 分 析 し 規 制 解 除 の 自 動 化 適 正 な 判 断 をスピーディに 実 現 利 用 者 部 門 情 報 量 増 加 による 業 務 効 率 改 善 規 制 解 除 などの 事 務 作 業 低 減 運 用 部 門 自 動 化 による 人 為 的 ミス 解 消 規 制 解 除 に 関 する 各 種 事 務 作 業 の 低 減 分 析 データを 利 用 した 情 報 漏 洩 事 故 やコンプラ イアンス 違 反 の 検 知 予 兆 の 実 現 サイト 利 用 利 用 側 状 況 収 集 分 析 レホ ート 運 用 側 蓄 積 集 計 分 析 見 直 し
4. Hadoop 動 向 と 活 用 事 例 4.9 Hadoopの 活 用 事 例 ~その 他 ~ Cloudera Manager 関 連 Hadoopクラスタの 新 規 構 築 スケールアウト 運 用 で 非 常 に 便 利 長 時 間 画 面 を 眺 めての 作 業 1 台 1 台 の 操 作 からの 解 放 設 定 変 更 時 のヒューマンエラーを 解 決 GUIならではの 可 視 性 の 高 い 性 能 / 稼 働 監 視 容 易 な 操 作 性 使 いこなすにはコツとノウハウが 必 須! 機 能 追 加 改 善 ペースが 速 い 豊 富 な 機 能 多 くのパラメタと 設 計 が 必 要 日 立 ソリューションズの 技 術 実 運 用 レベルでの 利 活 用 実 績 と 経 験 Cloudera Manager V4.1.2の 全 パラメタ( 約 800 項 目 ) 調 査 による 裏 付 けある 活 用 Free 版 /Enterprise 版 のリソース 設 計 システム 設 計 のノウハウ 40
4. Hadoop 動 向 と 活 用 事 例 4.10 Hadoopを 利 用 したバッチ 処 理 高 速 化 ノーチラス テクノロジーズ 社 Asakusa Framework によるバッチ 高 速 化 Asakusa Frameworkは ノーチラス テクノロジーズ 社 が 開 発 するオープンソースで Hadoopを 利 用 したバッチ 開 発 向 けの 開 発 フレームワーク バッチ 処 理 に 特 化 した 機 能 ツールが 一 体 となり バッチ 開 発 の 敷 居 を 下 げ 開 発 効 率 を 容 易 に 向 上 可 能 データモデル 設 計 /データ 処 理 フロー 設 計 /RDB 連 携 ツール バッチ 処 理 向 けの 各 種 テンプレート テスト 支 援 ツール 等 日 立 ソリューションズでは 2013 年 3 月 にノーチラス テクノロジーズ 社 と 販 売 代 理 店 契 約 を 締 結 <Asakusa Frameworkの 位 置 付 け> フレームワーク Hadoopコア ( 実 行 基 盤 ) 業 務 バッチ 向 け AsakusaFW バッチ 開 発 統 計 分 析 向 け Hive SQL 系 MapReduce( 並 列 実 行 FW) HDFS( 分 散 ファイルシステム) Pig スクリフ ト 系 Hadoop 基 盤 活 用 で I/O 分 散 や 並 列 処 理 を 実 現 複 雑 なMapReduceをJava でフル 開 発 をせず 業 務 バッチ 実 装 が 可 能 41
4. Hadoop 動 向 と 活 用 事 例 4.11 Asakusa Framework 概 要 Asakusa Frameworkの 機 能 と 特 長 現 バッチサーバ 上 の 特 定 の 長 時 間 ジョブを 短 時 間 化 する 事 に 最 適 バッチシステム 刷 新 に 比 べ 低 コスト 最 小 限 の 影 響 範 囲 で 導 入 可 並 列 処 理 可 能 なバッチ 且 つRDBMSでI/Oネックの 場 合 に 効 果 大 Hadoopの 理 解 複 雑 なMapReduce 開 発 が 不 要 <Asakusa FW 利 用 時 の 一 般 的 システム 構 成 例 > 2AsakusaFWが DBの 対 象 データ 取 得 Hadoop 上 へ 分 散 格 納 ハ ッチ 実 行 サーハ 1バッチ 実 行 AsakusaFW 3シ ョフ 起 動 [ 実 行 エンジン] Masterノート Hadoop 4 並 列 シ ョフ 起 動 42 RDBMS 処 理 対 象 テーブル 処 理 結 果 テーブル DBサーハ 5 結 果 格 納 Hadoop Asakusa 開 発 バッチアプリ AsakusaFW [ライブラリ] 分 割 ファイル Hadoop Asakusa 開 発 バッチアプリ AsakusaFW [ライブラリ] 分 割 ファイル Hadoop Asakusa 開 発 バッチアプリ AsakusaFW [ライブラリ] 分 割 ファイル
4. Hadoop 動 向 と 活 用 事 例 4.12 Asakusa Frameworkの 活 用 事 例 (1) 小 売 業 での 活 用 事 例 Keywords 売 価 還 元 法 個 別 原 価 法 法 対 応 (IFRS) 規 模 100~500GB 50+ 店 舗, 10,000+ 商 品 3,000+ 仕 入 先 従 来 システムは 売 価 還 元 法 の 為 日 毎 / 商 品 毎 の 利 益 算 出 困 難 個 別 原 価 法 での 日 次 処 理 は 計 算 量 1,000 倍 超 であり スケールアップ 対 処 が 困 難 一 方 で 各 種 法 対 応 の 必 須 の 課 題 低 コスト(HW, SW, 開 発 費 ) 早 期 導 入 の 必 要 性 Hadoop&AsakusaFW 商 品 グループ 単 位 の 月 次 原 価 管 理 個 別 単 品 単 位 での 日 次 原 価 計 算 ( 個 別 原 価 法 )を 実 現 利 益 状 況 をリアルタイムに 可 視 化 でき 経 営 判 断 スピードが 向 上 Asakusa Framework 利 用 による 開 発 効 率 とコストの 確 保 ポイント これまでのシステム 面 での 制 約 の 払 拭 更 には 新 たな 業 務 バッチ 追 加 も 可 能 となる 部 分 適 用 である 為 コストも 時 間 も 最 小 限 影 響 やリスクも 最 小 限 43
4. Hadoop 動 向 と 活 用 事 例 4.13 Asakusa Frameworkの 活 用 事 例 (2) 製 造 卸 販 売 での 活 用 事 例 Keywords 原 価 計 算 クラウド 基 盤 経 済 状 況 市 況 により 変 動 が 大 きくなった 仕 入 先 / 仕 入 額 の 影 響 で 従 来 の 一 部 商 品 での 原 価 計 算 ではリスク 大 全 商 品 のアクチュアル 原 価 算 出 は 時 間 も コスト 面 も 困 難 規 模 5~10GB 110 万 アイテム Hadoop&AsakusaFW 毎 日 4 時 間 の 原 価 計 算 が20 分 に 短 縮 Amazon Web Serviceを 利 用 し 環 境 立 上 げ データ 転 送 バッチ 実 行 結 果 転 送 環 境 クローズの 総 時 間 が20 分 (オンフ レの1/10コスト) 長 時 間 ジョブの 切 り 離 しで 既 存 DBサーバの 負 荷 軽 減 短 時 間 ジョブとクラウド 基 盤 で 障 害 時 の 不 安 払 拭 ポイント バッチ 高 速 化 は 決 して 高 価 なシステムと 開 発 運 用 でしか 解 決 できない 事 ではない 実 データが 大 量 でなくとも 処 理 データ 件 数 が 大 量 であれば 並 列 処 理 による 効 果 は 十 分 にある 44
4. Hadoop 動 向 と 活 用 事 例 4.14 Asakusa Frameworkの 活 用 事 例 (3) 電 気 事 業 での 活 用 事 例 Keywords 電 力 システム 改 革 スマートメータ のデータ 活 用 規 模 800 万 顧 客 115 億 件 108TB/3 年 スマートメータの 導 入 により 検 針 データが 大 幅 に 増 加 する 一 方 で 活 用 可 能 なデータ 量 が 増 大 データは1,440 倍 (1 回 / 月 1 回 /30 分 )となり 大 量 データ 向 けの 蓄 積 基 盤 高 速 な 分 散 処 理 基 盤 が 必 要 各 種 顧 客 サービスの 向 上 を 実 現 する 柔 軟 な 拡 張 性 が 必 要 新 システムでは 新 技 術 活 用 と 共 に 効 率 的 なシステム 開 発 も 課 題 高 効 率 ( 低 コスト)な 開 発 手 法 やフレームワーク 技 術 が 必 要 Hadoop&AsakusaFW スケールアウト 可 能 な 分 散 蓄 積 と 分 散 処 理 可 能 な 処 理 基 盤 高 効 率 なバッチ 開 発 フレームワーク (ご 紹 介 ) 九 州 電 力 殿 の 取 組 み(2009~) 45 分 散 バッチ 開 発 標 準 としてAsakusa Frameworkを 採 用 Asakusa Frameworkの 学 習 教 育 含 めても 開 発 工 数 が1/2 以 下 で 高 効 率 と 評 価 文 書 管 理 システムにおけるHadoop/Asakusa Frameworkの 適 用 検 証 を 実 施 4 億 レコード(37GB)を 対 象 とした 処 理 検 証 で 高 速 化 可 能 なことを 確 認 商 用 RDMBS 1 台 123 時 間 Hadoop 5 台 21 時 間
END オープンソース 超 入 門 株 式 会 社 日 立 ソリューションズ 46