はじめに 本資料は 日本 OSS 推進フォーラムビッグデータ部会技術調査チームにて ビッグデータ基盤を実現するオープンソースソフトウェアの動向を調査したものです 本調査は Web などから一般的に収集可能な情報を元に最近の傾向を把握する為に実施しています 本調査結果のみを元に各ソフトウェアの良し悪し

Similar documents
求人面接資料PPT

APR. JUL. AUG. MAY JUN. 2

本 日 の 内 容 2012 年 5 月 IT Leaders で OSS 鳥 瞰 図 が 公 開 され ました クラウド 技 術 部 会 では 今 回 この OSS 鳥 瞰 図 をベースに クラ ウド 関 連 の 最 新 の 使 えるOSSを 追 加 しました また ビッグデータ に 関 しては

Joint Content Development Proposal Tech Docs and Curriculum

HIGIS 3/プレゼンテーション資料/J_GrayA.ppt

_2009MAR.ren

極地研 no174.indd

本文

Big Data ウェビナー シリーズ CiscoのHadoopリセールについて

請求記号:DVD 70- -1  栄光のフィレンツェ・ルネサンス  1 夜明け   55分 

2014 年 11 月 11 日 報道関係者各位 ニュースリリース 株式会社セキュアスカイ テクノロジー 株式会社ビットフォレスト クラウド型 WAF サービス Scutum が 市場シェア 1 位を 2 年連続で獲得 700 を超える利用サイトの業種別 サイト種別分類と攻撃検知数推移も公表 株式会

スライド 1

MapR on UCE : Hadoopはこう売ろう。難しくないHadoopの提案

スライド 1

プレゼンタイトルを入力してください

2015壺溪塾表1表4_0105

Oracle GoldenGate for Big Data

無料セミナー資料:ビッグデータ管理基盤ソフトウェアHadoop入門

IBM クラウド事例から考える OSS による企業向けクラウドの可能性 日本アイ ビー エム株式会社 Linux/OSS エバンジェリスト中井悦司 Feb. 27, IBM Corporation

スライド 1

本当に必要なビッグデータ活用インフラはこれだ!! PivotalHD + Isilon が作り出すデータレイク構想 東京エレクトロンデバイス株式会社 CN 事業統括本部 2014 年 8 月 本掲載内容に関するお問合せはこちらにお願いします 東京エレクトロンデバイス株式会社 CN 事業統括本部 TE

Zabbix で PostgreSQL を監視! pg_monz のご紹介 Zabbix Conference Japan 年 11 月 20 日 SRA OSS, Inc. 日本支社マーケティング部

健康文化46

EMC-greenplum-SG s-1p

OBCI とは OBCI は OSS の力でユーザ企業のビジネスに 新たな価値を提供します! 1

無料で多機能な OSS の ETL ツール Kettle を使ってみよう! 情報政策課技術職員金森浩治 1. はじめにデータ処理を行うにあたって非常に便利なツール ETL 本稿では OSS の ETL Kettle の機能とその使用方法を紹介します 2. 用語説明 2.1 OSS とは? OSS と

PostgreSQL による クラスタ構成の可能性 SRA OSS, Inc. 日本支社 取締役支社長 石井達夫

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

PowerPoint Presentation

データセンターの効率的な資源活用のためのデータ収集・照会システムの設計

ウェビナー資料

Apache Arrow 須藤功平株式会社クリアコード RubyData Tokyo Meetup Apache Arrow Powered by Rabbit 2.2.2

MMSフォーラム2010

PHP 開発ツール Zend Studio PHP アフ リケーションサーハ ー Zend Server OSC Tokyo/Spring /02/28 株式会社イグアスソリューション事業部

POP/IMAP POP /IMAP over SSL( 暗号化受信機能 ) SMTP Auth( 送信時認証機能 ) SMTP over SSL( 暗号化送信機能 ) ウェブメール メール転送 無制限 50 メール自動返信 迷惑メール対策 ウイルス対策 /Symantec メーリングリスト 無制限

OSS Mtg

セミナータイトル    ~サブタイトル~

スライド 1

WEBサービス超入門 mask.key

北東アジア OSS 推進フォーラム WG3: 標準化 認証研究 活動状況報告 2011 年 11 月 21 日富士通株式会社野山孝太郎 0 Copyright 2011 Northeast Asia OSS Promotion Forum WG3

PowerPoint プレゼンテーション

Automation for Everyone <デモ で実感できる、組織全体で活用できるAnsible Tower>

アジェンダ はクラウド上でも十分使えます 1. の概要 とは の導入事例 で利用される構成 2. をクラウドで使う クラウドサービスの分類 Amazon Web Services による構成例 2

PGRelief C/C++ 強化ポイント説明書

スライド 1

平成 26 年 12 月期決算短信添付資料 住友ゴム工業株式会社

ビッグデータ / IoT 時代にデジタルトランスフォーメーションを実現する Dell Blueprint Dell Cloudera Apache Hadoop / Dell Validated Systems for SAP HANA ソリューションガイド デルの Hadoop / SAP HAN

ビッグデータアナリティクス - 第3回: 分散処理とApache Spark

Microsoft Word - 06.doc

TopSE並行システム はじめに

5. オープンソースWAF「ModSecurity」導入事例 ~ IPA はこう考えた ~

メール関連 メールサーバー qmail IMail12.4 メールアドレス数 無制限 無制限 メールボックス容量 任意で設定 1GB 別途アシストアップ社にご連絡いただくことでご契約メールボックス容量まで設定可能 メール送受信容量 別途アシストアップ社にご連絡いただくことで 10MB まで設定可能

Transcription:

ビッグデータ関連ソフトウェアの動向調査 2016 年 2 月 3 日日本 OSS 推進フォーラムビッグデータ部会 発表者 : 富士通株式会社野山孝太郎 (noyama@jp.fujitsu.com)

はじめに 本資料は 日本 OSS 推進フォーラムビッグデータ部会技術調査チームにて ビッグデータ基盤を実現するオープンソースソフトウェアの動向を調査したものです 本調査は Web などから一般的に収集可能な情報を元に最近の傾向を把握する為に実施しています 本調査結果のみを元に各ソフトウェアの良し悪しを論じるものではありません 本調査は以下のメンバで実施しています 中島武史 ( 日本電気株式会社 ) 主査 井上不二雄 ( 日本アイ ビー エム株式会社 ) 小川研之 (WANdisco, plc.) 本多洋司 ( 株式会社 PFU) 倉知陽一 ( 富士通株式会社 ) 野山孝太郎 ( 富士通株式会社 ) 1

ビッグデータ基盤を構成する機能 主に 様々なデータを 収集 検知 する機能 収集 検知したデータを 蓄積 貯蔵 する機能 蓄積 貯蔵したデータを 分析 する機能から構成される データソースデータ収集 検知ビッグデータ蓄積 貯蔵 その他 データ分析 Web データ 売上情報など 構造化データ ( 業務 RDB) クローラ Apacheクローラ ManifoldCF データロード Apache データロード Sqoop Talend データ蓄積ファイルシステム Apache Hadoop HDFS データ蓄積 ファイルシステム Lustre 並列分散処理 Apache Hadoop MapReduce Apache Hadoop YARN 並列分散処理 Apache Tez 準リアルタイムクエリ 解析ツール機械学習機械学習 MLib 統計解析統計解析 R 言語 センサデータ 非構造化データ 収集 Apache 収集 Flume Fluentd CEP セキュリティ / 認証 MIT セキュリティ Kerberos / 認証 OpenLDAP Apache Drill Apache 準リアルタイムクエリ Hive SQL Impala データロードデータロード 全文検索エンジン分析用データ BI/BA ツール システムログ音声画像 Apache S4 CEP Streaming Complex Event Apache Storm Processing Esper Drools Fusion Jubatus 高速化キャッシュ / スケールアウト Apache Cassandra Apache Hbase インメモリDG/ 分散 Redis KVS Infinispan Riak 定型業務 DB インメモリ DB DWH/ マートレス DB Hinemos Zabbix 運用管理 / 監視 運用管理 / 監視 2

ビッグデータ基盤を構成する機能へのソフトウェアマッピング ビッグデータ基盤をオープンソースをベースとして構成する事は十分に可能 ただし 個々のソフトウェアにおいて品質や成熟度が異なる為 見極めが必要 データソースデータ収集 検知ビッグデータ蓄積 貯蔵 その他 データ分析 Web データ 売上情報など 構造化データ ( 業務 RDB) クローラ Apache ManifoldCF データロード Talend データ蓄積ファイルシステム Apache Hadoop HDFS Lustre 並列分散処理 Apache Hadoop MapReduce Apache Hadoop YARN Apache Tez 準リアルタイムクエリ 解析ツール機械学習 MLib 統計解析 R 言語 BI/BA ツール センサデータ 非構造化データ システムログ音声画像 収集 Apache Flume Apache Kafka Fluentd CEP Apache S4 Streaming Apache Storm Esper Drools Fusion Jubatus セキュリティ / 認証 MIT Kerberos OpenLDAP 高速化キャッシュ / スケールアウト インメモリ DG/ 分散 KVS Apache Cassandra Apache Hbase Infinispan Apache Drill SQL Impala データロード Redis Riak 全文検索エンジン ElasticSearch 分析用データ 定型業務 RDB MySQL PostgreSQL インメモリ DB VoltDB Pentaho JasperReports SAS MicroStorategy DWH/ マートレス DB OSS で著名なものはない 運用管理 / 監視 Hinemos Zabbix 3

採用しているオープンソースライセンス 該当ソフトウェアの 3/4 は Apache License 2.0 を採用 Apache Software Foundation 管理のソフトウェアが多い事も理由の一つ 今後オープンソースベースの有償製品も拡大?(Apache Hadoop では既に拡大 ) GNU Lesser General Public License 7.9% その他 5.3% GNU General Public License 13.2% Apache License 2.0 73.7% 4

どの様なプログラミング言語で開発されているか? 最も利用されている言語は Java (55.2%) 次いで C/C++ (23.1%) スクリプトでは Python (3.4%) がトップ JavaScript CSS Ruby Python 2.8% 0.8% 0.8% PHP 3.4% 0.4% Web 3.7% XML 10.0% C/C++ 23.1% Java 55.2% 5

開発の活性度 そのソフトウェアは活発に開発されていますか? 6

Sep-97 Jan-98 May-98 Sep-98 Jan-99 May-99 Sep-99 Jan-00 May-00 Sep-00 Jan-01 May-01 Sep-01 Jan-02 May-02 Sep-02 Jan-03 May-03 Sep-03 Jan-04 May-04 Sep-04 Jan-05 May-05 Sep-05 Jan-06 May-06 Sep-06 Jan-07 May-07 Sep-07 Jan-08 May-08 Sep-08 Jan-09 May-09 Sep-09 Jan-10 May-10 Sep-10 Jan-11 May-11 Sep-11 Jan-12 May-12 Sep-12 Jan-13 May-13 Sep-13 Jan-14 May-14 Sep-14 Jan-15 May-15 Sep-15 コミッター数の推移 ( 月ごと ) が 2014 年頃から急成長 160 140 120 100 80 Talend 60 40 20 0 Apache Cassandra Apache Drill Apache Flume Apache Hadoop Apache HBase Apache Kafka Apache ManifoldCF Apache S4 Apache Storm Drools Fusion Elasticsearch Esper Fluentd Impala Infinispan JasperReports Lustre Pentaho R Redis Riak Talend VoltDB 7

月平均コミッター数 (2015 年 ) が 2014 年から急成長 13 年 :27.8 14 年 :72.1 15 年 :114.7 Apache Hadoop Elasticsearch Apache Cassandra VoltDB Drools Fusion Apache HBase Apache Storm Apache Kafka Apache Drill Infinispan R Riak Talend Fluentd Redis JasperReports Apache ManifoldCF Apache Flume Esper Impala Apache S4 8.3 6.9 6.2 5.8 5.7 5.3 4.7 3.8 3.0 2.6 2.0 0.5 0.0 0.0 39.7 38.3 38.0 35.3 31.3 28.1 27.8 26.2 25.5 21.5 21.4 17.3 15.1 48.7 114.7 0.0 20.0 40.0 60.0 80.0 100.0 120.0 140.0 8

コミッター数の年平均成長率 (2011 年から 2015 年 ) 年平均成長率では Apache Drill がトップ の他 も急激に増加 Apache Drill Apache Storm Apache Kafka Impala Apache Cassandra Elasticsearch VoltDB Apache HBase Apache Hadoop Fluentd Drools Fusion Infinispan Redis Apache ManifoldCF R JasperReports Apache Flume Esper Riak Talend Apache S4-52.6% -40.2% 63.6% 60.8% 53.0% 52.8% 49.9% 45.9% 40.3% 31.3% 29.3% 28.2% 25.6% 18.7% 15.9% 11.7% 9.3% 6.9% 5.6% 4.5% 2.4% 0.0% -1.7% -11.1% -14.1% -17.4% 150.4% 144.4% 184.4% -100.0% -50.0% 0.0% 50.0% 100.0% 150.0% 200.0% 9

月平均コミッター数 ( 横軸 ) と年平均成長率 ( 縦軸 ) 250.0% 200.0% 開発者の数はまだまだ少ないが急増中 Apache Drill 150.0% 100.0% 開発者の数も多くますます増加中 Apache Storm Apache Kafka Apache Cassandra 50.0% Impala Elasticsearch R VoltDB Fluentd Apache HBase Apache Hadoop Redis Infinispan Apache ManifoldCF Drools Fusion 0.0% 0.0 Apache Flume 20.0 40.0 60.0 80.0 100.0 120.0 Riak JasperReports Esper Talend -50.0% Apache S4-100.0% -150.0% -200.0% 10

Sep-97 Jan-98 May-98 Sep-98 Jan-99 May-99 Sep-99 Jan-00 May-00 Sep-00 Jan-01 May-01 Sep-01 Jan-02 May-02 Sep-02 Jan-03 May-03 Sep-03 Jan-04 May-04 Sep-04 Jan-05 May-05 Sep-05 Jan-06 May-06 Sep-06 Jan-07 May-07 Sep-07 Jan-08 May-08 Sep-08 Jan-09 May-09 Sep-09 Jan-10 May-10 Sep-10 Jan-11 May-11 Sep-11 Jan-12 May-12 Sep-12 Jan-13 May-13 Sep-13 Jan-14 May-14 Sep-14 Jan-15 May-15 Sep-15 コミット数の推移 Elasticsearch の開発が活性化 1800 コミッター数の増加に比例して の開発も活発 Elasticsearch 1600 1400 1200 1000 800 600 400 200 0 Apache Cassandra Apache Drill Apache Flume Apache Hadoop Apache HBase Apache Kafka Apache ManifoldCF Apache S4 Apache Storm Drools Fusion Elasticsearch Esper Fluentd Impala Infinispan JasperReports Lustre Pentaho R Redis Riak Talend VoltDB 11

月平均コミット数 (2015 年 ) Elasticsearch の開発が活性化 コミッター数の増加に比例して の開発も活発 Elasticsearch Apache Cassandra Apache Hadoop VoltDB Apache Storm Drools Fusion R Apache HBase Infinispan Apache Drill Apache Kafka Redis JasperReports Fluentd Riak Talend Apache ManifoldCF Apache Flume Esper Impala Apache S4 75.6 72.3 63.4 51.1 43.8 38.5 37.7 28.5 25.2 18.9 16.9 7.7 6.3 3.8 0.0 0.0 246.7 244.1 212.6 182.7 182.3 152.4 139.0 354.8 351.2 323.8 705.1 838.3 1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 12

コミッター数 ( 縦軸 ) とコミット数 ( 横軸 ) の相関 140.0 120.0 開発者の数も多く開発も活発 100.0 80.0 60.0 Apache Hadoop 40.0 Apache HBase Apache Kafka 20.0 VoltDB Drools Fusion Apache Storm Apache Drill Infinispan Apache Cassandra 開発者の数は比較的少ないが開発は非常に活性 ( 頑張ってますね!) Elasticsearch R Talend Riak Apache Fluentd Apache RedisNutch Hive Apache JasperReports Flume Sqoop ManifoldCF 0.0 Impala Apache Esper S4 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 13

開発のアクティビティ Git にコミットされた日の割合 ( 稼働率 ) では Elasticsearch がトップ 週休 1 日以下で頑張っている模様 Elasticsearch Apache Cassandra Apache Hadoop Common VoltDB Apache HBase Infinispan Drools Fusion Impala Pentaho Apache Storm Apache Tez Apache Hadoop HDFS Redis Apache Drill Apache Hadoop MapReduce Apache ManifoldCF Apache Kafka Jubatus Fluentd Riak Apache Flume Apache S4 Talend Esper JasperReports 91.19% 86.45% 85.77% 85.60% 81.81% 78.53% 78.27% 75.17% 70.16% 69.92% 69.74% 67.65% 67.20% 66.54% 62.90% 57.22% 56.85% 56.68% 54.98% 54.81% 53.77% 52.91% 48.74% 41.69% 38.90% 34.06% 31.22% 27.62% 26.33% 25.00% 21.47% 21.05% 21.03% 0.00% 10.00% 20.00% 30.00% 40.00% 50.00% 60.00% 70.00% 80.00% 90.00% 100.00% 14

月平均コミット数 ( 横軸 ) と稼働率 ( 縦軸 ) の関係 100.00% 90.00% 80.00% Apache Hadoop VoltDB Apache HBase Infinispan Apache Cassandra Elasticsearch 稼働率が高く開発も活発 ( コツコツやるタイプ ) 70.00% 60.00% 50.00% Drools Fusion Impala Apache Storm Redis Apache Drill Apache ManifoldCF Apache Kafka 稼働率はあまり高くないが開発は活発 ( 一気にやるタイプ ) 40.00% Fluentd Riak Apache Flume 30.00% Apache Talend S4 Esper 20.00% JasperReports 10.00% 0.00% 0 200 400 600 800 1000 1200 1400 15

Apr-97 Sep-97 Feb-98 Jul-98 Dec-98 May-99 Oct-99 Mar-00 Aug-00 Jan-01 Jun-01 Nov-01 Apr-02 Sep-02 Feb-03 Jul-03 Dec-03 May-04 Oct-04 Mar-05 Aug-05 Jan-06 Jun-06 Nov-06 Apr-07 Sep-07 Feb-08 Jul-08 Dec-08 May-09 Oct-09 Mar-10 Aug-10 Jan-11 Jun-11 Nov-11 Apr-12 Sep-12 Feb-13 Jul-13 Dec-13 May-14 Oct-14 Mar-15 Aug-15 開発者向けメーリングリストの流量推移 2006 年 ~2009 年にかけて Apache Hadoop の議論が活性化 最近は や Apache Storm Apache Kafka の議論が活発 7000 6000 5000 4000 Apache Hadoop Apache Storm 3000 2000 1000 0 Apache Kafka Apache Cassandra Apache Drill Apache Flume Apache Hadoop Common Apache Hadoop HDFS Apache Hadoop MapReduce Apache Hadoop YARN Apache HBase Apache Kafka Apache ManifoldCF Apache S4 Apache Storm Apache Tez Lustre R 16

開発者向けメーリングリストの月平均流量 (2015 年 ) Apache Kafka や Apache Storm の議論が活性化 は 2014 年をピークとして 2015 年は落ち着いている模様 Apache Kafka 1764.3 Apache Storm 1568.1 1118.7 Apache Drill Apache Hadoop YARN 833.9 787.3 725.3 692.8 Apache HBase Apache Hadoop HDFS 501.3 500.0 473.8 Apache Hadoop Common Apache Flume Apache Hadoop MapReduce Apache ManifoldCF R Apache Tez Apache Cassandra 221.9 208.0 187.3 152.8 88.4 73.3 350.7 350.5 343.5 開発は活性化しているが メーリングリストベースの議論はあまり多くない Apache S4 0.8 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 1600.0 1800.0 2000.0 17

コミット数 ( 横軸 ) とメールでの議論量 ( 縦軸 ) の関係 2,000 1,800 実践よりもまずは議論 Apache Kafka 1,600 Apache Storm 1,400 1,200 1,000 800 Apache Drill 600 Apache HBase 400 Apache Hadoop 議論よりも実践 200 Apache Flume Apache ManifoldCF R 0 Apache S4 0 100 200 300 400 500 600 700 800 900 18

最も開発している人のコミット割合 この割合が高いほど特定開発者の影響力が強いコミュニティと言える ( かも ) Apache ManifoldCF Esper Redis JasperReports Talend Apache S4 Apache HBase Fluentd Apache Cassandra Apache Tez Drools Fusion Apache Storm Apache Flume Apache Kafka Jubatus Apache Drill Apache Hadoop HDFS Apache Hadoop MapReduce Infinispan Impala Elasticsearch VoltDB Riak Pentaho Apache Hadoop Common 34.55% 34.39% 33.88% 30.52% 27.43% 27.05% 26.62% 24.34% 24.32% 21.11% 19.29% 18.40% 17.90% 16.79% 16.75% 16.56% 16.43% 15.79% 14.36% 13.46% 11.04% 10.56% 9.45% 9.31% 8.69% 8.07% 45.15% 43.88% 65.78% 62.65% 75.64% 75.38% 90.63% 0.00% 10.00% 20.00% 30.00% 40.00% 50.00% 60.00% 70.00% 80.00% 90.00% 100.00% 19

コミット数 1 位から 5 位のコミット割合 この割合が高いほど少人数の開発者の影響力が強いコミュニティと言える ( かも ) Esper JasperReports Apache S4 Apache ManifoldCF Redis Talend Apache Tez Apache Flume Fluentd Drools Fusion Apache Cassandra Jubatus Apache Storm Impala Apache HBase Apache Hadoop HDFS Infinispan Apache Drill Apache Hadoop MapReduce Elasticsearch VoltDB Apache Kafka Riak Pentaho Apache Hadoop Common 100.00% 99.99% 98.31% 96.39% 92.19% 92.07% 88.49% 82.65% 78.72% 72.30% 67.29% 65.80% 65.67% 63.57% 61.06% 58.80% 58.27% 57.44% 55.64% 55.20% 52.55% 52.31% 51.46% 50.08% 47.59% 47.44% 46.18% 44.61% 39.34% 34.64% 33.37% 33.01% 30.57% 0.00% 20.00% 40.00% 60.00% 80.00% 100.00% 120.00% 20

Top1( 横軸 ) と Top1~5( 縦軸 ) の関係 100.00% 少人数先導型開発 Apache Tez Apache S4 JasperReports Talend Esper Redis 主導型開発 Apache ManifoldCF Apache Flume Fluentd Infinispan 50.00% Apache Hadoop MapReduce Drools Fusion Jubatus Apache Cassandra Apache Apache Storm Impala Mesos Apache Hadoop HDFSApache HBase Apache Drill Elasticsearch VoltDB Apache Kafka Riak Pentaho Apache Hadoop Common 開発が活性化しているプロジェクトは コミュニティ型開発が多い ( やはりコミュニティは大事!) コミュニティ型開発 0.00% 0.00% 50.00% 100.00% 21

利用の活性度 そのソフトウェアは皆に利用されていますか? 22

Mar-05 Jun-05 Sep-05 Dec-05 Mar-06 Jun-06 Sep-06 Dec-06 Mar-07 Jun-07 Sep-07 Dec-07 Mar-08 Jun-08 Sep-08 Dec-08 Mar-09 Jun-09 Sep-09 Dec-09 Mar-10 Jun-10 Sep-10 Dec-10 Mar-11 Jun-11 Sep-11 Dec-11 Mar-12 Jun-12 Sep-12 Dec-12 Mar-13 Jun-13 Sep-13 Dec-13 Mar-14 Jun-14 Sep-14 Dec-14 Mar-15 Jun-15 Sep-15 Dec-15 利用者向けメーリングリストの流量推移 利用者メーリングリストでも が圧倒的に活発 3000 2500 2000 Apache Casandra 1500 1000 Apache Hadoop Common 500 0 Apache Cassandra Apache Drill Apache Flume Apache Hadoop Apache Hadoop Common Apache Hadoop HDFS Apache Hadoop MapReduce Apache HBase Apache Kafka Apache ManifoldCF Apache S4 Apache Storm Apache Tez Lustre Riak 23

利用者向けメーリングリストの月平均流量 (2015 年 ) 利用者メーリングリストでも が圧倒的に活発 Apache Kafka Apache Cassandra Apache Storm Apache HBase Apache Hadoop HDFS Apache Hadoop Common Apache Hadoop MapReduce Apache Hadoop Apache Drill Riak Apache Flume Lustre Apache Tez Apache ManifoldCF Apache S4 130.7 98.1 77.3 70.3 67.5 64.7 54.9 0.8 519.4 453.9 416.1 334.7 325.2 321.9 321.8 321.2 320.9 290.6 281.6 279.4 836.5 2,192.2 0.0 500.0 1,000.0 1,500.0 2,000.0 2,500.0 24

開発者 ( 横軸 )/ 利用者 ( 縦軸 ) メール流量の関係 2500 2000 利用者の議論が活発 の場合開発自体は非常に活発だがメールベースの議論は少なめ 1500 1000 Apache Cassandra 開発者の議論が活発 500 Apache Kafka Apache Hadoop MapReduce Apache HBase Apache Storm Apache Hadoop Common Apache Drill Lustre Apache Tez Apache Flume Apache Hadoop HDFS 0 Apache S4 Apache ManifoldCF 0 200 400 600 800 1000 1200 1400 1600 1800 2000 25

書籍数 ( 日本語 ) R は言語系や統計系の観点で書籍多数 (450 冊 グラフからは削除 ) 次いで Apache Hadoop などメジャーなソフトウェアが続く Apache Hadoop Redis Apache HBase Apache Cassandra Fluentd Apache ManifoldCF Riak Pentaho Jubatus VoltDB JasperReports Infinispan Apache Tez Talend Lustre Impala Esper Drools Fusion Apache Storm Apache S4 Apache Flume Apache Drill 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 2 2 3 3 3 4 5 9 10 15 15 17 25 35 0 5 10 15 20 25 30 35 40 26

書籍数 ( 英語 ) 日本語書籍と大きく傾向は変わらず (R は 6,613 冊 グラフからは削除 ) Fluentd Jubatus など日本人が中心となって開発しているソフトウェアは順位を落とす Apache Hadoop Apache HBase Apache Cassandra Redis Apache Storm Apache Flume Pentaho Drools Fusion Impala Talend JasperReports Lustre Riak Apache S4 Apache Drill Esper Apache Tez Infinispan Apache ManifoldCF VoltDB Fluentd Jubatus 64 59 58 50 49 47 28 26 24 21 20 17 17 17 17 16 16 15 15 14 7 2 1 0 99 170 170 162 274 635 0 100 200 300 400 500 600 700 27

GitHub のスター数 Redis が圧倒的に好評価 商用展開されているソフトウェアに関しては組織票があるのかも (?) Redis Fluentd Apache Storm Apache Cassandra Riak Impala Apache Hadoop VoltDB Apache Drill Jubatus Drools Fusion Apache Flume Apache HBase Infinispan Pentaho Apache Tez Esper Apache S4 Apache ManifoldCF Apache Hadoop HDFS Apache Hadoop MapReduce Apache Hadoop Common 3,491 2,482 2,369 2,312 1,799 1,625 1,416 1,189 716 654 625 503 489 476 460 457 449 417 150 139 78 65 30 22 21 13 4 5,967 15,320 0 2,000 4,000 6,000 8,000 10,000 12,000 14,000 16,000 18,000 28

Twitter のフォロアー数 Twitter アカウントの開設時期にも寄るが が圧倒的に多数 次いで Apache Cassandra Apache Hadoop が人気 204,787 Apache Cassandra Apache Hadoop Pentaho Redis Talend Apache HBase VoltDB Apache Drill Infinispan Jubatus Fluentd Apache Storm Apache Tez JasperReports Apache ManifoldCF 32,934 25,263 15,012 13,427 11,899 11,605 10,379 5,995 5,263 3,956 2,122 990 945 827 609 262 145 144 32 32 21 3 0 50,000 100,000 150,000 200,000 250,000 29

有償サポートの有無 国内で有償版または有償サポートが提供されているソフトウェアは赤字 ビッグデータ基盤を有償サポート付き OSS で実現することは充分に可能 Jubatus などクラウドでサービス提供されているソフトウェアもあり データソースデータ収集 検知ビッグデータ蓄積 貯蔵 その他 データ分析 Web データ 売上情報など 構造化データ ( 業務 RDB) クローラ Apache ManifoldCF データロード Talend データ蓄積ファイルシステム Apache Hadoop HDFS Lustre 並列分散処理 Apache Hadoop MapReduce Apache Hadoop YARN Apache Tez 準リアルタイムクエリ 解析ツール機械学習 MLib 統計解析 R 言語 BI/BA ツール センサデータ 非構造化データ システムログ音声画像 収集 Apache Flume Apache Kafka Fluentd CEP Apache S4 Streaming Apache Storm Esper Drools Fusion Jubatus セキュリティ / 認証 MIT Kerberos OpenLDAP 高速化キャッシュ / スケールアウト インメモリ DG/ 分散 KVS Apache Cassandra Apache Hbase Infinispan Apache Drill SQL Impala データロード Redis Riak 全文検索エンジン ElasticSearch 分析用データ 定型業務 RDB MySQL PostgreSQL インメモリ DB VoltDB Pentaho JasperReports SAS MicroStorategy DWH/ マートレス DB OSS で著名なものはない 運用管理 / 監視 Hinemos Zabbix 30

利用実績 The Linux Foundation SI Forum の 2015 年度活用動向調査より 全体的に拡大傾向にはあるが 本格的な導入はまだまだこれからという印象 導入実績多数 導入実績あり 検証実績あり 導入 / 検証実績なし Apache Hadoop,,, JasperReports Talend, Fluentd, Jubatus,,, R, Lustre, Apache Cassandra, Apache Hbase, Redis, Elasticsearch, Pentaho VoltDB 上記以外 ( という少し残念な結果 ) 31

ソフトウェアの品質 そのソフトウェアは安心して利用できますか? 32

バグ解決率 ( 全体 ) Apache ManifoldCF R などでバグの解決率が高い もっとも低い Apache Storm においても 6 割のバグは解決済み Apache ManifoldCF R Apache Cassandra Fluentd Jubatus Apache HBase Apache Hadoop Common Pentaho Apache Hadoop MapReduce Impala Apache Hadoop HDFS Drools Fusion Apache Tez Apache Kafka Apache Flume Riak VoltDB Lustre Apache Hadoop YARN Apache Drill Apache Storm 95.7% 94.0% 93.1% 89.2% 88.1% 86.9% 86.7% 84.4% 83.0% 81.8% 81.6% 80.8% 79.5% 77.9% 76.0% 75.5% 74.3% 74.1% 73.9% 73.8% 73.6% 72.1% 72.1% 72.0% 71.9% 71.6% 67.8% 65.8% 60.4% 0.0% 20.0% 40.0% 60.0% 80.0% 100.0% 120.0% 33

バグ解決率 ( 重要 Blocker/Critical レベル ) 重要バグの解決率に限定すると約 8 割以上は解決済み こちらも Apache ManifoldCF は解決率が非常に高い Apache ManifoldCF R Apache Hadoop MapReduce Apache Cassandra Apache Hadoop Common Apache HBase Apache Kafka VoltDB Lustre Apache Hadoop HDFS Apache Tez Pentaho Apache Hadoop YARN Apache Flume Impala Apache Drill Drools Fusion Apache Storm 99.1% 97.4% 97.1% 96.9% 96.4% 96.3% 94.9% 94.6% 93.0% 92.8% 91.8% 91.5% 90.8% 88.4% 88.3% 88.2% 86.9% 86.8% 86.7% 85.7% 84.4% 84.4% 83.6% 79.8% 79.3% 77.2% 0.0% 20.0% 40.0% 60.0% 80.0% 100.0% 120.0% 34

コミット数 ( 横軸 ) と重要バグ解決率 ( 縦軸 ) の関係 100.00% Apache ManifoldCF 開発も活発ではないが重要バグ解決率は高め ( 安定 ) 90.00% Apache Kafka R Apache HBase Apache Cassandra Apache Hadoop VoltDB 開発も活発に行われており重要バグ解決率も高め Apache Flume Apache Drill 80.00% Drools Fusion 重要バグ解決率がやや低く開発も非活性 ( 要ウォッチ ) Apache Storm 70.00% 0 100 200 300 400 500 600 700 800 900 35

脆弱性 (2006 年から 2016 年 ) 全体的に脆弱性の検出は少ない 一番多い JasperReports でも 11 年トータルで 10 件 次いで の 7 件 4 3 JasperReports Pentaho 2 1 0 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 Apache Cassandra Apache Drill Apache Flume Apache Hadoop Apache HBase Apache ManifoldCF Apache S4 Apache Storm Apache Tez Drools Fusion Esper Fluentd Impala Infinispan JasperReports Jubatus Lustre Pentaho R Redis Riak Talend VoltDB VoltDB 36

ソースコード品質 : 重複率 SonarQube のソースコード解析機能で抽出した重複率 Apache S4 Redis などは重複が少なく良いソースコードの模様 Apache S4 Redis Lustre Apache Storm Apache Hadoop MapReduce Apache Hadoop HDFS R Jubatus Apache Drill Apache Tez Esper Apache Flume Apache Cassandra Apache Hadoop YARN Impala Pentaho Apache Hbase Apache ManifoldCF Drools Riak 1.7% 2.3% 2.7% 2.7% 3.0% 3.8% 4.3% 4.4% 4.5% 4.9% 5.6% 6.1% 7.4% 7.7% 7.7% 9.0% 9.0% 11.9% 14.5% 18.4% 19.2% 19.7% 20.2% 20.8% 21.1% 22.6% 27.7% ソースコードの重複が少ない ( 高品質 ) 69.0% 0.0% 10.0% 20.0% 30.0% 40.0% 50.0% 60.0% 70.0% 80.0% 37

ソースコード品質 : 複雑度 SonarQube のソースコード解析機能で抽出したソースコード全体の複雑度 Apache Hadoop YARN Apache S4 Jubatus は比較的簡易なロジック Apache Hadoop YARN Apache S4 Jubatus Apache Storm Lustre Apache Hadoop MapReduce Redis Apache Flume Apache Hadoop HDFS Apache Tez Riak Apache ManifoldCF R Apache Drill Apache Cassandra Esper Drools Pentaho Apache Hbase Impala 1,807 1,919 2,793 8,044 8,956 9,185 10,728 11,105 12,190 12,923 13,274 16,867 19,617 25,197 42,705 44,387 46,337 49,430 59,487 60,045 66,009 75,733 113,628 128,728 160,555 206,185 216,460 ソースコードの複雑度が少ない ( 高品質 ) 251,416 0 50,000 100,000 150,000 200,000 250,000 300,000 38

重複率 ( 横軸 ) と複雑度 ( 縦軸 ) の関係 重複率と複雑度 ( 全体 ) の間には軽い相関関係がある模様 300,000 ただし などを始め 重複は多いが複雑ではないソフトウェアも複数 Riak は外れ値とみなした 250,000 Impala 200,000 Apache Hbase 150,000 Pentaho Drools 100,000 Esper Apache Drill Apache Cassandra 50,000 R Apache ManifoldCF Apache Hadoop HDFS Apache Tez Redis Apache S4 Apache Apache Storm Hadoop MapReduce 0 Apache Flume Apache Hadoop YARN 0.0% Lustre 5.0% Jubatus 10.0% 15.0% 20.0% 25.0% 30.0% 39

まとめ 40

ちなみに昨年のまとめは この様な感じでした 41

昨年と同じ軸でまとめてみると エンタープライズ適用領域 導入実績多数 JasperReports Apache Hadoop 導入実績あり Talend Fluentd Redis Apache HBase Apache Cassandra Elasticsearch R 検証実績多数 検証実績あり 新技術ウォッチ領域 昨年 新技術ウォッチ領域 であった VoltDB は順調に成長 は一気に エンタープライズ適用領域へ 先行検討 / アーリーアダプト領域 VoltDB Apache Kafka ランク外 Riak Apache Flume Infinispan Apache ManifoldCF Esper Apache Drill Drools Fusion Apache Storm 42

所感 ビッグデータ基盤をオープンソースで構築することは充分に可能となってきている 有償サービスも揃いつつある ただし 機能や品質の見極めは当然必要 とそのエコシステムは来ている ( 開発も利用も ) Elasticsearchはとても頑張り屋さん やはこの領域では比較的安定期に入りつつある ただし 状況は変化しており今後も継続的なウォッチが必要 ご興味を持って頂けた方がいらっしゃいましたら ぜひ一緒にやりましょう! 43

付録 44

公式サイト 区分ソフトウェア公式サイト クローラ Apache ManifoldCF http://manifoldcf.apache.org/ http://nutch.apache.org/ データロード http://sqoop.apache.org/ Talend https://www.talend.com/ 収集 Apache Flume https://flume.apache.org/ Apache Kafka Fluentd http://kafka.apache.org/ http://www.fluentd.org/ CEP Apache Storm http://storm.apache.org/ Apache S4 Jubatus Esper Drools Fusion Streaming http://incubator.apache.org/s4/ http://jubat.us/ http://www.espertech.com/products/esper.php http://www.drools.org/ http://spark.apache.org/streaming/ 並列分散処理 Apache Hadoop Commons http://hadoop.apache.org/ データ蓄積ファイルシステム Apache Hadoop MapReduce Apache Hadoop YARN Apache Tez Apache Hadoop HDFS Lustre http://hadoop.apache.org/ http://hadoop.apache.org/ http://mesos.apache.org/ http://spark.apache.org/ https://tez.apache.org/ http://hadoop.apache.org/ http://ceph.com/ http://www.gluster.org/ http://lustre.org/ 準リアルタイムクエリ Apache Drill https://drill.apache.org/ SQL Impala https://hive.apache.org/ http://spark.apache.org/sql/ http://impala.io/ インメモリ DG/ 分散 KVS Apache Cassandra http://cassandra.apache.org/ Apache HBase Infinispan Redis Riak http://hbase.apache.org/ http://infinispan.org/ https://www.mongodb.org/ http://redis.io/ http://docs.basho.com/ 全文検索エンジン Elasticsearch https://www.elastic.co/products/elasticsearch 機械学習 MLib http://spark.apache.org/mllib/ 統計解析 R https://www.r-project.org/ BI BA ツール JasperReports http://community.jaspersoft.com/ Pentaho http://community.pentaho.com/ インメモリ DB VoltDB https://voltdb.com/ 45

オープンソースライセンス 区分ソフトウェアオープンソースライセンス クローラ Apache ManifoldCF Apache License 2.0 Apache License 2.0 データロード Apache License 2.0 Talend Apache License 2.0 収集 Apache Flume Apache License 2.0 Apache Kafka Apache License 2.0 Fluentd Apache License 2.0 CEP Apache Storm Apache License 2.0 Apache S4 Apache License 2.0 Jubatus GNU Lesser General Public License v2.1 Esper GNU General Public License v2 Drools Fusion Apache License 2.0 Streaming Apache License 2.0 並列分散処理 Apache Hadoop Common Apache License 2.0 データ蓄積ファイルシステム Apache Hadoop MapReduce Apache License 2.0 Apache Hadoop YARN Apache License 2.0 Apache License 2.0 Apache License 2.0 Apache Tez Apache License 2.0 Apache Hadoop HDFS Apache License 2.0 GNU Lesser General Public License v2.1 Lustre GNU General Public License v3 GNU General Public License v2 準リアルタイムクエリ Apache Drill Apache License 2.0 Apache License 2.0 SQL Apache License 2.0 Impala Apache License 2.0 インメモリ DG/ 分散 KVS Apache Cassandra Apache License 2.0 Apache HBase Apache License 2.0 Infinispan Apache License 2.0 Redis GNU Affero General Public License v3 BSD License Riak Apache License 2.0 全文検索エンジン Elasticsearch Apache License 2.0 機械学習 MLib Apache License 2.0 統計解析 R GNU General Public License BI BA ツール JasperReports GNU Lesser General Public License Pentaho Apache License 2.0 インメモリ DB VoltDB GNU General Public License v3 46

開発者向けメーリングリスト 区分ソフトウェア開発者向けメーリングリスト クローラ Apache ManifoldCF dev@manifoldcf.apache.org dev@nutch.apache.org データロード dev@sqoop.apache.org Talend - 収集 Apache Flume dev@flume.apache.org Apache Kafka Fluentd dev@kafka.apache.org Google groups を利用 CEP Apache Storm dev@storm.apache.org Apache S4 Jubatus s4-dev@incubator.apache.org Google groups を利用 Esper dev@esper.codehaus.org ( 未集計 ) Drools Fusion Streaming Google groups を利用 のメーリングリストと同じ 並列分散処理 Apache Hadoop Common common-dev@hadoop.apache.org データ蓄積ファイルシステム Apache Hadoop MapReduce Apache Hadoop YARN Apache Tez Apache Hadoop HDFS Lustre mapreduce-dev@hadoop.apache.org yarn-dev@hadoop.apache.org dev@mesos.apache.org dev@spark.apache.org dev@tez.apache.org hdfs-dev@hadoop.apache.org ceph-devel@vger.kernel.org gluster-devel@gluster.org lustre-devel@lists.lustre.org 準リアルタイムクエリ Apache Drill dev@drill.apache.org SQL Impala dev@hive.apache.org のメーリングリストと同じ Google groups を利用 インメモリ DG/ 分散 KVS Apache Cassandra dev@cassandra.apache.org Apache HBase Infinispan Redis Riak dev@hbase.apache.org infinispan-dev@lists.jboss.org Google groups を利用 Google groups を利用 利用者向けメーリングリストのみ 全文検索エンジン Elasticsearch Google groups を利用 機械学習 MLib のメーリングリストと同じ 統計解析 R r-devel@r-project.org BI BA ツール JasperReports - Pentaho - インメモリ DB VoltDB - 47

利用者向けメーリングリスト 区分ソフトウェア利用者向けメーリングリスト クローラ Apache ManifoldCF user@manifoldcf.apache.org user@nutch.apache.org データロード user@sqoop.apache.org Talend - 収集 Apache Flume user@flume.apache.org Apache Kafka Fluentd users@kafka.apache.org Google groups を利用 CEP Apache Storm user@storm.apache.org Apache S4 Jubatus s4-user@incubator.apache.org Google groups を利用 Esper user@esper.codehaus.org ( 未集計 ) Drools Fusion Streaming Google groups を利用 のメーリングリストと同じ 並列分散処理 Apache Hadoop Common user@hadoop.apache.org データ蓄積ファイルシステム Apache Hadoop MapReduce Apache Hadoop YARN Apache Tez Apache Hadoop HDFS Lustre Apache Hadoop Common のメーリングリストと同じ Apache Hadoop Common のメーリングリストと同じ user@mesos.apache.org user@spark.apache.org user@tez.apache.org Apache Hadoop Common のメーリングリストと同じ ceph-user@lists.ceph.com gluster-users@gluster.org lustre-discuss@lists.lustre.org 準リアルタイムクエリ Apache Drill user@drill.apache.org SQL Impala user@hive.apache.org のメーリングリストと同じ Google groups を利用 インメモリ DG/ 分散 KVS Apache Cassandra user@cassandra.apache.org Apache HBase Infinispan Redis Riak user@hbase.apache.org 開発者向けメーリングリストのみ Google groups を利用 Google groups を利用 riak-users@lists.basho.com 全文検索エンジン Elasticsearch Google groups を利用 機械学習 MLib のメーリングリストと同じ 統計解析 R?(r-help@r-project.org と考える?) BI BA ツール JasperReports - Pentaho インメモリ DB VoltDB - Google groups を利用 48

ソースコードリポジトリサービス 区分ソフトウェア利用しているソースコードリポジトリサービス クローラ Apache ManifoldCF GitHub(apache/manifoldcf) GitHub(apache/nutch) データロード GitHub(apache/sqoop) Apache Kafka Talend - GitHub(apache/kafka) 収集 Apache Flume GitHub(apache/flume) Fluentd GitHub(fluent/fluentd) CEP Apache Storm GitHub(apache/storm) Apache S4 Jubatus Esper Drools Fusion Streaming GitHub(apache/incubator-s4) GitHub(jubatus/jubatus) GitHub(espertechnic/esper) GitHub(droolsjbpm/drools) と同じ 並列分散処理 Apache Hadoop Common GitHub(apache/hadoop-common) データ蓄積ファイルシステム Apache Hadoop MapReduce Apache Hadoop YARN - Apache Tez Apache Hadoop HDFS Lustre - GitHub(apache/hadoop-mapreduce) GitHub(apache/mesos) GitHub(apache/spark) GitHub(apache/tez) GitHub(apache/hadoop-hdfs) GitHub(ceph/ceph) GitHub(gluster/glusterfs) 準リアルタイムクエリ Apache Drill GitHub(apache/drill) SQL Impala GitHub(apache/hive) と同じ GitHub(cloudera/impala) インメモリ DG/ 分散 KVS Apache Cassandra GitHub(apache/cassandra) Apache HBase Infinispan - Redis Riak GitHub(apache/hbase) GitHub(infinispan/infinispan) GitHub(antirez/redis) GitHub(basho/riak) 全文検索エンジン Elasticsearch GitHub(elastic/elasticsearch) 機械学習 MLib と同じ 統計解析 R - BI BA ツール JasperReports - Pentaho GitHub(pentaho/pentaho-platform) インメモリ DB VoltDB GitHub(VoltDB/voltdb) 49

Twitter アカウント 区分ソフトウェア Twitter アカウント クローラ Apache ManifoldCF @ApacheManifold @ApacheNutch データロード @sqoopit Talend 収集 Apache Flume - Apache Kafka Fluentd @Talend @apachekafka @fluentd CEP Apache Storm @ApacheStorm Apache S4 - Jubatus Esper - Drools Fusion - Streaming @JubatusOfficial 並列分散処理 Apache Hadoop Common @hadoop データ蓄積ファイルシステム Apache Hadoop MapReduce Apache Hadoop YARN Apache Tez Apache Hadoop HDFS Lustre - と同じ Apache Hadoop と同じ Apache Hadoop と同じ @ @ApacheSpark @ApacheTez Apache Hadoop と同じ @ @glusterfs 準リアルタイムクエリ Apache Drill @ApacheDrill SQL Impala - @ApacheHive と同じ インメモリ DG/ 分散 KVS Apache Cassandra @Cassandra Apache HBase Infinispan Redis Riak - @Hbase @infinispan @ @redisfeed 全文検索エンジン Elasticsearch @Elasticsearch 機械学習 MLib と同じ 統計解析 R - BI BA ツール JasperReports @jasperreports Pentaho @Pentaho インメモリ DB VoltDB @VoltDB 50

Issue Tracker 区分ソフトウェア Issue Tracker クローラ Apache ManifoldCF JIRA(https://issues.apache.org/jira/browse/CONNECTORS) JIRA(https://issues.apache.org/jira/browse/NUTCH) データロード JIRA(https://issues.apache.org/jira/browse/SQOOP) Talend - 収集 Apache Flume JIRA(https://issues.apache.org/jira/browse/FLUME) Apache Kafka Fluentd JIRA(https://issues.apache.org/jira/browse/KAFKA) GitHub(https://github.com/fluent/fluentd/issues) CEP Apache Storm JIRA(https://issues.apache.org/jira/browse/STORM) Apache S4 - Jubatus Esper - Drools Fusion Streaming GitHub(https://github.com/jubatus/jubatus/issues) JIRA(https://issues.jboss.org/projects/DROOLS) と同じ 並列分散処理 Apache Hadoop Common JIRA(https://issues.apache.org/jira/browse/HADOOP) データ蓄積ファイルシステム Apache Hadoop MapReduce Apache Hadoop YARN Apache Tez Apache Hadoop HDFS Lustre JIRA(https://issues.apache.org/jira/browse/MAPREDUCE) JIRA(https://issues.apache.org/jira/browse/YARN) JIRA(https://issues.apache.org/jira/browse/MESOS) JIRA(https://issues.apache.org/jira/browse/spark) JIRA(https://issues.apache.org/jira/browse/TEZ) JIRA(https://issues.apache.org/jira/browse/HDFS) Redmine(http://tracker.ceph.com/projects/ceph) Bugzilla(https://bugzilla.redhat.com/) JIRA(https://jira.hpdd.intel.com/secure/Dashboard.jspa) 準リアルタイムクエリ Apache Drill JIRA(https://issues.apache.org/jira/browse/DRILL) SQL Impala JIRA(https://issues.apache.org/jira/browse/HIVE) と同じ JIRA(https://issues.cloudera.org/secure/Dashboard.jspa) インメモリ DG/ 分散 KVS Apache Cassandra JIRA(https://issues.apache.org/jira/browse/CASSANDRA) Apache HBase Infinispan Redis Riak 全文検索エンジン Elasticsearch - 機械学習 MLib と同じ JIRA(https://issues.apache.org/jira/browse/HBASE) JIRA(https://issues.jboss.org/secure/Dashboard.jspa) JIRA(https://jira.mongodb.org/secure/Dashboard.jspa) Google Project Hosting(https://code.google.com/p/redis/issues/list) GitHub(https://github.com/basho/riak/issues) 統計解析 R Bugzilla(https://bugs.r-project.org/bugzilla3/) BI BA ツール JasperReports - Pentaho JIRA(http://jira.pentaho.com/secure/Dashboard.jspa) インメモリ DB VoltDB JIRA(https://issues.voltdb.com/browse/VDM) 51

国内でのサービス提供状況 区分ソフトウェア有償ライセンス保守支援サービス研修サービスクラウドでの提供 クローラ Apache ManifoldCF - - - - - - データロード - Talend - 収集 Apache Flume - Apache Kafka - - Fluentd - - - CEP Apache Storm - - Apache S4 - - - - Jubatus - - - Esper - - - Drools Fusion - - - Streaming - 並列分散処理 Apache Hadoop Common データ蓄積ファイルシステム Apache Hadoop MapReduce Apache Hadoop YARN - - - - Apache Tez - - - Apache Hadoop HDFS - - Lustre - - - 準リアルタイムクエリ Apache Drill - - SQL - Impala - インメモリ DG/ 分散 KVS Apache Cassandra Apache HBase - Infinispan - - - Redis - - Riak - - 全文検索エンジン Elasticsearch - 機械学習 MLib - - 統計解析 R BI BA ツール JasperReports Pentaho インメモリ DB VoltDB - - - - 52