PowerPoint プレゼンテーション

Similar documents
製品開発の現場では 各種のセンサーや測定環境を利用したデータ解析が行われ シミュレーションや動作検証等に役立てられています しかし 日々収集されるデータ量は増加し 解析も複雑化しており データ解析の負荷は徐々に重くなっています 例えば自動車の車両計測データを解析する場合 取得したデータをそのまま解析

斎藤参郎 データサイエンス A 2018 年度水曜日 2 限目 (10:40-12:10) 0. イントロダクション 講義の進め方 担当昨年度より 講義の方針 1) 自宅でも学習できる 2) 様々なデータ分析手法を自分でインストールし 実験できる 環境の紹

Oracle SQL Developerの移行機能を使用したOracle Databaseへの移行

Microsoft Word - index.html

SAS Campaign Management 5.4 システム必要条件

PowerPoint Presentation

データマネジメントを取り巻く IT の課題 大規模データの実践的活用に向けて レッドハット株式会社 Senior Solution Architect and Cloud Evangelist 中井悦司 2012/04/13 version1.0

IBM Software Business Analytics IBM SPSS Missing Values IBM SPSS Missing Values 空白を埋める際の適切なモデルを構築 ハイライト データをさまざまな角度から容易に検証する 欠損データの問題を素早く診断する 欠損値を推定値に

iNFUSE インフューズ

SCTM12.0_Product Release Notice_V1

Oracle SQL Developer Data Modeler

VXPRO R1400® ご提案資料

Hadoop LZO圧縮機能の検証

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

Rの基本操作

スライド 1

Microsoft PowerPoint - 資料04 重回帰分析.ppt

1. 開発ツールの概要 1.1 OSS の開発ツール本書では OSS( オープンソースソフトウェア ) の開発ツールを使用します 一般に OSS は営利企業ではない特定のグループが開発するソフトウェアで ソースコードが公開されており無償で使用できます OSS は誰でも開発に参加できますが 大規模な

untitled

1. Micro Focus Enterprise Developer for Windows 開発環境 Micro Focus Enterprise Developer 4.0J for Windows (1 ネームドユーザ ) * 注 1 実行環境 Micro Focus Enterprise

データセンターの効率的な資源活用のためのデータ収集・照会システムの設計

Global Portal製品概要説明

iNFUSE インフューズ

セットアップカード

WebアプリケーションサーバJBoss入門

当し 図 6. のように 2 分類 ( 疾患の有無 ) のデータを直線の代わりにシグモイド曲線 (S 字状曲線 ) で回帰する手法である ちなみに 直線で回帰する手法はコクラン アーミテージの傾向検定 疾患の確率 x : リスクファクター 図 6. ロジスティック曲線と回帰直線 疾患が発

Slide 1

Microsoft Word - SPSS2007s5.doc

OSSTechプレゼンテーション

SAS Campaign Management 5.3 システム必要条件

P P P P P P P OS... P P P P P P

PassSureExam Best Exam Questions & Valid Exam Torrent & Pass for Sure

メール全文検索アプリケーション Sylph-Searcher のご紹介 SRA OSS, Inc. 日本支社技術部チーフエンジニア Sylpheed 開発者 山本博之 Copyright 2007 SRA OSS, Inc. Japan All right

tokyo_t3.pdf

報道関係者各位 プレスリリース 2019 年 01 月 15 日 株式会社ネオジャパン グループウェア desknet's NEO バージョン 5.2 を 1 月 15 日に提供開始 ~ 業務アプリ作成ツール AppSuite との連携を強化 他にも AppSuite 連携 API 公開など多数の機

12 PowerEdge PowerEdge Xeon E PowerEdge 11 PowerEdge DIMM Xeon E PowerEdge DIMM DIMM 756GB 12 PowerEdge Xeon E5-

OpenRulesモジュール

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

PHP 開発ツール Zend Studio PHP アフ リケーションサーハ ー Zend Server OSC Tokyo/Spring /02/28 株式会社イグアスソリューション事業部

PowerPoint プレゼンテーション

Apache Arrow 須藤功平株式会社クリアコード RubyData Tokyo Meetup Apache Arrow Powered by Rabbit 2.2.2

Introduction

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

Visual Basic Oracle Database 11 Release 1

3 4 SAP HANA 5 6 SAP HANA Xeon E7 v3 SAP HANA 6 8 OLTP OLAP 1 9 SAP S/4HANA SAP HANA Studio 13 14

COBOL Enterprise Edition V2 for Linux COBOL Enterprise Edition V2 は以下のソフトウェアによって構成されています COBOL Enterprise Edition Developer V2.0 COBOL Enterprise Edit

Microsoft Visual Studio 2010 Professional Data Sheet

Oracle Database 12c

iDIVO_Manager_service対応OSと必須ソフトウェア

スライド 1

PowerPoint プレゼンテーション

インテル(R) Visual Fortran コンパイラ 10.0

C3 データ可視化とツール

IBM Presentations: Smart Planet Template

<4D F736F F D F B835E82CC8D8291AC8F88979D82F08FAC8C5E82A982C288C089BF82C88D5C90AC82C AC82B782E996A78C8B8D878C5E836E815B C695C097F18F88979D82F091678D8782B982BD8C768E5A8B

MATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~

Microsoft PowerPoint - 1_コンパイラ入門セミナー.ppt

要旨 1. 始めに PCA 2. 不偏分散, 分散, 共分散 N N 49

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015

システムインテグレータのIPv6対応

IBM Rational Software Delivery Platform v7.0 What's

目次 はじめに P.02 マクロの種類 ---

sg_lenovo_os.xlsx

Microsoft Windows向けOracle Database 12cでのOracleホーム・ユーザーの導入

スライド 1

ライセンスの注意事項 サーババンドル版のライセンスについてサーババンドル版では 通常のサーバライセンスおよび 4 コアライセンスを ベースライセンス 追加サーバライセンスおよび追加 2 コアライセンスを 追加ライセンス と呼びます 1 台の物理サーバに対してベースライセンスは 1 つしか購入すること

Presentation Title

Silk Central Connect 15.5 リリースノート

CLUSTERPROXSingleServerSafe SingleServerSafe ご紹介 2007 年 10 月

インテル® VTune™ パフォーマンス・アナライザー 9.1 Windows* 版

CodeGear Developer Camp

ネットワークシミュレーション

Microsoft PowerPoint - SWoPP2010_Shirahata

OpenRulesモジュール

Hortonworks Kitase

Red Hat Enterprise Linux [ Server ] 型番 / 価格早見表 アドオン製品 (Option) に関する詳細は レッドハット社 WEB ページをご確認ください [ 新規 ]1 年契約 仮想化ゲ

Oracle Universal Content Management ドキュメント管理 クイック・スタート・チュ-トリアル

MATLAB®によるビッグデータ解析

Exam : 日本語版 Title : Enterprise Storage Sales V3 Vendor : IBM Version : DEMO 1 / 5 Get Latest & Valid J Exam's Question and Answers from

提案書

IBM クラウド事例から考える OSS による企業向けクラウドの可能性 日本アイ ビー エム株式会社 Linux/OSS エバンジェリスト中井悦司 Feb. 27, IBM Corporation

EnSightのご紹介

PowerPoint プレゼンテーション

Qlik Sense のシステム要件

Visual Studio with Cordova クロスプラットフォーム開発の全貌

IBM Presentations: Smart Planet Template

OpRisk VaR3.2 Presentation

ArcGIS Server 10 機能比較表

(Microsoft PowerPoint - DSE2019_IOProfiler\203v\203\214\203[\203\223\216\221\227\277-Rev1.1)

スライド 1

Veritas System Recovery 16 Management Solution Readme

Microsoft Word - 保健医療統計学112817完成版.docx

サーバに関するヘドニック回帰式(再推計結果)

タイトルを修正 軸ラベルを挿入グラフツール デザイン グラフ要素を追加 軸ラベル 第 1 横 ( 縦 ) 軸 凡例は削除 横軸は, 軸の目盛範囲の最小値 最 大値を手動で設定して調整 図 2 散布図の仕上げ見本 相関係数の計算 散布図を見ると, 因果関係はともかく, 人口と輸送量の間には相関関係があ

MotionBoard Ver.5 総合カタログ

SinfonexIDaaS機能概要書

Web Microsoft 2008 R2 Database Database!! Database 04 08

TopSE並行システム はじめに

Oracle Policy Automation 10.0システム要件

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司

Transcription:

<- + 革命 2014 年 6 月 株式会社 KSK アナリティクス

オープンソース & フリーソフト 1993 年二人の大学教授 Robert Gentleman と Ross Ihaka が開発開始 2000 年 Version 1.0 がリリース 現在 (2014 年 6 月 ) Version 3.1がリリースパッケージ数も多く Rで出来ない分析は無い 世界中のR 利用者は250 万人以上 と言われるほどに成長 2

扱いやすい関数型プログラミング言語 統計データの分析用の言語 豊富な分析アルゴリズムと洗練された可視化と分析 = 言語 + 分析 UNIX 哲学 一つのプログラムには一つのことをうまくやらせる (Write programs that do one thing and do it well. Write programs to work together) 3

増え続ける R パッケージ 利用可能なパッケージ数は 5,651 (2014 年 6 月現在 ) http://r4stats.com/articles/popularity/ 4

バラエティー豊かな R パッケージ http://www.maths.lancs.ac.uk/~rowlings/r/taskviews/ 5

R は Hadoop 上でも動きます https://github.com/revolutionanalytics 6

商用ソフトにも負けない可視化機能 http://www.r-bloggers.com/where-world-cup-players-actually-come-from/ 7

書籍も豊富 R 統計 848 件 8

書籍も豊富 R プログラミング 557 件 9

R ユーザーは世界中に 10

R のコミュニティー ( 勉強会 ) も盛況 11

オープンソース R の特徴 オープンソース & フリーソフトウェア 扱いやすい関数型プログラミング言語 パッケージ数も増加傾向 バラエティー豊かなパッケージ R は Hadoop 上でも動きます 商用ソフトにも負けない可視化機能 R の書籍も豊富 R ユーザーは世界中に R のコミュニティー ( 勉強会 ) も盛況 12

データ量は指数関数的に増加 近年はデータ量の増加とともに R での分析が困難になってきた プログラムを実行するのに プログラムの書き方やパッケージを利用した方法など 同じ結果を生むものでも様々な方法が試行錯誤されている みんな困っている 我が国の情報通信市場の実態と情報流通量の計量に関する調査研究結果 ( 平成 21 年度 ) 情報流通インデックスの計量 http://www.soumu.go.jp/main_content/000124276.pdf 13

Revolution Analytics Power Power 大規模データを高速に分析 Productivity 分析アプリケーションをより簡単に開発 & 構築 Enterprise Readiness Productivity Enterprise Readiness 商用版の安定利用 ビジネスサポート 14

オープンソース R と Revolution R Enterprise(RRE) ビッグデータ ( データ量 ) 取り扱えるデータ量はメモリに依存 メモリと HDD 容量のハイブリッド 分析速度 シングルスレッド ( 遅い ) マルチスレッド ( 早い ) ビジネス活用 コミュニティサポート 商用サポート 分析機能 5000+ のパッケージ 5000+ のパッケージビッグデータのパッケージ 商用利用 オープンソース利用 ( リスクが大きい ) 商用ライセンス 15

1. オープンソース R の実行環境を高速なプラットフォームに改善 2. 大規模データを R で高速に分析できる実行環境を整備 Hadoop 環境での実行 数値演算ライブラリーによる高速化 マルチスレッドの実行 最適なメモリ管理 マルチコアでの実行 並列アルゴリズム インデータベースでの実行 Parallelized User Code 16

RRE(Revolution R Enterprise) は複数のコンポーネントから構成されています DevelopR DeployR ConnectR ScaleR DistributedR 17

R+CRAN オープンソースの R (version 3.0.2) 関数 CRAN パッケージを RevoR から自由に呼び出すことできます これまで開発していた R スクリプト 関数 パッケージはそのままご利用頂けます DevelopR DeployR ConnectR ScaleR DistributedR RevoR 数値演算ライブラリーにより オープンソース R よりも 3 倍 50 倍程高速に実行できます RevoR はオープンソースで提供されています 動作環境 : Platform TM LSF TM Linux Microsoft HPC Clusters Microsoft Azure Burst Windows & Linux Servers Windows & Linux Workstations Teradata Database IBM Netezza IBM BigInsights TM Cloudera Hadoop Hortonworks Hadoop Intel Hadoop 18

R vs RevoR のパフォーマンス比較 オープンソース R Revolution R Enterprise(RRE) Computation (4-core laptop) Open Source R Revolution R Speedup Linear Algebra 1 Matrix Multiply 176 sec 9.3 sec 18x Cholesky Factorization 25.5 sec 1.3 sec 19x Linear Discriminant Analysis 189 sec 74 sec 3x General R Benchmarks 2 R Benchmarks (Matrix Functions) 22 sec 3.5 sec 5x R Benchmarks (Program Control) 5.6 sec 5.4 sec Not appreciable 1. http://www.revolutionanalytics.com/why-revolution-r/benchmarks.php 2. http://r.research.att.com/benchmarks/ オープンソース R のスクリプトを変更せず RevoR で実行 3 倍 50 倍など高いパフォーマンス向上が報告されています ( 倍率はデータ数やアルゴリズムにより変化 ) 19

ScaleR 並列分散処理 データベース内実行 Hadoop 環境などの実行で より高速なビッグデータ分析を実現できます ScaleR は XDF という高圧縮された独自のデータフォーマットを用い rx で始まるファンクションで分析できます 予測モデル 線形回帰, ロジスティック回帰, 一般化線形モデルなど 機械学習 モンテカルロシミュレーションなど DevelopR DeployR ConnectR ScaleR DistributedR 20

ScaleR の対応している機能 データ前処理 基本的な統計 R のデータ加工 統計情報 検定 データの読み込み (SAS, SPSS, OBDC 接続など ) 変数作成 変換 変数保存 説明変数 欠損値処理 ソート ( 並び替え ) マージ ( データ統合 ) 分割 ( スプリット ) カテゴリー毎の演算 ( 平均や合計など ) 最小 / 最大 平均 中央値 四分位 標準偏差 分散 相関係数 共分散 平方和 クロス集計 リスク オッズ比 カイ二乗検定 ケンドールの順位相関 フィッシャーの正確確率検定 T 検定 (Student s t-test) サブサンプリング ランダムサンプル サンプリング 21

ScaleR の対応している機能 統計モデル 機械学習 予測モデル データの可視化 クラスター分析 平方和 重回帰分析 一般化線形モデル 分散共分散行列 相関行列 ロジスティック回帰 分類木 回帰木 回帰 スコアリングモデル 残差 ヒストグラム 棒グラフ 散布図 ローレンツ曲線 ROC 曲線 K-Means 分類 変数選択 ステップワイズ回帰 決定木 ランダムフォレスト シミュレーション モンテカルロ シミュレーション 22

R vs ScaleR のパフォーマンス比較 時間 ( 秒 ) GLM: 一般化線形モデル データ件数 23

DistributedR DistributedR は並列処理フレームワーク上でメモリやコア CPU やスレッドなどのシステムリソースを管理できます Windows のデスクトップからエンタープライズ データウェアハウス (EDW) や Hadoop 上で実行することができます 動作環境 : Windows Servers Red Hat and SuSE Linux Servers IBM Platform LSF Linux Microsoft HPC Clusters Microsoft Azure Burst Teradata Database Cloudera Hadoop Hortonworks Hadoop DevelopR DeployR ConnectR ScaleR DistributedR ConnectR より高速なデータのインポートとエクスポートを実現します 動作環境 : High-performance XDF SAS, SPSS, テキスト Hadoop HDFS (text & XDF) Teradata Database & Aster EDWs and ADWs ODBC 24

DevelopR R の開発に適した統合 IDE 環境を提供します R のための開発環境であり R の文法に基づく入力補完機能や 重要となる文字のハイライト表示機能などがあります (DevelopR は Windows 環境のみ動作します ) DevelopR DeployR ConnectR ScaleR DistributedR DeployR R の実行 実行結果を Web サービスやアプリケーションとして提供することができます ( 例 :Java JavaScript.NET APIs など ) R コードを構築しサーバーの Web サービスとして組み込むことができるので どのユーザーからも簡単に R の結果を利用できるほか アプリケーションなどにも組み込むことができるため R がもたらす分析の効果を最大限に発揮することができます 25

データ量 分析速度に対するパフォーマンス Hadoop 環境での実行データベース内実行並列ユーザーコード並列分散処理並列処理マルチスレッド実行最適なメモリ管理数値演算ライブラリー ScaleR ScaleR ScaleR ScaleR DistributedR DistributedR DistributedR RevoR オープンソース R 26

Java の Map-Reduce で回帰分析 Data setup Mapper Reducer 行数 : 100 行の Java コード ( セットアップも含む ) 27

RRE で回帰分析 (Hadoop 上 ) 行数 :2 行の R コード (Java が 100 行だと考えると 50 倍の生産性 UP) 28

RRE with Hadoop Complex & Basic analytics 29

導入実績米国内 200 社以上 世界では 2000 社以上 Finance & Insurance Healthcare & Life Sciences Academic & Gov t Consumer & Info Svcs Manuf & Tech 30

オープンソース R と RRE (Revolution R Enterprise) オープンソース R RRE Workstation RRE Server オープンソース R の利用 CRAN パッケージの利用 RevoR ConnectR 高速な数値演算ライブラリによるマルチスレッド対応 より高速なインポートとエクスポート ( 形式 :XDF, SAS, SPSS, ASCII, Hadoop HDFS, Teradata TPT, ODBC) ScaleR より高速なビッグデータ分析 DevelopR Windows での R 統合開発環境 (IDE) DeployR Web サービスの API 提供 DistributedR データベースや Hadoop クラスタを横断した大規模処理 テクニカルサーポート 31

株式会社 KSK アナリティクス営業本部セールス グループ www.ksk-anl.com sales@ksk-anl.com より詳細は レボリューション R 日本語サイトへ http://www.r-analytics.jp/ 32