Presentation Title

Similar documents
MATLAB®製品紹介セミナー

AI技術の紹介とセンサーデータ解析への応用

PowerPoint Presentation

Presentation Title

MATLAB ではじめる画像処理とロボットビジョン ~ 機械学習による物体認識と SLAM~ MathWorks Japan アプリケーションエンジニアリング部信号処理 通信 木川田亘 2015 The MathWorks, 1Inc.

SimulinkによるReal-Time Test環境の構築

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

f2-system-requirement-system-composer-mw

はじめての機械学習

SimscapeプラントモデルのFPGAアクセラレーション

tokyo_t3.pdf

SAP11_03

Rの基本操作

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

日心TWS

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

製品開発の現場では 各種のセンサーや測定環境を利用したデータ解析が行われ シミュレーションや動作検証等に役立てられています しかし 日々収集されるデータ量は増加し 解析も複雑化しており データ解析の負荷は徐々に重くなっています 例えば自動車の車両計測データを解析する場合 取得したデータをそのまま解析

機械学習のご紹介

Introduction to System Identification

統計的データ解析

講義「○○○○」

Presentation Title

Presentation Title

スライド 1

PowerPoint プレゼンテーション

データサイエンス講座第 3 回機械学習その 2 ロジスティクス回帰 カーネル法とサポートベクターマシン アンサンブル学習

PowerPoint Presentation

0 スペクトル 時系列データの前処理 法 平滑化 ( スムージング ) と微分 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

Microsoft Word - HowToSetupVault_mod.doc

Expo 2014

ベイズ統計入門

最小二乗法とロバスト推定

Presentation Title

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

センサーデータアナリティクスの開発から運用まで

PowerPoint プレゼンテーション

時系列データ解析による予測と最適化 ~エネルギー需要、発電、価格のモデリング~

Adobe Acrobat DC 製品比較表

目次 ガウス過程 (Gaussian Process; GP) 序論 GPによる回帰 GPによる識別 GP 状態空間モデル 概括 GP 状態空間モデルによる音楽ムードの推定

Signal Processing Toolbox

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

Microsoft PowerPoint - mp11-06.pptx

2D/3D CAD データ管理導入手法実践セミナー Autodesk Vault 最新バージョン情報 Presenter Name 2013 年 4 月 2013 Autodesk

1 人間と同様の知能とは実際どの様な事か! 人間だからこそ可能と思われている事象から * 判断する * 予測する * 診断する * 推測する 人間が行っていること 多くの判断材料からある種の結論を導き出す事 技術的には 多くのデータから特徴を見出し結論を導き出す事 研究開発や工場では人間だからこそで

EBNと疫学

いまからはじめる、MATLABによる 画像処理・コンピュータビジョン

PowerPoint Presentation

MATLAB®によるビッグデータ解析

医用画像を題材とした3次元画像解析とディープラーニング

1.民営化

Microsoft PowerPoint - e-stat(OLS).pptx

概要0911JP.indd

memo

Presentation Title

Progress report

(Microsoft PowerPoint - - ver3.pptx)

NGSデータ解析入門Webセミナー

制御のためのSimulink入門

Microsoft PowerPoint - GLMMexample_ver pptx

f3-power-train-simulation-mw

コンピュータ応用・演習 情報処理システム

数値計算法

AutoCAD道場-なぜ「レイアウト」がいいのか?

Microsoft Word doc

分析のステップ Step 1: Y( 目的変数 ) に対する値の順序を確認 Step 2: モデルのあてはめ を実行 適切なモデルの指定 Step 3: オプションを指定し オッズ比とその信頼区間を表示 以下 このステップに沿って JMP の操作をご説明します Step 1: Y( 目的変数 ) の

0 21 カラー反射率 slope aspect 図 2.9: 復元結果例 2.4 画像生成技術としての計算フォトグラフィ 3 次元情報を復元することにより, 画像生成 ( レンダリング ) に応用することが可能である. 近年, コンピュータにより, カメラで直接得られない画像を生成する技術分野が生

MATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~

--

サーバに関するヘドニック回帰式(再推計結果)

dlshogiアピール文章

IBM Software Business Analytics IBM SPSS Missing Values IBM SPSS Missing Values 空白を埋める際の適切なモデルを構築 ハイライト データをさまざまな角度から容易に検証する 欠損データの問題を素早く診断する 欠損値を推定値に

Microsoft PowerPoint - pr_12_template-bs.pptx

Probit , Mixed logit

Medical3

AutoCAD WS Mobile アプリケーション

PowerPoint Presentation

◎phpapi.indd

MATLAB EXPO 2019 Japan プレゼン資料の検討

相関分析・偏相関分析

AutoCAD のCitrix XenApp 対応

自動車開発におけるビッグデータ / クラウド時代のデータ解析

Chapter カスタムテーブルの概要 カスタムテーブル Custom Tables は 複数の変数に基づいた多重クロス集計テーブルや スケール変数を用いた集計テーブルなど より複雑な集計表を自由に設計することができるIBM SPSS Statisticsのオプション製品です テーブ

PowerPoint プレゼンテーション

Microsoft PowerPoint - Econometrics

Microsoft Word - lec_student-chp3_1-representative

Python によるジオプロセシング スクリプト入門

PowerPoint プレゼンテーション

情報工学概論

Microsoft PowerPoint - LAB-03-SR18-ã…Łã‡¡ã‡¤ã…«ã…ªã‡¹ã…‹ã‡¢-v1

スライド 1

Learning Bayesian Network from data 本論文はデータから大規模なベイジアン ネットワークを構築する TPDA(Three Phase Dependency Analysis) のアルゴリズムを記述 2002 年の発表だが 現在も大規模用 BN モデルのベンチマークと

Presentation Title

カイ二乗フィット検定、パラメータの誤差

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

b2-reinforcement-learning-mw

Microsoft PowerPoint - no1_17

<4D F736F F F696E74202D E738A5889BB8BE688E68A4F82CC926E89BF908492E882C98AD682B782E98CA48B862E707074>

Microsoft PowerPoint - 資料04 重回帰分析.ppt

ビジネス統計 統計基礎とエクセル分析 正誤表

Transcription:

データの本質を読み解くための機械学習 MATLAB でデータ解析の課題に立ち向かう MathWorks Japan アプリケーションエンジニア部アプリケーションエンジニア井原瑞希 2016 The MathWorks, Inc. 1

Buzzwords IoT 人工知能 / AI データ解析 ビッグデータ 2

データ解析ワークフロー データへのアクセスと探索 データの前処理 予測モデルの構築 システムへの統合 機械学習 特徴選択モデルの選択ファインチューニング 3

Machine Learning is Everywhere! 4

機械学習とは 機械学習 ではない データ解析 データそのものから直接わかること >> SimpleDALive 5

機械学習とは 機械学習の定義 データから直接観測できないパタンやルールを モデルを元にして機械的 ( 自動的 ) に学習すること なぜ機械学習を使うのか 未知のサンプルに対する予測が可能 予測に必要な情報を残し 冗長な情報を省くことが可能 6

機械学習とは 教師なし学習 ラベルなし クラスタリング 70.5 機械学習 教師あり学習 ラベルあり 回帰 連続値 分類 離散値 x ビッグデータ解析 良 / 可 / 不可 7

本日のトピック 回帰分析 回帰分析ワークフロー 回帰モデルの見方 サンプル数が少ないときの回帰分析 分類 分類のワークフロー コーティングを簡単にする方法 機械学習の課題 ハイパーパラメータの探索 機械学習によるビッグデータ解析 メモリに収まりきらないビッグデータを扱う場合 回帰 分類 x ビッグデータ解析 8

本日のトピック 回帰分析 回帰分析ワークフロー 回帰モデルの見方 サンプル数が少ないときの回帰分析 分類 分類のワークフロー コーティングを簡単にする方法 機械学習の課題 ハイパーパラメータの探索 機械学習によるビッグデータ解析 メモリに収まりきらないビッグデータを扱う場合 回帰 分類 x ビッグデータ解析 9

回帰分析とは 観測可能なデータから変数間の関係性をモデリング 例 : 二乗誤差の和を最小化 説明変数 X の関数として目的変数 Y を説明する変数の関係性モデルを構築 観測値 Y = mx + b X モデル Y 距離 ( 誤差 ) Y = f (X) 観測値と予測値の差を最小化する係数を推定 入力 X の未知の出力 Y を予測可能 予測値 10

回帰分析の流れ Statistics and Machine Learning Toolbox モデルの変更 No 得られた観測値 モデルの作成 モデルのクオリティは十分? Yes 未知サンプルに対する予測 11

例 : 大阪の住宅価格の推定 推定対象 ( 目的変数 ) 住宅価格 既知の情報 ( 説明変数 ) 位置情報 部屋の形状 地積 階数 駅からの距離など 目的 どの説明変数が住宅価格に関わっているか調べる 正確な住宅価格予測モデルの作成 商業施設の場所の決定 経済指標として利用 >> HousingPriceEst_Osaka 12

回帰モデルの推定結果 線形回帰モデル : y ~ 1 + x1 推定された係数 : t 値 : 説明変数が与える影響 p 値 : 係数の有意確率 ( 極端な値を取る確率 ) モデルのクオリティは十分? Estimate SE tstat pvalue (Intercept) -3749.5 51.154-73.298 1.188e-21 x1 2.0608 0.025507 80.794 2.5117e-22 観測数 : 18 誤差の自由度 : 16 二乗平均平方根誤差 : 0.561 説明変数が 目的変数の変化決定係数 : 0.998 自由度調整済み決定係数 0.997 をどれくらい説明できているか F 統計量と一定のモデルの比較 : 6.53e+03 p 値は 2.51e-22 13

回帰の種類 Curve Fitting Toolbox Statistics and Machine Learning Toolbox パラメトリック回帰例 ) 線形回帰 ステップワイズ回帰 モデル式を仮定して データにフィットするようなパラメタを探索データ = 確定的な成分 + ランダムな誤差 データの傾向や関数がある程度わかっている場合に有効 ノンパラメトリック回帰 例 ) ガウス過程回帰 決定木 関数の形を定めない 学習サンプルが少なく推定結果が良くない場合は? 事前に関数がわからない場合や観測可能なサンプル数が少ない場合に有効 14

ガウス過程回帰 Statistics and Machine Learning Toolbox ガウス過程回帰 (Gaussian Processes, Kriging) ノンパラメトリックな確率モデル 訓練データに近ければ分散が小 離れると分散大のガウス分布から確率的に生成されていると仮定 ( 近傍とのなめらかな遷移を仮定 ) 利点 欠点 サンプル数が少ない場合にも高い予測精度 途中でサンプルの傾向が変わった場合に対応可能 高次元のデータでは予測精度が高くない 15

回帰分析のまとめ モデルフィッティング関数クラス名 線形回帰 fitlm LinearModel パラメトリック回帰 一般化線形回帰 fitglm GeneralizedLinearModel 非線形回帰 fitnlm NonLinearModel サポートベクタ回帰 fitrsvm RegressionSVM ノンパラメトリック回帰 ガウス過程回帰 fitrgp RegressionGP 回帰木 fitrtree RegressionTree アンサンブル学習 ( 回帰 ) fitensemble RegressionEnsemble ニューラルネットワーク train --- 16

本日のトピック 回帰分析 回帰分析ワークフロー 回帰モデルの見方 サンプル数が少ないときの回帰分析 分類 分類のワークフロー コーティングを簡単にする方法 機械学習の課題 ハイパーパラメータの探索 機械学習によるビッグデータ解析 メモリに収まりきらないビッグデータを扱う場合 回帰 分類 x ビッグデータ解析 17

分類の流れ 学習フェーズ テストフェーズ ラベル情報 入力 入力 特徴抽出 特徴抽出 機械学習アルゴリズム 分類モデル ラベルの予測 18

MATLAB における機械学習 Statistics and Machine Learning Toolbox Neural Network Toolbox 教師なし学習 クラスタリング 訓練データなし 機械学習 教師あり学習 訓練データあり 回帰 連続 分類 離散 線形判別 二次判別 k- 最近傍分類単純ベイズ分類決定木アンサンブル学習ニューラルネットワークサポートベクターマシン 19

アプリを使った機械学習のコード作成 Statistics and Machine Learning Toolbox Parallel Computing Toolbox 分類学習器アプリ 並列モデル学習機能の追加 データを分類するためのモデル学習 GUI GUI 操作を MATLAB コードとして生成することができる MATLAB プログラムの自動生成 20

例 : New York のタクシーチップカテゴリの分類 目的 チップの多い乗客の傾向を調べる 使用するデータ New York のタクシー利用履歴 ( 乗車の時間 人数 位置など ) csv ファイル 解析ワークフロー 前処理 解析に使用する特徴の選択 チップカテゴリ分類モデルの構築 ( 分類学習器アプリの使用 ) チップカテゴリ分類モデルの評価 $0 $5 >> TaxiTipClassification 21

分類器の種類と使い分け 分類器オプションの選択 http://jp.mathworks.com/help/stats/choose-a-classifier.html 22

機械学習手法における課題 課題 ハイパーパラメータの調節 ハイパーパラメータ データから直接決めることのできないパラメータ ユーザがあらかじめ決めておく必要あり グリッドサーチ ( 従来の方法 ) 格子状の空間で最適なパラメータを探索 課題 : ある範囲を総当りするため計算時間がかかる 23

機械学習手法における課題 : ハイパーパラメータの調節 ベイズ最適化 あるハイパーパラメータでの学習器の精度を目的関数として定義 この目的関数を最大化するパラメータを推定 条件 ガウス過程回帰でモデル化 精度が上がりやすそうな方向を確率的に推定 低次元データ 目的関数の評価に時間がかかる 低精度 大域的な解を求めたい ハイパーパラメータの決定 24

ベイズ最適化によるパラメータチューニング 1. Statistics and Machine Learning Toolbox 機械学習アルゴリズムのハイパーパラメータ推定の自動化 fit 関数の OptimizeHyperparameters オプションを追加 パラメータ値固定 ベイズ最適化によるパラメータ決定 2. 目的関数を指定して bayesopt 関数を使用 定義した制約内で最適化 25

ベイズ最適化最終結果 26

本日のトピック 回帰分析 回帰分析ワークフロー 回帰モデルの見方 サンプル数が少ないときの回帰分析 分類 分類のワークフロー コーティングを簡単にする方法 機械学習の課題 ハイパーパラメータの探索 機械学習によるビッグデータ解析 メモリに収まりきらないビッグデータを扱う場合 回帰 分類 x ビッグデータ解析 27

メモリに収まらないデータの扱い user operation tall: メモリに収まりきらないデータに対するデータ型 テキストファイル 画像ファイル データベース Hadoop 分散ファイルシステム MATLAB Datastore Tall 配列 演算アルゴリズム Statistics and Machine Learning Toolbox k-means クラスタリング主成分分析線形回帰一般化線形回帰判別分析... Tall Array 対応関数リスト https://jp.mathworks.com/help/releases/r2016b/matlab/import_export/functions-that-support-tall-arrays-by-type.html 28

例 : New York のタクシー料金の予測モデルの作成 ( 回帰分析 ) 使用するデータ 25GB の csv ファイル 解析ワークフロー 解析に使用する特徴の選択 前処理 データの探索 料金予測モデルの構築 料金モデルの評価 >> TallArrayDemo 29

メモリに収まらないデータの扱い Parallel Computing Toolbox MATLAB Distributed Computing Server Tall Array のしくみ gather 関数で初めてすべての演算が実行 演算をまとめることでデータへのアクセスを最適化 (遅延評価) 1台の マシンメモリ datastore tall gather 計算 結果 クラスタのメモリ 30

本日のトピック 回帰 x ビッグデータ解析 回帰分析 回帰分析ワークフロー 回帰モデルの見方 サンプル数が少ないときの回帰分析 : 分類 分類のワークフロー コーティングを簡単にする方法 : ハイパーパラメターの探索 : ガウス過程回帰 分類学習器アプリ ベイズ最適化 機械学習によるビッグデータ解析 メモリに収まりきらないビッグデータを扱う場合 : Tall 配列 分類 機械学習のトレーニングもあります! 31

MATLAB Answers 日本語 / 英語の Q&A サイト MATLAB に関する過去の質問 & 回答が閲覧可能 MathWorks アカウントがあれば 誰でも投稿できます! 日本語 / 英語両方に対応 得意な分野の質問への回答に挑戦してみませんか? http://jp.mathworks.com/matlabcentral/answers 32

2016 The MathWorks, Inc. MATLAB and Simulink are registered trademarks of The MathWorks, Inc. See www.mathworks.com/trademarks for a list of additional trademarks. Other product or brand names may be trademarks or registered trademarks of their respective holders. 33