はじめての機械学習 - PDF 無料ダウンロード

一直線に進むことはめったにない機械学習においては最初から最後まで迷わず一直線に進むということはめったにありません常にさまざまなアイデアや方法を繰り返し試すことになるでしょうこのセクションではいくつかの重要な決定ポイントに注目しつつ機械学習の体系的なワークフローについて説明します

機械学習の課題機械学習における課題の大部分はデータ処理と正しいモデルの発見に関連していますデータの形式や規模は均一ではありません実世界のデータセットは乱雑で不完全でフォーマットもさまざまですシンプルな数値データのみの場合もあるかもしれませんしかしセンサー信号テキストカメラからのストリーミング画像などさまざまな種類のデータを組み合わせる場合もあるでしょうデータ処理には専門的な知識やツールが必要になる場合があります例えば特徴量を抽出して物体検出アルゴリズムの学習を行うためには画像処理の専門知識が必要ですデータの種類によって必要な前処理の方法も異なりますデータに最も適したモデルを見つけるには時間がかかります適切なモデルを選択するためにはバランスを取る必要があります柔軟性が高いモデルはデータに過適合しノイズの可能性がある些細な差異をモデル化してしまう傾向があります一方でシンプルなモデルとすると単純化の仮定が多くなり過ぎている可能性がありますモデルの実行速度と精度と複雑さは常にトレードオフの関係にあるのです手強そうに聞こえますねでも心配はいりません試行錯誤が機械学習の核心であることを思い出しましょうもしある方法やアルゴリズムが上手くいかなかったら別の方法やアルゴリズムを試せばよいのですそして体系的なワークフローを知っていればスムーズなスタートを切ることができるでしょう 3

始める前に考慮すべき点機械学習のワークフローは必ず次の 3 つの点を明らかにするところから始まりますどのような種類のデータを扱うのかそのデータからどのようなインサイトを導き出したいのか導き出したインサイトをどこでどのように活用するのか上記の点に基づいて教師あり学習教師なし学習のどちらを利用するのかを検討します教師あり学習機械学習教師なし学習予測 ( 例えば温度や株価などの連続型変数の将来値の推定 ) や分類 ( 例えばウェブ動画に映っている自動車の型式の特定 ) を行うモデルの学習が必要な場合は教師あり学習を選択します回帰分類入力データを詳しく調べる必要がある場合やデータをクラスターに分けるなどデータの適切な内部表現を見出すモデルの学習が必要な場合は教師なし学習を選択します 4

ワークフローの概要 1. データにアクセスし読み込む 4. ステップ 3 で抽出した特徴量を用いてモデルの学習を行う 2. データの前処理を行う 5. 最適なモデルが見つかるまで繰り返す 3. 前処理したデータから特徴量を抽出する 6. 最も上手く学習されたモデルをプロダクションシステムに組み込む次のセクションでは健康管理アプリを例に各ステップをより詳しく説明しますこのワークフローは全て MATLAB 内で完結します 5

身体活動の分類を行うモデルのトレーニング携帯電話の健康管理アプリを例にとって説明します入力は携帯電話の加速度計とジャイロスコープからの 3 軸センサーデータで構成されます応答 ( 出力 ) は歩く立つ走る階段を上る横になるなどの活動です入力データを用いて上記のような活動を特定する分類モデルの学習を行う必要があります目標が分類なので教師あり学習を採用します学習が済んだモデル ( 分類器 ) は 1 日を通してユーザーの活動レベルを追跡するアプリに組み込まれます機械学習 6

1 ステップ 1: データを読み込む加速度計とジャイロスコープからデータを読み込むために以下を行います 1. 携帯電話を持って座ります電話からのデータを記録しそのデータを座る (Sitting) とラベルを付けたテキストファイルに保存します 2. 携帯電話を持って立ち上がります電話からのデータを記録しそのデータを立つ ( Standing) とラベルを付けた 2 番目のテキストファイルに保存します 3. 分類したい各活動のデータが全て保存できるまで上記のステップを繰り返しますラベルの付いたデータセットをひとつのテキストファイルに保存しますテキスト形式や CSV などのフラットファイルフォーマットで保存するとその後の処理が容易になりデータを簡単にインポートできます機械学習アルゴリズムはノイズと意味ある重要な情報とを区別できるほど賢くはありません収集したデータを用いて学習を行う前にデータにノイズがなく完全であることを確かめる必要があります 7

2 ステップ 2: データの前処理を行うデータを MATLAB にインポートしラベルの付いたそれぞれのセットをプロットしますデータの前処理のために以下を行います 1. 異常値すなわち他のデータから離れた位置にあるデータポイントを探します異常値を無視してよいのかあるいはその異常値はモデルが考慮すべき現象を表しているのかを見極めなければなりませんここに例として示したデータの場合は異常値を無視しても問題ありません ( データの記録中に被験者が無意識に体を動かしてしまったために異常値が現れたのです ) 2. 欠損値 ( 記録中に接続が切れたために失われたと思われるデータ ) を調べます欠損値を全く無視しても構いませんがそれではデータセットのサイズが小さくなってしまいます代わりに内挿を行ったり他のサンプルの相当する部分のデータを使用したりして欠損値を推定して補うこともできます活動追跡データの異常値異常値が決定的に重要な情報となるアプリケーションもたくさんあります例えばクレジットカード不正利用検出アプリでは異常値はその顧客の通常の購買パターンから外れた購入であることを表しています 8

2 ステップ 2: データの前処理を行う ( 続き ) 3. 作成したアルゴリズムが携帯電話の動きではなく被験者の動きのみに着目できるように加速度計データから重力の効果を除きますそのためには通常双二次フィルターなどシンプルなハイパスフィルターを使用します 4. データを 2 つのデータセットに分けますデータの一部をテスト用に保存します ( テスト用データセット ) 残り ( 学習用データセット ) はモデルの構築に使用しますこの方法はホールドアウト法と呼ばれる交差検証法の 1 つですモデル化のプロセスで使用しなかったデータを用いてモデルのテストを行うことで未知のデータに対してどのような動作をするのかをチェックします 9

3 ステップ 3: 特徴量を抽出する特徴量の抽出 ( 特徴量エンジニアリングまたは特徴抽出とも呼ばれる ) は機械学習において最も重要な部分のひとつですこの作業によって生データを機械学習のアルゴリズムが利用できる情報へと変換しますアクティビティトラッカー ( 活動量計 ) の場合は加速度計データの周波数成分を捕捉した特徴量を抽出する必要がありますこれらの特徴量はアルゴリズムが歩いている状態 ( 周波数が低い ) と走っている状態 ( 周波数が高い ) とを区別する上で役立ちます抽出した特徴量をまとめた新たな表を作成します特徴選択を通じて以下を行います機械学習アルゴリズムの精度を向上させます高次元データセットに対するモデルの性能を高めますモデルの解釈のしやすさを向上させます過適合を防ぎます 10

3 ステップ 3: 特徴量を抽出する ( 続き ) 抽出できる特徴量は想像力次第で変わりますしかしデータの種類によって一般的によく用いられる手法というものがありますデータの種類特徴選択作業手法センサーデータ生のセンサーデータから信号特性を抽出し高度な情報に変換ピーク分析 - 高速フーリエ変換によって卓越周波数を特定パルスおよび遷移指標 - 立ち上がり時間立ち下がり時間整定時間などの信号特性を抽出スペクトル測定 - 信号電力帯域幅平均周波数中央周波数をプロット画像映像データエッジ位置分解能色などの特徴を抽出 Bag of visual words-エッジ角ブロブなど画像の局所的特徴のヒストグラムを作成勾配方向ヒストグラム ( HOG)- 局所的な勾配の方向のヒストグラムを作成最小固有値アルゴリズム - 画像の角の位置を検出エッジ検出 - 輝度が急に変化するポイントを特定トランザクションデータデータ内の情報を強化する抽出値を計算タイムスタンプ分解 - タイムスタンプを日月などの成分に分解合算値計算 - 特定の事象が起こった合計回数など高度な特徴を算出 11

4 ステップ 4: モデルの構築学習を行うモデルの構築にあたってはシンプルな方法から始めるのがいいでしょうその方が実行時間が短く解釈もより簡単になります基本的な決定木から始めますモデルの性能を調べるために混同行列を作成します混同行列はモデルが行った分類とステップ 1 で作成した実際のクラスラベルとを比較した表です特徴 53<335.449 特徴 53>=335.449 座っている >99% 立っている 99% 特徴 3<2.50002 特徴 3>=2.50002 特徴 56<12686 特徴 56>=12686 特徴 11<0.45 特徴 11>=0.45 立っている座っている歩いている真のクラス歩いている走っている >99% 1% 93% 5% 踊っている 40% 59% 走っている踊っている座っている立っている歩いている踊っている走っている予測したクラス混同行列から作成したモデルでは踊っている状態と走っている状態の区別に問題があることが分かりますこのタイプのデータに対しては決定木は上手く機能しないのかもしれませんそこで他のいくつかのアルゴリズムを試してみます 12

4 ステップ 4: モデルの構築学習を行う ( 続き ) まず k 近傍法 ( KNN) を試してみます KNN はシンプルなアルゴリズムで学習用データを全て読み込み新たなポイントと学習用データとを比較し k 個の最近傍点の中で最も頻度が高いクラスを返します KNN による精度は 98% でそれに対してシンプルな決定木の精度は 94.1% でした混同行列も以下の通り改善していますしかし KNN は予測に全ての学習用データを使用するため実行にかなりの量のメモリを必要とします次に線形判別モデルを試みましたが結果は改善しませんでした最後に複数クラスのサポートベクタマシン (SVM) を試みました SVM では非常に良い結果が得られました精度が 99% となったのです座っている >99% 座っている >99% 立っている 1% 99% 1% 立っている >99% 真のクラス歩いている走っている 2% 98% 1% 97% 1% 真のクラス歩いている走っている >99% 98% 2% 踊っている 1% 1% 6% 92% 踊っている 3% 96% 座っている立っている歩いている走っている踊っている座っている立っている歩いている走っている踊っている予測したクラス予測したクラスさまざまなアルゴリズムを試しながらモデル化を繰り返すことで目標を達成することができましたもし踊っている状態と走っている状態の区別について信頼性がまだ十分でない場合はさらにモデルを改善する方法を探します 13

5 ステップ 5: モデルを改善するモデルの改善には単純化と複雑化の 2 つの異なる方向が考えられます単純化まず特徴量の数を削減する可能性を検討します特徴量の数を削減する一般的な方法としては以下が挙げられます相関行列変数間の関係を明らかにすることで相関がそれほど高くない変数 ( 特徴量 ) を削ることができます主成分分析 (PCA) もともとの特徴量同士の重要な違いを捉えデータセットから強力なパターンを引き出す特徴量の組み合わせを見つけ冗長性を排除します特徴量の逐次削減モデルの性能に改善が見られなくなるまで繰り返し特徴量を削減します次にモデル自体を小さくしていく方法を検討します次のような方法が挙げられます優れたモデルには最も予測力の高い特徴量しか含まれません汎化性能の高いシンプルなモデルは新しいデータに対して適応しない汎化性能の低い複雑なモデルよりも優れています機械学習においては他の多くのコンピュータ処理プロセスと同様にモデルの単純化によって理解のしやすさや頑健性処理効率が高まります決定木の枝を剪定しますアンサンブルの中の学習器を減らします 14

5 ステップ 5: モデルを改善する ( 続き ) 複雑化過剰な汎化を行ってしまっているせいで踊っている状態と走っている状態とをモデルが区別できない場合モデルの微調整を行う方法を見つける必要がありますそのためには次のいずれかの方法が考えられますモデルを組み合わせて使用する複数のシンプルなモデルを統合しより大きなモデルを作成しますこの場合個々のシンプルなモデルのどれよりも適切にデータの傾向を表すことができるような大きなモデルとしますデータソースをさらに追加するジャイロスコープデータと加速度計データの両方を使用しますジャイロスコープは活動中の携帯電話の向きを記録しますこのデータはそれぞれの活動独特の特徴を示すことがあります例えば加速と回転のある特定の組み合わせは走っている状態に特有のものである場合がありますモデルの調整が済んだら前処理段階で取り分けたテストデータを用いてモデルの性能を検証しますモデルがテストデータに記録された活動を確実に分類できれば携帯電話に組み込んで活動の追跡を行う準備が整ったことになります 15

参考資料機械学習についてさらに詳しく学んでみませんか? 機械学習の方法論事例ツールの詳細について以下の資料もぜひご参照ください見る MATLAB による機械学習の基礎 ~ 特徴抽出分類器交差検定 ~ 38:31 センサーデータ解析と機械学習 ~ 振動データからの異常検出 ~ 47:21 機械学習のための信号処理 51:37 読む教師あり学習のワークフローとアルゴリズム MATLAB アナリティクスによるデータに基づいたインサイト : 電力負荷予測のケーススタディ調べる機械学習の MATLAB サンプルコード分類学習器アプリによるデータ分類 ( 英語 ) 2016 The MathWorks, Inc. MATLAB and Simulink are registered trademarks of The MathWorks, Inc. See mathworks.com/trademarks for a list of additional trademarks. Other product or brand names may be trademarks or registered trademarks of their respective holders. 93078v00