Sparkを 生 んだAMPLabと ビジネス 向 け 機 械 学 習 2014 年 11 月 6 日 日 本 電 気 株 式 会 社 情 報 ナレッジ 研 究 所 中 台 慎 二 Cloudera World Tokyo 2014
自 己 紹 介 中 台 慎 二 2003 NEC 入 社 2012~13 UC Berkeley 客 員 研 究 員 AMPLab 機 械 学 習 分 散 システム/DB Prof. Michael Franklin 2014 現 在 情 報 ナレッジ 研 究 所 主 任 (データ&テキストマイニング) Page 2
Sparkとは? UC Berkeley AMPLabで 開 発 された 分 散 処 理 基 盤 インメモリで 高 速 急 速 に 普 及 中 Apache Hadoop Apache Spark Visiting Scholar Google Trends (2014 年 10 月 現 在 ) 商 用 サポート Page 3
前 半 AMPLab 本 日 のお 話 後 半 システムと 機 械 学 習 の 最 先 端 ビジネス 向 け 機 械 学 習 事 例 ソリューション 機 械 学 習 システム Page 4
プラットフォームからのトータルなサポート 今 後 の 協 業 を 発 表 2014/10/14 YARN システム 製 品 ソリューション SI サポート トレーニングなど Page 5
前 半 AMPLab システムと 機 械 学 習 の 最 先 端 ソリューション 機 械 学 習 システム Page 6
システムと 機 械 学 習 の 最 先 端 の 融 合 Prof. Michael Jordan 機 械 学 習 のトップ MLBase シリコンバレー 企 業 (Google, Facebook, Amazon, etc.) GraphX ニーズ BDAS Berkeley Data Analytics Stack Spark Streaming Spark Prof. David Patterson Prof. Randy Katz Prof. Scott Shenker Prof. Michael Franklin Prof. Ion Stoica システム 系 のトップ BlinkDB Spark SQL Tachyon HDFS Mesos YARN Page 7
前 半 で 紹 介 するお 話 : 融 合 研 究 の 一 例 前 半 AMPLab システムと 機 械 学 習 の 最 先 端 ソリューション 最 先 端 のエッセンス 機 械 学 習 課 題 システム 学 習 の 並 列 化 BDAS/Sparkチューニングの 話 両 面 からの 研 究 の 具 体 例 (OCC DP-means) 解 決 X. Pan, J. Gonzalez, S. Jegelka, T. Broderick, M. Jordan, NIPS 2013 Page 8
OCC DP-Meansの 概 要 学 習 システム 課 題 K-means (クラスタリング) 欠 点 : クラスタ 数 を 決 める 必 要 DP-means 欠 点 : 逐 次 実 行 である 必 要 解 決 策 DP-means 利 点 : 自 動 で 決 まる OCC DP-means ( 楽 観 的 並 行 性 制 御 ) 利 点 : 並 列 化 可 能 RDBの ACIDの 議 論 が 関 係 Page 9
学 習 エンジン 利 用 時 の 課 題 パラメータを 振 るのが 大 変! 例 : 顧 客 をクラスタリングしたい K-meansを 使 おう! クラスタ 数 Kは いくつにしよう? 3クラスタ? 4クラスタ? Page 10
K-Meansでは 予 めクラスタ 数 を 決 める 必 要 K=3 Page 11
K-Meansでは 予 めクラスタ 数 を 決 める 必 要 K=3 Page 12
K-Meansでは 予 めクラスタ 数 を 決 める 必 要 K=3 K=4 Page 13
K-Meansでは 予 めクラスタ 数 を 決 める 必 要 K=3 K=4 自 動 で 決 まる! Page 14 Bayesian Nonparametricsだと
DP-means: 最 先 端 のエッセンスをシンプルに 導 入 手 動 クラスタ 数 自 動 速 い K-means DP-means σ 0 精 度 確 率 的 混 合 ガウス σ ベイズ PRML 9.3.2 B. Kulis and M. Jordan, ICML2012 非 確 率 的 混 合 ディリクレ 過 程 σ 最 先 端 学 会 でブーム (Bayesian Nonparametrics) Page 15
DP-meansでは 離 れていたら 独 立 独 立 した 点 の 周 りに 他 の 点 が 集 まりクラスタ 化 解 決 Page 16
DP-meansでは 離 れていたら 独 立 独 立 した 点 の 周 りに 他 の 点 が 集 まりクラスタ 化 > 閾 値 l 解 決 Page 17
DP-meansでは 離 れていたら 独 立 独 立 した 点 の 周 りに 他 の 点 が 集 まりクラスタ 化 解 決 Page 18
DP-meansでは 離 れていたら 独 立 独 立 した 点 の 周 りに 他 の 点 が 集 まりクラスタ 化 解 決 Page 19
並 列 化 の 課 題 そのままSparkで 実 装 した 時 の 課 題 中 心 から l 離 れた 点 が 複 数 独 立 中 心 というグローバル 情 報 を 別 々に 更 新 グローバル 情 報 閾 値 l Spark RDD Page 20
並 列 化 の 課 題 そのままSparkで 実 装 した 時 の 課 題 中 心 から l 離 れた 点 が 複 数 独 立 中 心 というグローバル 情 報 を 別 々に 更 新 グローバル 情 報 閾 値 l Spark RDD Page 21
並 列 化 の 課 題 そのままSparkで 実 装 した 時 の 課 題 中 心 から l 離 れた 点 が 複 数 独 立 中 心 というグローバル 情 報 を 別 々に 更 新 グローバル 情 報 閾 値 l Spark RDD Page 22
並 列 化 の 課 題 そのままSparkで 実 装 した 時 の 課 題 中 心 から l 離 れた 点 が 複 数 独 立 中 心 というグローバル 情 報 を 別 々に 更 新 グローバル 情 報 閾 値 l Spark RDD Page 23
楽 観 的 に 並 行 性 制 御 グローバル 情 報 一 旦 受 け 入 れ 後 で 妥 当 性 検 証 閾 値 l Spark RDD Page 24
楽 観 的 に 並 行 性 制 御 グローバル 情 報 一 旦 受 け 入 れ 後 で 妥 当 性 検 証 閾 値 l Spark RDD Page 25
楽 観 的 に 並 行 性 制 御 グローバル 情 報 一 旦 受 け 入 れ 後 で 妥 当 性 検 証 閾 値 l Spark RDD この 時 期 Prof. Alan Fekete がAMPLabに 数 か 月 滞 在 (Serializable Snapshot Isolationの 提 案 者 ) Postgres 9.1に 採 用 され Snapshot Isolationが 真 にSERIALIZABLEに Page 26
実 証 実 験 の 概 要 購 買 データなど DP-means 独 自 セグメント 分 析 エンジン AMPLab Spark1.1.0 YARN CDH 4.7 100 台 NEC Cloud IaaS Page 27
実 証 実 験 の 結 果 真 のクラスタ 数 に 一 致 しやすいが 閾 値 に 依 存 10クラスタから データ 生 成 学 習 で データからクラスタ 再 現 実 験 結 果 は 画 面 のみ Page 28
後 半 へのつなぎ 自 動 で 決 まるクラスタ 数 は 真 のクラスタ 数 に 必 ず 一 致 するか? ( 沢 山 のデータがあった 場 合 ) Dirichelet Process (DP-meansの 原 型 ) フルベイズで 閾 値 相 当 のパラメータを 更 新 しても NO J.W. Miller, NIPS2013 異 種 混 合 Yes R. Fujimaki, AISTATS2012 Page 29
後 半 ビジネス 向 け 機 械 学 習 の 事 例 ソリューション 機 械 学 習 システム Page 30
学 習 エンジンのマップ 精 度 SVM DeepLearning 異 種 混 合 決 定 木 回 帰 分 析 説 明 可 能 性 Page 31
学 習 エンジンの 特 徴 に 応 じた 使 い 分 け 精 度 説 明 可 能 性 ( 可 読 性 ) 目 じりの 間 隔 と 眉 の 長 さの 比 が 以 上 だから 分 析 の 結 果 が 重 要 と 思 われます 画 像 認 識 など ( 判 定 理 由 不 要 ) ビジネス 分 析 (レポーティングが 重 要 ) Page 32
可 読 性 のある 学 習 1: 決 定 木 例 : 慎 重 と 体 重 から 生 活 習 慣 病 リスク 説 明 のための 疑 似 データ リスクあり 身 長 体 重 未 満 150 以 上 100 なし 体 重 未 満 100 以 上 150 なし あり 身 長 Page 33
可 読 性 のある 学 習 2 : 回 帰 分 析 例 生 活 習 慣 病 の 発 症 率 = 5 体 重 ー3 + 運 動 日 数 + 2 年 齢 ー1 + 野 菜 を 食 べる 回 帰 係 数 説 明 のための 疑 似 データ Page 34
学 習 エンジンのマップ 精 度 SVM DeepLearning 異 種 混 合 異 種 混 合 決 定 木 回 帰 分 析 説 明 可 能 性 Page 35
決 定 木 の 各 葉 に 回 帰 式 生 活 習 慣 病 ~ 成 人 病 性 別 運 動 野 菜 体 重 胴 囲 身 長 140 未 満 140 以 上 野 菜 体 重 運 動 胴 囲 体 重 説 明 のための 疑 似 データ Page 36
精 度 比 較 ( 回 帰 ) データ: bank32nh(8192サンプル/32 次 元 ) 0.8 誤 差 (RMSE) 0.7 0.78 0.67 0.68 0.6 回 帰 木 SVR 異 種 混 合 Page 37
通 常 説 明 変 数 の 組 合 せを 考 える 必 要 説 明 変 数 の 候 補 を 入 れるだけ Page 38
通 常 説 明 変 数 の 組 合 せを 考 える 必 要 説 明 変 数 の 候 補 を 入 れるだけ 性 別 140 未 満 身 長 140 以 上 Page 39
通 常 説 明 変 数 の 組 合 せを 考 える 必 要 説 明 変 数 の 候 補 を 入 れるだけ 性 別 運 動 体 重 胴 囲 140 未 満 身 長 140 以 上 野 菜 体 重 運 動 胴 囲 体 重 Page 40
通 常 複 雑 性 のつまみ で 調 整 する 必 要 ベスト 精 度 シンプル ベスト 精 度 を 出 すために 調 整 しないと 弱 複 雑 通 常 複 雑 性 を1 変 数 で 制 御 (Lasso あるいは 前 半 の 閾 値 ) 中 強 Page 41
適 度 な 複 雑 さを 自 動 で 決 定 ベスト 精 度 シンプル 複 雑 必 要 十 分 な 複 雑 さを 自 動 で 選 択 弱 中 強 調 整 不 要 Page 42
NECの 機 械 学 習 精 度 SVM SVM 発 明 者 (Vladimir Vapnik) 異 種 北 米 研 混 合 藤 巻 遼 平 at&t 2002 北 米 研 機 械 学 習 のトップ 学 会 AISTATS2012 ICML2012 NIPS2013 ICML2014 AISTATS2014 NIPS2014 説 明 可 能 性 Page 43
異 種 混 合 学 習 技 術 の 適 用 分 野 商 品 需 要 や 適 正 価 格 など 社 会 の 様 々な 予 測 を 実 現 商 品 需 要 予 測 適 正 価 格 予 測 電 力 需 要 予 測 劣 化 予 測 Page 44
商 品 需 要 予 測 コンビニ 店 長 の 課 題 需 要 を 読 み 間 違 えると 廃 棄 損 失 / 機 会 損 失 が 増 える 人 手 発 注 先 週 の 昼 帯 の 売 上 を 見 ると 勘 で 需 要 予 測 自 動 発 注 ソリューション ポイント 学 習 で 得 られる 発 注 ロジックが ブラックボックスではなく 理 解 でき 納 得 感 がある 在 庫 量 昼 帯 売 上? 個 売 り 切 れ 機 会 損 失 廃 棄 損 失 時 間 Page 45
適 正 価 格 予 測 中 古 店 店 長 の 課 題 市 場 価 格 を 読 み 間 違 えると 差 額 損 失 が 増 える 買 取 価 格 算 出 ソリューション ポイント スペックの 違 いによる ( 型 番 色 メーカなど) 価 格 差 が 見 える 化 され 最 終 的 には 人 が 柔 軟 に 判 断 する 事 が 可 能 3 万 円 市 場 価 値 は 5 万 円 ±1 万 円 ってとこかな 買 取 価 格 見 込 み 利 益 損 失 売 却 価 格 5 万 円 実 際 の 価 値 2 万 円 Page 46
本 日 のお 話 前 半 システムと 機 械 学 習 の 最 先 端 後 半 ビジネス 向 け 機 械 学 習 事 例 AMPLabでの 学 習 システム 融 合 領 域 の 研 究 紹 介 (OCC DP-means) ソリューション 機 械 学 習 システム 異 種 混 合 精 度 と 可 読 性 を 有 した 学 習 エンジン 事 例 本 資 料 に 記 載 されている 会 社 名 組 織 名 ソフト 名 ロゴなどはそれぞれ 企 業 組 織 団 体 の 商 標 または 登 録 商 標 として 使 用 している 場 合 があります Page 47
未 来 に 向 かい 人 が 生 きる 豊 かに 生 きるために 欠 かせないもの それは 安 全 安 心 効 率 公 平 という 価 値 が 実 現 された 社 会 です NECは ネットワーク 技 術 とコンピューティング 技 術 をあわせ 持 つ 類 のないインテグレーターとして リーダーシップを 発 揮 し 卓 越 した 技 術 とさまざまな 知 見 やアイデアを 融 合 することで 世 界 の 国 々や 地 域 の 人 々と 協 奏 しながら 明 るく 希 望 に 満 ちた 暮 らしと 社 会 を 実 現 し 未 来 につなげていきます