memo

Similar documents
memo

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

Microsoft Word - 補論3.2

09.pptx

Microsoft Word ã‡»ã…«ã‡ªã…¼ã…‹ã…žã…‹ã…³ã†¨åłºæœ›å•¤(佒芤喋çfl�)

memo

Microsoft PowerPoint - 10.pptx

特殊なケースでの定式化技法

Microsoft PowerPoint - mp11-02.pptx

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

<4D F736F F D E4F8E9F82C982A882AF82E98D7397F1>

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

行列、ベクトル

航空機の運動方程式

Microsoft PowerPoint - mp13-07.pptx

Microsoft PowerPoint - 三次元座標測定 ppt

Microsoft PowerPoint - 10.pptx

Microsoft Word - thesis.doc

様々なミクロ計量モデル†

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

cp-7. 配列

PowerPoint Presentation

オートマトン 形式言語及び演習 3. 正規表現 酒井正彦 正規表現とは 正規表現 ( 正則表現, Regular Expression) オートマトン : 言語を定義する機械正規表現 : 言語

Microsoft PowerPoint - 資料04 重回帰分析.ppt

PowerPoint Presentation

SAP11_03

Microsoft PowerPoint - ad11-09.pptx

Microsoft PowerPoint - Eigen.ppt [互換モード]

PowerPoint プレゼンテーション

PowerPoint Presentation

memo

Microsoft PowerPoint - 9.pptx

高次元データ スパース正則化学習法 最適化手法 proximal point algorithm 確率最適化手法 2

Microsoft PowerPoint - H21生物計算化学2.ppt

0 21 カラー反射率 slope aspect 図 2.9: 復元結果例 2.4 画像生成技術としての計算フォトグラフィ 3 次元情報を復元することにより, 画像生成 ( レンダリング ) に応用することが可能である. 近年, コンピュータにより, カメラで直接得られない画像を生成する技術分野が生

Matrix and summation convention Kronecker delta δ ij 1 = 0 ( i = j) ( i j) permutation symbol e ijk = (even permutation) (odd permutation) (othe

Microsoft PowerPoint - H22制御工学I-2回.ppt

景気指標の新しい動向

1/30 平成 29 年 3 月 24 日 ( 金 ) 午前 11 時 25 分第三章フェルミ量子場 : スピノール場 ( 次元あり ) 第三章フェルミ量子場 : スピノール場 フェルミ型 ボーズ量子場のエネルギーは 第二章ボーズ量子場 : スカラー場 の (2.18) より ˆ dp 1 1 =

Microsoft PowerPoint - 13approx.pptx

13章 回帰分析

0 スペクトル 時系列データの前処理 法 平滑化 ( スムージング ) と微分 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

テンソル ( その ) テンソル ( その ) スカラー ( 階のテンソル ) スカラー ( 階のテンソル ) 階数 ベクトル ( 階のテンソル ) ベクトル ( 階のテンソル ) 行列表現 シンボリック表現 [ ]

板バネの元は固定にします x[0] は常に0です : > x[0]:=t->0; (1.2) 初期値の設定をします 以降 for 文処理のため 空集合を生成しておきます : > init:={}: 30 番目 ( 端 ) 以外については 初期高さおよび初速は全て 0 にします 初期高さを x[j]

<4D F736F F F696E74202D2091E6824F82538FCD8CEB82E88C9F8F6F814592F990B382CC8CB4979D82BB82CC82505F D E95848D8682CC90B69

統計的データ解析

DVIOUT-SS_Ma

Microsoft PowerPoint - no1_17

PowerPoint プレゼンテーション

Microsoft PowerPoint - 9.pptx

DVIOUT

2-1 / 語問題 項書換え系 4.0. 準備 (3.1. 項 代入 等価性 ) 定義 3.1.1: - シグネチャ (signature): 関数記号の集合 (Σ と書く ) - それぞれの関数記号は アリティ (arity) と呼ばれる自然数が定められている - Σ (n) : アリ

Microsoft PowerPoint - no1_19.pptx

Microsoft Word - reg2.doc

Microsoft PowerPoint - mp11-06.pptx

Microsoft PowerPoint - DA2_2019.pptx

オートマトン 形式言語及び演習 1. 有限オートマトンとは 酒井正彦 形式言語 言語とは : 文字列の集合例 : 偶数個の 1 の後に 0 を持つ列からなる集合 {0, 110, 11110,

Microsoft PowerPoint - DA2_2017.pptx

スライド 1

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

第6章 実験モード解析

A Constructive Approach to Gene Expression Dynamics

Probit , Mixed logit

Microsoft PowerPoint - NA03-09black.ppt

PowerPoint Presentation

Autodesk Inventor Skill Builders Autodesk Inventor 2010 構造解析の精度改良 メッシュリファインメントによる収束計算 予想作業時間:15 分 対象のバージョン:Inventor 2010 もしくはそれ以降のバージョン シミュレーションを設定する際

したがって このモデルではの長さをもつ潜在履歴 latent history が存在し 同様に と指標化して扱うことができる 以下では 潜在的に起こりうる履歴を潜在履歴 latent history 実際にデ ータとして記録された履歴を記録履歴 recorded history ということにする M

今後の予定 6/29 パターン形成第 11 回 7/6 データ解析第 12 回 7/13 群れ行動 ( 久保先生 ) 第 13 回 7/17 ( 金 ) 休講 7/20 まとめ第 14 回 7/27 休講?

PowerPoint プレゼンテーション

スライド 1

因子分析

日心TWS

untitled

Microsoft Word - lec_student-chp3_1-representative

スライド 1

Microsoft Word - NumericalComputation.docx

ベイズ統計入門

Microsoft PowerPoint - e-stat(OLS).pptx

PowerPoint プレゼンテーション

カイ二乗フィット検定、パラメータの誤差

Microsoft Word - 201hyouka-tangen-1.doc

スライド タイトルなし

パソコンシミュレータの現状

Excelを用いた行列演算

Microsoft PowerPoint - 第3回2.ppt

生命情報学

コンピュータグラフィックス第6回

<4D F736F F F696E74202D E738A5889BB8BE688E68A4F82CC926E89BF908492E882C98AD682B782E98CA48B862E707074>

受信機時計誤差項の が残ったままであるが これをも消去するのが 重位相差である. 重位相差ある時刻に 衛星 から送られてくる搬送波位相データを 台の受信機 でそれぞれ測定する このとき各受信機で測定された衛星 からの搬送波位相データを Φ Φ とし 同様に衛星 からの搬送波位相データを Φ Φ とす

統計学的画像再構成法である

スライド 1

FEM原理講座 (サンプルテキスト)

1.民営化

Microsoft PowerPoint - pr_12_template-bs.pptx

4 段階推定法とは 予測に使うモデルの紹介 4 段階推定法の課題 2


モデリングとは

航空機の運動方程式

Microsoft PowerPoint - H22制御工学I-10回.ppt

Microsoft PowerPoint - ca ppt [互換モード]

Transcription:

THE UNIVERSITY OF TOKYO 数理情報学演習第二 A 関係データの機械学習 行列と多次元配列の解析 かしま ひさし 鹿島久嗣情報理工学系研究科数理情報学専攻数理 6 研 kashima@mist.i.~ DEPARTMENT OF MATHEMATICAL INFORMATICS * Some figures in the slides are taken from 1T. G. Kolda and B. W. Bader. Tensor decompositions and applications. SIAM Review, 51(3):455 500, THE UNIVERSITY 2009. OF TOKYO 機械学習による関係データの解析手法について紹介します 関係データとは 関係データとは何か 関係データにはどのようなものがあるか 関係データ解析のタスク 関係データの表現 行列と多次元配列 関係データの解析方法 低ランク性の仮定 特異値分解 テンソル分解 関係データ解析の応用 2 THE UNIVERSITY OF TOKYO 1

関係データ 3 THE UNIVERSITY OF TOKYO 近年 データ間の関係の解析が注目を浴びつつある 従来 : 個々のデータを対象とした解析 近年 : データの間の関係の解析 データ間の関係に注目することで 個々のデータに注目しているだけでは見えない性質が見えてくる コンピュータネットワーク上のプロセス依存関係から異常を予測 複数の脳波時系列の相関関係から思考を読みとる 関係の分析は様々な領域において盛んに行われつつある ソーシャルネットワーク分析 : 人間関係 オンラインショッピング : 顧客と商品の間の関係 4 THE UNIVERSITY OF TOKYO 2

関係データとはものごとの関係を表現したデータ 通常のデータ解析では ひとつのデータについて成り立つ性質を推論する 関係データとは : データの組についてのデータ 関係の成立や 関係のもつ性質についての推論を行う ある性質をもつか? ある関係があるか? 単一データについての予測 2 つのデータの関係についての予測 5 THE UNIVERSITY OF TOKYO 関係データの例 : マーケティング Web バイオ オンラインマーケティング 顧客と商品との間の関係 ( 購買 評価 ) ソーシャルネットワーク SNS 内の人間関係 (facebook, twitter, mixi, ) 企業間取引 生体ネットワーク タンパク質相互作用ネットワーク 化合物 タンパク質相互作用 6 THE UNIVERSITY OF TOKYO 3

関係データを用いたタスク : 予測と発見 予測 推薦システム ( 協調フィルタリング ) 顧客と商品との間の関係 ( 購買 評価 ) を予測 例 : Netflix challenge SNS の友人推薦 新規薬剤候補の探索 発見 顧客セグメンテーションの発見 協調するタンパク質グループの発見 例外の発見 7 THE UNIVERSITY OF TOKYO 関係データの形式的表現 8 THE UNIVERSITY OF TOKYO 4

関係データの表現 : グラフや行列など 通常 データは表形式で不えられる 顧客番号 顧客氏名 年齢 性別 住所 0001 40 代 男性 東京都 0002 30 代 女性 大阪府 関係データはこれらの間の関係を表す 0001 0002 数学的な表現 行列 / 多次元配列 グラフ / ハイパーグラフ 9 THE UNIVERSITY OF TOKYO 2 項関係の集合は行列として表現できる 2 項関係は行列として表現できる 行と列がデータの集合に対応 各要素がデータ間の関係を表す グラフ ( 重みつき ) の隣接行列としてもみることができる 商品 顧客 1 5 2 4 3 3 評価 10 THE UNIVERSITY OF TOKYO 5

多項関係の集合は多次元配列やハイパーグラフとして表現できる 多項関係の集合は多次元配列として表現できる ハイパーグラフとしても表現可能 こちらのほうがより一般的 : 関係に参加するデータの数が可変 商品 時間 超辺 顧客 多次元配列 ハイパーグラフ 11 THE UNIVERSITY OF TOKYO 行列データ (2 項関係 ) の解析手法 12 THE UNIVERSITY OF TOKYO 6

行列データの解析手法 行列の補完問題を考える 協調フィルタリングの初等的手法 :GroupLens 行列の低ランク分解 トレースノルム 13 THE UNIVERSITY OF TOKYO GroupLens: 協調フィルタリングの初等的手法 推薦システム ( 協調フィルタリング ) は 顧客と商品との間の関係 ( 購買 評価 ) を予測する 値が分かっている部分から わかっていない部分を予測したい GroupLens: 初期の予測アルゴリズム ニュースの推薦が目的 商品 顧客 1 5 2 4 3 3 評価 14 THE UNIVERSITY OF TOKYO 7

GroupLens では ある顧客の評価を 似た顧客の評価を持ってきて予測する 予測したい顧客と似た顧客を集め 類似顧客の評価を用いて予測を行う A さんの未知要素を予測したいとする A さんと良く似た評価を行っている別の顧客を集めてきて 彼らの評価を用いて予測する A さんに似た人 A さん 1 2 5 5 2 4 5? 5 3 知りたい要素 15 THE UNIVERSITY OF TOKYO 似ている の定義は評価値の相関係数で測り 相関係数で重みづけして予測します 2 人の顧客の類似度を ( 共に評価値が観測されている部分の ) 相関係数で測る 相関係数で重みづけし予測を行う y i,j = y i + Σ k i ½ i,k ( y k,j y k ) / Σ k i ½ i,k 同様に 商品間の類似度を用いることも可能 相関係数 相関係数 1 2 5 5 2 4 4.5 5 3 重みつき予測 16 THE UNIVERSITY OF TOKYO 8

協調フィルタリングの初等的手法は行列の低ランク性を暗に仮定している 行列の各行が 別の行の ( 相関係数で重み付けた ) 線形和によって表せるとしている 線形従属 対象となる行列のランクがフルランクではない ( 低い ) ことを暗に仮定した方法ということになる 低ランク性の仮定は行列の穴埋めに有効であろう データよりもパラメータが多い状況では なんらかの事前知識を用いて解に制約を設ける必要がある 低ランク性の仮定は 実質パラメータ数を減らす 17 THE UNIVERSITY OF TOKYO 低ランク性を仮定する 低ランク性の仮定 : 行列が2つの ( 薄い ) 行列の積で書ける商品 顧客 X ~ U V > minimize Y X Y F2 s.t. rank(y) k 実効パラメータ数が減っている ランク U(V) の各行 : 顧客 ( 商品 ) の特徴を捉えた低次元の潜在空間にデータを配置 この空間で近いものが似た顧客 ( 商品 ): グループ構造 18 THE UNIVERSITY OF TOKYO 9

特異値分解もよく用いられる 行列分解 X = UV > の仮定だけでは 解の丌定性があるので 制約を入れる 特異値分解 制約 : U > U = I V > V = I D X ~ U V > 対角行列 ( 特異値 ) X > X の固有値問題になる 固有値を大きい方から k 個とる 19 THE UNIVERSITY OF TOKYO 欠損値がある場合には特異値分解は使えない ランク制約をもった最適化問題は凸最適化問題ではない ランク k 以下の行列は凸集合ではない 目的関数 = 復元誤差 ( 凸関数 ) + ランク制約 minimize Y X Y F2 s.t. rank(y) k もしくは分解を UV > と明示的におくと誤差項が非凸になってしまう minimize Y X UV > F 2 全データが観測されている場合には 固有値問題としてたまたま解ける 欠損値がある場合には困る 20 THE UNIVERSITY OF TOKYO 10

欠損値がある場合には EM アルゴリズムが用いられる ひとつの方法としては気にせず 勾配法などで適当に解く データが大きいときにはこちら EM アルゴリズム : 未観測部分には暫定的な推定値をあてはめ 完全観測として問題を解く 1. 未観測部分を適当に初期化 ( 平均など ) 2. 低ランク行列分解を適用 3. 復元した値で未観測部分の値を置き換える ステップ 2~3 を収束まで繰り返す 21 THE UNIVERSITY OF TOKYO 凸最適化としての定式化 : トレースノルム正則化 行列のランク制約は凸集合ではないので 凸集合であり ランク制約のよい近似となるような制約がほしい 行列の特異値の和を用いる Y * = ¾ 1 (Y) + ¾ 2 (Y) + 特異値 特異値の集合 (¾ 1 (Y), ¾ 2 (Y), ) に対する L 1 ノルム制約と等価であるため 疎になる ランクが落ちる 一方 ランクは 非零の特異値の個数 目的関数 = 観測部分の復元誤差 + トレースノルム制約 minimize Y O*(X Y ) F2 s.t. Y * c 最適化は勾配法と特異値分解の組み合わせ 22 THE UNIVERSITY OF TOKYO 11

多次元配列 ( 多項関係 ) の解析手法 23 THE UNIVERSITY OF TOKYO 行列分解は多次元配列 ( テンソル ) の低ランク分解に一般化される 行列の低ランク分解の多次元配列への一般化 ちいさな ( コア ) テンソルと因子行列に分解する 近年 機械学習やデータマイニングで盛んに用いられている 特異値行列 因子行列 因子行列 W D X ~ U V > X ~ U G V コアテンソル 24 THE UNIVERSITY OF TOKYO 12

テンソル分解のタイプ :CP 分解と Tucker 分解 よく用いられるのが CP 分解と Tucker 分解 CP 分解 : 特異値分解の自然な拡張 ( コアテンソルが対角 ; 正方 ) Tucker 分解 : よりコンパクトな表現 ( みっちりコア ; 各モードの次数が異なる ) コアテンソルが対角 W コアテンソルが密 W X ~ U G V X ~ U G V CP 分解 Tucker 分解 25 THE UNIVERSITY OF TOKYO テンソルのランクは分解のタイプによって決まる 行列のランクはSVDの非零の特異値の数で決まった テンソル分解の場合には分解のタイプによって決まる CP 分解 Tucker 分解それぞれでランクの定義がある 対角テンソルのサイズがランク W コアテンソルのサイズがランク W X ~ U G V X ~ U G V CP 分解 Tucker 分解 26 THE UNIVERSITY OF TOKYO 13

補足 : テンソルの基本的演算 いくつか特殊な操作が用いられる 行列化 : テンソルを行列に変換する操作 モード積 : テンソルと行列の掛け算 27 THE UNIVERSITY OF TOKYO 補足 : テンソルの行列化 それぞれのモードに対してスライスが定義される 各軸をモードと呼ぶ モード 3 についてのスライス モード 3 行列化 X X (3) 並べて行列にする 行列化はそれぞれのモードについてスライスをつなげたもの X が3 階テンソルなら モードごとにX (1), X (2), X (3) の3つの行列ができる (4 階以上も同様に定義される ) * The figures are taken from T. G. Kolda and B. W. Bader. Tensor decompositions and applications. SIAM Review, 51(3):455 500, 2009. 28 THE UNIVERSITY OF TOKYO 14

補足 : テンソルのモード積 各スライスのファイバー化 ベクトルの集合を取り出す モード 3 についてのファイバー 3 U X 3 U モード積は各モードのファイバーに行列を掛けること X 3 U は 1モード積の各ファイバーに行列 U を掛ける Y = X n U Y (n) = UX (n) * The figures are taken from T. G. Kolda and B. W. Bader. Tensor decompositions and applications. SIAM Review, 51(3):455 500, 2009. 29 THE UNIVERSITY OF TOKYO CP 分解はランク 1 テンソルの和として定義される 行列はランク 1 行列の和 = + + ランク 1 行列 CP 分解はランク 1 テンソルの和 ランク 1 テンソル 外積 X ~ r r a r о b r о c r x ijk = r r a ri b rj c rk * The figures are taken from T. G. Kolda and B. W. Bader. Tensor decompositions and applications. SIAM Review, 51(3):455 500, 2009. 30 THE UNIVERSITY OF TOKYO 15

Tucker 分解は小さいテンソルと行列によって定義される Tucker 分解はコアテンソルと 因子行列によって定義される モード積を使って定義される X ~ G 1 U 2 V 3 W (x ijk = pqr g pqr u ip v iq w ir ) W X ~ 多くの場合因子行列の列ベクトルが正規直交であると仮定 CP 分解はコアテンソルが対角であるようなTuckerの特殊ケース U G G V 31 THE UNIVERSITY OF TOKYO テンソル分解の方法 : 繰り返し最適化による準最適化 基本的には不えられたテンソルを 2 乗誤差の意味で最適近似するような分解を求める minimize X Y F2 最適解を求めるのは難しい 凸最適化ではない s.t. Y = G 1 U 2 V 3 W 特異値分解などで都合よく解が求まったりしない 繰り返し最適化を行うのが一般的 最小二乗回帰もしくは特異値分解の繰り返し 32 THE UNIVERSITY OF TOKYO 16

CP 分解の方法 : 繰り返し最小二乗法 (ALS) 解きたいのは minimize Y X Y F2 s.t. Y = G 1 U 2 V 3 W =Z (1) U について最適化する (V, W についても同様 ): Y = Z 1 U Y (1) = UZ (1) を使って目的関数を書き換えると X Y F2 = Y (1) UZ (1) F 2 これは最小二乗回帰 G は U, V, Wに吸収してよい ( 単位テンソル ) 繰り返し最小二乗法 (ALS) と呼ばれる 33 THE UNIVERSITY OF TOKYO Tucker 分解の方法 : 固有値問題の繰り返し Tucker 分解は直交条件が加わる : minimize X Y F2 s.t. Y = G 1 U 2 V 3 W s.t. U > U = I, V > V = I, W > W = I U について最適化する (V, W についても同様 ): max U X Y F2 = max U Y (1) UZ (1) F2 = max U tr Z (1) Y (1) > U 2 乗して max U tr U > Y (1) Z (1)> Z (1) Y (1) > U s.t. U > U=I これは固有値問題になる G の最適解は G = X 1 U > 2 V > 3 W > U, V, W について一回づつ解いて 最後にを求めて終わるものが高階 SVD(HOSVD) 収束するまで繰り返すものを高階直行反復 (HOOI) と呼ぶ 34 THE UNIVERSITY OF TOKYO 17

凸最適化問題としてのテンソル分解 : トレースノルムをテンソルに拡張する テンソル分解の最適化問題は凸では無い 行列の場合はトレースノルム ( 特異値の和 ) を用いることでランク制約を凸集合として入れることができた トレースノルムをテンソルに拡張する 行列化したもののトレースノルムを入れる minimize O*(X Y) F2 s.t. n Y (n) * c 例えば :On the extension of trace norm to tensors. R.Tomioka, K.Hayashi, and H.Kashima, NIPS2010 Workshop: Tensors, kernels and machine learning, 2010. 35 THE UNIVERSITY OF TOKYO テンソル分析の応用 36 THE UNIVERSITY OF TOKYO 18

ソフトウェア :Matlabでの実装が公開されている Matlabのツールボックスとして公開されている Tensor Toolbox Nway Toolbox 37 THE UNIVERSITY OF TOKYO 事例 ソーシャルネットワーク分析 Webリンク解析 タグ推薦 脳みそ 画像認識 38 THE UNIVERSITY OF TOKYO 19

以下借り物のスライドなので省略 39 THE UNIVERSITY OF TOKYO 20