クラスタリング クラスタリングとは クラスタの良さを類似度 目的関数で定義 困難 教師ありクラスタリング 類似度 目的関数ではなく 教師情報 制約を導入 教師情報 制約に一致するクラスタが良い クラスタリング問題を 絶対クラスタリングと相対クラスタリング に分けて考える必要 2

Similar documents
(Microsoft PowerPoint - \203|\203X\203^\201[\224\255\225\\\227p\216\221\227\ ppt)

4. C i k = 2 k-means C 1 i, C 2 i 5. C i x i p [ f(θ i ; x) = (2π) p 2 Vi 1 2 exp (x µ ] i) t V 1 i (x µ i ) 2 BIC BIC = 2 log L( ˆθ i ; x i C i ) + q

オートマトン 形式言語及び演習 3. 正規表現 酒井正彦 正規表現とは 正規表現 ( 正則表現, Regular Expression) オートマトン : 言語を定義する機械正規表現 : 言語

オートマトン 形式言語及び演習 1. 有限オートマトンとは 酒井正彦 形式言語 言語とは : 文字列の集合例 : 偶数個の 1 の後に 0 を持つ列からなる集合 {0, 110, 11110,

untitled

DEIM Forum 2019 C3-5 tweet

& 3 3 ' ' (., (Pixel), (Light Intensity) (Random Variable). (Joint Probability). V., V = {,,, V }. i x i x = (x, x,, x V ) T. x i i (State Variable),

06sugiyama.dvi

コンピュータ応用・演習 情報処理システム

スライド 1

2 3


21 A contents organization method for information sharing systems

Microsoft PowerPoint Java基本技術PrintOut.ppt [互換モード]

SOWC04....

0 21 カラー反射率 slope aspect 図 2.9: 復元結果例 2.4 画像生成技術としての計算フォトグラフィ 3 次元情報を復元することにより, 画像生成 ( レンダリング ) に応用することが可能である. 近年, コンピュータにより, カメラで直接得られない画像を生成する技術分野が生

Microsoft PowerPoint - 3.ppt [互換モード]

1 (PCA) 3 2 P.Viola 2) Viola AdaBoost 1 Viola OpenCV 3) Web OpenCV T.L.Berg PCA kpca LDA k-means 4) Berg 95% Berg Web k-means k-means

2006年10月5日(木)実施

Microsoft Word - thesis.doc

Microsoft PowerPoint - 09.pptx

2. Apple iphoto 1 Google Picasa 2 Calendar for Everything [1] PLUM [2] LifelogViewer 3 1 Apple iphoto, 2 Goo

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

nlp1-12.key

モデリングとは

言語資源活用ワークショップ 2019 発表論文集 半教師あり語義曖昧性解消における各ジャンルの語義なし用例文の利用 谷田部梨恵 ( 茨城大学大学院理工学研究科 ) 佐々木稔 ( 茨城大学工学部情報工学科 ) Semi-Supervised Word Sense Disambiguation Usin

untitled

Microsoft PowerPoint - pr_12_template-bs.pptx

Microsoft Word - 1B2011.doc

Optical Flow t t + δt 1 Motion Field 3 3 1) 2) 3) Lucas-Kanade 4) 1 t (x, y) I(x, y, t)

3 2 2 (1) (2) (3) (4) 4 4 AdaBoost 2. [11] Onishi&Yoda [8] Iwashita&Stoica [5] 4 [3] 3. 3 (1) (2) (3)

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

AI技術の紹介とセンサーデータ解析への応用

文法と言語 ー文脈自由文法とLR構文解析2ー

IS2-06 第21回画像センシングシンポジウム 横浜 2015年6月 画像をスーパーピクセルに変換する手法として SLIC[5] を用いる Achanta らによって提案された SLIC 2.2 グラフマッチング は K-means をベースにした手法で 単純な K-means に いる SPIN

目次 ガウス過程 (Gaussian Process; GP) 序論 GPによる回帰 GPによる識別 GP 状態空間モデル 概括 GP 状態空間モデルによる音楽ムードの推定

Microsoft PowerPoint - 10.pptx

Microsoft PowerPoint - Ishiguro_IBIS_presentation.pptx

したがって このモデルではの長さをもつ潜在履歴 latent history が存在し 同様に と指標化して扱うことができる 以下では 潜在的に起こりうる履歴を潜在履歴 latent history 実際にデ ータとして記録された履歴を記録履歴 recorded history ということにする M

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

A Constructive Approach to Gene Expression Dynamics

(a) (b) 2 2 (Bosch, IR Illuminator 850 nm, UFLED30-8BD) ( 7[m] 6[m]) 3 (PointGrey Research Inc.Grasshopper2 M/C) Hz (a) (b

様々なミクロ計量モデル†

PowerPoint Presentation

Dirichlet process mixture Dirichlet process mixture 2 /40 MIRU2008 :

untitled

1/10 平成 29 年 3 月 24 日午後 1 時 37 分第 5 章ローレンツ変換と回転 第 5 章ローレンツ変換と回転 Ⅰ. 回転 第 3 章光速度不変の原理とローレンツ変換 では 時間の遅れをローレンツ変換 ct 移動 v相対 v相対 ct - x x - ct = c, x c 2 移動

1 1.1 Excel Excel Excel log 1, log 2, log 3,, log 10 e = ln 10 log cm 1mm 1 10 =0.1mm = f(x) f(x) = n

() ): (1) f(x) g(x) x = x 0 f(x) + g(x) x = x 0 lim f(x) = f(x 0 ), lim g(x) = g(x 0 ) x x 0 x x0 lim {f(x) + g(x)} = f(x 0 ) + g(x 0 ) x x0 lim x x 0

Prog1_12th

講義「○○○○」

第6章 実験モード解析

リードタイムが変動する在庫管理モデルの安定性解析 西平 w(k)= u(k-l(k)) ( 2 ) となる このモデルに対して, メモリーレスフィードバック u(k)= Kx(k) (3) を施すことを考える また, 本稿では内部安定性を考えるため, 外生信号 d(k)= 0とすると, システム (

Microsoft Word - ECALSDS01_Vr1_5_080305_ja.doc

Microsoft PowerPoint - NC12-2.pptx

Basic descriptive statistics

1/30 平成 29 年 3 月 24 日 ( 金 ) 午前 11 時 25 分第三章フェルミ量子場 : スピノール場 ( 次元あり ) 第三章フェルミ量子場 : スピノール場 フェルミ型 ボーズ量子場のエネルギーは 第二章ボーズ量子場 : スカラー場 の (2.18) より ˆ dp 1 1 =

スライド 1

2013年度 信州大・医系数学

プログラミング基礎

OCW-iダランベールの原理

ML 演習 第 4 回

調和系工学 ゲーム理論編

Microsoft PowerPoint - ロボットの運動学forUpload'C5Q [互換モード]

画像類似度測定の初歩的な手法の検証

Prog1_10th

トピックモデルの応用: 関係データ、ネットワークデータ

..,,,, , ( ) 3.,., 3.,., 500, 233.,, 3,,.,, i

4 月 東京都立蔵前工業高等学校平成 30 年度教科 ( 工業 ) 科目 ( プログラミング技術 ) 年間授業計画 教科 :( 工業 ) 科目 :( プログラミング技術 ) 単位数 : 2 単位 対象学年組 :( 第 3 学年電気科 ) 教科担当者 :( 高橋寛 三枝明夫 ) 使用教科書 :( プロ

Microsoft PowerPoint - SSII_harada pptx

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

<4D F736F F D208D5C91A297CD8A7793FC96E591E631308FCD2E646F63>

IPSJ SIG Technical Report Vol.2015-SE-187 No /3/12 1,a) 1,b) Mozilla Firefox Eclipse Platform GNU Gcc % 43% 1. [1] Eclipse Mozilla 4 [3

97-00


DVIOUT

2-1 / 語問題 項書換え系 4.0. 準備 (3.1. 項 代入 等価性 ) 定義 3.1.1: - シグネチャ (signature): 関数記号の集合 (Σ と書く ) - それぞれの関数記号は アリティ (arity) と呼ばれる自然数が定められている - Σ (n) : アリ

Microsoft PowerPoint - 05DecisionTree-print.ppt

PowerPoint Presentation

スライド 1

--

表1-表4宅建99.indd

表1-表4宅建98.indd

表1-表4宅建101.indd

表1-表4宅建いわて-表紙.indd

第 4 週コンボリューションその 2, 正弦波による分解 教科書 p. 16~ 目標コンボリューションの演習. 正弦波による信号の分解の考え方の理解. 正弦波の複素表現を学ぶ. 演習問題 問 1. 以下の図にならって,1 と 2 の δ 関数を図示せよ δ (t) 2

国立国会図書館ダブリンコアメタデータ記述

ESD-巻頭言[ ].indd

特殊なケースでの定式化技法


main.dvi


微分方程式による現象記述と解きかた

Chapter 版 Maxima を用いた LC のインピーダンス測定について [ 目的 ] 電気通信大学 先進理工学科の2 年次後期に実施される電気 電子回路実験において L,C のインピーダンス測定を実施している この実験項目について 無料ソフトの Maxima を用い

main.dvi

untitled


COMPUTING THE LARGEST EMPTY RECTANGLE

Taro-最大値探索法の開発(公開版

周期時系列の統計解析 (3) 移動平均とフーリエ変換 nino 2017 年 12 月 18 日 移動平均は, 周期時系列における特定の周期成分の消去や不規則変動 ( ノイズ ) の低減に汎用されている統計手法である. ここでは, 周期時系列をコサイン関数で近似し, その移動平均により周期成分の振幅

Transcription:

教師ありクラスタリング と 絶対/相対クラスタリング 神嶌 敏弘 http://www.kamishima.net/ 産業技術総合研究所 2006年情報論的学習理論ワークショップ(IBIS2006) 2006/10/31-11/2 1

クラスタリング クラスタリングとは クラスタの良さを類似度 目的関数で定義 困難 教師ありクラスタリング 類似度 目的関数ではなく 教師情報 制約を導入 教師情報 制約に一致するクラスタが良い クラスタリング問題を 絶対クラスタリングと相対クラスタリング に分けて考える必要 2

絶対/相対クラスタリング x と δ({xi, xj }, π(x)) は分割 中で対象 π(x) i x が同じクラスタなら1 違うなら0 j π(x)は 対象集合 X をクラスタリングして分割を出力 クラスタリング関数 対象全集合 X は 未知のものを含めた全ての対象の集合 教師ありクラスタリングとは 対象集合と教示情報か ら適切なクラスタリング関数を獲得する問題 獲得すべき真のクラスタリング関数が次の性質をもつな ら絶対クラスタリング でなければ相対クラスタリング! δ({xi, xj }, π(x)) = δ({xi, xj }, π(x )), " " xj, xi X X, xi #=xj, X, X X 一対の対象が同じクラスタに分類されるかは クラスタリングする分 類対象集合中の他の対象とは独立 3

絶対クラスタリングの特徴 δ({xi, xj }, π(x)) = δ({xi, xj }, π(x )), " " xj, xi X X, xi #=xj, X, X X! 一対の対象が同じクラスタに分類されるかは クラスタリングする分 類対象集合中の他の対象とは独立 絶対クラスタリングでのクラスタリング関数の性質 1 2 絶対クラスタの存在 δ({x i, xj }, π(x)) = δ({xi, xj }, π(x )) なので 対象全集合 の不変なクラスタ(絶対クラスタ C π(x ))が存在 異なる対象集合間の推移性! xiと xj が同じクラスタ xj, xk X について xi, xj X と xi xk も同じであれば xj と xkは分類対象集合は異なって で と いてもも同じクラスタ 4

reference matching 論文の参考文献を示す文字列の集合を 同じ文献を引用している文字列ごとにまとめる問題 表記の違い 神嶌敏弘 と T.Kamishima ICML と Int l Conf. on Machine Learning 表記順の違い 著者 題名 や 著者 年 の順 ある文字列集合中の文字列1と文字列2は同じ文献を表している 文字列3が加わっても 文字列1や2が表す文献は不変 文字列が同じクラスタに分類されるかどうかは 分類する文字列集合には依存しないので reference matching は絶対クラスタリング問題 5

名詞句のcoreference 文書中の同じ実体を指し示す名詞句をまとめる問題 安倍総理 = 安倍晋三 = 首相 = 彼 A: 親亀 がいる B: この亀 に 子亀 が乗っている C: この亀 に 孫亀 がいる 文Aの 親亀 と文Cの この亀 は違うクラスタ ここで文Bをこの文書から取り除くと 6

名詞句のcoreference 文書中の同じ実体を指し示す名詞句をまとめる問題 安倍総理 = 安倍晋三 = 首相 = 彼 A: 親亀 がいる C: この亀 に 孫亀 が乗っている 文Aの 親亀 と文Cの この亀 は同じクラスタ 文書に含まれる名詞句の構成が変化すると指し示す実体は変化する 名詞句の coreference は相対クラスタリング問題 7

準教師ありクラス分類 クラス分類 対象が分類されるクラスのラベルを予測 準教師ありクラス分類 (ラベルあり なし混在データからの学習) ラベルあり事例に加えて ラベルなしの事例も用いる と より予測精度の高い分類器が獲得できる ラベルなしデータを扱う点でクラスタリングと似ているが 次のいず れかの条件を満たさない問題はクラスタリングとする クラス分類問題の条件 有限個のラベルの集合が事前に分かっている 対象と対応付けたラベルが教師情報 8

制約付クラスタリング [Wagstaff 01]のCOP-KMEANS法 mustリンク 結ばれたデータの対は同じクラスタに 分類される cannotリンク 結ばれたデータの対は違うクラスタ に分類される 制約付と教師ありクラスタリングの相違点 制約のあるデータ以外にも 制約が一般化されて適 用されるなら教師ありクラスタリング そうでない なら制約付クラスタリング COP-KMEANSは制約付クラスタリング 9

完全教師ありクラスタリング 完全教師ありクラスタリングの訓練事例集合 N 個の対象集合それぞれに教師情報を与える (X1, Y1), (X2, Y2), (XN, YN) Xi 対象集合 Yi Xi についての教師情報 任意の Xnew をクラスタリングする関数を求める [神嶌 95] [神嶌 03a] [Daumé III 05] [Finley 05] など 教師情報の例 must/cannotリンク Xi のクラスタリング結果 同じクラスタになるべき対象の集合 データ点の相対的な類似性の大小関係 クラスタ間の類似度の最大値 クラスタ内類似度の最小値 10

準教師ありクラスタリング 準教師ありクラスタリング 一個の対象集合 X に教師情報 Y を与える (X, Y ) 学習後は X に含まれない未知の事例も分類可能 制約のない対象の属性値などは参照しない [Xing 03] [Klein 02] [Bar-Hillel 03] など 事例集合 X 任意の対象集合 Xnew クラスタリング関数 教師情報 Y 適切な分割 π(xnew) 11

transductiveクラスタリング transductiveクラスタリング 準教師ありクラスタリングと同じ教師情報の形式 X 中の対象だけを分類することが目的で X に含まれない対象の 分類は考慮しない 制約 教師情報のない対象の属性値 位置情報も参照 事例集合 X 教師情報 Y [Kulis 05] [Yu 04] [McCallum 05] など 事例集合 X 適切な分割 π(x) 12

教師ありクラスタリングの分類 クラス分類 ラベル情報が既知でラベル付けによる教師情報 クラスタリング ラベル情報が未知 制約付クラスタリング 制約を使うが その一般化はしない 教師ありクラスタリング 教師情報は他の対象にも一般化される 完全教師ありクラスタリング 複数の対象集合に教師情報 準教師ありクラスタリング 一個の対象集合に教師情報 transductiveクラスタリング 新たな対象の分類はしない 13

例題の提示方法 (1) 絶対/相対クラスタリングの区別は 分割する対象集合が変化する場合 にのみ生じる transductiveクラスタリング 未知の対象の分類はしない 対象集合の変化を考えないtransductiveクラスタリングは無関係 相対クラスタリング問題 対象のクラスタへの帰属は分類する対象集合に依存 教師情報は それが付加されている対象集合に依存しているので 対 象集合を一つにまとめたり 変えたりすると教師情報は無効 完全教師ありクラスタリング 複数の対象集合に教師情報 相対クラスタリング問題は完全教師ありクラス タリングの枠組みで解かなければならない 14

例題の提示方法 (2) 絶対クラスタリング問題 対象のクラスタへの帰属は分類する対象集合とは独立 対象集合を一つにまとめることで 推移性からより多くの教師情報を 利用できる X X X! xi must xj must xk X must 準教師ありクラスタリング 一個の対象集合に教師情報 絶対クラスタリング問題は 準教師ありクラスタリングの枠組みで解く 15

必要な特徴量 絶対クラスタリング問題 絶対クラスタが存在 対象を絶対クラスタと対応付け 各対象を記述する属性があれば十分 相対クラスタリング問題 対象集合中の他の対象との関連を考慮して対象を分類 対象間の関連を示した特徴が必要 例 名詞句のcoreference問題での名詞句対の属性 受けることのできる代名詞か (人を これ で受けるのは不正) 同義語かどうか 16

まとめ まとめ 教師ありクラスタリング手法を整理 分類 絶対/相対クラスタリングの概念の提案 絶対クラスタリング問題は 各対象を属性で記述し 完 全教師ありクラスタリングの枠組みで解く 相対クラスタリング問題は 各対象に加えて 対象の間 の関係を記述する属性も必要で 準教師ありクラスタリ ングの枠組みで解く 追加情報 ホームページ http://www.kamishima.net/ おまけ 朱鷺の杜Wiki (機械学習について書き込んでください) http://www.neurosci.aist.go.jp/ibisforest/ 17

参考文献 A. Bar-Hillel, T. Hertz, N. Shental, and D. Weinshall. Learning distance functions using equivalence relations. ICML2003, pp.11-18 (2003) H. Daumé III and D. Marcu. A Bayesian model for supervised clustering with the dirichlet process prior. JMLR, Vol.6, pp.1551-1577 (2005) T. Finley and T. Joachims. Supervised clustering with support vector machines. ICML2005, pp.217-224 (2005) 神嶌 敏弘, 美濃 導彦, 池田 克夫, "帰納学習を用いた図面部品の抽出と分類のための 規則の形成", 情報処理学会論文誌, vol.36, no.3, pp.614-626 (1995) T. Kamishima and F. Motoyoshi, "Learning from Cluster Examples", Machine Learning, vol.53, pp.199-233 (2003) D. Klein, S. D. Kamvar, and C. D. Manning. From instance-level constraints to space-level constraints: Making the most of prior knowledge in data clustering. ICML2002, pp.307-314 (2002) B. Kulis, S. Basu, I. Dhillon, and R. Mooney. Semi-supervised graph clustering: A kernel approach. ICML2005, pp.457-464 (2005) A. McCallum and B. Wellner. Conditional models of identity uncertainty with application to noun coreference. NIPS 17, pp.905-912 (2005) E. P. Xing, A. Y. Ng, M. I. Jordan, and S. Russell. Distance metric learning, with application to clustering with side-information. NIPS 15, pp. 521 528 (2003) S. X. Yu and J. Shi. Segmentation given partial grouping constraints. IEEE Trans. on PAMI, Vol.26, No.2, pp. 173-183 (2004) 18