導 入 通 信 路 モデル Bayes 統 計 最 尤 推 定 とMAP 推 定 データの 性 質
機 械 学 習 の 先 史 時 代 -- 情 報 の 変 換 過 程 のモデル 化 -- 情 報 源 を 記 号 列 ( 例 えば 単 語 列 あるいは 文 字 列 )とする Noisy Channel Model 情 報 源 記 号 列 :t tx 情 報 変 換 雑 音 (N(0,σ 2 ) etc) 出 力 された 記 号 列 = 推 定 処 理 への 入 力 x 推 定 処 理 tˆ : 推 定 さ れた 情 報 源 記 号 列 出 力 された 記 号 列 = 推 定 処 理 への 入 力 データxから 情 報 源 記 号 列 tを 推 定 し を 計 算 する tˆ
Bayesの 定 理 Bayes 統 計 の 意 義 P( t x) P( x t) P( t) P( x) P(t x)は 新 たな 出 力 記 号 列 xが 得 られたときの 情 報 源 から 出 力 された 記 号 列 t を 推 定 する 式 で これ を 最 大 化 する t すなわち tˆ arg max Pt x t を 求 めるのが 目 標 ところが このままでは 既 に 得 られている 情 報 を 使 えないので Bayesの 定 理 で 変 換 する すると 既 知 の 情 報 源 状 態 と 出 力 記 号 列 のペアに 関 する 条 件 付 き 確 率 P(x t) (= 教 師 データ) 情 報 源 についての 事 前 知 識 P(t)が 使 える 形 になる
Bayes 統 計 とは 1. 常 にBayesの 定 理 を 用 いる 2. 用 いられる 確 率 は 主 観 確 率 (= 確 信 度 ) 3. 事 前 情 報 を 利 用 する 4. 未 知 量 ( 確 率 分 布 のパラメター)は 確 率 的 に 変 動 5. 観 測 されたデータは 絶 対 的 6. 推 測 は 常 に 条 件 付 7. アドホックな 手 続 きを 認 めない
Bayes 統 計 を 用 いた 情 報 変 換 過 程 のモデルに おける 出 力 データからの 情 報 源 の 推 定 方 法 通 信 路 を 条 件 付 確 率 でモデル 化 :P(x t) 目 的 は x が 観 測 されたときの t の 確 率 すなわち 事 後 確 率 P(t x)を 最 大 化 する 情 報 源 の 確 率 tˆ arg max P( t t t arg max P( x x) t) P( t) ここでベイズの 定 理 により P(t)は 情 報 源 記 号 列 の 既 知 の 統 計 的 性 質 が 利 用 できる P(x t) は 情 報 源 記 号 列 tが 情 報 変 換 およびnoisy channelの 雑 音 によってx 毎 に 変 化 する 確 率 この 確 率 は 多 数 の<t,x> 対 の 観 測 データにより 計 算 する
情 報 変 換 過 程 モデルの 適 用 例 例 : 機 械 翻 訳 元 言 語 x: 私 がリンゴを 食 べる P(t x) は 元 言 語 のテキスト x( 既 知 )が 翻 訳 先 言 語 のテキスト t に 翻 訳 される 確 率 P(x t) はtという 翻 訳 結 果 に 対 する 元 言 語 のテキス トがxである 確 率 P(t) 翻 訳 先 言 語 におけるテキストtの 自 然 さ 例 え tˆ ば N 単 語 列 のコーパスにおける 単 語 3-gram 確 率 以 上 の 設 定 で 下 の 式 tˆ arg max t P( t 機 械 翻 訳 x) は 機 械 翻 訳 の 出 力 arg max P( x t) P( t) この 考 え 方 を 元 にしたのが 現 在 主 流 となってきてい る 統 計 的 機 械 翻 訳 (IBMで1993 年 に 開 発 された) t 翻 訳 先 言 語 t: I eat an apple
日 英 機 械 翻 訳 の 例 P(リンゴを 食 べる eats an apple)=0.3 P(リンゴを 食 べる eats apples)=0.2 P( 彼 は He)=1.0 P(He eats apples)=0.2 P(He eats an apple)=0.5 P(He eats an apple 彼 はリンゴを 食 べる) =1.0x0.3x0.5=0.15 P(He eats apples 彼 はリンゴを 食 べる) =1.0x0.2x0.2=0.04 He eats an apple のほうが 良 い 英 訳 事 前 知 識 として P(He eats apple)=0.0 があれば 非 文 P(He eats apple)=0にできるのがベイズの 強 み
例 : 文 書 分 類 P(t x) においてxが 与 えられた 文 書 tがカテゴリ 推 定 されたカテゴリ: tˆ P(t) はカテゴリtの 文 書 の 出 現 確 率 P(x t)はカテゴリtにおいて 文 書 xが 出 現 する 確 率 このモデル 化 にはいろいろな 方 法 があるが 簡 単 なの は 出 現 する 単 語 w 1, w N P(x t) =P(w 1, w N t)だが このままでは 計 算 しにくい のでw 1, w N が 独 立 だとすると P( w N 1,..., wn t) P( wn t) n1 これを naïve Bayse 分 類 とよぶ arg max P( x t) P( t) t Why?
文 書 分 類 の 例 : 長 澤 まさみ vs 上 野 樹 里 長 澤 まさみ 関 連 の 文 書 に 高 い 確 率 で 出 現 する 単 語 主 演 映 画 東 宝 吉 田 礼 薬 師 丸 ひろ 子 サッカー 上 野 樹 里 関 連 の 文 書 に 高 い 確 率 で 出 現 す る 単 語 主 演 のだめ カンタービレ ドラマ ラスト フジテレビ 分 類 したい 文 書 :Dの 含 む 単 語 は 主 演 ラスト フレンズ P( 主 演 長 澤 )=0.1 P( 主 演 上 野 )=0.1 P(ラスト 長 澤 )=0.2 P(ラスト 上 野 )=0.2 P(フレンズ 長 澤 )=0.2 P(フレンズ 上 野 )=0.2
Googleのヒット 数 から 推 定 したところ P( 長 澤 )=0.6 P( 上 野 )=0.4 P( 長 澤 D)=P(D 長 澤 )P( 長 澤 ) =P( 主 演 長 澤 )P(ラスト 長 澤 )P(フレンズ 長 澤 )P( 長 澤 ) =0.1x0.2x0.2x0.6=0.0024 P( 上 野 D)=P(D 上 野 )P( 上 野 ) =P( 主 演 上 野 )P(ラスト 上 野 )P(フレンズ 上 野 )P( 上 野 ) =0.1x0.2x0.2x0.4=0.0016 よって 文 書 Dは 長 澤 に 分 類 しかし Dに カンタービレ という 単 語 も 含 まれ P(カン.. 長 澤 )=0.1 P(カン.. 上 野 )=0.8だと P( 長 澤 D)=0.00024 P( 上 野 D)=0.00128 で 文 書 Dは 上 野 に 分 類 直 感 にあっているようだ!
教 師 あり 学 習 上 記 の 例 では 情 報 源 のモデルであるP(t)やP(x t)は 単 に 出 現 確 率 だったが ここで 適 切 な 確 率 分 布 を 考 えることが 可 能 すると その 分 布 を 決 めるパラメターを 推 定 する 必 要 が 出 てく る そのために<t,x>という 情 報 源 の 状 態 と 出 力 データの 対 デー タが 多 数 入 手 できれば 利 用 する この<t,x>を 教 師 データ(あるいは 観 測 データ)と 呼 ぶ すると 機 械 学 習 の 中 心 となる 教 師 あり 学 習 は 確 率 分 布 P(t) P(x t)のパラメターを 教 師 データ<t,x>を 利 用 して 求 める という 問 題 になる
教 師 なし 学 習 教 師 あり 学 習 では 教 師 データ<t,x>の 集 合 が 与 えられた 状 態 で P(t)やP(x t)のパラメターを 求 めた しかし データ<x>の 集 合 だけが 与 えられていて(tは 与 えら れていない)ときはどうする? データ<x>の 集 合 から P(x)のパラメターだ けを 求 めることになる 直 観 的 には データ<x>を 類 似 したものにグループ 化 する クラスタリングと 言 い グループのことをクラスタと 呼 ぶ これを 教 師 なし 学 習 と 呼 ぶ
識 別 モデルと 生 成 モデル 入 力 データxに 対 応 する 予 測 値 tを 求 める 識 別 モデル(discrimiative model):p(t x)を 直 接 モデ ル 化 する このp(t x)によって 未 知 のxに 対 するtを 予 測 (あるいは 推 定 )する 方 法 t=f(x)となる 関 数 を 直 接 求 めるものもあり 事 前 分 布 生 成 モデル(generative model):ベイズの 定 理 で p(t x)をp(x t)p(t)/p(x)に 変 換 p(x t)を 学 習 p(t)を 事 前 データから 求 める これと 既 知 の<x,t>のペアの データからp(x t)のパラメターを 更 新 これによって 未 知 のxに 対 するtを 求 めるp(t x)の 確 率 分 布 をモデ ル 化 する 観 測 データが 知 られて 後 のp(x t)の 事 後 分 布
最 尤 推 定 とMAP 推 定 最 尤 推 定 分 布 P X のパラメタ-θの 推 定 値 を 以 下 の 式 で 求 める ˆ arg max P X,..., X 1 N あるいは 対 数 をとり 推 定 : 対 数 尤 度 の 最 大 化 ˆ arg max log P X,..., X ˆ arg max ただし X 1 log,..,x P N 1 N MAP 推 定 ( 事 後 確 率 の 最 大 化 ) 事 前 確 率 P が 与 えられていたときには 次 式 のように 事 後 分 布 の 確 率 を 最 大 化 するパラメタ-を 求 める X1,..., X N ˆ P はN個 の 観 測 データ
問 題 1 X 1 X 1 X P (X i は 0か1)で 定 義 されるベルヌ- イ 試 行 を 独 立 にN 回 繰 り 返 したとき 0がm 回 1がN-m 回 観 測 されたとする 最 尤 推 定 して θを 求 めよ 1 また 事 前 分 布 として P bただし 0 のときのMAP 推 定 した θ を 求 めよ この 場 合 の 結 果 の 意 味 を 考 察 せよ 問 題 2 次 式 の 多 項 分 布 において 最 尤 推 定 して θ i を 求 めよ 事 前 分 布 が P P N! X! X X1 X K X 1 1 K! 1 K 1 11 K 1 1 K 1 K K K k1 k の 場 合 の MAP 推 定 した θ i を 求 めよ
今 までは 情 報 源 の 記 号 tと 出 力 記 号 列 (= 直 接 に 観 測 されたデータ)xは 機 械 学 習 にお いて 直 接 に 計 算 の 対 象 としていた この 仮 定 が 成 立 する 場 合 も 多 い 身 長 体 重 薬 の 濃 度 価 格 などの( 連 続 ) 数 値 データ 人 数 個 数 などの 整 数 をとる 数 値 データ 割 合 %など データの 性 質 男 女 国 籍 など 属 性 が 記 号 の 場 合 ( 整 数 に 変 換 すれば 数 値 として 処 理 可 能 ) しかし 必 ずしも 直 接 に 観 測 されたデータだけ を 使 える 場 合 ばかりではない
観 測 データを 表 す 情 報 の 次 元 観 測 データ 点 が 人 間 の 場 合 の 例 x=( 身 長 体 重 血 圧 収 入 金 額 ) T 数 値 だけな ので 簡 単 単 位 は 外 部 知 識 とする Ex (170, 50, 120, 10,000,000) 確 率 分 布 としては 正 規 分 布 など x=( 職 業 発 熱 ) T 記 号 2つの 方 法 記 号 に 番 号 を 与 える Ex 無 職 =0, 学 生 =1,.. 発 熱 無 =0 有 =1 確 率 分 布 としては 離 散 数 値 をとる 分 布 など 数 値 の 意 味 付 け が 難 しい 記 号 の 種 別 ごとに1 次 元 を 与 える( 次 のページ 参 照 )
記 号 の 種 類 ごとに 次 元 を 割 り 当 てる 方 法 x=( 訪 問 国 1,, 訪 問 国 N) T 対 策 : 国 を 番 号 つける ex(usa,uk,italy) T (USA=1, UK=2, Japan=3, China=4, Italy=5, ) この 番 号 がベクトルの 何 番 目 の 要 素 かを 示 すとして 数 値 のベクトルとして 表 現 : Bernoulli 分 布 : x 上 のexは (1,1,0,0,1,.) T このベクトルの 次 元 は 世 界 中 の 国 の 数 だけあるため か なり 大 きい しかし 観 測 データには0が 多 く スパースな データ 記 号 の 出 現 回 数 のある 場 合 x=(( 訪 問 国 1 滞 在 日 数 1),,( 訪 問 国 N 滞 在 日 数 )) T ex((usa,15),(uk,5),(italy,3)) T (15,5,0,0,3,.) T 多 項 分 布 : Mult(15,5,0,0,3,... 15 USA 5 UK 0 Japan USA, 0 China UK, 3 Italy Japan Bern( x ) (1 ), China, Italy,...) 1 x
次 元 の 大 きさ 国 と 滞 在 日 数 の 例 と 同 じタイプの 問 題 を テキストデ ータで 考 えてみよう あるテキストを 表 現 するには そのテキストに 出 現 し た 各 単 語 の 個 数 で 表 現 する 次 元 は 語 彙 数 日 本 語 の 新 聞 では 約 40 万 語 固 有 名 詞 や 複 合 語 まで 入 れると 100 万 以 上 100 万 次 元 の ベクトルを 扱 う 必 要 あり! 個 々の 単 語 だけを 対 象 にすれば 済 むのか? ABC 証 券 ABC 証 券 株 式 会 社 総 理 が 失 言 総 理 が 訂 正 というような 単 語 の 連 鎖 で 見 ないと 分 からない 場 合 は? N 単 語 の 連 鎖 (=N-gram)の 種 類 数 は 100 万 のN 乗!!! しかし このような 多 次 元 がすべて 重 要 な 情 報 だとも 思 えない 次 元 圧 縮 の 技 術 が 有 望 i.e. Singular Value Decomposition (SVD)とかLatent Semantic Indexing(LSI)
特 殊 性 を 表 すデータ 1 これまでに 示 したデータ 点 の 数 値 は 観 測 さ れた 数 値 ( 出 現 回 数 など)を 直 接 使 っていた 観 測 データ 全 体 の 構 造 を 利 用 したtf*idfと 呼 ばれる 数 値 も 有 力 データ 点 頻 度 Data point Frequency : DF ただし DF(j)はj 番 目 の 次 元 のデータが0でな いデータ 点 の 数 また 観 測 データ 点 の 総 数 をNとする
特 殊 性 を 表 すデータ 2 データ 点 頻 度 Data point frequency:df ただし DF(j)はj 番 目 の 次 元 のデータが0でな いデータ 点 の 数 また 観 測 データ 点 の 総 数 をNとする IDF(j)=1/DF(j) TF(i,j)= 観 測 データ 点 iで 第 j 次 元 のデータの 出 現 回 数 TF*IDFの 定 義 : w j N i, TF*IDF(i, j) TF(i, j) log DF(j)
例 データ 例 旅 行 者 a:(usa=10, UK=2, Japan=3, China=0, Italy=0) 旅 行 者 b:(usa=0, UK=2, Japan=0, China=4, Italy=0) 旅 行 者 c:(usa=5, UK=0, Japan=2, China=0, Italy=0) 旅 行 者 d:(usa=2, UK=0, Japan=1, China=2, Italy=1) DF(USA)=3, DF(UK)=2, DF(JP)=3. DF(CH)=2, DF(IT)=1 N/DF(..)は USA=4/3, UK=4/2, JP=4/3, CH=4/2, IT=4/1 TF*IDF(USA,a)=10*log(4/3)=4.114, TF*IDF(USA,b)=0 TF*IDF(UK,a)=2*log(4/2)=2 TF*IDF(IT,d)=1*log(4/1)=2
特 殊 性 を 表 すデータ 3 TF*IDFの 定 義 : w j N i, TF*IDF(i, j) TF(i, j) log DF(j) TF*IDF(i,j)は データ 点 : iだけで 特 別 に 多 く 現 れる 次 元 : jの 数 値 を 表 す 例 えば 新 聞 の1 記 事 を 観 測 データ 点 とし 次 元 を 単 語 とすると TF*IDF(i,j)の 大 きな 単 語 iは 偏 りのある 特 殊 ないし 専 門 の 単 語 小 さな 単 語 は 一 般 的 な 単 語 といえる TF*DIFを 用 いて 観 測 データ 点 を 表 現 しなお すと いろいろなことが 見 えてくることがある
距 離 の 定 義 観 測 データ 点 を 多 次 元 空 間 中 の 点 と 定 義 そこで2つの 問 題 各 次 元 は 観 測 データ 点 からどのように 定 義 するか 次 元 のことをfeatureあるいは 素 性 (そせい)と 呼 ぶ この 問 題 をfeature design : 素 性 設 計 と 呼 ぶ 例 えば 2つの 素 性 の 比 を 新 たな 素 性 とする ex 身 長 / 体 重 2つの 素 性 の 連 続 したもの ex 日 本 銀 行 日 本 沈 没 しかし これは 個 別 適 用 分 野 に 応 じて 工 夫 すべし 多 次 元 空 間 における2 点 間 の 距 離 の 定 義 ユークリッド 距 離 ばかりではないのだ!