ISMopen2014-langmusique.pptx



Similar documents
検 討 検 討 の 進 め 方 検 討 状 況 簡 易 収 支 の 世 帯 からサンプリング 世 帯 名 作 成 事 務 の 廃 止 4 5 必 要 な 世 帯 数 の 確 保 が 可 能 か 簡 易 収 支 を 実 施 している 民 間 事 業 者 との 連 絡 等 に 伴 う 事 務 の 複 雑

Taro-条文.jtd

質 問 票 ( 様 式 3) 質 問 番 号 62-1 質 問 内 容 鑑 定 評 価 依 頼 先 は 千 葉 県 などは 入 札 制 度 にしているが 神 奈 川 県 は 入 札 なのか?または 随 契 なのか?その 理 由 は? 地 価 調 査 業 務 は 単 にそれぞれの 地 点 の 鑑 定

トピックモデルを用いた歌声特徴量の分析

Box-Jenkinsの方法


Microsoft PowerPoint - 報告書(概要).ppt

私立大学等研究設備整備費等補助金(私立大学等

<4D F736F F F696E74202D2082C882E982D982C DD8ED88EE688F882CC82B582AD82DD C668DDA9770>

Taro-08国立大学法人宮崎大学授業


Ⅰ 調 査 の 概 要 1 目 的 義 務 教 育 の 機 会 均 等 その 水 準 の 維 持 向 上 の 観 点 から 的 な 児 童 生 徒 の 学 力 や 学 習 状 況 を 把 握 分 析 し 教 育 施 策 の 成 果 課 題 を 検 証 し その 改 善 を 図 るもに 学 校 におけ

Microsoft PowerPoint - MVE pptx

第1回

<4D F736F F D D3188C091538AC7979D8B4B92F F292B98CF092CA81698A94816A2E646F63>

Contents 第 1 章 国 土 調 査 法 19 条 5 項 指 定 とは? 国 土 調 査 法 19 条 5 項 指 定 とは? 1 指 定 の 意 義 メリット 1 指 定 の 対 象 は? 2 対 象 となる 事 業 2 国 土 調 査 法 19 条 5 項 指 定 までの 流 れ 3

PowerPoint Presentation

<4D F736F F D F8D828D5A939982CC8EF68BC697BF96B38F9E89BB82CC8A6791E52E646F63>

(5) 給 与 制 度 の 総 合 的 見 直 しの 実 施 状 況 について 概 要 の 給 与 制 度 の 総 合 的 見 直 しにおいては 俸 給 表 の 水 準 の 平 均 2の 引 き 下 げ 及 び 地 域 手 当 の 支 給 割 合 の 見 直 し 等 に 取 り 組 むとされている

KINGSOFT Office 2016 動 作 環 境 対 応 日 本 語 版 版 共 通 利 用 上 記 動 作 以 上 以 上 空 容 量 以 上 他 接 続 環 境 推 奨 必 要 2

する ( 評 定 の 時 期 ) 第 条 成 績 評 定 の 時 期 は 第 3 次 評 定 者 にあっては 完 成 検 査 及 び 部 分 引 渡 しに 伴 う 検 査 の 時 とし 第 次 評 定 者 及 び 第 次 評 定 者 にあっては 工 事 の 完 成 の 時 とする ( 成 績 評 定

〔自 衛 隊〕

<6D33335F976C8EAE CF6955C A2E786C73>

( 別 途 調 査 様 式 1) 減 損 損 失 を 認 識 するに 至 った 経 緯 等 1 列 2 列 3 列 4 列 5 列 6 列 7 列 8 列 9 列 10 列 11 列 12 列 13 列 14 列 15 列 16 列 17 列 18 列 19 列 20 列 21 列 22 列 固 定

Microsoft Word - A04◆/P doc

<4D F736F F D208ED089EF95DB8CAF89C193FC8FF38BB CC8EC091D492B28DB88C8B89CA82C982C282A282C42E646F63>

Microsoft Word - 第3章.doc

全設健発第     号

(4) 給 与 制 度 の 総 合 的 見 直 しの 実 施 状 況 について 概 要 国 の 給 与 制 度 の 総 合 的 見 直 しにおいては 俸 給 表 の 水 準 の 平 均 2の 引 下 げ 及 び 地 域 手 当 の 支 給 割 合 の 見 直 し 等 に 取 り 組 むとされている.

1 書 誌 作 成 機 能 (NACSIS-CAT)の 軽 量 化 合 理 化 電 子 情 報 資 源 への 適 切 な 対 応 のための 資 源 ( 人 的 資 源,システム 資 源, 経 費 を 含 む) の 確 保 のために, 書 誌 作 成 と 書 誌 管 理 作 業 の 軽 量 化 を 図

スライド 1

国 税 クレジットカード 納 付 の 創 設 国 税 のクレジットカード 納 付 については マイナンバー 制 度 の 活 用 による 年 金 保 険 料 税 に 係 る 利 便 性 向 上 に 関 するアクションプログラム( 報 告 書 ) においてその 導 入 の 方 向 性 が 示 されている

1 予 算 の 姿 ( 平 成 25 当 初 予 算 ) 長 野 県 財 政 の 状 況 H 現 在 長 野 県 の 予 算 を 歳 入 面 から 見 ると 自 主 財 源 の 根 幹 である 県 税 が 全 体 の5 分 の1 程 度 しかなく 地 方 交 付 税 や 国 庫 支

2 出 願 資 格 審 査 前 記 1の 出 願 資 格 (5) 又 は(6) により 出 願 を 希 望 する 者 には, 出 願 に 先 立 ち 出 願 資 格 審 査 を 行 いますので, 次 の 書 類 を 以 下 の 期 間 に 岡 山 大 学 大 学 院 自 然 科 学 研 究 科 等

Taro-事務処理要綱250820


平成19年9月改定

為 が 行 われるおそれがある 場 合 に 都 道 府 県 公 安 委 員 会 がその 指 定 暴 力 団 等 を 特 定 抗 争 指 定 暴 力 団 等 として 指 定 し その 所 属 する 指 定 暴 力 団 員 が 警 戒 区 域 内 において 暴 力 団 の 事 務 所 を 新 たに 設

4 教 科 に 関 する 調 査 結 果 の 概 況 校 種 学 年 小 学 校 2 年 生 3 年 生 4 年 生 5 年 生 6 年 生 教 科 平 均 到 達 度 目 標 値 差 達 成 率 国 語 77.8% 68.9% 8.9% 79.3% 算 数 92.0% 76.7% 15.3% 94

第1章 財務諸表

Q IFRSの特徴について教えてください

<4D F736F F D E598BC68A8897CD82CC8DC490B68B7982D18E598BC68A8893AE82CC8A C98AD682B782E993C195CA915B C98AEE82C382AD936F985E96C68B9690C582CC93C197E1915B927582CC898492B75F8E96914F955D89BF8F915F2E646F6

いう )は 警 告 をしたときは 速 やかに その 内 容 及 び 日 時 を 当 該 警 告 を 求 める 旨 の 申 出 をした 者 に 通 知 しなければならないこととされ また 警 告 をし なかったときは 速 やかに その 旨 及 び 理 由 を 当 該 警 告 を 求 める 旨 の 申

Microsoft Word - 奨学金相談Q&A.rtf

Microsoft Word - 全国エリアマネジメントネットワーク規約.docx

3 圏 域 では 県 北 沿 岸 で2の 傾 向 を 強 く 見 てとることができます 4 近 年 は 分 配 及 び 人 口 が 減 少 している 市 町 村 が 多 くなっているため 所 得 の 増 加 要 因 を 考 える 場 合 は 人 口 減 少 による 影 響 についても 考 慮 する

平成25年度 独立行政法人日本学生支援機構の役職員の報酬・給与等について

Taro-契約条項(全部)

1. 決 算 の 概 要 法 人 全 体 として 2,459 億 円 の 当 期 総 利 益 を 計 上 し 末 をもって 繰 越 欠 損 金 を 解 消 しています ( : 当 期 総 利 益 2,092 億 円 ) 中 期 計 画 における 収 支 改 善 項 目 に 関 して ( : 繰 越

2. データを 検 索 する なごやコレクションのデータを 検 索 するための 方 法 として キーワード 検 索 詳 細 検 索 の 二 通 りの 検 索 方 法 が あります 2.1. キーワードから 探 す キーワードを 入 力 する トップページの 入 力 ボックスに 検 索

職 員 の 初 任 給 等 の 状 況 () 職 員 の 平 均 年 齢 平 均 給 料 月 額 及 び の 状 況 ( 年 4 月 日 現 在 ) 一 般 行 政 職 平 均 年 齢 平 均 給 料 月 額 ( ベース) 44. 歳 6,4, 歳,44 4,7 7,6 4. 歳 7,

Microsoft Word - 答申第143号.doc


注 記 事 項 (1) 当 四 半 期 連 結 累 計 期 間 における 重 要 な 子 会 社 の 異 動 : 無 (2) 四 半 期 連 結 財 務 諸 表 の 作 成 に 特 有 の 会 計 処 理 の 適 用 : 有 ( 注 ) 詳 細 は 添 付 資 料 4ページ 2.サマリー 情 報 (

者 が 在 学 した 期 間 の 年 数 を 乗 じて 得 た 額 から 当 該 者 が 在 学 した 期 間 に 納 付 すべき 授 業 料 の 総 額 を 控 除 した 額 を 徴 収 するものとする 3 在 学 生 が 長 期 履 修 学 生 として 認 められた 場 合 の 授 業 料 の

技 能 労 務 職 公 務 員 民 間 参 考 区 分 平 均 年 齢 職 員 数 平 均 給 与 月 額 平 均 給 与 月 額 平 均 給 料 月 額 (A) ( 国 ベース) 平 均 年 齢 平 均 給 与 月 額 対 応 する 民 間 の 類 似 職 種 東 庄 町 51.3 歳 18 77

< F2D A C5817A C495B6817A>

別紙3

2 平 均 病 床 数 の 平 均 病 床 数 では 療 法 人 に 対 しそれ 以 外 の 開 設 主 体 自 治 体 社 会 保 険 関 係 団 体 その 他 公 的 の 規 模 が 2.5 倍 程 度 大 きく 療 法 人 に 比 べ 公 的 病 院 の 方 が 規 模 の 大 き いことが

6-1 第 6 章 ストック オプション 会 計 設 例 1 基 本 的 処 理 Check! 1. 費 用 の 計 上 ( 1 年 度 ) 2. 費 用 の 計 上 ( 2 年 度 )- 権 利 不 確 定 による 失 効 見 積 数 の 変 動 - 3. 費 用 の 計 上 ( 3 年 度 )-

別記

法 人 等 に 対 する 課 税 際 課 税 原 則 の 帰 属 主 義 への 見 直 しのポイント 総 合 主 義 から 帰 属 主 義 への 移 行 法 人 及 び 非 居 住 者 ( 法 人 等 )に 対 する 課 税 原 則 について 従 来 のいわゆる 総 合 主 義 を 改 め OECD

目 次 1 個 人 基 本 情 報 個 人 基 本 情 報 入 力 画 面 の 分 散 4 申 告 区 分 および 申 告 種 類 の 選 択 方 法 5 繰 越 損 失 入 力 年 別 の 繰 越 損 失 額 入 力 に 対 応 6 作 成 手 順 作 成 手 順 の 流 れを 提 供 7 所 得

単回帰モデル

積 載 せず かつ 燃 料 冷 却 水 及 び 潤 滑 油 の 全 量 を 搭 載 し 自 動 車 製 作 者 が 定 める 工 具 及 び 付 属 品 (スペアタイヤを 含 む )を 全 て 装 備 した 状 態 をいう この 場 合 に おいて 燃 料 の 全 量 を 搭 載 するとは 燃 料

別 紙 第 号 高 知 県 立 学 校 授 業 料 等 徴 収 条 例 の 一 部 を 改 正 する 条 例 議 案 高 知 県 立 学 校 授 業 料 等 徴 収 条 例 の 一 部 を 改 正 する 条 例 を 次 のように 定 める 平 成 26 年 2 月 日 提 出 高 知 県 知 事 尾

学校教育法等の一部を改正する法律の施行に伴う文部科学省関係省令の整備に関する省令等について(通知)

答申第585号

市 の 人 口 密 度 は 5,000 人 を 超 え 図 4 人 口 密 度 ( 単 位 : 人 /k m2) に 次 いで 高 くなっている 0 5,000 10,000 15,000 首 都 圏 に 立 地 する 政 令 指 定 都 市 では 都 内 に 通 勤 通 学 する 人 口 が 多

(4) ラスパイレス 指 数 の 状 況 ( 各 年 4 月 1 日 現 在 ) ( 例 ) ( 例 ) 15 (H2) (H2) (H24) (H24) (H25.4.1) (H25.4.1) (H24) (H24)

<4D F736F F F696E74202D E338C8E323793FA89EF8CA997708E9197BF5F B93C782DD8EE682E890EA97705D>

Microsoft Word - ★HP版平成27年度検査の結果

所 得 税 と 住 民 税 の 税 率 表 所 得 税 と 住 民 税 の 税 率 は 以 下 の 通 りです 退 職 所 得 の 場 合 も この 税 率 表 を 使 います 1. 平 成 19 年 1 月 1 日 以 降 ( 所 法 891) 課 税 所 得 所 得 税 率 控 除 額 ~195

文化政策情報システムの運用等

<4D F736F F D E91E6318E6C94BC8AFA925A904D D838A815B8BA693AF8E9497BF2E646F63>

目 次 機 能 概 要 ン/ チャ 引 新 規 注 文 - WAY 新 規 注 文 - WAY OCO 新 規 注 文 - 成 行 新 規 注 文 - 指 値 逆 指 値 新 規 注 文 - IFD 新 規 注 文 - OCO 新 規 注 文 - IFDOCO 新 規 注 文 - 決 済 注 文 -

国 家 公 務 員 の 年 金 払 い 退 職 給 付 の 創 設 について 検 討 を 進 めるものとする 平 成 19 年 法 案 をベースに 一 元 化 の 具 体 的 内 容 について 検 討 する 関 係 省 庁 間 で 調 整 の 上 平 成 24 年 通 常 国 会 への 法 案 提

資料2-2 定時制課程・通信制課程高等学校の現状

<4D F736F F D20819C486F70658F6F93588ED297708AC7979D89E696CA837D836A B E A2E646F63>

対 象 者 株 式 (1,287,000 株 ) 及 び 当 社 が 所 有 する 対 象 者 株 式 (1,412,000 株 )を 控 除 した 株 式 数 (3,851,673 株 )になります ( 注 3) 単 元 未 満 株 式 も 本 公 開 買 付 けの 対 象 としております なお

<8C9A90DD94AD90B696D88DDE939982CC8DC48E918CB989BB82C98AD682B782E98E9696B18EE688B CC FC90B3816A2E786477>

容 積 率 制 限 の 概 要 1 容 積 率 制 限 の 目 的 地 域 で 行 われる 各 種 の 社 会 経 済 活 動 の 総 量 を 誘 導 することにより 建 築 物 と 道 路 等 の 公 共 施 設 とのバランスを 確 保 することを 目 的 として 行 われており 市 街 地 環

わない (1) そう 思 う (2)のそれぞれ3 段 階 で 回 答 をしてもらった その 結 果 を 次 節 で 数 値 に 換 算 している 4. 調 査 の 結 果 と 考 察 4.1 学 習 上 の 困 難 点 全 体 的 な 傾 向 表 1 漢 字 の 学 習 困 難 点 (

<6D313588EF8FE991E58A778D9191E5834B C8EAE DC58F4992F18F6F816A F990B32E786C73>

Ⅰ 校 外 における 研 修 の 留 意 点 1 校 外 における 研 修 のコマ 数 の 考 え ア) 午 前 午 後 の 講 座 は 0.5 日 (0.5 コマ) イ) 全 日 の 講 座 は 1.0 日 (1.0 コマ) 2 校 外 における 研 修 として 選 択 できない 講 座 研 修

<4D F736F F D2090C389AA8CA72D92F18F6F2D D F ED28CFC82AF91808DEC837D836A B E838B A815B816A2E646F6378>

<4D F736F F D F4390B3208A948C E7189BB8CE F F8C668DDA97702E646F63>

<4D F736F F D2091E F18CB48D C481698E7B90DD8F9590AC89DB816A2E646F63>

Microsoft Word - No.10 西村.doc

<4D F736F F D20819C B78AFA95DB91538C7689E68DEC90AC289

認証対象接合金物

連 結 株 主 資 本 等 変 動 計 算 書 ( 平 成 27 年 4 月 1 日 から 平 成 28 年 3 月 31 日 まで ) 項 目 株 主 資 本 ( 単 位 : 百 万 円 ) 資 本 金 資 本 剰 余 金 利 益 剰 余 金 自 己 株 式 株 主 資 本 合 計 当 連 結 会


連 結 株 主 資 本 等 変 動 計 算 書 (2015 年 6 月 1 日 から2016 年 5 月 31 日 まで) 株 主 資 本 ( 単 位 : 千 円 ) 資 本 金 資 本 剰 余 金 利 益 剰 余 金 自 己 株 式 株 主 資 本 合 計 当 期 首 残 高 2,049,318

PowerPoint プレゼンテーション

0605調査用紙(公民)

Taro-2220(修正).jtd

経験発表

御 利 用 規 約 Excel でつくる 配 光 曲 線, 直 射 水 平 面 照 度 Version 2.0 小 冊 子 を 御 利 用 頂 くにあたり 以 下 の 内 容 をよく 御 読 み 頂 き 御 同 意 の 上 御 利 用 頂 く 様 宜 しく 御 願 い 致 します 1. 著 作 物

(Microsoft Word - \220\340\226\276\217\221.doc)

Transcription:

音 楽 と 言 語 への ベイズ 統 計 的 アプローチ 持 橋 大 地 統 計 数 理 研 究 所 数 理 推 論 研 究 系 准 教 授 daichi@ism.ac.jp 統 計 数 理 研 究 所 オープンハウス 2014 2014-6-13 (Fri)

統 計 的 自 然 言 語 処 理 とは 言 語 の 統 計 的 な 取 り 扱 い (= 計 算 言 語 学 ) 1990 年 代 後 半 以 降 Webに よる 電 子 テキストの 増 大 に よって 加 速 的 に 進 歩 2014 年 : 大 きく 進 歩 したが まだ 解 けていない 基 本 問 題 もある

統 計 的 自 然 言 語 処 理 とは (2) 彼 女 は 花 を 買 った 0.92 0.85 0.61 文 書 2 文 書 1 構 文 解 析 0.37 1.0 文 書 モデル 代 表 的 な 応 用 : 構 文 解 析 形 態 素 解 析 文 書 モデル 意 味 極 性 分 類 照 応 解 析 言 語 進 化 モデル

音 楽 との 共 通 性 音 楽 は 楽 譜 をもち それ 自 身 の 構 造 を 持 っている 言 語 と 同 じ 音 響 処 理 だけからはわからない!

例 :Mozart, ヴァイオリン 協 奏 曲 音 楽 情 報 処 理 のためのPythonパッケージである Music21 (http://web.mit.edu/music21/) 付 属 のコーパスの 一 部

例 :Mozart, ヴァイオリン 協 奏 曲 (2) 記 号 列 に 直 してみる (mozart-notes.py) <tune> note:5/4/1 note:5/4/0.25 note:5/2/0.25 note:5/1/0.25 note:5/2/0.25 note:5/4/0.25 note:5/6/0.25 note:5/8/0.25 note:5/9/0.25 note:5/4/0.25 note:5/9/0.25 note:5/9/2 note:5/8/0.5 note:5/2/0.25 note:5/2/0.25 note:5/2/2 note:5/1/0.5 note:4/11/0.25 note:5/11/0.25 隠 れ 状 態 がある? 言 語 と 同 じ!

教 師 なし 品 詞 解 析 When she arrived at the hotel, he realized that the era.. CONJ N V P DT N N V CONJ DT N 言 語 には 品 詞 があり われわれは 品 詞 を 認 識 している 名 詞 動 詞 形 容 詞 冠 詞 接 続 詞 どうやって 品 詞 がわかるのか? 隠 れMarkovモデル (Merialdo 1994, van Gael+ 2009)

隠 れMarkovモデル z z t 1 z t+1 z t w 観 測 データ: 単 語 列 w = w 1 w 2 w 3 w T 潜 在 変 数 : 品 詞 列 z = z 1 z 2 z 3 z T データ 全 体 の 確 率 : T p(w, z) = p(w t z t ) p(z t z t 1 ) t=1 w t had a little lamb

隠 れMarkovモデルの 学 習 Baum-Welchともいう EMアルゴリズム: Forward-Backward ( 動 的 計 画 法 ) しかし 学 習 された 品 詞 間 の 状 態 遷 移 行 列 うまく 学 習 できていない! モデルが 悪 いのか? No!

隠 れMarkovモデルのベイズ 学 習 EMアルゴリズムは 最 尤 推 定 ˆθ =argmaxp(w θ) 実 際 のデータでは 多 数 の 局 所 解 θ

隠 れMarkovモデルのベイズ 学 習 (2) MCMCで 解 けばよい! (Johnson, Goldwater 2007) p(z t z t 1 ) Dir(γ) p(w z) Dir(η) このとき p(z t w t,z t 1,z t+1, others) p(w t z t ) p(z t+1 z t ) p(z t z t 1 ) z t 1 z t z t+1 w t p(z t z t 1,z t+1,w t, others) ( ) ( n(wt,z t )+η n(zt,z t 1 )+γ w n(w, z t)+η n(z t 1 )+Kγ ) ( ) n(zt+1,z t )+I(z t+1 =z t =z t 1 )+γ n(z t )+I(z t =z t 1 )+Kγ

隠 れMarkovモデルのベイズ 学 習 (3) 結 果 : 劇 的 に 改 善 ベイズ 推 定 +MCMC 最 尤 推 定 +EM

隠 れMarkovモデルのベイズ 学 習 (3) 問 題 : 隠 れクラス 数 (= 品 詞 数 ) Kは? infinite HMM (Beal 2002; Teh+ 2006)

infinite HMM HMMのパラメータは p(w z) とp(z t+1 z t ) z を 生 成 する p(z t+1 z t ) が 無 限 次 元 のGEM 分 布 p(z t+1 z t ) GEM(γ) に 従 うとする. GEM 分 布 からのサンプル:

infinite HMM (2) このままだと 学 習 に 個 の 次 元 を 調 べないと いけないが (1) CRP ( 中 国 料 理 店 過 程, Aldous 1985) (2) Slice Sampling (Neal 2003, van Gael+ 2008) を 使 うと 有 限 次 元 で 計 算 できる 注 意 : データ 数 N 以 上 のクラス 数 は 必 要 ない 自 然 数 Nの 分 割 問 題 ( 確 率 分 割 )

infinite HMM (3) 不 思 議 の 国 のアリス (26689 語,1431 行 )を 学 習 データにしてiHMMを 学 習 K 10 9 8 7 6 5 4 3 2 隠 れ 品 詞 数 の 学 習 0 100 200 300 400 500 600 700 800 900 1000 Gibbs iteration Log Likelihood -120000-122000 -124000-126000 -128000-130000 -132000-134000 -136000 データの 対 数 尤 度 の 変 化 0 100 200 300 400 500 600 700 800 9001000 Gibbs iteration

Infinite HMM (2) 状 態 遷 移 行 列 1 she 432 to 387 i 324 it 265 you 218 alice 166 and 147 they 76 there 61 he 55 that 39 who37 what 27 i'll 26 2 the 1026 a 473 her 116 very 84 its 50 my 46 no 44 his 44 this 39 $ 39 an 37 your 36 as 31 that 27 3 was 277 had 126 said 113 $ 87 be 77 is 73 went 58 were 56 see 52 could 52 know 50 thought 44 herself 42 began 40 5 way 45 mouse 41 thing 39 queen 37 head 36 cat 35 hatter 34 duchess 34 well 31 time 31 tone 28 rabbit 28 door 28 march 26 教 師 なしで 品 詞 に 相 当 するものが 学 習 できている!

Infinite Mozart? フレーズのカテゴリがわかる! ( 実 験 はまだ 不 完 全 )

Infinite Mozart? (2) 潜 在 クラス 数 K MCMC 400 iteration 程 度 でほぼ 収 束 Joint Log Likelihood

音 符 のn-gramモデル 慎 重 論 が なお 根 強 く 音 符 や 単 語 には 直 接 状 態 遷 移 があるのでは? n-gramモデル w t 3 w t 2 } {{ } (n 1) 語 } {{ } n w t 1 語 w t (n-1) 語 を 見 た 後 次 に 来 る 語 の 条 件 付 き 確 率 p(w t w t 1,,w t (n 1) ) を 計 算 する

n-gramモデルの 問 題 p(w t w t 1,w t 2,,w t (n 1) ) 組 み 合 わせが 指 数 的 に 増 大! 語 彙 の 数 V=10,000のとき 4-gramでは 原 理 的 に 10000 3 =10 12 =1000000000000 個 のパラメータ

nグラムモデルのベイズ 学 習 nグラムモデル 古 典 的 だが 音 声 認 識 や 機 械 翻 訳 では 未 だ 重 要 基 本 的 ( 言 葉 のMarkovモデル) nグラムモデルの 問 題 : スムージング 現 在 のGoogle カウント 頻 度 そのままでなく 何 か 値 を 足 したりする 必 要!

Pitman-Yor 過 程 (Pitman and Yor 1997) ディリクレ 過 程 とは 自 然 言 語 の1 次 元 の 場 合 無 限 次 元 の 多 項 分 布 を 生 成 する 分 布 のこと 横 軸 : 可 能 な 単 語 の 種 類 元 となる( 連 続 ) 分 布 G 0 に 少 し 似 た 無 限 次 元 の 離 散 分 布 Gを 生 成 と 表 記 ( : 集 中 度 パラメータ) この2パラメータ 拡 張 がPitman-Yor 過 程

階 層 Pitman-Yor 過 程 nグラム 分 布 が 階 層 的 に(n-1)グラム 分 布 からの Pitman-Yor 過 程 によって 生 成 されたと 仮 定 最 初 はUniform, だんだん 急 峻 になる

階 層 CRP 表 現 測 度 を 直 接 扱 う 代 わりに カウントで 離 散 表 現 する 一 人 の 客 が1 単 語 分 のカウントに 対 応 下 の 青 い 客 は 文 脈 she will の 後 に sing が1 回 現 れたことを 意 味 する ( 全 部 で2 回 )

HPYLMの 学 習 HPYLM (hierarchical Pitman-Yor language model) の 学 習 = 潜 在 的 な 代 理 客 の 最 適 配 置 Gibbs sampling: 客 を 一 人 削 除 して 再 追 加 を 繰 り 返 す For each w = randperm(all counts in the corpus), 客 w と 関 連 する 代 理 客 をモデルから 削 除 客 w をモデルに 追 加 = 代 理 客 を 再 サンプル : 白 い 代 理 客 の seating arrangements

HPYLM=nグラムモデルの 問 題 常 に 客 を 深 さn-1に 配 置 していいのか? other than, the united states of america など 必 要 なnグラムのオーダーは 本 来 異 なるはず HPYLMではどうすればいい?

VPYLM (Variable-order HPYLM) 客 を 木 の 根 から 確 率 的 にたどって 追 加 ノード i に,そこで 止 まる 確 率 がある ( : 通 過 確 率 ) は ランダムにベータ 事 前 分 布 から 生 成 ゆえに 深 さnで 止 まる 確 率 は

VPYLM, Variable-order HPYLM (2) 通 過 確 率 (1-q i )が 大 きい 深 いノードに 到 達 できる 通 過 確 率 (1-q i )が 小 さい 短 いMarkov 依 存 性 を 持 つ

VPYLMの 学 習 学 習 データの 各 単 語 に, それを 生 んだ 隠 れたMarkovオーダー が 存 在 Gibbs (MCMC)で を 推 定 n t グラム 予 測 確 率 深 さn t に 到 達 するprior 2つの 項 のトレードオフ ( 深 いn t にペナルティ) 第 二 項 の 事 前 確 率 はどう 計 算 する?

VPYLMの 学 習 結 果 NAB (WSJ) コーパスの 各 単 語 が 生 成 されたMarkov オーダーの 推 定 結 果 情 報 量 の 多 い 語 の 後 は 短 く 連 語 の 後 は 長 いなどの 傾 向 が 学 習 されている

VPYLMの 予 測 従 来 と 異 なり nグラムオーダーnを 事 前 に 知 ら ないので nに 関 して 積 分 消 去 は 先 の 計 算 で から 計 算 できる Suffix tree 上 の Stick-breaking process になっている 説 明 省 略 NIPS 2011にほぼ 同 じアイデアが この 話 を 引 かずに 掲 載

VPYLMの 性 能 SRILM: SRI 言 語 モデルツールキット (Kneser-Ney) 少 ないノード 数 で 高 い 性 能 パープレキシティ= 平 均 予 測 確 率 の 逆 数 (smaller is better) -gram が 可 能!! ( 今 や nは 不 要 )

VPYLMからの 生 成 不 思 議 の 国 のアリス の -gram 文 字 モデルからのラ ンダムウォーク 生 成 生 成 では 気 をつけないと 元 データがそのまま 再 生 されてしまう

-gramによるメロディ 生 成 ( 白 井 & 谷 口 2011) 旋 律 のトピック 適 応 等 様 々な 確 率 的 技 法 が 使 われて いるようです

-gramに 基 づくコード 進 行 認 識 (Yoshii+2011) C7 F7 C7のようなコード 進 行 は 特 定 のMarkov オーダーでは 記 述 できない コード 進 行 の パープレキシティ: モデル PPL Good-Turing 38.3 Kneser-Ney 18.5 HPYLM 18.0 VPYLM 15.8 VF-VPYLM 14.6

音楽と歌詞 (Facebookより[6/10], 公開記事)

音 楽 と 歌 詞 統 計 モデルにできるか? もちろん! 有 名 なモデル: トピックモデル

LDA: トピックモデル 文 書 wを 話 題 (トピック)の 混 合 で 表 現 w 1 θ 1 =(0.1 0.2 0.4 0.3) w 2 混 合 比 θ θ 2 =(0.8 00.2 0) をディリクレ 事 前 分 布 から 生 成 θ 1 θ 2 θ 3

トピックモデル (2) 話 題 とは? 単 語 の 生 起 確 率 分 布 β k = { p(w k) } (w =1 V ) β 1 政 治 法 案 点 国 会 議 院 β 2 スポーツ バスケット 点 フォーム 競 泳

LDAの 文 書 生 成 モデル θ Dir(α) 1. トピック 混 合 比 を 生 成. θ 2. For n = 1 N, z n Mult(θ) a. トピック を 選 択 w n p(w z) b. 単 語 を 生 成. w n z n 政 治 トピック 法 案 点 国 会 議 院

LDAの 学 習 : Gibbs Sampler 導 出 や 実 装 が 簡 単 で 高 性 能 Gibbs Samplerとは マルコフ 連 鎖 モンテカルロ 法 (MCMC)の 最 も 簡 単 な 場 合 潜 在 変 数 を 分 布 ではなく 条 件 つき 分 布 から 実 際 にサンプリング = 単 語 の 潜 在 トピックを 次 々とサンプリング EMと 違 い 原 理 的 に 無 限 回 繰 り 返 せば 真 の 分 布 からのサンプル 42

LDAのGibbs Sampler LDAの 潜 在 変 数 : ( 文 書 のトピック 分 布 )と ( 各 単 語 のトピック) 実 は だけでよい から を 次 々とサンプルして 更 新. 43

LDAのGibbs Sampler (2) (Griffiths+ 2004) データ 全 体 で 単 語 wがトピック kに 割 り 当 てられた 回 数 (w i 除 く) 文 書 d 中 でトピックkに 割 り 当 てられた 単 語 数 (w i 除 く) のような 意 味 44

Last.fm データセット Million Song Dataset http://labrosa.ee.columbia.edu/ millionsong/ 中 の Last.fm データセットのうち タグの 付 けられた1,611 曲 の 歌 詞 Bag of Words 形 式 頻 度 順 で 上 位 5000 語 を 使 用

Last.fm in LDA Topic 1: german 0.064031 ich 0.041963 und 0.029936 die 0.025735 du 0.021566 der 0.020731 ist 0.019416 in 0.018470 das 0.017061 es 0.016384 nicht 0.016217 mich 0.015953 na 0.015548 demain 0.015046 auf Topic 3: love 0.050848 go 0.050427 love 0.047225 let 0.044963 babi 0.036644 me 0.035958 no 0.032467 one 0.029634 the 0.024699 more 0.023832 my 0.022584 time 0.018943 in 0.018062 and 0.014692 again Topic 17: young 0.107093 danc 0.060974 the 0.022725 kill 0.018697 cherri 0.018126 night 0.016975 lyric 0.015383 pop 0.015153 jag 0.013968 to 0.013483 no 0.013464 i 0.011929 som 0.010176 more 0.009995 kan

Last.fm in LDA Topic 3: stopwords 0.048826 the 0.037000 to 0.032441 and 0.020244 in 0.019731 it 0.019236 a 0.018974 way 0.016048 they 0.015976 no 0.014010 up 0.011777 have 0.011509 with 0.011457 them 0.011078 good Topic 9: french 0.031964 de 0.026116 la 0.023961 et 0.020578 le 0.019688 je 0.017437 pas 0.016745 a 0.016607 les 0.016585 que 0.014540 un 0.013672 tu 0.013404 qui 0.012692 ce 0.012599 e Topic 10: general 0.184127 i 0.074498 me 0.069192 you 0.050677 to 0.032629 my 0.022816 have 0.021597 know 0.021543 be 0.018998 and 0.016740 would 0.016288 for 0.016179 love 0.015297 want 0.015199 that

しかし LDAのGibbsサンプラーの 更 新 式 : 各 単 語 は1つのクラスタにしか 属 さない 本 当? 文 書 = 人 単 語 = 商 品 と 考 えてみる ( 協 調 フィルタリング) さまざまな 属 性 : 小 説 / 本 / 若 者 向 け/ 挿 絵 あり /ラテン 語 / 単 なるクラスタリングでは 表 現 できない!

Restricted Boltzmann Machines Deep Learning の 最 も 基 本 的 なモデル 出 力 層 v と0/1の 潜 在 層 h が 重 み W で 結 ばれた ニューラルネット Hinton (2002) 混 合 モデルではなく 積 モデル (Product of Experts)

Restricted Boltzmann Machines (2) LDAと 異 なり 意 味 を 分 散 表 現 できる 国 際 経 済 = 国 際 経 済 海 外 サッカー= 国 際 サッカー 自 然 言 語 処 理 = 数 学 言 語 学 しかし

RBMの 最 適 化 の 難 しさ LDAの 性 能 Replicated Softmax (Salakhut- dinov 2009) のNIPSコー パスでの 実 験 結 果 Better RBMには 学 習 率 ミニバッチサイズ モーメント CD iterations などの 多 数 のメタパラメータ ほとんどの 場 合 非 常 に 悪 い 性 能 しか 出 ない

何 が 問 題 か? RBMは 生 成 モデルがなく 0/1の 潜 在 変 数 と シグモイド 関 数 で 強 引 に 正 則 化 している RBM, LDAとも 語 彙 の 情 報 が 非 常 に 重 要 RBM: ニューラルネットの 重 み LDA: 単 語 のトピック 分 布 単 語 に 潜 在 座 標 を 明 示 的 に 与 えるモデル. 実 は 統 計 学 では Latent space models (Hoff 2002) として 知 られている ( 社 会 ネットワーク 解 析 )

CSTM: Continuous space topic models ( 持 橋 2013) 単 語 wはd 次 元 の 潜 在 座 標 をもつ この 上 に ガウス 過 程 を 生 成

Gaussian process とは ガウス 過 程 : への 回 帰 関 数 を 生 成 する 確 率 分 布 実 際 には 無 限 次 元 のガウス 分 布 1 次 元 の 場 合

Gaussian processとは (2) 2 次 元 の 場 合

Gaussian processとは (2) 2 次 元 の 場 合

Gaussian processとは (3) 2 次 元 の 場 合

CSTM: 最 初 のモデル 単 語 の 平 均 的 な 確 率 ( 最 尤 推 定 ) を ガウス 過 程 でモジュレート は 8000 倍 から0.0001 倍 くらいの 値

Empirical Evidence Brownコーパス Cranfield コーパス を 最 尤 推 定 で 計 算 してプロット 確 率 の 比 はほぼGaussianで 分 布 している!

Polya 分 布 による 拡 張 言 語 にはバースト 性 がある Polya (DCM) 分 布 Draw For n=1..n, Draw を 文 書 ごとに 下 で 生 成 Draw Set Draw

CSTMとLDAの 単 語 確 率 分 布 CSTM LDA CSTMは 全 単 語 Simplexを 網 羅 ( 和 が1の 制 約 がない)

学 習 ガウス 過 程 から 生 成 した 関 数 fは 文 書 ごとに 無 限 次 元 学 習 不 可 能 DILN (Paisley+ 2012)と 同 様 に 補 助 変 数 uを 導 入 単 語 座 標 の 行 列 を とする のとき はuを 積 分 消 去 して これは 線 形 カーネル を 使 ったGPと 等 価 なことを 意 味 する として と の 学 習 問 題!

学 習 (2) 通 常 のMH MCMCで 単 語 と 文 書 の 潜 在 座 標 を 学 習 For j = 1.. J, for i = randperm(1.. D), Draw u ~ N(u,σ 2 ) & MH-accept(u ); Update Z For w = randperm(1.. W), Draw φ (w) ~ N(φ(w),σ 2 ) & MH-accept(u ); Update Z 1..Z N z ~ N(0,σ 2 ); α 0 = α 0 exp(z) If MH-accept(α 0 ) then α 0 =α 0 実 際 は uとφ(w)の 更 新 をランダムに 混 合 単 語 間 に 強 い 相 関 があるため 勾 配 法 では 局 所 解

実 験 結 果 ( 予 測 パープレキシティ) CSTM RSM SDM LDA NIPS 1383.66 1290.74 1638.94 1648.3 KOS 1632.35 1396.61 1936.25 1730.7 毎 日 新 聞 466.83 622.69 582.37 507.39

CSTMの 次 元 選 択 毎 日 新 聞 データでの 性 能 と 潜 在 次 元 数 PPL 700 600 500 400 300 200 100 0 2 3 5 10 15 20 30 40 50 文 書 の 潜 在 次 元 が 連 続 なため 小 さい 値 で 高 性 能 次 元 選 択 を 行 う 簡 単 な 方 法 はない (Beta FA?)

毎日新聞テキスト (2000年度) 出現に偏りの大きい語ほど原点から遠くに位置する

潜 在 的 回 帰 モデル W η θ y(w) φ(w) テキストの 共 変 量 φ(w)と 内 容 単 語 y(w)を 直 接 リンク させるのは 難 しい 潜 在 層 θに 意 味 を 集 約 まずφ(w)からの 線 形 回 帰 +ノイズでθが 生 成 され θからさらに 内 容 単 語 たち y(w)が 確 率 的 に 生 成 される

Latent Linear topic model (lltm) 内 容 語 y(w) 機 械 ソニー 映 像 鮮 やか 1 0 2 1 0 0 0 0 0 0 0 0 0 1 0 exp() W 特 徴 ベクトルf θ Wf η(w) 共 変 量 の 特 徴 からの 回 帰 +ノイズで 観 測 された 語 y(w)が 生 成 される

Latent Linear topic model (2) f θ y W 確 率 で 表 すと p(y f) = p(y θ) p(θ f)dθ ( e η(w)t θ G 0 (w) Z w G 0 (w) は 単 語 wの デフォルト 確 率 で 最 尤 推 定 する η ) c(w) exp yの 中 に 単 語 wが 現 れた 頻 度 ( β2 (Wf θ)2 )

Latent Linear Topic Model (3) f θ y 学 習 はMCMC(θおよびη)+ベイズ 線 形 回 帰 (W) θ,ηは 普 通 のランダムウォークMH Wはθを 目 的 変 数 とした 回 帰 モデルのガウス 事 後 分 布 からサンプル p(y f) = p(y θ) p(θ f)dθ ( w W η e η(w)t θ G 0 (w) Z ) c(w) β も 確 率 変 数 exp ( β2 ) (Wf θ)2

Last.fmデータ Last.fmの 各 曲 についているタグ(Rock,80s,Electro pop, )を 入 力 の 特 徴 として 使 用 上 位 5,000 個 の 特 徴 5000 次 元 の 離 散 データ(タグ) 10000 次 元 の 離 散 データ( 歌 詞 )への 回 帰 問 題 MCMC 100 iterations, K=2,10

Last.fm regression タグ 特 徴 の 潜 在 層 への 回 帰 係 数 をプロット 図 示 のため K=2 次 元 に 圧 縮 して 学 習

Last.fm regression (2) 歌 詞 の 単 語 の 潜 在 座 標 φ(w) をプロット (K=2)

Last.fm 歌 詞 予 測 タグから 潜 在 的 回 帰 を 通 じて 歌 詞 を 予 測 普 通 より 確 率 の 高 くなる 語 の 上 位 語 タグ rock タグ love タグ female vocalists 2.096279 donc 2.069825 rum 2.298850 illumin 2.053631 mere 2.025971 dancin 2.189100 independ 2.008083 mississippi 2.024850 famous 2.185653 crawl 1.964316 toni 2.007292 anybodi 2.150131 comprehend 1.943512 modern 1.971674 cancer 2.131693 hustl 1.881520 brooklyn 1.937310 whoa 2.108225 carv 1.843006 losin 1.913502 wretch 2.101845 spite 1.838629 rewind 1.904969 glimps 2.099663 fade 1.828743 juli 1.904207 spell 2.096050 depress 1.825501 hug 1.880279 lane 2.090748 wrath 1.816417 sleepless 1.855865 kneel 2.085099 gypsi 1.761052 goodby 1.846672 dizzi 2.081990 shallow

まとめ ベイズ 統 計 の 手 法 を 用 いることで 言 語 と 同 様 に 記 号 を 用 いる 楽 曲 データが 解 析 できる 複 雑 な 階 層 モデル 音 響 信 号 だけからは 分 からない 知 識 音 響 と 言 語 をつなぐ 手 法 が 必 要 潜 在 的 回 帰 モデル 回 帰 モデルの 目 的 変 数 自 体 が 未 知 の 潜 在 変 数 パラメータのベイズ 事 後 分 布 からのサンプリング 歌 詞 のより 緻 密 なモデル 化 が 課 題

今 後 の 研 究 課 題 歌 詞 を 自 動 生 成 する 統 計 モデル n-gram ( -gram)だけでなく 文 法 に 基 づいた 生 成 楽 譜 情 報 からの 回 帰 ( 離 散 時 系 列 への 回 帰 問 題!) 音 響 信 号 の 教 師 なし 学 習 との 接 続

終 わり ご 清 聴 ありがとうございました