1 トピックモデルを 用 いた 歌 声 特 徴 量 の 分 析 中 野 倫 靖, 吉 井 和 佳, 後 藤 真 孝 ( 産 業 技 術 総 合 研 究 所 ) 2013 年 9 月 1 日 情 報 処 理 学 会 音 楽 情 報 科 学 研 究 会 第 100 回 記 念 シンポジウム
研 究 の 背 景
歌 の 特 性 を 定 量 的 に 説 明 (モデル 化 )したい 歌 手 毎 の 歌 い 方 の 違 いや 類 似 性 とは 何 か 例 ) 違 う 楽 曲 でも 同 じ 歌 手 なら 歌 い 方 が 似 ている 同 じ 楽 曲 でも 違 う 歌 手 だと 歌 い 方 が 違 う 歌 声 処 理 歌 い 方 モデル ( 定 量 的 な 説 明 ) 歌 い 方 の 違 い [ 鈴 木 他, 2011] [ 齋 藤, 榊 原, 2011] 他 人 の 歌 い 方 を 真 似 ると 音 高 (F0) 変 化 音 量 変 化 着 目 着 目 声 質 (スペクトル 包 絡 ) 音 韻 継 続 長 などが 変 化
次 元 楽 曲 を 定 量 的 に 説 明 する 一 つの 方 法 平 均 的 な 特 徴 ベクトルを 抽 出 周 波 数 重 心 の 平 均 や 分 散 MFCCの 平 均 等 例 ) 楽 曲 ジャンル 識 別 やムード 推 定 周 波 数 重 心 の 平 均 MFCCの1 次 の 係 数 の 平 均 楽 曲 時 間 特 徴 抽 出 時 間 ま と め る 特 徴 ベクトル 問 題 点 周 波 数 重 心 MFCCの1 次 の 係 数 時 系 列 特 徴 のまとめ 方 は 十 分 か? 例 ) 平 均? 分 散? 特 徴 量 ( 次 元 ) 間 の 関 係 が 使 われない 有 益 な 可 能 性 4
次 元 歌 声 をモデル 化 する 一 つの 方 法 歌 声 毎 に 特 徴 ベクトルからGMMを 学 習 周 波 数 重 心 やMFCC 等 の 特 徴 ベクトルをモデル 化 例 ) 歌 手 名 同 定 混 合 ガウス 分 布 (GMM) 歌 声 ( 伴 奏 付 ) 問 題 点 時 間 歌 声 特 徴 抽 出 得 られた 結 果 の 意 味 が 分 かりにくい 他 の 歌 声 を 考 慮 していない 周 波 数 重 心 時 間 ま と め る MFCCの1 次 の 係 数
提 案 :トピックモデルで 歌 声 を 説 明 する 複 数 の 歌 声 から 潜 在 意 味 (トピック)を 学 習 する 典 型 的 な 歌 声 各 歌 声 に 内 在 する 隠 れた 構 造 を 抽 出 できる トピック 分 布 ( 複 数 トピックにおける 割 合 )から 歌 声 間 の 類 似 度 も 算 出 できる 複 数 の 歌 声 の 音 響 特 徴 量 から それらの 潜 在 的 な 意 味 を 解 析 する 研 究 はなかった 潜 在 的 ディリクレ 配 分 法 を 利 用 Latent Dirichlet Allocation (LDA)
LDA 概 要 :トピックモデル= マルチトピック グループデータ に 対 する 混 合 モデル 文 書 の 場 合 各 文 書 はトピック 分 布 に 従 って 生 成 単 語 系 列 からトピック 分 布 単 語 分 布 潜 在 変 数 系 列 を 推 定 各 単 語 はあるトピックの 単 語 分 布 に 従 って 生 成 文 書 トピック 分 布 1 2 3 1 2 3 1 2 3 トピック トピック1 トピック2 トピック3 単 語 分 布 ABCDEFG 語 彙 ABCDEFG 語 彙 ABCDEFG 語 彙 各 トピックにおける 単 語 の 出 現 しやすさ 潜 在 変 数 (トピック) 観 測 データ ( 単 語 ) 各 トピックの 出 現 しやすさ 1?? 2? 2? 1? 3 A B C D E
歌 声 トピックモデル(LDA) 文 書 歌 声 特 徴 量 の 時 系 列 ( 楽 曲 フレーズ) 単 語 各 時 刻 の 特 徴 ベクトル ベクトル 量 子 化 (VQ)して 適 切 な 語 彙 数 にまとめる 特 徴 ベクトル の 系 列 ( 歌 声 ) トピック 分 布 1 2 3 1 2 3 1 2 3 トピック トピック1 トピック2 トピック3 特 徴 ベクトル の 分 布 ABCDEFG 語 彙 ABCDEFG 語 彙 ABCDEFG 語 彙 各 トピックにおける 特 徴 ベクトルの 出 現 しやすさ 各 トピックの 出 現 しやすさ 潜 在 変 数? 1? 2? 2? 1? 3 (トピック) 観 測 データ ( 特 徴 ベクトル) A B C D E
歌 声 トピックモデル(LDA) 文 書 歌 声 特 徴 量 の 時 系 列 ( 楽 曲 フレーズ) 単 語 各 時 刻 の 特 徴 ベクトル ベクトル 量 子 化 (VQ)して 適 切 な 語 彙 数 にまとめる 特 徴 ベクトル の 系 列 ( 歌 声 ) トピック 分 布 1 2 3 1 2 3 1 2 3 トピック トピック1 トピック2 トピック3 特 徴 ベクトル の 分 布 ABCDEFG 語 彙 ABCDEFG 語 彙 ABCDEFG 語 彙 各 トピックにおける 特 徴 ベクトルの 出 現 しやすさ 各 トピックの 出 現 しやすさ 潜 在 変 数? 1? 2? 2? 1? 3 (トピック) 観 測 データ ( 特 徴 ベクトル) A B C D E 歌 声 の 特 性 歌 声 間 類 似 度
歌 声 トピックモデル(LDA) 文 書 歌 声 特 徴 量 の 時 系 列 ( 楽 曲 フレーズ) 単 語 各 時 刻 の 特 徴 ベクトル ベクトル 量 子 化 (VQ)して 適 切 な 語 彙 数 にまとめる 特 徴 ベクトル の 系 列 ( 歌 声 ) トピック 分 布 1 2 3 1 2 3 1 2 3 トピック トピック1 トピック2 トピック3 特 徴 ベクトル の 分 布 ABCDEFG 語 彙 ABCDEFG 語 彙 ABCDEFG 語 彙 各 トピックにおける 特 徴 ベクトルの 出 現 しやすさ 各 トピックの 出 現 しやすさ 潜 在 変 数? 1? 2? 2? 1? 3 (トピック) 観 測 データ ( 特 徴 ベクトル) A B C D E 歌 声 の 特 性 歌 声 間 類 似 度
トピックID(K 個 ) トピック 分 布 の 意 味 を 可 視 化 する トピック 分 布 はトピック 数 K 歌 声 数 Dの 行 列 歌 声 の 特 性 トピックの 特 性 歌 声 ID(D 個 ) トピックを 代 表 するような 歌 声 比 率 の 強 さに 応 じて 歌 手 名 を 一 覧 表 示 する
トピックID(K 個 ) 歌 手 クラウドによるトピックの 意 味 の 可 視 化 比 率 の 強 さに 応 じた 歌 手 名 の 一 覧 表 示 タグクラウド 表 記 を 採 用 楽 曲 毎 にアーティスト 名 を 表 示 歌 声 ID(D 個 )
歌 の 特 性 を 定 量 的 に 説 明 (モデル 化 )したい トピックモデルの 導 入 による 解 決 問 題 1: 時 系 列 特 徴 をどうまとめるか 複 数 の 歌 声 を 用 いて 自 動 的 に 決 定 する 問 題 2: 特 徴 量 トピック 分 布 の 意 味 が 分 かりにくい 歌 手 名 を 活 用 して 可 視 化 する
拡 張 音 楽 情 報 検 索 の 可 能 性 を 拡 げる
検 索 対 象 を 拡 張 する 音 楽 情 報 検 索 従 来 の 音 楽 情 報 検 索 既 にあるもの から 近 いものを 検 索 検 索 対 象 を 変 形 して 探 索 空 間 を 拡 張 する 音 高 シフト:ボーカル 声 質 の 変 形 ( 周 波 数 軸 の 伸 縮 ) 性 別 を 超 えた 歌 声 情 報 検 索 よく 知 られた 事 例 一 青 窈 (もらい 泣 き)を3 半 音 下 げると 平 井 堅 に 似 ている を 自 動 的 に 推 定 する 敬 称 略 一 青 窈 (もらい 泣 き) 音 高 シフト:-3 半 音 テンポシフト: 時 間 変 化 に 影 響 ( 時 間 軸 の 伸 縮 )
実 験
実 験 の 目 的 トピック 分 布 (トピックの 混 合 比 )が 歌 声 の 類 似 性 評 価 に 活 用 できるか 調 査 歌 声 (Aさん) 別 の 曲 歌 声 (Aさん) 歌 声 (Bさん) トピック 分 布 1 2 3 1 2 3 1 2 3 こちらが 類 似 していると 判 断 できるか?
実 験 条 件 ( 対 象 楽 曲 ) 歌 声 を 含 む 音 楽 音 響 信 号 サンプリング 周 波 数 16kHz, 1ch 男 女 6 人 ずつ それぞれ3 曲 オリコンチャート 上 位 20 曲 から 選 曲 2000 年 ~2008 年 ボーカルが 一 人 である 楽 曲 36 曲 :12 人 3 曲 男 性 アーティスト (6 人 3 曲 ずつ) (M1) ASIAN KUNG-FU GENERATION (M2) BUMP OF CHICKEN (M3) 福 山 雅 治 (M4) GLAY (M) 氷 川 きよし (M6) 平 井 堅 女 性 アーティスト (6 人 3 曲 ずつ) (F1) aiko (F2) JUDY AND MARY (F3) 一 青 窈 (F4) 東 京 事 変 (F) 宇 多 田 ヒカル (F6) 矢 井 田 瞳
実 験 条 件 (LDA:モデル 化 ) 特 徴 ベクトル ΔF0, LPMCC( 線 形 予 測 メルケプストラム 係 数 ) F0:PreFEst( 混 合 音 中 で 最 も 優 勢 な 音 高 推 定 ) ボーカルらしさが 高 いフレームのみを 利 用 特 徴 ベクトルの 量 子 化 k-means 法 :クラスタ 数 100 LDAの 学 習 トピック 数 100 事 前 分 布 (ディリクレ 分 布 のハイパーパラメータ) α(トピック 混 合 比 ): 全 て1 β(クラスタのユニグラム 確 率 ): 全 て0.1とし 経 験 ベイズ 法 で 最 適 化
実 験 結 果 : 楽 曲 毎 のトピック 分 布 間 距 離 対 称 カルバック ライブラ 距 離 (KL2) F M 音 高 シフト テンポシフトなし(12 人 3 曲 ) 6 4 3 2 1 6 4 3 2 1 1 2 3 4 6 M 1 2 3 4 6 F 0.24 0.22 0.2 0.18 0.16 0.14 0.12 0.1 (M1) ASIAN KUNG-FU GENERATION (M2) BUMP OF CHICKEN (M3) 福 山 雅 治 (M4) GLAY (M) 氷 川 きよし (M6) 平 井 堅 (F1) aiko (F2) JUDY AND MARY (F3) 一 青 窈 (F4) 東 京 事 変 (F) 宇 多 田 ヒカル (F6) 矢 井 田 瞳 上 位 3 曲 を 赤 で 塗 りつぶした
実 験 2
実 験 条 件 : 性 別 を 超 えた 類 似 歌 声 検 索 歌 声 を 含 む 音 楽 音 響 信 号 サンプリング 周 波 数 16kHz, 1ch 男 女 6 人 ずつ それぞれ3 曲 オリコンチャート 上 位 20 曲 から 選 曲 2000 年 ~2008 年 ボーカルが 一 人 である 楽 曲 1764 曲 :12 人 3 曲 7 7 音 高 シフト:7バージョン -3 半 音 ~3 半 音 (1 半 音 毎 ) テンポシフト:7バージョン 0.7~1.3 倍 速 (0.1 倍 速 毎 ) 男 性 アーティスト (6 人 3 曲 ずつ) (M1) ASIAN KUNG-FU GENERATION (M2) BUMP OF CHICKEN (M3) 福 山 雅 治 (M4) GLAY (M) 氷 川 きよし (M6) 平 井 堅 女 性 アーティスト (6 人 3 曲 ずつ) (F1) aiko (F2) JUDY AND MARY (F3) 一 青 窈 (F4) 東 京 事 変 (F) 宇 多 田 ヒカル (F6) 矢 井 田 瞳
実 験 結 果 : 性 別 を 超 えた 類 似 歌 声 検 索 敬 称 略 F M 6 4 3 2 1 6 4 3 2 1 自 分 以 外 で 最 も 似 ているとされた 歌 手 の 数 ( 赤 茶 色 いほど 多 い) 1 2 3 4 6 1 2 3 4 6 4 40 3 30 2 20 1 10 0 男 性 アーティスト (6 人 3 曲 ずつ) (M1) ASIAN KUNG-FU GENERATION (M2) BUMP OF CHICKEN (M3) 福 山 雅 治 (M4) GLAY (M) 氷 川 きよし (M6) 平 井 堅 女 性 アーティスト (6 人 3 曲 ずつ) (F1) aiko (F2) JUDY AND MARY (F3) 一 青 窈 (F4) 東 京 事 変 (F) 宇 多 田 ヒカル (F6) 矢 井 田 瞳 M F
実 験 結 果 : 性 別 を 超 えた 類 似 歌 声 検 索 敬 称 略 F M 6 4 3 2 1 6 4 3 2 1 自 分 以 外 で 最 も 似 ているとされた 歌 手 の 数 ( 赤 茶 色 いほど 多 い) 1 2 3 4 6 1 2 3 4 6 4 40 3 30 2 20 1 10 0 男 性 アーティスト (6 人 3 曲 ずつ) (M1) ASIAN KUNG-FU GENERATION (M2) BUMP OF CHICKEN (M3) 福 山 雅 治 (M4) GLAY (M) 氷 川 きよし (M6) 平 井 堅 女 性 アーティスト (6 人 3 曲 ずつ) (F1) aiko (F2) JUDY AND MARY (F3) 一 青 窈 (F4) 東 京 事 変 (F) 宇 多 田 ヒカル (F6) 矢 井 田 瞳 M F
実 験 結 果 : 性 別 を 超 えた 類 似 歌 声 検 索 敬 称 略 F M 6 4 3 2 1 6 4 3 2 1 自 分 以 外 で 最 も 似 ているとされた 歌 手 の 数 ( 赤 茶 色 いほど 多 い) 1 2 3 4 6 1 2 3 4 6 4 40 3 30 2 20 1 10 0 男 性 アーティスト (6 人 3 曲 ずつ) (M1) ASIAN KUNG-FU GENERATION (M2) BUMP OF CHICKEN (M3) 福 山 雅 治 (M4) GLAY (M) 氷 川 きよし (M6) 平 井 堅 女 性 アーティスト (6 人 3 曲 ずつ) (F1) aiko (F2) JUDY AND MARY (F3) 一 青 窈 (F4) 東 京 事 変 (F) 宇 多 田 ヒカル (F6) 矢 井 田 瞳 M F
実 験 結 果 : 性 別 を 超 えた 類 似 歌 声 検 索 敬 称 略 F M 6 4 3 2 1 6 4 3 2 1 自 分 以 外 で 最 も 似 ているとされた 歌 手 の 数 ( 赤 茶 色 いほど 多 い) 1 2 3 4 6 1 2 3 4 6 4 40 3 30 2 20 1 10 0 男 性 アーティスト (6 人 3 曲 ずつ) (M1) ASIAN KUNG-FU GENERATION (M2) BUMP OF CHICKEN (M3) 福 山 雅 治 (M4) GLAY (M) 氷 川 きよし (M6) 平 井 堅 女 性 アーティスト (6 人 3 曲 ずつ) (F1) aiko (F2) JUDY AND MARY (F3) 一 青 窈 (F4) 東 京 事 変 (F) 宇 多 田 ヒカル (F6) 矢 井 田 瞳 M F
実 験 結 果 : 性 別 を 超 えた 類 似 歌 声 検 索 F M 6 4 3 2 1 6 4 3 2 1 自 分 以 外 で 最 も 似 ているとされた 歌 手 の 数 ( 赤 茶 色 いほど 多 い) 1 2 3 4 6 M 1 2 3 4 6 F 4 40 3 30 2 20 1 10 0 男 性 アーティスト (6 人 3 曲 ずつ) (M1) ASIAN KUNG-FU GENERATION (M2) BUMP OF CHICKEN (M3) 福 山 雅 治 (M4) GLAY (M) 氷 川 きよし (M6) 平 井 堅 一 青 窈 (もらい 泣 き) 平 井 堅 ( 瞳 をとじて) 敬 称 略 女 性 アーティスト (6 人 3 曲 ずつ) (F1) aiko (F2) JUDY AND MARY (F3) 一 青 窈 (F4) 東 京 事 変 (F) 宇 多 田 ヒカル (F6) 矢 井 田 瞳 この12 人 の 間 では 最 も 類 似 平 井 堅 ( 思 いがかさなるその 前 に ) 音 高 シフト+3, テンポシフト 1.1 一 青 窈 ( ただいま ) 音 高 シフト-3, テンポシフト 1.2
実 験 結 果 : 性 別 を 超 えた 類 似 歌 声 検 索 F M 6 4 3 2 1 6 4 3 2 1 自 分 以 外 で 最 も 似 ているとされた 歌 手 の 数 ( 赤 茶 色 いほど 多 い) 1 2 3 4 6 M 1 2 3 4 6 F 4 40 3 30 2 20 1 10 0 男 性 アーティスト (6 人 3 曲 ずつ) (M1) ASIAN KUNG-FU GENERATION (M2) BUMP OF CHICKEN (M3) 福 山 雅 治 (M4) GLAY (M) 氷 川 きよし (M6) 平 井 堅 一 青 窈 (もらい 泣 き) 平 井 堅 ( 瞳 をとじて) 敬 称 略 女 性 アーティスト (6 人 3 曲 ずつ) (F1) aiko (F2) JUDY AND MARY (F3) 一 青 窈 (F4) 東 京 事 変 (F) 宇 多 田 ヒカル (F6) 矢 井 田 瞳 この12 人 の 間 では 最 も 類 似 平 井 堅 ( 思 いがかさなるその 前 に ) 音 高 シフト+3, テンポシフト 1.1 一 青 窈 ( ただいま ) 音 高 シフト-3, テンポシフト 1.2
実 験 結 果 : 性 別 を 超 えた 類 似 歌 声 検 索 F M 6 4 3 2 1 6 4 3 2 1 自 分 以 外 で 最 も 似 ているとされた 歌 手 の 数 ( 赤 茶 色 いほど 多 い) 1 2 3 4 6 M 1 2 3 4 6 F 4 40 3 30 2 20 1 10 0 男 性 アーティスト (6 人 3 曲 ずつ) (M1) ASIAN KUNG-FU GENERATION (M2) BUMP OF CHICKEN (M3) 福 山 雅 治 (M4) GLAY (M) 氷 川 きよし (M6) 平 井 堅 敬 称 略 女 性 アーティスト (6 人 3 曲 ずつ) (F1) aiko (F2) JUDY AND MARY (F3) 一 青 窈 (F4) 東 京 事 変 (F) 宇 多 田 ヒカル (F6) 矢 井 田 瞳 一 青 窈 (もらい 泣 き)を 3 半 音 下 げると 平 井 堅 に 似 ている この12 人 の 間 では 最 も 類 似 を 自 動 推 定 できた 一 青 窈 (もらい 泣 き) 平 井 堅 ( 瞳 をとじて) 平 井 堅 ( 思 いがかさなるその 前 に ) 音 高 シフト+3, テンポシフト 1.1 一 青 窈 ( ただいま ) 音 高 シフト-3, テンポシフト 1.2
実 験 結 果 : 歌 手 クラウドによるトピック 可 視 化 0. 0.4 0.3 0.2 0.1 一 青 窈 (もらい 泣 き) 0 10 20 30 40 0 60 70 80 90 100 トピック 平 井 堅 一 青 窈 宇 多 田 ヒカル の 比 率 が 強 い トピック28の 歌 手 クラウド 楽 曲 毎 にアーティスト 名 を 表 示 0. 0.4 0.3 0.2 0.1 平 井 堅 ( 思 いがかさなるその 前 に ) 音 高 シフト+3, テンポシフト 1.1 0 10 20 30 40 0 60 70 80 90 100 トピック
実 験 結 果 : 歌 手 クラウドによるトピック 可 視 化 0. 0.4 0.3 0.2 0.1 一 青 窈 (もらい 泣 き) 比 較 的 平 均 的 な 特 性? 0 10 20 30 40 0 60 70 80 90 100 トピック トピック32の 歌 手 クラウド 楽 曲 毎 にアーティスト 名 を 表 示 0. 0.4 0.3 0.2 0.1 平 井 堅 ( 思 いがかさなるその 前 に ) 音 高 シフト+3, テンポシフト 1.1 0 10 20 30 40 0 60 70 80 90 100 トピック
実 験 結 果 : 歌 手 クラウドによるトピック 可 視 化 0. 0.4 0.3 0.2 0.1 0 一 青 窈 (もらい 泣 き) 平 井 堅 には ない 特 性? 一 青 窈 10 20 30 40 0 60 70 80 90 100 トピック JUDY AND MARY トピック23の 歌 手 クラウド 楽 曲 毎 にアーティスト 名 を 表 示 0. 0.4 0.3 0.2 0.1 平 井 堅 ( 思 いがかさなるその 前 に ) 音 高 シフト+3, テンポシフト 1.1 0 10 20 30 40 0 60 70 80 90 100 トピック
本 研 究 の 位 置 付 け: 歌 声 の 特 性 分 析 歌 手 の 特 性 性 別 ( 男 女 等 ) 声 種 (ソプラノやアルト 等 ) 歌 い 方 の 特 性 声 区 ( 裏 声 等 ) 音 高 (F0) 軌 跡 のモデル 化 楽 曲 の 特 性 楽 曲 ジャンルや 歌 詞 聴 取 印 象 感 情 印 象 評 価 語 本 研 究 の 範 囲 複 数 の 歌 声 から 個 々の 歌 声 の 特 性 を モデル 化 する
まとめ 歌 声 の 音 響 特 徴 量 をトピックモデルで 分 析 複 数 の 歌 声 から 分 かる 潜 在 的 な 特 性 を 分 析 歌 声 ( 伴 奏 付 ) トピック を 推 定 1 2 3 1 2 3 1 2 3 性 別 の 違 いを 超 えた 類 似 歌 手 検 索 の 提 案 一 青 窈 を3 半 音 下 げると 平 井 堅 を 実 証 歌 手 クラウドによるトピックの 可 視 化 を 提 案
追 加 実 験 アーティスト 数 を 増 やして 実 験 120 曲 オリコン2000 年 ~2008 年 で 上 位 20 曲 に 入 った 楽 曲 男 性 :9アーティスト 女 性 :61アーティスト 音 高 シフトのみ 類 似 事 例 access(edge) B z(juice) 音 高 シフト+1 一 青 窈 (もらい 泣 き) 森 山 直 太 朗 (さくら) 音 高 シフト+2 矢 井 田 瞳 (B'coz I love you) スピッツ(ホタル) 音 高 シフト+3 宇 多 田 ヒカル (Wait&See~リスク~) 音 高 シフト+1 mihimarugt (ツヨクツヨク)
追 加 実 験 アーティスト 数 を 増 やして 実 験 120 曲 オリコン2000 年 ~2008 年 で 上 位 20 曲 に 入 った 楽 曲 男 性 :9アーティスト 女 性 :61アーティスト 音 高 シフトのみ 類 似 事 例 access(edge) B z(juice) 音 高 シフト+1 一 青 窈 (もらい 泣 き) 森 山 直 太 朗 (さくら) 音 高 シフト+2 矢 井 田 瞳 (B'coz I love you) スピッツ(ホタル) 音 高 シフト+3 宇 多 田 ヒカル (Wait&See~リスク~) 音 高 シフト+1 mihimarugt (ツヨクツヨク)
まとめ 歌 声 の 音 響 特 徴 量 をトピックモデルで 分 析 複 数 の 歌 声 から 分 かる 潜 在 的 な 特 性 を 分 析 歌 声 ( 伴 奏 付 ) トピック を 推 定 1 2 3 1 2 3 1 2 3 性 別 の 違 いを 超 えた 類 似 歌 手 検 索 の 提 案 一 青 窈 を3 半 音 下 げると 平 井 堅 を 実 証 歌 手 クラウドによるトピックの 可 視 化 を 提 案