1,a) 1,b) 1,c) YouTube A method of generating indicative summary thumbnails of Nicovideo using image features and comments 1. *1 YouTube *2 2013 2 2000 *3 YouTube 2012 1 1 60 1 40 *4 YouTube YouTube YouTube 1 Graduate School of Natural Science and Technology Okayama University a) matsubara@de.cs.okayama-u.ac.jp b) niitsuma@suri.cs.okayama-u.ac.jp c) ohta@de.cs.okayama-u.ac.jp *1 http://www.nicovideo.jp/ *2 http://www.youtube.com *3 http://ja.wikipedia.org/wiki/ *4 http://youtubejpblog.blogspot.jp/2012/01/60-40.html 75 2 [1] 1 GIF c 2014 Information Processing Society of Japan 1
2 3 4 5 2. 2.1 [2] [3] [4] k laughcry [5] 6 5 1 3 3 2.2 30 [6] 3 2 3 30 15 [7] 15 [8] 4 10 3. 3.1 3.2 3.3 3.4 c 2014 Information Processing Society of Japan 2
3.1 t1 t2(t1 < t2) t3 1 1 1 [9][10] 1 RGB 3 RGB 0 255 RGB 1 3.2 3.1 1 1 1 1 scream [11] [12] 1 laugh cry greeting question scream w p gj otu otsu nosi? 3.2 1.net *5.net 20 Top100 10 10 100.net 5 laugh scream question crygreeting 5 1 c Score c Score c = e vpos=s Comment c (vpos) N c k s e vpos Comment c (vpos) vpos c N c c 1 60 *5 http://nicomment.batch-re-search.net c 2014 Information Processing Society of Japan 3
Comment(vpos) vpos 1 3.4 3.3 3.3 tfidf t i tfidf i 6 10 13 16 20 24 29 38 40 44 54 12 6 19 3 laugh 0 5 6 19 20 23 24 37 38 43 44 53 54 60 7 12 3.3 3.2 3 [5] [6] 3.2 3.2 5 vpos F rame vpos = Comment c(vpos) Comment(vpos) Comment c (vpos) c vpos c tfidf i = tf i log D df i 1 1 D 60 60 tf i t i df i t i 75 tfidf vpos Comment j Score j Score j = tfidf i tfidf i Comment j tfidf i L j Comment j Score j 4. 3 3 i L j c 2014 Information Processing Society of Japan 4
情報処理学会研究報告 くなるかについても実験した さらに 要約サムネイルを 被験者が評価した実験について説明する これらの実験に は ニコニコ動画の動画を収集して利用した また動画の コメントには 国立情報学研究所のダウンロードサービス 表 2 重要フレーム抽出実験に使用する動画のメタデータ タイトル ジャンル 再生時間 (s) コメント数 魔女の宅急便に登場 の かぼちゃとニシ 料理 413 4,0877 ンのパイを作ってみた により株式会社ドワンゴが提供する ニコニコ動画コメン ト等データ を利用した [13] 4.1 重要フレーム抽出に関する実験 3 節の方法で重要フレームを抽出して得られる要約サム ネイルと 各シーンでコメント数が最も多い場面を重要フ レームとする場合の要約サムネイルを比較した 表 2 に実 験で使用する動画 *6 のメタデータを示す またそれぞれ の方法で抽出した重要フレームの再生時刻を図 2 に示す 図 2 の横軸は動画の再生時刻であり 縦軸は各再生時刻に おけるコメント数である 各再生時刻中の黒の縦縞は画素 値の変化により検出したシーンの切り替わりであり その シーンの間の各色がシーンの分類クラスである 灰色の丸 印がコメント数最多の方法で得られるフレームの再生時刻 図 2 重要フレームの再生時刻 であり 青色の三角印が 3 節の方法で得られる重要フレー ムの再生時刻である 図 2 より この動画は 笑い で始 ヤクルト という飲料が映っており それに対してユーザ まり 次にユーザが 疑問 に思う場面があり 泣ける が疑問を感じているコメントが多く投稿されていた 図 4 場面があり また 疑問 に思うような場面があり 泣 の 2 フレーム目の右端に ヤクルト が映っており この ける 場面があり 叫ぶ ような場面があり 最後に 挨 シーンのユーザの反応の理由がわかる 拶 で終わることがわかる コメント数が最多の場面を重 図 3 の 10 フレーム目も 2 フレーム目と同様に シーン 要フレームとする場合の要約サムネイルを図 3 に示す ま の切り替わり上のフレームであるため 画像がわかりにく た 3 節で説明した提案手法によって生成される要約サムネ い このシーンは動画の締めくくりの場面であり シーン イルを図 4 に示す 図 3 4 ともに要約サムネイル中のフ の分類は greeting である 多くのユーザがネット用語 レームを再生時刻順に並べている 左上が最も再生開始時 で さよなら や またね という意味で使われる ノシ 刻に近く 右下が終了時刻に近いフレームなっている 各 というコメントを投稿しており 図 4 の 10 フレーム目で フレームの左上の番号は説明のためで 実際に生成する要 はシーンとコメントの同期が取れている このことから 約サムネイルにはない 提案手法は そのシーンの特徴をとらえることができてい これら二つのサムネイルで大きく異なるフレームは 1 るといえる しかし 図 4 の 5 7 フレーム目はシーンの 2 10 フレーム目である 図 3 の 1 フレーム目は料理の材 切り替わり上ではないが 少しわかりにくい画像を選択し 料を示しており 図 4 の 1 フレーム目は料理名とその料理 ている のイメージ図を示している 材料は字が細かく一見しただ 図 3 の 10 フレーム目は完成した料理のシーンから動画 けでは 理解が難しい そのため最初のフレームとしては の締めくくりに移り変わる場面であるが これに関連付け 図 4 の方が良いといえる 2 フレーム目は かぼちゃを調 られているコメントは完成した料理に対するコメントであ 理している場面から調理の説明に切り替わる場面と かぼ る このコメントは一つ前の 9 フレーム目に関連付けられ ちゃを調理する場面である 図 2 を見ると 図 3 の 2 フ ている方が望ましい ユーザは動画を見てからコメントを レーム目は画素値により検出したシーンの切り替わりに 書き込むため 映像に対して少し遅れてコメントが投稿さ あたる そのためこれを見ただけでは どのような映像で れることがこの原因である そのため得られたフレームの あるか判断が難しい このようにシーンの切り替わり上に 少し後のコメントを関連付けるなどの工夫が必要である あるフレームは 画像が見づらい可能性があるため 抽出 また図 3 の 3 7 フレーム目に関連付けられたコメントに しないなどの処理が必要である またこのフレームを含む は ニコニコ動画のコメントにおいて特徴的な や シーンは question に分類されている 実際にこのシー などの 矢印 が含まれている この 矢印 を含むコメ ンの映像とコメントを見ると 映像に調理とは関係のない ントは他のユーザが投稿したコメントに対するコメントで あり 動画に対するコメントでないことが多い 実際に図 *6 http://www.nicovideo.jp/watch/sm3190026 c 2014 Information Processing Society of Japan 3 の 3 7 フレーム目に関連付けられたコメントは これら 5
情報処理学会研究報告 図 4 図 3 提案手法で生成される要約 (有) サムネイルの例 コメント数最多のフレームを選択した要約サムネイルの例 義する のフレーム画像とは直接は関係のないコメントである フ レームと関連付けるコメントも シーンの分類結果を用い 削減率 = てそのフレームと関連のあるものとすべきと考える 要約有サムネイルのフレーム数 100(%) 要約無サムネイルのフレーム数 そうすると表 2 の動画の削減率は約 59% である 4.2 要約サムネイルに関する実験 生成した指示的要約サムネイルが動画をどの程度要約で 要約されたフレームを具体的に考察する 要約有サムネ イルはすでに図 4 に示した 同じ動画の要約無サムネイル きているかを調べた これを確認するために 下記の二つ を図 6 に示す まず図 4 と図 6 の大きな違いは 図 4 の 2 の方法で要約サムネイルを生成した 一つ目は 3.2 節で フレーム目と図 6 の 3 4 5 フレーム目に見られる これ 説明した提案手法で生成したサムネイルである これを要 らのフレームを含むシーンでは かぼちゃを調理している 約有サムネイルと呼ぶ 二つ目は 3.2 節で説明した方法 図 6 では かぼちゃを調理するフレームが 3 フレームある でシーンを分類するが 隣り合う同じクラスのシーンを 1 が 図 4 ではこれを 1 フレームに要約している 次に 図 シーンにまとめずに 画素値により検出した各シーンから 4 の 3 フレーム目と図 6 の 7 8 フレーム目を比較してみ 重要フレームを抽出する方法で生成したサムネイルであ る これらのフレームはたまねぎを調理しているシーンで る これを要約無サムネイルと呼ぶ 図 5 に 要約有と無 ある 先程と同様に 図 6 ではたまねぎの調理場面が 2 フ のサムネイルの各フレームの再生時刻と 各シーンの分類 レームであるが 図 4 では 1 フレームに要約している し 結果を示す 図 5 で 灰色の丸印が要約無サムネイルのフ かし料理の手順は図 6 の 3 フレーム目や 6 フレーム目を見 レームの再生時刻であり 青色の三角印が要約有サムネイ ると良く分かる 本研究では 汎用的な動画要約を目指し ルのフレームの再生時刻となっている 得られるフレーム たが 例えばこのような料理動画では その要約映像を見 数は 要約有サムネイルが 10 要約無サムネイルが 17 であ るだけで料理手順を確認できれば有用と考えられる この るため これらには 7 フレームの差がある ここで 要約 ような動画のジャンルに対応した動画要約は今後の課題と 有サムネイルが要約無サムネイルに対してどれだけフレー したい ム数を削減したか確認するため 削減率を以下のように定 c 2014 Information Processing Society of Japan その他の動画に対しても実験を行い削減率を確認した 6
情報処理学会研究報告 図 5 要約有と無のサムネイルで抽出するフレームの再生時刻 実験に使用した動画 *7 *8 *9 とその削減率を表 3 にまとめ る 表 3 でジャンルが 料理 の動画は 表 2 の動画のこ とである また 無 は要約無サムネイルのフレーム数 有 は要約有サムネイルのフレーム数である いずれの 動画も 要約有サムネイルの方が要約無サムネイルよりフ レーム数は少ないが その削減率には幅がある また 各 動画の全フレームの平均画素値の標準偏差を計算すると表 4 のようになった それぞれの動画を視聴すると ジャン ル 動物 の動画は 映像にほとんど動きや変化がなかっ た つまりこの動画は 平均画素値の時系列の標準偏差が 相対的に小さく 実際に映像の変化も少ない しかし本研 究ではコメントを利用することで 映像にほとんど変化が なくてもシーンの切り替わりを検出でき シーン数の削 減が可能である またジャンル スポーツ の動画は 再 生時間はジャンル 料理 の動画より短いが フレーム数 は数倍多い さらに平均画素値の標準偏差は 料理 の動 画より小さく 映像の変化が少ないことがわかる 実際に スポーツ の動画を視聴すると この動画はサッカーの試 合に関するもので 主に選手やサッカーグラウンドが画面 に現れた 登場物の変化が少ないために標準偏差が小さく なっている しかしゴールシーンなどでのエフェクトや 選手やグラウンドだけでなく観客などに切り替わる場面が あるため これらのシーンで切り替わりが検出されやすく 図 6 要約無サムネイルの例 なり フレーム数が多くなっている 4.3 被験者実験 動画 表 3 削減率を求めた動画のメタデータ 再生時間 フレーム数 ジャンル s 無 有 削減率 本研究で生成した要約サムネイルは ユーザが動画を選 ニシンのパイ 料理 413 17 10 59% 別する際に利用することを想定している そのため ユー W 杯日本代表 スポーツ 373 50 39 78% 183 12 6 50% 55 6 4 67% ザが要約サムネイルを見て予想されるその動画に対する期 *7 *8 *9 実況 デンマーク戦全ゴール FIFA ワールドカップ 日本代表 ハイライト http://www.nicovideo.jp/watch/sm11177576 勝手に入るゴミ箱作った http://www.nicovideo.jp/watch/ sm18391671 怒っていた猫が急に話しかけて来たけど ネコ語だからわからな い http://www.nicovideo.jp/watch/sm11126185 c 2014 Information Processing Society of Japan 動くゴミ箱 怒る猫 ニコニコ 技術部 動物 待値と実際の動画の評価値は一致することが望ましい 被 験者に要約サムネイルと動画を評価させ 要約サムネイル 7
4 41.2 10.5 55.4 3.3 5 9 10 5 5 7 GIF GIF 5 5 T V 0 2 User g 2 8 4 3 2 User User g User g User g 2 User g 2 User T V 2 Root Mean Squered Error RMSE = 1 N (T i V i ) N 2 i=1 6 User User g T V 7 5 User a b c d e T V T V T V T V T V 1 3 4 4 4 4 4 4 3 3 2 2 3 4 4 5 3 3 5 5 3 3 3 4 5 3 2 5 5 3 3 3 2 4 5 3 4 3 5 4 4 3 4 4 5 4 5 4 4 4 5 4 5 3 2 6 5 4 4 4 4 5 5 5 5 5 7 4 4 4 4 5 5 5 5 3 3 8 3 5 5 4 4 5 3 4 4 5 9 4 4 4 3 4 5 4 4 3 4 10 2 3 3 3 5 5 4 3 3 3 User f g h i T V T V T V T V 1 3 4 3 5 3 2 3 4 2 5 5 1 5 5 5 4 5 3 5 3 4 5 4 3 4 4 4 5 4 2 4 5 4 5 5 5 4 5 5 5 5 5 5 4 6 4 4 2 5 5 5 4 5 7 4 3 5 5 4 5 5 4 8 3 5 1 4 3 5 2 3 9 3 4 4 5 5 5 4 5 10 2 2 3 5 4 3 5 4 2 User g 2 1 User 7 7 33 2 11 11 9 9 6 User g 4.4 c 2014 Information Processing Society of Japan 8
6 T V 2 T V RMSE User 3.843 4.129 1.121 User g 3.938 4.001 0.929 7 5 4 3 2 1 5 15 16 5 1 1 38 4 8 11 7 1 1 28 3 2 8 6 2 0 18 2 0 0 5 1 0 6 1 0 0 0 0 0 0 25 35 23 5 2 90 [6] [7] 15 30 [6] 5. 22% 50% 5.net 20 [1] Vol.45 No.6 pp.574-579 2004 [2] 6 DEIM Forum 2014 F4-2 2014 [3] Vol.47 No.02 pp.627-637 2006 [4] Vol.52 No.12 pp.3271-3482 2011 [5] CGM D-12-5 2009 [6] 2008-HCI- 128/2008-MUS-75 Vol.2008 No.50 pp.37-42 2008 [7] Vol.6 No.3 pp.148-158 2013 [8] ( 5 ) SIG-AM-05-05 [9] PRMU2002-22 pp.15-20 2002 [10] Vol.2004 No.3 pp.33-40 2004 [11] 11: 5 DEIM Forum 2013 A4-4 2014 [12] 6 DEIM Forum 2014 F4-3 2014 [13] (NII) http://www.nii.ac.jp/cscenter/idr/nico/nico.html c 2014 Information Processing Society of Japan 9