DEIM Forum 2012 B5-1 テレビ番組からの位置情報付き旅行映像データベースの自動構築 向井 康貴 柳井 啓司 電気通信大学 電気通信学部 情報工学科 182 8585 東京都調布市調布ヶ丘 1-5-1 E-mail: mukai-y@mmcsuecacjp, yanai@csuecacjp あらまし 本研究では 録画したテレビ番組の内容に関連した場所を推定し 地図上に配置することにより録画した 番組を検索可能とするシステムを提案する 具体的には 主に旅行番組を対象として 録画したテレビ番組の字幕か ら地名を抽出し 地名の出現時間を解析し その番組で紹介している場所を推定し 地図上に配置することにより位 置と対応付いた旅行映像をデータベース化する なお 単一の番組で複数の場所を扱っている場合は 場所毎に番組 を分割する これにより 例えば 神戸に旅行に行きたい場合に 過去に放送された旅行番組で神戸周辺を扱ってい るシーンを簡単に検索することが可能となる キーワード テレビ番組 位置情報 映像データベース Yasuki MUKAI and Keiji YANAI Department of Information, The University of Electro-Communications 1-5-1 Chofugaoka, Chofu, Tokyo 182 8585 Japan E-mail: mukai-y@mmcsuecacjp, yanai@csuecacjp 1 は じ め に 1 1 背 景 きれない 本研究では 番組の内容に応じた数の地名を利用し て 幅広い番組に対応できることを目指す また 宮部のシス テムでは番組全体を 1 カ所にマッピングしていたが これでは 2011 年 7 月 24 日には東日本大震災の影響を受けた東北 3 県 番組のどのあたりで 該当の場所を紹介しているのか探す必要 を除く地域でアナログ放送が終了した このことにより 日本 があった 本システムでは 番組を紹介場所毎に分割すること は本格的にデジタル放送の時代になっている 世界各国でもデ により この問題を解決する ジタル放送への移行が進んでいる デジタル放送の特徴として システムのインターフェースとしては 図 1 のように字幕よ は 高画質 高音質である等の他に 番組情報 字幕情報など り得られた地名を位置情報に変換し地図上に配置する これに のメタデータを取り入れていることがある さらに HDD の より ユーザはローカルな地名を知らなくても地図上より視覚 大容量化 低価格化により メタデータ付き動画の大量録画が 的に目的の場所を紹介している番組を探し出すことができる 容易なものとなってきている テレビ放送の多チャンネル化により 毎日多くの旅行番組が 放送されている しかし 見ることのできる番組はそのうちの ごくわずかである また 旅行番組を録画しておいたとしても 実際に旅行に行こうと思う場所を紹介している番組を見つける ことは容易ではない 1 2 目 的 本研究では 字幕情報付きの旅行番組を大量に録画し その 字幕を利用して 紹介場所毎に番組の分割 地図上への配置を 図1 字幕より得られた地名をマッピング 行うことにより 目的の番組を探し出せるシステムを提案する 本研究は宮部 [1] の地図と対応付けられた旅行番組データベー 2 関 連 研 究 スの構築を発展させる形で進めていく 宮部の研究は 字幕よ り地名を抽出して 出現回数の多かったもの 3 つだけを利用し ていた これでは最大で 3 カ所を紹介している番組しか対応し 本研究ではテレビ番組の位置情報推定を行うので テレビ番 組と位置情報推定の 2 つの観点から関連研究を紹介する
2 1 Liang [2] Liang Zhai [3] Zhai [4] MPEG 1 [5] [6] Goromi-TV Goromi-TV [1] 3 3 2 2 Kelm [7] Kelm Wikipedia GeoNames Crandall [8] Quack [9] Quack Quack Wikipedia Ulges [10] YouTube 3 2 1 2 3 4 5 6 7 2 4 4 1 1685Mbps 1440x1080i 16:9 BS 24Mbps 1920x1080i MPEG-2 TS TS
4 1 1 MPEG-2 TS MPEG-2 TS ISO/IEC 13818-1 ITU-T H2200 MPEG-2 1 MPEG-2 TS /BS MPEG-2 TS Packetized Elementary Stream, PES 188 Transport Stream, TS PID PID TS PES 4 2 Caption2Ass 1 Caption2Ass ASS SRT ASS ASS SRT SRT 280 00:19:34,069 --> 00:19:37,669 281 00:21:21,409 --> 00:21:24,078 282 00:21:24,078 --> 00:21:28,750 4 3 MPEG-2 TS 654kbps 96kbps 640x360 Flash Video FLV FFmpeg Flash Video 1 66GB 1 BS 96GB 1http://2sendipjp/dtv/ 330MB Flash Video route 4 3 1 Flash Video Flash Video Flash Player YouTube 4 4 ChaSen 2 --- 2 --- -- - - - 2 2 - -- - 4 5 Google Geocoding API Google Geocoding API 3 Google Geocoding API 1 country 1 Google Geocoding API administrative area level 1 locality 2http://chasen-legacysourceforgejp/ 3http://codegooglecom/intl/ja/apis/maps/documentation /geocoding/
1 4, ( ) 377607226 1404733561, ( ) 354179377 1394887222, ( ) 357187670 1394195590, ( ) 383263751 1408816288, ( ) 377785370 1404456250, ( ) 369554850 1408541450, ( ) 356386920 1397400200, ( ) 332053910 1297270030 4 2 5, ( ) 377785370 1404456250 4 6 3 5 6 6 3 4 7 FFmpeg [11]
4 7 1 カラーヒストグラム カラーヒストグラムは 画像の各ピクセルの色情報を調べ 出現頻度をヒストグラムで表現したものである 色を定量的に 表現するための体型はいくつかあり RGB 色空間 HSV 色空 間 Lu v 色空間などがある 本研究では色ピクセルを Red Green Blue の 3 チャンネルの濃度で表す RGB 色空間を利用 する 各チャンネルは通常 256 段階で表現されるが 今回は各 チャンネルを 4 分割した 64 次元の RGB カラーヒストグラム を利用する また 各ヒストグラムの要素の合計が 1 になるよ うに正規化を行う 4 7 2 ヒストグラムインターセクション ヒストグラムインターセクションとは それぞれのヒストグ ラムの同じビンを比較し 小さいものを集めていき最後に和を 求めたものである ヒストグラム h1 と h2 のヒストグラムイン 図 8 ブラウザからアクセスできる ターセクションを求める式は S= N X min(h1i, h2i ) (1) i=1 となる この値は正規化している場合 0 から 1 の値をとる 似 ている画像であれば この値が 1 に近くなる Google Map を利用しているため 地図の拡大縮小 移動も 自由に行え 地図上のマーカーをクリックすることにより 対 応する場所の番組を見ることができる 図 9 また 動画が小 さいと感じたらフルスクリーン表示に切り替えることもできる テレビ映像ではカメラの切り替わりや CM との境界でヒスト グラムインターセクションが低くなる 本研究では 各フレー ム間の Red Green Blue のそれぞれについて ヒストグラム インターセクションを計算して 1 つでも 06 を下回ったとき をシーンの境界と判断する 4 8 番組の地図上への配置 Google Maps API 注 4 を使用して 動画と位置情報を対応付 けて Google Map 上に配置する 図 7 のように地図上に配置す ることにより 視覚的に目的の場所の番組を探し出せる 図9 6 実 マーカーをクリックして動画を再生 験 実験として 字幕情報付き旅行番組を録画し その中から 10 本を選び 動画の分割 位置情報推定の実験を行った 6 1 データセット 今回 実験に使用した番組は表 2 の 10 本である また 各 図 7 Google Map 上に配置 番組の詳細として 放送日 番組の長さ 実際に紹介している 都道府県を示したのが表 3 である 5 システムの動作例 6 2 実験の設定 市区町村ベースの分割については 2 回以上連続して出現し システムはウェブブラウザを使用してインターネット上から アクセスすることができる 図 8 注 4 http://codegooglecom/intl/ja/apis/maps/documentation /javascript/ ている地名を用いて実験を行った また 市区町村ベースで分 割を行っているが 都道府県レベルでの評価も行った 都道府 県ベースの分割については 市区町村名を全く利用しないで 5 回以上連続して出現している都道府県名を用いて実験を行った
2 A B C D E F G H I J 3 A 2010 12 10 2 B 2011 1 5 2 48 C 2011 1 8 3 18 D 2011 1 30 1 15 E 2011 9 28 2 48 F 2011 11 11 55 G 2011 11 23 2 46 H 2011 11 25 55 I 2011 11 29 55 J 2011 12 12 55 3 5 6 4 A 12 7(2) 13 0583(0750) 0538(0692) B 11 3(1) 13 0273(0364) 0230(0308) C 38 23(6) 38 0605(0763) 0605(0763) D 7 2 6 0286 0333 E 13 6(2) 15 0462(0615) 0400(0533) F 3 2 4 0667 0500 G 9 3(1) 14 0333(0444) 0214(0286) H 3 1(1) 3 0333(0667) 0333(0667) I 9 1(1) 2 0111(0222) 0500(1000) J 4 3 3 0750 1000 109 51(14) 111 0468(0596) 0460(0586) 5 A 6 5(1) 7 0833(1000) 0714(0857) B 5 2(2) 5 0400(0800) 0400(0800) C 17 13(2) 16 0765(0882) 0813(0938) D 4 2 3 0500 0667 E 6 2(2) 4 0333(0667) 0500(1000) F 2 1(1) 2 0500(1000) 0500(1000) G 6 2(1) 3 0333(0500) 0667(1000) H 3 1(1) 2 0333(0667) 0500(1000) I 9 1(1) 2 0111(0222) 0500(1000) J 3 2 2 0667 1000 61 31(11) 46 0508(0689) 0674(0913) 6 3 precisionrecall A B C = C = C (2) B A 3 10 13 19 54 5% 30 1 6 4 4 6 A 8 4(3) 7 0500(0875) 0571(1000) B 7 4(1) 5 0571(0714) 0800(1000) C 17 13(2) 16 0765(0882) 0813(0938) D 3 3 3 1000 1000 E 5 4 4 0800 1000 F 2 1(1) 2 0500(1000) 0500(1000) G 4 3 3 0750 1000 H 2 1(1) 2 0500(1000) 0500(1000) I 6 1(1) 2 0167(0333) 0500(1000) J 2 1(1) 2 0500(1000) 0500(1000) 56 35(10) 46 0625(0804) 0761(0978) 468% 460% 625% 761%
7 4 5 J J J 1 2 1 I 3 D D A C 2 1 1 1 8 8 1 Google Map 5% 468% 460% 625% 761% 8 2 Google Geocoding [1], 2011 [2] C Liang, C Xu, J Cheng, and H Lu Tvparser: An automatic tv video parsing method In Proc of IEEE Computer Vision and Pattern Recognition, pp 3377 3384, 2011 [3] Y Zhai, A Yilmaz, and M Shah Story Segmentation in News Videos Using Visual and Text Cues In Proc of ACM International Conference on Image and Video Retrieval, 2005 [4] N Katayama, H Mo, I Ide, and S Satoh Mining largescale broadcast video archives towards inter-video structuring Proc of PacificRim Conference on Multimedia, pp 489 496, 2004 [5], 2009 [6] Goromi-TV WISS2006, pp 47 52, 2006 [7] P Kelm, S Schmiedeke, and T Sikora Multi-modal, Multiresource Methods for Placing Flickr Videos on the Map In Proc of ACM International Conference on Multimedia Retrieval, 2011 [8] DJ Crandall, L Backstrom, D Huttenlocher, and J Kleinberg Mapping the world s photos In Proceedings of the 18th international conference on World wide web, pp 761 770 ACM, 2009 [9] T Quack, B Leibe, and L V Gool World-scale Mining of Objects and Events from Community Photo Collections In Proc of ACM International Conference on Image and Video Retrieval, pp 47 56, 2008 [10] A Ulges, C Schulze, D Keysers, and T M Breuel A System That Learns to Tag Videos by Watching Youtube In Proc of International Conference on Vision Systems, pp 415 424, 2008 [11] MJ Swain and DH Ballard Color indexing International Journal of Computer Vision, Vol 7, No 1, pp 11 32, 1991