2 1 Liang [2] Liang Zhai [3] Zhai [4] MPEG 1 [5] [6] Goromi-TV Goromi-TV [1] Kelm [7] Kelm Wikipedia GeoNames Crandall [8] Quack [9] Quack Qua

DEIM Forum 2012 B5-1 テレビ番組からの位置情報付き旅行映像データベースの自動構築向井康貴柳井啓司電気通信大学電気通信学部情報工学科 182 8585 東京都調布市調布ヶ丘 1-5-1 E-mail: mukai-y@mmcsuecacjp, yanai@csuecacjp あらまし本研究では録画したテレビ番組の内容に関連した場所を推定し地図上に配置することにより録画した番組を検索可能とするシステムを提案する具体的には主に旅行番組を対象として録画したテレビ番組の字幕から地名を抽出し地名の出現時間を解析しその番組で紹介している場所を推定し地図上に配置することにより位置と対応付いた旅行映像をデータベース化するなお単一の番組で複数の場所を扱っている場合は場所毎に番組を分割するこれにより例えば神戸に旅行に行きたい場合に過去に放送された旅行番組で神戸周辺を扱っているシーンを簡単に検索することが可能となるキーワードテレビ番組位置情報映像データベース Yasuki MUKAI and Keiji YANAI Department of Information, The University of Electro-Communications 1-5-1 Chofugaoka, Chofu, Tokyo 182 8585 Japan E-mail: mukai-y@mmcsuecacjp, yanai@csuecacjp 1 はじめに 1 1 背景きれない本研究では番組の内容に応じた数の地名を利用して幅広い番組に対応できることを目指すまた宮部のシステムでは番組全体を 1 カ所にマッピングしていたがこれでは 2011 年 7 月 24 日には東日本大震災の影響を受けた東北 3 県番組のどのあたりで該当の場所を紹介しているのか探す必要を除く地域でアナログ放送が終了したこのことにより日本があった本システムでは番組を紹介場所毎に分割することは本格的にデジタル放送の時代になっている世界各国でもデによりこの問題を解決するジタル放送への移行が進んでいるデジタル放送の特徴としてシステムのインターフェースとしては図 1 のように字幕よは高画質高音質である等の他に番組情報字幕情報などり得られた地名を位置情報に変換し地図上に配置するこれにのメタデータを取り入れていることがあるさらに HDD のよりユーザはローカルな地名を知らなくても地図上より視覚大容量化低価格化によりメタデータ付き動画の大量録画が的に目的の場所を紹介している番組を探し出すことができる容易なものとなってきているテレビ放送の多チャンネル化により毎日多くの旅行番組が放送されているしかし見ることのできる番組はそのうちのごくわずかであるまた旅行番組を録画しておいたとしても実際に旅行に行こうと思う場所を紹介している番組を見つけることは容易ではない 1 2 目的本研究では字幕情報付きの旅行番組を大量に録画しその字幕を利用して紹介場所毎に番組の分割地図上への配置を図1 字幕より得られた地名をマッピング行うことにより目的の番組を探し出せるシステムを提案する本研究は宮部 [1] の地図と対応付けられた旅行番組データベー 2 関連研究スの構築を発展させる形で進めていく宮部の研究は字幕より地名を抽出して出現回数の多かったもの 3 つだけを利用していたこれでは最大で 3 カ所を紹介している番組しか対応し本研究ではテレビ番組の位置情報推定を行うのでテレビ番組と位置情報推定の 2 つの観点から関連研究を紹介する

2 1 Liang [2] Liang Zhai [3] Zhai [4] MPEG 1 [5] [6] Goromi-TV Goromi-TV [1] 3 3 2 2 Kelm [7] Kelm Wikipedia GeoNames Crandall [8] Quack [9] Quack Quack Wikipedia Ulges [10] YouTube 3 2 1 2 3 4 5 6 7 2 4 4 1 1685Mbps 1440x1080i 16:9 BS 24Mbps 1920x1080i MPEG-2 TS TS

4 1 1 MPEG-2 TS MPEG-2 TS ISO/IEC 13818-1 ITU-T H2200 MPEG-2 1 MPEG-2 TS /BS MPEG-2 TS Packetized Elementary Stream, PES 188 Transport Stream, TS PID PID TS PES 4 2 Caption2Ass 1 Caption2Ass ASS SRT ASS ASS SRT SRT 280 00:19:34,069 --> 00:19:37,669 281 00:21:21,409 --> 00:21:24,078 282 00:21:24,078 --> 00:21:28,750 4 3 MPEG-2 TS 654kbps 96kbps 640x360 Flash Video FLV FFmpeg Flash Video 1 66GB 1 BS 96GB 1http://2sendipjp/dtv/ 330MB Flash Video route 4 3 1 Flash Video Flash Video Flash Player YouTube 4 4 ChaSen 2 --- 2 --- -- - - - 2 2 - -- - 4 5 Google Geocoding API Google Geocoding API 3 Google Geocoding API 1 country 1 Google Geocoding API administrative area level 1 locality 2http://chasen-legacysourceforgejp/ 3http://codegooglecom/intl/ja/apis/maps/documentation /geocoding/

1 4, ( ) 377607226 1404733561, ( ) 354179377 1394887222, ( ) 357187670 1394195590, ( ) 383263751 1408816288, ( ) 377785370 1404456250, ( ) 369554850 1408541450, ( ) 356386920 1397400200, ( ) 332053910 1297270030 4 2 5, ( ) 377785370 1404456250 4 6 3 5 6 6 3 4 7 FFmpeg [11]

4 7 1 カラーヒストグラムカラーヒストグラムは画像の各ピクセルの色情報を調べ出現頻度をヒストグラムで表現したものである色を定量的に表現するための体型はいくつかあり RGB 色空間 HSV 色空間 Lu v 色空間などがある本研究では色ピクセルを Red Green Blue の 3 チャンネルの濃度で表す RGB 色空間を利用する各チャンネルは通常 256 段階で表現されるが今回は各チャンネルを 4 分割した 64 次元の RGB カラーヒストグラムを利用するまた各ヒストグラムの要素の合計が 1 になるように正規化を行う 4 7 2 ヒストグラムインターセクションヒストグラムインターセクションとはそれぞれのヒストグラムの同じビンを比較し小さいものを集めていき最後に和を求めたものであるヒストグラム h1 と h2 のヒストグラムイン図 8 ブラウザからアクセスできるターセクションを求める式は S= N X min(h1i, h2i ) (1) i=1 となるこの値は正規化している場合 0 から 1 の値をとる似ている画像であればこの値が 1 に近くなる Google Map を利用しているため地図の拡大縮小移動も自由に行え地図上のマーカーをクリックすることにより対応する場所の番組を見ることができる図 9 また動画が小さいと感じたらフルスクリーン表示に切り替えることもできるテレビ映像ではカメラの切り替わりや CM との境界でヒストグラムインターセクションが低くなる本研究では各フレーム間の Red Green Blue のそれぞれについてヒストグラムインターセクションを計算して 1 つでも 06 を下回ったときをシーンの境界と判断する 4 8 番組の地図上への配置 Google Maps API 注 4 を使用して動画と位置情報を対応付けて Google Map 上に配置する図 7 のように地図上に配置することにより視覚的に目的の場所の番組を探し出せる図9 6 実マーカーをクリックして動画を再生験実験として字幕情報付き旅行番組を録画しその中から 10 本を選び動画の分割位置情報推定の実験を行った 6 1 データセット今回実験に使用した番組は表 2 の 10 本であるまた各図 7 Google Map 上に配置番組の詳細として放送日番組の長さ実際に紹介している都道府県を示したのが表 3 である 5 システムの動作例 6 2 実験の設定市区町村ベースの分割については 2 回以上連続して出現しシステムはウェブブラウザを使用してインターネット上からアクセスすることができる図 8 注 4 http://codegooglecom/intl/ja/apis/maps/documentation /javascript/ ている地名を用いて実験を行ったまた市区町村ベースで分割を行っているが都道府県レベルでの評価も行った都道府県ベースの分割については市区町村名を全く利用しないで 5 回以上連続して出現している都道府県名を用いて実験を行った

2 A B C D E F G H I J 3 A 2010 12 10 2 B 2011 1 5 2 48 C 2011 1 8 3 18 D 2011 1 30 1 15 E 2011 9 28 2 48 F 2011 11 11 55 G 2011 11 23 2 46 H 2011 11 25 55 I 2011 11 29 55 J 2011 12 12 55 3 5 6 4 A 12 7(2) 13 0583(0750) 0538(0692) B 11 3(1) 13 0273(0364) 0230(0308) C 38 23(6) 38 0605(0763) 0605(0763) D 7 2 6 0286 0333 E 13 6(2) 15 0462(0615) 0400(0533) F 3 2 4 0667 0500 G 9 3(1) 14 0333(0444) 0214(0286) H 3 1(1) 3 0333(0667) 0333(0667) I 9 1(1) 2 0111(0222) 0500(1000) J 4 3 3 0750 1000 109 51(14) 111 0468(0596) 0460(0586) 5 A 6 5(1) 7 0833(1000) 0714(0857) B 5 2(2) 5 0400(0800) 0400(0800) C 17 13(2) 16 0765(0882) 0813(0938) D 4 2 3 0500 0667 E 6 2(2) 4 0333(0667) 0500(1000) F 2 1(1) 2 0500(1000) 0500(1000) G 6 2(1) 3 0333(0500) 0667(1000) H 3 1(1) 2 0333(0667) 0500(1000) I 9 1(1) 2 0111(0222) 0500(1000) J 3 2 2 0667 1000 61 31(11) 46 0508(0689) 0674(0913) 6 3 precisionrecall A B C = C = C (2) B A 3 10 13 19 54 5% 30 1 6 4 4 6 A 8 4(3) 7 0500(0875) 0571(1000) B 7 4(1) 5 0571(0714) 0800(1000) C 17 13(2) 16 0765(0882) 0813(0938) D 3 3 3 1000 1000 E 5 4 4 0800 1000 F 2 1(1) 2 0500(1000) 0500(1000) G 4 3 3 0750 1000 H 2 1(1) 2 0500(1000) 0500(1000) I 6 1(1) 2 0167(0333) 0500(1000) J 2 1(1) 2 0500(1000) 0500(1000) 56 35(10) 46 0625(0804) 0761(0978) 468% 460% 625% 761%

7 4 5 J J J 1 2 1 I 3 D D A C 2 1 1 1 8 8 1 Google Map 5% 468% 460% 625% 761% 8 2 Google Geocoding [1], 2011 [2] C Liang, C Xu, J Cheng, and H Lu Tvparser: An automatic tv video parsing method In Proc of IEEE Computer Vision and Pattern Recognition, pp 3377 3384, 2011 [3] Y Zhai, A Yilmaz, and M Shah Story Segmentation in News Videos Using Visual and Text Cues In Proc of ACM International Conference on Image and Video Retrieval, 2005 [4] N Katayama, H Mo, I Ide, and S Satoh Mining largescale broadcast video archives towards inter-video structuring Proc of PacificRim Conference on Multimedia, pp 489 496, 2004 [5], 2009 [6] Goromi-TV WISS2006, pp 47 52, 2006 [7] P Kelm, S Schmiedeke, and T Sikora Multi-modal, Multiresource Methods for Placing Flickr Videos on the Map In Proc of ACM International Conference on Multimedia Retrieval, 2011 [8] DJ Crandall, L Backstrom, D Huttenlocher, and J Kleinberg Mapping the world s photos In Proceedings of the 18th international conference on World wide web, pp 761 770 ACM, 2009 [9] T Quack, B Leibe, and L V Gool World-scale Mining of Objects and Events from Community Photo Collections In Proc of ACM International Conference on Image and Video Retrieval, pp 47 56, 2008 [10] A Ulges, C Schulze, D Keysers, and T M Breuel A System That Learns to Tag Videos by Watching Youtube In Proc of International Conference on Vision Systems, pp 415 424, 2008 [11] MJ Swain and DH Ballard Color indexing International Journal of Computer Vision, Vol 7, No 1, pp 11 32, 1991