メラを切るか ( カッティング ) の高さのことを指し, バストショットやミディアムショットなど複数の種類がある. なお, 本研究で使用するショットサイズは人物の肩から上が映るクロースショット (CS), 人物の腰から上が映るミディアムショット (MS), 人物の全身が映るフルショット (FS) の

Similar documents
コンピュータグラフィックス第8回

Microsoft Word - 卒論レジュメ_最終_.doc

1 Web [2] Web [3] [4] [5], [6] [7] [8] S.W. [9] 3. MeetingShelf Web MeetingShelf MeetingShelf (1) (2) (3) (4) (5) Web MeetingShelf

Microsoft PowerPoint - pr_12_template-bs.pptx

IPSJ SIG Technical Report Vol.2015-CVIM-196 No /3/6 1,a) 1,b) 1,c) U,,,, The Camera Position Alignment on a Gimbal Head for Fixed Viewpoint Swi

2. CABAC CABAC CABAC 1 1 CABAC Figure 1 Overview of CABAC 2 DCT 2 0/ /1 CABAC [3] 3. 2 値化部 コンテキスト計算部 2 値算術符号化部 CABAC CABAC

3 2 2 (1) (2) (3) (4) 4 4 AdaBoost 2. [11] Onishi&Yoda [8] Iwashita&Stoica [5] 4 [3] 3. 3 (1) (2) (3)

& Vol.5 No (Oct. 2015) TV 1,2,a) , Augmented TV TV AR Augmented Reality 3DCG TV Estimation of TV Screen Position and Ro

デジタルカメラ用ISP:Milbeaut

MA3-1 30th Fuzzy System Symposium (Kochi, September 1-3, 2014) Analysis of Comfort Given to Human by Using Sound Generation System Based on Netowork o

Vol.54 No (July 2013) [9] [10] [11] [12], [13] 1 Fig. 1 Flowchart of the proposed system. c 2013 Information

Web UX Web Web Web 1.2 Web GIF Kevin Burg Jamie Beck GIF GIF [2] Flixel Cinemagraph pro *1 Adobe Photoshop *2 GIMP *3 Web *1 Flixel Photos Inc. *2 *3

,,.,.,,. 2.,..,,,.,.,.,,,. 90%,.,,, i


目次 1. 動画再生の機能 3 2. 動画を再生するスライドの作成 7 3. まとめ 課題にチャレンジ 19 レッスン内容 ムービーの中で動画を再生するスライドの作成 多くのデジタルカメラには動画撮影機能が搭載されています PowerPoint にはデジタルカメラで撮影した動画をスライド

Processingをはじめよう

使用説明書(Windows)

円筒面で利用可能なARマーカ

2reA-A08.dvi

スライド 1

目次 1. アニメーションの軌跡の概要と仕組み 3 2. パノラマ写真にアニメーションの軌跡を設定 まとめ 課題にチャレンジ 19 レッスン内容 アニメーションの軌跡の概要と仕組み アニメーションの軌跡とは スライドに配置したオブジェクト ( テキストや図形 画像など ) を

コンピュータグラフィックス演習 I 2012 年 5 月 21 日 ( 月 )5 限 担当 : 桐村喬 第 7 回モデリングの仕上げ 1 カメラワークとアニメーション 今日の内容 1. カメラワーク 2. シーンの設定 3. アニメーション 前回のテクスチャの紹介 1 / 10

数値計算で学ぶ物理学 4 放物運動と惑星運動 地上のように下向きに重力がはたらいているような場においては 物体を投げると放物運動をする 一方 中心星のまわりの重力場中では 惑星は 円 だ円 放物線または双曲線を描きながら運動する ここでは 放物運動と惑星運動を 運動方程式を導出したうえで 数値シミュ

もう少し詳しい説明 1. アルゴリズムを構築するための 4 枚のサンプル画像を次々と読み込むここで重要なことは画像を順番に読み込むための文字列操作 for 文の番号 i を画像の番号として使用している strcpy は文字列のコピー,sprinf は整数を文字列に変換,strcat は文字列を繋げる

Input image Initialize variables Loop for period of oscillation Update height map Make shade image Change property of image Output image Change time L

ZoomBrowser EX Ver5.7 使用説明書(Windows)

コンピュータ中級B ~Javaプログラミング~ 第3回 コンピュータと情報をやりとりするには?

デジカメ天文学実習 < ワークシート : 解説編 > ガリレオ衛星の動きと木星の質量 1. 目的 木星のガリレオ衛星をデジカメで撮影し その動きからケプラーの第三法則と万有引 力の法則を使って, 木星本体の質量を求める 2. ガリレオ衛星の撮影 (1) 撮影の方法 4つのガリレオ衛星の内 一番外側を

問 1 図 1 の図形を作るプログラムを作成せよ 但し ウィンドウの大きさは と し 座標の関係は図 2 に示すものとする 図 1 作成する図形 原点 (0,0) (280,0) (80,0) (180,0) (260,0) (380,0) (0,160) 図 2 座標関係 問 2

Microsoft Word - 415Illustrator

フレーム ページの作り方 那須シニアネット三宅節雄 今回は那須シニアネットのホームページと同様に 1バナーとホームページのタイトルなどを入れた top.html 2スライドショーなど構成するページの名前の一覧から各ページへリンクさせた menu.html 3 取り敢えず表紙を飾った main.htm

Gatlin(8) 図 1 ガトリン選手のランニングフォーム Gatlin(7) 解析の特殊な事情このビデオ画像からフレームごとの静止画像を取り出して保存してあるハードディスクから 今回解析するための小画像を切り出し ランニングフォーム解析ソフト runa.exe に取り込んで 座標を読み込み この

3Dプリンタ用CADソフト Autodesk Meshmixer入門編[日本語版]

躯体作図 編集 HAS-C-school Copyrightc DAIKIN INDUSTRIES, LTD. All Rights Reserved.

操作説明書 AV-HS410 用イメージ転送ソフトウェア JAPANESE M0412TY0 -FJ VQT4K83

Microsoft Word - 卒業論文.doc

C-770 Ultra Zoom 取扱説明書

使用説明書(Macintosh)

0 21 カラー反射率 slope aspect 図 2.9: 復元結果例 2.4 画像生成技術としての計算フォトグラフィ 3 次元情報を復元することにより, 画像生成 ( レンダリング ) に応用することが可能である. 近年, コンピュータにより, カメラで直接得られない画像を生成する技術分野が生

画像参照画像送り 5 画像下部に再生ボタンが表示されます 再生ボタンをクリックすると 自動コマ送りされます 1

知能と情報, Vol.30, No.5, pp

CPP46 UFO Image Analysis File on yucatan091206a By Tree man (on) BLACK MOON (Kinohito KULOTSUKI) CPP46 UFO 画像解析ファイル yucatan091206a / 黒月樹人 Fig.02 Targe

THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS IEICE Technical Report IN ( ),

Microsoft PowerPoint - [150421] CMP実習Ⅰ(2015) 橋本 CG編 第1回 幾何変換.pptx

25 D Effects of viewpoints of head mounted wearable 3D display on human task performance

Web Web [4] Web Web [5] Web 2 Web 3 4 Web Web 2.1 Web Web Web Web Web 2.2 Web Web Web *1 Web * 2*3 Web 3. [6] [7] [8] 4. Web 4.1 Web Web *1 Ama

WISS 2018 UI (2013)[2] (2015)[4] UI 3 HapTalker 3.1 HapTalker ios Hap- Talker HapTalker UI UI UI UI HapTalker UI HapTalker HapTalker HapTalker 3.2 Hap

200_CAD(画面回りの機能)の基本操作

Img_win.book

IPSJ SIG Technical Report Vol.2014-IOT-27 No.14 Vol.2014-SPT-11 No /10/10 1,a) 2 zabbix Consideration of a system to support understanding of f

Mimehand II[1] [2] 1 Suzuki [3] [3] [4] (1) (2) 1 [5] (3) 50 (4) 指文字, 3% (25 個 ) 漢字手話 + 指文字, 10% (80 個 ) 漢字手話, 43% (357 個 ) 地名 漢字手話 + 指文字, 21

[3][4] [5] ) 2) c2012 Information Processing Society of Jap

IPSJ SIG Technical Report An Evaluation Method for the Degree of Strain of an Action Scene Mao Kuroda, 1 Takeshi Takai 1 and Takashi Matsuyama 1

1., 1 COOKPAD 2, Web.,,,,,,.,, [1]., 5.,, [2].,,.,.,, 5, [3].,,,.,, [4], 33,.,,.,,.. 2.,, 3.., 4., 5., ,. 1.,,., 2.,. 1,,

子ボックスや孫ボックスなどに position: absolute; と指定すると それぞれ親ボックスに対する絶対位置で配置できるので親ボックスの上に複数の子ボックスや孫ボックスを重ねて配置することができます トランジションやアニメーションを作成するときに非常に便利なので覚えておきましょう top

はじめに 本資料は ( 一財 ) 建設業技術者センターの 監理技術者資格者証インターネット申込みサイト から提出していただく資格者証用写真の画像ファイル ( カラー JPEG 形式 ) を Windows7 にインストールされている画像編集ソフトウェア Microsoft ペイントR を使用して 画

Sample 本テキストの作成環境は 次のとおりです Windows 7 Home Premium Microsoft Excel 2010( テキスト内では Excel と記述します ) 画面の設定( 解像度 ) ピクセル 本テキストは 次の環境でも利用可能です Windows


目次 1. プロフィール画像工房の概要 3 2. プロフィール画像の作成 8 3. プロフィール画像の登録 まとめ 27 レッスン内容 プロフィール画像工房 インターネット上に提供されているさまざまなサービス ( これ以降 サービス と記述します ) を利用するときには 利用するユーザー

untitled

1 Fig. 1 Extraction of motion,.,,, 4,,, 3., 1, 2. 2.,. CHLAC,. 2.1,. (256 ).,., CHLAC. CHLAC, HLAC. 2.3 (HLAC ) r,.,. HLAC. N. 2 HLAC Fig. 2

24 Region-Based Image Retrieval using Fuzzy Clustering

模擬試験問題(第1章~第3章)

バイノーラルマイクを用いたライフログ映像のショット識別 Life-log Video Shot Discrimination using Binaural Microphone 山野貴一郎 伊藤克亘 法政大学大学院情報科学研究科 法政大学情報科学部 Kiichiro YAMANO Katunobu

258 5) GPS 1 GPS 6) GPS DP 7) 8) 10) GPS GPS ) GPS Global Positioning System

05_藤田先生_責

Wordでアルバム作成

基本作図・編集

基本作図・編集

1 Table 1: Identification by color of voxel Voxel Mode of expression Nothing Other 1 Orange 2 Blue 3 Yellow 4 SSL Humanoid SSL-Vision 3 3 [, 21] 8 325

Fig. 3 Flow diagram of image processing. Black rectangle in the photo indicates the processing area (128 x 32 pixels).

21 e-learning Development of Real-time Learner Detection System for e-learning

基本作図・編集

16_.....E...._.I.v2006

画像類似度測定の初歩的な手法の検証

THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS TECHNICAL REPORT OF IEICE. UWB UWB

The Effects of Tax Revenue by Deductions of National Income Tax and Individual Inhabitants Tax The national income tax and individual inhabitants tax

スライド 1

DVDを再生する 176 を観るDVD を観る 本機では 市販されているDVDビデオ またご家庭などで録画されたDVD-VRをお楽しみいただけます DVDビデオとDVD-VRでは操作方法が異なります ご利用になるDVDの種類に該当する箇所をご覧ください 市販のDVD(DVDビデオ ) の再生 176

<!DOCTYPE html> <html> <head> <title>clipanime1</title> <meta charset="utf-8"> <link rel="stylesheet" type="text/css" href="clipanime1.css"> </head> <

2 122

浜松医科大学紀要

IPSJ SIG Technical Report Vol.2014-NL-216 No.6 Vol.2014-SLP-101 No /5/ MMDAgent 1. [1] Wikipedia[2] YouTube[3] [4] [5] [6] [7] 1 Graduate

H12HW取扱説明書

JOURNAL OF THE JAPANESE ASSOCIATION FOR PETROLEUM TECHNOLOGY VOL. 66, NO. 6 (Nov., 2001) (Received August 10, 2001; accepted November 9, 2001) Alterna

スライド 1

また おすすめはしませんが C: Program Files Adobe Adobe After Effects [version] Support Files Plug-ins に配置することによって After Effects からのみ使用できます macos の場合 /Library/Appl

各部紹介


Microsoft Word - 白井散策マップ_日本語マニュアル.docx

vecrot

, (GPS: Global Positioning Systemg),.,, (LBS: Local Based Services).. GPS,.,. RFID LAN,.,.,.,,,.,..,.,.,,, i

ARToolKit プログラムの仕組み 1: ヘッダファイルのインクルード 2: Main 関数 3: Main Loop 関数 4: マウス入力処理関数 5: キーボード入力処理関数 6: 終了処理関数 3: Main Loop 関数 1カメラ画像の取得 2カメラ画像の描画 3マーカの検出と認識

目次 1. ドリームフォト用素材の作成 3 2. ドリームフォトの作成 まとめ 課題にチャレンジ 19 レッスン内容 ドリームフォト マイクロソフト社のワープロソフト Word 2010( これ以降 Word と記述します ) の図ツールに搭載されている [ 背景の削除 ]

一方, 物体色 ( 色や光を反射して色刺激を起こすもの, つまり印刷物 ) の表現には, 減法混色 (CMY) が用いられる CMY の C はシアン (Cyn),M はマゼンタ (Mgent),Y はイエロー (Yellow) であり, これらは色の 3 原色と呼ばれるものである なお, 同じシア

Core1 FabScalar VerilogHDL Cache Cache FabScalar 1 CoreConnect[2] Wishbone[3] AMBA[4] AMBA 1 AMBA ARM L2 AMBA2.0 AMBA2.0 FabScalar AHB APB AHB AMBA2.0

paper.dvi

2 Poisson Image Editing DC DC 2 Poisson Image Editing Agarwala 3 4 Agarwala Poisson Image Editing Poisson Image Editing f(u) u 2 u = (x

社団法人人工知能学会 Japanese Society for Artificial Intelligence 人工知能学会研究会資料 JSAI Technical Report SIG-Challenge-B30 (5/5) A Method to Estimate Ball s State of

,,.,.,,.,.,.,.,,.,..,,,, i

Transcription:

P2-27 ちょっとした出来事の自動映像編集 : 映画文法に基づき撮影されたターゲット映像の参照による理解しやすい映像の生成 Automatic Video Editing of a Minor Event: Generation of Easily Comprehensible Image by Reference to Target Image Shot on the Basis of Film Grammar 古川智裕, 金谷友樹, 榎津秀次 FURUKAWA Chihiro, KANAYA Yuki, ENOKIZU Hideji 芝浦工業大学大学院工学研究科, 芝浦工業大学工学部 Graduate School of Engineering, Shibaura Institute of Technology Shibaura Institute of Technology m11138@shibautra-it.ac.jp, enokizu@sic.shibautra-it.ac.jp Abstract In the present study, we proposed the mechanism of automatic video editing that uses target image on the basis of the film grammar to generate the easily comprehensible image of a minor everyday event. Several minor everyday events were shot by eight digital video cameras set around the shooing space. On the other hand, we have prepared the target image of each everyday event shot on the basis of the film grammar previously. Two stages are primarily needed to generate easily comprehensible image. In the first stage, an image, which was shot from the most appropriate camera position, is selected by comparing eight images with the target image. Then, in the second stage, the selected image is cropped and zoomed by reference to the target image. Some images were generated by automatic video editing system that implemented a series of picture processing involved with these two stages. Generated images were similar to each target image appeared to be easily comprehensible. However, we found some problems, for example, estimating appropriate vale of the target image and segmenting the target image, to be overcome. Keywords Automatic Video Editing, Film Grammar, Everyday Event, Easily Comprehensible image 1. 研究目的 近年, ビデオカメラや映像編集ソフトの低価格 化 高性能化などにより手軽に映像を撮影 編集 することができるようになった. しかし, それに より作成された映像とテレビや映画などの映像で は理解のしやすさに明らかな違いがある. これに は様々な理由が挙げられるが, その中でも特に大 きな問題として編集の問題がある. テレビや映画 の編集を行っている人たちは長い年月をかけて自 分たちが培ってきた知識や技術を用いて編集を行 っている. しかし我々がその編集の知識や技術を身につけようと思うと多くの時間や資金などが必要となり困難である. そのため, 映像を自動的に撮影し編集する様々な研究が進められている. 先行研究 [1][2][3][4] では, 出力された映像がわかりやすい映像なのかどうかの判断を主観評価などによって求めていた. そこで本研究では映画文法 [5] と呼ばれる映画編集のルールに基づき製作された映像を元に, その映像に近い映像をシステムにより撮影 編集することで, 視聴者にとって理解しやすい映像を制作することを目的にする. 2. ターゲット映像ターゲット映像とは, 映画文法と呼ばれるルールに則って撮影 編集された映像のことである ( 図 2.1). 映画文法とは, 映画制作関係者などが経験則的に培われた知識を自然言語で表現したもので, 視聴者が映像を見たときに意識しなくても映像を理解できるような編集方法が記されたものである. 映画のあるワンシーンをショットという映像の単位に分け, 図 2.2 のように, 人物の動きやカメラの配置, カメラで撮影した映像の代表的なものを描いた図とともに, ショットサイズや, カメラの操作方法などが自然言語で記されている. シーンとは, ある定められた空間の中で起こった出来事 ( イベント ) の流れであるとする. ショットとは, 時間的 空間的な切れ目なしに連続して撮影された映像の単一断片を指すものである. また, ショットサイズとは人物の体のどの部分でカ 517

メラを切るか ( カッティング ) の高さのことを指し, バストショットやミディアムショットなど複数の種類がある. なお, 本研究で使用するショットサイズは人物の肩から上が映るクロースショット (CS), 人物の腰から上が映るミディアムショット (MS), 人物の全身が映るフルショット (FS) の 3 種類とした. これは, 見た目として違いがわかりやすく, カッティングの場所が比較的明確であるからである. 出部, カメラ決定部, ショット映像生成部で構成されている. イベント導出部では, 撮影空間で撮影された映像からイベント情報を導出し, イベントを決定する. カメラ決定部ではイベント導出部で導出されたイベントやイベント情報などを使い, ターゲット映像にもっとも近いカメラ映像を求め, カメラ番号を出力する. ショット映像生成部では, イベント導出部, カメラ決定部で得られた情報よりカメラ映像をターゲット映像に近づけ, 音声を合成し動画として出力する. イベント導出 固定カメラ映像 音声 固定カメラ決定 ショット映像生成 編集された映像 図 4 システム全体の流れ 図 2.1 ターゲット映像図 2.2 映画文法内の図 3. イベントイベントとはイベント情報より求められる, ある定められた空間の中で起こったカメラの切り替えに関わる動作を指す. 本研究は移動 向きの変化 姿勢の変化 発話の 4 つをイベントとして扱っている. この 4 つのイベントの組み合わせを 4 次元配列で表記する. たとえば, 移動と発話が同時に起こった場合は.(5,0,0,1) のように表す. なお, この移動の値は移動の向きを表している. 5. 撮影空間図 5 のように撮影空間とは, 縦横に 4.0m, 床は 0.4m 間隔で 10 10 マスの格子状になるように区切られる. この撮影空間のまわりにカメラ 8 台用意し, 高さ約 1.6m, カメラの中心が撮影空間の中心 (5,5) を映すように設置する. 左下のカメラ番号をカメラ 1 番とし, 時計回りに 2 番,3 番 とする. このカメラの高さは映画での一般的なアイレベルを参考に人物の目線の高さに合わせた. その理由としては, アイレベルで撮影された映像は視聴者が普段見ている世界との見え方が同じなため安定感や安心感が得られるからである. ターゲット映像に対し, 撮影空間の固定カメラで撮影された映像のことを固定カメラ映像とする. 4. システム構成 本システムでは, 図 5 に示すようにイベント導 図 5 撮影空間 518

P2-27 6. イベント情報イベントを決定するために必要な情報のことで, 撮影空間内に写っている人数, 撮影空間内で人物のいる座標, 人物の正面を検出したカメラ, 人物の姿勢, 発話の有無のことを指す. 人物のいる座標が変わった場合移動を検出, そのときに正面を向いているカメラ番号をイベントに格納する. 人物の向きが 1 秒以内に 90 度以上変わった場合にはイベントの向きの変化の値を 1 に, 姿勢が 1 フレームの間に 30 ピクセル以上減尐した場合人物の姿勢の値を 2( 座る ) にし,30 ピクセル以上増加した場合は人物の姿勢の値を 1( 立ち ) にする. また, 人物の発話があった場合には発話の値を 1 にする. 7. 人物領域情報人物領域情報はイベント情報とは異なり, 撮影された固定カメラ映像の各フレームの中で人物がどのように映っているかを表す画像上の情報である. ここでカメラごとに抽出する情報を以下に示す. 1) 人物の重心点 2) 人物領域の右端, 左端, 上端, 下端の各座標 3) 顔検出の中心点, 半径の大きさこれらの情報はイベント情報を出力する際に同時に出力できるため, 人物領域情報の出力のためには新たな画像処理をすることはない. なお, ここでの座標はカメラの画像上の座標のことで, 左上を始点としたピクセル数のことである. 8. イベント導出部イベント導出部でのイベント情報導出方法について記述する. まず, 人物の位置については各固定カメラから取得した映像を 0.2 秒ごとに静止画として保存したものを利用し, 解析をする. 固定カメラごとに取得した背景のみの画像 ( 背景画像 ) を読み込み, フレーム単位での解析を行う. そして, 各固定カメラから撮影空間内の人物に対して直線を引き交点を求めることで, 人物の位置を検出する. 解析手順を以下に示す. 1) 入力画像と背景画像のグレースケール化 2) 入力画像と背景画像の平滑化 3) 入力画像と背景画像の差分を取る 4) 差分画像の二値化 5) ノイズ除去 6) ラベリングをし, 人物領域の重心を算出 7) 固定カメラからの角度計算 8) 各固定カメラから直線を引き交点を求めるそれにより求められた交点に一番近い座標に人物がいるとし, 人物の位置を導出している. なお, 人物の位置は (0,0)~(10,10) で表現する. 人物の向きは撮影空間のまわりにある 8 台のカメラをすべて使って検出する. まず,8 台のカメラ全てで顔検出をし, 検出された場合, その人物は検出されたカメラの方向を向いていると判断させた. なお, この顔検出には精度を高めるために色相による制限を行っている. 人物の姿勢に関しては, 撮影空間のまわりにあるカメラを使い検出する. 人物の位置を求めるために使用した背景画像との差分の情報とラベリングにより得られる情報より人物の姿勢を決定する. 本研究では人物は立っている状態と座っている状態の 2 種類の姿勢を扱うものとし, 人物が撮影空間に入ってきた場合無条件で立っているものとして扱っている.1 フレームである 0.2 秒の間に, 人物領域の縦幅の値が 30 ピクセル減尐した場合は座っている状態に姿勢の変化が起きる. なお, この 30 ピクセルという値は実際に姿勢の変化のある映像を解析して得られた結果である. また 1 フレームの間に人物領域の縦幅の値が 30 ピクセル増大した場合人物が立っている状態に姿勢の変化が起きたとしている. 音声に関しては, 登場人物に装着したワイヤレスヘッドセットマイクによって拾われた音声を解析することによって導出する. 録音した音声を 0.2 秒ごとに区切り, それを一つの単位とした. 登場人物が発話をした場合, 音声データの振幅が大きくなる. それを利用して, 振幅がある閾値を超えた回数が 0.2 秒間に 50 回以上だった場合人物の発話として検出する. こうして求められたイベント情報をもとに, イベ 519

ントを決定していく. まず, 移動に関しては求めた座標に変化が 1 秒以上あった場合, その間で移動のイベントを検出する. イベントを検出した場合, 同時に移動している固定カメラの番号を移動の方向として出力する. 向きの変化は, 得られた顔の向きが 1 秒以内に 90 度以上変化した場合その最初のフレームから 1 秒間を人物の向きの変化として検出する. 姿勢の変化は, 人物の姿勢が切り替わったときに, その最初のフレームから前後 1 秒間を姿勢の変化とする. 発話は, 音声処理により求めた人物の発話があった場合に発話を検出する. 9. ターゲット映像記述情報ターゲット映像記述情報とは, ターゲット映像をカメラ映像との類似度を比較できるように必要な情報をテキスト形式でまとめたものである.1 フレームごとに抜き出す情報を以下に示す. 1) ターゲット映像のフレーム番号 2) 人物番号 3) 人物の位置 4) 人物の向き 5) 人物のショットサイズ 6) イベントターゲット映像を 0.2 秒ごとの静止画に分割し, 分割した最初の画像を 0 フレームとしてフレーム番号を決定する. 人物の位置は背景画像より背景差分を用いて求められた領域の重心点と画像左端の間の距離を位置とする. 人物の向きとイベントの移動の向きに関しては分割された画像の顔の向きを図 9 の 8 方向から選択する. 移動の向きは前後のフレームを見て移動している方向を選択する. ショットサイズは映画文法にあるショットサイズの中から人物の全体が映るフルショット (FS) 腰から上が映るミディアムショット (MS) 人物の顔が中心に映るクロースショット (CS) の 3 種類より選択する. イベントは, イベント導出と同じく移動 向きの変化 姿勢の変化 発話の 4 つをイベントとして扱う. この 4 つのイベントを 4 次元配列で表記する. 図 9 人物の向き 10. カメラ映像記述情報イベント導出部より得られた情報より, 撮影空間上のカメラの映像をテキスト形式で表す. フレーム単位で表す情報を以下に示す. 1) カメラ映像のフレーム番号 2) 人物番号 3) 人物の位置 4) 人物の向き 5) イベントこの値はイベント導出部で得られるイベント情報とイベント, 人物領域情報と対応している. フレーム番号と人物番号はイベント情報と共通. 人物の位置は人物領域情報の人物の重心の座標の値が入る. 向きはイベント情報にある向きと対応しており, イベントはイベントが格納される. なお, イベント情報で与えられている向きは撮影空間上のカメラの番号となっているが, カメラ映像記述情報ではターゲット映像記述情報の向きと合わせるため, 前もって変換してある. 11. カメラ決定部カメラ決定部では, イベント導出部より得られた情報をもとに, カメラ映像記述情報を生成する. それと前もって作成しておいたターゲット映像記述情報と比較することで, どのカメラの映像が最もターゲット映像に近いのかを決定する. まず, ターゲット映像の最初のイベントを見て, それと一致するイベントをもつカメラ映像記述情報をフレーム単位で全て抜き出す. さらに, その中からターゲット映像の人物向きが一致するカメラ映像を全て抜き出す. この抜き出されたカメラ映像記述情報のフレーム番号が連続している部分 520

P2-27 を 1 つのショットとして扱う. この時のフレーム番号と最適カメラ番号をショット映像生成部に送る. また, 次の処理で画像処理であるトリミングを行うかどうか, ターゲット映像記述情報のショットサイズと上端, 下端, 右端, 左端の 4 つの端点の情報をトリミング情報として求める. トリミングを行うかの判断は, ターゲット映像のショットサイズがフルショットでない場合はトリミングを行うとする. これをターゲット映像全てのフレームに関して行う. 12. ショット映像生成部ショット映像生成部ではカメラ決定部で決定した最適カメラからターゲット映像記述情報, イベント導出部の情報より最適カメラの画像に画像処理を行い, よりターゲット映像に近い映像を生成する. 具体的には, ターゲット映像記述情報のショットサイズの情報をもとに最適カメラの画像をトリミングし, ショットサイズを一致するように画像処理を行う. 前処理であるイベント導出部とカメラ映像決定部から, 人物領域情報とイベント情報より人物領域の上端, 下端, 右端, 左端の座標情報と人物領域の重心点の座標. さらに, カメラ映像決定部により決定した最適カメラの番号とトリミング情報を受け取る. その情報からカメラ映像をトリミングする. その切り取りの座標を決定する手順を以下に示す. 1) 切り取りを行う始点の決定 2) 横幅 (width) の決定 3) 縦幅 (height) の決定 4) 得られた値をもとに画像を切り取るなお, 縦幅と横幅の決定にはショットサイズごとのアルゴリズムによって決定する. 次にショットサイズごとのアルゴリズムを示す. まずクロースショット (CS) の場合は, 人物領域情報の上端の y 座標と人物の重心点の座標から顔の中心点を求める. 次に人物の顔の領域を円と見立てて中心点の座標と人物の上端の座標から顔の大きさの半径を求める. これにより求まった顔領域 の半径と人物の重心から縦幅 height を決定する. 横幅と縦幅の比はカメラ映像の比と同じく 4:3 としているため, 縦幅が決まることで横幅 width も決定する. これより, 顔の中心点が中心になるように始点を決定し, 切り出しを行う. 次に, ミディアムショット (MS) の場合はトリミング情報中の人物領域の左端と右端の値より画像を 3 分割して比を求める. 次に固定カメラの画像に移り, 人物領域情報より人物の左端と右端の値が得られる. その差を先ほどの 3 分割した比の中央の値と対応させ, 左右の幅のピクセル数を決定する. すべてのピクセル数の値を足した数値が横幅 width となる. また, 縦幅 height の値も同時に求まる. 次に始点を求める. ミディアムショットは腰の高さを下限とするため, 人物の重心点の y 座標を切り出しの下点となるよう始点を決定した. 最後にフルショット (FS) の場合は, 本研究の撮影空間で撮影された映像のショットサイズは人物の全身が移るフルショットであるため, フルショットに関しては画像処理によるショットサイズの変更を行わず, 固定カメラ映像を使用した. これにより得られた画像と音声を合成し, 生成動画を生成する. なお, フレームレートはカメラ映像を静止画に分割したときと同じく 5fps とした. 13. 結果結果として, ある一定の条件下での撮影空間上での人物の認識から最適カメラの決定. また, ターゲット映像と同じショットサイズへの変更を行うことができた. ただし, 固定カメラで映る人物の背景差分より得られる人物領域が重なってしまった場合, 領域がうまく検出できなかった. これは人物領域が重なることで 1 つの領域として認識されてしまったことが原因だと考えられる. また, 複数の人物に対しての人物番号の割り当てがターゲット映像記述情報では撮影空間に入ってきた順番なのに対し, カメラ映像記述情報では領域の x 座標が小さい順番で行っていたため, ターゲット映像記述情報の値を検出しやすいように変更する 521

必要があった. 図 13.1 ターゲット映像 ( 左 ) と出力映像 ( 右 ) 図 13.2 人物領域が重なってしまう場合 14. 考察これにより, 撮影空間上での動作をターゲット映像に近い形で出力することができた. しかし, 今回はターゲット映像のパターンが尐なく, またターゲット映像中のイベントと撮影空間上のイベントとの順番, 内容が一致していないとうまく出力することができなかった. そのため, ターゲット映像となる映像をより多くのパターン用意する必要がある. また, ターゲット映像のイベントを 1 つ, または 2 つ程度とし, ターゲット映像を組み合わせることでカメラ映像のイベントと対応させていくなどの工夫が必要になると考えられる. トリミングにより出力された映像は画質が粗く見にくいものになってしまったが, 今後カメラの画質や画素数が上がるにつれて画像の拡大を行っても視聴に耐える映像を作れると考えられる. 適用 電子情報通信学会技術研究報告, Vol.110, No.33, pp.125-130(2010) [2] 尾形涼, 中村裕一, 大田友一, (2004) 制約充足と最適化による映像編集モデル, 電子情報通信学会論文誌, Vol.J87-D-II, No.12, pp.2221-2230. [3] 西崎隆志, 尾形涼, 中村祐一, 大田友一, (2006) 会話シーンを対象とした自動撮影 編集システム, 電子情報通信学会論文誌, Vol.J89-D, No.7, pp.1557-1567. [4] 足立順, 滝口哲也, 有木康雄,(2007) 固定カメラ映像からの音声 画像情報を用いた映像コンテンツの生成, 画像の認識 理解シンポジウム. [5] Arijon,D.( 著 ), 岩本憲児, 出口文人 ( 訳 ) (1980) 映画の文法, 紀伊国屋書店. 図 14 画像の劣化 ( 左 : ターゲット映像右 : トリミング後の映像 ) 参考文献 [1] 金谷友樹, 梶山大介, 榎津秀次, 撮影空間におけるイベントの流れの自動撮影 編集 映画文法に基づくショット選択ルールの 522