IS2-21 第 16 回 画 像 センシングシンポジウム, 横 浜,2010 年 6 月 デプスカメラを 用 いた 裸 眼 立 体 ディスプレイのための 3 次 元 コンテンツ 生 成 Interactive 3D Contents Generation for Auto-stereoscopic Display based on Depth Camera 高 谷 優 樹, フランソワ ドゥ ソルビエ, 植 松 裕 子, 斎 藤 英 雄 Yuki Takaya, François de Sorbier, Yuko Uematsu, Hideo Saito 慶 應 義 塾 大 学 大 学 院 理 工 学 研 究 科 Graduate School of Science and Technology Keio University E-mail: takaya@hvrl.ics.keio.ac.jp Abstract 本 論 文 では,TOF デプスカメラを 利 用 した 裸 眼 立 体 デ ィスプレイ 用 のコンテンツ 生 成 方 法 について 述 べる. 裸 眼 立 体 ディスプレイは, 立 体 したいシーンとそれに 対 応 する 距 離 画 像 から 立 体 映 像 を 生 成 することができる. 従 来 は,リアルタイムに 距 離 画 像 を 得 ることが 難 しかったの で, 裸 眼 用 のコンテンツは CG が 主 流 で, 実 写 のものは 少 なかった. 本 手 法 では カラーカメラと TOF デプスカ メラの 2 台 を 用 いてシーンを 撮 影 する.そして,デプスカ メラから 得 られた 距 離 情 報 からカラーカメラ 視 点 の 距 離 画 像 を 作 ることによって, 従 来 では 難 しかった 実 写 を 対 象 としたリアルタイムの 立 体 コンテンツを 生 成 する. 1 研 究 背 景 近 年,テレビ, 映 画,ゲームなどのエンターテイメント 分 野 を 中 心 に 3D 映 像 に 注 目 が 集 まっており, 多 くの 企 業 で 3D 映 像 を 表 現 するための 立 体 ディスプレイに 関 す る 開 発 が 行 われている. 特 に, 眼 鏡 をかけて 立 体 視 を 実 現 するタイプのテレビは, 今 年 中 に 一 般 家 庭 向 けの 発 売 が 予 定 されている.また, 眼 鏡 を 必 要 としない 裸 眼 用 の 立 体 ディスプレイ[1]も 開 発 が 進 んでおり,デジタル サイネージなどに 利 用 することが 考 えられている. しかし,これまでの 裸 眼 立 体 ディスプレイ 向 けのコン テンツは, 主 に CG によって 作 られていることが 多 かった. それは,シーン 中 に 存 在 する 各 物 体 までの 距 離 が,CG の 環 境 下 では 既 知 であるため, 立 体 表 示 に 必 要 とされ る 視 差 を 計 算 することが 容 易 だからである. 一 方 で, 実 写 のシーンを 対 象 とした 3D コンテンツの 需 要 も 高 まっており, 最 近 ではステレオカメラを 搭 載 した デジタルカメラなどが 市 販 されるようにもなっている.し かし, 実 写 のシーンにおいて 各 物 体 までの 距 離 をリアル タイムで 求 めるということは 難 しく, 立 体 ディスプレイ 用 の コンテンツとして 実 写 のシーンのものは 非 常 に 数 が 少 な かったり,あらかじめ 撮 影 しておいたシーンを 対 象 とした りすることが 多 かった. そこで 本 研 究 では, 物 体 までの 距 離 をリアルタイムに 取 得 することができるTOFカメラというデプスカメラ[2]を 用 いた,3 次 元 コンテンツ 生 成 手 法 を 提 案 する.TOFデ プスカメラは, 赤 外 線 を 照 射 して 物 体 に 反 射 して 戻 って くるまでの 時 間 を 計 測 することで, 物 体 までの 距 離 をリア ルタイムに 取 得 することができるカメラである.しかし, TOFデプスカメラだけではシーンのテクスチャ 情 報 を 得 ることができず,また 解 像 度 も 低 いため, 大 画 面 の 立 体 ディスプレイにそのまま 適 用 することは 難 しい.そこで, 通 常 の 高 解 像 度 カラーカメラとTOFカメラを 併 用 し, 得 られた 距 離 画 像 の 視 点 をカラーカメラの 視 点 へと 変 換 することによって,リアルタイムにシーンのテクスチャ 画 像 と 距 離 画 像 を 得 る.そして,こ の2 種 類 の 画 像 を Philips 社 の 裸 眼 立 体 ディスプレイに 入 力 することで, リアルタイムに 動 作 可 能 な3 次 元 コンテンツを 表 示 する. 2 関 連 研 究 立 体 ディスプレイ 用 コンテンツを 生 成 するための 関 連 研 究 では, 複 数 視 点 分 の 映 像 をディスプレイへ 入 力 す るスタイルが 多 く, 複 数 のカメラを 用 いて 対 象 シーンを 撮 影 している. 苗 村 らは,64 台 の WEB カメラで 撮 影 した 画 像 に 対 して 自 由 視 点 映 像 生 成 の 技 術 を 適 用 し,リア ルタイムに 60 視 点 分 の 立 体 映 像 を 生 成 するシステムを 提 案 した[3].このような, 視 点 とほぼ 同 数 のカメラを 利 用 する 手 法 では,システムが 大 規 模 になりやすく, 撮 影 現 場 で 全 てのカメラを 同 時 に 設 定 することは 非 常 に 手 間 のかかる 作 業 である.さらに, 放 送 などに 用 いることを 考 えた 場 合,1 フレーム 分 の 立 体 映 像 を 作 るために, 大 量 のデータが 必 要 となる. 一 方 で, 通 常 のカラー 画 像 とその 距 離 画 像 から 多 視 点 分 の 映 像 を 生 成 して 立 体 映 像 を 作 り 出 す,2D+Depth IS2-21-1
と 呼 ばれる 方 法 がある[4]. 距 離 情 報 を 得 るための 方 法 としては,ステレオによるものが 代 表 的 なものとして 挙 げ られる.しかし, 画 像 間 の 対 応 付 けにはそれなりの 計 算 時 間 がかかるため, 距 離 画 像 の 精 度 と 時 間 はトレードオ フになる 場 合 も 多 い.そのため,ハイスペックな LSI や GPU を 用 いることで,これらの 制 約 を, 解 決 し ようとする 研 究 もある[5,6].Nozick らは GPU を 利 用 して Plane Sweep アルゴリズムを 使 用 すること により,リアルタイムに 距 離 を 推 定 する 手 法 を 提 案 した[7].しかし,いずれの 手 法 にしても,ステレオ 視 による 手 法 の 場 合, 白 い 壁 のように 対 応 関 係 が 取 りにくいものを 対 象 とすると, 距 離 の 推 定 が 不 安 定 になってしまうため, 対 象 シーンにはある 程 度 のテ クスチャが 必 要 である. これらの 手 法 とは 異 なり, 距 離 情 報 を 直 接 取 得 でき るデバイスも 存 在 する. 中 でも,TOF 方 式 のデプス カメラは, 赤 外 線 の 反 射 時 間 を 計 測 することで, 物 体 までの 距 離 をリアルタイムに 推 定 することができ る. 従 って,リアルタイムの 立 体 コンテンツ 生 成 と いう 目 的 に 適 したデバイスであるといえる.しかし, デプスカメラでは,テクスチャの 色 情 報 を 取 得 でき ず,また 距 離 画 像 自 体 の 解 像 度 が 低 いという 問 題 点 がある. そこで, 我 々は TOF デプスカメラと 通 常 のカラー カメラの 2 台 を 用 いて, 互 いの 距 離 情 報 と 色 情 報 を 統 合 することにより, 立 体 映 像 を 生 成 する 手 法 を 提 案 する. 3 実 験 装 置 3.1. 裸 眼 立 体 ディスプレイ 裸 眼 立 体 ディスプレイは,その 名 の 通 り,ユーザに 特 別 な 眼 鏡 を 装 着 させることなく, 立 体 映 像 を 提 示 するこ とができるディスプレイである.ディスプレイの 方 式 にも 依 存 するが, 一 般 的 には 複 数 のユーザに 同 時 に 異 なる 視 点 の 立 体 映 像 を 提 示 することができる.そのため, 裸 眼 立 体 ディスプレイの 入 力 には,1 フレームの 立 体 映 像 を 作 るために 約 5~64 視 点 ほどの 画 像 が 必 要 となる. そして,ディスプレイ 表 面 につけたレンチキュラーレンズ によってそれらの 画 像 を 分 離 し,ユーザの 視 線 の 方 向 に 応 じて 見 える 画 像 が 異 なるように 提 示 する. 従 って, ユーザが 適 切 な 位 置 からディスプレイを 眺 めることにより, 左 目 と 右 目 に 異 なる 画 像 が 見 えるようになり 立 体 映 像 を 生 成 することができる. 図 1 裸 眼 立 体 ディスプレイのレンダリングの 様 子 PHILIPS 社 製 の 立 体 ディスプレイ[8]に 代 表 される 裸 眼 立 体 ディスプレイでは,2D+depth アルゴリズム を 採 用 している.この 方 式 では, 図 1 に 示 すように, 立 体 視 したいシーンのカラーテクスチャ 画 像 とそのシー ンに 対 応 した 距 離 画 像 を 入 力 とし,その 距 離 画 像 か ら 僅 かに 視 点 の 異 なる 複 数 の 画 像 をレンダリングして, 立 体 映 像 を 生 成 する. 3.2. TOF デプスカメラ TOF(Time Of Flight) 式 のデプスカメラは, 対 象 としているシーンの 距 離 をリアルタイムに 得 ることがで きるデバイスである.カメラから 赤 外 線 を 照 射 し,その 赤 外 線 が 物 体 に 当 たって 返 ってきた 反 射 波 をセンサ で 感 知 し,その 往 復 にかかった 時 間 により,そのシー ンの 距 離 を 算 出 する. TOF カメラでは, 距 離 画 像 と 反 射 輝 度 画 像 という 2 種 類 の 画 像 を 撮 影 することができる. 図 2(a)は 撮 影 さ れた 距 離 画 像 であり, 画 像 中 の 明 るい 部 分 ほど 距 離 が 近 く, 暗 い 部 分 ほど 遠 いことを 表 す. 図 2(b)は 赤 外 線 の 反 射 強 度 を 表 したグレースケール 画 像 であり,こ れによって,テクスチャが 得 られる.しかしながら,デ プスカメラは 解 像 度 が 176 144 と 非 常 に 低 く,カラ ーのテクスチャ 情 報 を 取 得 できないため,デプスカメ ラで 撮 影 した 画 像 のみでは, 裸 眼 立 体 ディスプレイに 必 要 な 高 解 像 度 のカラーのテクスチャ 画 像 と 距 離 画 像 を 得 ることができない. そこで 本 研 究 では, 高 解 像 度 のカラーカメラをデプ スカメラと 組 み 合 わせ,デプスカメラで 得 られた 距 離 画 像 をカラーカメラ 視 点 に 変 換 することで,ディスプレ イへの 入 力 とする. IS2-21-2
(a) 距 離 画 像 (b) 反 射 強 度 画 像 図 2 デプスカメラで 撮 影 できる 画 像 の 例 4 提 案 手 法 4.1. 提 案 手 法 の 概 要 本 手 法 では, 高 解 像 度 のカラーカメラをデプスカメラ の 横 に 配 置 して,カラーのテクスチャ 情 報 と 距 離 情 報 を 取 得 する.システムの 外 観 を 図 3 に 示 す. Viewpoint Transfer Color camera Depth Camera 図 3 システムの 概 要 Stereoscopic Display 本 システムでは,2 台 のカメラを 用 いるのみで, 他 に ハーフミラーなどを 使 って 両 者 の 光 軸 を 合 わせるような ことはしないため,カラーカメラとデプスカメラで 撮 影 さ れた 画 像 を,どちらか 一 方 の 視 点 へと 変 換 して 合 わせ ることが 必 要 になる. 視 点 変 換 を 行 う 際 には, 両 者 の 撮 影 領 域 はわずか に 異 なるため,そのオクルージョンが 原 因 となって, 欠 損 領 域 が 発 生 してしまう. 立 体 映 像 を 生 成 する 際 に, 色 の 情 報 が 欠 損 していると, 人 間 は 非 常 に 違 和 感 を 感 じやすいので, 距 離 画 像 を 変 換 し,カラー 画 像 に 関 しては 撮 影 した 画 像 をそのまま 用 いる. 我 々の 手 法 のフローチャートを 図 4 に 示 す.シス テムは 大 きく 分 けて, 前 処 理 と 本 処 理 の 二 つの 処 理 からなる. 前 処 理 においては,カラーカメラとデプ スカメラの 内 部 パラメータ,および 外 部 パラメータ を 算 出 することを 行 う. 本 処 理 では,1 フレーム 毎 にデプスカメラから 得 られた 距 離 画 像 に 対 して, 前 処 理 で 求 めたパラメータを 用 いて,カラーカメラの 視 点 に 合 うように 視 点 の 変 換 を 行 う. 図 4 本 手 法 のフローチャート 4.2. キャリブレーション 前 処 理 として,カラーカメラとデプスカメラの 内 部 パラメ ータ, 外 部 パラメータを 算 出 するキャリブレーションを 行 う. 内 部 パラメータに 関 しては,チェスボードを 用 いて Zhang の 手 法 [9]を 用 いる. 外 部 パラメータに 関 しては, デプスカメラのカメラ 座 標 と 一 致 するように 世 界 座 標 を 設 定 することで,カラーカメラのカメラ 座 標 と 世 界 座 標 の 間 の 外 部 パラメータだけを 算 出 すればよいことになる. 外 部 パラメータの 算 出 に 当 たっては, 図 5 に 示 すように 手 動 のクリックでカラー 画 像 と 距 離 画 像 の 対 応 点 を 得 る. 通 常, 外 部 パラメータを 算 出 するには, 画 像 間 の 対 応 で はなく,3 次 元 と 2 次 元 の 対 応 が 必 要 となるが, 距 離 画 像 はその 画 素 ごとに 深 さ(Z 成 分 )が 分 かっているので, 画 像 間 の 対 応 を 得 るだけで 外 部 パラメータが 算 出 可 能 となる.この 算 出 したパラメータを 用 いて, 本 処 理 では 視 点 の 変 換 を 行 っていく.このキャリブレーションはカメラ を 動 かさない 限 りは 一 度 行 うだけでよい. 現 在 の 処 理 では, 手 動 のクリックによって 対 応 点 を 取 得 しているが,SIFT[10]のような 画 像 中 の 自 然 特 徴 点 を 抽 出 する 手 法 を 用 いて, 対 応 を 取 ることは 可 能 である と 考 えられるので, 将 来 的 には 前 処 理 にユーザーの 手 動 の 入 力 を 必 要 としないようにしたいと 考 えている. 図 5 対 応 点 の 入 力 の 様 子 IS2-21-3
4.3. 視 点 変 換 プロセス 次 に 変 換 のプロセスについて 述 べる.デプスカメ ラによってデプス 画 像 の 各 画 素 ごとに 3 次 元 座 標 が 得 られるので, 毎 フレームごとに 約 25000(176 144)の 3 次 元 座 標 が 得 られる.これらの 3 次 元 点 を 前 処 理 で 得 られた 射 影 行 列 を 用 いて,カラーカメラ 平 面 に 投 影 していく. 単 純 に 投 影 を 行 うとカラー 画 像 と 距 離 画 像 の 解 像 度 の 違 いから 図 6 のように 隙 間 だらけの 画 像 が 出 来 上 がってしまう. CPU Core 2 Duo : 3.0 GHz メモリ : 2 GB カラーカメラの 解 像 度 : 640 x 480 デプスカメラの 解 像 度 : 176 x 144 図 7 に 視 点 変 換 の 結 果 を 示 す. 上 段 の 画 像 がカラ ーカメラで 撮 影 された 画 像, 中 段 がデプスカメラで 撮 影 された 画 像 である. 赤 い 破 線 で 示 すように, 視 点 の 差 によって,チェッカーボードの 位 置 がずれて いることが 確 認 できる. 一 方 で, 視 点 の 変 換 結 果 で ある 下 段 の 結 果 を 見 ると,チェッカーボードの 位 置 が 上 段 の 図 と 合 うように 正 しく 補 正 できていること が 確 認 できる. 図 6 単 純 投 影 した 結 果 そこで 距 離 画 像 の 縦 横 を 1/2 に 縮 小 し, 解 像 度 を 1/4 に 落 とした 画 像 平 面 に 三 次 元 点 群 を 投 影 し 各 画 素 に 3 次 元 点 とカメラ 間 の 距 離 を 格 納 した 距 離 マップ d を 作 成 する.つまり 距 離 マップ 中 の 画 素 (x, y)には 元 の 3 次 元 点 とカメラの 距 離 d(x, y)が 格 納 されている. 全 ての 三 次 元 点 との 距 離 のうち 最 大 のものを dmax, 最 小 のものを dmin とすると 距 離 マップをグ レースケールの 画 像 とするために I(x, y) = (d(x, y) - dmin) * 255 / (dmax - dmin) という 式 によって 正 規 化 する.このようにして, 生 成 されたグレースケール 画 像 はオクルージョン による 欠 損 領 域 が 非 常 に 多 くある.そこでメディ アンフィルタをかけて 小 さい 欠 損 領 域 に 関 しては 埋 めることを 行 う. 5 実 験 と 考 察 提 案 手 法 の 有 効 性 を 確 認 するために 下 記 の 実 験 環 境 で 実 験 を 行 った. 図 7 視 点 変 換 プロセスの 結 果 また 別 のシーンにおける 結 果 を 図 8 に 示 す. 図 8 を 見 ると,デプスカメラ 視 点 でオクルージョンとな っていた 領 域 が 黒 く 欠 損 領 域 となってしまっている ことが 確 認 できる.これらの 領 域 は 欠 損 領 域 が 大 き すぎてメディアンフィルタだけでは 除 去 できない. この 問 題 に 関 しては, 現 在 はデプスカメラから 得 ら れた 3 次 元 点 群 を 画 像 平 面 に 投 影 しているだけだが, 将 来 的 には 点 群 から 三 角 パッチを 作 成 する 手 法 [11] を 利 用 することで, 問 題 の 解 決 を 図 ろうと 考 えてい る. IS2-21-4
図 8 視 点 変 換 による 欠 損 領 域 の 発 生 例 また, 実 行 速 度 に 関 しては,3 章 で 述 べたようにデ プスカメラはリアルタイムにシーンの 距 離 を 取 得 で きるので,ボトルネックとなりうるのは, 変 換 のプ ロセスのみである. 我 々の 提 案 手 法 全 体 を 通 して, 現 在 10fps ほどの 実 行 速 度 で 立 体 映 像 を 生 成 できる. 速 度 に 関 しては,GPU を 利 用 することで, 改 善 を 図 ることができると 考 えられる. 最 後 に,2009 年 11 月 に 開 催 された InterBEE2009 (International Broadcasting Equipment Exhibition) にて 展 示 を 行 った 様 子 を 図 9 に 示 す. 来 場 者 に 向 けてデ プスカメラとカラーカメラを 設 置 することで, 来 場 者 がディスプレイを 見 ながらリアルタイムに 自 分 の 立 体 映 像 を 鑑 賞 することができた.また, 本 システ ムは 眼 鏡 不 要 の 裸 眼 立 体 方 式 であるため, 付 近 を 通 りかかった 来 場 者 にも 立 体 映 像 を 提 供 することがで き,デジタルサイネージにも 効 果 的 であるというこ とも 確 認 できた. 3D auto-stereoscopic display Depth camera Color camera 図 9 裸 眼 立 体 ディスプレイの リアルタイムコンテンツ 生 成 の 様 子 6 結 論 いて, 対 象 となるシーンを 撮 影 し,カラーカメラの 視 点 の 距 離 画 像 を 生 成 することで,2D+depth アルゴリズムを 用 いて, 視 点 の 異 なる 映 像 を 生 成 し, 立 体 映 像 を 生 成 した.これによって 従 来 は, 数 が 少 なかった 実 写 を 対 象 としたリアルタイムの 立 体 コンテンツ 生 成 が 可 能 になっ た. 今 後 の 課 題 としては,オクルージョンによる 欠 損 領 域 を 補 間 することと,GPU を 用 いた 実 装 によるフレームレ ートの 改 善 の 二 つが 挙 げられる. 参 考 文 献 [1] Neil A. Dodgson, Autostereoscopic 3D Displays, Computer pp.31-36, August, 2005 [2] Thierry Oggier, et al., An all-solid-state optical range camera for 3D real-time imaging with sub-centimeter depth resolution (SwissRanger), Proc. SPIE, Vol. 5249, 534 (2004). [3] Y. Taguchi, T. Koike, K. Takahashi, T. Naemura, TransCAIP: A Live 3D TV System Using a Camera Array and an Integral Photography Display with Interactive Control of Viewing Parameters, IEEE Trans. on Visualization and Computer Graphics, vol..15, issue 5, pp.841-852, 2009. [4] Christoph Fehn, A 3D-TV approach using depth-image-based rendering, The IASTED International Conference on Visualization, Imaging and Image Processing Vol. 3. [5] J. Woetzel and R. Koch, Real-time multi-stereo depth estimation on GPU with approximative discontinuity handling, CVPM 2004. [6] R. Yang, M. Pollefeys, H. Yang and G. Welch, A Unified Approach to Real-Time, Multi-Resolution, Multi-Baseline 2D View Synthesis and 3D Depth Estimation using Commodity Graphics Hardware,IJIG 2003. [7] Vincent Nozick and Hideo Saito, On-line Free-Viewpoint Video: From Single to Multiple View Rendering, International Journal of Automation and Computing, Volume 5, Issue 3, pp. 257-265, July 2008. [8] PHILIPS 3D Solutions, 3D Interface Specifications, White Paper, http://www.philips.com/3dsolutions [9] Zhengyou Zhang, A flexible new technique for camera calibration IEEE Transactions on Pattern Analysis and Machine Intelligence, 22:1330-1334, 2000. [10] David G. Lowe, Object recognition from local scale-invariant features, Proceeding of IEEE International Conference on Computer Vision (ICCV), pp.1150-1157, Sep. 1999. [11] 日 浦 慎 作, 佐 藤 宏 介, 井 口 征 士, リアルタイ ム 距 離 画 像 センサによる 動 物 体 の 多 視 点 観 測 信 学 技 報 CS(MVE)95-6, 35-40 (1995) 本 稿 では,TOF デプスカメラを 用 いることで,リアルタ イムに 距 離 情 報 を 取 得 し,3 次 元 コンテンツを 生 成 する 手 法 を 提 案 した.カラーカメラとデプスカメラの 2 台 を 用 IS2-21-5