列生成を困難にする要因となっている 既存研究では 与え られた画像からグレイスケールに変換し 画像 1 枚から抽出 を行っているため 外乱 ( 影や光 ) の影響を受けると文字列を 正しく抽出できない (Yin et al., 2014) さらに 情景内の単一 の文字は既存研究では考慮されていない

Similar documents
2014/3 Vol. J97 D No. 3 Recognition-based segmentation [7] 1 DP 1 Conditional random field; CRF [8] [10] CRF / OCR OCR [11], [1

3 2 2 (1) (2) (3) (4) 4 4 AdaBoost 2. [11] Onishi&Yoda [8] Iwashita&Stoica [5] 4 [3] 3. 3 (1) (2) (3)

Microsoft Word - 卒論レジュメ_最終_.doc

Microsoft PowerPoint - pr_12_template-bs.pptx

1 (PCA) 3 2 P.Viola 2) Viola AdaBoost 1 Viola OpenCV 3) Web OpenCV T.L.Berg PCA kpca LDA k-means 4) Berg 95% Berg Web k-means k-means

(fnirs: Functional Near-Infrared Spectroscopy) [3] fnirs (oxyhb) Bulling [4] Kunze [5] [6] 2. 2 [7] [8] fnirs 3. 1 fnirs fnirs fnirs 1

す 局所領域 ωk において 線形変換に用いる係数 (ak 画素の係数 (ak bk ) を算出し 入力画像の信号成分を bk ) は次式のコスト関数 E を最小化するように最適化 有さない画素に対して 式 (2) より画素値を算出する される これにより 低解像度な画像から補間によるアップサ E(

0 21 カラー反射率 slope aspect 図 2.9: 復元結果例 2.4 画像生成技術としての計算フォトグラフィ 3 次元情報を復元することにより, 画像生成 ( レンダリング ) に応用することが可能である. 近年, コンピュータにより, カメラで直接得られない画像を生成する技術分野が生

(MIRU2008) HOG Histograms of Oriented Gradients (HOG)

SICE東北支部研究集会資料(2013年)

画像類似度測定の初歩的な手法の検証

1 Kinect for Windows M = [X Y Z] T M = [X Y Z ] T f (u,v) w 3.2 [11] [7] u = f X +u Z 0 δ u (X,Y,Z ) (5) v = f Y Z +v 0 δ v (X,Y,Z ) (6) w = Z +

図 5 一次微分 図 6 コントラスト変化に伴う微分プロファイルの変化 価し, 合否判定を行う. 3. エッジ検出の原理ここでは, 一般的なエッジ検出の処理内容と, それぞれの処理におけるパラメータについて述べる. 3.1 濃度投影検出線と直交する方向に各画素をスキャンし, その濃度平均値を検出線上

2. 30 Visual Words TF-IDF Lowe [4] Scale-Invarient Feature Transform (SIFT) Bay [1] Speeded Up Robust Features (SURF) SIFT 128 SURF 64 Visual Words Ni

(a) 1 (b) 3. Gilbert Pernicka[2] Treibitz Schechner[3] Narasimhan [4] Kim [5] Nayar [6] [7][8][9] 2. X X X [10] [11] L L t L s L = L t + L s

(VKIR) VKIR VKIR DCT (R) (G) (B) Ward DCT i

1 Web [2] Web [3] [4] [5], [6] [7] [8] S.W. [9] 3. MeetingShelf Web MeetingShelf MeetingShelf (1) (2) (3) (4) (5) Web MeetingShelf

LBP 2 LBP 2. 2 Local Binary Pattern Local Binary pattern(lbp) [6] R

3 Abstract CAD 3-D ( ) 4 Spin Image Correspondence Grouping 46.1% 17.4% 97.6% ICP [0.6mm/point] 1 CAD [1][2]

スライド 1

Input image Initialize variables Loop for period of oscillation Update height map Make shade image Change property of image Output image Change time L

読取革命Ver.15 かんたん操作ガイド

Haiku Generation Based on Motif Images Using Deep Learning Koki Yoneda 1 Soichiro Yokoyama 2 Tomohisa Yamashita 2 Hidenori Kawamura Scho

平成 28 年 6 月 3 日 報道機関各位 東京工業大学広報センター長 岡田 清 カラー画像と近赤外線画像を同時に撮影可能なイメージングシステムを開発 - 次世代画像センシングに向けオリンパスと共同開発 - 要点 可視光と近赤外光を同時に撮像可能な撮像素子の開発 撮像データをリアルタイムで処理する

(4) ω t(x) = 1 ω min Ω ( (I C (y))) min 0 < ω < C A C = 1 (5) ω (5) t transmission map tmap 1 4(a) t 4(a) t tmap RGB 2 (a) RGB (A), (B), (C)

色の類似性に基づいた形状特徴量CS-HOGの提案

IS2-06 第21回画像センシングシンポジウム 横浜 2015年6月 画像をスーパーピクセルに変換する手法として SLIC[5] を用いる Achanta らによって提案された SLIC 2.2 グラフマッチング は K-means をベースにした手法で 単純な K-means に いる SPIN

バイノーラルマイクを用いたライフログ映像のショット識別 Life-log Video Shot Discrimination using Binaural Microphone 山野貴一郎 伊藤克亘 法政大学大学院情報科学研究科 法政大学情報科学部 Kiichiro YAMANO Katunobu

読取革命Lite かんたん入門ガイド

DEIM Forum 2012 E Web Extracting Modification of Objec

xx/xx Vol. Jxx A No. xx 1 Fig. 1 PAL(Panoramic Annular Lens) PAL(Panoramic Annular Lens) PAL (2) PAL PAL 2 PAL 3 2 PAL 1 PAL 3 PAL PAL 2. 1 PAL

スライド 1

WISS 2018 [2 4] [5,6] Query-by-Dancing Query-by- Dancing Cao [1] OpenPose 2 Ghias [7] Query by humming Chen [8] Query by rhythm Jang [9] Query-by-tapp

1 Fig. 1 Extraction of motion,.,,, 4,,, 3., 1, 2. 2.,. CHLAC,. 2.1,. (256 ).,., CHLAC. CHLAC, HLAC. 2.3 (HLAC ) r,.,. HLAC. N. 2 HLAC Fig. 2

文字の装飾 / 配置について 文字の装飾 ( ボールド / イタリック / アンダーライン等 ) 網掛けは行わないでください 背景色は バーコード部分とのコントラストが低下する色を避けてください 文字の回転を行う場合 回転角度は 90 度 180 度 270 度以外は指定しないでください 文字間隔の

Microsoft PowerPoint - H24全国大会_発表資料.ppt [互換モード]

,,.,.,,.,.,.,.,,.,..,,,, i

帳票OCR Ver.8

2). 3) 4) 1.2 NICTNICT DCRA Dihedral Corner Reflector micro-arraysdcra DCRA DCRA DCRA 3D DCRA PC USB PC PC ON / OFF Velleman K8055 K8055 K8055

28 Horizontal angle correction using straight line detection in an equirectangular image

IPSJ SIG Technical Report Vol.2012-CG-149 No.13 Vol.2012-CVIM-184 No /12/4 3 1,a) ( ) DB 3D DB 2D,,,, PnP(Perspective n-point), Ransa

3.1 Thalmic Lab Myo * Bluetooth PC Myo 8 RMS RMS t RMS(t) i (i = 1, 2,, 8) 8 SVM libsvm *2 ν-svm 1 Myo 2 8 RMS 3.2 Myo (Root

Microsoft PowerPoint CRCフォーラム「動的背景差分(中島)」Web公開用.ppt

BOK body of knowledge, BOK BOK BOK 1 CC2001 computing curricula 2001 [1] BOK IT BOK 2008 ITBOK [2] social infomatics SI BOK BOK BOK WikiBOK BO

DEIM Forum 2019 H Web 1 Tripadvisor

2. CABAC CABAC CABAC 1 1 CABAC Figure 1 Overview of CABAC 2 DCT 2 0/ /1 CABAC [3] 3. 2 値化部 コンテキスト計算部 2 値算術符号化部 CABAC CABAC

i OCR Optical Character Recognition OCR MSER SWT OCR End-to-End

& 3 3 ' ' (., (Pixel), (Light Intensity) (Random Variable). (Joint Probability). V., V = {,,, V }. i x i x = (x, x,, x V ) T. x i i (State Variable),

IPSJ SIG Technical Report Vol.2011-EC-19 No /3/ ,.,., Peg-Scope Viewer,,.,,,,. Utilization of Watching Logs for Support of Multi-

画像工学入門

(a) (b) (c) Canny (d) 1 ( x α, y α ) 3 (x α, y α ) (a) A 2 + B 2 + C 2 + D 2 + E 2 + F 2 = 1 (3) u ξ α u (A, B, C, D, E, F ) (4) ξ α (x 2 α, 2x α y α,

開発・運用時のガイド JDK8への移行に伴う留意点 [UNIX]

IPSJ SIG Technical Report Vol.2015-MUS-107 No /5/23 HARK-Binaural Raspberry Pi 2 1,a) ( ) HARK 2 HARK-Binaural A/D Raspberry Pi 2 1.

Microsoft Word - NumericalComputation.docx

C#の基本

[12] [5, 6, 7] [5, 6] [7] 1 [8] 1 1 [9] 1 [10, 11] [10] [11] 1 [13, 14] [13] [14] [13, 14] [10, 11, 13, 14] 1 [12]

目次 1 はじめに 利用条件 動作環境 アドインのインストール アドインの操作方法 アドインの実行 Excel CSV の出力 テンプレートの作成 編集 テンプレートのレイアウト変更 特記

Transcription:

原著 OCR 上野将義 ( 金沢大学大学院自然科学研究科,ueno@blitz.ec.t.kanazawa-u.ac.jp) 南保英孝 ( 金沢大学大学院自然科学研究科,nambo@ec.t.kanazawa-u.ac.jp) 木村春彦 ( 金沢大学大学院自然科学研究科,kimura@ec.t.kanazawa-u.ac.jp) 上田芳弘 ( 石川県工業試験場,ueda@irii.go.jp) Text extraction in natural image by using OCR score Masayoshi Ueno (Graduate School of Natural Science and Technology, Kanazawa University, Japan) Hidetaka Nambo (Graduate School of Natural Science and Technology, Kanazawa University, Japan) Haruhiko Kimura (Graduate School of Natural Science and Technology, Kanazawa University, Japan) Yoshihiro Ueda (Industrial Research Institute of Ishikawa, Japan) 要約カメラの発達により 色々な場面での撮影が可能となった さらにカメラの解像度も高くなったため カメラで撮影した情景内の文字を認識することも可能となった 我々の周囲には数多くの文字が存在しており それらは有益な情報をもたらしている よって もし情景内の文字情報を自動的に認識することが可能となれば 様々なシステムにおいて役に立つと考えられる しかし 文字認識のためには文字列の位置を特定する必要があり 困難を伴う 本論文では 連結成分抽出法とCSERを用いて 背景を分離し文字候補を抽出する さらに 文字候補を絞り込むためにOCRスコアとヒストグラムを用いた また OCRスコアを用いることで 既存研究では不可能であった1 文字からなる文字領域を抽出することが可能となった そして 提案手法を用いた実験では 抽出精度 74.6 % という結果が得られた キーワード MSER,CSER, 文字列抽出, 文字認識,OCR スコア 1. はじめに 現在 ビデオカメラ スマートフォン端末等のカメラ付き 携帯機器の普及に伴い 利用者は様々な画像を撮影すること が可能である さらに カメラの高解像度化に伴い 情景内 の文字を認識することが可能になりつつある 私たちの身の 回りには文字情報が多く存在し それらは私たちにとって有 益な情報を提供してくれる したがって 身の回りの情景内 に存在する文字情報を認識することができれば 様々なシス テムとの連携が可能になると考えられる 例えば 店舗の名前や住所 地名などが記載されている看 板上の文字や 経路情報などの道路交通情報が記載されてい る文字を読み取り 利便性や交通の安全性向上を目的とした システムとの連携が可能である 現在 光学文字認識 (OCR) を用いて活字の文書画像をコン ピュータが編集できる形式に変換が可能であるが 情景画像 内の文字を認識することは困難である 文字を認識するには まず 文字の画像内での位置を特定する必要があるが 一般 的に情景画像内の文字の抽出 ( 認識 ) を困難にする要因として 以下が挙げられる 文字情報以外のオブジェクト ( 空 建物 車 人など ) が存 在する 文書画像と異なり文字の背景が複雑である 撮影時の状況によって外乱 ( 影や光の反射 ) を受ける したがって 情景画像内から文字を正確に取得するために は 上記の問題を克服しなければならず 本研究では 前述 したサービスの実現のために 様々な種類の情景画像から文 字列を抽出することを目的とする 2. 既存研究 情景画像内の文字列の抽出に関する手法は大きく分けて 2 つに分けることができ パッチベース処理 連結成分ベース ( 領域ベース ) 処理がある パッチベース処理では 画像内で 文字列である可能性が高いかどうかを矩形単位で機械学習を 用いて判定し 文字列の抽出を行う (Chen and Yuille, 2004; Kim et al., 2003) しかし パッチベース処理で得られる抽出 結果は背景と文字列の分離ができておらず 抽出した文字列 を認識するためにはさらに処理を加える必要がある パッチベース処理に対して 連結成分ベース処理では 同 一文字のピクセルは類似した特性を持つと仮定し 同一文字 の連結成分を利用してピクセルを領域にグループ化すること で各文字を抽出している 連結成分ベース処理の利点は 連 結成分の濃淡が一般的に文字列の特性 ( スケール 方向 フォ ント ) に依存しないことである また 連結成分ベース処理 の中でも 文字抽出の際に Maximally Stable Extremal Regions (MSER) をベースとした手法が有効である (Chen et al., 2011; Neumann and Matas, 2012; Yin et al., 2014) しかし MSER は多くの領域を検出してしまうことが問題である そこで MSER をベースとした CSER(Class Specific Extremal Regions) では 簡易的に文字 非文字の分類を行っている (Neumann and Matas, 2012) CSER では 連結成分を 2 値化した際に適 切な ERs を抽出するために 文字認識にも有効に利用できる 利点がある しかし 文字 非文字の分類を行っていながらも それでもなお抽出される文字候補の数は多く その後の文字 Union Press 科学 技術研究第 5 巻 1 号 2016 年 53

列生成を困難にする要因となっている 既存研究では 与え られた画像からグレイスケールに変換し 画像 1 枚から抽出 を行っているため 外乱 ( 影や光 ) の影響を受けると文字列を 正しく抽出できない (Yin et al., 2014) さらに 情景内の単一 の文字は既存研究では考慮されていない 3. データセット 本研究で用いるデータセットは ICDAR2003 で利用された データセットの合計 251 枚である (Lucas et al., 2003) データ セットの画像の詳細は以下の通りである 画像サイズ :307 93 から 1280 960 対象文字 : 英数字のみ カラー画像のみ 文字数 : 最低 1 文字以上画像内に存在 4. 提案手法 本研究では 背景と文字が分離できているという利点と簡 易的に文字分類を行っている CSER を用いて文字候補を抽出 する そして 得られた領域に OCR を利用して OCR スコアを 取得し それを利用して文字候補の削減を行った後 文字列 を抽出する手法を提案する また OCR スコアを利用すること で既存研究では行われていなかった単一文字の抽出も可能で あると考えられる 本研究の流れは 大きく分けて 1. 文字候 補の抽出 2. 文字候補の削減 3. 文字列の抽出である 図 1 に各段階の処理結果を示す MSER を用いて 画像内から安定した領域を抽出する 抽出した領域に対してメディアンフィルタを用いて平滑化 処理を行う CSER を用いて文字候補を抽出する 4.1.1 MSER MSER は Matas et al. (2004) で提案された領域分割の手法 であり 画像中の輝度値が類似した画素を 1 つの領域にまと めていく手法である 抽出された領域は周りの画素値と比較 して明るい または暗い領域である MSER はグレイスケー ル画像に対して閾値を徐々に変化させることで領域を抽出す る MSER は以下の手順で処理を行う 濃淡画像から 閾値を徐々に変化させ連続する 2 値画像を 生成する 各 2 値画像の連結領域 (Extremal Regions) を求める 面積の変化が最も緩やか (Maximally Stable) な連結領域を 特徴領域とする 4.1.2 CSER CSER は Neumann らによって提案された手法である 基本 的な考え方は 適切な Extremal Regions(ERs) を画像の全コ ンポーネント木から選択する点で MSER に似ている しかし CSER では文字検出の分類学習を利用することで適切な ERs を 選択する点で MSER と異なる したがって MSER によって抽 出された安定した領域が必ずしも選択されるわけではない CSER ではグレイスケール画像を利用するが 本研究では RGB 各要素 [1] とそれらを反転させた画像 [2]( 計 6 枚 ) を利用し [1], [2] の抽出結果をまとめ 計 2 枚の抽出結果を取得した なお グループ化する際には文字候補同士が 80 % 以上重なっていれ ば 同一領域とみなした (a) (c) (e) 4.1 文字列候補の抽出 図 1: 各段階の処理結果 注 :( a) 元画像 (b) 全文字候補 (c)ocr スコア適用後 (d) 類似画像抽出 (e) 文字列生成 (f) 文字列統合 文字候補の抽出は以下の手順で行う (b) (d) (f) カラー画像を RGB それぞれの要素に分割する 4.2 問題点 CSER を利用して文字領域の抽出を行った結果を図 2(a) に示す なお 青枠で囲んだ結果はグレイスケール画像をそのままCSER で検出した領域で 黄色枠で囲んだ結果は それらのグレイスケールの画素値を反転させた画像から得られた領域である 以降に記載する画像に関しても同様である 図 2(a) の TALLE の文字は MSERでは検出されていたが CSERの結果では抽出できなくなっている 図 2(a) の抽出できなかった文字を切り取り拡大すると図 2(b) のような画像が得られた 図 2(b) より 黒字の上に光や文字が書かれている材質の影響で白い部分が点のように見える部分が存在する事が分かる この部分が影響し 2 値化した際に一つの領域としてとらえることができずに CSER で非文字に分類されたと考えられる そこで 画像全体にメディアンフィルタを適用して輝度値を平滑化することにより CSER で先ほど抽出できなかった領域が抽出できた ( 図 2(c)) しかし メディアンフィルタで安定した領域を作った分 CSER 後の文字抽出数が多くなってしまうという問題が出てきた そこで MSER で抽出された領域に対してのみメディアンフィルタを用いて平滑化すること 54 Studies in Science and Technology, Volume 5, Number 1, 2016

上野将義他 :OCR スコアを利用した情景画像内の文字列抽出 0.7 r < 0.9 かつ s α2 0.6 r < 0.7 かつ s α3 0.5 r < 0.6 かつ s α4 により 画像全体ではなく部分的に平滑化を行い文字抽出数 の増加を抑制させた 4.3 文字列候補の削減 CSER を用いて抽出された文字候補では候補数が多いために 文字列の生成を困難にする したがって より信頼性の高い 文字候補のみを残すことで文字列の生成を容易にすることを 試みる 文字候補の削減は OCR スコアと 2 つの画像間のヒス トグラムを比較することで行う 以下にその流れを示す 抽出した画像に対して OCR スコアを計算する OCR スコアを閾値として 閾値以上の文字候補のみを抽出 する (a) (b) (c) 抽出された文字候補を基準として 水平方向に存在した閾 値以下の文字候補との類似度を計算する 類似性があると判断されれば文字候補として抽出する 4.3.1 OCR スコアの利用 オープンソースのソフトウェアである Tesseract-OCR を利 用した (Tesseract-OCR, 2015) また 事前の実験により同じ 画像でも特に画像サイズが大きい場合に認識精度が悪くなる ため 120 80 のサイズに正規化を行った また 正規化す るサイズより小さい画像は拡大することで逆に誤認識したた め 処理を行わなかった そして 本来文字領域であっても 閾値未満となる可能性があるので 水平方向に存在した文字 候補とのヒストグラムの類似度を算出し 類似していれば文 字とした また 全ての文字候補が閾値未満の場合は 画像 内から最低 1 文字は抽出されるように スコア値が最も高い 候補を抽出した 4.3.1 類似画像の抽出 ヒストグラムの類似度の算出には バタチャリヤ距離を用 いた バタチャリヤ距離とは 二つの分布を独立事象とみな した時のそれらの同時確率に対する自己情報量として定義さ れる OCR スコアが閾値以上であった文字候補と水平方向に 存在する文字候補との垂直方向の割合 r を求め その r に応じ てヒストグラムの類似度 s の閾値 (α1 ~ α4) を変更し 以下 の条件を満たせば文字候補とした r 0.9 かつ s < α1 図 2: メディアンフィルタによる平滑化 注 :( a) メディアンフィルタ不使用 (b) 拡大画像 (c) メディアンフィルタ使用 また α1 から α4 になるにしたがって閾値の値は小さく設定 した 4.4 文字列の抽出 4.4.1 文字列の作成 本研究では 英数字文字のみを対象としているため 文字 列は水平方向に存在する また 同一文字列内の背景色 bc ま たは文字色 cc は同色であると考えられる したがって ある 文字候補から水平方向の文字候補を探索し 見つかった文字 候補の背景色または文字色が類似していれば同一文字列とし た k 平均法 (k = 2) を利用し あらかじめ抽出候補の画素値 を取得し それぞれの重心と比較することで背景色と文字色 を決定した k 平均法では初期値設定によって異なる結果が 得られることがわかっているが 本研究では k-means++ 法を 利用した (Arthur, 2007) なお 文字色と背景色を算出した際 に重心の距離を算出し ほぼ一致する文字候補に関しては同 一の文字候補であると判断し 候補から削除した 文字列の 作成条件を以下に示す (β1 ~ β4) は閾値である 文字列の 作成では あらかじめ水平方向の文字との垂直方向の重なり 具合 ( 割合 r) を求め それを基に以下の条件を適用した また 文字列内に文字が 2 文字存在する場合は 以下の条件に加え 文字同士の距離を計算し 文字の高さより小さければ文字列 とした r 0.9 かつ bc < β1 0.5 r <0.6 かつ bc < β2 0.5 r <0.6 かつ cc β3 かつ bc β3 0.5 r <0.6 かつ cc β4 かつ bc β4 β4 になるにしたがって値は小さくなるように設定した これ は文字候補が多くなった場合に 縦方向の重なる割合が低く なると選択される文字候補も多くなり 誤ってグループ化す ることを防ぐためである 4.4.2 文字列の統合または削除 文字列として作成した文字列内にさらに文字列が作成され ていたり 文字列内に文字が抽出されたりする これは A や R などの文字では A の中にある三角の領域や R の中にある D のように見える領域が抽出されるためである そこで 重なっ ている文字列または文字を統合または削除するようにした 以下にその処理の流れ 統合条件を示す ある文字列 T の高さ 幅をそれぞれ height (T) width (T) と考える 文字列 A と重なっている文字列 B の A における位置を計算 する A を 3 等分したときの中間に B が存在 ( または共有 ) しない 場合 B は独立しているとみなす B が A の中間を共有する場合 B を削除または A と B を統 科学 技術研究第 5 巻 1 号 2016 年 55

合する 統合または削除の条件 height(b) height(a) の場合 統合した場合に width(a) の拡大する長さを計算し A に存在する文字 3 個分の長 さ以下ならば統合 そうでなければ B を削除 height (B) height (A) の場合は統合 B が A の領域の中に完全に存在する場合は B を削除 4.4.3 単一文字の抽出または削除文字列を生成しなかった文字候補は単一文字と考えることができる しかし それらをすべて残した場合 非文字が文字として抽出される ( 特に文字の場合誤認識 ) ことが多かった したがって 今回は数字と認識された文字候補のみを単一文字として抽出した 5. 実験本研究では OpenCV3.0(OpenCV, 2015) を利用した また CPUが Core i5 1.80 GHzの PCを用いた 5.1 評価方法データセット内に正解領域の座標を示したファイルが存在する 正解データでは単語ごとに文字領域が記されており 図示すると図 3(a) のようになる しかし 本手法で対象とする領域は単語ごとではなく 同一直線上にある場合は1 つの領域として抽出を行うため 図 3(b) のように正解データの修正を行った 評価方法には 再現率 適合率 F 値を用いた 再現率 (Recall) 画像中の正解データの領域を画素数 A 抽出した領域でかつ正しい領域の画素数をBとすると 以下の式で定義される Recall = A / B 適合率 (Precision) 本実験で抽出した文字列領域の画素数を C とすると 以下 の式で定義される F 値 Precision = B / C 再現率と適合率の調和平均であり 再現率を R 適合率を P とすると 以下の式で定義される F-Measure = 2RP / (R + P) 5.2 実験結果 評価結果を表 1 に示す 表中の Yun et al. (2014) の結果は 本研究と同じ評価方法で行ったものである その他の手法 (Pan et al., 2011; Lee et al., 2011; Epshtein et al., 2010) の結果は 単語ごとの抽出精度に関するものであるが 再現率に関して はほぼ変化がないと考えられるため その結果から有効性を 確認できる 6. 考察 6.1 背景と文字が同色の画像 図 4: 文字抽出結果 図 5 は文字色が背景色と同色のため 文字領域を抽出でき なかった例である MSER を利用しても文字色と背景色が同 じ場合は閾値によって 2 値化した場合に同じタイミングで変 化するため抽出ができないと考えられる (a) (b) 図 3: 正解データの修正 注 :( a) 修正前 (b) 修正後 図 5: 背景と文字が同色の場合 表 1: 実験結果 Recall(%) Precision(%) F-measure(%) Proposed method 75.8 73.4 74.6 Yin et al., 2014 69.5 77.1 73.1 Pan et al., 2011 68.0 67.0 67.0 Lee et al., 2011 66.0 75.0 70.0 Epshtein et al. 2010 73.0 60.0 66.0 56 Studies in Science and Technology, Volume 5, Number 1, 2016

上野将義他 :OCR スコアを利用した情景画像内の文字列抽出 6.2 文字削減の際に誤って文字を削除した画像 図 6(c) は ヒストグラムの類似度を比較したときに誤って 削除した例である 左から抽出した全文字候補 OCR スコア で文字削減を行った後 ヒストグラムの比較後の画像である OCR スコアで文字削減を行った際に 本来文字領域である候 補のスコアが低かったため誤削除が生じている 図 6(b) では 抽出した全文字候補のスコアが閾値より低かったため スコ アが最も高い文字が 1 個抽出されている しかし 1 個の場合 今回のように文字以外の候補を選択する可能性が高くなるた め 適切な個数を抽出するための改善が必要である (a) (b) (c) 図 6: 文字候補の誤削除の例 注 :( a) 文字候補 (b)ocr スコア適用後 (c) ヒストグラム比較後 図 8: 単一文字の抽出例 6.5 同一文字の要素が離れている画像 MSER や CSER では 文字が連結している場合は1 つの領域として抽出が可能であるため 英数字に対しての文字抽出は有効であるが 平仮名の い や う のように離れている場合には有効ではないと考えられる 本研究では英数字を対象としているが 図 9 のように英字でも要素が離れている画像が存在した しかし 本手法では OCR スコアを利用して抽出した文字候補から水平方向に類似したヒストグラムを持つ候補を文字候補として採用することができるため 図 9(d) に示すように 文字の構成要素が離れていても抽出が可能である 6.3 適合率に関して本研究では OCR スコアを利用したため ある程度文字候補が多くても非文字列を抽出した数を減らすことができた しかし 画像によっては図 7 のように特に窓やレンガなどの規則性のある個所を文字列と誤判別して抽出してしまうため 文字部分は正しく抽出できているが 適合率が著しく悪くなる画像が存在した したがって 抽出した文字列が実際に文字列かどうかを判定する処理を加える必要がある (a) (b) (c) (d) 図 9: 非連結文字抽出の成功例 注 :( a) 全文字候補 (b)ocr スコア適用後 (c) 類似画像検出後 (d) 文字抽出後 図 7: 適合率が悪くなる画像の例 6.4 単一文字の抽出本研究では OCR スコアを利用したため 文字列のみを対象としていた従来手法では対象外となっていた単一文字の抽出を行うことができた 今回は適合率の関係から数字に限定して抽出を行ったため 本来英字で抽出ができていた文字を棄却した画像が数枚あった したがって 今後は数字のみではなく英字を抽出できるように工夫する必要がある 7. まとめ現在 カメラ付き携帯端末の普及に伴い利用者は様々な画像を撮影することが可能である 文書画像内の文字を認識することは可能であるが 情景画像内の文字を認識することは 背景の複雑さや外乱の影響を受けるため 一般的に困難である 本研究では 同一文字のピクセルは類似した特性を持つことから連結成分ベース処理を利用した また MSERをベースとした手法であるCSER を利用した後 文字候補の削減を目的にOCR スコアを利用した手法を提案した その結果 文字列に対しての抽出精度はF 値で74.6 % の結果が得られた またOCR スコアを利用することで 今回は数字のみに限定したが 単一文字に対しての抽出も可能になった 今後は図 6 科学 技術研究第 5 巻 1 号 2016 年 57

のような文字削減の失敗画像を改善することや抽出した文字 列が文字列かどうかの分類を行うことで適合率の向上が見込 めると考えられる 引用文献 Arthur, D. (2007). k-menas++: The advantages of careful seeding. Proceedings of the Eighteenth Annual ACM-SIAM Sym- Posium on Discrete Algorithm, 1027-1035. Chen, H., Tsai, S., Schroth, G., Chen, D., Grzeszczuk, R., and Girod, B. (2011). Robust text detection in natural images with edge-enhanced maximally stable extremal regions. Proceedings of the IEEE International Conference on Image Processing, 2609-2612. Chen, X. and Yuille, A. (2004). Detecting and reading text in natural scenes. Proceedings of the 2004 IEEE Computer Society Conference on Computer Vison and Pattern Recognition, Vol. 2, 366-373. Epshtein, B., Ofek, E., and Wexler, Y. (2010). Detecting text in natural scenes with stroke width transform. IEEE Conference on Computer Vision and Pattern Recognition (CVPR2010), 2963-2970. Kim, K., Jung, K., and Kim, J. (2003). Texture-base approach for text detection in images using support vector machines and continuously adaptive mean shift algorithm. IEEE Transaction on Pattern Analysis and Machine Intelligence, Vol. 25, No.12, 1631-1639. Lee, J., Lee, P., Lee, S., Yuille, A., and Koch, C. (2011). AdaBoost for text detection in natural scene. International Conference on Document Analysis and Recognition (ICDAR2011), 429-434. Lucas, S. M., Paneretos, A., Sosa, L., Tang, A., Wong, S., and Young, R. (2003). ICDAR2003 robustcompetitions. International Conference on Document Analysis and Recognition (ICDAR2003), 682-687. Matas, J., Chum, O., Urban, M., and Pajdla, T. (2004). Robust wide baseline stereo from maximally stable extremal regions. Image and Vison Computing, Vol. 22, No. 10, 761-767. Neumann, L. and Matas, J. (2012). Real-time scene text localization and recognition. 2012 IEEE Conference on Computer Vison and Pattern Recognition, 3538-3545. OpenCV (2015). http://opencv.org/(2015/1/15 アクセス ). Pan, Y., Ahu, Y., Sun, J., and Naoi, S. (2011). Improving scene text detection by scale-adaptive segmentation and weighted CRF verification. International Conference on Document Analysis and Recognition (ICDAR2011), 759-763. Tesseract-OCR Google Code (2015). https://code.google.com/ p/tesseract-ocr/(2015/1/15 アクセス ). Yin, X. C., Yin, X., Huang, K., and Hao, H. W. (2014). Robust text detection in natural scene images. IEEE Transaction on Pattern Analysis and Machine Intelligence. Vol. 36, No. 5. 970-983. ( 受稿 :2016 年 5 月 16 日受理 :2016 年 5 月 30 日 ) 58 Studies in Science and Technology, Volume 5, Number 1, 2016