ラーメン vs カレー: 2年分のログデータと高速食事画像認識エンジンを用いたTwitter分析とデータセット自動構築

ラーメン vs カレー : 2 年分のログデータと高速食事画像認識エンジンを用いた Twitter 分析とデータセット自動構築電気通信大学総合情報学専攻河野憲之, 柳井啓司

はじめに Twitter の流行気軽にコメントや画像を投稿可能食事を撮影して投稿する例も多々データセットの大規模化数百種類や数千種類など大規模化より実用的に

目的 Twitter 食事画像分析投稿される食事画像の地域性の発見ラーメン vs カレー既知カテゴリの画像収集データセットの自動構築食事画像データセットを対象クラウドソーシングを用いる未知カテゴリの画像収集

高速食事画像認識エンジンを用いた Twitter 食事画像分析 ~ 既知カテゴリの画像収集 ~

関連研究ツイートテキストの分析 ( 榊ら WWW 10) SVM+ 確率モデル地震の検出ツイート画像の利用 ( 金子ら ICME WS 13) グリッドごとにイベントクラスタリング

既発表システム (MIRU 13) 高速食事画像認識システム FoodCam ( 河野ら MIRU 13) スマートフォン上で認識 HOG-FV + Color-FV, SVM 本発表では PC 上に構築 100 種類 5 位以内 80% 以上の分類率認識時間 0.024 秒

既発表システム (ICMR 12) 実時間ツイート画像地図への対応付け & 収集システム ( 柳井 ICMR 12) Twitterストリームの監視クラスタリング本発表では蓄えられた 2 年 4 か月分のツイートを分析

本発表 2 つの既発表システムを組み合わせる実時間ツイート食事画像地図への対応付け & 収集システム食事画像判別エンジンの導入 Twitter 食事画像の分析識別によるアプローチ食事画像収集低ノイズより実用的な画像?

食事画像判別エンジン既存の 100 種類食事画像のグループ化 1-vs-rest SVMs の混同行列から混合の多いカテゴリ同士を結合再帰的に実行 13の食事グループの作成

食事画像判別エンジン各グループで SVM の学習正例 : グループに属する食事領域負例 : 事前に手動で収集レストラン出店飲食店夕食会最終的な評価値は SVM の最大スコア最大反応

食事画像判別エンジン作成されたグループ例麺系 ( ラーメンつけ麺かけうどん天ぷらうどん etc) 黄色系 ( オムレツオムライスコーンスープ茶わん蒸し etc) 汁物系 ( 味噌汁豚汁けんちん汁中華スープ etc) 茶色系 ( 餃子焼きそばたこ焼きお好み焼き etc) 揚げ物系 ( 焼き鳥唐揚げコロッケ豚カツ etc) サラダ系 ( グリーンサラダほうれん草炒め野菜の天ぷら etc) パン系 ( サンドウィッチブドウパンロールパンクロワッサン etc) 海鮮系 ( 刺身寿司海鮮丼 ) ご飯系 ( チキンライスピラフチャーハンご飯 ) 魚系 ( 鮭の塩焼干物さんまの塩焼魚の照り焼き etc) 煮物系 ( 筑前煮がんもどきの煮物肉じゃがおでん etc)??( スパゲッティスパゲッティミートソースエビチリシチュー etc)??( 野菜炒めゴーヤチャンプルーチンジャオロースきんぴらごぼう etc)

ツイート食事画像分析の流れ 1. ツイートテキストからキーワード検索画像が添付されたツイートを対象 2. 食事画像判別エンジンにかけるノイズの除去 3. 食事画像認識エンジンにかける上位 5 位以内に入っていれば取得対象の食事画像の取得 4. 結果の分析

分析項目 100 種類の食事のそれぞれの出現枚数食事画像集合の適合率 (300 枚無作為抽出 ) キーワード検索のみ食事画像判別エンジン 100 種類食事画像認識エンジン上記 2エンジンを組み合わせ位置情報付きツイートの地理的な分布の比較ラーメン vs カレー

食事画像取得結果対象の 2 年 4 カ月の位置情報付きツイートデータ約 10 億件 ( サンプリング ) 100 種類のキーワード検索 ( 日本語 ) 約 170 万枚食事画像判別エンジン + 100 種類食事画像認識エンジンで上位 5 位以内約 47 万枚

100 種類の出現頻度ランキング上位 10 位出現頻度の順位食事名出現頻度 1 ラーメン 80021 2 カレー 59264 3 寿司 25898 4 つけ麺 22158 5 オムライス 17520 6 ピザ 16921 7 餃子 16014 8 お好み焼き 15234 9 ご飯 14264 10 刺身 13927

収集された画像例オムライスは 6 位ケチャップで絵が描かれたものが多数よく食べるハンバーガー (30 位 ) や牛丼 (27 位 ) はチェーン店が多く必ずしも上位ではないつけ麺も意外と多い

食事画像集合の適合率

キーワードのみの例 ( ラーメン )

食事検出の例

食事認識の例

食事検出 + 認識後の結果例

キーワードのみの例 ( カレー )

検出 + 認識後の結果例

ラーメンとカレーの地理的分布合計 12 月 ( 冬季 ) 8 月 ( 夏季 ) 広島周辺ではお好み焼きラーメンが多いカレーが多いラーメン, カレー, お好み焼き

画像収集 2 同時に Twitter stream API からラーメンで取得 APIの上限の緩和 1カ月でラーメン画像 2 万枚 4 年後には100 万枚ラーメン FGVC 用データセットの構築 Twitter stream を監視し実時間処理

まとめ Twitter のログデータに対して食事画像の分析食事画像判別エンジン 100 種類食事画像認識エンジンにより高精度で食事画像を収集可能高速画像認識エンジンの応用例として投稿されたツイートを実時間で食事画像判定しつぶやく

クラウドソーシングを用いたデータセット自動構築 ~ 未知カテゴリの画像収集 ~

データセット自動構築の流れ 1. Web から食事画像を収集ノイズのフィルタリング 2. クラウドソーシングでサンプル画像を取得 3. クラウドソーシングで BB 付き食事画像を取得

システムの流れ既存 food DB foodness Web query Web API HOG FV Color FV SVM SVM 食事画像 Visual Rank (dot product between FV) サンプル選択タスクターゲット食事画像サンプル画像アノテーションタスク GT つきターゲット食事画像

Web から食事画像を収集問題点ノイズが多い全てを AMT に用いるとコストが高い解決法食事画像判別エンジンによるフィルタリング未知のカテゴリに適用

沖縄そば食事画像判別前

沖縄そば食事画像判別後

ターゲットと判定に貢献したカテゴリの一部ターゲット食事グループの一部

クラウドソーシングでサンプル画像を取得問題点ターカーは対象の料理について知らないノイズを除去しても少なからず含まれる解決法バウンディングボックス付与作業前にサンプル画像を収集ターカーに 30 枚画像を投げ最も対象の料理らしいサンプルを選択してもらう

画像選択収集した画像からターカーに投げる 30 枚を決定 SVMのスコア順だと対象以外も含まれる恐れ Visual Rank 上位 300 枚を順位付け ( 上位 100 枚に重み ) Visual Rank 類似度 ---Fisher Vector の内積 Fisher Vector GMM は作成済みを使用 ( 未知カテゴリの情報はなし )

サンプル選択タスクタスクの特徴 30 枚を与えて最大 7 枚一般的なサンプルを選択してもらうリンクを与えるので勉強してもらう $0.06 4 人少し高め外部リンクで勉強させるまた重要であるため質の向上チェックをしないとヒットを提出できない設置したリンクをたどらないとヒットを提出できない

Visual Rank 適用前ターゲット以外の食事画像も含まれる

Visual Rank 適用後

Color Gist 大域特徴との比較

チゲのサンプル画像選択タスクタスク例

収集結果例

サンプル選択結果上位 5 枚が対象の食事であるー 98% アップで撮影された食事画像も若干数ワーカーからの評価 (BB 付与タスクで質問 ) 有用であったまずまず有用でなかった 763 103 22 実際の影響については未調査

データセット自動構築の流れ 1. Web から食事画像を収集 2. クラウドソーシングでサンプル画像を取得 3. クラウドソーシングで BB 付き食事画像を取得

クラウドソーシングで BB 付き食事画像を取得タスクの目的人手による対象でない食事画像の除去バウンディングボックスの付与タスクの特徴 $0.05 4 人質の向上現在の状況の提示入力時にノイズのチェック

結果の結合複数のワーカーによる結果の結合複数のバウンディングボックスが付近 x% 内に存在 ( 始点終点 ) そのバウンディングボックスの平均データベースに加える

取得したサンプル画像タスク例バウンディングボックス付与タスク

杏仁豆腐収集結果例

アップルパイ収集結果例

実験設定選別方法食事画像判別エンジン (SVM) 収集ターゲット 15 種類の未知の食事各 1000 枚以上の画像評価対象の食事の適合率

実験結果 90 80 70 60 50 40 30 20 10 80.2% SVM 0 0-200 200-400 400-600 600-800 800-1000

実験設定選別方法クラウドソーシング (AMT) 収集ターゲット 20 種類の未知の食事評価対象の食事の適合率

実験結果適合率ランダム 48.6% 食事画像判別器 (15 種 ) 80.2% ( 上位 200 枚 ) AMT 96.9% ( 平均 158 枚 )

AMT での結果一般的な食事画像以外の画像も多々ワーカーの国別人口 india usa Canada French Philippine Asian 1000 271 19 2 1 1

まとめと課題クラウドソーシングを用い食事画像データセットの自動拡張に取り組んだ未知の食事に対して既存の食事画像を用いることは有効ターゲットの食事の知識を導入する人手で付与したバウンディングボックスとの比較を行う

収集ターゲット食事画像沖縄そばマンゴープリン杏仁豆腐冷麺ティラミス串カツベーグルちゃんぽん釜飯ナチョスパエリアシーザーサラダワッフルアップルパイショートケーキホットケーキミネストローネ custard tart oyster omelette stinky tofu

認識実験設定データセット 1 ( 自動 ) 今回作成したデータセットデータセット 2 ( 手動 ) 既存食事画像データセットから 20 種類選択カテゴリはそれぞれ異なる特徴量 HOG FV (D:64, K:64, SP:0)

分類率実験結果 100 90 80 70 60 50 40 30 20 10 0 11.1% 1 2 3 4 5 6 7 8 9 10 候補数自動手動