ラーメン vs カレー: 2年分のログデータと高速食事画像認識エンジンを用いたTwitter分析とデータセット自動構築
|
|
|
- みりあ ことじ
- 7 years ago
- Views:
Transcription
1 ラーメン vs カレー : 2 年分のログデータと 高速食事画像認識エンジンを用いた Twitter 分析とデータセット自動構築 電気通信大学総合情報学専攻 河野憲之, 柳井啓司
2 はじめに Twitter の流行 気軽にコメントや画像を投稿可能 食事を撮影して投稿する例も多々 データセットの大規模化 数百種類や数千種類など大規模化 より実用的に
3 目的 Twitter 食事画像分析 投稿される食事画像の地域性の発見 ラーメン vs カレー 既知カテゴリの画像収集 データセットの自動構築 食事画像データセットを対象 クラウドソーシングを用いる 未知カテゴリの画像収集
4 高速食事画像認識エンジンを用いた Twitter 食事画像分析 ~ 既知カテゴリの画像収集 ~
5 関連研究 ツイートテキストの分析 ( 榊ら WWW 10) SVM+ 確率モデル 地震の検出 ツイート画像の利用 ( 金子ら ICME WS 13) グリッドごとにイベント クラスタリング
6 既発表システム (MIRU 13) 高速食事画像認識システム FoodCam ( 河野ら MIRU 13) スマートフォン上で認識 HOG-FV + Color-FV, SVM 本発表では PC 上に構築 100 種類 5 位以内 80% 以上の分類率 認識時間 秒
7 既発表システム (ICMR 12) 実時間ツイート画像地図への対応付け & 収集システム ( 柳井 ICMR 12) Twitterストリームの監視 クラスタリング 本発表では蓄えられた 2 年 4 か月分のツイートを分析
8 本発表 2 つの既発表システムを組み合わせる 実時間ツイート食事画像地図への対応付け & 収集システム 食事画像判別エンジンの導入 Twitter 食事画像の分析 識別によるアプローチ 食事画像収集 低ノイズ より実用的な画像?
9 食事画像判別エンジン 既存の 100 種類食事画像のグループ化 1-vs-rest SVMs の混同行列から混合の多いカテゴリ同士を結合 再帰的に実行 13の食事グループの作成
10 食事画像判別エンジン 各グループで SVM の学習 正例 : グループに属する食事領域 負例 : 事前に手動で収集 レストラン 出店 飲食店 夕食会 最終的な評価値は SVM の最大スコア 最大反応
11 食事画像判別エンジン 作成されたグループ例 麺系 ( ラーメン つけ麺 かけうどん 天ぷらうどん etc) 黄色系 ( オムレツ オムライス コーンスープ 茶わん蒸し etc) 汁物系 ( 味噌汁 豚汁 けんちん汁 中華スープ etc) 茶色系 ( 餃子 焼きそば たこ焼き お好み焼き etc) 揚げ物系 ( 焼き鳥 唐揚げ コロッケ 豚カツ etc) サラダ系 ( グリーンサラダ ほうれん草炒め 野菜の天ぷら etc) パン系 ( サンドウィッチ ブドウパン ロールパン クロワッサン etc) 海鮮系 ( 刺身 寿司 海鮮丼 ) ご飯系 ( チキンライス ピラフ チャーハン ご飯 ) 魚系 ( 鮭の塩焼 干物 さんまの塩焼 魚の照り焼き etc) 煮物系 ( 筑前煮 がんもどきの煮物 肉じゃが おでん etc)??( スパゲッティ スパゲッティミートソース エビチリ シチュー etc)??( 野菜炒め ゴーヤチャンプルー チンジャオロース きんぴらごぼう etc)
12 ツイート食事画像分析の流れ 1. ツイートテキストからキーワード検索 画像が添付されたツイートを対象 2. 食事画像判別エンジンにかける ノイズの除去 3. 食事画像認識エンジンにかける 上位 5 位以内に入っていれば取得 対象の食事画像の取得 4. 結果の分析
13 分析項目 100 種類の食事のそれぞれの出現枚数 食事画像集合の適合率 (300 枚無作為抽出 ) キーワード検索のみ 食事画像判別エンジン 100 種類食事画像認識エンジン 上記 2エンジンを組み合わせ 位置情報付きツイートの地理的な分布の比較 ラーメン vs カレー
14 食事画像取得結果 対象の 2 年 4 カ月の位置情報付きツイートデータ 約 10 億件 ( サンプリング ) 100 種類のキーワード検索 ( 日本語 ) 約 170 万枚 食事画像判別エンジン 種類食事画像認識エンジンで上位 5 位以内 約 47 万枚
15 100 種類の出現頻度ランキング上位 10 位 出現頻度の順位 食事名 出現頻度 1 ラーメン カレー 寿司 つけ麺 オムライス ピザ 餃子 お好み焼き ご飯 刺身 13927
16 収集された画像例 オムライスは 6 位 ケチャップで絵が描かれたものが多数 よく食べるハンバーガー (30 位 ) や 牛丼 (27 位 ) はチェーン店が多く 必ずしも上位ではない つけ麺も意外と多い
17 食事画像集合の適合率
18 キーワードのみの例 ( ラーメン )
19 食事検出の例
20 食事認識の例
21 食事検出 + 認識後の結果例
22 キーワードのみの例 ( カレー )
23 検出 + 認識後の結果例
24 ラーメンとカレーの地理的分布 合計 12 月 ( 冬季 ) 8 月 ( 夏季 ) 広島周辺ではお好み焼き ラーメンが多い カレーが多い ラーメン, カレー, お好み焼き
25 画像収集 2 同時に Twitter stream API から ラーメン で取得 APIの上限の緩和 1カ月でラーメン画像 2 万枚 4 年後には100 万枚 ラーメン FGVC 用データセットの構築 Twitter stream を監視し 実時間処理
26 まとめ Twitter のログデータに対して 食事画像の分析 食事画像判別エンジン 100 種類食事画像認識エンジン により 高精度で食事画像を収集可能 高速画像認識エンジンの応用例として 投稿されたツイートを実時間で食事画像判定し つぶやく
27 クラウドソーシングを用いた データセット自動構築 ~ 未知カテゴリの画像収集 ~
28 データセット自動構築の流れ 1. Web から食事画像を収集 ノイズのフィルタリング 2. クラウドソーシングでサンプル画像を取得 3. クラウドソーシングで BB 付き食事画像を取得
29 システムの流れ 既存 food DB foodness Web query Web API HOG FV Color FV SVM SVM 食事画像 Visual Rank (dot product between FV) サンプル選択タスク ターゲット食事画像 サンプル画像 アノテーションタスク GT つきターゲット食事画像
30 データセット自動構築の流れ 1. Web から食事画像を収集 ノイズのフィルタリング 2. クラウドソーシングでサンプル画像を取得 3. クラウドソーシングで BB 付き食事画像を取得
31 Web から食事画像を収集 問題点 ノイズが多い 全てを AMT に用いるとコストが高い 解決法 食事画像判別エンジンによるフィルタリング 未知のカテゴリに適用
32 沖縄そば 食事画像判別前
33 沖縄そば 食事画像判別後
34 ターゲットと判定に貢献したカテゴリの一部 ターゲット 食事グループの一部
35 データセット自動構築の流れ 1. Web から食事画像を収集 ノイズのフィルタリング 2. クラウドソーシングでサンプル画像を取得 3. クラウドソーシングで BB 付き食事画像を取得
36 クラウドソーシングでサンプル画像を取得 問題点 ターカーは対象の料理について知らない ノイズを除去しても 少なからず含まれる 解決法 バウンディングボックス付与作業前にサンプル画像を収集 ターカーに 30 枚画像を投げ 最も対象の料理らしいサンプルを選択してもらう
37 画像選択 収集した画像から ターカーに投げる 30 枚を決定 SVMのスコア順だと対象以外も含まれる恐れ Visual Rank 上位 300 枚を順位付け ( 上位 100 枚に重み ) Visual Rank 類似度 ---Fisher Vector の内積 Fisher Vector GMM は作成済みを使用 ( 未知カテゴリの情報はなし )
38 サンプル選択タスク タスクの特徴 30 枚を与えて 最大 7 枚 一般的なサンプルを選択してもらう リンクを与えるので勉強してもらう $ 人 少し高め 外部リンクで勉強させる また重要であるため 質の向上 チェックをしないとヒットを提出できない 設置したリンクをたどらないとヒットを提出できない
39 Visual Rank 適用前 ターゲット以外の食事画像も含まれる
40 Visual Rank 適用後
41 Color Gist 大域特徴との比較
42 チゲのサンプル画像選択タスク タスク例
43 収集結果例
44 サンプル選択結果 上位 5 枚が対象の食事であるー 98% アップで撮影された食事画像も若干数 ワーカーからの評価 (BB 付与タスクで質問 ) 有用であったまずまず有用でなかった 実際の影響については未調査
45 データセット自動構築の流れ 1. Web から食事画像を収集 2. クラウドソーシングでサンプル画像を取得 3. クラウドソーシングで BB 付き食事画像を取得
46 クラウドソーシングで BB 付き食事画像を取得 タスクの目的 人手による対象でない食事画像の除去 バウンディングボックスの付与 タスクの特徴 $ 人 質の向上 現在の状況の提示 入力時にノイズのチェック
47 結果の結合 複数のワーカーによる結果の結合 複数のバウンディングボックスが付近 x% 内に存在 ( 始点 終点 ) そのバウンディングボックスの平均 データベースに加える
48 取得したサンプル画像 タスク例 バウンディングボックス付与タスク
49 杏仁豆腐 収集結果例
50 アップルパイ 収集結果例
51 実験設定 選別方法 食事画像判別エンジン (SVM) 収集ターゲット 15 種類の未知の食事 各 1000 枚以上の画像 評価 対象の食事の適合率
52 実験結果 % SVM
53 実験設定 選別方法 クラウドソーシング (AMT) 収集ターゲット 20 種類の未知の食事 評価 対象の食事の適合率
54 実験結果 適合率 ランダム 48.6% 食事画像判別器 (15 種 ) 80.2% ( 上位 200 枚 ) AMT 96.9% ( 平均 158 枚 )
55 AMT での結果 一般的な食事画像以外の画像も多々 ワーカーの国別人口 india usa Canada French Philippine Asian
56 まとめと課題 クラウドソーシングを用い 食事画像データセットの自動拡張に取り組んだ 未知の食事に対して 既存の食事画像を用いることは有効 ターゲットの食事の知識を導入する 人手で付与したバウンディングボックスとの比較を行う
57
58 収集ターゲット食事画像 沖縄そば マンゴープリン 杏仁豆腐 冷麺 ティラミス 串カツ ベーグル ちゃんぽん 釜飯 ナチョス パエリア シーザーサラダ ワッフル アップルパイ ショートケーキ ホットケーキ ミネストローネ custard tart oyster omelette stinky tofu
59 認識実験設定 データセット 1 ( 自動 ) 今回作成したデータセット データセット 2 ( 手動 ) 既存食事画像データセットから 20 種類選択 カテゴリはそれぞれ異なる 特徴量 HOG FV (D:64, K:64, SP:0)
60 分類率 実験結果 % 候補数 自動手動
スライド 1
CNN を用いた弱教師学習による画像領域分割 下田和, 柳井啓司 電気通信大学 大学院情報理工学 研究科 総合情報学専攻 c 2015 UEC Tokyo. Convolutional Neural Network CNN クラス分類タスクにおいてトップの精度 CNN の応用 ( 物体位置の認識 ) 物体検出 物体に BB を付与 領域分割 ピクセル単位の認識 CNN を用いた領域分割 CNN による完全教師ありのセグメンテーション
ご飯茶碗 1 杯 150 もち ( 丸形 )1 個 gで1カーボ gで1カーボ 83 食パン 1 枚 60 コーンフレーク 1 人前 gで1カーボ gで1カーボ 153
糖質 炭水化物 食物繊維 2014年8月 岡崎市民病院 栄養管理室 ver.1 身長(cm ごとの適正(kcal)と適正な1日の 50 55 60 135 1,2 0 3 1 5 1 7 1 8 165 1,7 9 7 2 2 2 5 2 7 140 1,2 9 4 1 6 1 8 1 9 170 1,9 0 7 2 4 2 6 2 9 145 1,3 8 8 1 7 1 9 2 1 175 2,0
電子情報通信学会ワードテンプレート (タイトル)
DEIM Forum 2014 F8-2 同一料理に対する多様なレシピ集合からの 効率的な選別を目的とした可視化手法 村瀬秀牛尼剛聡 九州大学芸術工学部 815-8540 福岡市南区塩原 4-9-1 九州大学大学院芸術工学研究院 815-8540 福岡市南区塩原 4-9-1 E-mail: [email protected], [email protected] あらまし近年,
カーボカウント表
炭 水 化 物 の 目 安 を 把 握 しましょう! 食 後 の 高 血 糖 は 主 に 食 事 に 含 まれる 炭 水 化 物 の 影 響 を 受 けています そのため 食 事 のバランスを 維 持 した 上 で に 注 意 していくことが 大 切 です 交 換 表 表 1 ( 主 食 芋 類 ) すべて80kcal 名 米 飯 全 粥 切 り 餅 食 パン 重 さ 50g 110g 35g 30g
時空間特徴を用いた Web動画からの特定動作対応ショットの 自動抽出
Web 動画 画像を用いた 特定動作ショットの自動収集 DO HANG NGA 樋爪和也柳井啓司 電気通信大学情報工学科 背景 既存の動画学習手法制限のある動画像 (e.g. KTH, Caltech) 教師なし学習手法 Web 上の動画 教師信号あり 動画量が少ない 研究の目的 特定動作についての Web データを使用して その動作の対応ショットを自動抽出 大量の Web 動画 ランキング 学習の必要なし
2018年12月種類別献立表.xls
2018 年 12 月ひまわり御膳献立幅広い世代に対応する健康維持 増進を目的とした御膳 25 日 001221 ハンバーグデミグラスソース 001112 エビカツ 26 月 001109 肉じゃが 001069 鶏肉のねぎ塩レモンだれ 27 火 001344 カレイの黒胡麻ソース 001552 メンチカツハヤシソース 28 水 001066 ガーリックシュリンプ 001320 牛肉の洋風煮込み 29
Automatic Collection of Web Video Shots Corresponding to Specific Actions using Web Images
視覚特徴およびタグ共起を用いた 大規模 Web ビデオショットランキング 電気通信大学大学院情報理工学研究科 総合情報学専攻 Do Hang Nga 柳井啓司 背景 Web 動画 : 無限に存在 無料で取得可能 - YouTube, Daily Motion etc. Web 動画による動作データ収集 ただし Web 上の動画はノイズが多い 関連動画 Play trumpet 非関連動画 非対応ショット
IHクッキングヒーター レシピブック
もくじ I H ヒ ー タ ー 煮る 肉じゃが 6 豚の角煮 / おでん 7 ロールキャベツ / 鶏肉と野菜のスープ 8 かれいの煮付け / かぼちゃの煮物 9 煮豆 / ポークカレー 10 蒸す 肉まん 11 茶碗蒸し / シュウマイ 12 ゆでる アジアンにゅうめん 13 ほうれん草のゴマ和え / マカロニサラダ 14 スパゲッティミートソース / ミートソース 15 焼く パンケーキ 16 厚焼き卵
nlp1-12.key
自然言語処理論 I 12. テキスト処理 ( 文字列照合と検索 ) 情報検索 information retrieval (IR) 広義の情報検索 情報源からユーザの持つ問題 ( 情報要求 ) を解決できる情報を見つけ出すこと 狭義の情報検索 文書集合の中から ユーザの検索質問に適合する文書を見つけ出すこと 適合文書 : 検索質問の答えが書いてある文書 テキスト検索 (text retrieval)
2008年度 北海道・九州・沖縄の夏商品のポイント
JTB WEB アンケート 調査結果 (vol.111) 2019 年 1 月 24 日 旅先で楽しむ 食 についてのアンケート調査 90% の方が 旅先で 食 を楽しんだ経験あり! すべての設問で 北海道 が第 1 位に! おいしいと思った名産品や食事 今後食べたい名産品や食事 おすすめしたい名産品や食事 食 の写真のシェア経験の有無は 20 代は 7 割強が経験あり しかし 40 代以上は半数以上が経験なし
Microsoft Word - Document1
RICE & SUSHI California Roll 2PCS $1 California Roll 4PCS $2 California Roll 8PCS $4 カリフォルニアロール Sushi Roll with Imitation Crab Meat Deep Fry Cali Roll 2PCS $2 Deep Fry Cali Roll 4PCS $4 Deep Fry Cali Roll
Microsoft PowerPoint - pr_12_template-bs.pptx
12 回パターン検出と画像特徴 テンプレートマッチング 領域分割 画像特徴 テンプレート マッチング 1 テンプレートマッチング ( 図形 画像などの ) 型照合 Template Matching テンプレートと呼ばれる小さな一部の画像領域と同じパターンが画像全体の中に存在するかどうかを調べる方法 画像内にある対象物体の位置検出 物体数のカウント 物体移動の検出などに使われる テンプレートマッチングの計算
二項ソフトクラスタリング分析例 この資料では Visual Mining Studio のアイコン Dyadic Soft Clustering を使って 二項ソフトクラスタリング 分析をする方法を説明します 二項ソフトクラスタリングは一般的には PLSI, PLSA などの名前で知られています 株
二項ソフトクラスタリング分析例 この資料では Visual Mining Studio のアイコン Dyadic Soft Clustering を使って 二項ソフトクラスタリング 分析をする方法を説明します 二項ソフトクラスタリングは一般的には PLSI, PLSA などの名前で知られています 株式会社 NTT データ数理システム Copyright 2013 NTT DATA Mathematical
White Paper 高速部分画像検索キット(FPGA アクセラレーション)
White Paper 高速部分画像検索キット (FPGA アクセラレーション ) White Paper 高速部分画像検索キット (FPGA アクセラレーション ) Page 1 of 7 http://www.fujitsu.com/primergy Content はじめに 3 部分画像検索とは 4 高速部分画像検索システム 5 高速部分画像検索の適用時の改善効果 6 検索結果 ( 一例 )
画像投稿掲示板マニュアル
BeingCollaboration ~ 画像投稿掲示板マニュアル ~ Ver5.57.00 株式会社ビーイングサポートセンター TEL : 059-221-0815 受付時間 : 9:00~18:00 ( 土日祝祭日を除く ) E-mail : [email protected] 目次 1 画像投稿掲示板とは... 3 2 ログインするには... 4 ログイン方法の違いによる利用可能機能の違い...
コンピュータ応用・演習 情報処理システム
2010 年 12 月 15 日 データエンジニアリング 演習 情報処理システム データマイニング ~ データからの自動知識獲得手法 ~ 1. 演習の目的 (1) 多種多様な膨大な量のデータを解析し, 企業の経営活動などに活用することが望まれている. 大規模データベースを有効に活用する, データマイニング技術の研究が脚光を浴びている 1 1. 演習の目的 (2) POS データを用いて顧客の購買パターンを分析する.
PowerPoint プレゼンテーション
発行日 :2017 年 4 月 28 日 KSP-POS マーケットトレンドレポート Vol.95 カップ麺 日清食品は 濃厚なのに健康志向 の新商品 カップヌードルナイス を発売 東洋水産は 若手 をターゲットとした新ブランド QTTA を発売 新商品が好調に推移している *POS データの対象店舗数 抽出期間等は巻末参照 新商品 --- 日清食品 ----------------------------------------------------------------------------------
01
01 02 03 04 05 06 Twitter 07 08 09 PC 2,000,000 10 PC 6,500,000 11 SP 1,000,000 12 SP 1,000,000 13 SP 3,000,000 14 PC SP 2,500,000 15 PC SP 6,500,000 16 17 18 PC 1,000,000 19 PC 5,000,000 20 SP 500,000
May 日 付 6 日 16 日 26 日 7 日 17 日 27 日 8 日 18 日 28 日 9 日 ( まで ) 19 日 29 日 10 日 ( から ) 20 日 30 日 パン付き 白身魚の唐揚げ ベーコンと野菜の炒め 大根と人参の煮物 鯖の塩焼き トマト入りスクランブル
2016.5 May 日 付 1 日 11 日 21 日 31 日 2 日 12 日 22 日 3 日 13 日 23 日 4 日 14 日 24 日 5 日 15 日 25 日 パン付き 白身魚の唐揚げ ベーコンと野菜の炒め 大根と人参の煮物 鯖の塩焼き トマト入りスクランブルエッグ ソーセージとキャベツのコンソメ煮 ひじきの煮物 鯵の南蛮漬け 卵炒り豆腐 照焼きミートボール きんぴらごぼう 鯖の味噌煮
スライド 1
旭川市版食事バランスガイド 旭山動物園のキングペンギンは 冬になると運動不足解消のため園内を散歩します 水 お茶 江丹別そばは全国的に有名です 旭川産の野菜は YES!Clean を取得している安全野菜がたくさんあります 旭川はお米作りに恵まれた土地で, とてもおいしいお米ができます 一日の想定エネルギー量 2,200±200Kcal の場合 旭川には, いちご, りんご, サクランボなどの果物狩り農園がたくさん!
シズルワードに着目したTwitter上のおいしさ表現の分析
シズルワードに着目した Twitter 上のおいしさの 表現の分析 加藤大介 ( 甲南大学 ) 宮部真衣 ( 京都大学 ) 荒牧英治 ( 京都大学 ) 灘本明代 ( 甲南大学 ) 背景 食品に関する表現は膨大な種類がある モチモチ 弾力のあるもの, 粘性のあるもの ジューシー 肉類, 脂分の多いもの, 火を通した料理 産地直送 野菜, 果物, 魚介類 背景 食品に関する表現は膨大な種類がある 食品
Microsoft Word - 06.doc
ダム施設維持管理のためのアセットマネジメントシステム の開発 長崎大学工学部社会開発工学科 岡林 隆敏 ダム施設維持管理のためのアセットマネジメントシステムの開発 1 はじめに 岡林隆敏 国内には これまでに数多くのダムが建設され 治水 利水に大いに貢献してきている 一方で 社会基盤施設への公共予算の投資が制約される中 既存の施設が有する機能を将来にわたって持続させ続けるための管理方策の構築が必要とされる
