Aberdeen, D., Pacovsky, O., and Slater, A., The Learning Behind Gmail Priority Inbox, In LCCC: NIPS 2010 Workshop on Learning on Cores, Clusters and Clouds, 2010.

Similar documents
様々なミクロ計量モデル†

Microsoft Word _Gmail利用マニュアル.doc

SoftBank GALAXY Tab4 取扱説明書

目次 1. ログイン 最初に設定しましょう メールの受信 メールの削除 振り分け ( ラベル付け ) メールの作成 メールの返信 転送 メールの自動転送 ログアウト

Microsoft Word - Gmail操作ガイドver1.1.docx

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

Microsoft PowerPoint - 白梅学園Gmailの利用方法_ 版.pptx

3-1 SPIRIT Gmail を使う メールアドレスの仕組み 自分のメールアドレスを確かめる V-Campus では V-Campus ID を利用したメールアドレスが 一人ひとりに用意されています メールアドレスとは 電子メールの利用者を識別するための宛名にあたるものです V-Campus で

1 はじめに はじめに お問い合わせ窓口 OUTLOOK WEB APP システムの利用 接続方法 ( サインイン ) 初回サインイン時の利用開始処理 回目以降のサインイン EX

memo

Microsoft PowerPoint - Outlook2016(新)

Takeuchi, J., and Yamanishi, K.: A Unifying Framework for Detecting Outliers and Change Points from Time Series, IEEE Trans. on Knowledge and Data Eng

認証システムのパスワード変更方法

在学生向けメールサービス

迷惑メール対策[Barracuda]操作マニュアル

ボルツマンマシンの高速化

PowerPoint プレゼンテーション

McAfee SaaS Protection 統合ガイド Microsoft Office 365 と Exchange Online の保護

Probit , Mixed logit

< B838B CC8F898AFA90DD92E82E786C73>

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

へアクセスする... 1 A.fu ポータルからアクセスする方法... 1 B. 情報基盤センターの Web サイトからアクセスする方法... 1 C.URL を直接入力してアクセスする方法... にログイン... 1 初

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

システム設計書

G-mail とは何ですか? G-mail とは Google が提供するフリーメールですメールにはプロバイダ ( インターネット接続の契約した会社 ) から提供されるものと携帯電話を購入すると提供されるもの そしてインターネット上で無料で登録利用できるメールアドレスがあります プロバイダから提供さ

ITCertMaster Safe, simple and fast. 100% Pass guarantee! IT Certification Guaranteed, The Easy Way!

01-新入生のみなさんへ

Slide 1

目次 ログイン... 3 画面の項目について... 4 メイン画面の構成... 4 フォルダー一覧... 5 ツールバー... 6 メニューバー... 7 メール操作について... 8 メールの受信と閲覧... 8 メール送信 ファイルの添付 メールの返信 メール

データサイエンス講座第 3 回機械学習その 2 ロジスティクス回帰 カーネル法とサポートベクターマシン アンサンブル学習

M 目次 1. ログイン方法 メール画面の概要 メールの確認について スレッドの表示変更 ( スレッド順 日時順 ) メール作成と送信 メールへの署名 ラベルの作成 ラベルの

2014 年 11 月 ボリュームライセンスサービスセンターで Online Service をアクティブ化する Open プログラムのお客様は VLSC の新しい [Online Service のアクティブ化 ] セクションのシンプルなプロセスに従って マイクロソフトボリュームライセンスサービス

Microsoft PowerPoint - mp11-06.pptx

PowerPoint プレゼンテーション

4. ファイルアップロード機能 使い方 ファイルをドラッグ & ドロップ した状態 図 4-1: ファイルアップロード画面 ( 例 ) 1. 送信するファイルをドラッグ & ドロップしてください 送信するファイルの右のエリアをマウスでクリックする事により 従来のエクスプローラー形式のアップロードも可

スライド 1

If(A) Vx(V) 1 最小 2 乗法で実験式のパラメータが導出できる測定で得られたデータをよく近似する式を実験式という. その利点は (M1) 多量のデータの特徴を一つの式で簡潔に表現できること. また (M2) y = f ( x ) の関係から, 任意の x のときの y が求まるので,

佛教大学Gmail利用マニュアル

Outlook Express Q. メールが HTML 形式で送信されてしまうのですが Q. 複数で共有しているパソコンで他人にメールが読まれるのはイヤなのですが Q. 覚えのないアドレスから Returned mail と書かれた英文メールが届きます Q. Outlook Express - メ

公立大学法人首都大学東京

スライド 1

Groups for Business とは Google グループを使用すると 組織の内外のユーザーと 効率的なコミュニケーションを図ることができます グループ の作成と管理をチームに任せることができ コラボレーショ ンが容易に実現します Groups for Business を使用すると もっ

Microsoft PowerPoint - パソコン講習会資料(3)メール ppt

メールアドレスを登録したい イッツコムでは標準でメールアドレスが 5 つまで登録可能です 6 つ目以降につきましては 1 メールアドレスにつき月額 300 円 ( 税抜 ) のオプション料金が発生します メールアドレスは 任意設定 サブドメイン.itscom.net になります お客さ

Wasedaメール(Office365)ユーザーズガイド

画面上部 1 管理者設定検索自動振分一覧 説明管理者モード / 一般モードの切替を行います 詳細については 注意事項を参照下さい を押すとメニューが表示されます 管理者モードの操作方法は 管理者設定編 を参照下さい キーワードを元に 選択したFAXの文書の検索が出来ます FAX 自動振分の情報を確認

PowerPoint Presentation

利用環境の確認 メールはベーシック プレミアムプランでご利用いただけます

Microsoft Word - Outlook_manual doc

事業承継サイト_担い手探しナビ操作マニュアル_

PowerPoint プレゼンテーション

データ科学2.pptx

4-2 メール メールについて S! メールと SMS の 2 つのメールを利用できます 4 OK! SMS S! SMS S! SMS S! SMS S!

A Constructive Approach to Gene Expression Dynamics

Microsoft Word - Office365_EndUser_Basic_Guide.docx

PowerPoint プレゼンテーション

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

2015 年 2 月 ボリュームライセンスサービスセンターで Online Service をアクティブ化する Open プログラムのお客様は VLSC の新しい [Online Service のアクティブ化 ] セクションのシンプルなプロセスに従って マイクロソフトボリュームライセンスサービスセ

1. 基本操作 メールを使用するためにサインインします (1) サインインして利用する 1 ブラウザ (InternetExploler など ) を開きます 2 以下の URL へアクセスします ( 情報メディアセンターのトップページからも移動で

Gmail を利用する場合 ComLink のメールアドレスを Gmail アカウントに追加する方法 ご注意 Gmail に追加後は ComLink のサーバにメールを残しておくことができないため 他のメールソフトで受信できなくなります ComLink のメールアドレスで送信はできません 送信時は


Microsoft Word Webmail

パソコンシミュレータの現状

内容 1 Office 365 のサインイン サインアウト サインイン方法 サインアウト方法 Outlook on the Web 画面構成 メールの利用方法 受信メールの閲覧 添付ファイルのダウンロ

メッセージの確認

Microsoft Word - lec_student-chp3_1-representative

CSS のスパニングツリー ブリッジの設定

Office365        メールの使い方マニュアル

スライド 1

メッセージの確認

スライド 1

社会的 経済的エンパワーメントをもたらすプログラムを通じて女性と女児の生活を向上させる国際奉仕団体 国際ソロプチミストアメリカ Office 365 のクラブ E メール管理ガイド 目次 Office 365 のクラブ E メールにサインインしアクセスする... page 2-8 パスワードを変更す

Microsoft Word - WebMail.docx

Microsoft PowerPoint SIGAL.ppt

Microsoft PowerPoint - prog03.ppt

Microsoft PowerPoint - 資料04 重回帰分析.ppt

景気指標の新しい動向

LINE

Microsoft PowerPoint - CloudBasic-6-cloudservices2.pptx

Microsoft PowerPoint - mp13-07.pptx

2. 総合情報センターホームページからアクセス 総合情報センターホームページ ( 左上にある Web メール をクリ ックします 2015 年 3 月 5 日 ( 木 ) までは現在のメールシステムが表示されます Web ブラウザから直接アクセ

Office365        メールの使い方マニュアル

Wasedaメール(教職員)ユーザーズガイド

統計的データ解析

1

すぐできるBOOK ー基本設定編ー

目次 はじめに Page. 3 1 ログイン方法 4 2 監視設定 5 3 監視設定の変更 削除 18 4 性能情報確認 24 5 問い合わせ先 27 ご参考 動作環境について 28 改版履歴 29 Page 2 NEC Corporation 2014

アルファメールプラチナ Webメールスマートフォン版マニュアル

自己紹介 名前 : 竹田卓也 年齢 : 20 歳 ( 大学生 ) 経歴 : 人工知能歴 1ヶ月プログラミング歴 5 年くらい 言語 : PythonとかJavaとかGoとか 趣味 : オンライン オフラインゲーム 2

<4D F736F F D20899E95E58AC7979D837D836A B2E646F63>

How2Gmail

III. ログイン / ログアウト方法および SWU Mail 初期設定 1. 教職員 WEB の [SWU Mail] をクリックするとログインページ一覧が表示されます 2. メールアドレスとパスワードを入力してログインします 3.SWU Mail にログインしました ( 初回のみ ) アカウント

サイボウズ Office 10「個人フォルダ」

フォルダの作成 使用率 (%) が表示されます 新規フォルダの作成をクリック フォルダ名 を入力し 作成 ボタンをクリック ユーザー設定で 使用言語の選択ができます ( 日本語 英語 中国語 ) ファイルのアップロード 1 ファイルをアップロードするフォルダをダブルクリックする このフォルダにアップ

改版履歴 Ver 改版日内容 /02/07 新規作成 2 / 18

はじめに (1) フィッシング詐欺 ( フィッシング攻撃 ) とは フィッシング詐欺とは インターネットバンキング ショッピングサイト等の利用者のアカウント情報 (ID パスワード等 ) や クレジットカードの情報等を騙し取る攻撃です 典型的な手口としては 攻撃者が本物のウェブサイトと似た偽のウェブ

スライド 1

メールデータ移行手順

LINE

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

Transcription:

Aberdeen, D., Pacovsky, O., and Slater, A., The Learning Behind Gmail Priority Inbox, In LCCC: NIPS 2010 Workshop on Learning on Cores, Clusters and Clouds, 2010. 羽藤研秋季集中論文ゼミ 2 日目 #7 2011/10/17 16:20- 発表者 :M2 柿元

目次 1. The Gmail Priority Inbox 2. The Learning Problem 2.1 Features 2.2 Importance Metric 2.3 Models 2.4 Ranking for Classification 3. Production 3.1 Prediction Time 3.2 Learning 3.3 Data Protection 4. Results

Abstract Gmail 優先トレイは ユーザーのメールに対する行動を確率的に予測し ランク付けしている 重要度 というのは個人性が高いため ユーザー毎に統計モデルの学習によってこの予測を試みた ここでは 100 万ものモデルのオンライン学習とそれらの効率的な構築を試みている Gmail 優先トレイ Google が提供する Gmail 新機能 ユーザーにとって重要なメールを自動的に選び出し 受信トレイのトップに表示する. 振り分けられたメールに対して ユーザー自身が再分類しなおすこともできる. 重要と判断された未読メール ユーザーによる つきのメール その他のメール

1. The Gmail Priority Inbox Gmail 優先トレイは ユーザーの重要度に応じてメールを振り分けてくれる このような順位づけのタスクは目新しいものではない しかし リアルタイムでの更新 日々数百万ものモデルを数秒単位で更新し続ける といった事象でこのタスクが複雑化している 例えば ユーザーにとってそのメールが重要かどうか 判断基準がユーザーから明示的に得られない 非定常でノイズの多い訓練データを取り扱うメソッドを構築すること 訓練データの制約を少なくするモデルを構築すること Terabyte に上るユーザー毎の特徴データを保管し処理すること

2. The Learning Problem 2.1 Features メールの特徴は以下の4カテゴリに分類できる Social features メールの受信者 送信者間のやり取りに関する情報 ( 例 : メールの返信率 ) Content features ヘッダーや本文に関する情報 Thread features スレッド情報 Label features ユーザーが適用しているラベル情報 ( フィルターなどの使用 ) メールをランク付けするために特徴の評価値を計算し その後の学習の為にこれらの値を保管しておく 連続的な特徴は自動的に2 値の特徴に分割される Simple ID3 style algorithmで 特徴のヒストグラムに従い分割

2.2 Important Metric 優先トレイの目的はユーザーの明示的なラベリング無しにメールをランク付けすること ランク付けの基準は ユーザーがメールに対してどのような行動をとるか ユーザーがメールに対して ( メールが届いてT 秒以内に ) いかなる行動を起こすかを確率的に求めたい 確率モデルの定義 時間 t の時 a という行動をとる確率はメールの特徴とユーザーが Gmail にアクセスしたかどうかに依る. ここで a メールに対する行為 A 重要度を示す行為の集合 例えば open, replies, manual corrections など t メールが届いてから行動を起こすまでの時間 f メールの特徴を表すベクトル s ユーザーがメールを見る機会を持つことがあったかどうか

2.2 Important Metric 予測誤差の定義 T min 届いたメールにアクションを起こすまでの最小時間 (24 時間以内 ) T max やり取りに必要と思われる期間 またメールの保管 処理が可能な期間 メールを開ける機会がなかった or T min,t max 間に行動を起こさなかった メールに対し何らかの行動を起こした その他

2.3 Models ユーザーがメールに対して行動を起こす確率を以下のように定式化 線形ロジスティック回帰モデル (Linear logistic regression model) を使う global model( 全ユーザー共通のモデル ) と user model( ユーザー固有のモデル ) を足し合わせることで global model の膨大なデータと user model のデータ丌足を解消する p: ユーザーが行動を起こす確率 n: 特徴次元数 k: ユーザーの特徴次元数 g: global model の重みベクトル w: user model の重みベクトル ユーザーが何らかの行動を起こす確率

2.3 Models 大量のノイズを処理する為に 重みベクトルの学習にはオンライン学習である PA-II を利用 Online Passive-Aggressive Algorithms メール一通につき メール受取時に一度だけ global model と user model の重みベクトルが更新される i 回更新された重みベクトル (user model の場合 ) は 補足 Passive aggressive オンライン学習の枠組みのひとつ 損失関数マージン ( 分割する超平面との距離 ) この設定で round1 での更新は 次の条件付き最適化問題となる e: 誤差値 C: 正規化パラメータ. 更新の aggressive さを調整する ラベリングの確信度みたいなものを表すためにメールごとに調節 ε: hinge-loss tolerance もしくは passive さを示す Cが大きいほど学習による更新幅が大きくなり 直前のメールからの学習に予測がひきづられやすくなる Cはuser modelの方がglobal modelより大きく 直近のuser modelは大きい値をとる 十分に学習されていないuser modelはcを大きくしている ( 学習を促進させるため ) w t 1 w Aggressive w Passive t t 1 w t y t 更新を促進する t x t Xt 入力データ l t 損失関数 C パラメータ ( 正 ) 損失がない場合 τ=0

補足 : オンライン学習 データを 1 つづつ読み込んで それまでの学習結果を更新する 2 つの利用局面 1. データ全体は保持しているが 学習を 1 データ毎に行う 2. データが 1 こずつ時系列としてやってくる この場合はストリームという. 訓練データを受け取る毎に簡単なパラメータ更新を行うだけで良いので 計算時間やメモリの効率が良い オンライン学習の定式化 以下 1,2,3 を時刻 t=1,2,,t で繰り返す 1. 時刻 t において 仮説 ht( ここでは重みベクトル w) 入力データ xt 正しい結果データ yt が不えられる 2. 仮説 ht による結果 h (t) (xt) を計算し その後で yt との比較を損失関数 l によって行う つまり損失関数 l(h (t),(xt, yt )) を計算. 3. 損失関数 lの値に応じてh (t) を更新し 新しい仮説 h (t+1) を求める T 最終的な目的は累積損失 ( t) l h, x, y を最小化すること. t 1 t t データ x t 識別関数 h (t) 予測 h (t) (x t ) 更新 : h (t) h (t+1) 正解 ( 実測 ) y t

2.4 Ranking for Classification さらに 前述した s に閾値を個人毎に設定した どのメールが重要で またはそうではないのか判断するため 個人毎に適切に閾値を設定するのは困難である メールを開くことは重要度が高いことを示すとしたが (2.2) 実際は 重要だから 開くのではなく 興味を惹かれて 開くことの方が多い また 重要なメールを重要でないと判断される ( 誤検出 ) ことは ユーザーにとって非常に困る事態である ( 逆はそうでもない ) 重要なメールに判定されるメールの量は ユーザーによって大きく異なる ユーザーが閾値を調節できるよう ある程度の干渉できるようにした マークなどをつける ユーザーが一定の基準で重要マークを使用していることが認められたら 閾値を更新する

3. Production 100 万ものユーザーの学習に拡大することは困難 モデルを保持 管理するために bigtable 1 に改良を加えた形で利用 3.1 Prediction Time 1 big table Google の大規模なサーバー上の大量なデータを管理する為に設計されたデータベースシステム 全てのデータセンターから 全てのユーザーのスコアリングが可能な設計が求められる どのデータセンターがどのユーザーアカウントを扱うのか予測することは困難 bigtable は ランキングを行うためのモデルの複製 更新を行うために用いられ モデルの更新に用いられるリソース管理とリアルタイムでの実行を実現した 詳しく言うと メールの特徴とそのメールに対するユーザー行動を統合 ユーザー単位で同じレコードにデータを管理

3.2 Learning Sharding(= データを複数サーバーに分割して保持すること ) してモデルの学習を行うことで 実行を容易にしている 各コアが user model の fraction をそれぞれ更新している Bigtable はスコアリングされた user:message-id レコードにグローバルアクセスすることで 効率的なデータ管理を実現 100 万ものユーザーのモデルの読み書きをネットワーク上で行えないので RAM に可能な限り多くのモデルをローディングし 更新作業をひとまとまりに処理することが必要 以上の作業により 最終的にコア 1 台ごとの単位時間あたり ( 秒 )35 名を計算可能にした

4. Results Global model の対数オッズスコアのヒストグラム 緑は 重要な メール 赤は 重要でない メール 線形回帰モデルを使用すると 自然なランキングが行われていることを実証 閾値の設定により 検出漏れ が 誤検出 の 3-4 倍 メールの重要度の判断基準に関しては 研究の余地が残される Each user model は global model よりはるかに性能が良い Google 従業員による実験の結果 Gmail Priority Inbox を利用することで メール処理に費やされる時間を 6% 短縮させることが出来た 重要でないメールに限ると 13% 短縮させた

3.2 Learning メールを評価する為にユーザーがGmailを最後に立ち上げたのはいつだったのか知りたい メッセージはuser:message-idに従って並んでいるので 全てのメッセージを読む必要が生じる user modelのshardにごとに 2つの命令を実行する必要がある First pass second pass finally 最後の action time と shard of users の統計データを計算 データ量が小さいので早い メッセージの特徴データ全体をスキャンする 更新された user model 全てをひとまとめに bigtable にかきこむ Fraction of users が利用可能な各コアに不えられ この fraction はさらに断片化されて (shards of users) ひとまとめに RAM に入力される 最終的にコア 1 台ごとの単位時間あたり ( 秒 )35 名を消化可能となった