PowerPoint プレゼンテーション

Similar documents
二項ソフトクラスタリング分析例 この資料では Visual Mining Studio のアイコン Dyadic Soft Clustering を使って 二項ソフトクラスタリング 分析をする方法を説明します 二項ソフトクラスタリングは一般的には PLSI, PLSA などの名前で知られています 株

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

スライド 1

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

tokyo_t3.pdf

情報工学概論

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

スライド 1

次 サイト概況 ( 直近 3 ヶ ) 1 流 経路のサマリ 16~17 サイト概況 ( 当 / 前 / 前年同 ) 2 流 経路広告サマリ 18~19 業界 較 サマリ 3 業界 較 流 経路 20 訪問数の推移 ( 別 ) 4 検索エンジンからの流 推移 21~22 新規とリピーター数の推移 (

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

データマネジメントを取り巻く IT の課題 大規模データの実践的活用に向けて レッドハット株式会社 Senior Solution Architect and Cloud Evangelist 中井悦司 2012/04/13 version1.0

Microsoft PowerPoint - ディスプレイ_Yahoo_金融業界向け広告提案書.ppt [互換モード]

コンピュータ応用・演習 情報処理システム

PowerPoint プレゼンテーション

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

ビジネス統計 統計基礎とエクセル分析 正誤表

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝

1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな

EBNと疫学

スライド 1

Webマーケティングサービスのご案内

リソース制約下における組込みソフトウェアの性能検証および最適化方法

Microsoft Word - deim2016再提出.docx

はじめに 目次 クラスター (cluster) とは 英語で 集団 群れ のことを指し クラスタリング (clustering) とは 類似したものが混じり合う集団を 似た性質をもつもの同士に分けることです この クラスタリング を行うことで 人 による恣意的なグループ分けではなく 客観的なグループ

Microsoft PowerPoint - ディスプレイ_Yahoo_不動産業界向け広告提案書.ppt [互換モード]

従業員の融通を許した シフトスケジューリング問題

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

PowerPoint プレゼンテーション

Oracle Un お問合せ : Oracle Data Integrator 11g: データ統合設定と管理 期間 ( 標準日数 ):5 コースの概要 Oracle Data Integratorは すべてのデータ統合要件 ( 大量の高パフォーマンス バッチ ローブンの統合プロセスおよ

統計的データ解析

(Microsoft PowerPoint - \203|\203X\203^\201[\224\255\225\\\227p\216\221\227\ ppt)

PowerPoint プレゼンテーション

Microsoft Word - ㅎ㇤ㇺå®ı璃ㆨAIã†®æŁ°ç’ƒ.docx

三者ミーティング

歌ネット情報分析サービスを使ってみる! 会員登録をする 1 新規会員ボタンをクリックして 会員情報を入力 ここでは メールアドレス パスワード 登録名が必須になっています ご注意 メールアドレスは必ず現使用中のもので登録して下さい パスワードは 5 文字以上の英数字で入力して下さい 2 分析したいレ

Probit , Mixed logit

講義「○○○○」

JMP によるオッズ比 リスク比 ( ハザード比 ) の算出方法と注意点 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月改定 1. はじめに本文書は JMP でオッズ比 リスク比 それぞれに対する信頼区間を求める算出方法と注意点を述べたものです この後

Chapter 1 Epidemiological Terminology

Presentation Title

ソフト活用事例③自動Rawデータ管理システム

intra-mart Accel Platform — ViewCreator ユーザ操作ガイド   第6版  

本日の内容 相関関係散布図 相関係数偏相関係数順位相関係数 単回帰分析 対数目盛 2

memo

最小二乗法とロバスト推定

DumpsActual Achieve 100% pass with the valid & actual exam practice dumps

Microsoft PowerPoint ppt



1. 推計の概要 ブログ SNS 市場の市場規模の現状や将来動向について 推計を実施 具体的には ブログ SNS 市場及び関連市場の定義を行い それぞれについて 28 年度の市場規模を推計した また 21 年度の市場規模予測も行った (P3~4 参照 ) 推計に当たり 利用者数や閲覧数といった ブロ

分析のステップ Step 1: Y( 目的変数 ) に対する値の順序を確認 Step 2: モデルのあてはめ を実行 適切なモデルの指定 Step 3: オプションを指定し オッズ比とその信頼区間を表示 以下 このステップに沿って JMP の操作をご説明します Step 1: Y( 目的変数 ) の

Rの基本操作

研究開発の概要のイメージ ①画像 音声 映像情報の分析技術 周辺コンテンツや他情報源から収集したテキスト情報の分析 画像特徴量分析による信憑性検証 Web画像の典型度 過不足性 W b画像の典型度 過不足性 整合性の分析 映像 音声の偏り分析や 映像 音声の偏り分析や 視聴者評価情報の分析 Webア

Coding theorems for correlated sources with cooperative information

スライド 1

DumpsKing Latest exam dumps & reliable dumps VCE & valid certification king


目次 はじめに... 3 BayoLink について... 3 インストール方法... 4 インストール前の準備... 4 新規インストール... 5 ライセンス登録... 9 ライセンス管理ダイアログの起動方法... 9 ライセンス情報ファイルの取得 ライセンスファイルの登録... 1

タイトルを1~2行で入力 (長文の場合はフォントサイズを縮小)

因子分析

No

初級/発刊に寄せて・改定にあたって(第2次)

分野 コース名 基礎的 IT セミナーコース一覧 内容 I T 理解 I T スキル活用 I T 倫理 新技術動向 業務の I T 化 ネットワーク 表計算 ベデーースタ プンレ / ゼ文ン書テ作ー成ショ ホームページ 情報発信コンンプスライア 情報テセィキュリ 1 第 4 次産業革命のインパクト新

したがって このモデルではの長さをもつ潜在履歴 latent history が存在し 同様に と指標化して扱うことができる 以下では 潜在的に起こりうる履歴を潜在履歴 latent history 実際にデ ータとして記録された履歴を記録履歴 recorded history ということにする M

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

狭山デポ様IBM移設予定機器 _ppt [Compatibility Mode]

AI AI Artificial Intelligence AI Strategy& Foresight AI AI AI AI 1 AI AI AI AI AI AI AI AI AI AI AI AI AI 2 AI 1 AI AI 3 AI 3 20 AI AI AI AI AI

スライド 1

様々なミクロ計量モデル†

データサイエンス講座第 3 回機械学習その 2 ロジスティクス回帰 カーネル法とサポートベクターマシン アンサンブル学習

Microsoft PowerPoint - H20第10回最短経路問題-掲示用.ppt

アダストリア売り上げデータによる 現状把握と今後の方針 東海大学情報通信学部経営システム工学科佐藤健太

研究計画書

PowerPoint プレゼンテーション


第6章 実験モード解析

情報システム評価学 ー整数計画法ー

データ科学2.pptx

13章 回帰分析

Webサイト解析 ログ分析レポート

スライド 1

対面学習の学習目標 データ分析のケーススタディ の講義と演習を通じて 以下の理解を深め 実践できるようになることを目標とする 分析の設計 データから現状の把握 現状から 課題の抽出 課題に対する解決のための分析設計 1

斎藤参郎 データサイエンス A 2018 年度水曜日 2 限目 (10:40-12:10) 0. イントロダクション 講義の進め方 担当昨年度より 講義の方針 1) 自宅でも学習できる 2) 様々なデータ分析手法を自分でインストールし 実験できる 環境の紹

SAP11_03

PowerPoint プレゼンテーション

生命情報学

PowerPoint プレゼンテーション

サーバに関するヘドニック回帰式(再推計結果)

FormatCreator

日心TWS

<DAC様>EverysenseProイベント登壇_AudienceOne_Discovery_統計データ概要

黄砂消散係数 (/Km) 黄砂消散係数 (/Km) 黄砂消散係数 (/Km) 黄砂消散係数 (/Km) 日数 8~ 年度において長崎 松江 富山で観測された気象台黄砂日は合計で延べ 53 日である これらの日におけるの頻度分布を図 6- に示している が.4 以下は全体の約 5% であり.6 以上の

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

Microsoft PowerPoint - NC12-2.pptx

JUSE-StatWorks/V5 活用ガイドブック

1. はじめに 2

スライド 1

Transcription:

オペレーションズ リサーチ学会秋季発表会 関心度 (Frequency) と忘却度 (Recency) に基づくレコメンド手法 - サンプリングでは対応できないビッグデータの活用 - 2013 年 9 月 12 日株式会社 NTT データ数理システム * 岩永二郎鍋谷昴一梶原悠五十嵐健太

お知らせ 社名変更 2013 年 9 月 1 日をもって 数理システム から NTT データ数理システム に社名変更しました. 移転 2013 年 9 月 1 日をもって 東京都新宿区新宿 2 丁目 4-3 フォーシーズンビル 10 階 から 東京都新宿区信濃町 35 番地信濃町煉瓦館 1 階 に移転しました. 近くにお越しの際には是非ともお立ち寄りください 2013/9/12 オペレーションズ リサーチ学会秋季発表会 2

本日と内容 1. はじめに 2. 課題の紹介 3. 分析の概要 4. 関心度と忘却度に基づくレコメンド手法 5. 過学習の回避 6. まとめ 2013/9/12 オペレーションズ リサーチ学会秋季発表会 3

1. はじめに 2013/9/12 オペレーションズ リサーチ学会秋季発表会 4

予測スコア 1.1. データ解析コンペテション はじめに 第 19 回データ解析コンペティション 76 チームがエントリー 総勢 400 名が参加 課題設定部門 (32 チーム参加 ) 評価方法 : 予測スコアと分析内容 データ : 不動産賃貸ポータルサイト 50000 45000 40000 数理システムチーム 順位とスコア 数理システムチーム 結果 チーム名 : 明日分かることは今日予測しない 代表者 : 岩永二郎 メンバー : 鍋谷昴一 梶原悠 五十嵐健太 予選 : 殊勲賞 (1 位 ) 受賞 本戦 : 最優秀賞 (1 位 ) 受賞 35000 30000 25000 20000 15000 10000 5000 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 順位 2013/9/12 オペレーションズ リサーチ学会秋季発表会 5

1.2. コンペの成果紹介 はじめに マーケティングの事例 頻度 (Frequency) と直近さ (Recency) に基づいて顧客をセグメンテーションする手法が知られている. Frequency と Recency を具体的に定量化して レコメンドロジックとして実装した事例報告 ビッグデータの事例 ビッグデータを利用して した という宣伝はよく聞くが 実際, どのように利用したのか不明 サンプリングで良かったのでは? という疑問 大規模データの特性を活かした手法の事例報告 2013/9/12 オペレーションズ リサーチ学会秋季発表会 6

2. 課題の紹介 2013/9/12 オペレーションズ リサーチ学会秋季発表会 7

2. 題材とデータ 課題の紹介 題材 : 不動産賃貸ポータルサイトのアクセスログ ポータルサイト上のユーザの活動を観察 1. サイトへの流入 2. 物件の検索 3. 物件の詳細閲覧 (PV: ページビュー ) 4. 物件の資料請求 (CV: コンバージョン ) 5. サイトからの離脱 データ トランザクションデータ 分析用データ 本番用データマスタデータ 全データサイズ :16GB 予測 2013/9/12 オペレーションズ リサーチ学会秋季発表会 8

2.2. アクセスログのイメージ 課題の紹介 アクセスログの内容 各ユーザのアクセス記録 2012 年 月 日のセッション 2012 年 月 日のセッション 2012 年 月 日のセッション PV/CV レコード1 レコード2 レコード3 レコード 閲覧物件 閲覧時間 地域検索 こだわり検索 2013/9/12 オペレーションズ リサーチ学会秋季発表会 9

2.3. 問題設定 課題の紹介 予測課題 アクセスログ 10 週間を分析し, その後 1 週間のユーザの CV/PV を予測 分析期間 (10 週間 ) 予測期間 (1 週間 ) の CV/PV を予測 2012 年 2012 年 2012 年 2012 年 5 月 16 日 7 月 24 日 7 月 25 日 7 月 31 日 課題 ユーザ 51364 人に対して,5 個の物件をレコメンドする スコアリング方法 正解 CV/PV の得点は次の通り. 正解数 1 個目 2 個目 3 個目 4 個目 5 個目 CV 30 12 9 6 3 PV 1 1 1 1 1 2013/9/12 オペレーションズ リサーチ学会秋季発表会 10

3. 分析の概要 2013/9/12 オペレーションズ リサーチ学会秋季発表会 11

3.1. 分析のレシピ 分析の概要 分析の環境 CPU:Intel Core-i7 3930K 3.20GHz(6コア ) メモリ :32.0 GB 分析の道具 Python( 前処理 レコメンドロジック実装 ) sqlite3( データベース ) R( 基礎集計 グラフ描画 ) Visual Mining Studio( 決定木分析 ) Big Data Module( ロジスティック回帰 SVM) NUOPT( 信頼領域内点法 ) 分析の流れ 1 分析準備 ( クレンジング 分析用 DB 構築 ) 2 分析と割当ロジックの検討 3 実験と検証 2013/9/12 オペレーションズ リサーチ学会秋季発表会 12

3.2. レコメンド方針 分析の概要 アプローチ ユーザの 過去閲覧物件 から再閲覧する物件をレコメンドする 物件のスコアリング関数の構築 物件プロファイル ( 特徴量ベクトル ) に対して, 閲覧確率を紐付ける 1 ユーザが過去に閲覧した物件を列挙 2 各物件の特徴量を算出 3 各物件の再閲覧確率を算出 閲覧物件特徴量 1 特徴量 2 特徴量 3 再閲覧確率 物件コード1 1 34 False 6% 物件コード2 5 67 True 19% 分析のタスク特徴量の作成と選択再閲覧確率の計算 2013/9/12 オペレーションズ リサーチ学会秋季発表会 13

4. 関心度と忘却度に基づく レコメンド手法 2013/9/12 オペレーションズ リサーチ学会秋季発表会 14

4.1. 特徴量の作成 関心度と忘却度に基づくレコメンド手法 ユーザの閲覧物件に特徴量を与える 閲覧物件 5/28 6/12 6/23 7/02 7/25 7/28 物件コード 1 PV 物件コード 2 2 PV PV 分析期間 予測期間 直近から 3 セッション 閲覧物件 特徴量 1 特徴量 2 特徴量 3 CV PV フラグ 物件コード 1 1 1 4 0 物件コード 2 3 2 3 0 物件コード3 2 PV 3 PV CV 物件コード4 2 PV PV CV PV 物件コード 5 PV PV 物件コード 6 閲覧回数 2 PV 物件 - セッションテーブル 物件コード3 5 2 2 1 物件コード4 3 2 1 1 物件コード5 1 1 1 1 物件コード6 1 1 1 0 物件プロファイル 作成した特徴量グループ A) ユーザに関する特徴量 B) 物件に関する特徴量 C) ユーザの物件への興味を表す特徴量 2013/9/12 オペレーションズ リサーチ学会秋季発表会 15

4.2. 特徴量の抽出と分類 関心度と忘却度に基づくレコメンド手法 特徴量の抽出処理 STEP1: 特徴量の加工 STEP2:CV/PV との相関 クロス集計 STEP3: 決定木分析 SVM ロジスティック回帰分析 STEP2 による絞り込み C グループ ( ユーザの物件への興味を表す特徴量 ) の CV/PV への貢献が大きい C グループを関心度と忘却度グループに分類 関心度 ( 閲覧回数 セッション登場回数 総閲覧時間 ) 忘却度 ( 物件の閲覧順番 セッション順番 経過日数 ) STEP3 による選択 gini 係数 information gain ratio, 回帰係数 およびセグメンテーションの粒度に考慮して次の指標を選択 関心度 : 閲覧回数 忘却度 : セッション順番 Frequency & Recency 2013/9/12 オペレーションズ リサーチ学会秋季発表会 16

4.3. 関心度と忘却度の分類 ( 相関係数 ) ピアソンの相関係数 関心度と忘却度に基づくレコメンド手法 分類関心度 A 関心度 B 関心度 C 忘却度 A 忘却度 B 忘却度 C 閲覧回数 関心度 A 1 0.80 0.58-0.04-0.01-0.10 セッション登場回数 関心度 B 1 0.47-0.03-0.01-0.12 閲覧総時間 関心度 C 1-0.06 0.01-0.06 閲覧順番 忘却度 A 1 0.57 0.23 セッション順番 忘却度 B 1 0.31 経過日数 忘却度 C 1 * セッション順番 : 最終セッションから数えて, 何セッション目に物件を閲覧したか 関心度と忘却度が無相関 関心度と忘却度から 1 つずつ特徴量を選抜 2013/9/12 オペレーションズ リサーチ学会秋季発表会 17

関心度と忘却度に基づくレコメンド手法 4.4. 関心度と忘却度の選択 ( 決定木分析 ) 二分木における gini 係数 関心度グループ忘却度グループ 特徴量 gini 係数値 特徴量 gini 係数値 閲覧回数 0.0034 セッション順番 0.0024 セッション登場回数 0.0033 閲覧順番 0.0023 閲覧総時間 0.0016 経過日数 0.0020 二分木における information gain ratio 関心度グループ忘却度グループ 特徴量 info gain ratio 特徴量 info gain ratio 閲覧回数 0.0273 セッション順番 0.0137 セッション登場回数 0.0245 閲覧順番 0.0124 閲覧総時間 0.0103 経過日数 0.0120 2013/9/12 オペレーションズ リサーチ学会秋季発表会 18

4.5. 再閲覧確率テーブル構築 関心度と忘却度に基づくレコメンド手法 再閲覧確率テーブルとは 関心度と忘却度のセグメントに再閲覧確率を対応付けたテーブル 再閲覧確率の計算式 忘却度 n : 関心度 i, 忘却度 j の ij セグメントの物件が 閲覧された件数 m : 関心度 i, 忘却度 j の ij セグメントの物件が 再閲覧されなかった件数 n ij n ij m ij : 再閲覧確率 関心度 データの規模が大きいほど確率の信頼性が上がる 2013/9/12 オペレーションズ リサーチ学会秋季発表会 19

4.6. レコメンドロジック 関心度と忘却度に基づくレコメンド手法 物件プロファイル 再閲覧確率テーブル 再閲覧確率の高い順に物件をレコメンド 物件プロファイル 閲覧物件忘却度関心度閲覧確率 再閲覧確率テーブル ( 実績値 ) 物件コード1 1 1 6% 物件コード2 1 3 19% 物件コード3 1 2 12% 物件コード4 2 2 9% 物件コード5 2 2 9% 参照 忘却度 物件コード 6 3 1 3% 物件コード 7 4 2 5% 関心度 物件コード 8 4 4 10% 関心度と忘却度のトレードオフを考慮したレコメンドを実現 2013/9/12 オペレーションズ リサーチ学会秋季発表会 20

5. 過学習の回避 2013/9/12 オペレーションズ リサーチ学会秋季発表会 21

5.1. レコメンド手法の改善 過学習の回避 関心度と忘却度に成り立つ 単調性制約 関心度が大きい物件ほど再閲覧する忘却度が小さい物件ほど再閲覧する再閲覧確率テーブルで単調性制約が満たされないセグメントが存在 忘却度忘却度 原因 関心度 関心度 学習データとして十分な量を確保できていない業務上の施策の影響が反映されてしまっている 過学習を回避した再閲覧確率テーブルの推定をしたい 2013/9/12 オペレーションズ リサーチ学会秋季発表会 22

5.2. 数理モデルの構築 過学習の回避 推定する再閲覧確率テーブルの要件 単調性制約を満たす データ件数が多いセグメントの再閲覧確率ほど信頼する 凸二次計画問題に定式化して最適化パッケージ NUOPT で求解 集合 パラメータ 変数 制約 目的関数 I : 関心度のセグメント J : 忘却度のセグメント p ( i I, j J ) : 各セグメントの閲覧確率 ( 実績値 ) ij w ( i I, j J ) : 各セグメントのデータ数 ij x [0,1] ( i I, j J ) : 各セグメントの推定する閲覧確率 ij x x ( i i '( I )) : 関心度について狭義単調増加 ' ij i j x x ( j j '( J )) : 忘却度について狭義単調減少 ij ij ' i I, j J 2 2 m in im iz e w x p ij ij ij ( : 適当な微小な値 ) : 閲覧確率 ( 実績値 ) との重み付き自乗誤差最小化 2013/9/12 オペレーションズ リサーチ学会秋季発表会 23

5.3. 推定した再閲覧確率テーブル 過学習の回避 再閲覧確率テーブルの比較 再閲覧確率テーブル ( 実績値 ) 再閲覧確率テーブル ( 推定値 ) スムージングによって過学習を回避 2013/9/12 オペレーションズ リサーチ学会秋季発表会 24

5.4. 実験と評価 過学習の回避 評価用ツールの作成 ( 分析用データ ) アクセスログの最終週を予測期間として,17803 ユーザを抽出 分析期間 (9 週間 ) 予測期間 (1 週間 ) の CV/PV を予測 2012 年 2012 年 2012 年 2012 年 5 月 16 日 7 月 17 日 7 月 18 日 7 月 24 日 総スコア 76,017 点に対する得点率を予測精度としてレコメンド手法を評価 レコメンド手法 スコア 精度 比較手法 1 : 閲覧が最新の物件から順にレコメンド 11,937 15.70 % 比較手法 2 : 閲覧回数が多い物件から順にレコメンド 13,146 17.29 % 提案手法 1 : 関心度と忘却度に基づくレコメンド ( 実績値 ) 14,181 18.66 % 提案手法 2 : 関心度と忘却度に基づくレコメンド ( 推定値 ) 14,232 18.72 % 2013/9/12 オペレーションズ リサーチ学会秋季発表会 25

5.5. サンプリング実験 過学習の回避 17,803 ユーザからサンプリング (1%~100%) 実績値と推定値の2つの再閲覧確率テーブルを比較 実績値より推定値の方がデータ量に限らずレコメンド精度が良いことを確認データ不足も解消可能 より詳細なセグメンテーションが可能 2013/9/12 オペレーションズ リサーチ学会秋季発表会 26

6. まとめ 2013/9/12 オペレーションズ リサーチ学会秋季発表会 27

6.1. まとめ まとめ マーケティングについて 頻度 (Frequency) と直近さ (Recency) を具体的に定量化して レコメンドロジックを構築 予測精度は特徴量の作成と選択に尽きる ビッグデータについて 大規模データの特性 規模に比例して確率の信頼性が向上 詳細なセグメンテーションが可能 過学習の回避 & データ不足の解消 凸二次計画問題に定式化して再閲覧確率テーブルを推定 ビジネスにおける実現性 スケーラビリティ 再閲覧確率テーブルの作成 (Hadoop 等の分散処理技術 ) 再閲覧確率テーブルの推定 ( 凸二次計画法 : 変数数 I J ) レコメンド時のリアルタイム性 再閲覧確率テーブルの参照と確率のソート処理でレコメンド可能 2013/9/12 オペレーションズ リサーチ学会秋季発表会 28