講座内容 第 1 週 データサイエンスとは 第 2 週 分析の概念と事例ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )1 第 3 週 分析の具体的手法ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )2 第 4 週 ビジネスにおける予測と分析結果の報告ビジネス課題解決のためのデー

Similar documents
対面学習の学習目標 データ分析のケーススタディ の講義と演習を通じて 以下の理解を深め 実践できるようになることを目標とする 分析の設計 データから現状の把握 現状から 課題の抽出 課題に対する解決のための分析設計 1

Microsoft PowerPoint - データ解析基礎2.ppt

Microsoft PowerPoint - 代表値と散布度.ppt [互換モード]

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

青焼 1章[15-52].indd

Microsoft PowerPoint ppt

<4D F736F F F696E74202D B835E82CC8EED97DE B835E82CC834F BB F0955C82B793C190AB926C>

PowerPoint プレゼンテーション

Microsoft PowerPoint - 基礎・経済統計6.ppt

Medical3

Microsoft Word - apstattext04.docx

経営統計学

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する fig. ヒストグラムの作成 fig. ヒストグラムの出力例 度数分布表の作成 データの度数を把握する 入力間違いが無いかの確認にも便利 fig. 度数分布表の作成

EBNと疫学

_KyoukaNaiyou_No.4

第4回

3章 度数分布とヒストグラム

講義内容 第 週 データサイエンスとは 第 週 分析の概念と事例ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 ) 第 3 週 分析の具体的手法ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 ) 第 週 ビジネスにおける予測と分析結果の報告ビジネス課題解決のためのデータ分析基礎 (

と 測定を繰り返した時のばらつき の和が 全体のばらつき () に対して どれくらいの割合となるかがわかり 測定システムを評価することができる MSA 第 4 版スタディガイド ジャパン プレクサス (010)p.104 では % GRR の値が10% 未満であれば 一般に受容れられる測定システムと

Microsoft Word - lec_student-chp3_1-representative

Microsoft Word - Stattext12.doc

データの種類とデータの分布

0415

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説

情報工学概論

平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

3章 度数分布とヒストグラム

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

Medical3

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

Microsoft PowerPoint - A1.ppt [互換モード]

心理学統計法科目コード FB3537 単位数履修方法配当年次担当教員 2 R or SR( 講義 ) 2 年以上河地庸介 2017 年度以前 2018 年度以降に入学した方どちらも履修登録できます 2017 年度以前入学者で 心理学研究法 Ⅱ を履修登録しておらず認定心理士の取得を目指す方 および

Chapter カスタムテーブルの概要 カスタムテーブル Custom Tables は 複数の変数に基づいた多重クロス集計テーブルや スケール変数を用いた集計テーブルなど より複雑な集計表を自由に設計することができるIBM SPSS Statisticsのオプション製品です テーブ

Microsoft PowerPoint - 14都市工学数理ノンパラ.pptx

スライド 1

【指導のポイント】

高齢者におけるサルコペニアの実態について みやぐち医院 宮口信吾 我が国では 高齢化社会が進行し 脳血管疾患 悪性腫瘍の増加ばかりでなく 骨 筋肉を中心とした運動器疾患と加齢との関係が注目されている 要介護になる疾患の原因として 第 1 位は脳卒中 第 2 位は認知症 第 3 位が老衰 第 4 位に

stat-base_ppt [互換モード]

<4D F736F F D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

C3 データ可視化とツール

<4D F736F F D208FAC8A778D5A8A778F4B8E7793B CC81698E5A909495D2816A2E646F6378>

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

stat-base [互換モード]

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

Microsoft PowerPoint - statistics pptx

母平均 母分散 母標準偏差は, が連続的な場合も含めて, すべての個体の特性値 のすべての実現値 の平均 分散 標準偏差であると考えてよい 有限母集団で が離散的な場合, まさにその意味になるが, そうでない場合も, このように理解してよい 5 母数 母集団から定まる定数のこと 母平均, 母分散,

Microsoft Word - apstattext05.docx

Microsoft Word - Stattext13.doc

ビジネス統計 統計基礎とエクセル分析 正誤表

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

MedicalStatisticsForAll.indd

Microsoft PowerPoint - 11統計の分析と利用_1-1.pptx

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

Microsoft PowerPoint - statistics pptx

2015実験ゼロ結果と考察 UP用.pdf

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

統計的データ解析

Microsoft Word - SPSS2007s5.doc

JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかと

Microsoft Word - 保健医療統計学112817完成版.docx

異文化言語教育評価論 ⅠA 第 4 章分散分析 (3 グループ以上の平均を比較する ) 平成 26 年 5 月 14 日 報告者 :D.M. K.S. 4-1 分散分析とは 検定の多重性 t 検定 2 群の平均値を比較する場合の手法分散分析 3 群以上の平均を比較する場合の手法 t 検定

基礎統計

<89C88CA B28DB88C8B89CA955C8F4390B394C E786C73782E786C73>

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

Blue circle & gradation

Microsoft Word - apstattext03.docx

散布度

統計学 Ⅰ(8) 累積度数 : ある階級以下に含まれる度数の合計 階級 度数 相対度数累積度数 累積相対度数 点以上 ~ 点未満.. ~.. ~. 7. ~ 6..6 ~. 6.8 ~ ~ ~ ~ ~.. ~.. 合計. - -

不偏推定量

<4D F736F F F696E74202D B835E89F090CD89898F4B81408F6489F18B4195AA90CD A E707074>

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

スライド タイトルなし

代表値

これに対する度数分布表は次のようになる : 階級 階級値 度数 相対度数 累積度数 累積相対度数 ( 以上 ) ~ ( 未満 ) 0 ~ (3/50 = ) ~ (2/50 = ) ~ (6/5

Microsoft Word - Stattext11.doc

高生 ) の傾向を推測することが可能となるが, そのような作業には膨大な時間と費用が必要であり, リアルタイムに教育現場にフィードバックすることは困難である また, 教育現場にとっては, 日本全体の傾向に対する推測統計よりも, 教員が直接担当するクラスの傾向の分析, つまり, 記述統計が優先される

1

Microsoft PowerPoint - 測量学.ppt [互換モード]

<4D F736F F D208EC08CB18C7689E68A E F1939D8C E82E646F63>

初めて学ぶ統計-公務員のためのオンライン講座-コースポイント集

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

untitled

分析のステップ Step 1: Y( 目的変数 ) に対する値の順序を確認 Step 2: モデルのあてはめ を実行 適切なモデルの指定 Step 3: オプションを指定し オッズ比とその信頼区間を表示 以下 このステップに沿って JMP の操作をご説明します Step 1: Y( 目的変数 ) の

スライド 1

Microsoft PowerPoint - 10統計の分析と利用_1.pptx

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

統計学 Ⅱ(06) 0 章 0 章 統計学の基本的な考え方 データ = 母集団から抽出された標本とみなす 実際に標本抽出されたデータ 視聴率, 失業率 そうでないデータ GDP, 株価, 為替レート, 試験の得点 このようなデータも母集団からの標本とみなす ( 母集団を想定する ) cf. 例題 0

ANOVA

ii 2. F. ( ), ,,. 5. G., L., D. ( ) ( ), 2005.,. 6.,,. 7.,. 8. ( ), , (20 ). 1. (75% ) (25% ). 60.,. 2. =8 5, =8 4 (. 1.) 1.,,

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

横浜市環境科学研究所

Microsoft Word - appendix_b

<4D F736F F D AAE90AC94C5817A E7793B188C481698D5D E7397A791E58A A778D5A814094F68FE3816A2E646F63>

1. 推計の概要 ブログ SNS 市場の市場規模の現状や将来動向について 推計を実施 具体的には ブログ SNS 市場及び関連市場の定義を行い それぞれについて 28 年度の市場規模を推計した また 21 年度の市場規模予測も行った (P3~4 参照 ) 推計に当たり 利用者数や閲覧数といった ブロ

Microsoft PowerPoint - sc7.ppt [互換モード]

基礎統計

Transcription:

社会人のためのデータサイエンス演習第 2 週 : 分析の概念と事例第 1 回 :Analysis( 分析 ) とは講師名 : 今津義充 1

講座内容 第 1 週 データサイエンスとは 第 2 週 分析の概念と事例ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )1 第 3 週 分析の具体的手法ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )2 第 4 週 ビジネスにおける予測と分析結果の報告ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )3 第 5 週 ビジネスでデータサイエンスを実現するために 2

第 2 週の内容紹介 第 1 回 Analysis ( 分析 ) とは 第 2 回 1 変数の状況の把握 1 ( 可視化の活用 ) 第 3 回 1 変数の状況の把握 2 ( 代表値の活用 ) 第 4 回 比較して 2 変数の関係を見る 第 5 回 ビジネスにおける比較 1 ( 概要 ) 第 6 回 ビジネスにおける比較 2 ( 適切な A/B テストの活用 ) 3

Analysis ( 分析 ) とは 分析 = 複雑な事柄を要因に分け その構造 関係を解明 仮説に基づいて 各要因と結果 (KGI) の関係を調査する 要因 ( 変数 )? 結果 (KGI) どのように関係しているかを調査するこの際 要因と結果 (KGI) を数学的に変数として表現する 分析の第一歩は 1 変数による状況把握と 要因と結果を 2 変数の関係として解明すること 4

変数の尺度 分析手法を理解する前提として必ずおさえたい知識 名義尺度 ( 質的 ) カテゴリに分類するための特性を表す尺度 順序無し順序付き 順序に意味がない例 : 性別 都道府県 血液型など 順序に意味がある例 : 満足度 順位など 連続尺度 ( 量的 ) 数値で表し測れる大小の関係がある尺度 間隔尺度比率尺度 順序及び和差の演算が意味がある例 : 年齢 セ氏度など 順序及び和差積商の演算が意味がある例 : 体重 金額 速度など 変数の尺度により分析手法を変える必要がある 5

顧客数 顧客数 1 変数の状況を把握 ( データチェック ) 分析の第一歩としては 可視化と代表値により 各要因 (1 変数 ) の状況を把握 棒グラフ 可視化 ヒストグラム 可視化 代表値 カテゴリ数 最頻値 など 購入金額 代表値 平均値 標準偏差 最頻値 など 1 変数の可視化と代表値の算出は鳥瞰的な状況把握と分析の次のステップを計画するのに重要 6

来客数 サイト閲覧時間 来客数 2 変数の関係を調査 KGI と要因の関係を調査するために 尺度によって様々な手法がある 比較 傾向 名義 vs 名義 : クロス集計を用いて 離散分布を比較する 名義 vs 連続 : ヒストグラムを用いて 連続分布を比較する 連続 vs 連続 : 散布図を用いて 片方の変数に対してもう片方の変数の傾向を見る ( 片方は時間だと 時系列と呼ぶ ) 比較 傾向 名義 vs 名義 名義 vs 連続 連続 vs 連続 来客数 男 女 サイトA 18 3 サイトB 4 16 サイトA サイトB サイト閲覧時間 文章量 時間 クロス集計 ヒストグラム 散布図 時系列 7

複数変数の関係を調査したい場合は? 要因が複数の時 要因間の相互作用も考慮すべきであるが 変数が 3~4 個以上になると 前述の手法だけでは困難 要因と結果を示すデータをコンピューターに与え 自動的にその 関係を学習させる機械学習などが有効となる 要因 1 ( 変数 ) 要因 2 ( 変数 )? 結果 (KGI) 要因 N ( 変数 ) 機械学習 機械学習は 第 4 週で紹介 8

次回のテーマ 次回は 1 変数の状況の把握 1 ( 可視化の活用 ) お疲れ様でした! 9

社会人のためのデータサイエンス演習第 2 週 : 分析の概念と事例第 2 回 :1 変数の状況の把握 1 ( 可視化の活用 ) 講師名 : 今津義充 10

第 2 週の内容紹介 第 1 回 Analysis ( 分析 ) とは 第 2 回 1 変数の状況の把握 1 ( 可視化の活用 ) 第 3 回 1 変数の状況の把握 2 ( 代表値の活用 ) 第 4 回 比較して 2 変数の関係を見る 第 5 回 ビジネスにおける比較 1( 概要 ) 第 6 回 ビジネスにおける比較 2( 適切な A/B テストの活用 ) 11

頻度 ( データ個数 ) 来客数 可視化の重要性 可視化では様々な情報を一目で把握できる 1 変数の状況把握のために ヒストグラムを用いる 10 30 50 70 90 年齢 データの種類 一枚の絵は一千語に匹敵する 12

来客数 分布の見方 1 下図は ある店の年代別来客数のヒストグラムです グラフから何が読み取れるでしょうか 1 どんな種類がある? 2 最も多い種類はどれ? 3 大半のサンプルはどこ? 4 最小値はどれぐらい? 5 最大値はどれぐらい? 6 データ不備はある? 10 30 50 70 90 年齢 13

来客数 分布の見方 2 110 代 ~100 歳以上の顧客が存在 230 代は最も多い 3 大半の顧客は 20~50 代 6100 歳以上は意外と多い データ不備の可能性あり 10 30 50 70 90 4 最小の年代は10 代 年齢 5 最大の年代は 100 歳以上 可視化することで様々な情報を一目で把握できる 14

分布の見方 3 変数の性質によって特徴の異なる様々な分布がある ピーク ( 峰 ) の数 ピーク ( 峰 ) の偏り 外れ値の有無 異種データの混在の可能性 平均値を見る際に注意 データ不備や異常値の可能性 変数の性質を把握するのに分布特徴に注意すべき 15

次回のテーマ 次回は 1 変数の状況の把握 2 ( 代表値の活用 ) お疲れ様でした! 16

社会人のためのデータサイエンス演習第 2 週 : 分析の概念と事例第 3 回 :1 変数の状況の把握 2 ( 代表値の活用 ) 講師名 : 今津義充 17

第 2 週の内容紹介 第 1 回 Analysis ( 分析 ) とは 第 2 回 1 変数の状況の把握 1 ( 可視化の活用 ) 第 3 回 1 変数の状況の把握 2 ( 代表値の活用 ) 第 4 回 比較して 2 変数の関係を見る 第 5 回 ビジネスにおける比較 1( 概要 ) 第 6 回 ビジネスにおける比較 2( 適切な A/B テストの活用 ) 18

代表値の重要性 代表値 ( 統計量 ) は分布の特徴を数値にまとめるもの 代表値では分布を見なくても 分布の特徴を把握できる 一般的には 以下の代表値がよく用いられる 位置を示す代表値 ばらつきを示す代表値 平均値 中央値 最頻値 標準偏差 ( 分散 ) 分布の形を示す代表値 尖度 歪度 代表値では分布の特徴を少ない情報で伝えられる 19

位置を示す代表値 1 平均値 : 分布の中心傾向を表す値 但し 分布が偏っている場合や 外れ値が存在する場合には平均値を解釈する際に注意 平均値 偏りと外れ値に注意! 平均値 平均値では分布の中心を推定できる 20

位置を示す代表値 2 中央値 : 分布を下半分と上半分に分ける値 最頻値 : 頻度が最も高い値 最頻値 平均値 中央値 最頻値 中央値 平均値 偏りや外れ値がある場合 中央値と最頻値は平均値より有意義であることがある 21

141 144 147 150 153 156 159 162 165 168 171 174 177 180 183 186 189 192 195 198 割合 (%) 位置を示す代表値の例 1 17 歳の男子の身長分布 ( 平成 26 年度 ) 8% 7% 平均値 = 中央値 = 最頻値 = 170 cm 6% 5% 4% 3% 2% 1% 0% 身長 (cm) 出典 : 平成 26 年度学校保健統計調査結果 ( 文部科学省 ) http://www.e-stat.go.jp/sg1/estat/list.do?bid=000001058732&cycode=0 22

割合 (%) 位置を示す代表値の例 2 貯蓄現在高階級別世帯分布 ( 二人以上の世帯 ) ( 平成 26 年 ) 18 16 14 12 10 8 6 4 2 0 最頻値 = 200 万円未満 中央値 = 1,052 万円 平均値 = 1,798 万円 貯蓄額 ( 円 ) 出典 : 家計調査結果 ( 総務省 ) http://www.stat.go.jp/data/kakei/family/05.htm 23

ばらつきを示す代表値 標準偏差 : 分布が平均値からの散らばりを示す値 標準偏差 標準偏差 = 0.5 標準偏差 = 1.0 標準偏差 = 1.5 分布のばらつきが広いほど 標準偏差が高い 24

~90 cm 96 102 108 114 120 126 132 138 144 150 156 162 168 174 180 186 192 198 ばらつきを示す代表値の例 9% 8% 7% 6% 5% 4% 3% 2% 1% 0% 男子の身長分布 ( 平成 26 年度 ) 7 歳 ± 5.1 cm 12 歳 ±7.9 cm 17 歳 ±5.9 cm 出典 : 平成 26 年度学校保健統計調査結果 ( 文部科学省 ) http://www.e-stat.go.jp/sg1/estat/list.do?bid=000001058732&cycode=0 25

分布の形を示す代表値 尖度 : ピーク ( 峰 ) への集中度合いを示す値 歪度 : 左右へのピーク ( 峰 ) の偏りを示す値 尖度 = 0.0 尖度 = 0.5 尖度 = -0.5 歪度 = 0.0 歪度 = 0.5 歪度 = -0.5 26

次回のテーマ 次回は 比較して 2 変数の関係を見る お疲れ様でした! 27

社会人のためのデータサイエンス演習第 2 週 : 分析の概念と事例第 4 回 : 比較して 2 変数の関係を見る講師名 : 今津義充 28

第 2 週の内容紹介 第 1 回 Analysis ( 分析 ) とは 第 2 回 1 変数の状況の把握 1 ( 可視化の活用 ) 第 3 回 1 変数の状況の把握 2 ( 代表値の活用 ) 第 4 回 比較して 2 変数の関係を見る 第 5 回 ビジネスにおける比較 1( 概要 ) 第 6 回 ビジネスにおける比較 2( 適切な A/B テストの活用 ) 29

来客数 比較とは 比較する変数の尺度により手法を変える必要がある 名義 vs 名義 : クロス集計を用いて 離散分布を比較する 名義 vs 連続 : ヒストグラムを用いて 連続分布を比較する 名義 vs 名義 来客数 男 女 サイト A 18 3 サイト B 4 16 クロス集計を用いて離散分布を比較する 名義 vs 連続 サイト A サイト B サイト閲覧時間 ヒストグラムを用いて連続分布を比較する 30

名義変数 vs 名義変数 : クロス集計 2 変数のカテゴリの組み合わせでデータの個数を集計 横カテゴリにより縦カテゴリの構成が変化するかを調査する あるネット銀行の地域別顧客満足度の構成比 KGI: 顧客満足度 (5 カテゴリ ) 要因 : 地域 (5 カテゴリ ) 100% 90% 5% 7% 10% 15% 13% 10% 20% 19% 地域別顧客満足度 ( 万人 ) 関東関西中部東北中国 満足 17 20 20 24 15 やや満足 52 37 20 36 22 普通 70 43 120 24 18 やや不満 105 116 20 24 14 不満 105 72 20 12 9 満足やや満足普通やや不満不満 80% 70% 60% 50% 40% 30% 20% 10% 0% 20% 15% 30% 60% 28% 30% 40% 20% 23% 20% 18% 30% 25% 10% 10% 10% 12% 関東 関西 中部 東北 中国 クロス集計で一目で比率の違いを把握できる 31

来客数 連続変数 vs 名義変数 : ヒストグラムの比較 平均値や分布の形はカテゴリによって違うか を調査 するために ヒストグラムの比較を行う あるネットショッピングサイトのページ別閲覧時間の分布 KGI: ページ閲覧時間要因 : ページ名 (3 カテゴリ ) ページ A ページ B ページ C 1 2 5 ページ閲覧時間 ( 分 ) ヒストグラムの比較でカテゴリによって連続変数の 分布が変わるかを一目で把握できる 32

次回のテーマ 次回は ビジネスにおける比較 1( 概要 ) お疲れ様でした! 33

社会人のためのデータサイエンス演習第 2 週 : 分析の概念と事例第 5 回 : ビジネスにおける比較 1( 概要 ) 講師名 : 渋谷直正 34

第 2 週の内容紹介 第 1 回 Analysis ( 分析 ) とは 第 2 回 1 変数の状況の把握 1 ( 可視化の活用 ) 第 3 回 1 変数の状況の把握 2 ( 代表値の活用 ) 第 4 回 比較して 2 変数の関係を見る 第 5 回 ビジネスにおける比較 1( 概要 ) 第 6 回 ビジネスにおける比較 2( 適切な A/B テストの活用 ) 35

ビジネスにおける比較の事例 ビジネスにおいて 比較 は施策の効果検証のためによく用いられる 広告デザインの売上への効果 ウェブサイト コンテンツのクリック率への効果 ワクチンの感染病予防率への効果など 比較による効果検証のために A/B テストを行うことが多い 36

A/B テストの事例 サンプル抽出 従来 WEB あるウェブサイトは会員登録ボタンのクリック率を向上させたい そのために ウェブページのデザインを改善した 母集団 サンプル抽出 WEB 改善後 A/B テストの実施 1. 1 ヶ月間の来客を 2 群に分けた 2. 2 デザインをそれぞれの群に出した クリックあり クリックなし 計 クリック率 従来 100 9,900 10,000 1.0% 3. 各群におけるクリック率を記録した 改善 150 9,850 10,000 1.5% 4. 2 分布を比較した結果 改善デザインによりクリック率が上がったと分かった 要因 : デザイン ( 従来 改善 ) KGI: クリック率 37

A/B テストの紹介 A/B テストは KGI と施策の間の関係 ( 施策効果 ) を調査する手法 以下の流れにより行う 1 対象の集団から小集団を 2 つ取り出す 小集団は 標本 と呼ぶ 1 2 2 効果検証をしたい施策 A と施策 B をそれぞれの標本に適用する 3 4 3 それぞれの標本において KGI を測る クリックありクリックなし計クリック率 従来 100 9,900 10,000 1.0% 改善後 150 9,850 10,000 1.5% 要因 : 施策 A 又は施策 B のカテゴリをとる 4 両施策による KGI の分布を比較し 有意な効果があるかを判断する 名義変数 KGI: 施策の効果を受ける値 ( 連続変数又は名義変数 ) 38

不適切な A/B テストの事例 比較が公平であるようにテストを適切に設計すべき ( 事例 ) ある広告会社は 渋いデザイン と おしゃれなデザイン 2 デザインの売上効果を図るため A/B テストを実施した 標本 A に渋いデザインを 標本 B にオシャレなデザインを設定しアンケートをとった結果 渋いデザインが最も売上を増やすと見られた ただし 渋いデザインの年代分布は年配層に偏っており おしゃれなデザインと分布が異なっていた この場合渋いデザインはベストだと言えるか? 両標本は全ての要因について同一である必要がある 39

次回のテーマ 次回は ビジネスにおける比較 2 ( 適切なA/Bテストの活用 ) お疲れ様でした! 40

社会人のためのデータサイエンス演習第 2 週 : 分析の概念と事例第 6 回 : ビジネスにおける比較 2( 適切な A/B テストの活用 ) 講師名 : 渋谷直正 41

第 2 週の内容紹介 第 1 回 Analysis ( 分析 ) とは 第 2 回 1 変数の状況の把握 1 ( 可視化の活用 ) 第 3 回 1 変数の状況の把握 2 ( 代表値の活用 ) 第 4 回 比較して 2 変数の関係を見る 第 5 回 ビジネスにおける比較 1( 概要 ) 第 6 回 ビジネスにおける比較 2( 適切な A/B テストの活用 ) 42

公平な比較を行うためのロジック 全ての要因について両標本が等しい必要がある 要因性別母集団 データの全種類が両標本に同率で含まれるようにする 43

ランダムサンプリングの紹介 データから標本をランダムに ( 無作為に ) 抽出すること データの各種類が選択される確率はそれぞれの頻度と等しい 全種類が両標本に同率で含まれることを確保できる 母集団 ランダムサンプリング コイントスを実施 標本 A 表 裏 標本 B ランダムにサンプルを抽出後サンプルを標本 A 標本 Bに無作為に振り分ける 今回はコイントスで振り分けを決める 例コイン表 : 標本 A コイン裏 : 標本 B ランダムサンプリングにより 公平な比較を実現できる 44

ビジネスにおける比較まとめ 全ての要因について両標本が等しい必要がある 標本はすべての要因について同一である必要がある 分布が偏らないようランダムサンプリングを心がける サンプル抽出 従来 WEB 母集団 サンプル抽出 WEB 改善後 正しいサンプリングと比較を実施することで より正確に A/B テストの効果を測定できる 45

次週のテーマ 次週は 分析の具体的手法 お疲れ様でした! 46