講座内容第 1 週データサイエンスとは第 2 週分析の概念と事例ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )1 第 3 週分析の具体的手法ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )2 第 4 週ビジネスにおける予測と分析結果の報告ビジネス課題解決のためのデー

社会人のためのデータサイエンス演習第 2 週 : 分析の概念と事例第 1 回 :Analysis( 分析 ) とは講師名 : 今津義充 1

講座内容第 1 週データサイエンスとは第 2 週分析の概念と事例ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )1 第 3 週分析の具体的手法ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )2 第 4 週ビジネスにおける予測と分析結果の報告ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )3 第 5 週ビジネスでデータサイエンスを実現するために 2

第 2 週の内容紹介第 1 回 Analysis ( 分析 ) とは第 2 回 1 変数の状況の把握 1 ( 可視化の活用 ) 第 3 回 1 変数の状況の把握 2 ( 代表値の活用 ) 第 4 回比較して 2 変数の関係を見る第 5 回ビジネスにおける比較 1 ( 概要 ) 第 6 回ビジネスにおける比較 2 ( 適切な A/B テストの活用 ) 3

Analysis ( 分析 ) とは分析 = 複雑な事柄を要因に分けその構造関係を解明仮説に基づいて各要因と結果 (KGI) の関係を調査する要因 ( 変数 )? 結果 (KGI) どのように関係しているかを調査するこの際要因と結果 (KGI) を数学的に変数として表現する分析の第一歩は 1 変数による状況把握と要因と結果を 2 変数の関係として解明すること 4

変数の尺度分析手法を理解する前提として必ずおさえたい知識名義尺度 ( 質的 ) カテゴリに分類するための特性を表す尺度順序無し順序付き順序に意味がない例 : 性別都道府県血液型など順序に意味がある例 : 満足度順位など連続尺度 ( 量的 ) 数値で表し測れる大小の関係がある尺度間隔尺度比率尺度順序及び和差の演算が意味がある例 : 年齢セ氏度など順序及び和差積商の演算が意味がある例 : 体重金額速度など変数の尺度により分析手法を変える必要がある 5

顧客数顧客数 1 変数の状況を把握 ( データチェック ) 分析の第一歩としては可視化と代表値により各要因 (1 変数 ) の状況を把握棒グラフ可視化ヒストグラム可視化代表値カテゴリ数最頻値など購入金額代表値平均値標準偏差最頻値など 1 変数の可視化と代表値の算出は鳥瞰的な状況把握と分析の次のステップを計画するのに重要 6

来客数サイト閲覧時間来客数 2 変数の関係を調査 KGI と要因の関係を調査するために尺度によって様々な手法がある比較傾向名義 vs 名義 : クロス集計を用いて離散分布を比較する名義 vs 連続 : ヒストグラムを用いて連続分布を比較する連続 vs 連続 : 散布図を用いて片方の変数に対してもう片方の変数の傾向を見る ( 片方は時間だと時系列と呼ぶ ) 比較傾向名義 vs 名義名義 vs 連続連続 vs 連続来客数男女サイトA 18 3 サイトB 4 16 サイトA サイトB サイト閲覧時間文章量時間クロス集計ヒストグラム散布図時系列 7

複数変数の関係を調査したい場合は? 要因が複数の時要因間の相互作用も考慮すべきであるが変数が 3~4 個以上になると前述の手法だけでは困難要因と結果を示すデータをコンピューターに与え自動的にその関係を学習させる機械学習などが有効となる要因 1 ( 変数 ) 要因 2 ( 変数 )? 結果 (KGI) 要因 N ( 変数 ) 機械学習機械学習は第 4 週で紹介 8

次回のテーマ次回は 1 変数の状況の把握 1 ( 可視化の活用 ) お疲れ様でした! 9

社会人のためのデータサイエンス演習第 2 週 : 分析の概念と事例第 2 回 :1 変数の状況の把握 1 ( 可視化の活用 ) 講師名 : 今津義充 10

第 2 週の内容紹介第 1 回 Analysis ( 分析 ) とは第 2 回 1 変数の状況の把握 1 ( 可視化の活用 ) 第 3 回 1 変数の状況の把握 2 ( 代表値の活用 ) 第 4 回比較して 2 変数の関係を見る第 5 回ビジネスにおける比較 1( 概要 ) 第 6 回ビジネスにおける比較 2( 適切な A/B テストの活用 ) 11

頻度 ( データ個数 ) 来客数可視化の重要性可視化では様々な情報を一目で把握できる 1 変数の状況把握のためにヒストグラムを用いる 10 30 50 70 90 年齢データの種類一枚の絵は一千語に匹敵する 12

来客数分布の見方 1 下図はある店の年代別来客数のヒストグラムですグラフから何が読み取れるでしょうか 1 どんな種類がある? 2 最も多い種類はどれ? 3 大半のサンプルはどこ? 4 最小値はどれぐらい? 5 最大値はどれぐらい? 6 データ不備はある? 10 30 50 70 90 年齢 13

来客数分布の見方 2 110 代 ~100 歳以上の顧客が存在 230 代は最も多い 3 大半の顧客は 20~50 代 6100 歳以上は意外と多いデータ不備の可能性あり 10 30 50 70 90 4 最小の年代は10 代年齢 5 最大の年代は 100 歳以上可視化することで様々な情報を一目で把握できる 14

分布の見方 3 変数の性質によって特徴の異なる様々な分布があるピーク ( 峰 ) の数ピーク ( 峰 ) の偏り外れ値の有無異種データの混在の可能性平均値を見る際に注意データ不備や異常値の可能性変数の性質を把握するのに分布特徴に注意すべき 15

次回のテーマ次回は 1 変数の状況の把握 2 ( 代表値の活用 ) お疲れ様でした! 16

社会人のためのデータサイエンス演習第 2 週 : 分析の概念と事例第 3 回 :1 変数の状況の把握 2 ( 代表値の活用 ) 講師名 : 今津義充 17

第 2 週の内容紹介第 1 回 Analysis ( 分析 ) とは第 2 回 1 変数の状況の把握 1 ( 可視化の活用 ) 第 3 回 1 変数の状況の把握 2 ( 代表値の活用 ) 第 4 回比較して 2 変数の関係を見る第 5 回ビジネスにおける比較 1( 概要 ) 第 6 回ビジネスにおける比較 2( 適切な A/B テストの活用 ) 18

代表値の重要性代表値 ( 統計量 ) は分布の特徴を数値にまとめるもの代表値では分布を見なくても分布の特徴を把握できる一般的には以下の代表値がよく用いられる位置を示す代表値ばらつきを示す代表値平均値中央値最頻値標準偏差 ( 分散 ) 分布の形を示す代表値尖度歪度代表値では分布の特徴を少ない情報で伝えられる 19

位置を示す代表値 1 平均値 : 分布の中心傾向を表す値但し分布が偏っている場合や外れ値が存在する場合には平均値を解釈する際に注意平均値偏りと外れ値に注意! 平均値平均値では分布の中心を推定できる 20

位置を示す代表値 2 中央値 : 分布を下半分と上半分に分ける値最頻値 : 頻度が最も高い値最頻値平均値中央値最頻値中央値平均値偏りや外れ値がある場合中央値と最頻値は平均値より有意義であることがある 21

141 144 147 150 153 156 159 162 165 168 171 174 177 180 183 186 189 192 195 198 割合 (%) 位置を示す代表値の例 1 17 歳の男子の身長分布 ( 平成 26 年度 ) 8% 7% 平均値 = 中央値 = 最頻値 = 170 cm 6% 5% 4% 3% 2% 1% 0% 身長 (cm) 出典 : 平成 26 年度学校保健統計調査結果 ( 文部科学省 ) http://www.e-stat.go.jp/sg1/estat/list.do?bid=000001058732&cycode=0 22

割合 (%) 位置を示す代表値の例 2 貯蓄現在高階級別世帯分布 ( 二人以上の世帯 ) ( 平成 26 年 ) 18 16 14 12 10 8 6 4 2 0 最頻値 = 200 万円未満中央値 = 1,052 万円平均値 = 1,798 万円貯蓄額 ( 円 ) 出典 : 家計調査結果 ( 総務省 ) http://www.stat.go.jp/data/kakei/family/05.htm 23

ばらつきを示す代表値標準偏差 : 分布が平均値からの散らばりを示す値標準偏差標準偏差 = 0.5 標準偏差 = 1.0 標準偏差 = 1.5 分布のばらつきが広いほど標準偏差が高い 24

~90 cm 96 102 108 114 120 126 132 138 144 150 156 162 168 174 180 186 192 198 ばらつきを示す代表値の例 9% 8% 7% 6% 5% 4% 3% 2% 1% 0% 男子の身長分布 ( 平成 26 年度 ) 7 歳 ± 5.1 cm 12 歳 ±7.9 cm 17 歳 ±5.9 cm 出典 : 平成 26 年度学校保健統計調査結果 ( 文部科学省 ) http://www.e-stat.go.jp/sg1/estat/list.do?bid=000001058732&cycode=0 25

分布の形を示す代表値尖度 : ピーク ( 峰 ) への集中度合いを示す値歪度 : 左右へのピーク ( 峰 ) の偏りを示す値尖度 = 0.0 尖度 = 0.5 尖度 = -0.5 歪度 = 0.0 歪度 = 0.5 歪度 = -0.5 26

次回のテーマ次回は比較して 2 変数の関係を見るお疲れ様でした! 27

社会人のためのデータサイエンス演習第 2 週 : 分析の概念と事例第 4 回 : 比較して 2 変数の関係を見る講師名 : 今津義充 28

第 2 週の内容紹介第 1 回 Analysis ( 分析 ) とは第 2 回 1 変数の状況の把握 1 ( 可視化の活用 ) 第 3 回 1 変数の状況の把握 2 ( 代表値の活用 ) 第 4 回比較して 2 変数の関係を見る第 5 回ビジネスにおける比較 1( 概要 ) 第 6 回ビジネスにおける比較 2( 適切な A/B テストの活用 ) 29

来客数比較とは比較する変数の尺度により手法を変える必要がある名義 vs 名義 : クロス集計を用いて離散分布を比較する名義 vs 連続 : ヒストグラムを用いて連続分布を比較する名義 vs 名義来客数男女サイト A 18 3 サイト B 4 16 クロス集計を用いて離散分布を比較する名義 vs 連続サイト A サイト B サイト閲覧時間ヒストグラムを用いて連続分布を比較する 30

名義変数 vs 名義変数 : クロス集計 2 変数のカテゴリの組み合わせでデータの個数を集計横カテゴリにより縦カテゴリの構成が変化するかを調査するあるネット銀行の地域別顧客満足度の構成比 KGI: 顧客満足度 (5 カテゴリ ) 要因 : 地域 (5 カテゴリ ) 100% 90% 5% 7% 10% 15% 13% 10% 20% 19% 地域別顧客満足度 ( 万人 ) 関東関西中部東北中国満足 17 20 20 24 15 やや満足 52 37 20 36 22 普通 70 43 120 24 18 やや不満 105 116 20 24 14 不満 105 72 20 12 9 満足やや満足普通やや不満不満 80% 70% 60% 50% 40% 30% 20% 10% 0% 20% 15% 30% 60% 28% 30% 40% 20% 23% 20% 18% 30% 25% 10% 10% 10% 12% 関東関西中部東北中国クロス集計で一目で比率の違いを把握できる 31

来客数連続変数 vs 名義変数 : ヒストグラムの比較平均値や分布の形はカテゴリによって違うかを調査するためにヒストグラムの比較を行うあるネットショッピングサイトのページ別閲覧時間の分布 KGI: ページ閲覧時間要因 : ページ名 (3 カテゴリ ) ページ A ページ B ページ C 1 2 5 ページ閲覧時間 ( 分 ) ヒストグラムの比較でカテゴリによって連続変数の分布が変わるかを一目で把握できる 32

次回のテーマ次回はビジネスにおける比較 1( 概要 ) お疲れ様でした! 33

社会人のためのデータサイエンス演習第 2 週 : 分析の概念と事例第 5 回 : ビジネスにおける比較 1( 概要 ) 講師名 : 渋谷直正 34

第 2 週の内容紹介第 1 回 Analysis ( 分析 ) とは第 2 回 1 変数の状況の把握 1 ( 可視化の活用 ) 第 3 回 1 変数の状況の把握 2 ( 代表値の活用 ) 第 4 回比較して 2 変数の関係を見る第 5 回ビジネスにおける比較 1( 概要 ) 第 6 回ビジネスにおける比較 2( 適切な A/B テストの活用 ) 35

ビジネスにおける比較の事例ビジネスにおいて比較は施策の効果検証のためによく用いられる広告デザインの売上への効果ウェブサイトコンテンツのクリック率への効果ワクチンの感染病予防率への効果など比較による効果検証のために A/B テストを行うことが多い 36

A/B テストの事例サンプル抽出従来 WEB あるウェブサイトは会員登録ボタンのクリック率を向上させたいそのためにウェブページのデザインを改善した母集団サンプル抽出 WEB 改善後 A/B テストの実施 1. 1 ヶ月間の来客を 2 群に分けた 2. 2 デザインをそれぞれの群に出したクリックありクリックなし計クリック率従来 100 9,900 10,000 1.0% 3. 各群におけるクリック率を記録した改善 150 9,850 10,000 1.5% 4. 2 分布を比較した結果改善デザインによりクリック率が上がったと分かった要因 : デザイン ( 従来改善 ) KGI: クリック率 37

A/B テストの紹介 A/B テストは KGI と施策の間の関係 ( 施策効果 ) を調査する手法以下の流れにより行う 1 対象の集団から小集団を 2 つ取り出す小集団は標本と呼ぶ 1 2 2 効果検証をしたい施策 A と施策 B をそれぞれの標本に適用する 3 4 3 それぞれの標本において KGI を測るクリックありクリックなし計クリック率従来 100 9,900 10,000 1.0% 改善後 150 9,850 10,000 1.5% 要因 : 施策 A 又は施策 B のカテゴリをとる 4 両施策による KGI の分布を比較し有意な効果があるかを判断する名義変数 KGI: 施策の効果を受ける値 ( 連続変数又は名義変数 ) 38

不適切な A/B テストの事例比較が公平であるようにテストを適切に設計すべき ( 事例 ) ある広告会社は渋いデザインとおしゃれなデザイン 2 デザインの売上効果を図るため A/B テストを実施した標本 A に渋いデザインを標本 B にオシャレなデザインを設定しアンケートをとった結果渋いデザインが最も売上を増やすと見られたただし渋いデザインの年代分布は年配層に偏っておりおしゃれなデザインと分布が異なっていたこの場合渋いデザインはベストだと言えるか? 両標本は全ての要因について同一である必要がある 39

次回のテーマ次回はビジネスにおける比較 2 ( 適切なA/Bテストの活用 ) お疲れ様でした! 40

社会人のためのデータサイエンス演習第 2 週 : 分析の概念と事例第 6 回 : ビジネスにおける比較 2( 適切な A/B テストの活用 ) 講師名 : 渋谷直正 41

第 2 週の内容紹介第 1 回 Analysis ( 分析 ) とは第 2 回 1 変数の状況の把握 1 ( 可視化の活用 ) 第 3 回 1 変数の状況の把握 2 ( 代表値の活用 ) 第 4 回比較して 2 変数の関係を見る第 5 回ビジネスにおける比較 1( 概要 ) 第 6 回ビジネスにおける比較 2( 適切な A/B テストの活用 ) 42

公平な比較を行うためのロジック全ての要因について両標本が等しい必要がある要因性別母集団データの全種類が両標本に同率で含まれるようにする 43

ランダムサンプリングの紹介データから標本をランダムに ( 無作為に ) 抽出することデータの各種類が選択される確率はそれぞれの頻度と等しい全種類が両標本に同率で含まれることを確保できる母集団ランダムサンプリングコイントスを実施標本 A 表裏標本 B ランダムにサンプルを抽出後サンプルを標本 A 標本 Bに無作為に振り分ける今回はコイントスで振り分けを決める例コイン表 : 標本 A コイン裏 : 標本 B ランダムサンプリングにより公平な比較を実現できる 44

ビジネスにおける比較まとめ全ての要因について両標本が等しい必要がある標本はすべての要因について同一である必要がある分布が偏らないようランダムサンプリングを心がけるサンプル抽出従来 WEB 母集団サンプル抽出 WEB 改善後正しいサンプリングと比較を実施することでより正確に A/B テストの効果を測定できる 45

次週のテーマ次週は分析の具体的手法お疲れ様でした! 46