社会人のためのデータサイエンス演習 対面学習 : 講義 各週の振り返りと PPDAC サイクルの注意点
対面学習の学習目標 データ分析のケーススタディ の講義と演習を通じて 以下の理解を深め 実践できるようになることを目標とする 分析の設計 データから現状の把握 現状から 課題の抽出 課題に対する解決のための分析設計 1
コンテンツ 1 第 1 週 ~ 第 4 週の振り返り 2 第 5 週の振り返り PPDAC サイクルに沿ったケーススタディ 3 演習課題説明 2
コンテンツ 1 第 1 週 ~ 第 4 週の振り返り 2 第 5 週の振り返り PPDAC サイクルに沿ったケーススタディ 3 演習課題説明 3
第 1 週のまとめ ビジネスのネット化 IoT ビッグデータ収集 活用の考え方が変化 データ活用が企業競争力になる時代へ データに基づく課題解決能力が求められている データの利活用でビジネスにおける新たな価値を創出 4
第 2 週のまとめ Analysis の具体的手法 分布 / 比較 / 傾向 KGI とそれに関連する要因の関係を分析する 比較 傾向 名義 vs 名義 名義 vs 連続 連続 vs 連続 来客数 男 女 サイトA 18 3 サイトB 4 16 クロス集計 来客数 サイトA サイトB サイト閲覧時間 ヒストグラム サイト閲覧時間 文章量 散布図 来客数 時間 時系列 5
第 3 週のまとめ 比較と傾向の分析 クロス集計 / 散布図 / 相関 / 時系列 可視化が重要 変数の関係性の把握 外れ値の除外 収穫量 ( 千 t) 13,000 12,000 11,000 10,000 9,000 8,000 7,000 6,000 5,000 1,600 1,800 2,000 2,200 2,400 作付面積 ( 千 ha) 時系列は分解して考える 解釈が容易に 将来予測が可能 6
補足. 相関と因果の違い ( 息抜きクイズ ) 答え : c. 相関関係があるとはいいきれない解説 : 家庭のしつけなどの擬似相関が指摘されている 他にも ゲームをやる子はキレやすい 凶悪少年事件の原因はジャンク ファストフード など 類似例多数 7
第 4 週のまとめ Analysis 応用編 予測 / 分析結果の報告 / 機械学習 単回帰での将来予測 概念とエクセルでの実施 特製アイスの注文数 ( 杯 ) 45 y = 2.8152x - 59.694 40 R² = 0.9605 35 30 予測注文数は25 個 25 20 明日の予想最高 15 気温は30 10 5 24 27 30 33 36 最高気温 ( ) 分析報告の落とし穴 前提や指標を適切に提示 機械学習の応用先は幅広い 8
コンテンツ 1 第 1 週 ~ 第 4 週の振り返り 2 第 5 週の振り返り PPDAC サイクルに沿ったケーススタディ 3 演習課題説明 9
第 5 週のまとめ PPDAC サイクルに沿ったケーススタディ 問題の発見 / 計画 / データ / 分析 / 結論 ロジックツリーによる分析設計 抜けもれなく要素を把握 課題の優先順位付け 計画に基づいた分析 現状把握 分析対象のしぼりこみ 分析結果と次のアクション 10
第 5 週のまとめ PPDAC サイクル C onclusion 結論 P roblem 問題の発見 A nalysis 分析 P lan 調査の計画 D ata データ収集 加工 11
第 5 週のまとめ Plan( ロジックツリー ) 第 5 週のケーススタディのロジックツリーは下記のとおり ロジックツリーが MECE( 抜けもれなく ) に分解できているかは 要素間で掛け算 足し算 の式を入れることで確認できる 店舗の売上拡大 顧客数の拡大 購入単価の向上 新規顧客の獲得 既存顧客の来店頻度の向上 購入点数を増やす 商品単価をあげる + 12
第 5 週のまとめ Data( データチェック ) データを収集したら 内容を確認し 外れ値や 欠損値が含まれていないかを確認する 次のような場合 どのような原因が考えられるでしょうか 気温で売上を予測するモデルを作成 気温データの一部が欠損していたので平均値で補完したところ期待したほどの精度が上がらなかった 月 1 月 2 月 3 月 4 月 5 月 6 月 7 月 8 月 9 月 10 月 11 月 12 月 売上 10 8 15 20 120 200 280 320 220 140 40 50 気温 5.8 5.7 10.3 14.5 21.1 22.1 26.7 22.6 18.4 13.9 9.3 24.4 全体の平均ではなく 前後の値の平均など適切な値で埋める 欠損値が無いことを確認し 回帰分析のモデルを作成したが精度が悪い 外れ値 全体的な傾向から 大きく離れている 外れ値 外れ値を含んだままモデルを作成してしまった可能性がある 回帰分析に限らず 外れ値があると分析の精度が落ちるので あらかじめ除くよう注意する 13
第 5 週のまとめ Analysis( 分布と代表値 ) 問題 : 日本人の平均貯蓄額はいくらでしょうか? 答え :1,798 万円 そんなに貯金はしてないよ と思った人が多いはず そういうときは分布を確認してみることが必要 割合 (%) 18 16 14 12 10 8 6 4 2 0 貯蓄現在高階級別世帯分布 ( 二人以上の世帯 ) ( 平成 26 年 ) 平均値 = 1,798 万円 貯蓄額 ( 円 ) 出典 : 家計調査結果 ( 総務省 ) http://www.stat.go.jp/data /kakei/family/05.htm 14
第 5 週のまとめ Analysis ( 分布と代表値 ) 分布から 少数の高額貯蓄者が平均値を引き上げていることが判明 平均値では分布の特徴を捉えられないと考え 中央値を確認 中央値は1,052 万円 それでもやはり そんなに貯金はしてないよ という人が多いはず 割合 (%) 18 16 14 12 10 8 6 4 2 0 貯蓄現在高階級別世帯分布 ( 二人以上の世帯 ) ( 平成 26 年 ) 中央値 = 1,052 万円 平均値 = 1,798 万円 貯蓄額 ( 円 ) 出典 : 家計調査結果 ( 総務省 ) http://www.stat.go.jp/data /kakei/family/05.htm 15
第 5 週のまとめ Analysis ( 分布と代表値 ) 最後に 最頻値を確認 最頻値は 200 万円未満 ぐっと現実感が出てきたのではないでしょうか 分布の形状の確認と適切な代表値の選択が重要 割合 (%) 18 16 14 12 10 8 6 4 2 0 貯蓄現在高階級別世帯分布 ( 二人以上の世帯 ) ( 平成 26 年 ) 最頻値 = 200 万円未満 中央値 = 1,052 万円 平均値 = 1,798 万円 貯蓄額 ( 円 ) 出典 : 家計調査結果 ( 総務省 ) http://www.stat.go.jp/data /kakei/family/05.htm 16
第 5 週のまとめ Analysis( 比較 ) さて ここで ひとつあらたな疑問が 貯蓄額は年代や地域によっても違うのでは? どうやって調べるのがよいでしょうか 年代ごとに分布と代表値を比較 平均値 円中央値 円最頻値 円 平均値 円中央値 円最頻値 円 30 代の貯蓄額分布 60 代の貯蓄額分布 年代 地域で集計 可視化 30 代 60 代 A 県 円 円 B 県 円 円 30 代 60 代 30 代 60 代 A 県 B 県 17
ビジネスでの活用に向けて オンライン講座で 皆様は様々なことを学んできました 第 1 週 : ビジネスのネット化 IOT 第 2 週 :Analysisの具体的手法( 分布 / 比較 / 傾向 ) 第 3 週 : 比較と傾向の分析 ( クロス集計 / 散布図 / 相関 / 時系列 ) 第 4 週 :Analysis 応用編 ( 予測 / 分析結果の報告 / 機械学習 ) 第 5 週 :PPDACサイクルに沿ったケーススタディ 後は ビジネスでの活用に向けて 実践あるのみです それでは 次からの課題で 第 5 週のケーススタディのようにデータサイエンスによる問題解決を一緒に実践してみましょう 18
コンテンツ 1 第 1 週 ~ 第 4 週の振り返り 2 第 5 週の振り返り PPDAC サイクルに沿ったケーススタディ 3 演習課題説明 19
課題の状況設定 あなたは大手コンビニチェーン A 社の既存顧客向けのマーケティング担当です マーケティング部の部長から 来年度の販売促進施策立案の基礎資料として 自社の販売状況を分析し 現状と課題点をまとめて報告するように指示を受けました 上記課題についてコンビニ A( 自社 ) とコンビニ B( 競合 ) の販売データを提供します まず 分析の設計 次に設計に従い分析を行い 報告用資料を作成してください 20
データ説明 1 家計簿スマホアプリ ReceReco の概要 ReceRecoとは 家計簿をリデザインする をコンセプトに レシートのデータ化から 分析 外部連携までを無料で提供する 家計簿 / 支出管理アプリ (ios/android 対応 ) であり 料理レシピや電子チラシの閲覧などのお得で便利な機能も充実している http://www.brainpad.co.jp/recereco/ 分析における応用例 サービスの特長 21
データ説明 2ReceReco のデータ取得の流れ アプリから取得可能なユーザ情報 レシート情報 レシートアイテム情報のデータを利用 今回は研修用にユーザ別にレシート情報を集約し 1つのデータセットに加工 ( 個人が特定されない形にデータ加工 本講義内で用いているデータは 登録されたレシートデータを個人が特定されない範囲で二次利用することは全ユーザ承諾済 ) 1 ダウンロード 3 レシート登録 1 3 レシート登録 2 2 ユーザ登録 22
データの説明 3 データ定義 データ期間 :2014 年 7 月 1 日 ~2015 年 6 月 30 日までの1 年間 抽出条件 : コンビニA( 自社 ) B( 競合 ) のレシート登録者 データ件数 : コンビニA( 自社 ) 14,602 件 コンビニB( 競合 ) 16,100 件 ファイル名 : 対面学習課題データ.xlsx ( コンビニA( 自社 ) コンビニB( 競合 )) 大項目中項目項目名 ( 変数名 ) 尺度データの種類コメント ユーザー属性 user_id 名義 文字列 ユーザを特定するためのID 性別 名義 文字列 男性 女性 年代名義文字列 10 代 20 代 30 代 40 代 50 代 60 代以上 購買行動 費目合計 費目別アイテム点数 都道府県 名義 文字列 47 都道府県 不明の場合は空欄 合計レシート枚数 連続 数値 ユーザーごとの合計レシート枚数 合計金額 連続 数値 ユーザーごとの合計支払金額 合計アイテム点数 連続 数値 ユーザーごとの購入した商品点数の合計 日用品費 _ アイテム点数連続数値費目で日用品費に分類される商品の購入点数 : 被服費 食費 美容健康費 交際費 教養娯楽 養育費 その他 ギフト等商品費も同様 費目別合計金額 日用品費 _ 合計金額連続数値費目で日用品費に分類される商品の購入金額 : 被服費 食費 美容健康費 交際費 教養娯楽 養育費 その他 ギフト等商品費も同様 23
課題 1: 分析の設計 コンビニチェーンの既存顧客の売上拡大のロジックツリーを作成してください 上記課題について今回のデータセットにあわせて作成してください ロジックツリーが MECE( 抜けなくもれなく ) にできているか 作成後に検証してみましょう 24
課題 2: 現状把握と課題抽出 分析設計に従い 自社 / 競合の現状を把握し 自社の課題を抽出してください 上記課題について課題 1 で作成した売上拡大のロジックツリーに基づき代表値や分布を確認し 現状を把握していきましょう 次に 自社と競合を比較し 自社の課題を抽出しましょう ( 時間に余裕がある方は ) 自社課題の解決に向け 分析を行い 課題解決に繋がる施策の方向性を提案してください 25