クラスタリング 類似の集合を 特徴に応じてグループに 分ける 株式会社アイズファクトリー
はじめに 目次 クラスター (cluster) とは 英語で 集団 群れ のことを指し クラスタリング (clustering) とは 類似したものが混じり合う集団を 似た性質をもつもの同士に分けることです この クラスタリング を行うことで 人 による恣意的なグループ分けではなく 客観的なグループ分けを行うことが可能になります 本資料では 顧客セグメンテーションを例に クラスタリングの実施例をご紹介いたします. クラスタリングとは 2. マーケティング領域におけるクラスタリング活用例 3. 分析の概要 () 4. 分析の概要 (2) 5. クラスタリングのための デ タの準備 6. おわりに 2
第 章 クラスタリングとは 分類 グループ分けの手法の代表的なものはクラスター分析である クラスター分析には クラスターの数を段階的に増加または減少させる階層的な方法と クラスターの数をあらかじめ固定しておく非階層的な方法がある データマイニングでは 大量サンプルを分類するために 非階層的手法であるk means 法などがよく使われる 出典 : 日本ユニシス株式会社 3
第 章 クラスタリングとは 混じり合う集団を 分ける クラスタリングとは クラスター (cluster) とは 英語で 集団 群れ のことを指し クラスタリング (clustering) とは 類似したものが混じり合う集団を 似た性質をもつもの同士に分けることです データマイニング (BA) を行う上では 分類 と クラス タリング の違いを理解しておく必要があります 分類は クラス分類とも言います その言葉通りに データをクラスに 分ける ことです これとは別に クラスタリングと言う言葉があり これもデータを 分ける 事を意味します この 2 つの言葉の違いは何でしょうか 性質の類似したグループに分ける 4
第 章 クラスタリングとは クラスタリング 分類 と クラスタリング の違い 新たな分類軸を作成 A 英語にすると まずその違いを感覚的に理解できます クラス分類の クラス は class です 部類 種類 組 などを意味します そして クラスタリングは clustering です cluster は 集団 群れ のことです 日本語( カタカナ ) では同じ表記でも 英語にすると違いが明らかです ただ もう少し詳しい説明が必要ですね 分ける B C 分類 ( クラス分類 ) は 事前に決められたクラスに データを分けることです クラスタリングは 事前に決められたクラスが無く データの集まりから分類を見つけ出す手法のことで 似ている データをグループ分けします 従って クラスタリングによってグループ分けされた各グループ ( クラスター ) に対しては 分けた後に何らかの識別名称をユーザー自身が決める ( 付ける ) ことになります データマイニングの専門的な用語説明としては 分類 ( クラス分類 ) は 教師あり ( 事前に分けるための定義がある ) 学習 で クラスタリングは 教師なし ( 事前に分けるための定義がない ) 学習 と言います この2つの違いを理解しておくことが必要です 分類 どの分類にあてはまる? 分類する ( 判別 ) 既存の分類軸 ( クラス ) A グループ B グループ C グループ 5
第 2 章 マーケティング領域における クラスタリング活用例 データマイニングの ゴール は顧客のより良い理解を 通じてマーケティング 販売 顧客サポートを企業が 改善できるようにすることである 出典 : データマイニング手法 著者 :Michael J..Berry and Gordon S.Linoff 出版社 : 海文堂 6
第 2 章 マーケティング領域におけるクラスタリング活用例 顧客のグループ分け DM 送付 - クラスタリングをマーケティング領域で活用した場合 どんなことができるのでしょうか DM 施策を行った場合で考えてみましょう 通常 DMを受け取った顧客は そのDMの内容が顧客自身の関心のあることであったり 価値を感じた場合に申込みや購入などのアクションを起こします 逆に 自分にとって興味のない内容であれば DMは不要なものとして処分されてしまいます 手間と予算をかけた施策で 反応率を最大限に高め 成果を得るためにはどうしたらよいのでしょうか 7
第 2 章 マーケティング領域におけるクラスタリング活用例 RFM 分析による 顧客の抽出 顧客のグループ分け DM 送付 - それぞれの顧客の興味や潜在ニーズに合ったDMを送ることができれば この問題は解決されます 顧客をなんらかの指標で分類することによって 施策やクリエイティブの打ち分けが可能になります 顧客分類の方法としては それぞれの顧客の購買に関する各指標 ( 購買頻度 購買金額など ) から ロイヤリティの高い顧客に分類するRFM ( ) 分析があります しかし この方法では ある程度 DMに反応しやすい顧客は可視化できるかもしれませんが それぞれの顧客の興味 関心に対応することはできません 最終購買日 この層を 送付対象として抽出 R5 R4 R3 R2 R 購買頻度大 F5 F4 F3 F2 F RFMとは 下記の3 要素を指す 最終購買日(Recency) 購買頻度(Frequency) 累計購買金額(Monetary) どんなことに興味 関心のあるお客様なのか わからない 8
第 2 章 マーケティング領域におけるクラスタリング活用例 クラスタリングによって 興味 / 関心に応じて類似した顧客群にグループ分けすること (= セグメンテーション ) が可能です 自社の顧客を 興味関心 / 購買傾向などが類似した顧客群にグループ分けすることで それぞれの顧客群の興味 関心に合わ せてクリエイティブの企画を行ったり 発送対象を選別できるようになります キャンペーン DM 旅行会社とのタイアップ企画 春の台湾女子旅プラン 発送 旅行好きアクティブ層 お酒好きグルメ層 手作りインドア層 旅行が趣味 ワインには こだわり有 お菓子作り が好き 自社の顧客 9
第 3 章 分析の概要 () 顧客セグメンテーションは 定着した顧客に関するデータマイニングの一般的な適用領域である セグメンテーションの目的は それぞれのセグメントに対して 製品やサービス マーケティングメッセージをしつらえることである 顧客セグメントは これまで市場調査に基づいて作られてきた そこでは 若者の単身セグメント や ロイヤルセグメント などといったようなものが得られる 市場調査に基づくセグメントに付随する問題は 調査対象とはされていない他のすべての顧客に対して それらのセグメントを適用する方法を知ることが難しいということである 出典 : データマイニング手法 著者 :Michael J..Berry and Gordon S.Linoff 出版社 : 海文堂 0
第 3 章分析の概要 () クラスタリングの手順 ( マーケティング ) グループ分け 様々なお客様が存在 お客様の特徴は? 特徴の似たグループに分ける A B C D 自社の顧客 (A 百貨店 ) クラスタリング事例 ( マーケティング ペルソナ構築 ) 各グループの特徴を可視化 自社にとってどのくらいポテンシャルのあるターゲットが 人数 特徴 どの程度のボリュームでマーケットに存在するのかが分かり 自社が強みを発揮できるターゲット 売上確保のために十分なボリュームをもつターゲット ターゲットに対する最適な訴求内容 製品 / サービスの改良点などが明らかになるため 具体的なマーケティング施策につなげることができるようになります A B C D 2920 人 3 人 90 人 7622 人 気に入れば消費型 - 細かな比較検討はしない ブランド志向型 - 多少高くても品質重視 低価格志向型 - 所得が平均より少なく 価格重視 積極消費型 - 消費に積極的 主力商品をリピート
第 3 章分析の概要 () クラスタリング の流れ データマイニングのためのデータ作成 今回は ある百貨店の顧客におけるペルソナ構築を行った場合を例に データやアウトプットをご紹介いたします I D 性別 生年月日 婚姻 年収 累計金額 累計回数 アクセス有無 課題設定 M 945 /2/ 独身 890 83000 2 有 自社会員にひもづく様々なデータを使って 具体的にどんな特徴をもつ顧客グループが存在するのかを定量的に把握し ターゲットやターゲットに適した施策を検討したい 2 F 3 F 977 /3/2 889 /2/4 既婚 500 58290 9 無 独身 450 40223 4 有. データの準備 データ例 データ作成にあたって マスターデータ : 年齢 性別 会員区分 結婚の有無 年収など POSデータ : 累計購入金額 累計購入回数 直近購入日アクセスログ : 会員サイトログイン有無 直近のログイン日など他 アンケートデータなど 今回は 顧客 毎の特徴を可視化したいので 顧客 にひもづく様々なデータをレコードに加工した上の表のような形式のデータを用意します 通常 POSデータやアクセスログなどは 商取引やアクセスの度に蓄積される流動的なデータとなるため データマイニングを行う際にはそれぞれのデータを 顧客 毎の単位にまとめるための データの加工 が必要となります 2
第3章 2 クラスタリング 教師なし 分析の概要 1 各種アウトプットと 人 による考察 セグメントボリューム 作成したデータを 解析プラットフォーム 人数 bodais にアップロードすることで 様々なアウ 分析対象の顧客を データから 似通った グループ にグループ 分けした際 今回は 7つ のグループ CL クラスタ に分かれた トプットをレポートとして得ることができます データは CSV形式でアップロードします アップロードの際は データを全て数値化します また それぞれのグ ループの顧客数も可視 化された CSVデータ 特徴属性リスト 各グループの特徴 グループ 1位 属性 2位 属性 3位 属性 4位 属性 5位 属性 CL1 20代 コスメ 購入多 独身 購入回数 30回以上 女性 CL2 5人家族 利用意向 高い 年収 600~ 40代 ログイン 有 CL3 男性 年収 800万~ 購入回数 20~30回 30代 独身 CL クラスタリングの各種アウトプット 詳細は右の通り bodais 統計知識を要する データマイニングのための データの準備 の一部を自動化 作成したデータセットをアップロードするだけで 自動で解析 レポーティングが行われる 自動解析プラットフォームです 3
第3章 各種アウトプットと 人 による考察 分析の概要 1 バブルチャート アウトプットをもとにした ペルソナ構築 CL6とCL7 は 比較的 似たグループ といえる 特徴属性リスト から 各グループを特徴づけて いる特徴 統計的にグループ分けの根拠となって いる データ項目 を読み取り マーケターのもつ ビジネスの理解 も鑑みて顧客像を明確にします バブル グループ は近い程似ている 大きい程人数が多い 人 によって検討されたペルソナ CL 顧客像 人 による定義 特徴 CL1 コスメマニアの 20代独身OL Webで週2 3回の頻度で コスメや ファッションアイテムをチェック 購入額も年間5万円以上と多め CL2 Web通販派の 主婦 買い物はWebで行う 小さい子供を含む 5人家族 食品中心に購入 独自展開しているPB商品を支持 CL3 ブランド志向の 独身貴族 着るもの 持ち物にこだわり有り 年収は高めで毎月百貨店を利用する 接客やサービスに魅力を感じている グループ 戦略への落し込み バブルチャート では 各グループ同士が どれ くらい似ているか どのくれいの規模のマーケッ トであるか を視覚的に表しています 近い程 似ている グループであるといえます ペルソナとマーケットの状況から 自社のターゲ ティングを行うことができます 4
第 4 章 分析の概要 (2) グループに分ける クラスタリング ( 教師あり ) を行うことによって 分類のための 分類モデル が 作成できます このモデルを適用すること (= クラスタリング ( 教 師あり ) ) によって 分類が未知の新規顧客が 既 存のどの分類に当てはまるのかを予測できます 5
第4章 分析の概要 2 新規リストに 分類が付与される 3 クラスタリング 教師あり 既存の分類軸を活用した 新規顧客の 分類 分類を知りたい新規顧客のリストを用意 グループ分けの際の投入データと同じヘッダのデータセット ID 性別 生年 月日 婚姻 分類 111 M 985 //8 独身 CL2 112 M 967 /9/2 既婚 CL5 113 F 879 /8/24 既婚 CL4 クラスタリング 教師あり によって 分類 モデル が作成できます このモデルを適用するこ とで 分類が未知の新規顧客が 既存のどの分類に 当てはまるのかを予測することが出来ます 予測した分類が付与される クラスタリング 教師なし の モデルを適用 CSVデータ 新規顧客 予測結果活用 新規顧客の分類を予測できることで 自社のター ゲットであれば施策の対象としたり その特徴に応 じた施策の適用が可能になります 新規顧客 Aさん 新規顧客の分類がわかる 分類 コスメマニアの 20代独身OL 施策 日本初上陸の話題の コスメ特集のDMを 送ろう bodais 統計知識を要する データマイニングのための データの準備 の一部を自動化 作成したデータセットをアップロードするだけで 自動で解析 レポーティングが行われる 自動解析プラットフォームです 6
第 5 章 クラスタリングのための デ タの準備 データ分析業務は8 割が前処理 と揶揄 ( やゆ ) されることがあるほど 分析業務における前処理の比重は大きい また 前処理が終わらなければ機械学習などの本格的な分析を始めることができないという構造もあり 分析プロジェクトのボトルネックに 容易になりうる 出典 :ZDNet Japan 7
第 5 章 クラスタリングのための デ タの準備 分析を正しく行い ビジネスに有効な分析結果を得るには ビジネスの理解 を踏まえた 適切なデータの準備 が必要です I D データ作成の考え方 性別 W 2 M 3 M 生年月日 95/ 02/3 945/ 0/2 98/ 04/07 婚姻 年収 2 累計金額 累計回数 独身 890 8,350 5 既婚 500 2,824 2 3 独身 450 9,820 上記が クラスタリング ( 教師なし ) を行う際に bodais にアップロードするデータセット例です ~3 のパーツそれぞれについて 目的に合ったデー タを検討し 準備します 分類 目標の設定 まずはじめに 分析の目的 期待するビジネス上の成果を明確にし アクションにつながるビジネスの目標を設定します 例 : 自社顧客を類似したグループに分け 施策に活用したい 何を対象にするか 全顧客を対象にする / 関東地方の顧客のみを対象にす る など データ解析を行う対象 単位を決定します 2 どのデータ項目を使うか 顧客情報に加え購買履歴やアンケートデータなど 分 析に使用するデータを決定します 3 適切な変換 ( カテゴリ化 ) の検討 生データではクラスタリングはできません 男性 女性 2 などのように数値データに変換し たり 購入金額を 0 万円刻みでカテゴリ分けするな どのデータ変換を行う必要があります アウトプットにも影響するため 適切なカテゴリ分け を検討します 8
第 5 章 クラスタリングのための デ タの準備 データの加工 データの加工にあたって データ作成のポイント前項の 下記 2 点について決まったら 顧客マスターやPOSデータ アンケートデータなどばらばらに管理されているデータを分析のID( 前項の) 毎にひもづくように加工する必要があります 2どのデータ項目を使うか 3 適切な変換 ( カテゴリ化 ) の検討顧客のクラスタリング ( 教師なし ) の場合は 顧客 毎の分析をしたいので のIDは 顧客 単位とし 顧客 にひもづく様々なデータをレコードに加工した前項の表のような形式のデータを作成します データ作成の方針例 何を対象にするか 顧客 毎の予測を実施する( 該当顧客の抽出 ) 2どのデータ項目を使うか 顧客属性 購買履歴 アンケートデータ 3 適切な変換 ( カテゴリ化 ) の検討 生年月日は年代にカテゴリ化 直近注文日はか月刻みでカテゴリ化 などすべての属性について設定具体的なデータ加工例は 次項をご覧ください 通常 POSデータやアクセスログなどは 商取引やアクセスの度に蓄積される流動的なデータとなるため それぞれのデータを 顧客 毎の単位にまとめる必要があります 9
第5章 クラスタリングのための デ タの準備 データ加工の概要 顧客属性 顧客マスター 購買履歴 POSデータなど を 顧客ID毎にひもづけます 顧客マスター 顧客ID 2 3 4 5 生年月日 95/02/3 945/0/2 98/04/07 990/0/03 975/03/06 POSデータ 性別 W M M W W 顧客ID 2 3 4 5 購買回数 5 2 4 直近注文日 合計購買額 204//5 8,350 204/06/24 2,824 204//2 9,820 204/08/03,900 204/07/0 2,500 各種アンケートデータなど 顧客IDでひもづけ ID毎に集計されたデータに加工 顧客ID 生年月日 2 3 4 5 95/02/3 945/0/2 98/04/07 990/0/03 975/03/06 性別 購買回数 W M M W W 5 2 4 直近注文日 204//5 204/06/24 204//2 204/08/03 204/07/0 合計購買額 8,350 2,824 9,820,900 2,500 正解 0 0 0 20
第5章 クラスタリングのための デ タの準備 トランザクションデータの加工 POSデータなどのトランザクションデータは 商取引毎に生成されるそれぞれのレコードを 顧客IDにひもづく 人レコード のデータに加工します 手順 1 顧客ID毎にレコード数のカウントを行い 購買回数を算出 2 複数の注文日から 直近の注文日を抽出 3 小計を合算し 合計購買額を算出 集計後のデータを 前項の通りIDでひもづけ分析用のデータセットを作成します 作成されたデータセットについて 生年月日 年齢/年代 金額 5万円刻みでカテゴリ化 などの変換を行います トランザクション形式のデータ 顧客ID 2 2 3 注文日 注文ID 小計 204/02/9 2644 0,286 204/04/07 30276 5,400 204/06/24 36735 924 204/07/05 432,200 204//5 7322 540 204/02/7 25384,900 205/06/24 36732 924 204//2 44347 9,820 トランザクション集計後 顧客ID 2 3 行動毎に生成 されたレコード 購買回数 5 2 直近注文日 合計購買額 204//5 8,350 204/06/24 2,824 204//2 9,820 集計 2
第 6 章 おわりに 22
第 6 章 おわりに BIの活用からBA( ビジネスアナリティクス ) へと取り組みを広げ 新たに クラスタリング を行う際には 利用しやすいツールの導入やデータの準備 加工が不可欠です アイズファクトリーでは これらの取り組みを ご検討される企業様のご相談に ワンストップ でご対応しています https://bodais.jp/ 23
お問い合わせ株式会社アイズファクトリー 0-0054 東京都千代田区神田錦町 -23 宗保第 2ビル TEL: 03-5259-9004 http://bodais.jp/ 24