二項ソフトクラスタリング分析例この資料では Visual Mining Studio のアイコン Dyadic Soft Clustering を使って二項ソフトクラスタリング分析をする方法を説明します二項ソフトクラスタリングは一般的には PLSI, PLSA などの名前で知られています株

二項ソフトクラスタリング分析例この資料では Visual Mining Studio のアイコン Dyadic Soft Clustering を使って二項ソフトクラスタリング分析をする方法を説明します二項ソフトクラスタリングは一般的には PLSI, PLSA などの名前で知られています株式会社 NTT データ数理システム Copyright 2013 NTT DATA Mathematical Systems, Inc. 1

はじめに Visual Mining Studio の Dyadic Soft Clustering は次のようなデータの分析に適しています ID 付 POS など商品購買データ ( トランザクションデータ ) CookieID のついた Web ページの閲覧記録 (Web ログ ) 発言者 ID と発言ワードが対応付けされたデータ ( 典型的には Text Mining Studio の結果 ) 誰が (ID) 何を ( 商品コード ) 何個あるいは何回 ( 数値 ) を含むデータを対象としておりリスト形式 ( 縦持ちデータと呼ばれる ) を対象にしているため通常のクラスタ分析 (k-means 法など ) のように縦方向が誰がを表し横方向が何をを表す横持ちと言われるデータを必要としません ( 横持ちデータはほとんどのセルがゼロになりメモリ効率が非常に悪いデータです ) 誰がをクラスタリングするだけでなく何をもクラスタに分けることができます商品購買データであればお客様のカテゴリと同時に商品カテゴリの構築も可能ですソフトクラスタリングは k-means に代表されるハードクラスタリングに対して複数のクラスタに属することを許すクラスタリングを意味します次ページから Visual Mining Studio のサンプルデータ個人 ID 付き POS データを例に分析をご紹介します

サンプルデータ取り込みデータは Visual Analytics Platform(VAP) の Object Browser からデータ / Samples / Visual Mining Studio / 個人 ID 付き POS データ.vdt データを読み込み用います.vdt データは VAP 独自のデータ形式で VAP 上にはドラッグアンドドロップで張り付けて利用可能です

集計データには ID( 誰が ) 商品コード ( 何を ) 買ったかが記録されています二項ソフトクラスタリング分析にはこの 2 つと重み ( 例として何個買ったかあるいは金額などのその購買の価値を図るための情報 ) が必要ですそこで集計アイコンにより ID と商品コードのクロス集計をします個数の情報がある場合は集計キーを ID と商品コード集計対象列を個数とし個数の合計を計算してくださいデータ操作 / 集計ドラッグアンドドロップアイコンのダブルクリック集計キー列名 :ID 集計対象列名 : 商品コード結果形式は必ずリストにします

Dyadic Soft Clustering Dyadic Soft Clustering アイコンをドラッグアンドドロップします

Dyadic Soft Clustering X 列には誰がの列を Y 列には何をの列をスコア列には重み ( 何個場合によっては金額でも ) の列を指定しますまた隠れ変数の数には想定しているクラスターの数を指定します隠れ変数 (Z) の数このオプションのみでクラスタリングの内容が変わる 1 計算回数精度に関するパラメータ 2 出力結果の内容に関するパラメータ

学習パラメータお薦めのパラメータ設定学習回数 >= 10 繰返し回数 >= 10 比較候補数 >= 10 注意点繰返し回数 = 1 では発散するケースがあるので 2 以上が必須ですお薦めパラメータ未満ではよりよい解が見つかるケースが多々あります ( 収束解とは程遠い値で止まってしまう ) 特に学習回数繰返し回数が 10 未満の場合は注意が必要であまりお勧めしませんデータが大規模な場合まず比較候補数を 1~2 として実行し状況を確認した後に >=10 とすることをお勧めします

学習パラメータ A: 学習回数, B: 繰返し回数, C: 比較候補数 1 ブロック 2 ブロック B : ブロック数 A B C C: 探索候補数候補 1 候補 2 候補 5 Part I Part II Part I Part II Part I Part II Part I Part II Part I Part II Part I Part II A : PartI, PartII の内部での繰り返し回数探索時間は A B C に比例します探索時間が長ければ通常は精度があがります A, B, C を偏りなく一定比率で増加させて精度を上げるのがおすすめです 8

結果を見る結果は複数のデータからなります X は誰が Y は何を Z は未知のクラスタを表します P は probability( 確率 ) を表しますデータ名 pzx pzy pxz pyz pz crosstable parameter 内容誰ががどのクラスタに属するかを表す確率人ごとに合計すると 1 になりますその人のクラスタ傾向を見るのに使います何をがどのクラスタに属するかを表す確率商品ごとに合計すると 1 になりますその商品のクラスタ傾向を見るのに使います誰ががどのクラスタに対する貢献度が高いかを見るのに使います何をがどのクラスタに対する貢献度が高いかを見るのに使いますクラスタの出現確率を表しますクラスタごとの誰が x 何ををクロス表にしたものです対角要素が大きいことを確認してクラスタの妥当性をみます各種の統計量などを表示します隠れ変数 ( クラスタ ) を変えて計算したときにクラスタ数は何個が適切かどうか確認するのに使います

結果の見方 (1) P(Z X) 顧客 X がクラスタ Z に所属する確率 P(Z Y) 商品 Y がクラスタ Z に所属する確率顧客 ID ごと確率が高い順に出力 (Rank は確率の高いクラスタ順位 ) 例 ID=10001 の顧客は Z=4 クラスタに属している確率は 0~1 までの値をとり複数のクラスタに属していると解釈できるケースもあります ( 左の例では 10002 は 5,3 の 2 つのクラスタに属しています ) P(Z Y) は顧客 ID が商品になり解釈は同様ですこのクラスタ番号は顧客に対するクラスタの番号と同じです ( 同一クラスタに入る顧客商品はその組み合わせで購入する傾向が高い )

結果の見方 (2) P(X Z) 顧客 X のクラスタ Z 内での貢献度を表す確率 P(Y Z) 商品 Y のクラスタ Z 内での貢献度を表す確率顧客 ID ごと確率が高い順に出力 (Rank は確率の高い顧客順位 ) 例 ID=10110 の顧客は Z=1 クラスタに対する貢献度が高い確率は 0~1 までの値をとり Z ごとの合計は 1 です P(Y Z) は顧客 ID が商品になり解釈は同様です

2 項クラスタリング計算方法顧客商品ごとの購入点数行列に対して顧客商品を入れ替えて同時に買われている組をクラスタとして抽出します

( 参考 ) 通常よく使われているクラスタリングの計算方法 (k-means, 階層型クラスタリングなど ) 顧客商品の購入行列に対して顧客の行と行の距離を計算し距離の近い顧客同士を同一クラスタに割り当てます距離計算の方法にはユークリッド距離 cosine 距離 Manhattan 距離などがあります商品顧客 1 2 3 4 5 A 12000 5200 210 0 0 B 13000 4900 240 0 0 C 0 2420 15000 0 D 0 12000 0 15000 0 似ている ( 距離が近い )

2 つのクラスタリングの違い入力データ 2 項クラスタリングリストデータ ( マトリックスデータの疎表現 ) X, Y, 購買個数のレコード並び対応する組み合わせがない場合はレコードそのものが出現しないので少ないメモリでデータ記録が可能 K-means 法などのクラスタリングマトリックスデータ行 :X, 列 :Y としてデータを表現対応する組み合わせが出現しない場合対応するセルを 0 とするあまり買われない商品にも 0 と記録する必要があるのでメモリ量が多いクラスタリング方法顧客商品の共起に基づく方法顧客 (X: 行 ) の間の距離計算に基づく方法クラスタリング結果クラスタリング対象ソフトクラスタリングクラスタへの所属確率が 0~ 1 の間に決まる顧客商品の同時クラスタリングハードクラスタリングクラスタは 1 つのみに決まる顧客に対するクラスタリング

2 項クラスタリング実運用上の注意点値のスケール範囲値の差が小さくなるようなパラメータが計算されるためスコア列のスケールが重要です POS データの場合商品の買い合わせ ( 同じバスケット ) に着目して 2 項クラスタリングを実施するのが適切ですそのため次の変数を使うのが適当です購入点数 ( 金額は商品ごとの差が大きいのであまり適しません ) 購入経験有無 ( 買われたら 1( 買われなかったらデータなし ), 今回のサンプルプロジェクトはこちらのやり方です ) 現バージョンではゼロあるいはマイナスの値を持つデータがあると正しく計算されませんのでデータハンドリングなどでデータをフィルタリングして利用してください POS データ以外での活用 Cookie ID がついた Web ページの閲覧ログ (ID と Web ページのクラスタリング ) ID とタグの情報 EC サイトなどでの商品リストにタグがついているようなデータにも利用可能です ID と発言された単語の組み合わせデータ (Text Mining Studio との組み合わせ )

サンプルデータでお試しいただく二項ソフトクラスタリングはいかがでしたか? ぜひご自身のデータでお試しくださいまた分析詳細や各設定について詳細はマニュアルをご覧ください保守ご契約中の方テスト使用中の方は技術サポートサービスをご利用いただけます技術サポートはメールにて承っております分析に関するご相談あるいはプログラミングは技術サポートでは承っておりませんまたお電話でのお問い合わせには回答しておりませんのでご了承ください E-mail vmstudio-support@msi.co.jp URL http://www.msi.co.jp/vmstudio/ ライセンス料金その他製品に関するお問い合わせは下記 NTT データ数理システム営業部までお問い合わせください TEL : 03-3358 6681 FAX : 03-3358 1727