二項ソフトクラスタリング分析例 この資料では Visual Mining Studio のアイコン Dyadic Soft Clustering を使って 二項ソフトクラスタリング 分析をする方法を説明します 二項ソフトクラスタリングは一般的には PLSI, PLSA などの名前で知られています 株

Similar documents
コンピュータ応用・演習 情報処理システム

PowerPoint プレゼンテーション

目次 はじめに... 3 BayoLink について... 3 インストール方法... 4 インストール前の準備... 4 新規インストール... 5 ライセンス登録... 9 ライセンス管理ダイアログの起動方法... 9 ライセンス情報ファイルの取得 ライセンスファイルの登録... 1

FAX配信サービス 利用マニュアル

スーパー英語アカデミック版Ver.2

コンテンツ作成基本編

Excel2013 データベース1(テーブル機能と並べ替え)

コンテンツ作成基本編

Microsoft Office Excel2007(NO4中級後編 エクセルを実務で活用)

管理者マニュアル

Chapter カスタムテーブルの概要 カスタムテーブル Custom Tables は 複数の変数に基づいた多重クロス集計テーブルや スケール変数を用いた集計テーブルなど より複雑な集計表を自由に設計することができるIBM SPSS Statisticsのオプション製品です テーブ

Excel2013 ピボットテーブルを使った分析

リスク分析・シミュレーション

PowerPoint プレゼンテーション

KDDI Smart Mobile Safety Manager Mac OS キッティングマニュアル 最終更新日 2019 年 4 月 25 日 Document ver1.1 (Web サイト ver.9.6.0)

分析のステップ Step 1: Y( 目的変数 ) に対する値の順序を確認 Step 2: モデルのあてはめ を実行 適切なモデルの指定 Step 3: オプションを指定し オッズ比とその信頼区間を表示 以下 このステップに沿って JMP の操作をご説明します Step 1: Y( 目的変数 ) の

EC-CUBEクーポン

Microsoft Word - online-manual.doc

安否確認メールサービスメール販促サービス

(Microsoft PowerPoint - \203|\203X\203^\201[\224\255\225\\\227p\216\221\227\ ppt)

intra-mart Accel Platform — ViewCreator ユーザ操作ガイド   第6版  

<4D F736F F F696E74202D CB4967B2D8F6F93FC8AC48E8B8D9E F8E9E8C9F8DF5817A D C882F182C282A C520837D836A B2E707074>

CONTENTS マニュアルの表記... S01-13_01 1.DataNature Smart 全体概要図... S01-13_11 2. 基本操作... S01-13_ Web レポートの表示... S01-13_ 画面構成... S01-13_ 集計表 /

Microsoft PowerPoint CTEㅞㅉㅥ㇢ㅫVer3.0.pptx

管理者マニュアル

印刷アプリケーションマニュアル

直売所

グループ一覧を並び替える すべてのユーザー グループの並び順を変更する ユーザーの登録

spsafety_manual_sp_start_

物件問合せメール対応フロー ( 例 ) 1 メールに添付されたファイル (.ZIP) をダブルクリックする 2 ファイルをすべて展開 をクリックする 3 添付ファイルの保存先を デスクトップ 等 保存したい場所に指定し 展開ボタンをクリックする 4 別途送付するメールに記載されたパスワードを パスワ

( 目次 ) 1. はじめに 開発環境の準備 仮想ディレクトリーの作成 ASP.NET のWeb アプリケーション開発環境準備 データベースの作成 データベースの追加 テーブルの作成

高知県産品データベース

サイボウズ Office 8 リンク集マニュアル

マカフィー R セキュリティサービス (Mac 版 ) インストール 基本操作 アンインストールマニュアル McAfee と McAfee のロゴは 米国およびその他の国における McAfee LLC の商標です 中部ケーブルネットワーク株式会社 第 1.5 版 2018/11/5

Microsoft Word - RefWorksコース doc

サイボウズ デヂエ 8 はじめに

目次 1. はじめに 動作環境 ログイン ログインページへのアクセス ログイン ID とパスワードの入力 ワンタイムパスワードの発行 ワンタイムパスワードによるログイン マスタ設定

インストールマニュアル

フォト・ボックス

マニュアルの表記 呼称について本マニュアルでは以下の呼称を使用しています DataNature Smart 管理ツール :DN 管理ツール DataNature Smart クライアント :DN クライアント 画面に表示されるコマンド名などの文字コマンド名やダイアログボックス名など 画面上の固有の文

LINE WORKS セットアップガイド目次 管理者画面へのログイン... 2 ドメイン所有権の確認... 3 操作手順... 3 組織の登録 / 編集 / 削除... 7 組織を個別に追加 ( マニュアル操作による登録 )... 7 組織を一括追加 (XLS ファイルによる一括登録 )... 9

Microsoft PowerPoint - relationご案内資料.ppt [互換モード]

eYACHO 管理者ガイド


目次 1. はじめに... 1 動作環境... 1 その他 他の人が利用する ID を発行したい... 2 ユーザー ID 作成を作成しましょう パソコンのデータを自動でアップロードしたい... 4 PC 自動保管機能を使用してみましょう 不特定多数の

事業承継サイト_担い手探しナビ操作マニュアル_

JAIRO Cloud 初級ユーザー向け手引書 1. ユーザーアカウント管理 JAIRO Cloud 事務局 協力 : オープンアクセスリポジトリ推進協会 (JPCOAR) JAIRO Cloud 運用作業部会 ver date 修正内容 /11 初版

WagbySpec7

Cybozu SP スケジューラー 管理者マニュアル

PowerPoint プレゼンテーション

ビジネス統計 統計基礎とエクセル分析 正誤表

Ⅰ 調査票 ( エクセル ファイル ) を開いたら (1) このメッセージが出てきた時の対応方法 Excel 2003 を使用する場合 A. 表示 1 マクロが使用できません というダイアログが表示された場合 OK ボタンをクリックし 下記手順にて設定を行ってください 1. メニューから 1 ツール

PowerPoint プレゼンテーション

1 Word2007 を立ち上げて 表を作って内容を入力し 体裁を整える 1 時間の関係で あらかじめ下記のような簡単な文書を作成して デスクトップにファイル 旅行案内操作前 1 を置いてありますからこのファイルをダブルクリックして開いて下さい (* 時間のある方は末尾に表の挿入方法などを参考に書い

サポートチケットに関してのご注意事項

Microsoft Word - KML変換操作方法_fujii改.doc

. 起動 目次 P.. ログイン 画面 P.. メニュー 画面 P.. POS 開示 _ 指定店舗 アイテム別 期間合計 画面 ( レポート A) P. 5. POS 開示 _ 店舗別 指定アイテム 期間合計 画面 ( レポート B) ----

日心TWS

目次 LinQ MobileSNS について...3 ログイン...4 メインメニュー...6 お知らせ スタッフルーム サロン日誌 プロフィール スタッフ携帯 スケジュール 共通機能

◎phpapi.indd

No Slide Title

CASEC

請求管理操作マニュアル項目一覧 各ケースにおける操作手順 請求情報を閲覧する 2 請求情報の PDF ファイルダウンロード ( 契約者を指定してダウンロード ) 3 請求情報の CSV ファイルダウンロード ( 契約者を指定してダウンロード ) 6 請求情報の PDF ファイルダウンロード ( すべ

Microsoft Word - manual.doc

KDDI Smart Mobile Safety Manager ios キッティングマニュアル 最終更新日 2018 年 12 月 13 日 Document ver1.0 (Web サイト ver.9.5.0)

ANOVA

管理サイト操作マニュアル Version.1.1. デジアナコミュニケーションズ株式会社

ICLT 操作マニュアル (2011 年 05 月版 ) Copyright 2011NE 東京株式会社 All Rights Reserved

Microsoft Word - ModelAnalys操作マニュアル_

スライド 1

学習者用クイックスタートガイド

RaQuest スターターセット インストールマニュアル

intra-mart Accel Collaboration — ファイルライブラリ ユーザ操作ガイド   第3版  

スライド 0

C プログラミング演習 1( 再 ) 2 講義では C プログラミングの基本を学び 演習では やや実践的なプログラミングを通して学ぶ

PowerPoint プレゼンテーション

NGSデータ解析入門Webセミナー

グラフ 集計表導入前 売り上げ管理アプリ その都度売上状況を Excel で集計してグラフを作成していた 集計に手間がかかってしまう 毎回 最新の情報に更新しなければならない 蓄積されているデータを出力して 手作業で集計していた 2

インターネットフィルタリング簡単マニュアル

Cybozu SP ディスカッション 管理者マニュアル

ごあいさつ このたびは 日本テレネット株式会社の AUTO 帳票 Custom をお使いいただき まことにありがとう ございます お使いになる前に 本書をよくお読みのうえ 正しくお使いください 本書の読み方 本マニュアルは AUTO 帳票 Custom * を利用して FAX 送信管理を行う方のため

PowerPoint プレゼンテーション

32-2 一般ユーザー用 : ドキュメント カテゴリ MAP での選択または 抽出条件設定画面にて 抽出 をクリックする事で 該当するデータが一覧で表示されます 結果一覧画面 表示項目説明カテゴリカテゴリ名を表示します をクリックすると カテゴリ表示順昇順に並べ替えが行えます をクリックすると カテ

FTP ウェブコンテンツダウンロード手順書 ver1.0 作成 :KDDI 株式会社 作成日 :2018 年 10 月 31 日

年調・法定調書の達人from弥生給与 運用ガイド

intra-mart Accel Platform — IM-共通マスタ スマートフォン拡張プログラミングガイド   初版  

製品ご利用に際してのお問い合わせ方法

口腔ケア アセスメント解析データベース 平成 23 年度に作成した, 口腔ケア アセスメント票 の結果を効率的に管理, 分析できるソフトです 平成 24 年度, 仙台保健福祉事務所が介護老人保健施設ももせ塩竈において実施した, 口腔ケアの取組強化を目的としたモデル事業において, 仙台保健福祉事務所と

推奨 web ブラウザについて スマートフォンやタブレットには様々な web ブラウザがあります Android 端末には 標準ブラウザ ios 端末には Safari どちらでも使用できる Y ブラウザ FireFox Google Chrome などの web ブラウザがあります ビット web

intra-mart Accel Collaboration — ファイルライブラリ ユーザ操作ガイド   第5版  

共通フィルタの条件を設定する 迷惑メール検知 (SpamAssassin) の設定 迷惑メール検知 (SpamAssassin) とは.

ADSL回線 Windows10用 設定マニュアル

目次 1. テンプレートの準備 1.1 エクセルファイルの準備 1.2 タグを作成する 1.3 エクセルファイルの表示調整 2.PC へテンプレートを追加 3.iPad での ICLT の操作 3.1 入力者の操作 入力者のログイン テンプレートを更新する チェッ

改訂履歴

FileExplorer for ASP.NET Web Forms

農業・農村基盤図の大字小字コードXML作成 説明書

intra-mart Accel Platform

フレッツISDNセット Windows10用 設定マニュアル

2. オプション設定画面で, 必要事項を記入 選択します. 少なくとも, タイトル に課題の見出しとなる文章を入力する他, 種別 を アンケート( 無記名式 ) に設定する必要があります. また, アクセス制限はここでは コースメニューで非表示にする に設定します. その他設定は必要に応じて行って下

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

Transcription:

二項ソフトクラスタリング分析例 この資料では Visual Mining Studio のアイコン Dyadic Soft Clustering を使って 二項ソフトクラスタリング 分析をする方法を説明します 二項ソフトクラスタリングは一般的には PLSI, PLSA などの名前で知られています 株式会社 NTT データ数理システム Copyright 2013 NTT DATA Mathematical Systems, Inc. 1

はじめに Visual Mining Studio の Dyadic Soft Clustering は次のようなデータの分析に適しています ID 付 POS など商品購買データ ( トランザクションデータ ) CookieID のついた Web ページの閲覧記録 (Web ログ ) 発言者 ID と 発言ワードが対応付けされたデータ ( 典型的には Text Mining Studio の結果 ) 誰が (ID) 何を ( 商品コード ) 何個あるいは何回 ( 数値 ) を含むデータを対象としており リスト形式 ( 縦持ちデータと呼ばれる ) を対象にしているため 通常のクラスタ分析 (k-means 法など ) のように 縦方向が 誰が を表し 横方向が 何を を表す横持ちと言われるデータを必要としません ( 横持ちデータはほとんどのセルがゼロになり メモリ効率が非常に悪いデータです ) 誰が をクラスタリングするだけでなく 何を もクラスタに分けることができます 商品購買データであれば お客様のカテゴリと同時に 商品カテゴリの構築も可能です ソフトクラスタリング は k-means に代表される ハードクラスタリング に対して 複数のクラスタに属することを許すクラスタリングを意味します 次ページから Visual Mining Studio のサンプルデータ 個人 ID 付き POS データ を例に 分析をご紹介します

サンプルデータ取り込み データは Visual Analytics Platform(VAP) の Object Browser から データ / Samples / Visual Mining Studio / 個人 ID 付き POS データ.vdt データを読み込み 用います.vdt データは VAP 独自のデータ形式で VAP 上にはドラッグアンドドロップで張り付けて利用可能です

集計 データには ID( 誰が ) 商品コード ( 何を ) 買ったかが記録されています 二項ソフトクラスタリング分析にはこの 2 つと 重み ( 例として 何個買ったか あるいは金額などのその購買の価値を図るための情報 ) が必要です そこで 集計 アイコンにより ID と商品コードのクロス集計をします 個数の情報がある場合は 集計キーを ID と商品コード 集計対象列を 個数 とし 個数の合計を計算してください データ操作 / 集計 ドラッグアンドドロップ アイコンのダブルクリック 集計キー列名 :ID 集計対象列名 : 商品コード結果形式は必ずリストにします

Dyadic Soft Clustering Dyadic Soft Clustering アイコンをドラッグアンドドロップします

Dyadic Soft Clustering X 列には 誰が の列を Y 列には 何を の列を スコア列には 重み ( 何個 場合によっては金額でも ) の列を指定します また 隠れ変数の数 には 想定しているクラスターの数を指定します 隠れ変数 (Z) の数 このオプションのみでクラスタリングの内容が変わる 1 計算回数 精度に関するパラメータ 2 出力結果の内容に関するパラメータ

学習パラメータ お薦めのパラメータ設定 学習回数 >= 10 繰返し回数 >= 10 比較候補数 >= 10 注意点 繰返し回数 = 1 では発散するケースがあるので 2 以上が必須です お薦めパラメータ未満では よりよい解が見つかるケースが多々あります ( 収束解とは程遠い値で止まってしまう ) 特に 学習回数 繰返し回数 が 10 未満の場合は注意が必要であまりお勧めしません データが大規模な場合 まず 比較候補数 を 1~2 として実行し 状況を確認した後に >=10 とすることをお勧めします

学習パラメータ A: 学習回数, B: 繰返し回数, C: 比較候補数 1 ブロック 2 ブロック B : ブロック数 A B C C: 探索候補数 候補 1 候補 2 候補 5 Part I Part II Part I Part II Part I Part II Part I Part II Part I Part II Part I Part II A : PartI, PartII の内部での繰り返し回数 探索時間は A B C に比例します 探索時間が長ければ通常は精度があがります A, B, C を偏りなく一定比率で増加させて 精度を上げるのがおすすめです 8

結果を見る 結果は複数のデータからなります X は 誰が Y は 何を Z は未知のクラスタを表します P は probability( 確率 ) を表します データ名 pzx pzy pxz pyz pz crosstable parameter 内容 誰が が どのクラスタ に属するかを表す確率 人ごとに合計すると 1 になります その人のクラスタ傾向を見るのに使います 何を が どのクラスタ に属するかを表す確率 商品ごとに合計すると 1 になります その商品のクラスタ傾向を見るのに使います 誰が が どのクラスタ に対する貢献度が高いかを見るのに使います 何を が どのクラスタ に対する貢献度が高いかを見るのに使います クラスタの出現確率を表します クラスタごとの 誰が x 何を をクロス表にしたものです 対角要素が大きいことを確認して クラスタの妥当性をみます 各種の統計量などを表示します 隠れ変数 ( クラスタ ) を変えて計算したときに クラスタ数は何個が適切かどうか確認するのに使います

結果の見方 (1) P(Z X) 顧客 X が クラスタ Z に所属する確率 P(Z Y) 商品 Y が クラスタ Z に所属する確率 顧客 ID ごと 確率が高い順に出力 (Rank は確率の高いクラスタ順位 ) 例 ID=10001 の顧客は Z=4 クラスタに属している 確率は 0~1 までの値をとり 複数のクラスタに属していると解釈できるケースもあります ( 左の例では 10002 は 5,3 の 2 つのクラスタに属しています ) P(Z Y) は顧客 ID が商品になり 解釈は同様ですこのクラスタ番号は 顧客に対するクラスタの番号と同じです ( 同一クラスタに入る顧客 商品は その組み合わせで購入する傾向が高い )

結果の見方 (2) P(X Z) 顧客 X のクラスタ Z 内での貢献度を表す確率 P(Y Z) 商品 Y のクラスタ Z 内での貢献度を表す確率 顧客 ID ごと 確率が高い順に出力 (Rank は確率の高い顧客順位 ) 例 ID=10110 の顧客は Z=1 クラスタに対する貢献度が高い 確率は 0~1 までの値をとり Z ごとの合計は 1 です P(Y Z) は顧客 ID が商品になり 解釈は同様です

2 項クラスタリング 計算方法 顧客 商品ごとの購入点数行列に対して 顧客 商品を入れ替えて 同時に買われている組をクラスタとして抽出します

( 参考 ) 通常よく使われているクラスタリングの計算方法 (k-means, 階層型クラスタリングなど ) 顧客 商品の購入行列に対して 顧客の行と行の距離を計算し 距離の近い顧客同士を同一クラスタに割り当てます 距離計算の方法には ユークリッド距離 cosine 距離 Manhattan 距離などがあります 商品顧客 1 2 3 4 5 A 12000 5200 210 0 0 B 13000 4900 240 0 0 C 0 2420 15000 0 D 0 12000 0 15000 0 似ている ( 距離が近い )

2 つのクラスタリングの違い 入力データ 2 項クラスタリング リストデータ ( マトリックスデータの疎表現 ) X, Y, 購買個数のレコード並び 対応する組み合わせがない場合は レコードそのものが出現しないので 少ないメモリでデータ記録が可能 K-means 法などのクラスタリング マトリックスデータ行 :X, 列 :Y としてデータを表現 対応する組み合わせが出現しない場合 対応するセルを 0 とする あまり買われない商品にも 0 と記録する必要があるので メモリ量が多い クラスタリング方法 顧客 商品の共起に基づく方法 顧客 (X: 行 ) の間の距離計算に基づく方法 クラスタリング結果 クラスタリング対象 ソフトクラスタリングクラスタへの所属確率が 0~ 1 の間に決まる 顧客 商品の同時クラスタリング ハードクラスタリングクラスタは 1 つのみに決まる 顧客に対するクラスタリング

2 項クラスタリング 実運用上の注意点 値のスケール 範囲 値の差が小さくなるようなパラメータが計算されるため スコア列 のスケールが重要です POS データの場合 商品の買い合わせ ( 同じバスケット ) に着目して 2 項クラスタリングを実施するのが適切です そのため 次の変数を使うのが適当です 購入点数 ( 金額は商品ごとの差が大きいので あまり適しません ) 購入経験有無 ( 買われたら 1( 買われなかったらデータなし ), 今回のサンプルプロジェクトはこちらのやり方です ) 現バージョンでは ゼロ あるいはマイナスの値を持つデータがあると正しく計算されませんので データハンドリング などでデータをフィルタリングして利用してください POS データ以外での活用 Cookie ID がついた Web ページの閲覧ログ (ID と Web ページのクラスタリング ) ID とタグの情報 EC サイトなどでの商品リストにタグがついているようなデータにも利用可能です ID と発言された単語の組み合わせデータ (Text Mining Studio との組み合わせ )

サンプルデータでお試しいただく二項ソフトクラスタリングはいかがでしたか? ぜひ ご自身のデータでお試しください また 分析詳細や各設定について 詳細はマニュアルをご覧ください 保守ご契約中の方 テスト使用中の方は技術サポートサービスをご利用いただけます 技術サポートはメールにて承っております 分析に関するご相談 あるいはプログラミングは技術サポートでは承っておりません また お電話でのお問い合わせには回答しておりませんので ご了承ください E-mail vmstudio-support@msi.co.jp URL http://www.msi.co.jp/vmstudio/ ライセンス 料金 その他製品に関するお問い合わせは下記 NTT データ数理システム営業部までお問い合わせください TEL : 03-3358 6681 FAX : 03-3358 1727