Deloitte Analytics PLSA( 確 率 的 潜 在 意 味 解 析 法 ) 行 と 列 を 同 時 にクラスタリングする 新 たな 知 識 発 見 手 法 複 雑 なビッグデータをシンプルに 解 釈 可 能 にする 新 しいクラスタリング 技 術 を 紹 介 する PLSAとは ビッグデータから 有 用 な 知 識 を 抽 出 する 技 術 として 人 工 知 能 の 分 野 でPLSAという 手 法 が 注 目 を 集 めている PLSAとは Probabilistic Latent Semantic Analysisの 略 で 確 率 的 潜 在 意 味 解 析 法 と 呼 ばれている Hofmanが1999 年 に 発 表 した 次 元 圧 縮 の 手 法 であり クラスタリングの 手 法 としても 使 用 される 次 元 圧 縮 とは 高 次 元 のデータ( 列 の 多 いデータ)を 低 次 元 データに 変 換 すること つまりできるだけシンプルに 表 現 しようとすることである 一 方 クラスタリングとは 類 似 するデータ をまとめていくつかのグループに 分 類 することである 元 々PLSAは 情 報 検 索 の 分 野 で 膨 大 な 文 書 データを 分 類 するために 開 発 された 手 法 である ここでいう 文 書 データと は 図 1( 上 )のように 行 に 文 書 の 情 報 を 持 ち 列 にその 文 書 に 出 現 する 単 語 の 情 報 を 持 つ 文 書 単 語 の 行 列 データ で 各 文 書 における 各 単 語 の 出 現 頻 度 が 記 録 されている 共 起 行 列 と 呼 ばれる 形 式 のデータである PLSAを 適 用 すれ ば 図 1( 上 )にあるような 文 書 5,000 件 単 語 10,000 語 という 高 次 元 のデータは 例 えば5 個 のトピックで 表 現 可 能 で 図 1 ( 下 )にあるような 文 書 5,000 件 トピック5 個 という 低 次 元 のデータに 変 換 することができる 図 1 文 書 データにPLSAを 適 用 した 次 元 圧 縮 イメージ Deloitte Analytics PLSA( 確 率 的 潜 在 意 味 解 析 法 ) 1
PLSAの 考 え 方 は 図 2のように 図 式 化 できる PLSAは 文 書 dとそこに 出 現 する 単 語 wの 間 には 共 通 のトピックとなるよう な 潜 在 的 な 意 味 クラスzがあると 想 定 し この 潜 在 クラスを 確 率 的 に 抽 出 する 手 法 であり 図 2に 示 した3 種 類 の 確 率 変 数 P(z),P(w z),p(d z)を 計 算 する 図 2 PLSAのグラフィカルモデル 従 来 の 手 法 と 比 較 したPLSAのメリット データクラスタリングの 観 点 から 従 来 の 手 法 と 比 べてPLSAが 特 に 優 れている 点 をまとめると 表 1に 示 した3 点 が 挙 げら れる 表 1 PLSAのメリット Deloitte Analytics PLSA( 確 率 的 潜 在 意 味 解 析 法 ) 2
PLSAとLDA 昨 今 のビッグデータ 時 代 の 分 析 では 高 次 元 データを 扱 うことも 多 く このような 次 元 圧 縮 の 技 術 が 注 目 されているが 実 際 にはPLSAよりもそれと 同 様 の 手 法 であるLDAの 方 が 世 間 的 に 認 知 されているといえるだろう この 手 法 はトピックモデルと 呼 ばれ 元 々LSA (Latent Semantic Analysis)という 手 法 があり(Deerwester et al, 1990) それを 確 率 的 な 処 理 をして 改 良 したものがPLSAであり さらにその 拡 張 版 として 開 発 されたのがLDA (Latent Dirichlet Allocation)である(Blei et al, 2003) PLSAとLDAの 基 本 的 な 考 え 方 は 同 じだが 個 々の 文 書 における 各 トピックの 現 れやすさを 表 す 確 率 が PLSAではあくま で 学 習 させた 観 測 データから 定 義 されるが LDAではディリクレ 分 布 という 確 率 分 布 を 仮 定 して 生 成 させる これにより PLSAでは 観 測 データに 過 剰 に 適 合 して 他 のデータの 適 合 度 が 下 がってしまうオーバーフィッティングという 現 象 が 生 じ 易 く 新 しい 文 書 におけるトピックの 生 成 確 率 は 定 義 されないが LDAではこれを 推 定 できる 情 報 検 索 の 分 野 では 新 しいデータがどのトピックに 分 類 されるのかということが 重 要 となるため 確 かにPLSAよりもLDA がマッチしているといえる またLDAはPythonやMahoutなどのオープンソースライブラリとして 公 開 されていることもあり 適 用 事 例 も 多 く 注 目 されているのだろう さらに 文 書 単 語 の 共 起 行 列 データに 適 用 して 文 書 分 類 するだけでなく 画 像 特 徴 量 という 同 様 の 共 起 行 列 データに 適 用 して 画 像 認 識 する 技 術 としても 使 われている 一 方 で PLSAも 特 徴 をふまえて 活 用 することで 有 用 性 が 高 まり 最 近 再 び 注 目 を 集 めている PLSAの 適 用 事 例 を 紹 介 し ながら 筆 者 の 考 えるPLSAの 有 用 性 の 本 質 について 後 述 したい PLSAの 適 用 事 例 の 多 様 化 本 来 PLSAは 文 書 単 語 の 共 起 行 列 データに 適 用 して 文 書 分 類 する 手 法 であるが 最 近 では 多 様 な 適 用 事 例 が 報 告 されている 例 えばID-POSと 呼 ばれるポイントカードなどの 購 買 履 歴 に 関 する 顧 客 購 買 商 品 データに 適 用 して 商 品 の 購 買 傾 向 に 基 づいた 顧 客 分 類 を 行 ったり Webでの 閲 覧 履 歴 に 関 する 閲 覧 画 面 閲 覧 時 間 帯 のデータに 適 用 して 情 報 の 閲 覧 傾 向 を 把 握 したり 個 人 識 別 ID 各 属 性 情 報 のデータに 適 用 して パーソナルデータをクラスタリン グされたデータに 変 換 するという 匿 名 化 技 術 としての 利 用 も 検 討 され 始 めている トーマツのPLSA 適 用 事 例 トーマツではWeb 上 の 口 コミデータにPLSAを 適 用 し 顧 客 目 線 のニーズを 分 析 している 例 えば 北 海 道 の 観 光 地 の 口 コ ミデータから 観 光 地 口 コミ 表 現 の 共 起 行 列 を 作 成 してPLSAを 適 用 することで 観 光 客 目 線 で 観 光 地 を 分 類 した そ の 結 果 数 学 的 には7つのグループに 集 約 することが 最 適 となった 例 として そのうちの2つの 観 光 地 グループの 結 果 を 図 3に 示 す また 展 望 台 等 からの 景 色 が 綺 麗 な 場 所 の 観 光 地 グループの 口 コミに 限 定 して どのような 話 題 をしているのかという こともPLSAで 抽 出 した ここでは 名 詞 の 単 語 形 容 詞 と 動 詞 の 単 語 という 共 起 行 列 を 作 成 してPLSAを 適 用 することで 観 光 客 の 評 価 や 体 験 の 話 題 を 抽 出 した その 結 果 数 学 的 には14 個 の 話 題 に 集 約 することが 最 適 となり 景 色 の 話 題 だけ でなく お 土 産 屋 やレストラン 観 光 地 までのアクセス 観 光 客 の 多 さ 天 気 などが 話 題 になっていることが 分 かった 例 とし て3つの 話 題 の 結 果 を 図 4に 示 す Deloitte Analytics PLSA( 確 率 的 潜 在 意 味 解 析 法 ) 3
また 北 海 道 とは 異 なる 地 域 だが 同 様 の 分 析 アプローチで 観 光 客 誘 致 による 地 域 活 性 化 を 目 指 したプロジェクトも 実 施 している これは 自 治 体 など 地 域 関 係 者 に 向 けたアドバイザリーサービスであり PLSAによって 観 光 の 話 題 を 抽 出 したところ 地 域 関 係 者 からすると 納 得 する 結 果 もあれば 驚 きの 声 も 聞 かれた 地 域 に 散 在 していた 観 光 資 源 が 観 光 客 から 見 ると 実 は 一 つのテーマを 形 成 しており その 地 域 の 観 光 を 象 徴 する 価 値 となっていた つまり 地 域 関 係 者 か らすると 変 哲 のないことでも 観 光 客 はそこに 潜 む 価 値 を 見 出 していることが 明 らかとなり 新 たな 気 づきが 得 られてい た このようにPLSAはデータの 背 後 にある 潜 在 的 な 要 因 を 抽 出 する 新 たな 知 識 発 見 手 法 としてビジネスでも 有 用 である と 思 われる 図 3 観 光 地 の 口 コミデータにPLSAを 適 用 した 観 光 地 分 類 の 例 図 4 展 望 台 等 からの 景 色 が 綺 麗 な 場 所 の 口 コミの 話 題 抽 出 の 例 Deloitte Analytics PLSA( 確 率 的 潜 在 意 味 解 析 法 ) 4
PLSAの 有 用 性 の 本 質 ここまで 紹 介 した 事 例 では PLSAが 文 書 単 語 のデータに 適 用 する 文 書 分 類 の 手 法 としてではなく 行 と 列 の2つの 軸 を 同 時 にクラスタリングできる 手 法 として 従 来 よりも 結 果 の 意 味 を 解 釈 しやすいという 機 能 の 有 用 性 が 着 目 されていると いえる また 確 かにPLSAは 観 測 データにオーバーフィットし 新 しいデータの 対 応 が 難 しいが 観 測 データのありのままの 潜 在 要 因 を 抽 出 できる つまり 情 報 検 索 の 分 野 では 新 しいデータへの 対 応 が 重 要 であるため 確 率 分 布 を 仮 定 したLDAが 適 し ているが 純 粋 に 観 測 されたデータだけに 基 づいた 潜 在 要 因 を 抽 出 したいときはPLSAが 適 していると 考 えられ 我 々もあ えてPLSAを 適 用 している しかしこのPLSAの 機 能 の 有 用 性 はまだ 十 分 に 知 られていない ビジネスにおけるPLSAの 適 用 の 広 がり PLSAを 行 と 列 の2つの 軸 を 同 時 にクラスタリングできる 手 法 として 捉 えれば その 適 用 範 囲 はとても 広 く どのような 軸 を 組 み 合 わせたデータに 適 用 するかということによって 多 用 なクラスタリングが 実 現 できる 特 に 分 析 結 果 をどのようなアク ションに 結 びつけるかを 念 頭 に 置 きながら 2つの 軸 をカスタマイズしていくことで 有 用 な 知 見 を 得 ることができる 例 えば ID-POS 系 の 購 買 履 歴 データと 口 コミデータに 関 して アクションの 狙 いに 応 じたPLSAの 適 用 の 仕 方 の 例 を 以 下 に 検 討 してみた <ID-POS 系 の 購 買 履 歴 データ> 顧 客 にヒットする 商 品 をレコメンドして 売 上 を 伸 ばしたい 顧 客 購 買 商 品 のデータに 適 用 して 顧 客 をクラスタリングする 各 顧 客 グループの 購 買 商 品 の 傾 向 を 把 握 する 商 品 の 仕 入 れや 陳 列 の 効 率 化 売 上 が 伸 びるタイムセールのタイミングを 知 りたい 商 品 時 間 曜 日 のデータに 適 用 する 時 間 帯 曜 日 帯 と 商 品 の 売 れる 傾 向 の 関 係 性 を 把 握 する 同 時 購 買 を 誘 って 売 上 を 伸 ばしたい Aコーナーの 商 品 Bコーナーの 商 品 という 売 り 場 の 異 なる 商 品 の 同 時 購 買 データに 適 用 する これは 従 来 のバスケット 分 析 のクラスタリング 版 と 捉 えることもできる 有 名 な ビール と おむつ の 同 時 購 買 は PLSAでは 酒 類 と 乳 幼 児 商 品 として 一 つのトピックに 所 属 し そのトピックは 小 さな 子 どもを 持 つ 父 親 がお 使 いで 買 物 をする 商 品 という 潜 在 意 味 を 持 つ < 口 コミデータ> 顧 客 目 線 での 商 品 サービスの 整 理 や 有 効 なレコメンドがしたい 図 3の 適 用 事 例 のように 商 品 サービス 口 コミの 表 現 のデータに 適 用 して 顧 客 目 線 で 商 品 サービス をクラスタリングする 過 去 の 購 買 商 品 に 基 づいて 同 じグループに 属 する 他 の 商 品 をレコメンドする Deloitte Analytics PLSA( 確 率 的 潜 在 意 味 解 析 法 ) 5
口 コミの 内 容 を 話 題 単 位 に 集 約 して 顧 客 の 口 コミの 観 点 を 把 握 したい 図 4の 適 用 事 例 のように 単 語 単 語 という 単 語 同 士 のデータに 適 用 することで より 意 味 解 釈 しやすい トピックを 抽 出 できる 例 えば 評 価 のトピックを 抽 出 したければ 名 詞 形 容 詞 行 動 や 体 験 のトピックを 抽 出 したければ 名 詞 動 詞 のデータに 適 用 することが 有 効 である ビジネスにおけるPLSAの 適 用 の 広 がり 最 近 のPLSAの 先 進 的 な 適 用 事 例 では クラスタリングした 結 果 にさらにモデリング 技 術 を 適 用 する 事 例 がある つまり PLSAによって 高 次 元 データを 低 次 元 データに 圧 縮 し そこで 抽 出 された 潜 在 的 要 因 を 一 つの 変 数 として 扱 ってモデリングを することで 意 味 解 釈 が 容 易 でシンプルなモデルを 構 築 することができる 高 次 元 データのままモデリングを 行 ってしまうと 変 数 の 数 が 多 すぎて 解 釈 不 能 な 複 雑 なモデルができてしまう 例 えばPLSAにベイジアンネットワークというモデリング 手 法 を 組 み 合 わせてID-POSデータに 適 用 し 顧 客 の 購 買 行 動 を 予 測 する 事 例 もある 我 々も 口 コミデータにPLSAとベイジアンネットワークを 組 み 合 わせて 適 用 しており 宿 泊 施 設 の 口 コ ミデータに 適 用 した 事 例 を 図 5に 示 す 図 5はPLSAで 抽 出 した 口 コミの 評 価 トピックと 投 稿 者 が 付 けた 各 項 目 の 得 点 の 関 係 をベイジアンネットワークでモデル 化 したものである このモデルを 使 うことで 図 6のように どのような 話 題 がされると 満 足 度 がどのように 変 化 するのか 確 率 的 にシミュレーションでき 施 策 の 優 先 順 位 をつけられたり 施 策 後 の 効 果 を 定 量 的 に 推 論 できる こうした 新 たな 分 析 アプローチは テキストデータに 関 していえば 口 コミに 限 らず 例 えば コールセンターのログデータに 適 用 して 問 合 せや 苦 情 のトピックと 解 約 の 発 生 確 率 の 関 係 をモデル 化 すれば 解 約 件 数 を 抑 制 する 施 策 を 検 討 すること ができる また 営 業 の 日 報 データに 適 用 して 営 業 接 客 のトピックと 契 約 の 獲 得 率 の 関 係 をモデル 化 すれば 契 約 獲 得 を 促 進 させるポイントを 把 握 することができる また 商 品 の 印 象 調 査 などのアンケートの 自 由 記 述 データに 適 用 して 商 品 の 特 徴 と 印 象 トピックとの 関 係 をモデル 化 すれば 商 品 特 徴 からどのような 話 題 がされるのか 予 測 して 狙 った 印 象 を 与 える 商 品 企 画 を 検 討 できる なお 我 々は この テキストマイニング PLSA ベイジアンネットワーク を 統 合 した 一 連 の 分 析 方 法 を 特 許 出 願 している( 特 願 2014-174500 ) 図 5 宿 泊 施 設 の 口 コミ PLSA ベイジアンネットワークによって 構 築 されるモデル Deloitte Analytics PLSA( 確 率 的 潜 在 意 味 解 析 法 ) 6
図 6 宿 泊 施 設 の 評 価 トピックから 満 足 度 得 点 を 確 率 推 論 した 例 まとめ 最 近 注 目 を 集 めているPLSAというクラスタリング 技 術 を 紹 介 した 特 に データの 行 と 列 という2つの 軸 を 同 時 にクラスタリ ングできる 機 能 に 本 質 的 な 有 用 性 があると 考 えており これに 着 目 した 適 用 事 例 が 本 来 の 使 い 方 とは 異 なる 場 面 で 近 年 報 告 され 始 めていることを 述 べた ビジネスの 課 題 に 応 じてデータにおける 行 と 列 の2つの 軸 をカスタマイズしてPLSAを 適 用 すれば ビジネスに 有 用 な 知 識 を 抽 出 することができる ビッグデータはデータの 件 数 の 多 さだけでなく 列 ( 変 数 )の 多 さという 高 次 元 性 がもたらす 複 雑 さが 扱 いにくいものにして いる 最 近 では 高 度 な 自 動 処 理 アルゴリズムも 開 発 されており 結 果 の 精 度 さえ 良 ければその 中 身 を 解 釈 できなくても 良 し とするケースがあるが 人 間 が 解 釈 可 能 な 分 析 結 果 を 出 すことこそ データ 分 析 というものが 経 験 豊 かなビジネス 現 場 の 人 の 武 器 になるのではないだろうか Deloitte Analytics 野 守 耕 爾 ( 注 ) 当 該 記 事 は 執 筆 者 の 私 見 であり トーマツグループの 公 式 見 解 ではありません お 問 い 合 わせ 先 トーマツグループ デロイト アナリティクス 100-0005 東 京 都 千 代 田 区 丸 の 内 3-3-1 新 東 京 ビル Tel: 03-6213-1112 e-mail: tohmatsu.analytics@tohmatsu.co.jp URL:http://www.deloitte.com/jp/da/ トーマツグループは 日 本 におけるデロイト トウシュ トーマツ リミテッド( 英 国 の 法 令 に 基 づく 保 証 有 限 責 任 会 社 )のメンバーファームおよびそれらの 関 係 会 社 ( 有 限 責 任 監 査 法 人 トーマツ デロイト トーマツ コンサルティング 株 式 会 社 デロイト トーマツ ファイナンシャルアドバイザリー 株 式 会 社 および 税 理 士 法 人 トーマツを 含 む)の 総 称 です トーマツグループは 日 本 で 最 大 級 のビジネスプロフェッショナルグループのひとつであり 各 社 がそれぞれ の 適 用 法 令 に 従 い 監 査 税 務 コンサルティング ファイナンシャルアドバイザリー 等 を 提 供 しています また 国 内 約 40 都 市 に 約 7,800 名 の 専 門 家 ( 公 認 会 計 士 税 理 士 コンサルタントなど)を 擁 し 多 国 籍 企 業 や 主 要 な 日 本 企 業 をクライアントとしています 詳 細 はトーマツグループWebサイト (www.deloitte.com/jp)をご 覧 ください Deloitte(デロイト)は 監 査 税 務 コンサルティングおよびファイナンシャル アドバイザリーサービスを さまざまな 業 種 にわたる 上 場 非 上 場 のクライ アントに 提 供 しています 全 世 界 150を 超 える 国 地 域 のメンバーファームのネットワークを 通 じ デロイトは 高 度 に 複 合 化 されたビジネスに 取 り 組 む クライアントに 向 けて 深 い 洞 察 に 基 づき 世 界 最 高 水 準 の 陣 容 をもって 高 品 質 なサービスを 提 供 しています デロイトの 約 200,000 名 を 超 える 人 材 は standard of excellence となることを 目 指 しています Deloitte(デロイト)とは 英 国 の 法 令 に 基 づく 保 証 有 限 責 任 会 社 であるデロイト トウシュ トーマツ リミテッド( DTTL )ならびにそのネットワーク 組 織 を 構 成 するメンバーファームおよびその 関 係 会 社 のひとつまたは 複 数 を 指 します DTTLおよび 各 メンバーファームはそれぞれ 法 的 に 独 立 した 別 個 の 組 織 体 です DTTL(または Deloitte Global )はクライアントへのサービス 提 供 を 行 いません DTTLおよびそのメンバーファームについての 詳 細 は www.deloitte.com/jp/about をご 覧 ください 2014. For information, contact Deloitte Touche Tohmatsu LLC. Member of Deloitte Touche Tohmatsu Limited