12_02_特集.indd

Similar documents
untitled

コンピュータ応用・演習 情報処理システム

memo

Progress report

二項ソフトクラスタリング分析例 この資料では Visual Mining Studio のアイコン Dyadic Soft Clustering を使って 二項ソフトクラスタリング 分析をする方法を説明します 二項ソフトクラスタリングは一般的には PLSI, PLSA などの名前で知られています 株

SAPジャパン、日立、ESRIジャパンが、社会インフラに関する将来予測を可能にするビッグデータ利活用システム基盤の開発・検証を実施

untitled

採択評価ヒアリング: 「膨大な数の極小データの効率的な配送基盤技術の研究開発」

これらのご要望などを踏まえ 本技術を開発しました 本技術により渋滞予知の精度は大幅に向上し 渋滞があると予測した時間帯において 所要時間の誤差が30 分以上となる時間帯の割合が 従来の渋滞予報カレンダー 7 の8.2% に対して0.8% 20 分以上となる割合が26% に対して6.7% となり また

講座内容 第 1 週 データサイエンスとは 第 2 週 分析の概念と事例ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )1 第 3 週 分析の具体的手法ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )2 第 4 週 ビジネスにおける予測と分析結果の報告ビジネス課題解決のためのデー


したがって このモデルではの長さをもつ潜在履歴 latent history が存在し 同様に と指標化して扱うことができる 以下では 潜在的に起こりうる履歴を潜在履歴 latent history 実際にデ ータとして記録された履歴を記録履歴 recorded history ということにする M

様々なミクロ計量モデル†


memo

ボルツマンマシンの高速化

スライド 1

13章 回帰分析

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

Microsoft Word - 補論3.2

福岡大学人文論叢47-3

<DAC様>EverysenseProイベント登壇_AudienceOne_Discovery_統計データ概要

Microsoft Word - 1 color Normalization Document _Agilent version_ .doc

PowerPoint プレゼンテーション

Microsoft PowerPoint - 資料04 重回帰分析.ppt

Microsoft PowerPoint - LDW.ppt [互換モード]

生命情報学

Microsoft PowerPoint - 04_01_text_UML_03-Sequence-Com.ppt

eコマースで年間274時間の節約!!

<4D F736F F D204B208C5182CC94E497A682CC8DB782CC8C9F92E BD8F6494E48A722E646F6378>

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

モバイル端末市場動向調査レポート

民間事業者等によるサービス実証成果報告(日本電信電話・ジェイアール東日本コンサルタンツ)

EBNと疫学

Learning Bayesian Network from data 本論文はデータから大規模なベイジアン ネットワークを構築する TPDA(Three Phase Dependency Analysis) のアルゴリズムを記述 2002 年の発表だが 現在も大規模用 BN モデルのベンチマークと

PowerPoint プレゼンテーション

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

040402.ユニットテスト

Microsoft Word - deim2016再提出.docx

Microsoft Office Excel2007(NO4中級後編 エクセルを実務で活用)

対面学習の学習目標 データ分析のケーススタディ の講義と演習を通じて 以下の理解を深め 実践できるようになることを目標とする 分析の設計 データから現状の把握 現状から 課題の抽出 課題に対する解決のための分析設計 1

AI AI Artificial Intelligence AI Strategy& Foresight AI AI AI AI 1 AI AI AI AI AI AI AI AI AI AI AI AI AI 2 AI 1 AI AI 3 AI 3 20 AI AI AI AI AI

2-1. システム概要 2-2. システムの設計 SNS Twitter Web-GIS 推薦システム スマートグラスを統合 平常時は観光回遊行動支援 災害時は避難行動支援 情報の蓄積 共有 推薦とナビゲーションを可能にする 有用性 時間的制約の緩和 スマートグラスの統合 動的 リアルタイム性 SN

0 21 カラー反射率 slope aspect 図 2.9: 復元結果例 2.4 画像生成技術としての計算フォトグラフィ 3 次元情報を復元することにより, 画像生成 ( レンダリング ) に応用することが可能である. 近年, コンピュータにより, カメラで直接得られない画像を生成する技術分野が生

2. Apple iphoto 1 Google Picasa 2 Calendar for Everything [1] PLUM [2] LifelogViewer 3 1 Apple iphoto, 2 Goo

Probit , Mixed logit

テンソル ( その ) テンソル ( その ) スカラー ( 階のテンソル ) スカラー ( 階のテンソル ) 階数 ベクトル ( 階のテンソル ) ベクトル ( 階のテンソル ) 行列表現 シンボリック表現 [ ]

目次 Ⅰ. 調査概要 調査の前提... 1 (1)Winny (2)Share EX (3)Gnutella データの抽出... 2 (1) フィルタリング... 2 (2) 権利の対象性算出方法... 2 Ⅱ. 調査結果 Win

<4D F736F F F696E74202D A834C A AA89C889EF C835B B E B8CDD8AB B83685D>

Microsoft PowerPoint - statistics pptx

09.pptx

経済数学演習問題 2018 年 5 月 29 日 I a, b, c R n に対して a + b + c 2 = a 2 + b 2 + c 2 + 2( a, b) + 2( b, c) + 2( a, c) が成立することを示しましょう.( 線型代数学 教科書 13 ページ 演習 1.17)

<4D F736F F F696E74202D208CA48B868FD089EE288FDA82B582A294C5292E B8CDD8AB B83685D>

図2 東京23区における店舗 事業所の入替率 年 500mメッシュ集計 ることにより 店舗 事業所ごとの時系列変化の 様子を明らかにした例である さらにこの結果を 図3 Hotpepper APIで収集した店舗情報を住宅地図 とリンクして表示した例 東京都中央区銀座付近の例 201

Microsoft PowerPoint - 三次元座標測定 ppt

研究レビューミーティング プレゼン資料 テンプレート

Microsoft PowerPoint - 大阪府-1

グラフ 集計表導入前 売り上げ管理アプリ その都度売上状況を Excel で集計してグラフを作成していた 集計に手間がかかってしまう 毎回 最新の情報に更新しなければならない 蓄積されているデータを出力して 手作業で集計していた 2

行列、ベクトル

報道関係者各位

グラフ 集計表導入前 売り上げ管理アプリ その都度売上状況を Excel で集計してグラフを作成していた 集計に手間がかかってしまう 毎回 最新の情報に更新しなければならない 蓄積されているデータを出力して 手作業で集計していた 2

クラス図とシーケンス図の整合性確保 マニュアル

[ 演習 3-6AA] ウェブページの検索結果の表示順序 ( 重要 ) 10D H 坂田侑亮 10D F 岩附彰人 10D D 財津宏明 1.1 ページランクとは ページランクとは グーグルが開発した検索エンジンのウェブページの重要度を判定する技術である サーチエ

PowerPoint プレゼンテーション

新技術説明会 様式例

SAP11_03

Microsoft PowerPoint - 10.pptx

PowerPoint プレゼンテーション

vol23_2_011jp

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

IP 電話の品質に関するアンケート及び MOS 評価実験について 総務省総合通信基盤局 電気通信技術システム課

DEIM Forum 2016 F / [1] ht

スライド 1

Microsoft PowerPoint - qcomp.ppt [互換モード]

V8.1新規機能紹介記事

2) では, 図 2 に示すように, 端末が周囲の AP を認識し, 認識した AP との間に接続関係を確立する機能が必要である. 端末が周囲の AP を認識する方法は, パッシブスキャンとアクティブスキャンの 2 種類がある. パッシブスキャンは,AP が定期的かつ一方的にビーコンを端末へ送信する

tokyo_t3.pdf

Microsoft PowerPoint - OS12.pptx

Microsoft PowerPoint - システム創成学基礎2.ppt [互換モード]

2 図微小要素の流体の流入出 方向の断面の流体の流入出の収支断面 Ⅰ から微小要素に流入出する流体の流量 Q 断面 Ⅰ は 以下のように定式化できる Q 断面 Ⅰ 流量 密度 流速 断面 Ⅰ の面積 微小要素の断面 Ⅰ から だけ移動した断面 Ⅱ を流入出する流体の流量 Q 断面 Ⅱ は以下のように

【NEM】発表資料(web掲載用).pptx

2 21, Twitter SNS [8] [5] [7] 2. 2 SNS SNS Cheng [2] Twitter [6] Backstrom [1] Facebook 3 Jurgens

ビッグデータのリアルタイム分析基盤技術「Jubatus」を活用し、センサデータ機械学習検証システムを構築 - ビニールハウスのデータ異常検知の自動化を実現 -

布に従う しかし サイコロが均質でなく偏っていて の出る確率がひとつひとつ異なっているならば 二項分布でなくなる そこで このような場合に の出る確率が同じであるサイコロをもっている対象者をひとつのグループにまとめてしまえば このグループの中では回数分布は二項分布になる 全グループの合計の分布を求め

NLMIXED プロシジャを用いた生存時間解析 伊藤要二アストラゼネカ株式会社臨床統計 プログラミング グループグルプ Survival analysis using PROC NLMIXED Yohji Itoh Clinical Statistics & Programming Group, A

An Automated Proof of Equivalence on Quantum Cryptographic Protocols

コンピュータグラフィックス第6回

Microsoft PowerPoint - gg_week11.ppt [互換モード]

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

Microsoft Word ã‡»ã…«ã‡ªã…¼ã…‹ã…žã…‹ã…³ã†¨åłºæœ›å•¤(佒芤喋çfl�)

PowerPoint プレゼンテーション

(3) 概要とイメージ 店頭等で環境配慮型製品を検討 選択中の消費者個人のスマホ等にめがけて その製品品目に関するより詳しい情報をプッシュ配信 必要に応じて消費者からもサイトアクセス等ができ 更に欲しい情報が取得できる 図表 1 サービスのイメージ (4) 事例調査からの示唆本サービスは 情報提供に

Microsoft Word - NumericalComputation.docx

15288解説_D.pptx

航空機の運動方程式

Microsoft PowerPoint - ●SWIM_ _INET掲載用.pptx

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

Microsoft Word - report_public.doc

DSOC_DSR-04

Transcription:

多種多様なデータを組み合わせた分析 ECサイト, スマートフォンアプリ, IoT(Internet of Things) デバイスなどの普及に伴い, ヒトの行動やモノの動きなどに付随する多種多様なデータ が蓄積されています. 例えば,ECサイトでの購買ログには, いつ, どこで, どのような年代, 性別の顧客が, どのような商品を購入したのかといったデータが含まれており, 膨大に蓄積されたこれらのデータから特徴的な顧客層や商品群を抽出する分析が行われて データマイニング時空間データ解析集機械学習 データ科学センタが推進するビッグデータ技術の横断的研究開発 多次元複合データ分析から時空間多次元集合データ解析技術へ 本稿では Web 上のデータやアプリログ,IoT(Internet of Things) センサデータなど, 複数の属性を含む多種多様なデータから, データ間に現れる有意味な横断的特徴を効率的に抽出することのできる多次元複合データ分析技術について紹介します. 基本的なアルゴリズムの仕組みと口コミサイトデータへの適用事例について紹介するとともに, 時空間の関係性をモデル化し, 事象の発生個所と時期を予測する時空間多次元集合データ解析技術への展開について紹介します. 図 1 購買ログデータのクロス集計例 特なやふとし 1 さわだひろし 2 納谷太 / 澤田宏 1 NTTコミュニケーション科学基礎研究所 2 NTTサービスエボリューション研究所います ( 図 1(a)). また, 最近のスマートフォンアプリの中には, ユーザの許諾を得たうえで, アプリを利用している際の位置情報をGPSやWi-Fi, ビーコンなどで取得するものもあり, 購買ログと組み合わせることにより, 外出先なのか自宅なのかなど, どのような NTT 技術ジャーナル 2015.12 15

機械学習 データ科学センタが推進するビッグデータ技術の横断的研究開発 図 2 多次元データ分析の概念 状況で購買がなされるのかといった詳細な分析も可能になりつつあります. 従来, このような顧客層や商品群の特徴を抽出する手法として, クロス集計が活用されています. クロス集計では, 例えば, 場所と品目の各組合せで売上個数が集計され, その結果は表形式, もしくは行列で表現できます ( 図 1(b)). 店舗の種類や, 商品の品目などを 属性 または 軸 と呼び, 図 1 の場合は, 場所と品目の 2 種類の属性, すなわち 2 次元の軸を持つデータといえます. また, 各属性はさまざまな値 ( 場所ならばスーパーやコンビニ, 品目ならコーヒーなど ) を持ちます. 集計結果からは, ある特定の場所に着目してどのような品目の売上個数が多いのか, または, ある特定の品目がどのような場所で売れているのかなど, 単一の属性値での傾向を把握することはできます. しかし, 属性の取り得る値が増えるほど結果は複雑にな り, 集計数の多い組合せのみにデータが集中するため, 例えば図 1(b) の赤丸で示すような, 紅茶は自販機でも比較的売上が多い といった特徴が抽出しにくくなってしまいます. 多次元データ分析技術前述の問題を解決する手法の 1 つが多次元データ分析技術です. 多次元データ分析技術では, 2 次元の集計データである行列をK 個の行列の和となるように分解します ( 図 2). K 個に分解された個々の行列 T 1 T K のデータをそれぞれクラスタと呼びます. 多次元データ分析技術によって分解された個々のクラスタは, 特定の場所や特定の品名に集計値が偏るデータになるため, 例えばクラスタ 1 では自販機で良く売れている品目が抽出され, クラスタ 2 では惣菜パンの売上はスーパーが大半でコンビニがその半数程度, クラスタKではスーパーの売上 では牛乳がトップなど, 各クラスタでどのような傾向があるのかがより把握しやすくなります. ここで行列の分解の仕方がポイントになります. 元の集計データをI 行 J 列の行列 Tとし, これをT 1 T K のK 個の行列の和で近似できるように分解するとします (T T 1 +T 2 + +T K ). 上記例では,Iは場所の数,Jは品目の数です. このとき, 分解した個々のT i (i = 1 K) もI 行 J 列の行列です. このような分解の仕方は任意性がありますが, 多次元データ分析では, 分解後の各行列 T i (i= 1 K) を,I 行 1 列の列ベクトルa i と 1 行 J 列の行ベクトルb i の積であるように分解します. すなわち,T i =a i b i. ただし, 各ベクトルの要素は非負 ( 0 以上の値 ) を取るような制約を課します. すると, T 1 +T 2 + +T K =a 1 b 1 +a 2 b 2 + +a K b K =(a 1 a 2 a K ) (b 1 b 2 b K )=A B のように表現できます. これは, 元の 16 NTT 技術ジャーナル 2015.12

よびK 行 J 列の行列 Bの積で近似することにほかなりません (T A B ). ここで,KはIおよびJよりも非常に小さく取ります (K I, J). ここでA,B を因子行列と呼びます. このような因子行列を求めるには,AとBの因子行列に最初ランダムな値を設定し,A B=T として再構成した行列 T と, 元の行列 Tとの誤差が少なくなるような基準に基づき, 因子行列 AとBを更新します. 上記の作業を誤差が収束するまで繰り返すことにより最終的な因子行列 A,Bを得ます. 上述の分解例ではAが 場所に相当する因子,B が 品目に相当する因子 として抽出されます. 上記手法は, 機械学習技術の 1 つで非負値行列因子分解法 (NMF: Non-neg a tive Matrix Factorization) と呼ばれ, データマイニングの分野で広く活用されています (1). また, 上記の考え方は 2 次元の行列データだけでなく, 属性数を 3 つ以上で集計した高次元のデータ ( テンソル ) にも適用可能であり, その手法は非負 図 3 多次元複合データ分析の概念 値テンソル因子分解法 (NTF: Nonn e g a t i v e T e n s o r F a ct o riz at i o n ) と呼ばれます. 多次元 複合 データ分析技術への拡張 NTFは, さまざまな属性の組合せで集計した行列 ( テンソル ) データを, 因子行列の積として分解することにより, データに潜む特徴的なクラスタを抽出することができます. しかし, 各属性の 値 のバリエーションが多いほど, 集計データには偏りが生じやすくなります. また, 場所と品目に加えて, ユーザの年代という新たな属性を加えて集計したデータを分解することにより, どのようなユーザ層がどのような場所でどのような品目を購入する傾向があるのかといった顧客クラスタを抽出することもできますが, このような属性の数を増やせば増やすほど, その組合せ数が爆発し, ほとんどの組合せで集計値が 0 となる疎な ( スパースな ) データとなります. 図 1 に示す購買ログを, 時間( 1 時間ごとの24 I 行 J 列の行列 Tを,I 行 K 列の行列 Aお 通り ) 場所(100 通り ) ユー ザ (1000 人 ) 品名 ( 1 0 0 種類 ) の 4 つの属性 ( 軸 ) と値の組合せで集計 する場合, 組合せ数は24 100 1000 100 = 2 億 4000 万通りとなり, データ の種類にもよりますが, 4 つ以上の属 性の組合せでは, 実に99.9% 以上の要 素が 0 となります. つまり, 集計デー タの中で 0 でない要素は全体の 0.1% に 満たず, このようなスパースな集計デー タを因子分解しても満足のいく分析結 果を得ることが難しくなります. NTT 研究所では, このスパース性 の問題を解決する手法として, 複合非 負値テンソル因子分解法 (NMTF: Nonnegative Multiple Tensor Factorization) を開発しました. この手法は, 元デー タを高次元 ( ここでは 5 次元 ) のテン ソルとして集計する代わりに, 属性 ( 軸 ) 数を 3 つ以下に絞ったスパース ではない ( 0 でない要素の多い ) 集計 データ ( テンソルまたは行列 ) を複数 作成し, 集計データ間で共通する属性 ( 図ではユーザの軸 ) に相当する因子行 列を仮定して分解を行います ( 図 3).

機械学習 データ科学センタが推進するビッグデータ技術の横断的研究開発 複数の集計データを組み合わせて多次元のデータを分析するため, 多次元複合データ分析技術と呼んでいます. Yelp データセットを用いた解析例 多次元複合データ分析技術 NMTF の有効性を検証するため, 米国のレビューサイトYelp( 図 4) のオープンデータセットに適用した事例を紹介します.Yelp データセットは学術目的で一般公開 (2) されており, それぞれの商業施設ごとの口コミ情報として, 店舗名, カテゴリ, 店舗位置, ユーザ, レーティング, レビューに含まれる単語, チェックインの曜日, 時間など, 多様な属性データを含んでいます. このデータから, 例えば, 次の 3 種類のテンソルデータを集計することができます. 1 レビューテンソル : ユーザ 店舗 曜日 値はレビュー数 2 チェックインテンソル : 店舗 時間 緯度経度 値はチェックイン回数 3 単語頻度テンソル : ユーザ カテゴリ 単語 値は単語の出現回数テンソル間には, ユーザ, 店舗といった共通する軸を含んでいます. 詳しい分解アルゴリズムや結果は参考文献 (3) に譲りますが, 上記 3 つのテンソルに対してNMTFを適用することにより, 図 5に示すような 週末午前にレジャー活動 や 日本食レストランでの食事 がさかんな商業施設, 利用されることの多い曜日 時間帯, 地理的分布, 口コミでよく使われる単語な 図 4 Yelp データセット 図 5 多次元複合データ分析によって得られるクラスタ例 18 NTT 技術ジャーナル 2015.12

えたクラスタが抽出できていることが分かります. このように,NMTFはデータの持つ多次元の属性を活用しながらも, スパース性の問題を緩和し, 分析結果として意味のあるクラスタを効率的に抽出することができます. 今後の展開 NMTFによる多次元複合データ分析は, データに潜む特徴的なクラスタを効率的に抽出できますが, 集計したデータ要素間の時間的な因果関係や空間的な隣接性などの関係性を考慮していません. 特に, ユーザや車などの位置データの解析では, 空間メッシュで区切ったエリアおよび時間帯ごとに観測された人口や車両数をベースに分析が行われることがありますが, このようなデータにNMTFを適用しても, 例えば混雑などの事象が発生する時期や場所を予測するといった用途に見合う分析結果は得られません. そこで, 多次元データの時空間的な関係性をモデル化し, 将来の予測を可能にする革新的解析技術として, 時空間多次元集合データ解析技術の研究開発を進めています. 時空間多次元集合データ解析技術はデータの 時間 空間 多次元 集合 の 4 要素を考慮し, 近未 図 6 集ど 時空間多次元集合データ解析技術への拡張, 多くの属性の組合せで特徴をとら 来の事象を予見 洞察することを目指 しています ( 図 6). 集合 とあるの は, メッシュ当りの人口や車両数など のように, 個々を識別できない, 集合 としての集計データのみからでも, 時 空間的な人流や交通流の流れを推定す ることを意図したものです. 2020 年に向けて, 大規模イベント 会場などでの混雑緩和や通信インフラ の安定化のために, リアルタイムに観 測されたデータを活用し, 近未来に起 こり得る混雑などの事象を時空間多次 元集合データ解析技術によって検知 し, 先行的に集団を誘導する技術の 実現に向けて研究開発を進めていき ます. ( 左から ) 納谷 太 / 澤田 宏 多種多様なリアルタイムセンサデータか ら, 潜在的な時空間特徴を即時にとらえ, 将来を予測し, 先行的に人々の誘導や機器 を制御し, 安心 安全な社会インフラ構築 に貢献する技術の確立を目指します. ご意 見, ご要望をお待ちしています. 問い合わせ先 NTTコミュニケーション科学基礎研究所 協創情報研究部 / 機械学習 データ科学センタ TEL 0774-93-5272 FAX 0774-93-5155 E-mail naya.futoshi lab.ntt.co.jp 参考文献 (1) 澤田 : 非負値行列因子分解 NMF の基礎とデータ / 信号解析への応用, 信学誌, Vol.95, No.9, pp.829-833, 2012. (2) https://www.yelp.com/academic_dataset (3) K. Takeuchi, R. Tomioka, K. Ishiguro, A. Kimura, and H. Sawada: Non-negative Multiple Tensor Factorization, Proc. of ICDM 2013, pp.1199-1204, Dallas, U.S.A., Dec. 2013. (4) N. Ueda, F. Naya, H. Shimizu, T. Iwata, M. Okawa, and H. Sawada: Real-time and Proactive Navigation via Spatio-temporal Prediction, Proc. of the First International Workshop on Smart Cities: People, Technology and Data, in conjunction with Ubicomp2015, pp.1559-1566, Osaka, Japan, Sept. 2015.