Similar documents

Microsoft Word - deim2016再提出.docx

A Bit flipping Reduction Method for Pseudo-random Patterns Using Don’t Care Identification on BAST Architecture

Microsoft PowerPoint - NC12-2.pptx

DEIM Forum 2014 P Web Web,,, 1. Web Web 1 Web Web Web. 2 3 Web

電子情報通信学会ワードテンプレート (タイトル)

ボルツマンマシンの高速化

Microsoft PowerPoint - LDW.ppt [互換モード]

概要 協調フィルタリング Start-up問題 利用者が少ないとうまくいかない 集団協調フィルタリング 複数サイトの情報をマルチタスク学習を利用して集める 広域ネットワーク上に分散 通信量を抑制 個人情報の保護 個人嗜好データは局所サイト内でのみ保持 各サイトの個性の保持 個別の推薦モデルの獲得 実

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

スライド 1

コンピュータ応用・演習 情報処理システム

円筒面で利用可能なARマーカ

技術資料 JARI Research Journal OpenFOAM を用いた沿道大気質モデルの開発 Development of a Roadside Air Quality Model with OpenFOAM 木村真 *1 Shin KIMURA 伊藤晃佳 *2 Akiy

2. Apple iphoto 1 Google Picasa 2 Calendar for Everything [1] PLUM [2] LifelogViewer 3 1 Apple iphoto, 2 Goo

2014 年電子情報通信学会総合大会ネットワークシステム B DNS ラウンドロビンと OpenFlow スイッチを用いた省電力法 Electric Power Reduc8on by DNS round- robin with OpenFlow switches 池田賢斗, 後藤滋樹

データベース暗号化ツール「D’Amo」性能検証

スライド 1

題目

記 1. 適用対象本通知は 製造販売業者等が GPSP 省令第 2 条第 3 項に規定する DB 事業者が提供する同条第 2 項に規定する医療情報データベースを用いて同条第 1 項第 2 号に規定する製造販売後データベース調査を実施し 医薬品の再審査等の申請資料を作成する場合に適用する GPSP 省

4 月 東京都立蔵前工業高等学校平成 30 年度教科 ( 工業 ) 科目 ( プログラミング技術 ) 年間授業計画 教科 :( 工業 ) 科目 :( プログラミング技術 ) 単位数 : 2 単位 対象学年組 :( 第 3 学年電気科 ) 教科担当者 :( 高橋寛 三枝明夫 ) 使用教科書 :( プロ

目次 Ⅰ. 調査概要 調査の前提... 1 (1)Winny (2)Share EX (3)Gnutella データの抽出... 2 (1) フィルタリング... 2 (2) 権利の対象性算出方法... 2 Ⅱ. 調査結果 Win

COMPUTING THE LARGEST EMPTY RECTANGLE

Microsoft PowerPoint - 10.pptx

DEIM Forum 2016 F / [1] ht

memo



untitled

( ), ( ) Patrol Mobile Robot To Greet Passing People Takemi KIMURA(Univ. of Tsukuba), and Akihisa OHYA(Univ. of Tsukuba) Abstract This research aims a

DEIM Forum 2019 F {niitsuma, Twitter 1 SNS Twitter 1 450

共購買情報を用いた多様性のある推薦アルゴリズムの提案

Taro-再帰関数Ⅲ(公開版).jtd

Microsoft Word - 卒論レジュメ_最終_.doc

スライド 1

icde_5a_3

Microsoft PowerPoint - 05.pptx

PowerPoint プレゼンテーション

モデリングとは

NGSデータ解析入門Webセミナー

IPSJ SIG Technical Report Vol.2014-DBS-160 No.21 Vol.2014-OS-131 No.2 Vol.2014-EMB-35 No /11/18 1,2,a) 2,b) 2,c) 1,d) 2,e) Web Web Twitter Web

画像類似度測定の初歩的な手法の検証

3 2 2 (1) (2) (3) (4) 4 4 AdaBoost 2. [11] Onishi&Yoda [8] Iwashita&Stoica [5] 4 [3] 3. 3 (1) (2) (3)

2008 年度下期未踏 IT 人材発掘 育成事業採択案件評価書 1. 担当 PM 田中二郎 PM ( 筑波大学大学院システム情報工学研究科教授 ) 2. 採択者氏名チーフクリエータ : 矢口裕明 ( 東京大学大学院情報理工学系研究科創造情報学専攻博士課程三年次学生 ) コクリエータ : なし 3.

料理画像の色情報を用いたレシピ選別支援 DEIM Forum 2017 P8-3 平川芽依 牛尼剛聡 角谷和俊 関西学院大学総合政策学部メディア情報学科 兵庫県三田市学園 2-1 九州大学大学院芸術工学研究院 福岡県福岡市南区塩原 {d

IPSJ SIG Technical Report Vol.2014-IOT-27 No.14 Vol.2014-SPT-11 No /10/10 1,a) 2 zabbix Consideration of a system to support understanding of f

DEIM Forum 2015 F8-4 Twitter Twitter 1. SNS

Microsoft PowerPoint - 教材サンプル1&2.ppt

本文/扉1

プログラム


平成20年5月 協会創立50年の歩み 海の安全と環境保全を目指して 友國八郎 海上保安庁 長官 岩崎貞二 日本船主協会 会長 前川弘幸 JF全国漁業協同組合連合会 代表理事会長 服部郁弘 日本船長協会 会長 森本靖之 日本船舶機関士協会 会長 大内博文 航海訓練所 練習船船長 竹本孝弘 第二管区海上保安本部長 梅田宜弘

Program

aphp37-11_プロ1/ky869543540410005590


Œ{Ł¶/1ŒÊ −ªfiª„¾ [ 1…y†[…W ]

日本内科学会雑誌第96巻第11号

Microsoft PowerPoint - 13approx.pptx

(Microsoft PowerPoint - \203|\203X\203^\201[\224\255\225\\\227p\216\221\227\ ppt)

0210研究会

アプリケーション インスペクションの特別なアクション(インスペクション ポリシー マップ)

Microsoft Word - ModelAnalys操作マニュアル_

次に示す数値の並びを昇順にソートするものとする このソートでは配列の末尾側から操作を行っていく まず 末尾の数値 9 と 8 に着目する 昇順にソートするので この値を交換すると以下の数値の並びになる 次に末尾側から 2 番目と 3 番目の 1

Microsoft PowerPoint - ad11-09.pptx

東邦大学理学部情報科学科 2014 年度 卒業研究論文 コラッツ予想の変形について 提出日 2015 年 1 月 30 日 ( 金 ) 指導教員白柳潔 提出者 山中陽子

コンテンツセントリックネットワーク技術を用いた ストリームデータ配信システムの設計と実装

040402.ユニットテスト

確率的ラフ集合モデルによる決定クラスの抽出

発表内容 背景 コードクローン 研究目的 4 つのテーマ 研究内容 テーマ毎に, 概要と成果 まとめ 2

三者ミーティング

Microsoft PowerPoint - mp13-07.pptx

本セッションの資料 説明に含まれる内容は IBM ソフトウェア製品ライセンスの網羅性 正確性を保障するものではないことをご了承願います 具体的なライセンス制度の確認及び ソフトウェア製品利用の際には IBM の HP や製品の使用許諾契約書をご確認いただけますようお願いいたします 2016 SAMA

IPSJ SIG Technical Report Vol.2012-HCI-149 No /7/20 1,a) 4,1 1, ,892 ( ) 485 (16.8%) [1] [2], [3], [4] (1) (2) (3) [5]

スライド 1

NLMIXED プロシジャを用いた生存時間解析 伊藤要二アストラゼネカ株式会社臨床統計 プログラミング グループグルプ Survival analysis using PROC NLMIXED Yohji Itoh Clinical Statistics & Programming Group, A

PowerPoint Presentation

Microsoft PowerPoint - 知財報告会H20kobayakawa.ppt [互換モード]

ソフト活用事例③自動Rawデータ管理システム

PowerPoint プレゼンテーション

データ科学2.pptx

Microsoft Word - JSQC-Std 目次.doc

0 21 カラー反射率 slope aspect 図 2.9: 復元結果例 2.4 画像生成技術としての計算フォトグラフィ 3 次元情報を復元することにより, 画像生成 ( レンダリング ) に応用することが可能である. 近年, コンピュータにより, カメラで直接得られない画像を生成する技術分野が生

MA3-1 30th Fuzzy System Symposium (Kochi, September 1-3, 2014) Analysis of Comfort Given to Human by Using Sound Generation System Based on Netowork o

Rの基本操作

Exfront4.1.0リリースノート

B

日経テレコン料金表(2016年4月)

73 p p.152


Microsoft Word - 田中亮太郎.doc

_Print

122011pp

A p A p. 224, p B pp p. 3.

p

スラヴ_00A巻頭部分

Microsoft Word - 映画『東京裁判』を観て.doc

9

戦後の補欠選挙

2

() L () 20 1

Transcription:

次元圧縮法を導入したクエリに基づくバイクラスタリング 情報推薦への応用 武内充三浦功輝岡田吉史 ( 室蘭工業大学 ) 概要以前, 我々はクエリに基づくバイクラスタリングを用いた情報推薦手法を提案した. 本研究では, 新たに推薦スコアが非常に良く似たユーザまたはアイテムを融合する次元圧縮法を導入した. 実験として, 縮減前と縮減後のデータセットのサイズとバイクラスタ計算時間の比較を行う. キーワード : 情報推薦, バイクラスタリング 1 はじめに インターネットの普及により, 莫大な情報を得られるようになった反面, 自分の目的に合った情報のみを見つけ出すことは非常に困難になっている. そのためにユーザの意図や嗜好に合った情報を推定して提示する情報推奨技術の研究が盛んに行われている. 以前, 我々はクエリに基づくバイクラスタリングを用いた情報推薦手法 ( 以下, 前手法 ) を提案した 1). この手法は, 推薦要求ユーザが高評価しているアイテムをクエリとし, そのクエリを高評価しているユーザのみを用いてバイクラスタリングを行う. この手法によりバイクラスタリングに要する計算時間を劇的に縮減することが出来た. しかし, この方法では, 同じアイテムを含む膨大なバイクラスタが生成されるため, 推薦アイテムの選定において冗長な計算が行われていただけでなく, アイテムのランキングが適切に行われなかった可能性がある. 本研究では, 評価スコアが非常によく似たユーザ, またはアイテムを融合する次元圧縮法を導入したアイテム推薦の手法を提案する. 本稿では, 本手法によるデータセット縮減効果の結果に加え, 縮減前後のデータセットからのバイクラスタリング生成時間の結果を報告する. Fig 1: Reduction procedure 評価を 0 とする. 構築したトランザクションデータベースをユーザに関して 3 分割し, その内の 1 つをテストデータセット, 残りの 2 つを訓練データセットとする. 訓練データセットのみを縮減することで圧縮データセットを作成する. 2 本手法の概要 2.1 データセット 本研究では,GroupLens で公開されている情報推薦システムのベンチマークデータセット MovieLens を用いる 2).MovieLens は 1682 本の映画に対して 943 人のユーザが 1 から 5 までの 5 段階評価を行ったデータが 10 万件格納されている. また, ユーザ一人当たりの最低評価件数は 10 件である. データセットに含まれる評価値は, 大きいほど高評価であることを意味し,4 以上を高評価, それ以外を低評価と定義する. 2.2 トランザクションデータベース作成 使用するデータセットから, トランザクションデータベースを構築する. 本実験で使用するトランザクションデータベースは, 行にユーザ, 列にアイテム, 要素に評価値が格納されている. 評価値は高評価を 1, 低 2.3 圧縮データセット作成 Fig.1 は訓練データセットから評価スコアが非常によく似たユーザ, またはアイテムを融合して圧縮データセットを作成する方法を示している. ユーザの融合手順は, 以下のとおりである : 1) ユーザをアイテムの評価件数が多い順にソートする. 2) 評価件数が最も多い未融合のユーザを親ユーザとし, それ以外を子ユーザとする. 3) 親ユーザと各子ユーザの間でアイテムに対する評価を比較し, 以下の条件を全て満たす子ユーザを削除する. 未融合である. 親ユーザと子ユーザが共に評価しているアイテムの評価値が全て一致している. 親ユーザが評価しているアイテムの内,α% 以上のアイテムを子ユーザが評価している. 4) 2) から 4) を全てのユーザが親ユーザになるまで繰り返す.

Table 1: dataset and Reduction Rate BeforeReduction IU UI UserValue(ReductionRate) 627 161(74%) 478(24%) ItemValue(ReductionRate) 1682 1046(38%) 264(84%) アイテムの融合手順は, 以下のとおりである. 1) アイテムを被評価件数が多い順にソートする. 2) 被評価件数が最も多い未融合のアイテムを親ア イテムとし, それ以外を子アイテムとする. 3) 親アイテムと各子アイテムの間でユーザからの 評価を比較し, 以下の条件を全て満たす子アイ テムを削除する. 未融合である. ユーザが親アイテムと子アイテムを共に評 価している場合, それらの評価値が一致して いる. 親アイテムを評価しているユーザの内,α% 以上のユーザが子アイテムを評価している. 4) 2) から4) を全てのアイテムが親アイテムになるま で繰り返す. 本実験ではα = 50とした. 圧縮データセットは先に ユーザを融合した場合と先にアイテムを融合した場 合の2 種類が存在する. 2.4 バイクラスタリングとアイテム推薦 圧縮データセットから, 飽和集合マイニングに基づくバイクラスタリング法を用いて, バイクラスタの抽出を行う 3). この方法は,LCM(Linear time Closed itemset Miner) 4) と呼ばれる飽和集合列挙アルゴリズムを用いており, 指定された最小サポート数 ( 最小ユーザ数 ) と最小アイテム数のもとで網羅的なバイクラスタ探索を行うことが出来る. 抽出したバイクラスタに含まれるアイテム i のスコアは 1) 式で定義される 5 ). Score(i) = I q I bi b i U bi 1) I bi ここで,I q は推薦要求ユーザがクエリとして入力したアイテムの集合,I bi はバイクラスタ b i に含まれるアイテムの集合,U bi はバイクラスタ b i に含まれるユーザの集合である. 3 実験 本稿では本手法でどの程度データセットを縮減できたのか純粋に調べるため, 縮減前後のデータセットのサイズを比較する. また, 縮減前後のデータセットでそれぞれバイクラスタを生成し, 生成に要した時間の比較を行う. この時, クエリに基づくバイクラスタリングは行わず, 本手法のみで縮減されたデータセットにおける結果を求める. バイクラスタ生成のパラメータは最小ユーザ数を 20, 最小アイテム数を 5 とする. 計算機環境は Intel Xeon Processor X5680, 3.33GHz,24GB RAM を搭載した PC であり,OS は Fig. 2: Computational time of Bicluster generation Ubuntu 14.04.1 LTS である. 4 結果 考察 Table.1 は縮減前と縮減後のデータセットのサイズを示している. ここでのサイズとは, ユーザ数 アイテム数の評価値行列の要素数を指す. この Table における IU はアイテム ユーザの順に縮減を行ったときの結果を, UI はユーザ アイテムの順に縮減を行った結果を示している. また,Table 内の数値は, 縮減前の要素数, および縮減後の要素数と縮減率を表している.Table.1 から IU,UI ともにデータセットが劇的に縮減されていることが分かる. また, アイテムを先に縮減した IU ではユーザの縮減率がより大きく, ユーザを先に縮減した UI ではアイテムの縮減率がより大きいということが分かる. これは, 先にユーザを融合すると, ユーザの次元が圧縮されアイテム間で融合が起きる可能性が高くなり, 先にアイテムを融合するとアイテムの次元が圧縮されユーザ間で融合が起きる可能性が高くなった等が原因として考えられる.Fig.2 はバイクラスタ生成時間を示している.Fig.2 から縮減前と比べてバイクラスタ総生成時間は大幅に減少したことが分かる. 5 まとめ 今後の課題 本稿では次元圧縮法を導入しデータセットの評価スコアが良く似たユーザ, アイテムを融合する手法を提案した. 訓練データセットを縮減し, バイクラスタ生成時間を削減することが出来た. 今後は, 縮減データセットに対しクエリを用いたバイクラスタリングを行い, 抽出されたバイクラスタを用いて推薦精度を算出する. また, 他の異なるデータセットにも適用し, 本手法の問題点の吟味とさらなる改善へ向けた検討を行っていく. 参考文献 1) 横山直也, 岡田吉史, " クエリに基づくバイクラスタリン グを用いた協調フィルタリング法 ", 日本感性工学会 生命ソフトウェアシンポジウム 2014, 2014. 2) GroupLens_Research: http://www.grouplens.org

3) Y. Okada, W. Fujibuchi, and P. Horton, A biclustering method for gene expression module discovery using a closed itemset enumeration algorithm, IPSJ Trans. on Bioinformatics, 48(SIG 5(TBIO2)), pp.39-48, 2007. 4) 宇野毅明, 有村博紀 : 飽和集合列挙アルゴリズムを用いた大規模データベースからのルール発見手法, 統計数理,vol.53, no.2, pp.317-329, 2005. 5) P.Symeonidis, A. Nanopoulos, and Y.Manolopoulos, Near est Biclusters Collaborative Filtering, 2006.