PowerPoint プレゼンテーション

Similar documents
nlp1-12.key

時空間特徴を用いた Web動画からの特定動作対応ショットの 自動抽出

P.37 P.816 P.17 P.1819 contents 1 2

Microsoft PowerPoint - pr_12_template-bs.pptx

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社


NLP プログラミング勉強会 5 HMM による品詞推定 自然言語処理プログラミング勉強会 5 隠れマルコフモデルによる品詞推定 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1

Rの基本操作

Automatic Collection of Web Video Shots Corresponding to Specific Actions using Web Images

2 21, Twitter SNS [8] [5] [7] 2. 2 SNS SNS Cheng [2] Twitter [6] Backstrom [1] Facebook 3 Jurgens

10_細川直史.indd

PowerPoint プレゼンテーション

演習 レシピテキストの係り受け解析

Learning Bayesian Network from data 本論文はデータから大規模なベイジアン ネットワークを構築する TPDA(Three Phase Dependency Analysis) のアルゴリズムを記述 2002 年の発表だが 現在も大規模用 BN モデルのベンチマークと

コンピュータ応用・演習 情報処理システム

Microsoft PowerPoint - ad11-09.pptx

概要 単語の分散表現に基づく統計的機械翻訳の素性を提案 既存手法の FFNNLM に CNN と Gate を追加 dependency- to- string デコーダにおいて既存手法を上回る翻訳精度を達成

ShikenPASS あなたは認証を取得するのを助ける人気認定試験向け関連勉強資料の提供者 ShikenPASS

2

GET Vol.8

main.dvi

起業本-入稿.indd

電子情報通信学会ワードテンプレート (タイトル)

Session 4 : Security II

1 Web [2] Web [3] [4] [5], [6] [7] [8] S.W. [9] 3. MeetingShelf Web MeetingShelf MeetingShelf (1) (2) (3) (4) (5) Web MeetingShelf

PowerPoint プレゼンテーション

NLP プログラミング勉強会 6 かな漢字変換 自然言語処理プログラミング勉強会 6 - かな漢字変換 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1

SNS Flickr Flickr Flickr SNS 2. SNS Twitter [2] Flickr [3] [4] Twitter Twitter Flickr Flickr Flickr Flickr Flickr Twitter 1 document 3. Flickr API Fli

平成17年度大学院 知識システム特論

二項ソフトクラスタリング分析例 この資料では Visual Mining Studio のアイコン Dyadic Soft Clustering を使って 二項ソフトクラスタリング 分析をする方法を説明します 二項ソフトクラスタリングは一般的には PLSI, PLSA などの名前で知られています 株

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

<4D F736F F F696E74202D2093B CC8BE68AD B B82CC8AD AF95FB96405F88EA94CA ED28CFC82AF82C995D28F575F826C A6D94462E >

Lesson 77 My favorite subject is science Read the following conversations with your tutor 講師と次の会話を読みましょう Art History 1 A: Whatʼs your favorite subject

tokyo_t3.pdf

ボルツマンマシンの高速化

Presentation Title

官報(号外第197号)

スライド 1

2015 contents

Microsoft PowerPoint - mp11-06.pptx

リスク分析・シミュレーション

クエリの作成が楽になるUDF

Autodesk Inventor Skill Builders Autodesk Inventor 2010 構造解析の精度改良 メッシュリファインメントによる収束計算 予想作業時間:15 分 対象のバージョン:Inventor 2010 もしくはそれ以降のバージョン シミュレーションを設定する際

使用する前に

1 2. Nippon Cataloging Rules NCR [6] (1) 5 (2) 4 3 (3) 4 (4) 3 (5) ISSN 7 International Standard Serial Number ISSN (6) (7) 7 16 (8) ISBN ISSN I

<4D F736F F F696E74202D20352D335F8D5C90AC CF909482CC90B690AC82C695D28F572E707074>

屋内 3 次元 測位 + 地図 総合技術開発 現状 屋内 3 次元測位統一的な測位手法 情報交換手順がなく 共通の位置情報基盤が効率的に整備されない 技術開発 屋内外のシームレス測位の実用化 (1) 都市部での衛星測位の適用範囲拡大 (2) パブリックタグ 屋内測位の標準仕様策定 効果 3 次元屋内

(VKIR) VKIR VKIR DCT (R) (G) (B) Ward DCT i

Transcription:

Session 24 : Social Contents 担当 : 大西誠, 天笠俊之, 駒水孝裕 筑波大学 ICDE2014 勉強会

[24 1] We Can Learn Your #Hashtags: Connecting Tweets to Explicit Topics Wei Feng, Jianyong Wang (Department of Computer Science and Technology, Tsinghua University Beijing, China) 背景 ツイートに適切なハッシュタグを付けるツイート分類, ツイート検索, イベント検出 追跡 ツイートに対して適切なハッシュタグ推薦を行いたい 問題点 よく似た意味のハッシュタグが既に使われていないかを調べる必要がある ユーザ毎にハッシュタグの付け方に好みがある 目的 ツイートを行ったユーザの好みを考慮した上で, 適切なハッシュタグ推薦を行う

提案手法 トレーニングセットを用意して以下の 3 つの値を計算しておく 文書関連度 : Rel(d,h) 単語, ウェブサイト, メンション と ハッシュタグ によるスコア ユーザ関連度 : Rel u, h ユーザ ID, フォロワー, ユーザの住所 と ハッシュタグ によるスコア ハッシュタグの特徴 : x 文字数, 出現頻度, 上昇傾向などの特徴を数値化したもの ユーザ u がツイート d を投稿した時のハッシュタグ h のスコア r udh r udh = θ T x + Rel u, h + Rel(d, h) 重み 重みはトレーニングセットを使って, 確率的勾配降下法により最適なものを求める

実験結果 データセット 結果 データセット名トレーニングセットテストセット Week-Day 一週間分一日分 Week-Week 一週間分一週間分 Month-Week 一か月分一週間分 比較手法 TensorFac : テンソル分解による手法 GraphRec : グラフベースの手法 UserLevelRec : ユーザーの情報のみを考慮した既存手法 Baseline+ : GraphRec+UserLevelRec Content-based : 文書関連度のみ User-based : ユーザ関連度のみ Hybrid : 文書関連度 + ユーザ関連度 Hybrid+ : 文書関連度 + ユーザ関連度 + ハッシュタグの特徴 提案手法が最も精度が良かった 一週間分のトレーニングセットで一日分のテストセットを予測した場合に最も精度が良かった ( 論文から引用 ) MAP(Mean Average Precision)= 平均適合率の平均値

Interac8ve hierarchical tag clouds for summarizing spa8otemporal social contents W. Kang, A. K. H. Tung, F. Zhao, X. Li (NUS) 目的 ソーシャルネットワークコンテンツに対して, 対話的なブラウジングが可能な階層的タグクラウドを高速に生成. 技術的貢献 コンテンツの要約に, 形式概念分析 (FCA, Formal Concept Analysis) を適用. LDA 等の手法は, 計算量の点から大規模データには適用困難. FCA を, 大規模かつ疎なコンテンツに適用. 大規模データ処理のために,2 フェーズからなる分割 併合アルゴリズム Versta を提案. 24: Social Contents( 天笠 @ 筑波大 ) 2

Interac8ve hierarchical tag clouds for summarizing spa8otemporal social contents W. Kang, A. K. H. Tung, F. Zhao, X. Li (NUS) 入力 ソーシャルネットワークコンテンツの集合. ストップワード除去済みの単語集合. 形式概念分析 (FCA) の適用 複数の属性を持つオブジェクト集合から概念階層 ( 概念束 ) を導出. オブジェクトのクラスタリング / 分類等にも応用可能. 本論文では 形式概念の定義を緩和 ( 要素に 1 以外の要素を含むような形式概念を許す ). 計算量が大きいため, 行列のスパース性を考慮し, 探索空間を削減した効率の良いバイクラスタリングアルゴリズムを提案. オブジェクト集合 Red Fruit Veg Apple x x Tomato x x Orange x 形式概念 オブジェクト属性 ({A, T, O}, {}) ({A, T}, {R}) ({A, O}, {F}) ({A}, {R, F}) ({T}, {R, V}) ({}, {R, F, V}) 概念束 ({A, T, O}, {}) ({A, T}, {R}) ({A}, {R, F}) ({}, {R, F, V}) ({A, O}, {F}) ({T}, {R, V}) 24: Social Contents( 天笠 @ 筑波大 ) 3

Interac8ve hierarchical tag clouds for summarizing spa8otemporal social contents W. Kang, A. K. H. Tung, F. Zhao, X. Li (NUS) 更なる高速化 : ディスクベースの分割 - 併合アルゴリズム. 分割 日ごとにデータを分割した上で, 空間索引 (kd 木等 ) で索引付け. 前処理 パーティション毎にバイクラスタリングを適用. パーティション毎に hlda を適用. トピック階層を導出. オンライン処理 ユーザから入力された, 時空間情報と重複するパーティションのバイクラスタとトピック階層を併合. 24: Social Contents( 天笠 @ 筑波大 ) 4

Interac8ve hierarchical tag clouds for summarizing spa8otemporal social contents W. Kang, A. K. H. Tung, F. Zhao, X. Li (NUS) 評価実験 データセット :TwiZer ストリーミング API で収集した TwiZer データ. 平均 4.1M- 4.3M ツイート / 日. 環境 :Java, MySQL 5.1.60, Windows 2003 server. 比較手法 バイクラスタリング : OABicluster, FLOC トピックモデル :LDA, hlda 形式概念の最小サイズ 3 または 5 の場合の処理時間 / メモリサイズ 24: Social Contents( 天笠 @ 筑波大 ) 5

R24-3: Effective Location Identification from Microblogs Guoliang Li, Jun Hu, Jianhua Feng (Tsinghua Univ.), Kian-lee Tan (NUS) マイクロブログからマイクロブログとユーザの位置推定 マイクロブログサービスに正確な位置を登録するユーザが少ない (16% [17]) 位置がわかると位置に基づく情報推薦などが可能になる 提案手法 (GLITTER) : ユーザの位置推定手法 ユーザの位置 ß interested locations ( おそらく ) よく行く場所, 行きたい場所 1. 個々のマイクロブログの位置 (POI) を推定 (fuzzy manner, top-k) POI = Point of Interest, e.g., 映画館, ショッピングモール 2. 複数のマイクロブログの位置からユーザの位置を推定 (top-k) マイクロブログの位置は POI であるのに対し, ユーザの位置は POI でない è 推定したマイクロブログの POI からユーザの位置を推定する 3. 他のマイクロブログからマイクロブログの位置推定を改良 Olympia theater is so nice. + Manhattan is my favorite place. è Olympia theater in Manhattan, New York 担当 : 駒水 ( 筑波大 )

R24-3: Effective Location Identification from Microblogs Guoliang Li, Jun Hu, Jianhua Feng (Tsinghua Univ.), Kian-lee Tan (NUS) 概観 図は論文から引用 POI から事前に地理的な階層構造を抽出, 木構造で管理 POIs(Yago などから予め取得 ) Film School, Subset blvd, Hollywood, Los Angeles, California 1. マイクロブログの位置を推定 (m i に対応する p j を見つける ) 地理的なエンティティを含むマイクロブログを木のノードに関連付ける m 3 = I was able to get a tour at Film School, Subset blvd. 2. マイクロブログと地理エンティティの類似度を基に 適当な top-k 祖先地理エンティティをユーザ位置として推定 ( 詳しくは論文で ) 3. 推定したユーザの位置を参考にマイクロブログの位置を修正 担当 : 駒水 ( 筑波大 )

R24-3: Effective Location Identification from Microblogs Guoliang Li, Jun Hu, Jianhua Feng (Tsinghua Univ.), Kian-lee Tan (NUS) 実験 データセット TwiAer (3.5k users, 2.2m microblogs, 635 microblogs/user) Foursquare (21k users, 1m microblogs, 48 microblogs/user) 評価方法 :Precision, Recall, F- measure 図は論文から引用 マイクロブログ : 緯度経度が付いているものに対して, 推定位置が 100m 以内なら正解とする ユーザ : ランダムに選んだユーザに top- k interested locatons を聞いて正解とする 担当 : 駒水 ( 筑波大 )