Session 24 : Social Contents 担当 : 大西誠, 天笠俊之, 駒水孝裕 筑波大学 ICDE2014 勉強会
[24 1] We Can Learn Your #Hashtags: Connecting Tweets to Explicit Topics Wei Feng, Jianyong Wang (Department of Computer Science and Technology, Tsinghua University Beijing, China) 背景 ツイートに適切なハッシュタグを付けるツイート分類, ツイート検索, イベント検出 追跡 ツイートに対して適切なハッシュタグ推薦を行いたい 問題点 よく似た意味のハッシュタグが既に使われていないかを調べる必要がある ユーザ毎にハッシュタグの付け方に好みがある 目的 ツイートを行ったユーザの好みを考慮した上で, 適切なハッシュタグ推薦を行う
提案手法 トレーニングセットを用意して以下の 3 つの値を計算しておく 文書関連度 : Rel(d,h) 単語, ウェブサイト, メンション と ハッシュタグ によるスコア ユーザ関連度 : Rel u, h ユーザ ID, フォロワー, ユーザの住所 と ハッシュタグ によるスコア ハッシュタグの特徴 : x 文字数, 出現頻度, 上昇傾向などの特徴を数値化したもの ユーザ u がツイート d を投稿した時のハッシュタグ h のスコア r udh r udh = θ T x + Rel u, h + Rel(d, h) 重み 重みはトレーニングセットを使って, 確率的勾配降下法により最適なものを求める
実験結果 データセット 結果 データセット名トレーニングセットテストセット Week-Day 一週間分一日分 Week-Week 一週間分一週間分 Month-Week 一か月分一週間分 比較手法 TensorFac : テンソル分解による手法 GraphRec : グラフベースの手法 UserLevelRec : ユーザーの情報のみを考慮した既存手法 Baseline+ : GraphRec+UserLevelRec Content-based : 文書関連度のみ User-based : ユーザ関連度のみ Hybrid : 文書関連度 + ユーザ関連度 Hybrid+ : 文書関連度 + ユーザ関連度 + ハッシュタグの特徴 提案手法が最も精度が良かった 一週間分のトレーニングセットで一日分のテストセットを予測した場合に最も精度が良かった ( 論文から引用 ) MAP(Mean Average Precision)= 平均適合率の平均値
Interac8ve hierarchical tag clouds for summarizing spa8otemporal social contents W. Kang, A. K. H. Tung, F. Zhao, X. Li (NUS) 目的 ソーシャルネットワークコンテンツに対して, 対話的なブラウジングが可能な階層的タグクラウドを高速に生成. 技術的貢献 コンテンツの要約に, 形式概念分析 (FCA, Formal Concept Analysis) を適用. LDA 等の手法は, 計算量の点から大規模データには適用困難. FCA を, 大規模かつ疎なコンテンツに適用. 大規模データ処理のために,2 フェーズからなる分割 併合アルゴリズム Versta を提案. 24: Social Contents( 天笠 @ 筑波大 ) 2
Interac8ve hierarchical tag clouds for summarizing spa8otemporal social contents W. Kang, A. K. H. Tung, F. Zhao, X. Li (NUS) 入力 ソーシャルネットワークコンテンツの集合. ストップワード除去済みの単語集合. 形式概念分析 (FCA) の適用 複数の属性を持つオブジェクト集合から概念階層 ( 概念束 ) を導出. オブジェクトのクラスタリング / 分類等にも応用可能. 本論文では 形式概念の定義を緩和 ( 要素に 1 以外の要素を含むような形式概念を許す ). 計算量が大きいため, 行列のスパース性を考慮し, 探索空間を削減した効率の良いバイクラスタリングアルゴリズムを提案. オブジェクト集合 Red Fruit Veg Apple x x Tomato x x Orange x 形式概念 オブジェクト属性 ({A, T, O}, {}) ({A, T}, {R}) ({A, O}, {F}) ({A}, {R, F}) ({T}, {R, V}) ({}, {R, F, V}) 概念束 ({A, T, O}, {}) ({A, T}, {R}) ({A}, {R, F}) ({}, {R, F, V}) ({A, O}, {F}) ({T}, {R, V}) 24: Social Contents( 天笠 @ 筑波大 ) 3
Interac8ve hierarchical tag clouds for summarizing spa8otemporal social contents W. Kang, A. K. H. Tung, F. Zhao, X. Li (NUS) 更なる高速化 : ディスクベースの分割 - 併合アルゴリズム. 分割 日ごとにデータを分割した上で, 空間索引 (kd 木等 ) で索引付け. 前処理 パーティション毎にバイクラスタリングを適用. パーティション毎に hlda を適用. トピック階層を導出. オンライン処理 ユーザから入力された, 時空間情報と重複するパーティションのバイクラスタとトピック階層を併合. 24: Social Contents( 天笠 @ 筑波大 ) 4
Interac8ve hierarchical tag clouds for summarizing spa8otemporal social contents W. Kang, A. K. H. Tung, F. Zhao, X. Li (NUS) 評価実験 データセット :TwiZer ストリーミング API で収集した TwiZer データ. 平均 4.1M- 4.3M ツイート / 日. 環境 :Java, MySQL 5.1.60, Windows 2003 server. 比較手法 バイクラスタリング : OABicluster, FLOC トピックモデル :LDA, hlda 形式概念の最小サイズ 3 または 5 の場合の処理時間 / メモリサイズ 24: Social Contents( 天笠 @ 筑波大 ) 5
R24-3: Effective Location Identification from Microblogs Guoliang Li, Jun Hu, Jianhua Feng (Tsinghua Univ.), Kian-lee Tan (NUS) マイクロブログからマイクロブログとユーザの位置推定 マイクロブログサービスに正確な位置を登録するユーザが少ない (16% [17]) 位置がわかると位置に基づく情報推薦などが可能になる 提案手法 (GLITTER) : ユーザの位置推定手法 ユーザの位置 ß interested locations ( おそらく ) よく行く場所, 行きたい場所 1. 個々のマイクロブログの位置 (POI) を推定 (fuzzy manner, top-k) POI = Point of Interest, e.g., 映画館, ショッピングモール 2. 複数のマイクロブログの位置からユーザの位置を推定 (top-k) マイクロブログの位置は POI であるのに対し, ユーザの位置は POI でない è 推定したマイクロブログの POI からユーザの位置を推定する 3. 他のマイクロブログからマイクロブログの位置推定を改良 Olympia theater is so nice. + Manhattan is my favorite place. è Olympia theater in Manhattan, New York 担当 : 駒水 ( 筑波大 )
R24-3: Effective Location Identification from Microblogs Guoliang Li, Jun Hu, Jianhua Feng (Tsinghua Univ.), Kian-lee Tan (NUS) 概観 図は論文から引用 POI から事前に地理的な階層構造を抽出, 木構造で管理 POIs(Yago などから予め取得 ) Film School, Subset blvd, Hollywood, Los Angeles, California 1. マイクロブログの位置を推定 (m i に対応する p j を見つける ) 地理的なエンティティを含むマイクロブログを木のノードに関連付ける m 3 = I was able to get a tour at Film School, Subset blvd. 2. マイクロブログと地理エンティティの類似度を基に 適当な top-k 祖先地理エンティティをユーザ位置として推定 ( 詳しくは論文で ) 3. 推定したユーザの位置を参考にマイクロブログの位置を修正 担当 : 駒水 ( 筑波大 )
R24-3: Effective Location Identification from Microblogs Guoliang Li, Jun Hu, Jianhua Feng (Tsinghua Univ.), Kian-lee Tan (NUS) 実験 データセット TwiAer (3.5k users, 2.2m microblogs, 635 microblogs/user) Foursquare (21k users, 1m microblogs, 48 microblogs/user) 評価方法 :Precision, Recall, F- measure 図は論文から引用 マイクロブログ : 緯度経度が付いているものに対して, 推定位置が 100m 以内なら正解とする ユーザ : ランダムに選んだユーザに top- k interested locatons を聞いて正解とする 担当 : 駒水 ( 筑波大 )