DEIM Forum 2012 E2-4 1 2 2 2 3 4 5 6 7 1 305-8573 1-1-1 2 305-8573 1-1-1 3 305-8573 1-1-1 4 ( ) 141-0031 8-3-6 5 060-0808 8 5 6 101-8430 2-1-2 7 135-0064. 2-3-26 113-0033 7-3-1 305-8550 1-2 Analyzing Correlation of Topics in News and Blogs and their Changes: A Case Study of Topics on Earthquake Disaster Daichi KOIKE 1,DaisukeYOKOMOTO 2,KensakuMAKITA 2, Hiroko SUZUKI 2,Takehito UTSURO 3, Yasuhide KAWADA 4, Masaharu YOSHIOKA 5, Noriko KANDO 6, Tomohiro FUKUHARA 7, Hiroshi NAKAGAWA,YojiKIYOTA, and Yohei SEKI 1 College of Eng. Sys., School of Science and Engineering, University of Tsukuba, Tsukuba 305-8573 Japan 2 Grad. Sch. of Systems and Information Engineering, University of Tsukuba, Tsukuba 305-8573 Japan 3 Faculty of Engineering, Information and Systems, University of Tsukuba, Tsukuba 305-8573 Japan 4 Navix Co., Ltd. Tokyo 141-0031, Japan 5 Graduate School of Information Science and Technology, Hokkaido University, Sapporo, 060-0808, Japan 6 National Institute of Informatics, Tokyo 101-8430, Japan 7 National Institute of Advanced Industrial Science and Technology, Tokyo 135-0064 Japan Information Technology Center, University of Tokyo, Tokyo 113-0033, Japan Faculty of Library, Information and Media Science, University of Tsukuba, Tsukuba 305-8550 Japan Key words news, blog, topic, time series analysis
1. [8], [9], [12] [12] Wikipedia Wikipedia [8] [9] [3], [11] [2], [4], [6] 2011 3 12 1 2011 3 12 ( LDA (Latent Dirichlet Allocation) [1] ) (2. 1 ) d d P (z n d) z n (2. 2 ) z n P (w z n) ( Wikipedia ) z n [10] Wikipedia [13](3. ) ( ) 2011 3 11 12 31 NHK 1 2. 2. 1 (LDA; Latent Dirichlet Allocation) [1] LDA w K z n (n = 1,...,K) w P (w z n)(w V ) b z n P (z n b) (n =1,...,K) GibbsLDA++ 2 LDA α β GibbsLDA++ α =50/K β =0.1 LDA K 50 100 50 Gibbs 2,000 2. 2 D K 1 d (d D) z n (n =1,...,K) D(z n)( ) D(z n)= d D z n = argmax P (z u d) z u (u=1,...,k) 1 23 NII ( ) No.74 2 http://gibbslda.sourceforge.net/
1 d d 3. Wikipedia 3. 1 1 [10] d ( C) q P (d q) P (q d)p (d) P (d q) = (1) P (q) P (q) d d P (d) (1) P (d q) = P (q d)p (d) P (q) P (q d)p (d) P (q d) d θ d q P (q θ d ) w V = {w 1,...,w V } q c(w i,q) P (q θ d )= w i V P (w θ d ) c(w i,q) θ d 1 d P ML(w i θ d ) C P ML(w i θ C) d P ML(w i θ d ) P ML(w i θ d ) = c(wi,d) d c(w i,d) d w i d d C P ML(w i θ C) P ML(w θ C) = d C c(w i,d) d C d C (3) (4) (2) (3) (4)
図 2 トピックの抜粋およびニュース記事 ブログ記事の典型例 λ [0, 1] を用いて 線形補間法による推定値は次のように定義 そして クエリ尤度モデルに基づいて 文書 A をクエリと みなして Wikipedia エントリ集合 (A) のランキングを行う される P (wi θd ) = λpm L (wi θd ) + (1 λ)pm L (wi θc ) (5) 上式を用いることで 式 (2) のクエリ尤度 P (q θd ) を求めるこ とができる 具体的には q = A d = E (A) C = ( ) として 式 (2) の P (A θe ) を求める 以上のように推定した P (A θe ) を用いることで 文書 A に 付与する話題ラベル集合 L(A) を以下のように決定する t(e) L(A) の選定手順 3. 2 文書への話題ラベルの付与 本節では 前節で述べたクエリ尤度モデルの考え方を用いて 対象文書集合の個々の文書に対して話題ラベルを付与する手法 について説明する なお本節以降では 文書を表す記号として E (A) P (A θe ) P (A θe ) > = α max P (A E) の大きいものから順に 10 個まで選ぶ E (A) 具体的には Wikipedia エントリ集合 (A) における P (A θe ) A を用いる 本研究では 文書中に出現する Wikipedia エントリタイトル の最大値に対して その α 倍以上の P (A θe ) を持つ Wikipedia から 文書の話題ラベルとして相応しいものを自動選定する エントリのタイトル t(e) を 文書 A の話題ラベルとして抽出 そのために 文書をクエリとみなして 文書中にエントリタイ する なお 本論文では α = 0.6 とした また 1 文書に付与 トルが出現した Wikipedia エントリ集合のランキングを行う する話題ラベルの数は最大 10 個とし P (A θe ) の大きいも はじめに 対象文書集合 の個々の文書 A は 文書中に出 現した Wikipedia エントリタイトルの集合として表現される A = t(e1 ),..., t(en ) まず 対象文書集合 において エントリタイトル t(e) が Wikipedia エントリ集合 ( ) を作成する E 4. ニュース ブログ間の話題に関する分析 4. 1 分 析 対 象 10 個以上の文書に出現した Wikipedia エントリを集めて ( ) = のから順に上位 10 個までのエントリタイトルを L(A) とした df(, t(e) ) > = 10 次 に 文 書 A に エ ン ト リ タ イ ト ル t(e) が 出 現 し か つ Wikipedia エントリ集合 ( ) に含まれる Wikipedia エントリ 4. 1. 1 ニュース記事 ニュース記事としては 2011 年 3 月 11 日から 12 月 29 日ま での日付のものを 日経新聞 注 3 朝日新聞 注 4 読売新聞 注 5 の 各新聞社のサイトから収集した 70,005 記事 23,237 記事 お よび 50,286 記事の合計 143,528 記事を用いた その後 震災 関係の 福島県 放射能 津波 東京電力 原子力発電所 放 E を抽出し 文書 A に対する話題ラベルの候補集合に対応す る Wikipedia エントリ集合 (A) を作成する (A) = E ( ) t(e) A 注 3 http://www.nikkei.com/ 注 4 http://www.asahi.com/ 注 5 http://www.yomiuri.co.jp/
3 ( : 733 : 656 ) 7 Wikipedia 11,006 4,988 8,368 24,458 4. 1. 2 7 t 0 t 0 Yahoo! Search BOSS API 6 6 7 2011 11 12 2011 3 11 1,000 URL 200 t 0 t 0 Wikipedia 6 http://developer.yahoo.com/search/boss/ 7 fc2.com yahoo.co.jp ameblo.jp goo.ne.jp livedoor.jp hatena. ne.jp 34,826 4. 2 59,284 LDA 8 2 50 P (w z n) P (w z n) 7 3 6 3. Wikipedia P (w z n) 8 LDA [7]
4 ( : 103 : 835 ) 5 ( : 1,412 : 165 ) ( 3 4) ( 5) ( 4 6) 3
6 ( : 54 : 1,025 ) 4 7 4 12 6 12 5 5. ( ) 2011 3 11 12 31 NHK ( ) ( ) Wikipedia 32,847 4. 1. 1 ( ) 50 7 NHK ( ) 6. [14] (EvoHDP; evolutionary hierarchical Dirichlet process) LDA
7 ( ) Wikipedia [5] Twitter Twitter 7. 2011 3 12 [1] D. M. Blei, A. Y. Ng, and M. I. Jordan. Latent Dirichlet allocation. Journal of Machine Learning Research, Vol.3, pp. 993 1022, 2003. [2] M. Gamon, S. Basu, D. Belenko, D. Fisher, M. Hurst, and A. C. Konig. Blews: Using blogs to provide context for news articles. In Proc. ICWSM, pp. 60 67, 2008. [3],,. blog. 11, pp. 1030 1033, 2005. [4],. Web., WI2-2008-52, pp. 11 12, 2008. [5],,,,,,. Twitter. WebDB Forum 2011, 2011. [6],,,. Blogger Web. 19, 2005. [7],,,,,.. 26, 2012. [8],,,,,. Wikipedia., NLC2011-18, pp. 95 100, 2011. [9],,,.. 3 DEIM, 2011. [10] J. M. Ponte and W. B. Croft. A language modeling approach to information retrieval. In Proc. 21st SIGIR, pp. 275 281, 1998. [11],,,,.. 3 DEIM, 2011. [12],,,,,,,,,. Wikipedia. 3 DEIM, 2011. [13],,,,,.. 4 DEIM, 2012. [14] J. Zhang, Y. Song, C. Zhang, and S. Liu. Evolutionary hierarchical Dirichlet processes for multiple correlated timevarying corpora. In Proc. 16th SIGKDD, pp. 1079 10881, 2010.