main.dvi - PDF Free Download

DEIM Forum 2012 E2-4 1 2 2 2 3 4 5 6 7 1 305-8573 1-1-1 2 305-8573 1-1-1 3 305-8573 1-1-1 4 ( ) 141-0031 8-3-6 5 060-0808 8 5 6 101-8430 2-1-2 7 135-0064. 2-3-26 113-0033 7-3-1 305-8550 1-2 Analyzing Correlation of Topics in News and Blogs and their Changes: A Case Study of Topics on Earthquake Disaster Daichi KOIKE 1,DaisukeYOKOMOTO 2,KensakuMAKITA 2, Hiroko SUZUKI 2,Takehito UTSURO 3, Yasuhide KAWADA 4, Masaharu YOSHIOKA 5, Noriko KANDO 6, Tomohiro FUKUHARA 7, Hiroshi NAKAGAWA,YojiKIYOTA, and Yohei SEKI 1 College of Eng. Sys., School of Science and Engineering, University of Tsukuba, Tsukuba 305-8573 Japan 2 Grad. Sch. of Systems and Information Engineering, University of Tsukuba, Tsukuba 305-8573 Japan 3 Faculty of Engineering, Information and Systems, University of Tsukuba, Tsukuba 305-8573 Japan 4 Navix Co., Ltd. Tokyo 141-0031, Japan 5 Graduate School of Information Science and Technology, Hokkaido University, Sapporo, 060-0808, Japan 6 National Institute of Informatics, Tokyo 101-8430, Japan 7 National Institute of Advanced Industrial Science and Technology, Tokyo 135-0064 Japan Information Technology Center, University of Tokyo, Tokyo 113-0033, Japan Faculty of Library, Information and Media Science, University of Tsukuba, Tsukuba 305-8550 Japan Key words news, blog, topic, time series analysis

1. [8], [9], [12] [12] Wikipedia Wikipedia [8] [9] [3], [11] [2], [4], [6] 2011 3 12 1 2011 3 12 ( LDA (Latent Dirichlet Allocation) [1] ) (2. 1 ) d d P (z n d) z n (2. 2 ) z n P (w z n) ( Wikipedia ) z n [10] Wikipedia [13](3. ) ( ) 2011 3 11 12 31 NHK 1 2. 2. 1 (LDA; Latent Dirichlet Allocation) [1] LDA w K z n (n = 1,...,K) w P (w z n)(w V ) b z n P (z n b) (n =1,...,K) GibbsLDA++ 2 LDA α β GibbsLDA++ α =50/K β =0.1 LDA K 50 100 50 Gibbs 2,000 2. 2 D K 1 d (d D) z n (n =1,...,K) D(z n)( ) D(z n)= d D z n = argmax P (z u d) z u (u=1,...,k) 1 23 NII ( ) No.74 2 http://gibbslda.sourceforge.net/

1 d d 3. Wikipedia 3. 1 1 [10] d ( C) q P (d q) P (q d)p (d) P (d q) = (1) P (q) P (q) d d P (d) (1) P (d q) = P (q d)p (d) P (q) P (q d)p (d) P (q d) d θ d q P (q θ d ) w V = {w 1,...,w V } q c(w i,q) P (q θ d )= w i V P (w θ d ) c(w i,q) θ d 1 d P ML(w i θ d ) C P ML(w i θ C) d P ML(w i θ d ) P ML(w i θ d ) = c(wi,d) d c(w i,d) d w i d d C P ML(w i θ C) P ML(w θ C) = d C c(w i,d) d C d C (3) (4) (2) (3) (4)

図 2 トピックの抜粋およびニュース記事ブログ記事の典型例 λ [0, 1] を用いて線形補間法による推定値は次のように定義そしてクエリ尤度モデルに基づいて文書 A をクエリとみなして Wikipedia エントリ集合 (A) のランキングを行うされる P (wi θd ) = λpm L (wi θd ) + (1 λ)pm L (wi θc ) (5) 上式を用いることで式 (2) のクエリ尤度 P (q θd ) を求めることができる具体的には q = A d = E (A) C = ( ) として式 (2) の P (A θe ) を求める以上のように推定した P (A θe ) を用いることで文書 A に付与する話題ラベル集合 L(A) を以下のように決定する t(e) L(A) の選定手順 3. 2 文書への話題ラベルの付与本節では前節で述べたクエリ尤度モデルの考え方を用いて対象文書集合の個々の文書に対して話題ラベルを付与する手法について説明するなお本節以降では文書を表す記号として E (A) P (A θe ) P (A θe ) > = α max P (A E) の大きいものから順に 10 個まで選ぶ E (A) 具体的には Wikipedia エントリ集合 (A) における P (A θe ) A を用いる本研究では文書中に出現する Wikipedia エントリタイトルの最大値に対してその α 倍以上の P (A θe ) を持つ Wikipedia から文書の話題ラベルとして相応しいものを自動選定するエントリのタイトル t(e) を文書 A の話題ラベルとして抽出そのために文書をクエリとみなして文書中にエントリタイするなお本論文では α = 0.6 としたまた 1 文書に付与トルが出現した Wikipedia エントリ集合のランキングを行うする話題ラベルの数は最大 10 個とし P (A θe ) の大きいもはじめに対象文書集合の個々の文書 A は文書中に出現した Wikipedia エントリタイトルの集合として表現される A = t(e1 ),..., t(en ) まず対象文書集合においてエントリタイトル t(e) が Wikipedia エントリ集合 ( ) を作成する E 4. ニュースブログ間の話題に関する分析 4. 1 分析対象 10 個以上の文書に出現した Wikipedia エントリを集めて ( ) = のから順に上位 10 個までのエントリタイトルを L(A) とした df(, t(e) ) > = 10 次に文書 A にエントリタイトル t(e) が出現しかつ Wikipedia エントリ集合 ( ) に含まれる Wikipedia エントリ 4. 1. 1 ニュース記事ニュース記事としては 2011 年 3 月 11 日から 12 月 29 日までの日付のものを日経新聞注 3 朝日新聞注 4 読売新聞注 5 の各新聞社のサイトから収集した 70,005 記事 23,237 記事および 50,286 記事の合計 143,528 記事を用いたその後震災関係の福島県放射能津波東京電力原子力発電所放 E を抽出し文書 A に対する話題ラベルの候補集合に対応する Wikipedia エントリ集合 (A) を作成する (A) = E ( ) t(e) A 注 3 http://www.nikkei.com/ 注 4 http://www.asahi.com/ 注 5 http://www.yomiuri.co.jp/

3 ( : 733 : 656 ) 7 Wikipedia 11,006 4,988 8,368 24,458 4. 1. 2 7 t 0 t 0 Yahoo! Search BOSS API 6 6 7 2011 11 12 2011 3 11 1,000 URL 200 t 0 t 0 Wikipedia 6 http://developer.yahoo.com/search/boss/ 7 fc2.com yahoo.co.jp ameblo.jp goo.ne.jp livedoor.jp hatena. ne.jp 34,826 4. 2 59,284 LDA 8 2 50 P (w z n) P (w z n) 7 3 6 3. Wikipedia P (w z n) 8 LDA [7]

4 ( : 103 : 835 ) 5 ( : 1,412 : 165 ) ( 3 4) ( 5) ( 4 6) 3

6 ( : 54 : 1,025 ) 4 7 4 12 6 12 5 5. ( ) 2011 3 11 12 31 NHK ( ) ( ) Wikipedia 32,847 4. 1. 1 ( ) 50 7 NHK ( ) 6. [14] (EvoHDP; evolutionary hierarchical Dirichlet process) LDA

7 ( ) Wikipedia [5] Twitter Twitter 7. 2011 3 12 [1] D. M. Blei, A. Y. Ng, and M. I. Jordan. Latent Dirichlet allocation. Journal of Machine Learning Research, Vol.3, pp. 993 1022, 2003. [2] M. Gamon, S. Basu, D. Belenko, D. Fisher, M. Hurst, and A. C. Konig. Blews: Using blogs to provide context for news articles. In Proc. ICWSM, pp. 60 67, 2008. [3],,. blog. 11, pp. 1030 1033, 2005. [4],. Web., WI2-2008-52, pp. 11 12, 2008. [5],,,,,,. Twitter. WebDB Forum 2011, 2011. [6],,,. Blogger Web. 19, 2005. [7],,,,,.. 26, 2012. [8],,,,,. Wikipedia., NLC2011-18, pp. 95 100, 2011. [9],,,.. 3 DEIM, 2011. [10] J. M. Ponte and W. B. Croft. A language modeling approach to information retrieval. In Proc. 21st SIGIR, pp. 275 281, 1998. [11],,,,.. 3 DEIM, 2011. [12],,,,,,,,,. Wikipedia. 3 DEIM, 2011. [13],,,,,.. 4 DEIM, 2012. [14] J. Zhang, Y. Song, C. Zhang, and S. Liu. Evolutionary hierarchical Dirichlet processes for multiple correlated timevarying corpora. In Proc. 16th SIGKDD, pp. 1079 10881, 2010.