DEIM Forum 2014 B2-4 305 8550 1 2 305 8550 1 2 E-mail: {yamaguchi,yamahei,satoh}@ce.slis.tsukuba.ac.jp Twitter Twitter 2 1 1. Twitter 2006 Twitter 2012 5 [1]Twitter RT RT Twitter Twitter RT Twitter 2 1 2. 3. 4. 5. 6. 2. RT [2] [3] [4] [5] [6] Kwak [2] Twitter RT RT RT [3] Kwak RT RT 84.4% RT Twitter Ghosh [4] time-interval user RT RT automatic/robotic activitynewsworthy information disseminationadvertising and promotioncampaignsparasitic advertisements 5 Chalmers [5] Yang [6] Twitter 1 30 Twitter Web SNS Danescu-Niculescu-Mizil [7] Web 2-gram. linguisically innovative learning phase conservative phase
2 Dror [8] Kawale [9] 3. T t t 1 t t i a i,t T A i = (a i,1, a i,2,..., a i,t,..., a i,t ) i X i X i = (x i,2, x i,3,..., x i,t,..., x i,t ) x i,t = a i,t a i,t 1 x i,t i(1 < = i < = I) t(2 < = t < = T ) X i Dynamic Time Warping(DTW) [10] DTW 2 i X i j X j DTW dtw(x i, X j ) ij k-medoids k-medoids k-means medoid medoid k-medoids k-means k-medoids K k-medoids 1 K medoid 2 medoid 3 medoid 4 medoid (2) 1 2011 11 16 1 1,540 2011 11 16 2013 01 22 62 2 () 4. 4. 1 Long Short 500 500 433.98 34.71 426.07 6.19 389.59 0.00 10.63 9.54 2011 11 1 [11] Twitter Search API 1 ja 2 1 2011 11 16 1 1,540 2011 11 16 2013 1 22 7 62 1,540 1 50 400 2 2 500 Long 500 Short Long 1 433.98 Short 1 34.71 4. 2 k-medoids 1 30 1http://search.twitter.com/search.json 2 2,000km
1 3 SSE (Short) 3 (Long) 1 238 2 162 3 50 4 41 5 9 2 SSE (Long) (1) Sum of Squared Error(SSE) 4 62 (Long) post reply rt url hash 1 6.253 0.138 0.130 0.136 0.042 2 18.238 0.309 0.106 0.105 0.029 3 65.471 0.318 0.144 0.101 0.041 4 63.917 0.409 0.080 0.107 0.031 5 198.817 0.371 0.117 0.068 0.063 K SSE K = dist(x i, µ k ) 2 (1) k=1 X i C k K C k k µ k k medoid X i X j dist(x i, X j ) SSE Long Short SSE k 2 3, SSE k 10 SSE K k-medoids 1,000 2 3 Long 5 Short 3 4. 3 Long 3. Long 5 3 1 238 5 9 3 4 RT Twitter post replyrtrt URLurlhash 4 62 5 3 4 4 1 4 8 5 3 4 3 4 Short 3. Short 3
図4 クラスタ 1 の代表ユーザの特徴ベクトル (Long) 図8 クラスタ 5 の代表ユーザの特徴ベクトル (Long) 表 5 各クラスタのユーザ数 (Short) クラスタ ユーザ数 1 412 2 72 3 16 表 6 各クラスタの 62 週間の平均値 (Short) クラスタ 図5 クラスタ 2 の代表ユーザの特徴ベクトル (Long) 図6 クラスタ 3 の代表ユーザの特徴ベクトル (Long) post reply rt url hash 1 0.089 0.004 0.006 0.003 0.001 2 1.899 0.008 0.003 0.003 0.001 3 3.362 0.023 0.003 0.009 0.001 図 9 クラスタ 1 の代表ユーザの特徴ベクトル (Short) のクラスタに所属するユーザの平均値を表 6 に示す いずれ のクラスタにおいても グループ Long に比べて小さい値と なった それぞれのクラスタを代表するユーザを Long の場合と同様 の手順で抽出し その特徴ベクトルを図 9 から図 11 に示す ク ラスタ 1 とクラスタ 2 は 変位 特徴量 の大きさは異なるが グラフの形状は類似している クラスタ 1 とクラスタ 2 は 2 週 目に大きく投稿数が変化 減少 し それ以降は投稿数の変化 図7 クラスタ 4 の代表ユーザの特徴ベクトル (Long) が見られない クラスタ 3 では 利用開始直後に投稿数が変動 した後 7 週目以降は安定する結果となった 数を表 5 に示す なお クラスタ番号は Long と同様に所属す るユーザ数の降順に付与した クラスタ 1 に所属するユーザ数 5. 考 察 は最大の 412 ユーザであり クラスタ 3 に所属するユーザ数は グループ Long の分析結果から 図 5 に示すクラスタ 2 は投 最小の 16 であった Long とは異なり Short ではユーザの約 稿数の変動が大きい期間の後に小さい期間が存在するクラスタ 80%がクラスタ 1 に所属する結果となった 図 6 に示すクラスタ 3 は変動が小さい期間の後に変動が大きい クラスタに所属するユーザの各週のツイート数 post に対 期間が存在するクラスタ 図 8 に示すクラスタ 5 は一定の変動 する リプライ reply RT rt および URL url ハッ が全期間を通して存在するクラスタである そこで 長期間利 シュタグ hash を含むツイートの比率を算出した それぞれ 用を継続する要因を明らかにするために グループ Long にお
7 (Long) post reply post rt post url post hash 1 0.090-0.029 0.046 0.342 2 0.216-0.039-0.001 0.023 3 0.234-0.169-0.153-0.076 4 0.050-0.114-0.124-0.090 5 0.215-0.098 0.015 0.023 10 2 (Short) 12 2 (Long) 11 3 (Short) RT URL 7 0.2 235 Long 235 12 14 235 Short 12 2 3 0 1 3 7 3 2 Twitter 3 13 3 (Long) 14 5 (Long)
6. Twitter 2 DTW k-medoids 423 428, 2009. [10] Hiroaki Sakoe. Dynamic programming algorithm optimization for spoken word recognition. IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol. 26, pp. 43 49, 1978. [11],,,,,.. 5, pp. 1 10, 2012. JSPS 25280110 [1] TechCruch. Twitter 6 5 2. http://jp.techcrunch.com/archives/20120730analyst -twitter-passed-500m-users-in-june-2012-140m-of-them-in-usjakarta-biggest-tweeting-city/ 2012-10-12. [2] Haewoon Kwak, Changhyun Lee, Hosung Park, and Sue Moon. What is twitter, a social network or a news media? Proceedings of the 19th international conference on World wide web (WWW 10), pp. 591 600, 2010. [3],,.. 4 DEIM Forum 2012, D8-5, 2012. [4] Rumi Ghosh, Tawan Surachawala, and Kristina Lerman. Entropy-based classification of retweeting activity on twitter. Proceedings of KDD workshop on Social Network Analysis (SNA-KDD 2011), pp. 143 152, 2011. [5] Dan Chalmers, Simon Fleming, Ian Wakeman, and Des Watson. Rhythms in twitter. Proceedings of 1st International Workshop on Social Object Networks (SocialObjects 2011), pp. 1409 1414, 2011. [6] Jiang Yang and Scott Counts. Comparing information diffusion structure in weblogs and microblogs. Proceedings of the Fourth International Conference on Weblogs and Social Media, (ICWSM-10), pp. 351 354, 2010. [7] Cristian Danescu-Niculescu-Mizil, Robert West, Dan Jurafsky, Jure Leskovec, and Christopher Potts. No country for old members: user lifecycle and linguistic change in online communities. Proceedings of the 22nd international conference on World Wide Web (WWW 13), pp. 307 318, 2013. [8] Gideon Dror, Dan Pelleg, Oleg Rokhlenko, and Idan Szpektor. Churn prediction in new users of yahoo! answers. Proceedings of the 21st international conference companion on World Wide Web (WWW 12), pp. 829 834, 2012. [9] Jaya Kawale, Aditya Pal, and Jaideep Srivastava. Churn prediction in mmorpgs: A social influence based approach. Proceedings of the 2009 International Conference on Computational Science and Engineering (ICCSE 2009), pp.