1,a) 1,b) Muhammad Syafiq Mohd Pozi 1,c) Adam Jatowt 2,d) A Study of Microblogs Analysis based on Temporal -Spatial Language Divergce Okayama Ai 1,a) Kawai Yukiko 1,b) Muhammad Syafiq Mohd Pozi 1,c) Adam Jatowt 2,d) 1. SNS SNS Check-in [1] GPS [2] [3] LOD [4] 1 603-8047 2 606-8501 a) g1344270@cc.kyoto-su.ac.jp b) kawai@cc.kyoto-su.ac.jp c) msyafiqpozi@gmail.com d) adam@dl.kuis.kyoto-u.ac.jp [5][6] 2. 1
1 ( ),, 1 [7] [8] 2.1 The Seaming APIs *1 1 2 Yahoo! API *2 ID URL 2.2 1 *1 https://v.twter.com/seaming/overview *2 http://veloper.yahoo.co.jp/webapi/map/ oplolplatform/v1/geocor.html 2 3. 2016 4 29 7 30 19 2 2 8,725,149 2
1 ** tl lv bg * -gb ** ht * he * ga * -AU ko sr * -IN ro ** zh ** iw * zh-cn ** ne -MX no * zh-hans bn * nb * zh-hant ** ps * -CA * fil * zh-tw ** ur * -BE pl * gsw ** ka * id th * sq * -CH * gl ** is ** pa eu hi ** ta * hr * ms ** ckb * -BE cy * af ** lo el ** mr * -PT ar * xx-lc ** my da fi uk ** si * sl vi ** sd cs lt fa ** et * bs * msa sv hu * sk 3.1 1 3 65 1 3 17 3 10 1 0.35 4 2000 *4 2 2000 *5 1 53 1 4 13 3 2 [ ] [KB] 16-04-29 16-07-30 8,725,149 2,309 *4 https://.wikipedia.org/wiki/ *5 https://.wikipedia.org/wiki/ 65 53 30,387 0.35 1 bot 300 bot 100 10 6 bot 300 400 3
- gb 8.04% 6.88% 5.82% 4.50% - gb 2.58% 2.56% 1.41% 0.80% 0.61% 0.35% 1.35% 16.67% 48.44% - gb 8.17% 7.15% 4.60% 4.26% 2.24% 1.18% 0.89% 0.80% - gb 0.63% 0.34% 1.34% 17.32% 51.10% 3 5 () 12.81% 7.55% 6.50% 5.66% 4.52% 2.65% 0.20% 5.65% 54.46% 6.99% 6.24% 5.36% 4.75% 2.51% 0.29% 6.15% 13.93% 53.79% 4 6 () bot 2 42 23 3 3 5 5 14 49 4 3 6 6 14 7 3.2 2 614,292 7 Monolingual Manylingual 17 83.4 16.6 4
100% 90% 0.03% 0.04% 0.12% 0.64% 4.38% Weekly Mul2lingual Users 0.25% 0.24% 0.23% 0.22% 0.24% 0.23% 0.26% 0.24% 0.23% 0.26% 0.22% 0.20% 0.20% 0.28% 0.27% 0.26% 0.23% 0.29% 0.26% 0.29% 0.31% 0.26% 0.29% 0.29% 0.29% 0.27% 0.79% 0.76% 0.76% 0.67% 0.74% 0.79% 0.84% 0.85% 0.82% 0.89% 0.87% 0.81% 0.86% 2.81% 2.65% 2.67% 2.29% 2.47% 2.68% 2.93% 2.88% 2.94% 3.07% 2.98% 2.98% 2.95% 12.47% 11.91% 12.10% 10.66% 11.29% 12.54% 12.80% 12.99% 12.90% 13.26% 13.22% 13.08% 13.23% 80% 70% 60% Users 50% 40% 94.80% 83.41% 84.18% 83.98% 85.94% 84.97% 83.49% 82.87% 82.73% 82.85% 82.24% 82.41% 82.64% 82.49% 30% 20% 10% 0% 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Week of 2016 Monolingual Bilingual Trilingual Fourlingual Fiflingual Manylingual 7 12.5 3.3 * 6 8 D3.js * 3 34 56 8 *6 http://yklab.cse.kyoto-su.ac.jp/~okayama/europe/ EuropeLangdata_v2.html *3 http://.d3js.no.ws/ 8 1 hu el lv 1450 *7 1200 *8 190 *9 8 2 3 4 8 5 *7 https://.wikipedia.org/wiki/ *8 https://.wikipedia.org/wiki/ *9 https://.wikipedia.org/wiki/ 5
情報処理学会研究報告 図 8 欧州言語ヒートマップ (縦軸 上位 34 言及言語 横軸 上位 56 母国語)*6 ツイートの中身に注目すると 台湾から日本への留学生の 参考文献 アカウントがあり 発信位置と母国語と言及言語の差異を [1] とることで 移民 留学生 の発見ができる可能性を示唆 している 4. まとめ [2] [3] 本論文では ユーザ行動に対する認知特性の解明を目指 し ユーザ行動に対する認知特性として 言語形態に着目 [4] し 任意の発信位置と時刻における言語の相違 母国語と 言及言語との差異 発信位置と各言語の発祥場所 母国語 との差異 さらに発信位置と言及言語との差異を抽出し 場所や時間における各出身地ごとの言語形態の分析結果を [5] 可視化し 検証した その結果 ツイートの内容や発信時 の状況から 母国語以外の言語を使い分けている可能性が 示された また 母国語以外を使用する際に 各国の位置 関係の影響や 移民するツイートユーザが多い国の発見が [6] できた 今後 言及言語や母国語の発祥場所とは異なる国 で どこの場所でどの言及言語でを使用してツイートを発 信しているかを分析し ユーザ行動との関連性を明らかに [7] し 各言語ごとの特性抽出を検討する 謝辞 [8] 本研究の一部は JSPS 科研費 16H01722 の助成を受けたも のである ここに記して謝意を表す 2016 Information Procsing Society of Japan Qu et al.: Tra Area Analysis using User Gerated Mobile Lotion Data, WWW2013 (2013). Yuan et al.: Discovering Regions of Differt Functions in a Cy Using Human Mobily and POIs, KDD2012 (2012). Sakaki et al.: Earthquake shak Twter users: realtime evt tection by social ssors, WWW2010 (2010). Magdy, A., Alarabi, L., Al-Harthi, S., Musleh, M., Ghanem, T. M., Ghani, S., and Mokbel, M. F.: Taghreed:A System for Querying, Analyzing, and Visualizing Geotagged Microblogs, SIGSPATIAL 2014, pp. 163-172 (2014). Shoko Wakamiya, Adam Jatowt, Yukiko Kawai and Toyokazu Akiyama.: Analyzing Global and Pairwise Collective Spatial Atttion for Geo-social Evt Detection in Microblogs, WWW 2016, ACM Prs, Moneal, Canada, mo paper pp. 263-266 (2016). Emili Antoine, Adam Jatowt, Shoko Wakamiya, Yukiko Kawai, and Toyokazu Akiyama.: Poraying Collective Spatial Atttion in Twter, KDD 2015, pp. 3948, Sydney, Ausalia, August (2015). Delia Monu, Andrea Baronchelli, Nicola Perra, Bno Gon lv, Qian Zhang, AlsandroVpignani.: The Twter of Babel: Mapping World Languag through Microblogging Platforms, PLoS ONE 8(4): e61981. doi: 10.1371/journal.pone.0061981. Graham Neubig, Kevin Duh.: ツイートの情報量につい て 情報理論に基づく多言語調査, 言語処理学会 第 20 回年次大会発表論文集 (2014). 6