卒業論文計画書横浜市立大学国際総合科学部国際総合科学科経営科学系経済学コース 4 年村川萩和 はじめに 現在 インターネットが社会にとって不可欠なものとなっている ニュースや新製品の情報 イベントなどの告知など 多くの情報が飛び交うようになった インターネットの普及により 一般のユーザも情報を発信できるようになり Twitterや Facebook Instagram など SNS( ソーシャルネットワーキングサービス ) と呼ばれるサービスが活発化している これらは 削除を行わない限り 自身の発信した活動データがログとして残る 国内でアクティブユーザが 2,800 万人いる Facebook 1 や 4,500 万人いる Twitter 2 の投稿データは 一般利用者の動向を探れるだけの情報を持っていると言える それと同時に このアクティブユーザは 企業によるプロモーションの受け手として大きな存在であると言える 卒業論文では この Twitterのデータを集め 企業がどの時間帯にプロモーションをかると効果的であるかを分析する Tweet データの収集 Twitterにおける投稿である 呟き (Tweet) から得られる主な情報は以下のとおりであ る ( 図 1) この中の投稿時間 本文を用いて呟きデータを集める データ名 説明 TweetID ツイートごとに持つID created_at 投稿された時間 (GMT 表記 ) User 投稿したユーザの情報 text 本文 GeoLocation 位置情報 図 1. 主な呟きデータ 1 株式会社ジャストシステム モバイル & ソーシャルメディア月次定点調査 (2017 年総集編 ) 2018 年 1 月 (https://www.justsystems.com/jp/download/contents/fastask/biz/report/fa_report- monthly-20180124.pdf?_ga=2.250200709.208155832.1518572799-1761877588.1518572799) より 2 同上 1
そしてその収集方法はいくつかあり それぞれに特徴がある 1.API を用いた収集 2.Web サービスによる収集 3. アプリによる収集 4. データの購入 1.API を用いた収集 Twitter はデータアクセスの手法として API(Application Programming Interface) を公開している 先ほど挙げた Tweetデータの他に ユーザのデータや RT お気に入りの数などすべてのデータにアクセスできる 2.Web サービスによる収集現在ヤフー株式会社が提供している リアルタイム検索 によりデータを集めることができる ツイート数の推移や ポジティブかネガティブどちらかの呟きかを判別してグラフ化してくれる ( 図 2) ただし ツイート数の推移の具体的な数字が得られないので分析には不向きである 図 2. リアルタイム検索によるデータ検索結果 ( ワード : スタバ ) 2
3. アプリによる収集プログラミングの知識がない人でも使える公開されたアプリがあり それによっても集めることができる その一つが Web Tweet Crawler 3 である Twitterアカウントで認証することで 特定の語句を含む呟きを CSV 形式で書き出してくれる ( 図 3) 基本的な検索ならこれで十分だが 直近の呟きしか抽出できないので 期間を指定して分析したい場合に使えない id screen_namname created_at text retweeted_iretweeted_ retweeted_cin_reply_to_sin_reply_to_uin_reply_to_ssource retweet_cofavorite_co user_id statuses_cofollowers_c 1.02132E+18 AskYourselみゆ 2018/7/23 17:49 @kzmaru2 kzmaru215 1.11E+09 1.02E+18 <a href="h 0 0 9.94E+17 1622 30 15 慣れない一馬さ 1.02132E+18 bqdpbqdp まつざわあか 2018/7/23 17:49 <a href="h 0 0 3.02E+09 3879 1312 スタバで 1.02132E+18 Harunachanはるな 2018/7/23 17:49 ねぇー <a href="h 0 0 9.58E+17 1434 1076 もものスタ 1.02132E+18 Kokoron_grとき美希ココ 2018/7/23 17:49 スタバなう https://t.co/tlz55ihq87 <a href="h 0 2 2.42E+09 37239 2048 紅葉がス 1.02132E+18 haaatoo522 隼土やねん 2018/7/23 17:49 タバでココ <a href="h 0 2 9.13E+17 1135 2002 1.02132E+18 oseeetan せーたん 2018/7/23 17:49 近場のスタバ ピーチ売り切れ出たけど駅構内のにあって嬉しみ <a href="h 0 0 2.82E+08 93418 253 1.02132E+18 8hsmn8 ひさみん 2018/7/23 17:49 スタバ桃売り切れやん <a href="h 0 0 1.96E+09 8191 196 1.02132E+18 kasumix19 かすみん 2018/7/23 17:49 あたしいっつもファス <a href="h 0 0 2.49E+08 42212 91 1.02132E+18 lunaluna030るなみ @ 2018/7/23 17:48 @osrn_017 今日スタバ行ったけと フェラペチー osrn_017 7.49E+17 1.02E+18 <a href="h 0 0 1.96E+09 6284 835 1.02132E+18 Milkcander みるく 2018/7/23 17:48 @cos41san スタバいこー! cos41san 8.11E+17 1.02E+18 <a href="h 0 0 7.86E+08 26347 595 1.02132E+18 HOTPUGN ゆき @ ガーデ 2018/7/23 17:48 @kyof0909 スタバ!! kyof0909 4.85E+09 1.02E+18 <a href="h 0 0 2.28E+08 2141 99 1.02132E+18 chisaki3991ちさき 2018/7/23 17:48 まったく盛れなかっ <a href="h 0 0 7.63E+17 1744 770 1.02132E+18 Sala_PBW さーら 2018/7/23 17:48 帰りに魔剤買ってスタバにも行こう そうしよう 頑張れ私 <a href="h 0 0 9.98E+17 716 40 1.02132E+18 zyaco1993 じゃこ @Asu 2018/7/23 17:48 でもスタバいきたい <a href="h 0 0 4.02E+08 7526 286 1.02132E+18 faru_0607 やまちゃん 2018/7/23 17:48 スタバなう https://t.co/t2co4nzjfr <a href="h 0 2 8.38E+17 14475 602 1.02132E+18 STUD10IO5B.Toriyama 2018/7/23 17:48 映画やってた頃はタイミング合えば行けるだけ行って 終わったらスタバで小説読 <a href="h 0 0 1.26E+08 40418 1496 1.02132E+18 RIDER_KUR 黒 2018/7/23 17:48 アイドルに <a href="h 0 0 1.95E+08 38461 133 ハマると 1.02132E+18 JV8Jbda9M 黄愛美梨 2018/7/23 17:48 @wcs_200 wcs_2004 2.46E+09 1.02E+18 <a href="h 0 0 8.83E+17 24 3 4 大喜利 1.02132E+18 gohannookaごはんのお 2018/7/23 17:47 スタバに入るとかいう珍しいプレイング https://t.co/u6fwkbwthj <a href="h 0 0 3.12E+09 28464 442 1.02132E+18 keyakizaka8あーる 2018/7/23 17:47 スタバの新作を飲んでいます <a href="h 0 2 9.55E+17 4992 145 1.02132E+18 pegopa_kore( ペゴパ ) 皆さん~ 2018/7/23 17:47 ~ 日本の <a href="h 2 7 3.97E+09 1849 30823 1.02132E+18 O_yuto4412ゆう 2018/7/23 17:47 ホテルの周辺散歩してたらスタバあった 美味い https://t.co/nzee75hos1 <a href="h 0 0 9.35E+17 196 282 図 3.Web Tweet Crawler による検索結果 ( 個人情報にあたるセルは処理済 ) もう一つは TTM(TinyTextMiner) 4 である 大阪大学の松村真宏が開発したもので Web Tweet Crawler とほぼ同等の機能を持っている 4. データの購入 Twitter は株式会社 NTT データなどを通してデータを販売している 5 主に一般向けでは ないが 古くて大量なデータが欲しければ利用するとよい 論文に向けて 実際に研究を行うにあたり実験的に 1.API を用いた収集の手法でデータを集めた 実際に Twitter でプロモーションツイートを投稿しているスターバックスを例に スタバ と含まれたツイートを CSV 形式で書き出す Python を用いてデータを書き出すプログラムを実行するといった手法をとるが Sho Kosaka によって公開されているソースコードを利 3 http://torix.sakura.ne.jp/twitter/ 4 http://mtmr.jp/ttm/ 5 https://nazuki-oto.com/twitter/ 3
用した 6 抽出する時間としては 新作である ピーチピンクフルーツフラペチーノ が発売開始となる 7 月 20 日を挟んだ期間を選んだ 日本時間で 2018 年 7 月 19 日 0 時ち ょうどから 2018 年 7 月 21 日 23 時 59 分 59 秒までである 以下が得られたデータの表と グラフである 日時 数 19 日 00 時 195 19 日 01 時 131 19 日 02 時 84 19 日 03 時 75 19 日 04 時 68 19 日 05 時 68 19 日 06 時 93 19 日 07 時 224 19 日 08 時 265 19 日 09 時 290 19 日 10 時 296 19 日 11 時 295 19 日 12 時 462 19 日 13 時 391 19 日 14 時 427 19 日 15 時 495 19 日 16 時 505 19 日 17 時 533 19 日 18 時 546 19 日 19 時 601 19 日 20 時 582 19 日 21 時 512 19 日 22 時 510 19 日 23 時 429 20 日 00 時 288 20 日 01 時 129 20 日 02 時 101 20 日 03 時 101 20 日 04 時 71 20 日 05 時 79 20 日 06 時 228 20 日 07 時 555 20 日 08 時 830 20 日 09 時 720 20 日 10 時 856 20 日 11 時 1032 20 日 12 時 1585 20 日 13 時 1349 20 日 14 時 1183 20 日 15 時 1230 20 日 16 時 1326 20 日 17 時 1455 20 日 18 時 1590 20 日 19 時 1436 20 日 20 時 1314 20 日 21 時 1082 20 日 22 時 876 20 日 23 時 663 21 日 00 時 469 21 日 01 時 181 21 日 02 時 67 21 日 03 時 42 21 日 04 時 28 21 日 05 時 50 21 日 06 時 82 21 日 07 時 234 21 日 08 時 444 21 日 09 時 586 21 日 10 時 724 21 日 11 時 846 21 日 12 時 972 21 日 13 時 949 21 日 14 時 1028 21 日 15 時 1056 21 日 16 時 1093 21 日 17 時 1032 21 日 18 時 960 21 日 19 時 983 21 日 20 時 953 21 日 21 時 821 21 日 22 時 767 21 日 23 時 598 6 Sho Kosaka データで見る M1 グランプリ 2017 データ取得編 2017 (http://www.analyze-world.com/entry/2017/12/08/072844) 4
実際に分析してみた結果 昼すぎから夕方にかけてツイート数が多く この時間帯がプロモーションに効果的だと考えられる また 新作である ピーチピンクフルーツフラペチーノ 発売日はツイート数が大幅に増え 他の日の倍近くにまでなった 今回は実験的に スタバ を含むツイートを抽出したが 実際に API を用いてデータ化することができることが分かった この方法でより深く立ち入った研究を行いたい 参考文献 kenmatsu4(2016) スタバの Twitter データを python で大量に取得し データ分析を試 みるその 1 https://qiita.com/kenmatsu4/items/23768cbe32fe381d54a2 (2018 年 7 月 23 日閲覧 ) Sho Kosaka(2017) データで見る M1 グランプリ 2017 データ取得編 http://www.analyze-world.com/entry/2017/12/08/072844 (2018 年 7 月 23 日閲覧 ) 鳥海不二夫 (2015) Twitter 上のビッグデータ収集と分析 https://www.jstage.jst.go.jp/article/soshikikagaku/48/4/48_47/_pdf (2018 年 7 月 23 日 閲覧 ) 松村真宏 (2017) TTM:TinyTextMiner http://mtmr.jp/ttm/ (2018 年 7 月 23 日閲覧 ) 株式会社ジャストシステム (2018) モバイル & ソーシャルメディア月次定点調査 (2017 年総集編 ) https://www.justsystems.com/jp/download/contents/fastask/biz/report/fa_report- monthly-20180124.pdf?_ga=2.250200709.208155832.1518572799-1761877588.1518572799 (2018 年 7 月 23 日閲覧 ) TwitterAPI でツイートを大量に取得 サーバー側エラーも考慮 (python で ) http://ailaby.com/twitter_api/ (2018 年 7 月 23 日閲覧 ) 5