DEIM Forum 2014 B7-4 マイクロブログ上の匿名ユーザの所属ネットワーク構築 内金亮太郎 井上潮 東京電機大学大学院工学研究科情報通信工学専攻 120-8551 東京都足立区千住旭町 5 E-mail: 12kmc06@ms.dendai.ac.jp, inoue@c.dendai.ac.jp あらまし近年ソーシャルネットワークサービス (SNS) の利用の高まりにつれ, SNS データの分析サービスが注目を浴びている. 多くの分析は男女や年齢などのグループに分けることで詳細に分析することが多い. しかし, SNS の一形態であるマイクロブログは匿名で利用されることが多く, グループに分けることが難しい. しかし, 特定のグループとしてユーザを抽出することができれば, 多くの有用な情報が得られるようになると思われる. また, マイクロブログは学生など若者の利用率高く, 学校の友達というグループで利用することが多い. 本稿ではマイクロブログの代表例である Twitter から大学と関連が強い学生のユーザを友達の輪のグループとして抽出し, 大学を中心としたネットワークを構築する手法を提案する. キーワード Twitter, クラスタリング, プロファイリング 1. マイクロブログについて ソーシャルネットワークサービスサービス (SNS) の データを分析する事が, 注目を浴びている. SNS のデ ータを分析することで自社の製品やサービス等がどの ような評価を得ているのか, どのくらい評判になって いるのか, 現在の流行等を測る事ができるとされてい る. そのためのサービスも増えてきており, 例えば, 評 Ban[1] というサービスはその評価結果を提供してい る. しかしながら, 現在の評価は SNS の全体の総意見と しての分析を行なっているのが主流であり, SNS の中 でユーザを特定の層 ( 学生や, 地方等の括り ) に分けた 詳しい分析を行なっているものの数は少ない. それは SNS の特性に依るものが大きい. SNS を大きく分けると 2 つに分類される. 匿名性が 低いものと高いものの 2 つである. 前者は Facebook に 代表されるサービスで, 利用時に実名で登録を必要と される事によって個人の特定が容易である. また, 所 属している組織等の本人の情報も付随していることが 多く, その人の情報が分かることも多い. それに対し て, 後者はユーザの SNS の新規利用の敷居を下げるた め, 仮名での登録が可能であり, 本人の所属の情報な ども求められない. Twitter に代表されるマイクロブロ グの多くはこちらに分類される. 上記のことをまとめ ると表 1 になる. 表 1 SNS の特性の違い Twitter Facebook 日本のユーザ数 [2] 1400 万人 1490 万人 2012/03 発言のしやすさ 高い 低い 匿名性高い低い 表 1 に示すように, 発言のしやすさでは日本では匿名性が高いマイクロブログが好まれる傾向にあり, 匿名性が低い SNS より多く利用されている. そのため, 多くの意見を集めやすいマイクロブログを分析することが多い. しかしながら, 匿名という特性上, ユーザの所属等の本人情報が得られず, 所属組織毎に分けた分析などの詳しい分析をすることが非常に難しくなっている. しかし, ある所属と関わりの深いグループを見つけ出すことができれば, より有用な情報が得られるようになると思われる. 本研究ではマイクロブログの代表例である Twitter を分析する. Twitter は 20 歳代前半以下の人に多く利用されるため, 多くのユーザが学校に所属している. また, Twitter の用途として身近の知り合いと友人関係になっていると仮定する. この過程に基づいて, 本研究では特定の学校に所属するユーザを友達の輪のグループでクラスタリングを行い, 大学に関わりの深いユーザを抽出する. 2. 関連研究白木敦夫ら [3] は, Twitter の なう というキーワードに注目し, 発言者の状況の推定を行なっている. また, グェンミンヘンら [4] は, 事前に用意した動詞データから, ユーザがどのような行動をとり, どのような活動をしているのかを分析する研究している. これらの研究の特徴はユーザの発言から分析を行なっている点である. これらの手法を用いて特定の大学の学生を探す場合を考える. 例えば XX 時に 大学行きのバスに乗っている という行動から, 大学の学生であると, 推定したいと仮定する. しかし, 多くの場合, このような情報を知ることは難しく, その大学に精通している人しか使うことはできない. そのため, ある大学を
対象として, その大学の学生を見つけようとする場合, その大学に詳しい人の協力が不可欠になり汎用性が高 いとはいえない. また, あまり発言をせず, 他の人の 発言を見ているだけの人も存在する. そのようなアカ ウントを抽出することも難しい. 3. 提案手法 3.1 Twitter のモデルと用語 Twitter でよく用いられている用語について以下に説 明する. ツイート Twitter 上のユーザの発言のこと. タイムライン (TL) Twitter に, 自分がフォローしている人たちの発言の リストのこと. フォロー 相手のツイートを見るために登録すること. フォロワー あるユーザをフォローしている人のこと. 例えば図 1 のように B, C, D が A をフォローしていると A にと って B, C, D はフォロワーとなる 3.2 Twitter ユーザの収集手法 Twitter からユーザを見つける際には, Twitter にリクエストすることが主な手順となっているが, リクエストは単位時間に対して N 回 ( 例あるユーザがフォローしたユーザをリクエストは 15 回 /15 分 ) という制限が設けられている. そのため, ユーザを取得する際には大学に関わりが深いであろうと思われるユーザに目星をつけ, リクエストをする必要がある. 複雑ネットワークのスモールワールドモデルではネットワークは中心となる次数の大きい中心と, そこから派生する小さな密な集合から成り立っている. つまり Twitter 上で考えると, 図 2 のような中心がある所属の公式アカウントで, 周りに集合ができると考えられる. 図 2 スモールワールドモデルの集合 図 1 フォロー, フォロワーの関係図また, Twitter のアカウントは大きく分けて以下のように 3 つに分類される. (1) 個人アカウント エンドユーザーが個人のプライベートな事柄を発言するアカウント. (2) 公式アカウント 会社や学校などの組織の代表として広報を目的としたパブリックな事柄を発言するアカウント. (3) Bot アカウント 世界の名言を発言するなど, 特定の目的をもったアカウント. アカウントを操作するプログラムがあり, 自動で発言することが多い. よって, 所属と関連の深いユーザを取得する方法として大学の公式アカウントからフォローの関係が 2 ホップまでのユーザを収集することで, 関連が深いユーザを収集することができると思われる. よって, 図 3 の範囲のアカウントを収集する. 図 2 Twitter アカウントの収集範囲
また, その際にフォロー数が 300 人以上のアカウントは Bot アカウントであることが多いので, 収集の対象としない. なお 公式アカウントが存在するならば, そのアカウントは個人アカウントより有名であるので, 多くの場合 Google や Twitter で大学名をキーワードとして公式アカウントを検索することができる. ることができる. しかしそれは現実的ではない. そのため, 条件を絞って集合を構築する. 取得した Twitter の 1 ホップ目とつながっている集合を一つのネットワークとして考える. そのため, 取得するユーザのイメージは図 5 の通りとなる 3.3 友達グループの構築手法前節で述べた方法により 2 ホップまでのユーザを収集することができたが, 収集したユーザに関わりが深いユーザであるとは限らない. しかし, 多くのユーザが友達同士でつながっていることが多い, そのため, クラスター係数は求め, 集合の密度の濃いユーザを見つけることによって友達グループを見つけることができると思われる. 3.3.1 クラスター係数の計算手法あるネットワークが密か疎であるかの判別手法でクラスター係数がある [5]. 簡単に言うと, これは三角形として結ぶことのできるノード間のつながりの割合である. 例えば, 図 3 のネットワークを考える. A から見て他の 2 つのノードを取る組み合わせは B, C, D から 2 つ選ぶので 3C2=3 通りである. その中で三角形を結ぶことができる組み合わせは A, B, C と A, C, D の 2 つであるよってクラスター係数は 2/3=0.666 となる. つまり三角形をつくれるつながりの数 / ノードの組み合わせの数となる. 同じようにして B, C, D から見たクラスター係数を求め, その平均がネットワークのクラスター係数となる. また, 図 4 のような, すべてのノード同士がつながっていると, クラスター係数は 1 となる. 図 5 一つの集合の範囲 3.3.3 密な集合の構築手法一つの集合から密な集合を構築する手法を考える. 集合内のユーザのすべての組み合わせでクラスター係数を求めると, 非常に計算コストがかかる. そのため, 一人ひとりのクラスター係数を求めて, その値が一番低いユーザを集合から抜いていくことによって密な集合を構築する. ある集合のクラスター係数が一定以上になるまで続ける. つまり, 図 6 の通りのことを行う. 図 3 ネットワークの例 1 図 4 ネットワークの例 2 3.3.2 1 つの集合の大きさすべてのノードに対して, すべての組み合わせからクラスター係数を求めることができれば, 密な集合を構築することができる. つまり, 全 Twitter のユーザ 1400 万アカウントを対象にしてすべての場合の組み合わせの計算することができれば, 密な集合を構築す 図 6 密な集合の構築フロー
4. 評価方法提案手法の有用性を示すために, ケーススタディとして東京電機大学と関わりの深い集合を構築し, 評価を行った. 今回は図 7 のシステムを実装し, Twitter のデータの取得は Java のライブラリの Twitter4J を用いた. また 今回はフォロー数が多くなると計算量が多くなるのでフォロー数を 80 人以下のユーザを対象にした. 12/1~1/4 までの期間に取得した合計 153 人のユーザのクラスター値と集合の大きさを分析した. 図 8 著者のクラスター値の変化 図 7 システムの構成図 4.1 評価結果 4.1.1 クラスター値と集合について はじめに, 著者自身の Twitter アカウントを分析した. クラスター係数が低いユーザを集合から抜いていくと クラスター値が上昇する. その変化を図 8 に示す. そして, 同じことを 153 人の Twitter ユーザを対象に 行なった. 対象としたユーザは東京電機大学と縁の深 いと思われる東京電機大学の公式アカウントから 1 ホ ップ離れており, かつフォロー数が 80 人以下のユー ザを対象とした. 80 人以下にした理由は 80 人を超える とクラスター値の計算コストが大きくなり, 処理が 1 日, 2 日程度の時間では処理が終了しなかったためで ある. また, クラスター係数が低いユーザを減らす前の集合 の多さによって変化の傾向が違うと思わたので, 元の 集合の多さによって 7 つに分類した. その結果を図 9 に示す. 図 9 クラスター値の平均 4.1.2 所属ユーザ推定本研究では現実所属ユーザをある所属に対して役職をもっているユーザと定義する. 例えば, 今回は東京電機大学をケーススタディとしたので 学生 や, 教師 などが当てはまる. また, Twitter のユーザに対してはプロフィール情報に大学名, 略称が含まれているユーザをプロフ所属ユーザと定義する. 東京電機大学の場合 東京電機大学, 電大,, TDU, tdu が当てはまる. 現実所属ユーザがプロフィールに大学名を記述していることはない. しかしながら, ある一定の割合でプロフィールに大学名を記述していると思われる. そのため, 図 8, 9 よりクラスター値が 0.2 を超えたあたりで集合が収束し始めたので, 今回はクラスター値が 0.2 を超えた集合を抽出し, 抽出前と抽出後で集合全体からプロフ所属ユーザの出現率で評価を行う. 評価
結果を表 2 に示す. プを抽出することができると言える. A. 東京電機大学の公式アカウントから距離が2Hop 以内のユーザの集合 B. フォロー数が80 人以下のユーザの集合 C. Bからクラスター値が 0.2 以上となった集合 表 2 プロフ所属ユーザ出現率 5 考察 5.1 集合抽出について 今回は集合のクラスター値を求める手法で友達の 輪を抽出することを行った. 図 8, 9 を見て分かるように, クラスター値が 0.2 を 超える辺りから収束し始め, 密な集合となっていくの がわかる. 実際に自分のアカウントで調査した結果, 0.2 を超えたあたりから親しい友人だけが, 集合に残 っているのが確認できた. また, 友人のアカウントに も同じことが確認できた. しかし, 評価の結果, 今回の手法は集合が最も密と なり, かつ一番大きな集合を抽出することが分かった. そのため, 親しいが小さな集まりである場合は抽出で きない. 例えば図 10 の様に仲の良い複数の集合に属 しているが, 抽出できるのは集合 A のみである. よって小さな集合を含めてまで, 抽出できないとい うことがわかった. ユーザ数所属ユーザ数 所属ユーザ出現率 [%] ユーザ数 / 所属ユーザ数 51009 1530 2.999 5968 624 10.455 2218 463 20.874 6. まとめ 本研究ではある所属の公式アカウントを起点とし てフォロワーを抽出し, クラスター値を用いて友達の 輪のグループを抽出することで所属に関連が深いユー ザを抽出した. 提案手法の有効性を確認するため, 自分のアカウン トと東京電機大学をモデルケースとして実験した. 自 分のアカウントを分析した結果, 自分の所属している 大学の仲の良い集合を抽出することができた. さらに, 東京電機大学のアカウントと関わりの深い と思われる 153 人の Twitter アカウントを分析した結果, クラスター値が 0.2 という値を超えたあたりで仲の良 い集合が抽出できることがわかった. その集合をユーザのプロフィールを用いて評価し た. プロフィールから所属に属していると判別できる ユーザの出現率が 20% となった. これはユーザを無差 別に収集することに対して高い出現率となり, この手 法を用いて所属に関連するユーザを抽出することがで きるとわかった. 参考文献 [1] 評 Ban http://www.hyohban.jp/ [2] ソーシャルメディア利用者数の推移 http://docs.google.com/viewer?url=http%3a%2f%2f www.soumu.go.jp%2fjohotsusintokei%2fwhitepaper %2Fja%2Fh24%2Fexcel%2Fn2302100.xls [3] 白木敦夫, 矢野幹樹, 酒井佑太, 小澤俊介, 杉木健二, 松原茂樹, 河口信夫 モバイルアプリケーション推薦のための Twitter 発言者の状況の推定 DICOMO シンポジウム, pp251-257, 2010 [4] グェンミンテイ, 川村隆浩, 田原康之 Twitter からの人間行動属性の自動抽出 電子情報通信学会技術研究報告. AI, 人工知能と知識処理 110(105), pp19-23, 2010 [5] 増田直紀 複雑ネットワーク基礎から応用まで 近代科学社 pp23-27 2010 図 10 抽出できる集合の範囲 5.2 所属ユーザ抽出について図 8, 9 よりクラスター値が 0.2 を超えたあたりで収束しはじめたので, クラスター値が 0.2 を超えたグループを抽出し そのグループを評価した. 表 2 より, 集合 A, B, C と出現率があがることがわかる. よってクラスター値を用いて密となるグループを抽出することで, 現実所属ユーザを多く含むグルー