電子情報通信学会ワードテンプレート (タイトル)

Similar documents
2 21, Twitter SNS [8] [5] [7] 2. 2 SNS SNS Cheng [2] Twitter [6] Backstrom [1] Facebook 3 Jurgens

PowerPoint プレゼンテーション

Microsoft Word - 博士論文概要.docx

東邦大学理学部情報科学科 2014 年度 卒業研究論文 コラッツ予想の変形について 提出日 2015 年 1 月 30 日 ( 金 ) 指導教員白柳潔 提出者 山中陽子

PowerPoint プレゼンテーション

自分の行動が筒抜けのワケ どう防ぐ、SNSのトラブル  :日本経済新聞

< 受験生トレンド > 受験生に必須のアイテム 受験生の半数以上が勉強に SNS を活用 3 人に 1 人以上が活用している Twitter が第 1 位に 目的は モチベーションを上げたい 記録に残したい 共有して安心したい が上位に 勉強専門アカウントについては約 5 割が興味 約 2 割が活用

EBNと疫学

Facebook の基本設定について 1 プライバシー設定 私のコンテンツを見られる人 全部 公開 私に連絡を取ることが出来る人 全員 私を検索出来る人 全員 2 公開投稿 フォローを許可する人 公開 Facebook では 友達の上限は 5000 人なので 5000 人のお友達がいる人とは友達にな

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

2. Apple iphoto 1 Google Picasa 2 Calendar for Everything [1] PLUM [2] LifelogViewer 3 1 Apple iphoto, 2 Goo

国語科学習指導案様式(案)

PowerPoint プレゼンテーション

Powered by TCPDF ( Title Sub Title Author Publisher SNS における発言のしやすさと態度形成 : ソーシャルメディアにおける炎上から 加藤, 晋輔 (Kato, Shinsuke) 坂下, 玄哲 (Sakashita,

Microsoft Word - フェイスブック入門(6版)

Microsoft PowerPoint - CTYスマホ LINE設定.pptx

電子情報通信学会ワードテンプレート (タイトル)

ゲーミフィケーションの活用事例と課題

本ネットワークセキュリティ協会 (JNSA) について

Delphi/400を使用したWebサービスアプリケーション

PowerPoint プレゼンテーション

最高球速における投球動作の意識の違いについて 学籍番号 11A456 学生氏名佐藤滉治黒木貴良竹田竣太朗 Ⅰ. 目的野球は日本においてメジャーなスポーツであり 特に投手は野手以上に勝敗が成績に関わるポジションである そこで投手に着目し 投球速度が速い投手に共通した意識の部位やポイントがあるのではない

1 1 (3.1 ) 2 (3.2 ) (3.3 ) 4 Google Place API (3.4 ) 5 2 TripAdvisor (3.5 ) Pat [7] [8] km

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

226125_多摩大経営情報研究_no.20_表紙-3校.indd

(Microsoft Word - \221\262\213\306\230_\225\266_\213\321\220D_\215\305\217I.doc)

アダストリア売り上げデータによる 現状把握と今後の方針 東海大学情報通信学部経営システム工学科佐藤健太

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

USDM Quick Start Guide 2014 年 1 月 第 1.0 版 第 29 年度 (2013 年度 ) SQiP 研究会第 6 分科会 D グループ

日本語「~ておく」の用法について

Web WIX WIX WIX Web Web Web WIX WIX WIX Web 3. Web Index 3. 1 Web Index (WIX), Web. Web, WIX, Web ( WIX ), URL WIX 1 entry wid eid keyword targe

簿記教育における習熟度別クラス編成 簿記教育における習熟度別クラス編成 濱田峰子 要旨 近年 学生の多様化に伴い きめ細やかな個別対応や対話型授業が可能な少人数の習熟度別クラス編成の重要性が増している そのため 本学では入学時にプレイスメントテストを実施し 国語 数学 英語の 3 教科については習熟

表紙.indd

今回のプログラミングの課題 ( 前回の課題で取り上げた )data.txt の要素をソートして sorted.txt というファイルに書出す ソート (sort) とは : 数の場合 小さいものから大きなもの ( 昇順 ) もしくは 大きなものから小さなもの ( 降順 ) になるよう 並び替えること

吉永式Twitter marketing club添削後

コンピュータ応用・演習 情報処理システム

曲線 = f () は を媒介変数とする自然な媒介変数表示 =,= f () をもつので, これを利用して説明する 以下,f () は定義域で連続であると仮定する 例えば, 直線 =c が曲線 = f () の漸近線になるとする 曲線 = f () 上の点 P(,f ()) が直線 =c に近づくこ

02

Microsoft Word - Gmail-mailsoft_ docx

IPSJ SIG Technical Report Vol.2014-DBS-160 No.21 Vol.2014-OS-131 No.2 Vol.2014-EMB-35 No /11/18 1,2,a) 2,b) 2,c) 1,d) 2,e) Web Web Twitter Web

学習指導要領

4. WIX アタッチエンジン 4. 1 FSDR 処理 システムの Web 資源結合動作であるアタッチ処理について 述べる. アタッチ処理は以下の 4 フェーズに分けられる. この一連の 流れを FSDR 処理とする. Find 処理 Select 処理 Decide 処理 Rewrite 処理

著作権について このレポートは著作権法で保護されている著作物です このレポートの著作権は に属します 著作権者の許可なく このレポートの全部又は一部をいかなる手段においても 複製 転載 流用 転売等することを禁じます このレポートに書かれた情報は 作成時点での著者の見解等です 著者は事前許可を得ずに

調査結果 1 国内ユーザー SNS 利用率 トップは で 69.6% 1 位は 69.6% 2 位は 40.9% 3 位は 23.0% 調査対象者が 利用している SNS を複数回答で聞いたところ 1 位は で 69.6% 2 位以下は が 40.9% が 23.0% が 19.6% が 19.4%

Microsoft Word - 【確認】アンケート結果HP.docx

PowerPoint プレゼンテーション

Microsoft Word - thesis.doc

<4D F736F F D B835C83694E6F2E BE0914B8AB48A6F82C692998BE082CC8EC091D E646F63>


< F31322D C8E825693FA8A778F4B8E7793B188C42E6A7464>

PowerPoint プレゼンテーション

平成 年度佐賀県教育センタープロジェクト研究小 中学校校内研究の在り方研究委員会 2 研究の実際 (4) 校内研究の推進 充実のための方策の実施 実践 3 教科の枠を越えた協議を目指した授業研究会 C 中学校における実践 C 中学校は 昨年度までの付箋を用いた協議の場においては 意見を出

キリン食生活文化研究所レポート vol.75 情報と便利さ

Find Find WIX DB entry WIX Aho- Corasick 1 WIX 2. 2 ( ) WIX, FireFox add-on Chrome Extension [1]. 32 Chrome Extension., Web Find, HTML,.., WIX

議会における政党のパワーを ゲーム理論から見ると?

資料 1( 参考 ) SNS に関するアンケート結果 2016 年 12 月 19 日

J_ _Global_Consumer_Confidence_2Q_2010.doc

Transcription:

DEIM Forum 2014 B7-4 マイクロブログ上の匿名ユーザの所属ネットワーク構築 内金亮太郎 井上潮 東京電機大学大学院工学研究科情報通信工学専攻 120-8551 東京都足立区千住旭町 5 E-mail: 12kmc06@ms.dendai.ac.jp, inoue@c.dendai.ac.jp あらまし近年ソーシャルネットワークサービス (SNS) の利用の高まりにつれ, SNS データの分析サービスが注目を浴びている. 多くの分析は男女や年齢などのグループに分けることで詳細に分析することが多い. しかし, SNS の一形態であるマイクロブログは匿名で利用されることが多く, グループに分けることが難しい. しかし, 特定のグループとしてユーザを抽出することができれば, 多くの有用な情報が得られるようになると思われる. また, マイクロブログは学生など若者の利用率高く, 学校の友達というグループで利用することが多い. 本稿ではマイクロブログの代表例である Twitter から大学と関連が強い学生のユーザを友達の輪のグループとして抽出し, 大学を中心としたネットワークを構築する手法を提案する. キーワード Twitter, クラスタリング, プロファイリング 1. マイクロブログについて ソーシャルネットワークサービスサービス (SNS) の データを分析する事が, 注目を浴びている. SNS のデ ータを分析することで自社の製品やサービス等がどの ような評価を得ているのか, どのくらい評判になって いるのか, 現在の流行等を測る事ができるとされてい る. そのためのサービスも増えてきており, 例えば, 評 Ban[1] というサービスはその評価結果を提供してい る. しかしながら, 現在の評価は SNS の全体の総意見と しての分析を行なっているのが主流であり, SNS の中 でユーザを特定の層 ( 学生や, 地方等の括り ) に分けた 詳しい分析を行なっているものの数は少ない. それは SNS の特性に依るものが大きい. SNS を大きく分けると 2 つに分類される. 匿名性が 低いものと高いものの 2 つである. 前者は Facebook に 代表されるサービスで, 利用時に実名で登録を必要と される事によって個人の特定が容易である. また, 所 属している組織等の本人の情報も付随していることが 多く, その人の情報が分かることも多い. それに対し て, 後者はユーザの SNS の新規利用の敷居を下げるた め, 仮名での登録が可能であり, 本人の所属の情報な ども求められない. Twitter に代表されるマイクロブロ グの多くはこちらに分類される. 上記のことをまとめ ると表 1 になる. 表 1 SNS の特性の違い Twitter Facebook 日本のユーザ数 [2] 1400 万人 1490 万人 2012/03 発言のしやすさ 高い 低い 匿名性高い低い 表 1 に示すように, 発言のしやすさでは日本では匿名性が高いマイクロブログが好まれる傾向にあり, 匿名性が低い SNS より多く利用されている. そのため, 多くの意見を集めやすいマイクロブログを分析することが多い. しかしながら, 匿名という特性上, ユーザの所属等の本人情報が得られず, 所属組織毎に分けた分析などの詳しい分析をすることが非常に難しくなっている. しかし, ある所属と関わりの深いグループを見つけ出すことができれば, より有用な情報が得られるようになると思われる. 本研究ではマイクロブログの代表例である Twitter を分析する. Twitter は 20 歳代前半以下の人に多く利用されるため, 多くのユーザが学校に所属している. また, Twitter の用途として身近の知り合いと友人関係になっていると仮定する. この過程に基づいて, 本研究では特定の学校に所属するユーザを友達の輪のグループでクラスタリングを行い, 大学に関わりの深いユーザを抽出する. 2. 関連研究白木敦夫ら [3] は, Twitter の なう というキーワードに注目し, 発言者の状況の推定を行なっている. また, グェンミンヘンら [4] は, 事前に用意した動詞データから, ユーザがどのような行動をとり, どのような活動をしているのかを分析する研究している. これらの研究の特徴はユーザの発言から分析を行なっている点である. これらの手法を用いて特定の大学の学生を探す場合を考える. 例えば XX 時に 大学行きのバスに乗っている という行動から, 大学の学生であると, 推定したいと仮定する. しかし, 多くの場合, このような情報を知ることは難しく, その大学に精通している人しか使うことはできない. そのため, ある大学を

対象として, その大学の学生を見つけようとする場合, その大学に詳しい人の協力が不可欠になり汎用性が高 いとはいえない. また, あまり発言をせず, 他の人の 発言を見ているだけの人も存在する. そのようなアカ ウントを抽出することも難しい. 3. 提案手法 3.1 Twitter のモデルと用語 Twitter でよく用いられている用語について以下に説 明する. ツイート Twitter 上のユーザの発言のこと. タイムライン (TL) Twitter に, 自分がフォローしている人たちの発言の リストのこと. フォロー 相手のツイートを見るために登録すること. フォロワー あるユーザをフォローしている人のこと. 例えば図 1 のように B, C, D が A をフォローしていると A にと って B, C, D はフォロワーとなる 3.2 Twitter ユーザの収集手法 Twitter からユーザを見つける際には, Twitter にリクエストすることが主な手順となっているが, リクエストは単位時間に対して N 回 ( 例あるユーザがフォローしたユーザをリクエストは 15 回 /15 分 ) という制限が設けられている. そのため, ユーザを取得する際には大学に関わりが深いであろうと思われるユーザに目星をつけ, リクエストをする必要がある. 複雑ネットワークのスモールワールドモデルではネットワークは中心となる次数の大きい中心と, そこから派生する小さな密な集合から成り立っている. つまり Twitter 上で考えると, 図 2 のような中心がある所属の公式アカウントで, 周りに集合ができると考えられる. 図 2 スモールワールドモデルの集合 図 1 フォロー, フォロワーの関係図また, Twitter のアカウントは大きく分けて以下のように 3 つに分類される. (1) 個人アカウント エンドユーザーが個人のプライベートな事柄を発言するアカウント. (2) 公式アカウント 会社や学校などの組織の代表として広報を目的としたパブリックな事柄を発言するアカウント. (3) Bot アカウント 世界の名言を発言するなど, 特定の目的をもったアカウント. アカウントを操作するプログラムがあり, 自動で発言することが多い. よって, 所属と関連の深いユーザを取得する方法として大学の公式アカウントからフォローの関係が 2 ホップまでのユーザを収集することで, 関連が深いユーザを収集することができると思われる. よって, 図 3 の範囲のアカウントを収集する. 図 2 Twitter アカウントの収集範囲

また, その際にフォロー数が 300 人以上のアカウントは Bot アカウントであることが多いので, 収集の対象としない. なお 公式アカウントが存在するならば, そのアカウントは個人アカウントより有名であるので, 多くの場合 Google や Twitter で大学名をキーワードとして公式アカウントを検索することができる. ることができる. しかしそれは現実的ではない. そのため, 条件を絞って集合を構築する. 取得した Twitter の 1 ホップ目とつながっている集合を一つのネットワークとして考える. そのため, 取得するユーザのイメージは図 5 の通りとなる 3.3 友達グループの構築手法前節で述べた方法により 2 ホップまでのユーザを収集することができたが, 収集したユーザに関わりが深いユーザであるとは限らない. しかし, 多くのユーザが友達同士でつながっていることが多い, そのため, クラスター係数は求め, 集合の密度の濃いユーザを見つけることによって友達グループを見つけることができると思われる. 3.3.1 クラスター係数の計算手法あるネットワークが密か疎であるかの判別手法でクラスター係数がある [5]. 簡単に言うと, これは三角形として結ぶことのできるノード間のつながりの割合である. 例えば, 図 3 のネットワークを考える. A から見て他の 2 つのノードを取る組み合わせは B, C, D から 2 つ選ぶので 3C2=3 通りである. その中で三角形を結ぶことができる組み合わせは A, B, C と A, C, D の 2 つであるよってクラスター係数は 2/3=0.666 となる. つまり三角形をつくれるつながりの数 / ノードの組み合わせの数となる. 同じようにして B, C, D から見たクラスター係数を求め, その平均がネットワークのクラスター係数となる. また, 図 4 のような, すべてのノード同士がつながっていると, クラスター係数は 1 となる. 図 5 一つの集合の範囲 3.3.3 密な集合の構築手法一つの集合から密な集合を構築する手法を考える. 集合内のユーザのすべての組み合わせでクラスター係数を求めると, 非常に計算コストがかかる. そのため, 一人ひとりのクラスター係数を求めて, その値が一番低いユーザを集合から抜いていくことによって密な集合を構築する. ある集合のクラスター係数が一定以上になるまで続ける. つまり, 図 6 の通りのことを行う. 図 3 ネットワークの例 1 図 4 ネットワークの例 2 3.3.2 1 つの集合の大きさすべてのノードに対して, すべての組み合わせからクラスター係数を求めることができれば, 密な集合を構築することができる. つまり, 全 Twitter のユーザ 1400 万アカウントを対象にしてすべての場合の組み合わせの計算することができれば, 密な集合を構築す 図 6 密な集合の構築フロー

4. 評価方法提案手法の有用性を示すために, ケーススタディとして東京電機大学と関わりの深い集合を構築し, 評価を行った. 今回は図 7 のシステムを実装し, Twitter のデータの取得は Java のライブラリの Twitter4J を用いた. また 今回はフォロー数が多くなると計算量が多くなるのでフォロー数を 80 人以下のユーザを対象にした. 12/1~1/4 までの期間に取得した合計 153 人のユーザのクラスター値と集合の大きさを分析した. 図 8 著者のクラスター値の変化 図 7 システムの構成図 4.1 評価結果 4.1.1 クラスター値と集合について はじめに, 著者自身の Twitter アカウントを分析した. クラスター係数が低いユーザを集合から抜いていくと クラスター値が上昇する. その変化を図 8 に示す. そして, 同じことを 153 人の Twitter ユーザを対象に 行なった. 対象としたユーザは東京電機大学と縁の深 いと思われる東京電機大学の公式アカウントから 1 ホ ップ離れており, かつフォロー数が 80 人以下のユー ザを対象とした. 80 人以下にした理由は 80 人を超える とクラスター値の計算コストが大きくなり, 処理が 1 日, 2 日程度の時間では処理が終了しなかったためで ある. また, クラスター係数が低いユーザを減らす前の集合 の多さによって変化の傾向が違うと思わたので, 元の 集合の多さによって 7 つに分類した. その結果を図 9 に示す. 図 9 クラスター値の平均 4.1.2 所属ユーザ推定本研究では現実所属ユーザをある所属に対して役職をもっているユーザと定義する. 例えば, 今回は東京電機大学をケーススタディとしたので 学生 や, 教師 などが当てはまる. また, Twitter のユーザに対してはプロフィール情報に大学名, 略称が含まれているユーザをプロフ所属ユーザと定義する. 東京電機大学の場合 東京電機大学, 電大,, TDU, tdu が当てはまる. 現実所属ユーザがプロフィールに大学名を記述していることはない. しかしながら, ある一定の割合でプロフィールに大学名を記述していると思われる. そのため, 図 8, 9 よりクラスター値が 0.2 を超えたあたりで集合が収束し始めたので, 今回はクラスター値が 0.2 を超えた集合を抽出し, 抽出前と抽出後で集合全体からプロフ所属ユーザの出現率で評価を行う. 評価

結果を表 2 に示す. プを抽出することができると言える. A. 東京電機大学の公式アカウントから距離が2Hop 以内のユーザの集合 B. フォロー数が80 人以下のユーザの集合 C. Bからクラスター値が 0.2 以上となった集合 表 2 プロフ所属ユーザ出現率 5 考察 5.1 集合抽出について 今回は集合のクラスター値を求める手法で友達の 輪を抽出することを行った. 図 8, 9 を見て分かるように, クラスター値が 0.2 を 超える辺りから収束し始め, 密な集合となっていくの がわかる. 実際に自分のアカウントで調査した結果, 0.2 を超えたあたりから親しい友人だけが, 集合に残 っているのが確認できた. また, 友人のアカウントに も同じことが確認できた. しかし, 評価の結果, 今回の手法は集合が最も密と なり, かつ一番大きな集合を抽出することが分かった. そのため, 親しいが小さな集まりである場合は抽出で きない. 例えば図 10 の様に仲の良い複数の集合に属 しているが, 抽出できるのは集合 A のみである. よって小さな集合を含めてまで, 抽出できないとい うことがわかった. ユーザ数所属ユーザ数 所属ユーザ出現率 [%] ユーザ数 / 所属ユーザ数 51009 1530 2.999 5968 624 10.455 2218 463 20.874 6. まとめ 本研究ではある所属の公式アカウントを起点とし てフォロワーを抽出し, クラスター値を用いて友達の 輪のグループを抽出することで所属に関連が深いユー ザを抽出した. 提案手法の有効性を確認するため, 自分のアカウン トと東京電機大学をモデルケースとして実験した. 自 分のアカウントを分析した結果, 自分の所属している 大学の仲の良い集合を抽出することができた. さらに, 東京電機大学のアカウントと関わりの深い と思われる 153 人の Twitter アカウントを分析した結果, クラスター値が 0.2 という値を超えたあたりで仲の良 い集合が抽出できることがわかった. その集合をユーザのプロフィールを用いて評価し た. プロフィールから所属に属していると判別できる ユーザの出現率が 20% となった. これはユーザを無差 別に収集することに対して高い出現率となり, この手 法を用いて所属に関連するユーザを抽出することがで きるとわかった. 参考文献 [1] 評 Ban http://www.hyohban.jp/ [2] ソーシャルメディア利用者数の推移 http://docs.google.com/viewer?url=http%3a%2f%2f www.soumu.go.jp%2fjohotsusintokei%2fwhitepaper %2Fja%2Fh24%2Fexcel%2Fn2302100.xls [3] 白木敦夫, 矢野幹樹, 酒井佑太, 小澤俊介, 杉木健二, 松原茂樹, 河口信夫 モバイルアプリケーション推薦のための Twitter 発言者の状況の推定 DICOMO シンポジウム, pp251-257, 2010 [4] グェンミンテイ, 川村隆浩, 田原康之 Twitter からの人間行動属性の自動抽出 電子情報通信学会技術研究報告. AI, 人工知能と知識処理 110(105), pp19-23, 2010 [5] 増田直紀 複雑ネットワーク基礎から応用まで 近代科学社 pp23-27 2010 図 10 抽出できる集合の範囲 5.2 所属ユーザ抽出について図 8, 9 よりクラスター値が 0.2 を超えたあたりで収束しはじめたので, クラスター値が 0.2 を超えたグループを抽出し そのグループを評価した. 表 2 より, 集合 A, B, C と出現率があがることがわかる. よってクラスター値を用いて密となるグループを抽出することで, 現実所属ユーザを多く含むグルー