本論文では, 個人情報検知技術の問題点を分析し, 解決策を提案 検討した. 以下, 第 2 章ではソーシャルメディアの開示制御技術に関する実態調査と先行研究について述べ, 第 3 章で機械学習と想起検知技術の違いを述べる. 第 4 章では個人情報検知技術の問題点を分析する. 第 5 では処理速度の高

Similar documents
2 21, Twitter SNS [8] [5] [7] 2. 2 SNS SNS Cheng [2] Twitter [6] Backstrom [1] Facebook 3 Jurgens

DEIM Forum 2015 F8-4 Twitter Twitter 1. SNS

DEIM Forum 2010 A Web Abstract Classification Method for Revie

IPSJ SIG Technical Report Vol.2009-DBS-149 No /11/ Bow-tie SCC Inter Keyword Navigation based on Degree-constrained Co-Occurrence Graph

IPSJ SIG Technical Report Vol.2009-DPS-141 No.20 Vol.2009-GN-73 No.20 Vol.2009-EIP-46 No /11/27 1. MIERUKEN 1 2 MIERUKEN MIERUKEN MIERUKEN: Spe

Twitter Twitter [5] ANPI NLP 5 [6] Lee [7] Lee [8] Twitter Flickr FreeWiFi FreeWiFi Flickr FreeWiFi 2. 2 Mikolov [9] [10] word2vec word2vec word2vec k

IPSJ SIG Technical Report 1,a) 1,b) N-gram 75.9% 1. Firefox Linux (Open Source Software: OSS) (Mailing List: ML) (Bug Tracking System: BTS) (Version C

<4D F736F F F696E74202D20352D335F8D5C90AC CF909482CC90B690AC82C695D28F572E707074>

1. はじめに 2

1 4 4 [3] SNS 5 SNS , ,000 [2] c 2013 Information Processing Society of Japan

nlp1-12.key

PowerPoint プレゼンテーション

IPSJ SIG Technical Report Vol.2014-NL-216 No.6 Vol.2014-SLP-101 No /5/ MMDAgent 1. [1] Wikipedia[2] YouTube[3] [4] [5] [6] [7] 1 Graduate

IP ( ) IP ( ) IP DNS Web Web DNS Web DNS DNS 利用者 1 利用者 2 東京都調布市の天気情報を応答 東京都調布市の天気を問い合わせ 北海道旭川市の天気を問い合わせ 北海道旭川市の天気情報を応答 Fig. 1 1 DNS サーバ 東京都調布市の天気情報 We

3.1 Thalmic Lab Myo * Bluetooth PC Myo 8 RMS RMS t RMS(t) i (i = 1, 2,, 8) 8 SVM libsvm *2 ν-svm 1 Myo 2 8 RMS 3.2 Myo (Root


テーマ :Twitter の現状と展望 酒井健吾 1. 調査の目的本稿は 新たなコミュニケーションツールとして台頭する Twitter の現状と展望に関する動向の概要を調査した上で Twitter が現在抱えている課題とその対策について検討する 2. 調査の概要 Twit

2. Twitter Twitter 2.1 Twitter Twitter( ) Twitter Twitter ( 1 ) RT ReTweet RT ReTweet RT ( 2 ) URL Twitter Twitter 140 URL URL URL 140 URL URL

スマホ利用によるコミュニケーションの変容 ( 上 ) SNS ( 概要 ) SNS , LINE 90 SNS SNS LINE 2011 SNS LINE LINE 2 SNS はじめに

0210研究会

DEIM Forum 2019 H Web 1 Tripadvisor

IPSJ SIG Technical Report PIN(Personal Identification Number) An Examination of Icon-based User Authentication Method for Mobile Terminals Fum

B HNS 7)8) HNS ( ( ) 7)8) (SOA) HNS HNS 4) HNS ( ) ( ) 1 TV power, channel, volume power true( ON) false( OFF) boolean channel volume int

IPSJ SIG Technical Report Vol.2014-IOT-27 No.14 Vol.2014-SPT-11 No /10/10 1,a) 2 zabbix Consideration of a system to support understanding of f

Mimehand II[1] [2] 1 Suzuki [3] [3] [4] (1) (2) 1 [5] (3) 50 (4) 指文字, 3% (25 個 ) 漢字手話 + 指文字, 10% (80 個 ) 漢字手話, 43% (357 個 ) 地名 漢字手話 + 指文字, 21

人類の誕生と進化

PowerPoint プレゼンテーション

コンピュータ応用・演習 情報処理システム

Microsoft PowerPoint - mp11-06.pptx

PowerPoint プレゼンテーション

東日本大震災時の Twitter における情報伝播ネットワーク 9 図 -3 公式リツイートの例 図 -4 非公式リツイートの例 図 - フォロー関係による情報の流れ I 図 -2 フォロー関係による情報の流れ II ツイート tweet 4 タイムライン TL フォロー 情報 A B A B 図

3 2 2 (1) (2) (3) (4) 4 4 AdaBoost 2. [11] Onishi&Yoda [8] Iwashita&Stoica [5] 4 [3] 3. 3 (1) (2) (3)

Google グループ を使ったメール内容の公開例 : メール内容の公開範囲の初期設定は当初 [ 全てのユーザー ] に設定されており それを 気にとめず にそのまま利用していたため メールは Google グループを使用しているユーザーなら誰でも閲覧できる状態になっていました リスク : 表 の

<4D F736F F F696E74202D208CA48B868FD089EE288FDA82B582A294C5292E B8CDD8AB B83685D>

Computer Security Symposium October 2013 Android OS kub

2. Apple iphoto 1 Google Picasa 2 Calendar for Everything [1] PLUM [2] LifelogViewer 3 1 Apple iphoto, 2 Goo

IPSJ SIG Technical Report Vol.2013-CE-119 No /3/15 C 1 1 Web C MILES(Model-based Interactive Learning Support) MILES 1. C C MILES(Model-based In

TF-IDF TDF-IDF TDF-IDF Extracting Impression of Sightseeing Spots from Blogs for Supporting Selection of Spots to Visit in Travel Sat

Web Web [4] Web Web [5] Web 2 Web 3 4 Web Web 2.1 Web Web Web Web Web 2.2 Web Web Web *1 Web * 2*3 Web 3. [6] [7] [8] 4. Web 4.1 Web Web *1 Ama

mycards の使い方 1. カードの登録方法 2. カードセットの作成と編集 3. STUDY モードについて 4. CHALLENGE モードについて 5. カード閲覧 について 6. 設定 について 1. カードの登録方法 mycards のトップページから 以下の方法で登録ができます レッ

DEIM Forum 2014 B Twitter Twitter Twitter 2006 Twitter 201

IPSJ SIG Technical Report Vol.2015-MUS-106 No.10 Vol.2015-EC-35 No /3/2 BGM 1,4,a) ,4 BGM. BGM. BGM BGM. BGM. BGM. BGM. 1.,. YouTube 201

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

icde_5a_3

Wikipedia YahooQA MAD 4)5) MAD Web 6) 3. YAMAHA 7) 8) Vocaloid PV YouTube 1 minato minato ussy 3D MAD F EDis ussy

24 LED A visual programming environment for art work using a LED matrix

GIS Theory and Applications of GIS, 2018, Vol. 26, No.2, pp 地理教育における利活用を考慮した時空間情報システム 牧野隆平 * ** 山本佳世子 Spatio-Temporal Information System for Use

WISS 2018 [2 4] [5,6] Query-by-Dancing Query-by- Dancing Cao [1] OpenPose 2 Ghias [7] Query by humming Chen [8] Query by rhythm Jang [9] Query-by-tapp

AP AP AP AP AP AP AP( AP) AP AP( AP) AP AP Air Patrol[1] Air Patrol Cirond AP AP Air Patrol Senser Air Patrol Senser AP AP Air Patrol Senser AP

(fnirs: Functional Near-Infrared Spectroscopy) [3] fnirs (oxyhb) Bulling [4] Kunze [5] [6] 2. 2 [7] [8] fnirs 3. 1 fnirs fnirs fnirs 1

研究報告用MS-Wordテンプレートファイル

Exploring the Art of Vocabulary Learning Strategies: A Closer Look at Japanese EFL University Students A Dissertation Submitted t

untitled

Microsoft Word - フェイスブック入門(6版)

BOK body of knowledge, BOK BOK BOK 1 CC2001 computing curricula 2001 [1] BOK IT BOK 2008 ITBOK [2] social infomatics SI BOK BOK BOK WikiBOK BO

DEIM Forum 2014 P Web Web,,, 1. Web Web 1 Web Web Web. 2 3 Web

untitled

Vol.20, No.1, 2018 Castillo [10] Yang [11] Sina Weibo 3 Castillo [10] Twitter 4 Twitter [12] Twitter ) 2 Twitter [13] 3. Twitter Twitter 3

[ 演習 3-6AA] ウェブページの検索結果の表示順序 ( 重要 ) 10D H 坂田侑亮 10D F 岩附彰人 10D D 財津宏明 1.1 ページランクとは ページランクとは グーグルが開発した検索エンジンのウェブページの重要度を判定する技術である サーチエ

DEIM Forum 2012 E Web Extracting Modification of Objec

1 2. Nippon Cataloging Rules NCR [6] (1) 5 (2) 4 3 (3) 4 (4) 3 (5) ISSN 7 International Standard Serial Number ISSN (6) (7) 7 16 (8) ISBN ISSN I

分析のステップ Step 1: Y( 目的変数 ) に対する値の順序を確認 Step 2: モデルのあてはめ を実行 適切なモデルの指定 Step 3: オプションを指定し オッズ比とその信頼区間を表示 以下 このステップに沿って JMP の操作をご説明します Step 1: Y( 目的変数 ) の

IPSJ SIG Technical Report Vol.2009-HCI-134 No /7/17 1. RDB Wiki Wiki RDB SQL Wiki Wiki RDB Wiki RDB Wiki A Wiki System Enhanced by Visibl

main.dvi

二項ソフトクラスタリング分析例 この資料では Visual Mining Studio のアイコン Dyadic Soft Clustering を使って 二項ソフトクラスタリング 分析をする方法を説明します 二項ソフトクラスタリングは一般的には PLSI, PLSA などの名前で知られています 株

3_23.dvi

(a) (b) 1 JavaScript Web Web Web CGI Web Web JavaScript Web mixi facebook SNS Web URL ID Web 1 JavaScript Web 1(a) 1(b) JavaScript & Web Web Web Webji

IT,, i

IPSJ SIG Technical Report Vol.2010-NL-199 No /11/ treebank ( ) KWIC /MeCab / Morphological and Dependency Structure Annotated Corp

untitled

DEIM Forum 2014 P3-3 A Foreseeing System of Search Results based on Query Operations on the Graph Interface

1 7.35% 74.0% linefeed point c 200 Information Processing Society of Japan

2 目次 1 はじめに 2 システム 3 ユーザインタフェース 4 評価 5 まとめと課題 参考文献

PowerPoint プレゼンテーション

スライド 1

PowerPoint プレゼンテーション

1012  ボットネットおよびボットコードセットの耐性解析

SNS Flickr Flickr Flickr SNS 2. SNS Twitter [2] Flickr [3] [4] Twitter Twitter Flickr Flickr Flickr Flickr Flickr Twitter 1 document 3. Flickr API Fli

DEIM Forum 2009 C8-4 QA NTT QA QA QA 2 QA Abstract Questions Recomme

Microsoft PowerPoint - LinkMining_ ppt

1 2 3 ( ) ( ) SNS SNS Facebook %[g]( %[ ]) [ ] IT LNS (Life Networking Service) LNS LNS LNS SNS SNS 3. LNS (Life Networking S

2. メンバー管理 2.1 管理者権限 2.2 組織の登録 2.3 役職の登録 2.4 メンバーの登録 2.5 共有アドレス帳 2.6 グループの管理

Publish/Subscribe KiZUNA P2P 2 Publish/Subscribe KiZUNA 2. KiZUNA 1 Skip Graph BF Skip Graph BF Skip Graph Skip Graph Skip Graph DDLL 2.1 Skip Graph S

3807 (3)(2) ,267 1 Fig. 1 Advertisement to the author of a blog. 3 (1) (2) (3) (2) (1) TV 2-0 Adsense (2) Web ) 6) 3

9_18.dvi

1 Web DTN DTN 2. 2 DTN DTN Epidemic [5] Spray and Wait [6] DTN Android Twitter [7] 2 2 DTN 10km 50m % %Epidemic 99% 13.4% 10km DTN [8] 2

Exfront4.1.0リリースノート

IPSJ SIG Technical Report Vol.2016-CE-137 No /12/ e β /α α β β / α A judgment method of difficulty of task for a learner using simple

調査結果 1 国内ユーザー SNS 利用率 トップは で 69.6% 1 位は 69.6% 2 位は 40.9% 3 位は 23.0% 調査対象者が 利用している SNS を複数回答で聞いたところ 1 位は で 69.6% 2 位以下は が 40.9% が 23.0% が 19.6% が 19.4%

,,, Twitter,,, ( ), 2. [1],,, ( ),,.,, Sungho Jeon [2], Twitter 4 URL, SVM,, , , URL F., SVM,, 4 SVM, F,.,,,,, [3], 1 [2] Step Entered

Windows7 OS Focus Follows Click, FFC FFC focus follows mouse, FFM Windows Macintosh FFC n n n n ms n n 4.2 2

(Microsoft PowerPoint - \203|\203X\203^\201[\224\255\225\\\227p\216\221\227\ ppt)

1. [1, 2, 3] (PDF ) [4] API API [5] ( ) PDF Web Web Annotate[6] Digital Library for Earth System Education(DLESE)[7] Web PDF Text, Link, FreeTe

IPSJ SIG Technical Report Vol.2017-ARC-225 No.12 Vol.2017-SLDM-179 No.12 Vol.2017-EMB-44 No /3/9 1 1 RTOS DefensiveZone DefensiveZone MPU RTOS

独立行政法人情報通信研究機構 Development of the Information Analysis System WISDOM KIDAWARA Yutaka NICT Knowledge Clustered Group researched and developed the infor

PowerPoint プレゼンテーション


2-1. システム概要 2-2. システムの設計 SNS Twitter Web-GIS 推薦システム スマートグラスを統合 平常時は観光回遊行動支援 災害時は避難行動支援 情報の蓄積 共有 推薦とナビゲーションを可能にする 有用性 時間的制約の緩和 スマートグラスの統合 動的 リアルタイム性 SN

main.dvi

評論・社会科学 120号(P)☆/1.楊

Transcription:

学習を必要としない自然言語文からの個人情報検知技術 広瀬緑 吉浦裕 Web 上のコミュニケーションサービスとして SNS や microblog などが広く普及する一方, これらのソーシャルメディアを通じた個人情報の漏洩が問題となっている. そこで, 我々はソーシャルメディアに開示しようとする文章に個人情報が含まれることを検知する技術 ( 想起検知技術 ) を開発している. 想起検知技術は, 大量のサンプル文章を用いて学習を行う従来の検知手法とは異なり, 学習のかわりに Web 検索を用いて個人情報が含まれることを検知する. 本論文では, 現状の想起検知技術の問題点を分析し, 検知精度を維持しながら処理時間を短縮する手法, 文章単位から単語単位で検知可能にする手法, 個人情報の事前登録を不要化する手法の提案をした.1000 件の文章を用いて提案手法を評価し, 有効性とさらなる課題を明らかにした. Detecting Personal Information in Natural Language Sentences Posted in Social Media Midori Hirose and Hiroshi Yoshiura As social media, such as social networks and micro blogs, are used more and more widely, revelation of personal information in these media becomes a big problem. To warn the user of such revelation, we constructed a system that detects personal information in sentences that is to be posted in social media. 1. はじめに Web 上のコミュニケーションサービスとして,SNS(Social Networking Service) や microblog などのソーシャルメディアが広く普及している. 国内最大規模の SNS である mixi[1] では加入者が 2100 万人を超え, また, 世界最大規模の SNS である Facebook[2] の加入者は 8 億人を超えている. また,microblog である Twitter[3] の 1 日の投稿件数は 5000 万件におよび, 人間の重要な活動であるコミュニケーションを活発にしている. 一方, これらのソーシャルメディアを通じた個人情報の漏洩が問題となっている. ユーザが投稿した文章から犯罪につながる情報が漏洩した事例として,Twitter に旅行中であることを示唆する書き込みをしたユーザが空き巣の被害に遭ったという事件があった [4]. この事例ではユーザが居場所を絶え間なくアップデートしていたため, 泥棒が犯行におよぶことができた. また,mixi 上で飲酒運転と無免許運転を告白した男性が, 勤務先から解雇された事例があった [5]. 他にも, ヴァージンアトランティック航空は Facebook 上で, 同航空や乗客を批判した客室乗務員 13 人を解雇したという事例もあった [6]. その対策として,SNS に投稿された日記の開示制御技術が挙げられる. これは, 日記ごとに閲覧するユーザを 友達まで や 友達の友達まで などと指定することができる. しかし, 日記やユーザごとに公開範囲を指定するのはユーザの手間となり, コミュニケーションを阻害してしまう. そこで, 我々は Web 上のコミュニケーションに適した自然言語情報の開示制御 DCNL(Disclosure Control of Natural Language information) を提案し研究している [7]. DCNL はユーザがソーシャルメディアへ投稿したテキストをチェックし, 個人情報の漏洩を検知する. そして, 検知された語句を言い換えることで個人情報の漏洩を防ぐことを目標としている.DCNL の中核である自然言語文から個人情報を検知する技術は想起検知技術と呼ばれる [8]. 想起検知技術は個人情報がテキストに直接記載している場合だけでなく, 間接的に 1 語または複数語句から示唆する場合も検知することができる. 従来, このようにテキストから個人情報を検知するためには, 個人情報を含む文章と含まない文章のサンプルをあらかじめ用意し機械学習をする必要があった. 想起検知技術は機械学習とは異なり,Web 検索を利用するため, 事前にサンプルを用意して学習する必要がないという特徴を持つ. しかし, 想起検知技術は処理速度が遅いため実用的とは言い難い. 加えて, 個人情報の漏洩を文章単位で検知するため, どの語句から漏洩しているのか分からず言い換え処理へつなげることができない. さらに, 検知すべき個人情報をあらかじめ登録する必要があるためユーザにとって手間である. 電気通信大学 University of Electro-Communications 1 c2011 Information Processing Society of Japan

本論文では, 個人情報検知技術の問題点を分析し, 解決策を提案 検討した. 以下, 第 2 章ではソーシャルメディアの開示制御技術に関する実態調査と先行研究について述べ, 第 3 章で機械学習と想起検知技術の違いを述べる. 第 4 章では個人情報検知技術の問題点を分析する. 第 5 では処理速度の高速化手法を提案し検討する. 第 6 章では漏洩個所を絞り込む新たな指標を提案し検討する. 第 7 章では個人情報を登録しなくても個人情報漏洩を検知する技術の提案と検討について述べる. 第 8 章では提案 検討した手法についてまとめる. 2. 先行研究 2.1 ソーシャルメディアの実態調査 Gross らは,Facebook ユーザ 4000 人を対象に, 個人情報公開に関する調査を行った [9]. その結果, 本名を公開しているユーザは 89%, 誕生日を公開しているユーザは 88%, 住所を公開しているユーザは 54% であると報告している.Lewis らは,Facebook の公開範囲の設定に関する調査を行い, ユーザの 1/3 がプロフィールを友人公開に設定しているが,2/3 は全体公開にしていることを報告している [10]. さらに,Meeder らは Twitter で利用できるリツイートによる情報漏洩の問題を指摘している [11]. リツイートとは他のユーザのツイートを引用形式で自分のアカウントから発信することである. シマンテック社はソーシャルメディアからの保護に関する調査を行い,94% の企業がソーシャルメディアからの漏洩に対する自社の評判の失墜, 顧客企業の信頼の低下, 情報漏洩や収益低下といった悪影響に苦しんでいると発表した [12]. Hasel らは facebook のアプリケーションメディアを通じた個人情報漏洩に関する問題を指摘している [13]. 2.2 攻撃手法 Lam らは台湾の SNS における,592548 アカウントの分析し, 友人からの一言コメントを解析することで 80% のユーザの本名を明らかにできると報告している [14]. Narayanan らは,Twitter と Flickr[15] のアカウントを両方持っている人に対して, ネットワークトポロジーを使い, 同じユーザかどうかの類似度を測定する手法を提案している [16].Backstorm らは匿名化された SNS データに対してネットワークトポロジーからユーザ名を推定する手法を提案している [17]. 2.3 対策技術ソーシャルメディアにおける個人情報の漏洩対策として, 開示範囲制御機能が提供されている. 例えば,facebook の日記では 友人まで公開 友人の友人まで公開 などの公開制限が設定できる. だが, この対策は日記を作成する際に, ユーザ自身で設定する必要があり, 開示範囲の適切な設定がユーザにとって必ずしも容易ではない点, 設定に手間がかかる点が指摘される. そこで, ソーシャルメディアにおける開示範囲を自動的に設定する方式として,Zhu らは協調フィルタリングを使って開示範囲の制限を自動的に行う方式を提案している [18]. 他にも Bank らはお互いの SNS 内でのやり取りからその親密度を測定し, 開示範囲の制限を行う方式を提案している [19]. しかし, これらの対策は日記の開示範囲を公開 非公開の二者択一でしか選ぶことができず, コミュニケーションを妨げる可能性がある. 2.4 DCNL 図 1 に示すように自然言語処理により文章中の語句を認識し, 個人情報を示す要注意語句である場合は, 削除または言い換えることで個人情報の開示制御を行う. このように DCNL は従来の開示制御技術である公開 非公開の二者択一ではなく, 文章を公開しつつ最小限の語句を言い換え 削除することで, コミュニケーションを妨げずに個人情報を保護する. DCNL の要件は次の 4 項目である. 個人情報を漏洩する恐れのある語句を言い換えまたは削除する. 文章に直接記述された個人情報だけではなく,1 語または複数語句から示唆する個人情報も検知する. 言い換えにおいては文章の意味と面白さを維持する. 言い換えルールを自動的に学習するなど, 個人の負担を最小限に抑える. このように, ユーザが個人情報の漏洩を心配することなく, コミュニケーションを楽しむことを目標としている. 投稿者 ソーシャルメディア 来週 西 6 号館で就職説明会やるらしいですね 3. 機械学習と想起検知技術の比較 閲覧者の認証 DCNL 個人情報検知システム 言い換えシステム 図 1 DCNL モデル 来週 あの建物で就職説明会やるらしいですね Web 閲覧者 自然言語文から個人情報を抽出する技術として, 機械学習を用いた場合の問題点を挙げた上で, 我々が提案し研究している想起検知技術の違いを述べる. 3.1 機械学習 : 学習を必要とする機械学習ではあらかじめ用意されたデータセットから学習する必要がある. 例えば, 2 c2011 Information Processing Society of Japan

SVM では正と負のデータを基に識別関数を学習する. そして, 新しいデータを解析する際に学習した識別関数を基に正と負に分ける. このような機械学習を, 自然言語文から個人情報を検知する技術に用いた場合,5 つの問題点がある. 第 1 の問題は, 個人情報に対する識別関数を学習するためには, 個人情報が漏洩している正のデータと漏洩していない負のデータを大量に用意する必要がある. 第 2 の問題は, 個人情報は個々のユーザによって異なるため多種多様となり, ユーザごとの正 負のデータを収集することは難しい. 第 3 の問題は, データが正または負であると判断するための人手がかかり, 機械学習で利用する前のデータの準備に時間がかかる. 第 4 の問題は, ユーザ以外の他人がサンプルデータを正負と判断すると, ユーザの軸と異なる可能性がある. 第 5 の問題は,SVM や Boosting などの機械学習では正 負の判断を文単位でしか検知できないことである. そのため, どの語句から個人情報が漏洩しているかわからない. このように, 機械学習を用いて自然言語文から個人情報を検知しようとすると, 対応しきれない問題点がある. 3.2 想起検知技術 : 学習を必要としないそこで, 我々は学習を必要としない技術である想起検知技術を提案, 研究している [8]. 想起検知技術は検索エンジンを利用することで, 直接記述されている個人情報だけではなく, テキストから想起される個人情報も検知する. その想起検知技術のアルゴリズムを図 2 に示す. はじめに, 個人情報を NG ワードとして DCNL にあらかじめ登録しておく. そしてテキストが直接または間接的に NG ワードを示唆するときに検知する. 図 2 の例文 来週の就職説明会は西 6 号館でやるらしいですね,NG ワード 電気通信大学 の検知手順を示す. まず, テキストに対して自然言語処理を行い, 名詞を抽出する. このとき, 接尾辞を除いた名詞と, 複数の連続する名詞や接尾辞を結合した複合語を抽出する. 図 2 の例文ではシードが 来週, 就職, 説明, 西,6, 就職説明会,6 号館 となる. 次に, シードから最大 m 語までの順列を生成しクエリとする. 検索エンジンを用いてクエリ集合 { 来週, 就職, 就職説明会, },{ 来週就職, 就職来週, },{ 来週就職説明, 来週西 6 号館就職説明会, } の Web 検索を行う. このとき, シード数を n とすると, クエリ数 R はとなる. 検索結果の上位 k 件までのタイトルを検査し, その中から NG ワード 電気通信大学 が出現した回数である出現回数 A をカウントする. 電気通信大学 の出現回数 A をクエリ数 R で割って正規化した値, すなわち検索 1 回当たりの 電気通信大学 の出現回数を想起度とし, 式 (1) に記す. score = A/R (1) (A: 出現回数,R: クエリ数 ) ある文章の想起度が設定した閾値以上のとき個人情報の漏洩として検知する. このように, 想起検知技術では検索エンジンを用いることで, テキストに個人情報 ( 電気通信大学 ) が直接記載されていなくても検知可能となる. 例えば, テキストに 西 6 号館 のような特徴的な建物名が書かれている場合や, 調布の大学 のように地名と機関種別が組み合わさる場合も, テキストの語句を Web 検索すると検索結果に個人情報 ( 電気通信大学 ) が多数出現するので検知できる. さらに, UEC と 電通大 という略称がテキストに含まれている場合も, 略称を用いて Web 検索すると個人情報 ( 電気通信大学 ) が多数出現するため検知可能となる. そのため, あらかじめ電気通信大学を指し示す語句 UEC 電通大 西 6 号館 を登録しなくてもテキストから電気通信大学が検知可能となる. ゆえに, 機械学習のようにあらかじめ個人情報を含むテキストと含まないテキストを用意し学習する必要がないため, 機械学習で述べた問題 1 から 4 までが解決する. 問題 5 に対しては第 4 章で述べる. 4. 想起検知技術の問題点 図 2 想起検知技術 特定ユーザのテキスト 1000 文を想起検知技術で評価した. このとき, 人が NG ワード 電気通信大学 を直接記載または間接的に示唆すると判断したテキストは 51 件 ( 直接 :7 件, 間接 44 件 ) であった. 3 c2011 Information Processing Society of Japan

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2 処理時間 (s) 情報処理学会研究報告 4.1 膨大な処理時間 1 文あたりの平均処理時間は 398 秒であり, 解析に時間がかかる. 想起検知のアルゴリズム内で最も処理時間を要する部分は.Web 検索を用いる箇所である. テキストから抽出されたシードの総数を n とすると, クエリはシードからなる最大 m 語の順列により生成するため, クエリの総数はとなる. そのため, シードの総数が多く長いテキストの場合は膨大な処理時間となる. 4.2 漏洩語句の特定が不可方式 (1) で表わされる想起度はテキスト中のすべてのシードが持つ漏洩の平均である. そのため, どの語句 ( シード ) から情報が漏洩しているのか特定することができない. 4.3 NG ワードの登録想起検知では, あらかじめ検知対象を NG ワードとして登録する必要がある. しかし,NG ワードはユーザごとに異なるため, システム管理者が各ユーザの個人情報を一括して登録することは困難である. また, ユーザ自身があらかじめ個人像法を登録することは手間となる. さらに, システムがユーザの個人情報を保持することは新たなプライバシー情報漏洩のリスクをもたらす. 5. 処理時間の短縮 14000 12000 10000 8000 6000 4000 2000 0 0 5 10 15 20 25 30 シード数 ( 個 ) 図 3 処理時間とシード数の関係 従来方式方式 A 方式 B 方式 C 5.1 方式想起検知技術の処理時間を短縮するために以下 2 つの方式 A と B, その 2 つを合わせた方式 C を検討する. A) シードの総数を減らすための複合語の一括化 B) クエリを減らすために順列から組み合わせにする C) 方式 A B を両方取り入れたものまず図 2 の例文を用いて方式 A について説明する. 従来の想起検知ではテキスト中に複合語が存在すると 就職, 説明, 就職説明会 のように包含関係にあるシードを生成するため, クエリ数が膨大となる. 例えば, 図 2 の例では 来週, 就職, 説明, 西,6, 就職説明会, 西 6 号館 の 7 個のシードを生成する. そこで, 他のシードに包含されるシードを除くと 来週, 西, 就職説明会, 西 6 号館 の 4 つに削減できる. 次に方式 B について説明する. クエリ数 R を削減するために, シードの順列から組み合わせへ変更しクエリを生成する. このとき, クエリ内のシード順序はテキストの出現順序に沿ったものとする. 5.2 評価図 3 に計 3 通りの方式を組み込んだ想起検知を用いて,4 章の分析に用いた 1000 文を解析した処理時間を示す. このとき, 改良方式による検知精度の変化も調査した. F 値 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 0.45 閾値 図 4 閾値と F 値の関係 従来方式方式 A 方式 B 方式 C 4 c2011 Information Processing Society of Japan

0.03 0.06 0.09 0.12 0.15 0.18 0.21 0.24 0.27 0.3 0.33 0.36 0.39 0.42 0.45 0.48 0.51 0.54 0.57 0.6 情報処理学会研究報告 表 1 最良 F 値 方式名 最良 F 値 再現率 適合率 閾値 従来方式 0.813 0.765 0.867 0.3 方式 A 0.817 0.745 0.905 0.4 方式 B 0.822 0.725 0.949 0.4 方式 C 0.825 0.784 0.870 0.3 タイトルにワードが存在する タイトルにワードが存在しない III. NG ワードが存在する順位 j による重みを付ける. (2) (3) 図 3 より, 方式 C が最も速いことが分かる. 従来方式と方式 C の処理時間を比較すると, 平均処理時間は 398 秒から 30 秒へ短縮され約 13 倍速くなっている. また, 検知精度への影響も評価するため, 各改良方式に対して閾値を想起度 0.1 から 2.0 間で 0.1 ずつ変え, 再現率, 適合率,F 値を求めた. 図 4 に各方式に対する F 値の評価結果を, 表 1 に各方式の最良 F 値を示す. 図 4 より閾値 1.2 までは各改良方式の F 値は従来方式と同等であった. 表 1 より, すべての方式に対する最良 F 値は方式 C の 0.825( 閾値 0.3, 再現率 0.784, 適合率 0.870) であり, 従来方式の最良 F 値 0.813 ( 閾値 0.3, 再現率 0.765, 適合率 0.867) に比べほぼ同等となった. よって, 方式 C は検知精度を低下させることなく処理時間を短縮させた. 6. 情報漏洩語句の特定 6.1 方式例えば, 自宅から 30 分の調布の大学へ通っています というテキストを攻撃者が読んだとき, 著者が電気通信大学の学生であると推定する場合を考える. 攻撃者はテキスト中の全ての名詞 自宅 30 分 調布 大学 から推定するのではなく, 語句 大学 調布 から推定する. このように攻撃者はテキスト中のすべての語句の組み合わせから個人情報を推定するのではなく, 特定の語句の組み合わせから個人情報を推定する. そこで, 従来の想起度を求める方式と同様に各クエリの検索を行った後で,NG ワードの出現回数の平均ではなく, 特定のクエリのみに着目し想起度を算出する. まず, 従来方式と同様にテキストからシードを生成する. 次に, シードから最大 m 語までの組み合わせを生成しクエリ q とする. このとき, シード数を n とすると, クエリ数はとなる. 各クエリの値 score( ) を, 以下の方法で算出する. I. 番目のクエリを Web 検索し, 検索結果の上位件のタイトルを取得する. II. 番目のタイトルに NG ワードが存在するか探索し,NG ワー ドの有無を以下のように返す. IV. NG ワードの出現情報と重みにより, を算出する. なお, ス コアをの範囲にするためにで割る. そして, 各クエリで算出した値の最大値を調査したテキストの想起度とし, そのときのクエリに含まれるシードを個人情報漏洩語句とする. この提案方式を方式 D とする. 6.2 評価提案した方式 D を組み込んだ想起検知技術を用いて,4 章の分析に用いた 1000 文を解析し検知精度を調査した. 図 5 に, 閾値を 0.03 から 0.60 へ 0.03 ずつ変化した際の F 値を示す. F 値 0.85 0.8 0.75 0.7 0.65 0.6 0.55 閾値 図 5 F 値と閾値の関係 (4) 方式 D 5 c2011 Information Processing Society of Japan

図 5 の最良 F 値が 0.825( 閾値 0.15, 再現率 0.784, 適合率 0.870) となり,5 章にある従来方式と比較してほぼ同等となった. よって, 方式 D は従来方式と比べて検知精度を低下させることなく単語単位で検知が可能となり, 言い換えシステムにおいて有効な方式である. 7. 事前知識の不要化 7.1 方式隠したい個人情報はユーザごとに異なるため, システム管理者が各ユーザの個人情報を一括して登録することは困難である. また, ユーザ自身があらかじめ個人情報を登録することは手間となる. そこで, 電気通信大学 などの NG ワードをあらかじめ登録せずに個人情報の漏洩を検知する手法を検討する. まず, 従来方式と同様にテキストからシードを生成する. 次に, シードから最大 m 語までの組み合わせを生成しクエリ q とする. このとき, シード数を n とすると, クエリ数はとなる. そして, 各クエリの検索結果にある上位 k 件から名詞を抽出する. それぞれの名詞に対して式 (4) を用いて想起度を算出する. 方式 D と同様に各名詞のスコアの最大値をその名詞が持つ想起度とする. しかし, 検索結果に出現するすべての名詞に対してスコアを算出すると, 個人情報でない語句まで検知してしまい誤検知率が上がってしまう. そこで, 以下の手法を用いて名詞を限定する. 1 つ目は, 個人情報の種類ごとに意味カテゴリを定義し, その意味カテゴリに属する名詞のみ検知する. 意味カテゴリとは, 個人情報の種類を表す語句である. 例えば, 通勤 通学先は学校名や会社名といった語句であるため, 意味カテゴリが組織名となる. 市区町村は住所を表す語句であるため, 意味カテゴリは地域となる. このカテゴリ分けは形態素解析エンジン MeCab[20] を用いて行う. これらの形態素解析は語句を 一般 地域 人名 組織 などと分けることができる. もし, 解析対象の名詞が未定義語のときは調査対象として検知する意味カテゴリとして加える. 2 つ目は, 検索結果から抽出する名詞の中には 電気通信大学 の略称である 電通大 や 電通大学 など類似する語句が存在する. 綴りは異なるが, これらの語句が示す単語は 電気通信大学 と共通している. そのため, これら語句を同等にカウントするために,Peter の提案する類義語判定技術を用いる [21]. これは, 単語 A と類似する単語 B を求めるとき, 単語 A と B の両方を同時に Web 検索した際のドキュメント数を, 単語 B のみを Web 検索した際のドキュメント数で割る. 以下に, その式 ( 5) を示す. のドキュメント数 のドキュメント数 (5) 上記 2 つの手法を用いて提案手法に組み込んだ場合の基本アルゴリズムを図 6 に示す. 入力は各クエリの検索結果であり, 検索結果から名詞を抽出したあとに意味カテゴリとの判定を行う. 意味カテゴリとなった名詞は, 式 (5) の類義語判定をする. 類義語と判断された名詞同士は出現頻度を数える際に同じものとしてカウントする. 最後に想起度が閾値以上を示す名詞を出力する. 例文 自宅から 30 分の調布の大学に通っています を用いて, 提案方式により個人情報 ( 通勤 通学先 ) を検知する動作を示す. このとき, 個人情報の意味カテゴリは組織名である. 閾値は方式 D の最良 F 値のときの 0.15 とする. 表 2 に例文を解析した結果を示す. 表 2 の解析結果から, 名詞 調布 サーバ のスコアが閾値以上であるが, 意味カテゴリ ( 組織名 ) に属さないため検知しない. よって, 名詞 田園調布学園大学 調布学園 電気通信大学 の 3 語のみ検知する. 各クエリの検索結果 ( タイトル ) 名詞を抽出 意味カテゴリとマッチ 類義語判定 スコアの計算 閾値以上 結果の出力 意味カテゴリ 組織名, 地域名, 図 6 基本アルゴリズム 6 c2011 Information Processing Society of Japan

表 2 例文 1 のクエリと解析結果 クエリ 名詞 意味カテゴリ スコア 調布 調布 1 自宅 サーバ 0.053 調布大学 田園調布学園大学 0.37 調布大学 調布学園 0.37 調布大学 電気通信大学 0.27 7.2 評価例文と同様に, 提案した方式を組み込んだ想起検知技術を用いて,4 章の分析と同じ 1000 文を解析し分析した. スコアを算出する手法は 6 章の提案方式 D と同様であるため, 個人情報 ( 電気通信大学 ) の再現率が 6 章の評価結果と同じとなる. また, 1000 文に対して検知した個人情報の総数は 4039 件で, 種類は 1961 種であった. 検知回数の多い上位 10 件のリストを表 4 に示す. このとき, 個人情報 ( 電気通信大学 ) が 3 位で検索回数は 47 回であった. 上位 10 件の検知結果のうち ブログ や 社会 といった明らかに組織名ではない情報を検知していた. その原因を調べたところ, MeCab ではこれらの名詞をすべて組織名と判断するため, ブログ や 社会 の名詞が誤って意味カテゴリに含まれる. その結果, 明らかに組織名とは異なる名詞が, 上位 10 件中 2 件存在した. 提案手法を用いて 1000 文を解析したことで, 新たな問題点が見つかった. それは, 検索結果のタイトルに出現する語句はさまざまであり, かつ, 典型的な文章形態をなしていないため, 形態素解析エンジンが誤検知しやすい. 表 3 検知回数上位 10 件の名詞 上位 名詞 検知回数 1 ブログ 332 2 ジョルダン 157 3 電気通信大学 47 4 社会 46 5 トコロ 29 6 毎日 28 7 東京大学 28 8 中日 21 9 クロックス 20 10 京都大 20 8. まとめと今後の課題 ソーシャルメディアからの個人情報の漏洩を防止するために, 開示しようとするテキストに個人情報が含まれていることを自動的に検知し, 警告または言い換えるシステム DCNL を開発している. テキストから個人情報を検知する従来技術としては, 個人情報を含むテキストと含まないテキストをサンプルとして大量に用意し, 機械学習によって識別関数を学習する方法が知られているが, 我々は, 学習を必要としない検知技術である想起検知技術を検討している. 本論文では, 想起検知技術の問題点を分析し, 改良方式の提案と評価を行った. その結果, 検知精度を維持しながら平均処理時間を 398 秒から 30 秒へ約 1/13 に短縮した. また, 検知精度を低下させることなく, 文章単位から単語単位で個人情報の漏洩を検知可能とした. その結果, どの語句から漏洩しているか判定することができ, 文章のどの語句を修正すればいいのかユーザに示すことができる. さらに, 単語単位で検知可能にしたことによって DCNL の言い換え処理へつなげることが可能となった. 最後に, 個人情報をあらかじめ登録しなくても検知可能とする手法を提案した. 今後の課題は以下のとおりである. (1) 個人情報の登録を不要化する手法について結果の分析と改良 (2) 大量のデータを用いて評価 分析 参考文献 1) ソーシャルネットワーキングサービス mixi, http://mixi.jp/ 2) ソーシャルネットワーキングサービス Facebook, http://www.facebook.com/ 3) マイクロブログ Twitter, http://twitter.com 4) USA Today Could Twittering about your vacation put your home at risk? http://www.usatoday.com/travel/news/2009-06-08-twitter-vacation_n.htm/ 5) J-cast ニュース 飲酒運転告白 冗談 でも勤務先解雇 http://www.j-cast.com/2007/04/20007061.html?p=all/ 6) AFP 英ヴァージン 客室乗務員 13 人を解雇 SNS に悪質な書き込み http://www.afpbb.com/article/environment-science-it/it/2534377/3486758 7) 片岡春乃, 渡辺夏樹, 水谷桂子, 吉浦裕 : 自然言語情報の開示制御技術 DCNL の実現に向けて - プライバシー情報検知手法 -, 情報処理学会第 40 回コンピュータセキュリティ研究会, pp237-242 (2008) 8) 渡辺夏樹, 片岡春乃, 内海彰, 吉浦裕 : SNS 上のテキストからプライバシー情報を検知するシステムの構想と予備評価, 日本セキュリティマネジメント学会誌, Vol.24, No.3, pp.15-30 (2011) 9) Gross, R. Acquisti, A.: Information Revelation and Privacy in Online Social Networks, Proceedings of the 2005 ACM Workshop on Privacy in the Electronic Society (WPES),pp.71--80,New York (2005) 7 c2011 Information Processing Society of Japan

10) Lewis, K., Kaufman, J., Christakis, N.: The taste for privacy: an analysis of college student privacy settings in an online social network, Journal of Computer-Mediated Communication, 14(1), pp.79--100 (2008) 11) Meeder B., et al.: RT@ IWantPrivacy: widespread violation of privacy settings in the Twitter social network, In Proc. of the Web 2.0 Privacy and Security Workshop (2010) 12) シマンテック シマンテックのソーシャルネットワーク調査, 企業資産を保護していない企業は訴訟費用の増加と会社の評判失墜のリスクにさらされていると発表 http://www.symantec.com/ja/jp/about/news/release/article.jsp?prid=20110802_01. 13) Hasel, M. and Iacono, L.:Security in OpenSocial-Instrumented Social Networking Services, In Proceedings of the Communications and Multimedia Security, pp. 40-52( 2010). 14) Lam, I., Chen, K., and Chen, L.: Involuntary Information Leakage in Social Network Services, Proceedings of the 3rd International Workshop on Security, pp.167--183, Takamatsu, Japan (2008) 15) flickr, http://www.flickr.com/ 16) Narayanan, A. and Shmatikov, V.: De-anonymizing Social Networks, In Proc. of the 30th IEEE Symposium on Security and Privacy, pp.173-187 (2009). 17) Backstrom, R. et al.: Wherefore art thou R3579X? Anonymized Social Networks, Hidden Patterns, and Structural Steganography, In Proc. of the 16th International World Wide Web Conference, pp.181-190 (2007) 18) Zhu, Y., Hu, Z., Wang, H., Hu, H., Ahn, G.:A Collaborative Framework for Privacy Protectionin Online Social Networks 19) Banks, L., Wu, S.:All Friends are NOT Created Equal: An Interaction Intensity based Approach to Privacy in Online Social Networks, 2009 International Conference on Computational Science and Engineering Vancouver(2009) 20) 形態素解析エンジン, MeCab: Yet Another Part-of-Speech and Morphological Analyzer http://mecab.sourceforge.net/ 21) Peter, D.: Mining the Web for Synonyms:PMI-IR versus LSA on TOEFL, Institute for Information Technology, National Research Council of Canada 8 c2011 Information Processing Society of Japan