IBISML2014配布用佐久間.pptx

Similar documents
Microsoft PowerPoint - #07 Quiz Are you still with me .pptx

Page 1 of 6 B (The World of Mathematics) November 20, 2006 Final Exam 2006 Division: ID#: Name: 1. p, q, r (Let p, q, r are propositions. ) (10pts) (a

25 II :30 16:00 (1),. Do not open this problem booklet until the start of the examination is announced. (2) 3.. Answer the following 3 proble

MOTIF XF 取扱説明書

BB-WAVE.com『仕事に使えるARCHIVES』 PowerPoint 用テンプレート 其の五

AtCoder Regular Contest 073 Editorial Kohei Morita(yosupo) A: Shiritori if python3 a, b, c = input().split() if a[len(a)-1] == b[0] and b[len(

soturon.dvi

L1 What Can You Blood Type Tell Us? Part 1 Can you guess/ my blood type? Well,/ you re very serious person/ so/ I think/ your blood type is A. Wow!/ G

2

AJACS18_ ppt

h23w1.dvi

T rank A max{rank Q[R Q, J] t-rank T [R T, C \ J] J C} 2 ([1, p.138, Theorem 4.2.5]) A = ( ) Q rank A = min{ρ(j) γ(j) J J C} C, (5) ρ(j) = rank Q[R Q,

4.1 % 7.5 %

(check matrices and minimum distances) H : a check matrix of C the minimum distance d = (the minimum # of column vectors of H which are linearly depen

RX600 & RX200シリーズ アプリケーションノート RX用仮想EEPROM

kubostat2018d p.2 :? bod size x and fertilization f change seed number? : a statistical model for this example? i response variable seed number : { i

IPSJ SIG Technical Report Vol.2014-EIP-63 No /2/21 1,a) Wi-Fi Probe Request MAC MAC Probe Request MAC A dynamic ads control based on tra

JOURNAL OF THE JAPANESE ASSOCIATION FOR PETROLEUM TECHNOLOGY VOL. 66, NO. 6 (Nov., 2001) (Received August 10, 2001; accepted November 9, 2001) Alterna

Read the following text messages. Study the names carefully. 次のメッセージを読みましょう 名前をしっかり覚えましょう Dear Jenny, Iʼm Kim Garcia. Iʼm your new classmate. These ar

きずなプロジェクト-表紙.indd


浜松医科大学紀要


Visual Evaluation of Polka-dot Patterns Yoojin LEE and Nobuko NARUSE * Granduate School of Bunka Women's University, and * Faculty of Fashion Science,

紀要1444_大扉&目次_初.indd

単位、情報量、デジタルデータ、CPUと高速化 ~ICT用語集~


1 1 tf-idf tf-idf i

IPSJ SIG Technical Report Vol.2016-CE-137 No /12/ e β /α α β β / α A judgment method of difficulty of task for a learner using simple

"CAS を利用した Single Sign On 環境の構築"

™…

国際恋愛で避けるべき7つの失敗と解決策

,,,,., C Java,,.,,.,., ,,.,, i


Microsoft Word J.^...O.|Word.i10...j.doc

joho09.ppt

はじめに

日本語教育紀要 7/pdf用 表紙

RNA-seq

PowerPoint Presentation


7,, i

FAX-760CLT

総研大文化科学研究第 11 号 (2015)

早期教育の効果に関する調査(II)-親子の意識と学習状況の分析を中心に-


-like BCCWJ CD-ROM CiNii NII BCCWJ BCCWJ

On the Wireless Beam of Short Electric Waves. (VII) (A New Electric Wave Projector.) By S. UDA, Member (Tohoku Imperial University.) Abstract. A new e

高等学校 英語科


[2] , [3] 2. 2 [4] 2. 3 BABOK BABOK(Business Analysis Body of Knowledge) BABOK IIBA(International Institute of Business Analysis) BABOK 7

2

17 Proposal of an Algorithm of Image Extraction and Research on Improvement of a Man-machine Interface of Food Intake Measuring System

ChIP-seq

NKK NEWS 2012

untitled

2. Twitter Twitter 2.1 Twitter Twitter( ) Twitter Twitter ( 1 ) RT ReTweet RT ReTweet RT ( 2 ) URL Twitter Twitter 140 URL URL URL 140 URL URL


橡ボーダーライン.PDF

429

A Feasibility Study of Direct-Mapping-Type Parallel Processing Method to Solve Linear Equations in Load Flow Calculations Hiroaki Inayoshi, Non-member

:



Literacy 2 Mathematica Mathematica 3 Hiroshi Toyoizumi Univ. of Aizu REFERENCES [1] C.P Williams [2] [3] 1 Literacy 2 Mathematica Ma

LAN LAN LAN LAN LAN LAN,, i

Microsoft Word - Win-Outlook.docx

kubostat2017b p.1 agenda I 2017 (b) probability distribution and maximum likelihood estimation :

WE WESB WENB WESNB 428

A Nutritional Study of Anemia in Pregnancy Hematologic Characteristics in Pregnancy (Part 1) Keizo Shiraki, Fumiko Hisaoka Department of Nutrition, Sc

2

クレジットカードの利用に関する一考察―JGSS-2005の分析から―

Kyushu Communication Studies 第2号

\615L\625\761\621\745\615\750\617\743\623\6075\614\616\615\606.PS

ユーザーズマニュアル

untitled

_Y05…X…`…‘…“†[…h…•

3. ( 1 ) Linear Congruential Generator:LCG 6) (Mersenne Twister:MT ), L 1 ( 2 ) 4 4 G (i,j) < G > < G 2 > < G > 2 g (ij) i= L j= N

Plan of Talk CAS CAS 2 CAS Single Sign On CAS CAS 2 CAS Aug. 19, 2005 NII p. 2/32


untitled

資料2 ゲノム医療をめぐる現状と課題(確定版)


A5 PDF.pwd

, IT.,.,..,.. i

Pari-gp /7/5 1 Pari-gp 3 pq

alternating current component and two transient components. Both transient components are direct currents at starting of the motor and are sinusoidal

Hospitality-mae.indd

22 1,936, ,115, , , , , , ,

A5 PDF.pwd

206“ƒŁ\”ƒ-fl_“H„¤‰ZŁñ

Z7000操作編_本文.indb


Introduction Purpose This training course describes the configuration and session features of the High-performance Embedded Workshop (HEW), a key tool

C. S2 X D. E.. (1) X S1 10 S2 X+S1 3 X+S S1S2 X+S1+S2 X S1 X+S S X+S2 X A. S1 2 a. b. c. d. e. 2

2. TMT TMT TMT 1 TMT 3 1 TMT TMT PI PI PI SA PI SA SA PI SA PI SA

How to read the marks and remarks used in this parts book. Section 1 : Explanation of Code Use In MRK Column OO : Interchangeable between the new part

How to read the marks and remarks used in this parts book. Section 1 : Explanation of Code Use In MRK Column OO : Interchangeable between the new part

論 文 Earnings Management in Pension Accounting and Revised Jones Model Kazuo Yoshida, Nagoya City University 要約本稿では退職給付会計における全ての会計選択を取り上げて 経営者の報告利益管理行動

(3.6 ) (4.6 ) 2. [3], [6], [12] [7] [2], [5], [11] [14] [9] [8] [10] (1) Voodoo 3 : 3 Voodoo[1] 3 ( 3D ) (2) : Voodoo 3D (3) : 3D (Welc

Transcription:

第 17 回情報論的学習理論ワークショップ (IBIS2014) セッション : ビッグデータ利用の社会的側面 2014.11.19 ゲノムプライバシの保護と 個別化医療への展開 筑波 CS/JST CREST 佐久間淳

個人ゲノム

個人ゲノムでわかること あたる 耳あかのタイプ 乳糖不耐性 2 型糖尿病の罹患リスク 祖先はどの大陸から来たか? アルコールを飲むと赤くなるか 生活習慣病の罹患リスク 性格 IQ 能力 微妙 ( 後天的要因が大きい )

個人ゲノムに基づく解析 類似性に基づく鑑定 本人鑑定 父子鑑定 親戚鑑定 ゲノム疫学 疾患関連遺伝子探索 疾患リスクモデル予測 個別化医療 / 出生前診断 疾患リスク予測に基づく予防医療 薬剤感受性評価

疾患関連遺伝子探索 分割表 (e.g, 心筋梗塞 ) 検定 EX. 帰無仮説 対象疾患と この SNP は独立 についてカイ二乗検定 ゲノムワイド相関解析 全 SNP について対象疾患との関連の強さを網羅的に検定

疾患リスク予測 遺伝的容易由来のリスク 臨床的要因由来のリスク Presence of SNP1 effect of SNP1 on the risk of developing DT A clinical factor (e.g. age) effect of the factor on the risk of developing DT 遺伝的要因 E.g., SNP n の対立遺伝子が AA であるか否か 臨床 環境的要因 年齢 性別 飲酒歴 喫煙歴, etc.

個人ゲノムにまつわる fact Good 個人の様々な体質を表現 解析コストが劇的に低下 生涯変化しない

個人ゲノムの解析コスト hnp://www.genome.gov/sequencingcosts/

個人ゲノムにまつわる fact Good 個人の様々な体質を表現 解析コストが劇的に低下 生涯変化しない Bad? 強力な識別子であり かつ 属性情報 ( プライバシ ) 詐取が容易 ( オレオレゲノム ) 個人ゲノムがもたらすリスクは現時点で不明 遺伝的差別の可能性

個人ゲノム = 強力な識別子 + 詳細な個人情報 個人情報 ID 名前 住所 年年齢 病院名 疾病 薬 0A99934 筑波太郎郎 茨城県 32 A 病院 腰痛 XXX 1B92372 統計花 子 東京都 46 B 医院 鼻炎 YYY 3C88892 匿匿名幸 京都府 42 Cクリニック 水 虫 ZZZ 個人ゲノム 識別子 属性情報 ID 名前 ABCC8 APOEA1 ABCA1 APOE AKAP10 0A99934 筑波太郎郎 AG GG CC CT GA 1B92372 統計花 子 GG GG CT CC AA 3C88892 匿匿名幸 GG GG CC CC AA 識別子 識別子 : 本人鑑別に使えるぐらい強力属性情報 : そのものが形質を表現

予期できないリスク personal genome project (PGP) ボランティアベースでの個人ゲノムデータの収集 提供 将来において 匿名性は保証されない ことへの同意 (open consent) が前提 PGP が提示する リスク 父系やその他血縁関係の推定 雇用 保険 金融サービスに影響する統計的証拠の推定 被験者やその親戚の犯罪性向の推定 被験者に相当する DNA を合成し これを犯罪目的で ( 誰かに ) 埋め込む 効果的な治療法が知られていない疾患の罹患リスク開示

社会上の影響 遺伝子差別 遺伝子による 就職差別, 結婚差別, 保険差別 米国は医療保険や採用の遺伝的差別法律により既に禁じている 教育への影響 : あなたの子供が将来 プロ野球選手になれる可能性は x% 大学教授になれる可能性は y% ゲノムクライム ゲノムなりすまし ゲノム脅迫? 2 ちゃんにおまえのゲノムのせるぞ! 遺伝子に基づく広告?

機械学習の立ち位置 : 統計的推論による攻撃 情報公開 攻撃者の背景知識 Common knowledge MAF/LD 分割表 public 公的 DB 情報の推定 ( 推論 /ML) 家系図 市役所 /FB 何がどれぐらい推測できるか? 評価リスク 一部の標的ゲノム Blog/twiNer private

統計 DB クエリの Seman`c security 秘密のデータ +A さん 420.3 万円 420.2 万円 w w? 秘密のデーター A さん A さん in A さん not in 平均年収? 線形回帰モデル? f(d+a) とf(D) がそんなに変わらなければ f(d+a) の開示はAさんのプライバシを侵害していない ( ことにしよう!) 2014/11/25

統計 DB クエリの Seman`c security 秘密のデータ +A さん w w? 秘密のデーター A さん A さん in A さん not in 線形回帰モデル? f(d+a) とf(D) がそんなに変わらなければ f(d+a) の開示はAさんのプライバシを侵害していない ( ことにしよう!) 15 2014/11/25

プライバシ保護の技術 : 秘密計算 データ X データ Y 計算結果のみ共有 AはXをBに開示したくない, BはYをAに開示したくない ただし (X,Y) についてf(X,Y) を計算し結果のみ知りたい 信頼できる第三者 (TTP) なしにこれを実現したい アプローチ : 暗号理論に基づく安全な分散計算 2014/11/25 16

Computa`on over encrypted values Holomorphic encryp`on Bob m 1, m 2 :secret numbers Alice??? c 1 =Enc(m 1 ): encryp`on of m 1 c 1 c 2 =Enc(m 2 ): encryp`on of m 2 c 2

疾患リスク予測 遺伝的容易由来のリスク 臨床的要因由来のリスク Presence of SNP1 effect of SNP1 on the risk of developing DT A clinical factor (e.g. age) effect of the factor on the risk of developing DT 遺伝的要因 E.g., SNP n の対立遺伝子が AA であるか否か 臨床 環境的要因 年齢 性別 飲酒歴 喫煙歴, etc.

プライバシを保護したリスク予測 疾患リスク予測 準同型暗号上の疾患リスク予測

Virus detec`on from RNA [Sasakawa+WPES2014] Oblivious Evalua`on of Non- determinis`c Finite Automata with Applica`on to Privacy- Preserving Virus Genome Detec`on] NORO virus TTGATCTT AGGCTATC TTGATCTT AGGCTATC VIRUS INFECTED! NORO virus Exists? Iden`fica`on of infected virus is not easy Electronic microscope Cloning Virus RNA detec`on from pa`ents samples (blood, faecals) by next genera`on sequencer Quick and rela`vely inexpensive Privacy concern remains Personal genome is sequenced together with virus RNA Bio terrorism

Privacy- preserving virus detec`on with string matching Private string (genome sequence of subject) ATGCGTGCGAAGTCGCCAGA Private panern (target RNA virus) GT(GA GC)*A Find presence of private panern (virus) (genome sequence) Learn presence only, nothing else in private text

String Search via NFA Evalua`on Linear NFA: Exact search Ukkonen NFA: Approximate search P = ababb P = ababb 2-differences are permitted Thompson NFA: Regular expression search P = (AA AT)((AG AAA)*)

Matrix Representa`on of NFA a 0 1 2 3 4 b 0 1 2 3 4 0 1 0 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 2 1 1 1 0 1 2 1 1 0 1 1 3 1 1 1 1 0 3 1 1 1 1 1 4 1 1 1 1 1 4 1 1 1 1 1 As a preprocessing, the algorithm constructs adj-matrix of NFA for each edge label. If NFA has the edge from j to k labeled by character c - M[c]j,k = 0 Otherwise - M[c]j,k = 1

Automaton Holder (AH) input: automaton A Construct and encrypt matrices M of A, and send to TH. Total complexity is O(nm^2) time, comm. and O(nm) round ONE Protocol Text Holder (TH) input: text T Generate state vector S. For i = 1 to n Calculate following update formula obliviously Send the results to AH. m: the size of automaton A, n: the length of text T

RNA Virus Detec`on RNA Virus: Sequencing Data: Detec`ng the virus: E.g. Norovirus Approximately 6,500 base pairs (4- lener alphabet). Can be read in either direc`on 13,000 leners Muta`ons (lener subs`tu`ons) can occur. Fragments of RNA ( short read ): each sample 150 bases x 3~6M Includes RNA from many different organisms (metagenome), not just virus or host. If infected: 30,000 reads belong to the virus ( 1.2%). Map short reads to a reference genome for the virus: substring matching task allowing for inser`on/dele`on/ subs`tu`on. If the virus is present in the sample, each posi6on of the reference genome will be covered at least a certain number of 6mes by mapped short reads.

Oblivious RNA Virus Detec`on Mapping all short reads to the reference genome would be too expensive in an privacy- preserving context. Instead, we select a highly- preserved substring (31 leners) from the reference genome and use it to test a sample of short reads (30,000 or about 0.5% of all reads) using our oblivious k- mismatch algorithm (ONE). Worst- case probability of false nega6ve < 0.074% Results on 3 infected samples and 1 control: Performances: Using 512 bit encryp`on keys, with Intel Xeon E5540 2.53GHz cores:

おわりに 個人ゲノム利用が社会にもたらすインパクト 利用と保護をどうバランスさせるか 差分プライバシと秘密計算 プライバシ研究における機械学習の立位置 攻撃手段 漏えい量評価 秘密計算