私くしにとって 生涯の指針となっている木村先生の教え 1. 想定外の発見の重要性 à unsupervised data mining for big data 2. 技術への信頼と技術開発の重要性 2D gel à BLSOM
trna の二次元分離 : Methods in Enzymology 長さに依存する分離 想定外の 米国での Post Doc の時代 高分離能 長さに依存しない分離
29 種類の原核 物の のBLSOM 0 0 0 i 199 Uure Hinf Xfas Nmen Ecol Buch Tpal Vcho Rpro Cjej Chla Bhal Hpyl Syne Xfas Nmen Paer j Bbur Bsub Mtub Drad Tmar 111 Mjan Phor Paby Aper Aaeo Mthe Aful Halo big data
多次元空間のデータをその遠近関係を十分に反映しながら 2 次元平面上で表示する Sequences X1 X1 XM XM X2 Linear projection(ex, PCA) 線形写像ある平面に対して垂直に移動して 一番近い格子点へ帰属 X2 Non-linear projection(som) 非線形写像 漁師の網でかつゴムのように伸び縮みする 一番近い網の結び目に帰属後に ゴムの伸び縮みを無くす
Chr1 10kb 断片 各染色体のテロ メアから断片化 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 細胞 A 細胞 B 細胞 C 細胞 D 細胞 E 細胞 F 細胞 G 細胞 H 多様な ENCODE データについての BLSOM ヒストンのメチル化やアセチル化の数値に着目すれば それらの状態が細胞で異なるゲノム部位が BLSOM で細胞別にクラスター化する 特定の転写因子の結合レベルの数値に着目すれば その転写因子の結合が細胞で異なるゲノム部位が BLSOM で細胞別にクラスター化する 各断片での DNase sensitivity level の数値に着目 DNase sensitivity が細胞で異なるゲノム部位が BLSOM で細胞別にクラスター化する
各染 体の特定領域 (21q22.11 内の約 45kb) でのヒストンのメチル化やアセチル化レベルや DNase sensitivity レベルや特定の転写因 の結合レベルが表 されている 数値データも取得可能
ヒト DNA の百科事典 あらゆる機能要素類をゲノム上にマッピングしようという計画 2003(1%)& 2007: ENCODE project ENCODE data も big data 化しているので BLSOM を含む AI の良い研究対象
DNase で切れやすい場所 ゲノムの 3D 配置 Histone DNA 計算機予測と実験的検証 転写制御エレメント 転写 RNA (protein-coding & noncoding RNA) 遺伝子としては noncoding が多い?
数値データも取得可能
タンパク質 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 AA AC AD AE AF AG AH AI 2 連アミノ酸 BLSOM (COG) 11 にグループ化させた 3 連続アミノ酸頻度を いた が分離能が良い アミノ酸配列全 を いるよりも Window (200 aa に断 化 ) を設けた が分離能が良い
BLSOM は生命科学分野の多様な問題に適用可能である オリゴペプタイド頻度に基づく BLSOM によるタンパク質の機能推定法の確立 タンパク質の 2 連や 3 連アミノ酸 ( オリゴペプタイド ) の使用頻度に関する BLSOM を行うと タンパク質は機能ごとに分離する傾向を示した
Dipep-FL Dipep-W200S50 Tri11-W200S50 Tetra6-W200S50 得られた SOM マップ上にて 単一の COG が分類されている点を赤 2 つの COG の場合 薄い赤 3 つ以上の場合 青とした際の分類結果の分布図 アミノ酸配列全長を用いるよりも Window ( 断片化 ) を設けた方が分離能が良い 2 連続アミノ酸頻度 集約 6 アミノ酸の 4 連続アミノ酸頻度を用いるよりも 11 にグループ化させた 3 連続アミノ酸頻度を用いた方が分離能が良い
オリゴペプタイド頻度でのアミノ酸配列解析の際の条件の検討 1. 2.
便利なデータベースやソフト類 EmEditor 統合 TV
統合 TV は情報解析ツールの使い方の動画
多様な生物種の合計で約 3 万の mirna 配列
C mirna mir-122 mir-122
AI-guided search for interactions of disease viral RNAs with host mirnas Ebola, Flu, Zika, Dengue ウイルスゲノム由来の 20mer ( 両鎖 ) 全体 ヒトの 2500miRNA ( 約 20mer) を分類しておく
Sequences X1 X1 XM XM X2 Linear projection:pca X2 Non-linear projection(som) ヒト mirna の 6mer 組成の AI は学習の過程も教えてくれる
ヒトインフルエンザウイルスゲノム由来の主要な 4 万の約 20mer ( 両鎖 ) 合体させて BLSOM 学習 ヒトの 2500miRNA( 約 20mer) を分類しておく 機械学習を続けると の特定の 20mer と との対で を形成
1 0.8 0.6 0.4 0.2 0 1930 1950 1970 1990 2010 下線 : トリmiRNA TCCAGTGTATGTTGATGGAG TCCAGTAACTGTTGATGGAG 下線 : ヒトmiRNA TCCAGTAAATGTTGATGGAG TCCAGTGACTGTTGATGGAG 1 0.8 0.6 0.4 0.2 0 1930 1940 1950 1960 1970 1980 1990 2000 2010
UCCAGUGUAUGUUGAUGGAG 1934 major: トリ mirna (11/11) UCCAGUAAAUGUUGAUGGAG 1978 major UCCAGUAACUGUUGAUGGAG 1983 major UCCAGUGACUGUUGAUGGAG 1995 以降 major: ヒト mirna (11/11) (UCCAAUGACUGUUGAUGGAG)2006 と 2007 minor で 2008 に消えた A% C% 33.4 19.6 32.9 19.1 18.6 32.4 1930 1950 1970 1990 2010 1930 1940 1950 1960 1970 1980 1990 2000 2010 G% U% 24.6 23.7 24.1 23.6 1930 1950 1970 1990 2010 23.2 22.7 22.2 1930 1950 1970 1990 2010