人工知能補足_池村 - PDF 無料ダウンロード

私くしにとって生涯の指針となっている木村先生の教え 1. 想定外の発見の重要性 à unsupervised data mining for big data 2. 技術への信頼と技術開発の重要性 2D gel à BLSOM

trna の二次元分離 : Methods in Enzymology 長さに依存する分離想定外の米国での Post Doc の時代高分離能長さに依存しない分離

29 種類の原核物ののBLSOM 0 0 0 i 199 Uure Hinf Xfas Nmen Ecol Buch Tpal Vcho Rpro Cjej Chla Bhal Hpyl Syne Xfas Nmen Paer j Bbur Bsub Mtub Drad Tmar 111 Mjan Phor Paby Aper Aaeo Mthe Aful Halo big data

多次元空間のデータをその遠近関係を十分に反映しながら 2 次元平面上で表示する Sequences X1 X1 XM XM X2 Linear projection(ex, PCA) 線形写像ある平面に対して垂直に移動して一番近い格子点へ帰属 X2 Non-linear projection(som) 非線形写像漁師の網でかつゴムのように伸び縮みする一番近い網の結び目に帰属後にゴムの伸び縮みを無くす

Chr1 10kb 断片各染色体のテロメアから断片化 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 細胞 A 細胞 B 細胞 C 細胞 D 細胞 E 細胞 F 細胞 G 細胞 H 多様な ENCODE データについての BLSOM ヒストンのメチル化やアセチル化の数値に着目すればそれらの状態が細胞で異なるゲノム部位が BLSOM で細胞別にクラスター化する特定の転写因子の結合レベルの数値に着目すればその転写因子の結合が細胞で異なるゲノム部位が BLSOM で細胞別にクラスター化する各断片での DNase sensitivity level の数値に着目 DNase sensitivity が細胞で異なるゲノム部位が BLSOM で細胞別にクラスター化する

各染体の特定領域 (21q22.11 内の約 45kb) でのヒストンのメチル化やアセチル化レベルや DNase sensitivity レベルや特定の転写因の結合レベルが表されている数値データも取得可能

ヒト DNA の百科事典あらゆる機能要素類をゲノム上にマッピングしようという計画 2003(1%)& 2007: ENCODE project ENCODE data も big data 化しているので BLSOM を含む AI の良い研究対象

DNase で切れやすい場所ゲノムの 3D 配置 Histone DNA 計算機予測と実験的検証転写制御エレメント転写 RNA (protein-coding & noncoding RNA) 遺伝子としては noncoding が多い?

数値データも取得可能

タンパク質 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 AA AC AD AE AF AG AH AI 2 連アミノ酸 BLSOM (COG) 11 にグループ化させた 3 連続アミノ酸頻度をいたが分離能が良いアミノ酸配列全をいるよりも Window (200 aa に断化 ) を設けたが分離能が良い

BLSOM は生命科学分野の多様な問題に適用可能であるオリゴペプタイド頻度に基づく BLSOM によるタンパク質の機能推定法の確立タンパク質の 2 連や 3 連アミノ酸 ( オリゴペプタイド ) の使用頻度に関する BLSOM を行うとタンパク質は機能ごとに分離する傾向を示した

Dipep-FL Dipep-W200S50 Tri11-W200S50 Tetra6-W200S50 得られた SOM マップ上にて単一の COG が分類されている点を赤 2 つの COG の場合薄い赤 3 つ以上の場合青とした際の分類結果の分布図アミノ酸配列全長を用いるよりも Window ( 断片化 ) を設けた方が分離能が良い 2 連続アミノ酸頻度集約 6 アミノ酸の 4 連続アミノ酸頻度を用いるよりも 11 にグループ化させた 3 連続アミノ酸頻度を用いた方が分離能が良い

オリゴペプタイド頻度でのアミノ酸配列解析の際の条件の検討 1. 2.

便利なデータベースやソフト類 EmEditor 統合 TV

統合 TV は情報解析ツールの使い方の動画

多様な生物種の合計で約 3 万の mirna 配列

C mirna mir-122 mir-122

AI-guided search for interactions of disease viral RNAs with host mirnas Ebola, Flu, Zika, Dengue ウイルスゲノム由来の 20mer ( 両鎖 ) 全体ヒトの 2500miRNA ( 約 20mer) を分類しておく

Sequences X1 X1 XM XM X2 Linear projection:pca X2 Non-linear projection(som) ヒト mirna の 6mer 組成の AI は学習の過程も教えてくれる

ヒトインフルエンザウイルスゲノム由来の主要な 4 万の約 20mer ( 両鎖 ) 合体させて BLSOM 学習ヒトの 2500miRNA( 約 20mer) を分類しておく機械学習を続けるとの特定の 20mer ととの対でを形成

1 0.8 0.6 0.4 0.2 0 1930 1950 1970 1990 2010 下線 : トリmiRNA TCCAGTGTATGTTGATGGAG TCCAGTAACTGTTGATGGAG 下線 : ヒトmiRNA TCCAGTAAATGTTGATGGAG TCCAGTGACTGTTGATGGAG 1 0.8 0.6 0.4 0.2 0 1930 1940 1950 1960 1970 1980 1990 2000 2010

UCCAGUGUAUGUUGAUGGAG 1934 major: トリ mirna (11/11) UCCAGUAAAUGUUGAUGGAG 1978 major UCCAGUAACUGUUGAUGGAG 1983 major UCCAGUGACUGUUGAUGGAG 1995 以降 major: ヒト mirna (11/11) (UCCAAUGACUGUUGAUGGAG)2006 と 2007 minor で 2008 に消えた A% C% 33.4 19.6 32.9 19.1 18.6 32.4 1930 1950 1970 1990 2010 1930 1940 1950 1960 1970 1980 1990 2000 2010 G% U% 24.6 23.7 24.1 23.6 1930 1950 1970 1990 2010 23.2 22.7 22.2 1930 1950 1970 1990 2010