1. 遺伝のしくみ クローニングのための遺伝学 ( 前編 ) Akifumi Shimizu 遺伝子 (gene DNA 配列 ) は 染色体 (chromosome) に乗って遺伝する 遺伝子が染色体に座乗する位置は決まっている ( 遺伝子座 locus) 同一遺伝子座に座乗できる遺伝子 ( 対立遺伝子 allele) は 複数種が存在しうる 染色体は 減数分裂時に乗り換える (crossing over) ことがある 染色体が乗り換えることで 染色体上の対立遺伝子の組み合わせは変化する 一対の染色体からなる架空の 倍体生物の場合の遺伝の様子をみてみましょう ( 図 1) この生物の体細胞は n= 本の染色体を持ちます 子孫へと遺伝情報を伝えるのは 卵と精子という特別な細胞 ( 配偶子 ) のみです 配偶子は減数分裂をして n=1 本の染色体を持っています ( 半数体 一倍体と呼ぶ ) 図 1 ではアルファベットで遺伝子座の種類を 下付き数字で対立遺伝子の種類を区別しています 減数分裂時には相同染色体の姉妹染色体分体間で乗り換え (Crossing over) が 少なくとも一回起こります 乗り換えにより 遺伝子座の位置は変わりませんが 同一染色体上の対立遺伝子の組合せが変わります 生じる組合せの頻度は遺伝子座間の位置関係 ( 遺伝距離 ) と関係します 図 1 の例では 4つの配偶子のうち つで対立遺伝子の組合せが変わっています ( 新たに A1B1C1D1E1F1GH と ABCDEFG1H1 が生じた ) 図 1 減数分裂のモデル図 (n=) はセントロメア, セントロメアを中心として短い方を短腕 (A~C) 長い方 (D~H) を長腕という a) 普通の細胞 b) 染色体の倍加 c) 乗り換え d)4 個の配偶子へ n = ( 減数分裂中 ) ( 減数分裂中 ) n = 1 P1 P P1 P1 P P P1 P1 P P A 1 A A 1 A 1 A A B 1 B B 1 B 1 B B C 1 C C 1 C 1 C C D 1 D D 1 D 1 D D E 1 E E 1 E 1 E E F 1 F F 1 F 1 F F G 1 G G 1 G G 1 G H 1 H H 1 H H 1 H 実際には配偶子は一度に何種類もつくられます 沢山の子孫の対立遺伝子セットを調べることで 遺伝子が一緒に伝わる ( 連鎖する ) か 伝わらない ( 独立する ) かの頻度を調べその比率をできるようになります この比率は 遺伝子の染色体上の座乗位置と関係します イネなど二倍体の自殖性植物の場合 両親を交配して得た交雑当代 (F1) を自殖した F 集団を使えば 遺伝子座間の位置関係を推定することができます ( 連鎖地図の作成 ) 1
. DNA マーカー 染色体の乗換えにより遺伝情報がどのように継承されるかを追跡するための便利なツールに DNA マーカーがあります 手軽に使える DNA マーカーの1つに SSR マーカーがあります SSR マーカーは GAGAGAGA のように単純な塩基単位の繰り返し (Simple Sequence Repeats, SSR) によって構成される DNA 配列を元にしたマーカーで SSR は真核生物のゲノム中に普遍的に散在していることが知られています SSR の反復数は変異し易いことが知られており 反復数の変異を断片長多型として検出することで複数の対立遺伝子を識別することができます SSR マーカーは 電気泳動法によって断片長多型を識別するのが一般的です ( 図 ) (GA) 6 6 反復 (GA) 10 10 反復 GAGAGAGAGAGA GAGAGAGAGAGAGAGAGAGA CTCTCTCTCTCT CTCTCTCTCTCTCTCTCTCT PCR で増幅 PCR で増幅 電気泳動による断片長多型の検出 図 電気泳動法による SSR 断片長多型の検出例 或る SSR マーカーについて断片長が異なる 倍体の自殖品種 A と B を考えます 品種 A の SSR 断片長を A 型とし 品種 B のものを B 型としたとき 品種 A と品種 B を交配した F1 個体は A 型 B 型両方の断片長を持つヘテロ遺伝子型になるはずです 図 3 は 品種 A の SSR 断片長が品種 B の断片長よりも長い場合の バンドパターン別の遺伝子型の振り分け例です 遺伝子型は品種 A B F1 を A/A, B/B, A/B のように表記する場合と A, B, H の様に一文字で表記する場合があります
図 3 SSR マーカーの断片長多型と遺伝子型の実例 他の DNA マーカーとしては SNP(Single Nucleotides Polymorphisms 一塩基多型 ) マ ーカーがあります SNP マーカーは最小単位の DNA 多型であり もっとも高密度な多型 情報を得られます 3
3. マーカーの連鎖 例としてイネの染色体 4 に座乗する SSR マーカー (RM5 と RM41) の連鎖を見てみま しょう 品種 G 品種 K の自殖 F 86 系統について遺伝子型を調べたところ 表 1 のよう になりました 各マーカーの遺伝子型は 品種 G ホモ型 (GG), 品種 K ホモ型 (KK) ヘテロ 型 (GK) の 3 種類で 種の組み合わせは 3 種類 3 種類の 9 種類になります ( 表 1) 表 1 RM5 RM41 86 GG GG 4 GG GK 4 GG KK 0 GK GG 4 GK GK 31 GK KK 3 KK GG 0 KK GK 7 KK KK 13 この マーカー間の組換え価を計算してみます マーカー間の組換え価が r であると仮定すると RM5 と RM41 について 品種 G と 品種 K を交配した雑種当代 F1 個体の遺伝構成は次のようになるはずです F 1 組換え価 r RM5 G K r RM41 G K この F1 を自殖して F 分離集団をつくります このとき F1 からできる配偶子は RM5 と RM41 について 4 種類に分類でき 非組換え型配偶子組換え型配偶子 頻度 (1-r )/ r / G K G K G K K G 1 3 4 の頻度で非組換え型と組換え型の配偶子が生じます 卵配偶子 (4 種類 ) と花粉配偶子 (4 種類 ) の組合わせで 16 組が生じ 共優性マーカーの遺伝子型を調べることによって F 個体の分離は次に示す 9 種類に分別できます 4
F 1 GG-GG (1-r ) /4 GG-GK (1-r )r /4 3 GG-KK r /4 RM5 G G RM5 G G G G RM5 G G RM41 G G RM41 G K K G RM41 K K 1 1 1 3 3 1 3 3 4 GK-GG (1-r )r /4 RM5 G K K G RM41 G G G G 1 4 4 1 5 GK-GK (1-r ) /4+r /4 RM5 G K K G G K K G RM41 G K K G K G G K 1 1 3 4 4 3 6 GK-KK (1-r )r /4 RM5 G K K G RM41 K K K K 3 3 7 KK-GG r /4 8 KK-GK (1-r )r /4 9 KK-KK (1-r ) /4 RM5 K K RM5 K K K K RM5 K K RM41 G G RM41 G K K G RM41 K K 4 4 4 4 それぞれ 配偶子の頻度に応じて 9 種類の遺伝子型クラスの期待頻度が記されています ( 自分で紙に書き出して組み合わせ数がこの通りになることを確認しよう!!) RM5 と RM41 で実際に観測できたデータ数と上図モデルの結果をまとめてみると次のようになります 表 5
組換え価 r の マーカーで 実際に観測される遺伝子型の個数は 確率関数としてあらわすことができます 9 面のサイコロを振って ( 各面が表になる確率が fa~fi で与えられている ) 出る目の数を計測し (a~i) 観測値の出る確率を考えるのです その確率関数は多項分布の形であらわされ (N=a+b+c+d+e+f+g+h+i) N! P( r) = a! b! c! d! e! f! g! h! i! a b c d e f g h ( f ) ( f ) ( f ) ( f ) ( f ) ( f ) ( f ) ( f ) ( f ) i a b のようになります! 記号は階乗を表し N!=N (N-1) 1 です 期待頻度の重複を考慮すると上式はもう少し簡単になって N! a+ i b+ d + f + h c+ g P( r) = ( f ) ( ) ( ) ( ) e a f b f c f e 式 1 a! b! c! d! e! f! g! h! i! のようになります 多項分布は 高校の数学で習う二項分布の拡張版です 二項分布はコインの表裏など つの背反な事象を表す確率関数で N 回コインを投げて表が出る回数が k 回 ( 裏の出る数は N-k 回 ) であり表になる確率が r のとき N P r =! ( ) k!( N k)! 1 c d k N k ( r) ( r) のように表せます もし多項分布の意味がすんなりと理解できなくても 考え込まないようにしましょう 式 1 を見直してください a~i N はただの観測値の数です fa,fb,fc,fe も変数はたった一つ r の関数です r は 0.0~0.5 までの値をとります Excel のシート上で a~i を記入しておき (RM5-RM41 の場合の値は表 を参照 ) ある r に対する P(r) を Excel の式で計算させ r の値を 0.001~0.500 まで 0.001 刻みで計算させると 次のようになります e f g h i 図組換え価の推定 P(r ) 0.0000006 0.0000005 0.0000004 0.0000003 0.000000 0.0000001 0 RM5-RM41 の組換え価 0 0.1 0. 0.3 0.4 0.5 r r を様々に変化させる中で P(r) が一番大きくなる r は a~i の遺伝子型を観察したときの尤 ( もっと ) もらしい r であるといえます 最も尤もらしい P(r) の値を与える r の推定値 rˆ を最尤 ( さいゆう ) 推定量といい 最尤推定量によるモデルパラメター ( この場合の r) の推定方法 6
を最尤法といいます マーカー間の真の組換え価は神様しか知らないので 人間が組換え価の情報を得るには 実際にマーカー遺伝子型の分離を観測し 観測データから組換え価を推定するしかないことに注意してください 最尤法の使用方法をより単純な確率モデル ( 二項分布 ) で説明しましょう コインは表裏が均等にできていれば表がでる確率は 0.5 であると考えます 今 コインの表面の重さを裏面より 10% 重くしてみました 表の出る確率はいくらになるでしょうか? この場合 実際にそのコインを投げて表裏を計測し 観察値から予測をします 50 回コインを投げて表は 30 回出たとします 表の出る確率を r として計測値のようになる確率を考えてみると 50! P( r) = r 30!0! ( r) 30 ( 1 ) 0 となり r を様々に変化させて P(r) を見ることがでます 表 3 表 裏 r P(r ) 30 0 0.50 0.0419 30 0 0.55 0.0888 30 0 0.60 0.1146 30 0 0.65 0.0875 30 0 0.70 0.0370 30 0 0.75 0.0077 30 0 0.80 0.0006 表 3 では r=0.60 のときに P(r) が最大なので 表面を 10% 重くした改造コインの場合の表面の出る確率は r=0.60 になったと考えるのが最も尤もらしいです r=0.6 とみなすモデルは r=0.5 のままであるとするよりも.7 倍 (P(0.6)/P(0.5)) 尤もらしいです 最尤推定量の計算は P(r) を最大にする r を求めればよく 前頁の図 [ 組換え価の推定 ] のグラフを見れば分かるように P(r) の傾きが 0 になるところ つまり P (r) =0 のところになります 以上の P(r) のように観測データは既知として固定し P(r) を r だけの関数と考えるとき この関数を尤度と呼びます 今まで P(r) としてきたものは正確には L(r) と書くべきでものでした 尤度 L(r) を最大にする r は対数尤度で考えると便利です RM5-RM41 の組換え価に話を戻すと 式 1(p6) から尤度は L( r) = 定数 a+ i b+ d + f + h ( r) r( r) r c + g 1 1 ( 1 r + r ) e 4 4 4 となり 対数尤度は log L ( r) = log定数 + (a + i + b + d + f + h)log(1 r) + (c + g + b + d + f + h)log r + elog(r r + 1) になります 対数尤度の傾きか 0 になる r が尤度を最大にする最尤推定量になるので 4 7
(a + i + b + d + f + h) (c + g + b + d + f + h) (4r ) e log = + + 1 r r r r + 1 ( L ( r) ) が 0 になる r を計算します この等式は r の三次式になるので 結局は 0 r 0.5 の中で logl(r) が最大になる値を探すことになります RM5-RM41 の観測データの場合 Excel で 0.001 刻みで r を変化させると r=0.11 で log L(r) が最大になりました L(0.11) と L(0.5) の比を常用対数 log10 であらわしたものを特に LOD(logarithm of odds) スコアとよび LOD スコアが閾値以上であると つのマーカーは連鎖していると考えることができます (L(0.5) は マーカーが独立の場合の尤度なので 独立モデルとの差が大きく連鎖していると考える ) RM5-RM41 の場合の LOD スコアは 17.6 になり 連鎖の可能性は非常に高いです ( 共優性マーカー同士の場合 LOD が 3.0 以上なら連鎖しているといえる ) 4. 連鎖地図 マーカー間の連鎖の計算方法が分かれば 調査した全マーカーについてペアをつくり (N マーカーなら N (N-1)/ 回の計算量になる ) 各々の連鎖を調べることができます 単純なデータの場合は ペア間の連鎖が閾値以上 ( たとえば LOD3 r<0.3) のものは同一連鎖群とみなして マーカーを群分けすることができます 理想的にはこのときの群の数が染色体の数になります 群内のマーカーの順序はさまざまな統計手法を用いて計算します ( 詳しい計算は後述 ) 計算は 専用のソフトウェアを使うのが一般的です 例 : イネの連鎖地図の一部 8