indd

Similar documents
ニュースレター10-1.indd


Visual Evaluation of Polka-dot Patterns Yoojin LEE and Nobuko NARUSE * Granduate School of Bunka Women's University, and * Faculty of Fashion Science,

On the Wireless Beam of Short Electric Waves. (VII) (A New Electric Wave Projector.) By S. UDA, Member (Tohoku Imperial University.) Abstract. A new e

_念3)医療2009_夏.indd

24 Region-Based Image Retrieval using Fuzzy Clustering

3_23.dvi

浜松医科大学紀要

The Evaluation of LBB Behavior and Crack Opening Displacement on Statically Indeterminate Piping System Subjected to Monotonic Load The plastic collap

ñ{ï 01-65

untitled


02[ ]小山・池田(責)岩.indd


2 The Bulletin of Meiji University of Integrative Medicine 3, Yamashita 10 11

EQUIVALENT TRANSFORMATION TECHNIQUE FOR ISLANDING DETECTION METHODS OF SYNCHRONOUS GENERATOR -REACTIVE POWER PERTURBATION METHODS USING AVR OR SVC- Ju


研究紀要52号(よこ)人間科学☆/1.垂沢

Table 1. Assumed performance of a water electrol ysis plant. Fig. 1. Structure of a proposed power generation system utilizing waste heat from factori

Corrections of the Results of Airborne Monitoring Surveys by MEXT and Ibaraki Prefecture

1 Fig. 1 Extraction of motion,.,,, 4,,, 3., 1, 2. 2.,. CHLAC,. 2.1,. (256 ).,., CHLAC. CHLAC, HLAC. 2.3 (HLAC ) r,.,. HLAC. N. 2 HLAC Fig. 2

<95DB8C9288E397C389C88A E696E6462>


4.1 % 7.5 %

05_藤田先生_責

Studies of Foot Form for Footwear Design (Part 9) : Characteristics of the Foot Form of Young and Elder Women Based on their Sizes of Ball Joint Girth

udc-2.dvi

Web Web Web Web Web, i

1 Web [2] Web [3] [4] [5], [6] [7] [8] S.W. [9] 3. MeetingShelf Web MeetingShelf MeetingShelf (1) (2) (3) (4) (5) Web MeetingShelf

A Nutritional Study of Anemia in Pregnancy Hematologic Characteristics in Pregnancy (Part 1) Keizo Shiraki, Fumiko Hisaoka Department of Nutrition, Sc

2006 [3] Scratch Squeak PEN [4] PenFlowchart 2 3 PenFlowchart 4 PenFlowchart PEN xdncl PEN [5] PEN xdncl DNCL 1 1 [6] 1 PEN Fig. 1 The PEN

Validation of a Food Frequency Questionnaire Based on Food Groups for Estimating Individual Nutrient Intake Keiko Takahashi *', Yukio Yoshimura *', Ta

7,, i

untitled

nagasaki_GMT2015_key09

IT,, i


1., 1 COOKPAD 2, Web.,,,,,,.,, [1]., 5.,, [2].,,.,.,, 5, [3].,,,.,, [4], 33,.,,.,,.. 2.,, 3.., 4., 5., ,. 1.,,., 2.,. 1,,

2 ( ) i

ChIP-seq

FIG 7 5) 7 FIG ) 7) 8) 9) 10) 11) 12) 3 18 Gymnastik 13) 1793 J. Ch. F. Guts Muths Gymnastik fuer die Juegend 1816 F. L. Jahn Turnkunst Rhythm

\615L\625\761\621\745\615\750\617\743\623\6075\614\616\615\606.PS

Fig. 4. Configuration of fatigue test specimen. Table I. Mechanical property of test materials. Table II. Full scale fatigue test conditions and test

Estimation of Photovoltaic Module Temperature Rise Motonobu Yukawa, Member, Masahisa Asaoka, Non-member (Mitsubishi Electric Corp.) Keigi Takahara, Me

0801297,繊維学会ファイバ11月号/報文-01-青山


00.\...ec5

How to read the marks and remarks used in this parts book. Section 1 : Explanation of Code Use In MRK Column OO : Interchangeable between the new part

2種の(1→3)-β-D-グルカン測定試薬の真菌に対する反応性の比較

17 Proposal of an Algorithm of Image Extraction and Research on Improvement of a Man-machine Interface of Food Intake Measuring System

千葉県における温泉地の地域的展開

The copyright of this material is retained by the Information Processing Society of Japan (IPSJ). The material has been made available on the website

11_渡辺_紀要_2007

202

IPSJ SIG Technical Report Secret Tap Secret Tap Secret Flick 1 An Examination of Icon-based User Authentication Method Using Flick Input for

How to read the marks and remarks used in this parts book. Section 1 : Explanation of Code Use In MRK Column OO : Interchangeable between the new part

MA3-1 30th Fuzzy System Symposium (Kochi, September 1-3, 2014) Analysis of Comfort Given to Human by Using Sound Generation System Based on Netowork o

(1 ) (2 ) Table 1. Details of each bar group sheared simultaneously (major shearing unit). 208

Rubin Rubin

<303288C991BD946797C797592E696E6464>

DEIM Forum 2010 A Web Abstract Classification Method for Revie

How to read the marks and remarks used in this parts book. Section 1 : Explanation of Code Use In MRK Column OO : Interchangeable between the new part

( ) [1] [4] ( ) 2. [5] [6] Piano Tutor[7] [1], [2], [8], [9] Radiobaton[10] Two Finger Piano[11] Coloring-in Piano[12] ism[13] MIDI MIDI 1 Fig. 1 Syst

yakugaku-kot.ppt

Journal of Geography 116 (6) Configuration of Rapid Digital Mapping System Using Tablet PC and its Application to Obtaining Ground Truth

IPSJ SIG Technical Report Vol.2016-CE-137 No /12/ e β /α α β β / α A judgment method of difficulty of task for a learner using simple

SD SD

RTM RTM Risk terrain terrain RTM RTM 48

How to read the marks and remarks used in this parts book. Section 1 : Explanation of Code Use In MRK Column OO : Interchangeable between the new part


013858,繊維学会誌ファイバー1月/報文-02-古金谷

Mikio Yamamoto: Dynamical Measurement of the E-effect in Iron-Cobalt Alloys. The AE-effect (change in Young's modulus of elasticity with magnetization

論 文 Earnings Management in Pension Accounting and Revised Jones Model Kazuo Yoshida, Nagoya City University 要約本稿では退職給付会計における全ての会計選択を取り上げて 経営者の報告利益管理行動

0801391,繊維学会ファイバ12月号/報文-01-西川

1 1 tf-idf tf-idf i

OJT Planned Happenstance




Q [4] 2. [3] [5] ϵ- Q Q CO CO [4] Q Q [1] i = X ln n i + C (1) n i i n n i i i n i = n X i i C exploration exploitation [4] Q Q Q ϵ 1 ϵ 3. [3] [5] [4]

Vol.54 No (July 2013) [9] [10] [11] [12], [13] 1 Fig. 1 Flowchart of the proposed system. c 2013 Information

過去26年間のスギ花粉飛散パターンのクラスター分析

™…

Microsoft Word - ??? ????????? ????? 2013.docx

& Vol.5 No (Oct. 2015) TV 1,2,a) , Augmented TV TV AR Augmented Reality 3DCG TV Estimation of TV Screen Position and Ro

untitled

,,.,,.,..,.,,,.,, Aldous,.,,.,,.,,, NPO,,.,,,,,,.,,,,.,,,,..,,,,.,

Core Ethics Vol. Nerriere D.Hon EU GS NPO GS GS Oklahoma State University Kyoto Branch OSU-K OSU-K OSU-K

Key words: Antibodies to Leptospira, Tokyo, Uveitis

短距離スプリントドリルが大学生野球選手の短距離走速度向上に与える効果

日本消化器外科学会雑誌第29巻第9号

29 jjencode JavaScript

untitled

Table 1 Characteristics of the study participants in Imari municipal hospital

Study on Application of the cos a Method to Neutron Stress Measurement Toshihiko SASAKI*3 and Yukio HIROSE Department of Materials Science and Enginee

日本感性工学会論文誌

<30375F97E996D88E812E696E6464>

10-渡部芳栄.indd


Abstract Objectives: This article presents a review of cancer control measures implemented in Phase One of the National Cancer Control Plan (

Transcription:

44 国立衛研報第 127 号 (2009) Bull.Natl.Inst.Health Sci.,127, 44-49 (2009 Notes アレルゲンデータベースAllergen Database for Food Safety (ADFS) のデータ改訂とアレルゲン性予測ツールの信頼性評価 中村亮介 #, 中村里香, 手島玲子 Major revision of the Allergen Database for Food Safety (ADFS) and validation of the motif-based allergenicity prediction tool Ryosuke Nakamura #, Rika Nakamura and Reiko Teshima We have been maintaining an integral web server system, the Allergen Database for Food Safety (ADFS), since 2005 (http://allergen.nihs.go.jp/adfs/). Recently, a group at the University of Nebraska-Lincoln released a new version of an allergen database, AllergenOnline. This database includes more than 1,300 allergens, all of which have been peer-reviewed by an international board of allergology experts. Here, we have totally revised the dataset of the ADFS by comparing it with that of AllergenOnline to improve the reliability of our allergen data. Moreover, the performance of our web-based tool for predicting new allergens (motif-based method), which was developed according to a theory proposed by Stadler & Stadler (2003), was validated using three methods. As a result of the integration of this allergen data, the number of (iso)allergens in the ADFS has increased to 1340, and epitope information is now available for 76 allergens. Using model datasets, the precision, recall, and specificity of our motif-based allergenicity prediction tool was proved to be 100.0%, 99.4%, and 100.0%, respectively. These results were similar to those for the original motif-based prediction model that was previously reported and are much better than those of the method recommended by FAO/WHO, especially with regard to the precision of predictions. Keywords: allergen, database, allergenicity prediction, epitope, motif 1. 背景アレルゲンタンパク質のエピトープや立体構造等に関するデータベースの開発は, 既知アレルゲン同士の交差反応性の予測や, 遺伝子組み換え作物に新規に組み込まれるタンパク質の潜在的アレルゲン性の予測など, 様々な情報を容易に取得することを可能とする. この目的のため, 我々は2005 年に, 当時の既存アレルゲンデータベースの情報と独自に精査した文献情報とを元に, 新しいアレルゲンデータベース,Allergen Database for Food Safety(ADFS) を作成し, 公開した 1). さらに, その内容を本誌にて詳述した 2). 以降,PSI-BLASTに代表される様々なインターフェースの追加 修正作業を行なうと共に, 毎年 1 回, アレルゲンとエピトープに関する最新のデータを追加してきたが, 一度登録されたデータの再校正や削除などは行なってこなかったため, いくつかのアレルゲンデータが最新の情報と食い違う可能性が懸念 # To whom correspondance should be addressed: Ryosuke Nakamura; 1-18-1 Kamiyoga, Setagaya-ku, Tokyo 158-8501 Japan Tel: +81-3-3700-9437, Fax: +81-3-3707-6950 E-mail: ryosnak@nihs.go.jp されていた. また, そもそも2005 年当時に存在していた他のデータベースにおけるアレルゲン登録に関するクライテリアも各データベースにより様々であり, 統一されてはいなかった. 近年, 米国ネブラスカリンカーン大学がアレルゲンデータベース AllergenOnline( 以下 AOL) を作成し, 公開している 3). このデータベースは, 登録アレルゲンの全てが国際的なアレルギーの専門家チームによるピアレビューを経ていることを大きな特徴としている. よって, 登録タンパク質が真にアレルゲンであるかどうかというエビデンスの信頼性において,AOLは現在知られているアレルゲンデータベースの中でも際だっていると思われた. しかし,AOLのアレルゲンデータはIgEエピトープに関する情報を含んでおらず, また, 潜在的アレルゲン性予測ツールとしても,80 残基のアミノ酸配列スライディングウインドウ中 35% 以上の一致性を示した場合または連続する8 残基の完全一致をもって陽性とする, いわゆるFAO/WHOの方法 4) しか提供していない. これに対し ADFSでは, 筆者らによる査読を通じて得たエピトープ情報 ( 線形 コンフォメーショナル ミモトープ ( エピ

アレルゲンデータベース Allergen Database for Food Safety (ADFS) のデータ改訂とアレルゲン性予測ツールの信頼性評価 45 トープ模倣配列 ) 糖鎖) や,UniProtの情報に基づくタンパク質の構造情報 ( ドメイン 立体構造 糖鎖等 ) などが一部のアレルゲンに付与されており, また, アレルゲン性予測法についても,FAO/WHOの方法に加え, アレルゲンの共通モチーフに着目したStadlerらの理論 5) を元にした, モチーフに基づく予測ツール (Motif-based 法 ) も提供している. このように, 登録アレルゲンの信頼性はAOLの優位性が認められるものの, そこに付随する情報や解析ツールの充実度は, 多くの面でADFSが上回っていると思われた. そこで, 今回 AOLのアレルゲンデータセットを ADFSのそれと比較し,ADFSのアレルゲンデータをピアレビューを経たものに統合することを試みた. また, これに伴い新たに作製したアレルゲンモチーフを用い, ADFSのモチーフに基づく予測ツールの精度, 感度および確度に関する評価を行なった. 2. 方法 2.1 AOLアレルゲンデータの取得 AOLにおけるデータは,2008 年 7 月の時点で取得した.ADFSはUniProtデータベースに基づく運用システムを採用しているが,AOLはアレルゲンシークエンスをすべてNCBIのgene identifier(gi) 番号により管理している. よって,AOLとADFSのデータの比較 統合を行なうため,AOLのgi 番号を対応するUniProt IDへと変換した.UniProtに対応するエントリーが存在しない場合は, RefSeq,GenPept,PDB 等のデータベースよりシークエンス情報を取得した. アレルゲン情報はアレルゲン名とそのアミノ酸配列 (UniProtのアクセッション番号) によって整理され, 同一名で同一シークエンスを持つものは基本的に一つのエントリーにまとめられる. なお, この条件の中でも, エピトープ情報や立体構造情報等の有無に違いがある場合は, エントリーを分けて表示している.International Union of Immunological Societies(IUIS) が発行する正式な ( イソ ) アレルゲン名が存在しない場合は, 由来する生物の属と種の頭文字をそれぞれ3 文字と1( または2) 文字で表し, 末尾に? を付した. ADFSでは登録アレルゲンを従来 8 種のカテゴリに分類していたが,AOLのデータを取り込むにあたり, アレルゲンのカテゴリも,AOLによる分類に合わせ, 全 13 種 (aero animal, aero fungi, aero insect, aero mite, aero plant, contact, food animal, food fungi, food plant, gliadin, protozoan, venom/salivary, worm) とした. 2.2 エピトープ情報の取得 NCBI PubMedにおいて, 下記のキーワード群を一定の検索式に当てはめて検索した文献から, アレルゲンの IgEエピトープ情報が記載されているものを筆者らが実際に査読し, エピトープ情報とした. Immunoglobulin E, IgE-binding, Epitope, Identification, Epitope Mapping, Linear (Sequence Conformational, Structural, Discontinuous, three-dimensional), Analysis, Peptide, Recognition, Mimotope (Bacteriophages, Phage, Display) エピトープは, その性状から線形 (L), コンフォメーショナル (C), および糖鎖 (S) に分類し, さらに, 実験方法などの情報を記載した. なお, ミモトープに関しては, コンフォメーショナルエピトープの一種として分類した. 糖鎖エピトープは, 単なる交差反応により結合するいわゆるCCDではなく, サイトカイン産生や脱顆粒を誘導するなど, 何らかの生物活性を持つと認められた場合のみを示した. 2.3 アレルゲンモチーフの抽出 Stadlerらの報告 5) に従い,ADFSが収載する923 本のアレルゲンシークエンスから, 複数のアレルゲンに共通なモチーフ構造を抽出した. モチーフ抽出ツールはMEME (ver. 3.0.13) を用いた. その際, アミノ酸残基数は50, E-valueは0.01, モードはzoopsを使用した.1つのモチーフが抽出されるごとに, 抽出に用いられたアレルゲンシークエンスを除き, 残りのシークエンスにより再度モチーフを抽出するという工程を繰り返し, 最終的にE- value 0.01で一つもモチーフがヒットしなくなるまでこの作業を繰り返した. 2.4 Motif-based 法によるアレルゲン性予測の信頼性評価 ADFSが独自に提供しているアレルゲン性予測ツールであるMotif-based 法による解析手法の信頼性について, 下記の3 通りの手法により評価を行なった. 1. 人工生成非アレルゲンデータセットを用いた評価 :ADFS 収載アレルゲンのうち, アミノ酸残基数が26 残基以上の902 種を真のアレルゲンとし, この配列を, (A) 逆順に並べたもの,(B)window size 20でシャッフルしたもの,(C)window sizeなしでシャッフルしたもの, の3つを真の非アレルゲンと定義した. アミノ酸残基長を26 残基以上としたのは,Stadlerらが同法を発表した際と同一の条件にそろえるためであり, これは当時知られていた最もアミノ酸長の短いアレルゲン ( ハチ毒アレルゲンApi m 3) の長さ (26 残基 ) に基づいている 5). これらのアレルゲンおよび非アレルゲンデータセットを対象に,BLAST E-valueカットオフ値を様々に変えながらMotif-based 法によるアレルゲン性予測を行なった結果について, 真陽性 (TP), 真陰性 (TN), 偽陽性 (FP) および偽陰性 (FN) を元に, 次の式で定義される精度 (Precision), 感度 (Recall; 再現性 ), および確度 (Specificity) を算出した. Precision = TP / (TP + FP)

46 国立衛研報第 127 号 (2009) Recall = TP / (TP + FN) Specificity = TN / (TN + FP) 2.10 分割交差試験法 : 前述の902 種のアレルゲンデータをランダムに10 分割し, 一つ一つのデータセットについて, 残りの9 個のデータセットを用いて抽出したモチーフとシークエンスにより試験を行なった. 3. とうもろこしタンパク質のアレルゲン性 : とうもろこしが発現するタンパク質をランダムに50 種選び, FAO/WHO 法およびMotif-based 法により解析を行なった. 3. 結果および考察 3.1 ADFSのデータ改訂後のスペック今回のAOLとのアレルゲンデータ照合の後,ADFSにおける収載アレルゲンおよびイソアレルゲンの総数は 1340 種 ( うち,UniProtとの対応が付いたものは923 種 ) となった. また, 何らかのエピトープ情報を持つアレルゲンおよびイソアレルゲンの数は76 種となり, これは現時点で存在するアレルゲンのエピトープ情報を集めたデータベースとしては世界でも最大である. 今回, アレルゲンの糖鎖自体がIgEと結合し, 好塩基球からのヒスタミン遊離を起こす場合 (Ole e 1) やIL-4 産生を誘導する場合 (Phl p 1) などについてエピトープ情報を追加した. 多くのIgE 結合性糖鎖は生物活性を持たず,in vitro の臨床試験におけるバックグラウンドの上昇に寄与していることが知られている 6). しかし少なくとも一部のアレルゲンにおける糖鎖は上記のようにアレルギーの発症に関与すると考えられており, アレルゲンデータベースが糖鎖エピトープの情報を収載することは望ましいと考えられる. このようなアレルゲンデータベースは, 今のところADFS 以外に存在しない. 3.2 Motif-based 法 ADFSでは, 任意のアミノ酸配列に関する潜在的アレルゲン性を予測するため, いわゆるFAO/WHOの方法 4) と Motif-based 法の2 種類のインターフェイスを提供している. 前者については他のアレルゲンデータベースにおいてもしばしば実装されているが,Motif-based 法によるアレルゲン性予測については,Stadlerらによる報告 5) があるのみで, ウェブ上でユーザが任意のクエリ ( 問い合わせ ) 配列を解析できるツールはこれまで開発されていなかった. 我々は,Stadlerらの報告に従い,MEMEソフトウェアにより923 本のアレルゲンシークエンスから58 種のアレルゲンモチーフを抽出した. その際,141 本のシークエンスがモチーフに抽出されずに残った (Fig. 1). 本法は, クエリアミノ酸配列をpftoolソフトウェアにより58 種のアレルゲンモチーフに対してプロファイル検索し, さらに 141 本のアレルゲンシークエンスに対してBLASTによる ペアワイズ検索を行なう手法である. この手法について, 次の3 種類の方法によってその予測信頼性を解析した. 923 Allergen sequences in ADFS 58 141 Motif set MEME (Motif discovery) Sequence set pftool BLAST query match? N match? N Predicted Non-Allergen Y Y Predicted Allergen Predicted Allergen Fig. 1. Schematic of motif-based allergenicity prediction method. Allergen sequences in the ADFS (923) were submitted to MEME, and 58 allergen motifs were extracted. Of the 923 sequences, 782 matched one or more of the allergen motifs, while the remaining 141 sequences did not match any of the motifs. The query sequence is first compared to the 58 motifs using the pftool; then, it is compared to the remaining 141 sequences using BLAST pairwise alignment tool. The query sequence is predicted to be a potential allergen if it is identical to either an allergen motif or an allergen sequence. 3.3 人工生成非アレルゲンデータセットを用いた評価まず,ADFSに収載された902 本の真のアレルゲンアミノ酸配列と, その3 倍量に当たる真の非アレルゲンアミノ酸配列とを用い, 本ツールがどれだけ正しくアレルゲン性を予測できるかについて調べた.Motif-based 法では第一段階にクエリ配列とモチーフとの比較を行ない, 第二段階ではBLASTによるペアワイズ検索を行なう. そこで,BLASTのマトリクスやギャップペナルティなどの各種パラメータ, およびE-valueカットオフ値を様々に変化させ, 最もパフォーマンスの優れたBLASTのパラメータ設定を探索したところ, マトリクスとしてBlosum80, 開始および伸張ギャップペナルティをそれぞれ13および 2, フィルタをTrueに設定した場合であった. この条件でPrecision(%),Recall(%),Specificity(%) の合計が最大になるBLAST E-valueカットオフ値は10-13 で, このときのそれぞれの値は100.0%,99.4%,100.0% と, 極めて良好であった (Fig. 2). この結果を受け,ADFS のMotif-basedアレルゲン性予測ツールにおけるBLASTのパラメータ設定は上記の組み合わせを使用することとした.E-valueカットオフ値のみはユーザが任意に変更できるが, これは後に述べる理由により10-3 を初期値とした.

アレルゲンデータベース Allergen Database for Food Safety (ADFS) のデータ改訂とアレルゲン性予測ツールの信頼性評価 47 Fig. 2. Performance of motif-based allergenicity prediction method. Test sequences composed of 902 true allergens and 2706 true non-allergens were submitted to the motif-based allergenicity prediction tool in the ADFS. The prediction stringency was varied by adjusting the BLAST E-value cut-off. The best results were obtained when 10-13 was used as the E-value cut-off. See the Materials and Methods section for the definitions of Precision ( ), Recall ( ), and Specificity ( ). 3.4 10 分割交差試験法上記の試験は, リファレンスとなるデータベース中にクエリアレルゲン配列自身が含まれていることになる. そこで, 実際にアレルゲン性が未知のタンパク質を本法で解析した場合を再現するため, 次に10 分割交差試験を行なった (Table 1). これは, 合計 902 種のアレルゲン配列をアルファベット順に10 分割し, 一つ一つのデータセットについて, 自分自身を含まない他の9つのデータセットを用いて生成したモチーフおよびシークエンスにより解析を行なう手法である 5). 各データセットにより Precision,Recall,Specificityの合計が最大になるBLAST E-valueカットオフ値は10-15 から10-3 までの間で変化した. これは, シークエンスを10 分割した際のデータセットのばらつきによるものと推測される. 実際にユーザが解析するクエリ配列は多様であることから, 最適なE-value カットオフ値を一つ設定することは困難であり, 適切な値をユーザ自身が設定すべきであると考える. よって ADFSでは, 今回の最大値である10-3 をもってBLAST E- valueカットオフ値の初期値とすることとした. この条件における10 分割交差試験の解析結果を示したのがTable 1である. 平均すると,Precision 96.5%,Recall 85.5%, Specificity 98.9 % となった.Stadlerらが2003 年に報告した時点では, 同法のPrecisionおよびRecallはそれぞれ 94.8% および86.2% であり, いわゆるFAO/WHOの方法 Set Query Motif generation Performance (%) sequence Reference Motif Sequence Precision Recall Specificity #01 93 809 65 133 95.6 93.5 98.6 #02 93 809 53 134 90.0 77.4 97.0 #03 93 809 57 133 94.7 77.4 98.6 #04 88 814 59 133 98.6 82.0 99.6 #05 84 818 56 126 98.6 85.7 99.6 #06 93 809 54 142 97.6 88.2 99.3 #07 93 809 55 140 100.0 90.3 100.0 #08 87 815 57 119 98.6 78.2 99.6 #09 93 809 55 134 93.2 88.2 97.8 #10 85 817 59 144 97.6 94.1 99.2 Total 902 - - - 96.5 85.5 98.9 Table 1. Ten-fold cross validation test A test database (902 sequences) was randomly divided into 10 parts, and allergenicity prediction was performed for the sequences in each part, using the other nine parts as the allergen reference database. The appropriate BLAST E-value cut-off varied from 10-15 to 10-3, depending on the dataset; only the results obtained using a cut-off of 10-3 are shown.

48 国立衛研報第 127 号 (2009) ではそれぞれ37.6 ~ 68.0% および92.2 ~ 97.0% であった (Specificityは不明) 5). これらの結果から,ADFSの Motif-based 法によるアレルゲン性予測ツールの信頼性 は,Stadlerの報告における成績とほぼ同程度で,FAO/ WHO 法よりも精度の面で大きく上回っていることが分かる. Corn Protein Known FAO/WHO Motif-based ID Description Locus Allergen 35%/80 cont. 6 cont. 7 cont. 8 Motif BLAST 1 A55092 catalase (EC 1.11.1.6) CAT-2 - maize (fragment). No 0 1 0 0 0 0 2 AAA33523 16-kDa zein protein. No 0 15 3 0 0 0 3 AAA68209 sus1 gene product. No 0 6 0 0 0 0 4 AAA73960 kaurene synthase A. No 0 5 0 0 0 0 5 AAA87580 cytosolic glyceroldehyde-3-phosphate dehydrogenase GAPC4. No 0 4 0 0 0 0 6 AAB71078 acidic ribosomal protein P3a [Zea mays]. No 0 25 7 4 0 0 7 AAB86960 profilin [Zea mays]. Yes 65 52 49 49 #002 0 8 AAC72193 pyruvate dehydrogenase E1 beta subunit isoform 2 [Zea mays]. No 0 2 1 0 0 0 9 AAC78468 RNA polymerase sigma factor 2 [Zea mays]. No 0 11 0 0 0 0 10 AAC79953 anionic peroxidase H [Zea mays]. No 0 2 1 0 0 0 11 AAK26754 plasma membrane integral protein ZmPIP1-3 [Zea mays]. No 0 2 0 0 0 0 12 AAK30114 teosinte branched protein 1 [Zea mays]. No 0 2 0 0 0 0 13 AAK51777 MURB-like protein hmurb3 [Zea mays]. No 0 3 0 0 0 0 14 AAK51786 MURB-like protein hmurb12 [Zea mays]. No 0 3 0 0 0 0 15 AAK56122 alpha-expansin 4 [Zea mays]. No 0 3 2 2 0 0 16 AAK56130 beta-expansin 7 [Zea mays]. Yes 26 36 27 17 #008 1 17 AAK59898 kaurene synthase A [Zea mays]. No 0 3 0 0 0 0 18 AAK60245 teosinte branched1 protein [Zea mays]. No 0 4 1 0 0 0 19 AAK60502 sucrose export defective 1 [Zea mays]. No 0 8 0 0 0 0 20 BAA05550 group 3 Lea protein MGL3 [Zea mays]. No 0 3 0 0 0 0 21 BAA22410 calcium-dependent protein kinase-related kinase [Zea mays]. No 0 4 2 0 0 0 22 CAA28734 40.1 kd A1 protein [Zea mays]. No 0 7 0 0 0 0 23 CAA31221 unnamed protein product [Zea mays]. No 0 2 1 0 0 0 24 CAA35589 pyruvate decarboxylase [Zea mays]. No 0 22 4 0 0 0 25 CAA37038 dihydrodipicolinate [Zea mays]. No 0 1 0 0 0 0 26 CAA39438 ribosomal protein S11 [Zea mays]. No 0 9 4 0 0 0 27 CAA60366 hypothetical protein [Zea mays]. No 0 1 0 0 0 0 28 CAA72196 cytochrome p450 [Zea mays]. No 0 13 1 0 0 0 29 CAA87634 orf [Zea mays]. No 0 6 0 0 0 0 30 CAB56627 SBP-domain protein 1 [Zea mays]. No 0 8 0 0 0 0 31 CAC18100 putative legumain [Zea mays]. No 0 2 0 0 0 0 32 CAC35069 VIP3 protein [Zea mays]. No 0 0 0 0 0 0 33 JC1524 major allergen mi protein - maize. Yes 23 28 25 24 0 3 34 O24578 Adenylosuccinate synthetase, chloroplast precursor (AdSS) (IMP-- aspartate ligase) (AMPSase). No 0 5 0 0 0 0 35 P04705 Zein-alpha PZ19.1 precursor (19 kda zein PZ19.1). No 1 11 0 0 0 0 36 P15590 Globulin-1 S allele precursor (GLB1-S) (7S-like). No* 6 16 8 2 0 1 37 P33489 Auxin-binding protein 5 precursor (ABP) (ERABP5). No 0 7 0 0 0 0 38 P40280 Histone H2A. No 0 2 1 0 0 39 P46251 Actin-depolymerizing factor 1 (ZmADF1) (ADF-1) (ZmABP1). No 0 0 0 0 0 0 40 P51059 Phosphoenolpyruvate carboxylase 2 (PEPCase 2) (PEPC 2). No 0 3 1 0 0 0 41 PWZMAM H+-transporting two-sector ATPase (EC 3.6.3.14) alpha chain - maize mitochondrion. No 0 0 0 0 0 0 42 S12043 leucoanthocyanidin dioxygenase (EC 1.14.11.-) - maize. No 0 6 0 0 0 0 43 S30062 polygalacturonase - maize. Yes** 6 6 6 5 0 0 44 S37379 catalase (EC 1.11.1.6) 3 - maize. No 0 4 0 0 0 0 45 S58532 matk protein (trnk intron) - maize chloroplast. No 0 6 0 0 0 0 46 T02242 west02963 Early embryo, Stratagene (cat. #937007) Caenorhabditis elegans cdna clone CESAB12, mrna sequence. No 0 3 1 1 0 0 47 T02763 0100M7 gmbpfhb3.1, G. Roman Reddy Plasmodium falciparum genomic clone PF0100M, genomic survey sequence. No 0 6 1 1 0 0 48 T02990 FB19G7 Fetal brain, Stratagene Homo sapiens cdna clone FB19G7 3'end, mrna sequence. No 0 10 0 0 0 0 49 T02993 FB1A10 Fetal brain, Stratagene Homo sapiens cdna clone FB1A10, mrna sequence. No 1 9 3 0 0 1 50 T03397 IB217 Infant brain, Bento Soares Homo sapiens cdna clone IB217 3'end, mrna sequence. No 0 1 0 0 0 0 Total positive: 4 7 47 21 9 2 4 Table 2. Comparison of FAO/WHO method and motif-based method using 50 corn proteins. Of the 50 randomly selected corn proteins [6] that are shown, known allergens are indicated by a "Yes". For the FAO/WHO method, the numbers of matched allergens in the ADFS are presented according to the criteria shown in the top row (more than 35% identity over 80 or more sliding windows, exact match of 6, 7, or 8 contiguous amino acids). For the motif-based method, the motif ID in the ADFS and/or the numbers of matching allergen sequences (BLAST E-value, 10-3 ) are presented. *GLB1-S, a 7S-globulin, has been reported as an allergen found in several organisms other than corn. **Corn polygalacturonase has several UniProt IDs, and some entries with longer amino acid sequences than S30062 are known as the allergen Zea m 13.

アレルゲンデータベース Allergen Database for Food Safety (ADFS) のデータ改訂とアレルゲン性予測ツールの信頼性評価 49 3.5 とうもろこしタンパク質のアレルゲン性最後に, 実際の作物由来タンパク質のアレルゲン性を本法により調べるため,Hilemanら 7) が報告の中でランダムに抽出した50 種類のとうもろこしタンパク質について,FAO/WHO 法と本法とを比較した (Table 2).FAO/ WHO 法においては, 連続する6アミノ酸残基の完全一致をもって判定すると,50 種のタンパク質中 47 種がアレルゲンであると判断され, 偽陽性が極めて多いということが分かる. これに対しMotif-based 法では, アレルゲンであることが既知であるタンパク質は, 一つ (polygalacturonase) を除きすべてについて陽性判定を出していると同時に, クエリタンパク質自体のアレルゲン性は知られていないが他の生物種におけるアナログがアレルゲンであるような場合 (7S-globulin like GLB1-S) を正しく検出できていることが分かる.Polygalacturonaseについては, 本表で用いたクエリアミノ酸配列 (S30062; 95 残基 ) より長いアミノ酸長を持つ複数のUniProtエントリが存在し (404 ~ 411 残基 ), これらがとうもろこしアレルゲン Zea m 13として知られている 8).ADFSではこれら長い方のエントリのみがアレルゲンとして登録されており, そのモチーフは #020として抽出されているが, その抽出モチーフ (50 残基 ) がクエリアミノ酸配列の領域と一致しなかったため, 陰性として判定されてしまった (Table 2). しかし, このような場合でも, クエリアミノ酸長の十分長いエントリ (Q1ZYQ5 等 ) を用いることにより, 正しいモチーフがヒットすることを確認している. FAO/WHO 法は, 遺伝子組み換え作物に新規に導入するタンパク質のアレルゲン性を予測する上では現在でも標準的な手法とされているが, その偽陽性の多さゆえに, 批判も根強い 9).Stadlerらが開発したMotif-based 法はFAO/WHO 法の欠点を大きく改善した有望な手法であり, それをウェブツールとして公開しているのは現在のところADFSのみである. しかし,ADFSのMotif-based 法のパフォーマンスを定量的に評価することはこれまで困難であった. 今回, 様々な角度から同法の評価を行ない,ADFSのMotif-based 法がStadlerらが報告したものと同程度のパフォーマンスを有していることが分かった. ADFSは公開以来毎年一回のペースでデータのアップデートを行なっており, そのたびにアレルゲンモチーフやシークエンスも更新されている. 今後もこの作業を継続し, 潜在的アレルゲン性予測の信頼性向上に努めたい. 4) Codex Alimentarius Commission, Alinorm 03/34, pp47-60 (2003) 5) Stadler, M.B. & Stadler, B.M.: FASEB J., 17, 1141-1143 (2003) 6) van Ree, R.: Int. Arch. Allergy Immunol., 129, 189-197 (2002) 7) Hileman, R.E., Silvanovich, A., Goodman, R.E., Rice, E.A., Holleschak, G., Astwood, J.D., Hefle, S.L.: Int. Arch. Allergy Immunol., 128, 280-291 (2002) 8) Petersen, A., Dresselhaus, T., Grobe, K., Becker, W-M.: Proteomics, 6, 6317-6325 (2006) 9) Goodman, R.E., Vieths, S., Sampson, H.A., Hill, D., Ebisawa, M., Taylor, S.L., van Ree, R.: Nature Biotechnol., 26, 73-81 (2008) 4. 参考文献 1)URL: http://allergen.nihs.go.jp/adfs/ 2) Nakamura, R., Teshima, R., Tkagi, K., Sawada, J.: Bull. Natl. Inst. Health Sci., 123, 32-36 (2005) 3)URL: http://www.allergenonline.com/