≪Non-category (寄稿・挨拶・随想・その他)≫

新規アレルゲンデータベースAllergen
Database for Food Safety(ADFS)について


2005; 10(1), 2-3


中村亮介,手島玲子,高木加代子,澤田純一
国立医薬品食品衛生研究所・機能生化学部

1.はじめに

遺伝子組換え食品の安全性を調べる際,対象となる農作物に新規に導入される組換えタンパク質のアレルゲン性予測の一環として,既知タンパクアレルゲンとの相同性検索が求められている。この目的のためには,多くのアレルゲンのアミノ酸配列,特にB細胞エピトープ配列に関する情報を集積・整理し,自由に検索・解析できるデータベースの存在が必要不可欠である。このような機能を目指したアレルゲンデータベースはすでにいくつか存在するが,どれも十分とは言い難かった。

今回我々は,既存の各種データベースや一次文献の情報を集積し,アレルゲン名・カテゴリー(花粉・ダニ・動物・カビ・昆虫・食物・ラテックス・その他)・キーワード(動物種・一般名等)およびアミノ酸配列等により検索可能な新規アレルゲンデータベース(Allergen Database for Food Safety; ADFS)を構築した1)。さらに,独自に文献検索し,アレルゲンのエピトープに関する情報を追加した。また,タンパク質の立体構造(PDBまたはHSSP ID)についても,可能な限りこれを付加した。このデータベースはFAO/WHO専門家会議(2001)で提案されたアレルゲン性予測法(FAO/WHO法)の解析インターフェイスも有するため,タンパク質の潜在的アレルゲン性の予測ツールとしても利用することができる。

2.方法

システムの構築作業はCTCラボラトリーシステムズ株式会社が担当した。データは原則としてすべて2004年3月の時点で収集・解析し,エピトープ情報については,2005年3月現在のデータを入力した。アレルゲンの一次配列データは,List of Allergens in Swiss-Prot,Allergen Nomenclature,The Biotechnology Information for Food Safety Database,SDAPより収集し,IDが重複するものを除いた。登録されている配列データがcDNAの場合,TrEMBLにより対応するアミノ酸配列を取得した。

各アレルゲンのアノテーション情報(動物種・一般名・註釈等)はStructural Database of Allergenic Proteins SDAP)から収集し,同サイトが提供する「Source」属性を,8種のカテゴリー(花粉・ダニ・動物・カビ・昆虫・食物・ラテックス・その他)に再編成した。また,Entrez PubMed内をキーワード検索し,エピトープ情報を含む文献32報を抽出し,精読の後SDAPのエピトープ情報に追加した。

システムの構成としては,OSとしてSolaris 9を,データベースエンジンとしてMySQL 4.0を,SRSシステムとしてSRS 7.1.3にUniProtデータベースを導入したものを用いた。アミノ酸配列に基づくアレルゲンタンパク質の検索にはprotein-protein BLAST(blatp 2.2.10)を,エピトープ配列内の検索にはBLAST Search for short, nearly exact matchesを用いた。アレルゲン性予測のためのFAO/WHO法2)としては,Hilemanらの方法3)を一部改変したものを用いた。

3.結果および考察

重複のないアレルゲンの一次配列データとして730種のエントリを得,データ精査の後,ウェブブラウザで検索できるデータベース(Allergen Database for Food Safety; ADFS)として公開した1)。エピトープ情報としては総計307種のエピトープ配列を有し,これは我々が知る限りでは現時点で世界最大の規模である。また,アレルゲン検索のインターフェイスには特に配慮し,様々なキーワードテキスト,カテゴリー,エピトープ情報や立体構造情報の有無等により,柔軟な検索を可能とした。

アレルゲンをアミノ酸配列により検索することもできる。これは,任意のタンパク質に相同性の高いアレルゲンをBLASTアルゴリズムにより高速に検索する機能である。また,任意のペプチド配列に相同性を持つ既知のエピトープ配列が存在するかどうかを調べることもできる。このような機能は,任意のタンパク質のアレルゲンとの交差反応性を考える上で非常に重要であると思われる。

一方,タンパク質のアレルゲン性予測は,現在FAO/WHO法に準じたものが可能である。FAO/WHOの方法とは,1)シグナル配列を除いたクエリタンパク質をN末端側から80残基(またはそれ以上)のアミノ酸スライディングウインドウで区切り,FASTAアラインメントプログラムにより既知アレルゲンとの比較を行ない,35%以上のアミノ酸が一致する場合,あるいは2)クエリタンパク質の6〜8残基の連続するアミノ酸が既知アレルゲンと完全一致する場合にアレルゲン性が疑われる,とするものである2)。しかし,上記方法はウインドウ単位に細分化されたクエリ配列を大量に処理する必要があり,よいパフォーマンスが期待できない。そこでADFSではHilemanらの方法3)の改変法を用いた。すなわち,まずクエリ配列の全長に対しFASTAアラインメントにより既知アレルゲンとの相同性比較を行ない,1)両者においてoverlapしているとみなされたアミノ酸長が80残基以上に達し,かつその35%以上のアミノ酸が一致する場合,あるいは2)連続して完全一致した最大アミノ酸長が6〜8残基以上に達した場合に「陽性」と判定されるというものである。ユーザはこれらのパラメータおよびE-valueを任意に変更し,クエリタンパク質のアレルゲン性を予測するとともに,類似する既知アレルゲンに関する情報を容易に得ることができる。

このような特徴を持つADFSを,他のアレルゲンデータベースと比較したものが表1である。Allergen NomenclatureはInternational Union of Immunological Societies(IUIS)が運営する公式なアレルゲンの登録データベースであり,アレルゲンおよびイソアレルゲンを合わせて1,144種という膨大なアレルゲンが登録されているが,検索機能や配列ソースへのリンクなどがなく,実用性に乏しい。また,複数の企業や研究機関により運営されているAllergomeは,強力な検索機能と膨大な文献資料が武器だが,配列による検索機能やエピトープ情報を持たないことが弱みといえる。その点,テキサス大学医学部の運営するStructural Database of Allergenic Proteins(SDAP)はバランスが取れており,ADFSを構築する際にも有用であった。しかし,検索機能やエピトープ情報が不十分であったことから,ADFSではこれらの機能の向上を特に重視した。



日々,新しいアレルゲンのアミノ酸配列やエピトープ情報などが報告されている。データベースというものは信頼性の向上を期すために継続的にデータを更新していく必要があり,ADFSにおいてもそれは最も重要な課題である。今後におけるADFSのさらなる拡充を目指すためにも,本誌読者諸兄より様々な情報・ご意見・ご指摘がいただければ心強く思う。

謝辞

本研究は,厚生労働科学研究費の支援を受けて行なわれたものである。

文献

1) URL : http://allergen.nihs.go.jp/ADFS/
2) Report of a Joint FAO/WHO Expert Consultation on Foods erived from Biotechnology, (2001) URL : http://www.fao.org/es/ESN/food/pdf/allergygm.pdf
3) Hileman, R.E., Silvanovich, A., Goodman, R.E., Rice, E.A., Holleschak, G., Astwood, J.D., Hefle, S.L.: Int. Arch. Allergy Immunol., 128, 280-291 (2002)