有機合成化学者のための化合物データベース バイオベース化合物データベース構築に向けて 1, 2 橘熊野 1 林千里 1 粕谷健一 1: 群馬大学大学院理工学府 2: JST- さきがけ tachibana@gunma-u.ac.jp, kkasuya@gunma-u.ac.jp はじめに 有機合成化学者が新規の化合物を合成する際 標的化合物を文献検索し 報告例が無いかを調べることが最初の第一歩となる ( 図 1) 研究者によってはその膨大な知識と経験から合成経路を文献検索無しで設計することは可能であるが 化合物の新規性を評価するためには文献検索は必須となる すなわち A) 標的化合物が既知かどうか B) 既知化合物の場合は 原料と反応条件は何か C) 新規化合物であった場合は 類似化合物の報告例が無いか D) 類似化合物の反応条件が標的化合物に適応できるかの情報を検索する必要がある 標的化合物 新規化合物 類似化合物のリストアップ 既知化合物 類似化合物 標的化合物合成 合成経路適応の可否判断 標的化合物合成 化合物名検索か構造式検索か? 化合物名を検索する際には キーワード検索よりも構造式検索が優先される 化合物には IUPAC の命名法により一義的に決まる IUPAC 名があるが 有機化学の分野では IUPAC 名のみが使われている論文はごく少数である IUPAC 名では冗長になるために 慣用名やその著者が便宜的に命名した名称 さらには単なる化合物番号で記載されていることが多い 図 2 に便宜的に命名された有名な化合物を示す 2016 年にノーベル化学賞を受賞した J.F.Stoddart は 5 つの輪を繋ぎ合わせた化合物をオリンピックの五輪の輪と見立てて Olympiadan( オリンピアダン ) と命名した [2] これは IUPAC 名でなければ慣用名でもなく 著者が 勝手 に付けた化合物名である 他にも 徳島大学の西沢らは分子の形が阿波踊りをしているように見えるということで Cycloawaodorin( シクロアワオドリン ) という名称を付けている [3] ライス大学の J. M. Tour らは人の形をした分子を合成し Nanoputian( ナノプシャン ) と名付けている [4] このような名称の化合物は 化合物名を知らなければ検索で見つけることができない ( 上記の化合物は有名であるために 同じ分野の研究者なら誰でも知っているが ) そのため 学術文献検索システムである米国 NCBI の PubMed [5] や Google Inc. の Google Scholar [6] などでは 化合物名をキーワード検索するだけで見つけるこは困難である 図 1 標的化合物の合成経路検討例 これらの情報を検索するには 化合物データベースを利用した化合物検索と合成経路検索をすることになる バイオ関連や創薬関連の化合物データベースや検索システムは急速に発展しつつあり その多くが無料で利用できる [1] しかしながら 有機合成化学者にとって有用なデータベース 検索システムとして実用に耐えうるものは 有償システムに頼っている また 新規検索指標が入ったデータが必要になっても その分野の研究者が相当な人数にならないと それが実装されることが期待できない現状がある 本稿では 有機合成化学者の化合物データベース 検索システムの活用法を述べた後 筆者らが構築を試みているバイオベース化合物データベースの概要について述べる 図 2 ユニークな名称を持つ化合物 CICSJ Bulletin Vol.35 No.1 (2017) 127
図 3 に示す Furfural( フルフラール ) という化合物では IUPAC 名である Furan-2-carbaldehyde 以外に 2-Furfural 2-Formylfuran 2-Furcarbaldehyde や Furol などの名称が論文中で用いられており 考えうる全ての名称で検索しなければ検索漏れが出てしまう 図 3 フルフラールの別名 また 論文や特許に記載された化合物にはアメリカ化学会 (ACS) が付与する CAS 番号など一義的に化合物を識別する記号も付与されているが そもそも構造式で検索できなければその番号を知ることができない 以上のように化合物名だけでは網羅的な検索は困難である つまり 構造式検索でなければ標的の化合物にたどり着くことができない また 合成経路検索においては 類似化合物の検索が必要となる 類似化合物の検索をキーワード検索のみで行うには多大な労力が必要であり 部分構造式検索が可能な検索システムが必須であると言える 化合物データベースと検索システム 有機合成化学者が研究を進めるためには化合物データベースが必要不可欠であるため データベースの電子化が行われるはるか前の 19 世紀から化合物データベースは存在している 1881 年から刊行されている Beilsteins Handbuch der Organischen Chemie を元にする Beilstein database [7] 1817 年から刊行されている Gmelins Handbuch der anorganischen Chemie を元にする Gmelin database [8] および 1907 年から刊行されている Chemical Abstracts を元にする CAS REACT および CAS REGISTRY [9] を 有機合成化学者は日常的に利用してきた 現在ではそれらはオンライン化されており 図 4 に示すように化合物データベースとそれを利用した検索システムを利用することが可能である Elsevier 社が Beilstein database と Gmelin database を統合した検索システムとして Reaxys( 旧 Beilstein Crossfire)[10] を ACS が CAS databases を利用した検索システムとして SciFinder [11] を有償で提供している また それらのデータベースに加えて 特許データベースや医学系 工学系データベースを収録した検索サービスを CAS 独の FIZ Karlsruhe と日本の化学情報協会 (JAICI) が共同で STN として有償で提供している [12] 一方 米国 NCBI の PubChem 英国王立化学会 (RSC) の ChemSpider [13] 欧州分子生物学研究所 (EMBL) の ChEBI [14] と ChEMBL [15] は無償で提供されている データベースとしては収録数が少ないが 各試薬会社のウェブサイトでも販売している化合物の物性情報を検索可能である また 産業技術総合研究所の有機化合物のスペクトル デ - タベ - ス (SDBS) はスペクトルデータに特化した化合物データベースである [16] 有機合成化学者によるデータベース検索 Chemical Abstracts や Beilstein database は有機合成化学者にとって有益な情報を多数収録しているが 現在 急速に発展している PubChem ChEBI ChEMBL や ChemSpider にはどちらかと言うと創薬 医学 バイオインファマティクス研究をするための物性や生理活性のデータが収録されている 有機合成化学者にとって一番必要な情報は 合成経路 ( 反応条件 ) であり 網羅的に検索することが求められる 図 4 に示した化合物データベースは化合物情報については収録しているが 反応条件については 過去からの膨大なデータベースを有している Reaxys と Scifinder STN が実用的に耐えうる反応検索システムであると言える 化合物データベースとは言えないが Organic Syntheses [17] のオンライン版では収録されている反応検索が可能であり ChemSpider では一部の合成経路が有志の研究者により収録されているが いずれも限定的な反応しか収録されていない 図 4 化合物データベースと反応検索システム 128 http://www.jstage.jst.go.jp/browse/cicsj/-char/ja/
合成経路設計 有機合成化学者がどのようにして合成経路設計をしているかを 筆者らが行った合成研究を例に解説する [18] あくまで筆者らの個人的な手法であり 他の研究者なら別の簡便でより適切な方法で設計することも可能である この合成の目的は フルフラールを原料としてポリエチレンテレフタレート (PET) 原料であるテレフタル酸を合成することである A) 炭素を含む原料はフルフラールのみ B) 可能な限り定量的な反応を選定 C) 精製にカラム精製などのプロセスを含めない D) 比較的安価な試薬を用いる反応を選定 E) 反応ルートはできるだけ短くという条件を満たすように反応設計を行う [ 着想 ] フルフラールの炭素数は 5 であり テレフタル酸の炭素数は 8 であるため 3 つの炭素を増やす必要がある この合成をフルフラールのみを原料として行うために フルフラールから炭素数が 4 の化合物を 2 種合成し それを結合させることで炭素数 8 の化合物を合成することを思いついた [ 合成経験 ] フルフラールを酸化することで炭素数 4 のフマル酸とマレイン酸の混合物が得られることは 以前に実施していた また フルフラールから炭素数 4 のフランが得られることも以前に実施していた フランと無水マレイン酸は Diels-Alder 反応を起こすことは 有機化学の教科書に載っている反応である [ 反応検索 1] フマル酸とマレイン酸の混合物から無水マレイン酸を効率的に生成する反応条件が必要となる マレイン酸から無水マレイン酸へは単純な脱水反応であるために 減圧下加熱するだけで反応することは有機化学の基礎である しかしながら フマル酸を用いなければ 収率は 30% 程度にしかならない 筆者らは フマル酸から無水マレイン酸が合成できないかを SciFinder を用いて反応条件検索した その結果 80 件を越す反応例がヒットした その中でも 五酸化二リンを用いて減圧下で反応させる方法は フマル酸とマレイン酸の両方から無水マレイン酸を生成していた 溶媒を用いないために コスト的にも安価になる そこでこの方法を用いて無水マレイン酸を合成した [ 反応検索 2] 無水マレイン酸とフランから合成した Diels-Alder 付加物は 6 員環のシクロヘキセンを有するオキソ - ビシクロ骨格から構成されており この骨格は脱水反応によって容易にベンゼン環に変換され無水フタル酸を合成できることは予想された しかしながら SciFinder で検索してもヒットしなかった (2017 年 1 月 1 日時点では 3 件が登録されている ) [ 部分構造検索 1] 部分構造検索を行い有望な反応をいくつかを試したが収率が芳しくなかった [ 論文検索 ] トリフルオロメタンスルホン酸と無水酢酸を用いることで脱水反応が進行し易いとの論文 [20] を見つけ その手法を用いて合成したところ高収率で無水フタル酸を合成できた [ 部分構造検索 2] 無水フタル酸からテレフタル酸への変換を検索したが利用できそうな反応が見当たらなかった そのため 無水フタル酸を加水分解してできるフタル酸およびその誘導体からの変換を検索したところ工業的にも使われていた反応 (Henkel 反応 ) がヒットし その反応を用いてテレフタル酸を合成した ( 図 5) この合成経路設計をするにあたり 著者らの頭の中でフルフラール由来の化合物群をデータベース化し それを俯瞰することから始めている そして 有機合成を行った経験と勘から どれとどれを組み合わせたら標的化合物であるテレフタル酸が合成可能かを頭の中でシミュレーションした 詳細な反応条件を設定するだけの知識を持ち合わせていなかったため それを補完するためにデータベース検索を用いた そして最終的に上記の順序で合成経路設計を行い実際の合成を行った もちろん 合成経路設計の当初は [ 部分構造検索 1] の結果を適応することで問題なく合成が完了すると考え [ 論文検索 ] は予定していなかった 図 5 フルフラールからテレフタル酸の合成 合成経路設計をコンピュータに自動的にさせる研究も進められている 初期の研究として E. J. Corey らが 1969 年に発表した OCSS(Organic Chemical Simulation of Synthesis ) と LHASA ( Logic and Heuristics Applied to Synthetic Analysis) からコンピュータ支援の合成経路検索システム研究が始まり [19] 現在では AIPHOS(Artificial Intelligence for Planning and Handling Organic Synthesis) などが コ CICSJ Bulletin Vol.35 No.1 (2017) 129
ンピュータを利用した合成経路検索システムとして開発されている [21] Reaxys には Reaxys Autoplan という自動合成経路検索が搭載されている また 合成経路だけではなく 目的の物性を有する標的化合物の構造設計をコンピュータに担わせる研究 [22] や 反応に用いる触媒や試薬選定をコンピュータに担わせる研究 [23] が進められている 標的化合物選定 合成経路選定 反応試薬選定の一連の流れでコンピュータが設計することができれば 有機合成化学の知識を用いずに目的の機能を有する合成経路設計が可能になると予想される コンピュータによる合成経路設計は格段に進歩してその可能性が示唆されているが [24, 25] 現状では合成経路設計をコンピュータにさせるよりも 有機合成化学者の経験と勘を元にして 標的化合物の選定や合成経路の選定をする方が最適な合成経路を選択できるようである バイオベース化合物 筆者らは再生可能資源であるバイオマス資源から生産されているバイオベース化合物から有用化合物への転換技術の開発と そこからのバイオベース材料創出の研究を進めている ( 図 6) 図 6 バイオマス資源からのバイオべース材料 図 7 に化合物がどの資源から生産されているかの分類を示す グルコースのようにバイオマス資源からしか生産されていないことを誰もが知っているバイオベース化合物であれば その化合物がバイオマス資源由来かどうかを有機合成化学者が調べる必要は無い しかしながら バイオマス資源から生産されていることが一般的ではない化合物 ( フルフラール ) や 一部のメーカーは化石資源から生産し 別のメーカーはバイオマスから生産している化合物 ( エタノール テトラヒドロフラン フランやエチレングリコールなど ) 現在はバイオマス資源からは生産されていないが 生産コストの低減や用途開発に伴いバイオマス資源からの生産が可能になる化合物 ( テレフタル酸 プロピレンなど ) がバイオマス資源由来かどうかを判断することは 図 4 で示したような一般的な化合物データベース利用では困難である また バイオベース化合物によっては全ての元素がバイオマス由来ではなく一部がバイオマス由来の部分バイオベース化合物があり その構成炭素の何 % がバイオマス資源由来かを示すバイオマス炭 素含有率の指標の導入も必要である [26] 図 7 化合物の原料資源による分類 現状 標的化合物がバイオベース化合物かどうかを調べるには A) 製造メーカーや販売店に問い合わせる B) 辞典 ( 化学工業日報発行の 16817 の化学商品 など ) で原料を調べる [27] C) 市販バイオベース化合物を収録するデータベースで検索 [28, 29] D) 天然化合物データベースで検索 [30, 31] E) 論文 ( 総説や解説記事 ) 内容を精読する F) 自分でバイオマス度を測定するなどの手法が挙げられる バイオベース化合物を工業的に生産する場合には A での調査が必須であるが その情報は製造メーカーの企業秘密に当たることがあり 研究段階では情報を得ることが困難な場合が多い B の辞典は日本国内で製造 販売している化合物を網羅しているために利用し易いが 情報としては完全では無い 例えば 先に挙げたテトラヒドロフランは 出発原料 : 種々の木材 穀物 綿実 麦の穂 穀粒皮及び茎 と記載があるが 流通している全てのテトラヒドロフランがバイオマスから生産されているわけではないという情報が抜け落ちている C のデータベースは充実してきているが 収録数は重複を含めても 100 種類程度であり 網羅しているとは言い難い また B C では原料は知ることができても そこからの派生化合物を網羅していない D は 生理活性物質としての天然化合物が中心であり 工業材料として利用できる程は 大量生産されていない化合物が中心である さらには フルフラールが収録されてないなど バイオベース化合物全てを網羅しているわけではない E は調べるのに手間がかかり 複数の化合物を同時に検索することができない F はバイオマス資源由来かどうかを判断する確実な手法ではあるが費用と時間がかかり現実的ではない 以上のように バイオベース化合物の網羅的データベースや検索システムは現状では存在していない フルフラールを出発物質とする汎用高分子モノマーライブラリの構築 バイオベース化合物を研究している民間企業や研究者は独自のバイオベース化合物データベースを構築していることが多い 例えば 世界中で製造 販売されているバイオベース化合物をデータベース化したり 自社のバイオベース化合物から合成可能な 130 http://www.jstage.jst.go.jp/browse/cicsj/-char/ja/
化合物の合成経路をデータベース化していることがある しかしながら 民間企業が構築したデータベースの公開実現は 困難である 筆者らは非可食バイオマスであるセルロース ヘミセルロースから生産されているフルフラールからのバイオベース材料の創出を行っている 合成経路検索の項で述べたように 有機合成化学者にとってバイオベース化合物やその反応経路を検索し それを俯瞰的に眺め見ることで新たなアイディアが浮かぶことがある そこで バイオベース化合物としてフルフラールに絞り そこから合成可能な化合物とその反応データベース作成を検討した ( 図 8) フルフラールから合成が報告されている化合物を検索システムで調べると 2017 年 1 月 1 日現在で 6 万件以上の反応例が収録されている まずは 工業的に有用な反応条件に絞ってフィルタリングをし 化合物ライブラリを作成する また 筆者らが合成した数十種類の化合物のデータも追加する そこに 試薬のバイオマス炭素含有率の指標などを追加して 新規バイオベース材料作成のためのバイオベース化合物データベース 検索システムとしての有用性を検証する 現在は研究室内のデータベースとして利用しているだけであるが 将来的には検索システムと共に公開することを検討している 図 8 フルフラールからの派生化合物ライブラリ 有機合成化学者の視点からのケモインファマティクスと有機合成の融合 21 世紀になり 有機合成化学は急速に発展しており 新たな合成方法などが指数関数的に発表されている そのため 以前のように研究者が主要雑誌を閲覧するだけで合成方法を網羅し その知識を吸収するという時代ではなくなっている すなわち 合成経路検索などのケモインファマティクスの技術を補完的に利用しながら標的化合物の選定や合成経路設計を進めていくことが必須になると考えられる しかしながら バイオ関連化合物のデータベースのように無償のデータベースで有機合成化学者の実用に耐えうるものは見当たらない 有償のデータベースである CAS database と Beilstein database は過去からの膨大な投資の結果として これまで報告された有機反応を網羅している それと同等のデータベースを今から有志で作成することは困難である そこ で 本稿で紹介したようなバイオベース化合物のデータベースなど 時流に合わせた指標を導入したデータベースをその分野の研究者らが随時作成していき ある程度データベースへの収録が進んだ後に 各分野のデータベースを統合することが 無償の網羅的化合物反応データベースにつながると考える その網羅的化合物 反応データベースは実際に研究に利用する有機合成化学者が使いやすいことが必要である 20 年程前は計算化学は計算化学の専門家と一部の有機合成化学者が行っていた これは コンピュータの性能の問題もあったが 手作業で初期配座の Z-matrix を記述するなど 有機合成化学者にとってハードルが高かったことが大きい 現在では デスクトップ PC 上で 3D モデル構築ソフトウェアを用いることで 簡単に初期配座を構築することができるようになった 本稿を読んだケモインファマティクスの研究者が中心となり 有機合成化学者が使いやすく無償で利用できる化合物反応データベース 検索システムが構築されることを期待する ケモインファマティクス研究者が有機合成化学者の多様な要望を取り入れながら化合物反応データベース 検索システムを作成し 有機合成化学者がその有用性を証明しながらデータベースを絶え間なく更新して拡充する必要がある そして 有機合成化学者が煩雑な化合物検索 合成経路検索から開放され 真に重要な研究活動に時間を費やせる日を期待する 参考文献 [1] 仲里猛留, 坊農秀雅, 情報の科学と技術 2010, 60, 265. [2] D. B. Amabilino, P. R. Ashton, A. S. Reder, N. Spencer, J. F. Stoddart, Angew. Chemie Int. Ed. English 1994, 33, 1286. [3] 西沢麦夫, 有機合成化学協会誌, 1993, 51, 631. [4] S. H. Chanteau, J. M. Tour, J. Org. Chem., 2003, 68, 8750 [5] The PubChem Project https://pubchem.ncbi.nlm.nih.gov [6] Google Scolar https://scholar.google.co.jp [7] S. R. Heller, in The Beilstein Online Database, ACS Sym. Ser., 436, American Chemical Society, Washington, DC, 1990, 1-9. [8] J. Vogt, N. Vogt, A. Schunk, in Handbook of Chemoinformatics, Wiley-VCH Verlag GmbH, Weinheim, Germany, 2008, 629 643. [9] CAS, Chemical Abstracts Service Home https://www.cas.org [10] Chemical Data Reaxyes Elsevier https://www.elsevier.com/solutions/reaxys [11] SciFinder A CAS Solution https://www.cas.org/products/scifinder [12] STN- 化学情報協会 http://www.jaici.or.jp/newstn/index.php [13] ChemSpider Search and share chemistry http://www.chemspider.com CICSJ Bulletin Vol.35 No.1 (2017) 131
[14] Chemical Entities of Biological Interest https://www.ebi.ac.uk/chebi/ [15] ChEMBL https://www.ebi.ac.uk/chembl/ [16] AIST: Spectral Database for Organic Compounds, SDBS http://sdbs.db.aist.go.jp/sdbs/cgi-bin/cre_index.cgi [17] Organic syntheses http://www.orgsyn.org [18] Y. Tachibana, S. Kimura, K. Kasuya, Sci. Rep. 2015, 5, 8249. [19] E. J. Corey, W. T. Wipke, R. D. Cramer, W. J. Howe, J. Am. Chem. Soc. 1972, 94, 421. [20] E. Mahmoud, D. A. Watson, R. F. Lobo, Green. Chem. 2014, 16, 167 [21] 堀憲次, 山口徹, 岡野克彦, J. Comput. Aided Chem. 2004, 5, 26. [22] R. Gómez-Bombarelli, J. Aguilera-Iparraguirre, T. D. Hirzel, D. Duvenaud, D. Maclaurin, M. A. Blood-Forsythe, H. S. Chae, M. Einzinger, D.-G. Ha, T. Wu, G. Markopoulos, S. Jeon, H. Kang, H. Miyazaki, M. Numata, S. Kim, W. Huang, S. I. Hong, M. Baldo, R. P. Adams, A. Aspuru-Guzik, Nat. Mater. 2016, 15, 1120. [23] 山口滋, 袖岡幹子, 第 39 回ケモインフォマティクス討論会, O11. [24] S. Szymkuć, E. P. Gajewska, T. Klucznik, K. Molga, P. Dittwald, M. Startek, M. Bajczyk, B. A. Grzybowski, Angew. Chemie Int. Ed. 2016, 55, 5904. [25] 船津公人, 現代化学, 2016, (12), 50. [26] M. Funabashi, F. Ninomiya, M. Kunioka, K. Ohara, Bull. Chem. Soc. Jpn. 2009, 82, 1538. [27] 16817 の化学商品, 化学工業日報, 2017. [28] Agrobiobase. The showcase of biobased products http://www.agrobiobase.com/en [29] Open-Bio database BioBased Economy http://www.biobasedeconomy.eu/research/open-bio/ database/ [30] NPEdia Compounds Search http://www.cbrg.riken.jp/npedia/keywords.php [31] New Natural Compounds purified in Antibiotics Lab, RIKEN http://www.npd.riken.jp/antibiotics/ja/compounds.ht ml たちばなゆや TACHIBANA, Yuya 超分子化合物 ( ロタキサン ) の合成と機能化から研究をスタートし 現在では 有機合成化学的手法を駆使したバイオベース材料の創出と生分解性高分子の分解制御技術の開発を実施し また 有機化学的観点からの生分解性高分子の分解機構解明研究を実施している 2013 年からは JST- さきがけ 二酸化炭素資源化を目指した植物の物質生産力強化と生産物活用のための基盤技術の創出 領域において フルフラールを出発原料とする汎用高分子モノマーライブラリの構築 を実施している はやしせんり HAYASHI, Senri 微生物学的手法によって生分解性高分子分解微生物の単離や同定に関する研究を行った後 博士課程学生として 有機合成化学的手法によって新規バイオベース材料の創出を実施している かすやけんいち KASUYA, Ken-ichi 分子生物学的手法を駆使した生分解性高分子の分解メカニズムの解明に関する研究に取り組んでいる また 現在環境中の高分子に付着するバイオフィルムの叢構造解明に取り組んでいる 趣味は環境微生物サンプリングであり 暇を見つけては微生物を探して各地を巡っている 連絡先 376-8515 群馬県桐生市天神町 1-5-1 群馬大学大学院理工学府分子科学部門 電話 0277-30-1487 132 http://www.jstage.jst.go.jp/browse/cicsj/-char/ja/