解説

メタボロームデータベースの代謝成分研究への活用代謝成分のすべてを理解するために

Application of Metabolome Database to Metabolic Component Research: To Understand All of the Metabolic Components

Takeshi Ara

京都大学生存圏研究所森林代謝機能化学分野

Published: 2021-10-01

生体内に存在する低分子有機化合物全体を表すメタボローム情報の代謝成分研究への活用は,ゲノム情報の遺伝子研究への活用に比べて遅れている.さまざまな生物種におけるメタボローム情報の蓄積および整理が不十分なことが理由の一つではあるが,新規有用成分や未知代謝制御の解明のためには,メタボローム情報の活用が重要である.そのためには,関連するさまざまなデータベースや解析ツールを使いこなす必要がある.これらのデータベースを使うと何ができるのか,具体的な利用方法と利用時の注意点を紹介する.今後の課題や,将来の学術および産業界への応用の展望も述べる.

Key words: メタボローム; データベース; 代謝成分; マススペクトル; メタボロミクス

はじめに

代謝成分は生物界全体で数十万から百万種類も存在すると言われているが,その分布や生体内での機能,生物間相互作用との関係などの全貌は,いまだに解明されていない(1)1) 平井(森田) 晶,中村由紀子,黄 銘,佐藤哲大,小野直亮,西岡孝明,白井 剛,金谷重彦:化学と生物,53, 600 (2015)..これまでに数多くの代謝成分(天然有機化合物)の研究が行われてきたが,すべての代謝成分を分離して同時に研究する方法がないため,詳細な研究が行われている化合物は科学的または産業的価値の高いものに限られている.21世紀以降,さまざまな階層の分子の集合を扱う生物学研究分野(オミックス科学)が発達し,大量の計測データの解析を行えるようになった.計算機や情報技術の発達により,大量の生物計測データから知識を発見する情報生物学の分野も発展した.その研究対象は,ある生物の遺伝子全体であるゲノムの全塩基配列に始まり,遺伝子発現全体であるトランスクリプトーム,蛋白質全体であるプロテオームと広がり,代謝成分全体であるメタボロームも含まれるようになった.メタボローム研究によって,代謝や代謝変動にかかわる仕組みの解明,新規代謝成分や代謝経路の推定と同定,生物種特異的成分の発見,生物間の相互作用の解明などが進展した(2)2) 斉藤和季:YAKUGAKU ZASSHI, 138, 1 (2018)..最近では腸内細菌などの生物集団,食品などの生物加工品,土壌や河川水などの環境サンプルの網羅的成分分析も,メタボローム分析として行われている.代謝成分は医薬品,機能性食品,染料や機能性材料などのさまざまな製品開発に利用されており,メタボローム研究はヒトの健康と食生活との関係の解明,生活環境(化学汚染,アレルギー成分)の調査や改善,環境負荷の低い製品の開発などへの応用も期待されている(3, 4)3) 及川 彰:化学と生物,51, 615 (2013).4) 荒 武:工業材料,64, 41 (2016).

メタボロームの研究方法である網羅的な代謝成分の分析・解析技術には,多数の既知成分のみを分析対象にするターゲット分析と,未知成分を含めた全成分を分析対象にするノンターゲット分析とがある(図1図1■代謝成分とメタボロームの関係).ターゲット分析は分析する化合物が決まっている定量分析で,目的も結果も理解しやすい.一方,ノンターゲット分析は未知の化合物を含む定性分析であり,検出された成分の多くが未知のままであるため,分析結果の理解が難しい.メタボローム解析対象の代謝成分(低分子有機化合物)は膨大な種類があり,その化学的性質の多様性から単一の検出方法ですべてを分析することができない.分析対象成分の化学的特性,および分析の目的にあわせて,分離技術(気体(揮発性)成分はガスクロマトグラフィー(GC),液体(溶媒に溶ける)成分は液体クロマトグラフィー(LC))と検出技術(微量分析は質量分析(MS),化学構造決定は核磁気共鳴(NMR))を組み合わせた分析装置を用いる必要がある.分析装置により分析結果のデータ形式も解析手法も異なるため,複数の分析装置のデータを扱う場合は特に,データ解析が煩雑である.さらに,天然有機化合物で市販の化合物が入手できるものは限られているため,ノンターゲット分析で検出された多くの成分は同定できない.それらの未同定成分の解析を進めるためには,化合物の構造推定が必要となる.構造推定やサンプル間での比較解析を効率よく進めるために,さまざまなデータベース(天然有機化合物の情報を蓄積した代謝成分データベース,低分子有機化合物のマススペクトル情報を蓄積したマススペクトルデータベース,メタボローム分析結果を解析して整理したメタボロームデータベース,メタボローム分析データを大規模に収集するための公的データレポジトリーなど)が開発されてきた.

図1■代謝成分とメタボロームの関係

本稿では,メタボローム解析に興味をもつ,またはメタボローム分析データの取り扱いに困っている人のために,解析のための基礎知識である代謝成分に関連するデータベースの活用方法と,メタボロームデータベースの最近の動向を紹介する.各データベースについて,最初に機能の概要を,つづいて基本的な使い方を説明する.これらのデータベースを上手に使いこなして,興味対象の調査・研究に役立ててほしい.

代謝成分のデータベース

既知または未知のさまざまな代謝成分を含むメタボローム分析データを十分に活用するためには,代謝成分(天然有機化合物)の知識が必須である.代謝成分は生物界全体では膨大な種類が存在しており,興味対象の代謝成分に関する知識を効率的に収集できることはとても重要である.そのために利用できるデータベースとして,代謝成分の組成式や化学構造などを蓄積したデータベースを紹介する.これらのデータベースでは化合物の化学構造だけでなく,生合成経路や生物界における分布,生理学的機能なども調べることができる.これらの情報は検出された化合物の同定や推定に役立つだけではなく,生物学的意味の解釈にも重要である.代謝成分のデータベースは数多くあるが,KEGGのCOMPOUND(https://www.genome.jp/kegg/compound/)とKNApSAcK Family Database(1)1) 平井(森田) 晶,中村由紀子,黄 銘,佐藤哲大,小野直亮,西岡孝明,白井 剛,金谷重彦:化学と生物,53, 600 (2015).(http://www.knapsackfamily.com/KNApSAcK_Family/)を紹介する.

KEGG(https://www.genome.jp/kegg/kegg_ja.html)は代謝成分を,関連する代謝反応,酵素や遺伝子の情報とともに整理したデータベースである.生物の基本的な代謝経路の化合物や酵素について多くの情報が記載されている.KEGGのCOMPOUNDには,約1万の代謝成分について,化合物名,組成式,構造式,化合物分類,関連する酵素反応や代謝経路などが掲載されている.生物がもっている基本的な代謝経路(糖代謝,アミノ酸代謝,脂質代謝,核酸代謝など)の代謝成分について調べることができる.実際には生合成経路が未知の代謝成分も多いため,KEGGの代謝経路に記載がないことから,「未同定である可能性」を推測することもできる.酵素の遺伝子情報は生物ごとに調べることができるので,遺伝子研究にも利用しやすい.医学,薬学研究に役立てるために,医薬品のデータースであるDRUG(https://www.genome.jp/kegg/drug/)やMEDICUS(https://www.genome.jp/kegg/medicus.html)とも連携していて,医薬品の有効成分や作用・副作用などの情報も調べることができる.

トップページで化合物名(例:glucose)を入力して検索すると,入力した文字列を含む化合物のリストが表示される(図2A図2■代謝成分データベースの使い方).その一つを選んでクリックすると,化合物の詳細情報(組成式や構造式など)のページが表示される.リストされたPathwayの一つをクリックすると,glucoseを含む代謝経路が表示される(glucoseは赤丸で表示される).代謝経路の近くの化合物(白丸表示)や酵素(四角で囲われた4つの数字=酵素番号)をクリックすると,その詳細情報が表示される.近くの関連する代謝経路は点線でつながっており,隣接する代謝経路を簡単に調べることができる.こうした検索を繰り返すことで,生物の基本的な代謝経路全体を理解することができる.各酵素反応の詳細ページにはさまざまな生物の遺伝子情報が記載されており,遺伝子や蛋白質の配列情報が取得できる.代謝経路全体の図は,代謝経路の分類(糖代謝,アミノ酸代謝,脂質代謝など)で色分けされており,代謝経路間の関係性を理解するために利用できる.

図2■代謝成分データベースの使い方

(A) KEGG COMPOUND, (B) KNApSAcK Family Database

KNApSAcK Family Databaseは大量の天然有機化合物の文献を精査して,どの生物種にどんな成分が含まれているのかを整理したデータベースである.現在,24,189生物種由来の55,886化合物が掲載されている.報告例のある生物種から,普遍的な成分なのか,特定の生物種に特異的な成分なのかを調べることができる.植物や微生物の産生する二次代謝成分とよばれるさまざまな生理活性をもつ代謝成分が多数掲載されており,その生理活性と化学構造の類似度との関係も調べることができる.化合物の立体構造表記法であるSMILEやInChIの文字列を調べて,化学構造解析ツールで利用することができる.登録されている生物種の漢方薬や食品としての利用履歴を調べることで,それらに含まれる成分を推測することもできる.

トップページのCore Systemを選ぶと,化合物検索ページが表示される(図2B図2■代謝成分データベースの使い方).検索欄に化合物名や組成式など(例:glucose)を入力して検索すると,それを含む化合物のリストが表示される.個々の化合物のデータはC_IDをクリックすると表示される.そこには化合物名および別名,組成式,構造式,構造式を文字で表した文字列(SMILE形式とInChI形式),検出の報告がある生物種名とその文献が表示される.Twinsボタンをクリックすると,構造が類似した化合物のリストが表示される.Metabolite Activity列にAのマークがある場合はそれをクリックすると,その化合物のこれまでに報告された生理活性のリストおよび文献情報が表示される.この検索を繰り返すことで,化学構造の類似性と生理活性との関係性を調べることができる.また,化合物検索ページで生物種名(学名,例:Arabidopsis thaliana)を入力して検索すると,その生物種でこれまでに文献で報告のある化合物のリストが表示される.この検索を用いて,興味のある生物に含まれる機能性成分などを探すことができる.

トップページのKAMPOを選ぶと,漢方薬検索ページが表示される.生薬・グループリストボタンを押して表示される画面で,生薬・グループを選択してOKボタンをクリックすると,入力欄にそのリストが表示される.Searchボタンをクリックすると,生薬名とその生薬を含む漢方薬のリストが表示される.生薬名の学名欄の緑色のアイコンをクリックすると,その生物種に含まれる化合物リストが表示される.また,漢方薬名をクリックすると,その漢方薬に含まれる生薬リストが表示されるので,それぞれの生薬に含まれる化合物リストを調べることで,漢方薬に含まれる成分を推測することができる.

マススペクトルデータベース

既知化合物をMSやNMRなどの装置で測定したスペクトルデータは,メタボローム解析における化合物の同定や推定に重要である.近年,マススペクトルデータを無料で公開したデータベースを利用できるようになった.特にイオン化した化合物を分解して得られるMS/MSスペクトルは複数の「質量値とその強度値のペア」で表現され,未知成分と既知成分とでその類似度を比較することで化合物の構造推定を行うことができる(5)5) 津川裕司,早川英介,三浦大典:J. Mass Spectrom. Soc. Jpn., 658, 203 (2017)..この方法は多くの代謝成分の同定および推定に利用されている.代謝成分全体に対してまだデータ件数が少ないため,ノンターゲットメタボローム分析の場合には類似するパターンが発見できない場合もある.また類似するヒットがあった場合も,ヒットしたから正しいわけではなく,その結果を精査することが必要である.ニュートラルロスやフラグメントの構造予測などのマススペクトルの解釈は専門家でも難しく,構造推定には十分な注意が必要である.代謝成分を含む有機化合物のマススペクトルを蓄積したデータベースとして,MassBank(6, 7)6) H. Horai, M. Arita, S. Kanaya, Y. Nihei, T. Ikeda, K. Suwa, Y. Ojima, K. Tanaka, S. Tanaka, K. Aoshima et al.: J. Mass Spectrom., 45, 703 (2010).7) 西岡孝明:J. Surface Analysis, 24, 25 (2017).(http://www.massbank.jp/)とmzCloud(https://www.mzcloud.org/)を紹介する.

MassBankは,世界中の研究者がさまざまな分析装置および分析条件で分析した14,382化合物由来の80,869件のマススペクトルを収集して公開している.化合物名,質量値,組成式,マススペクトルのパターンを用いてマススペクトルを検索できる.メタボローム解析で得られた未知のマススペクトルを検索することで,化学構造の推定を行うことができる.マススペクトルは分析条件によりそのパターンが変化するため,できるだけ多くの分析条件でのデータを収集することで,マススペクトルでの化合物同定および推定率の向上を目指している.MassBankは日本(http://www.massbank.jp/),アメリカ(https://mona.fiehnlab.ucdavis.edu/),ヨーロッパ(https://massbank.eu/MassBank/)の3つのWEBサイトがあり,マススペクトルのデータセットはMassBank consortium(https://github.com/MassBank/)からダウンロードできる.

トップページのSearchをクリックすると,化合物名,組成式,質量値などでマススペクトルを検索できるページが表示される(図3A図3■マススペクトルデータベースの使い方).化合物名(例:glucose)を入力して検索すると,その化合物名を含む化合物リストが表示される.化合物名の前の+ボタンをクリックすると,分析条件の異なるデータリストが表示される.その1つをクリックすると,マススペクトルがグラフとテキストで表示され,化合物情報,分析条件などが記載されたページが表示される.テキスト形式のマススペクトルをコピーして,中段のメニューのPeak listのタブをクリックして表示されるスペクトル類似性検索ページのPeak Data欄に貼り付けて(ピーク強度は最大999に標準化する必要がある)検索を行うと,類似したマススペクトルをもつ化合物リストが表示される.リストの一番上に貼り付けた化合物の名前が表示され,相対的な類似度の指標であるヒットのスコアの順にヒットした化合物がリストされる.MassBankのページには日本語の利用マニュアルがあり,操作方法の詳細が記載されている.