Kagaku to Seibutsu 54(6): 408-415 (2016)
解説
AtCASTシロイヌナズナの発展型トランスクリプトームデータ解析ツール
AtCAST: An Advanced Transcriptome Analysis Tool for Arabidopsis thaliana
Published: 2016-05-20
本稿では進歩し続けているトランスクリプトーム解析を取り巻く現状と,関連する解析ツールについて紹介する.なかでも,モデル植物のシロイヌナズナのトランスクリプトーム解析用にわれわれが最近開発しウェブ上で提供しているAtCAST(http://atpbsmd.yokohama-cu.ac.jp/)について詳しく解説する.近年ではトランスクリプトームデータ同士や各種オミクスデータなどを合わせてさらに解析するなど,発展型トランスクリプトーム解析ツールの開発が盛んである.AtCASTはこのような発展型トランスクリプトーム解析ツールの一つであり,基本的な統計解析に引き続いてGOE解析やMCN解析といったトランスクリプトームデータの解釈を助ける解析をまとめて行うツールである.
© 2016 Japan Society for Bioscience, Biotechnology, and Agrochemistry
© 2016 公益社団法人日本農芸化学会
遺伝子の転写量(遺伝子発現量)を調べることは分子生物学において一般的な解析手法となっている.多くの遺伝子は,細胞の置かれた状況に応じて,転写レベルでどのくらい強く働くか調節される.たとえば生物が環境変化に応答する場合に,刺激を受けて短時間では見た目の応答が検出できないことが多いが,トランスクリプトームは見た目の応答に先立って変化しているので,生物の環境応答を知るうえでトランスクリプトーム解析は特に有用性が高い.一般的に,ほかのオミクス解析手法と比較してモデル生物では特に安価に網羅性の高いデータを得ることができる.
トランスクリプトーム解析ではDNAマイクロアレイを用いたマイクロアレイ解析と次世代シーケンサーを用いたRNA-seq解析が主流となっている.それぞれの解析手法の原理については多くの方が解説されているのでそれらを参考にされたい(1~3).次世代シーケンサーの登場とAgilentなどから提供されているカスタムアレイ設計の自動化システムなどにより,非モデル生物のトランスクリプトーム解析も以前より手軽なものとなってきている.これまで数多くの研究でマイクロアレイ解析の結果が発表され,近年ではRNA-seq解析の報告数も増えつつある.また大量のトランスクリプトームデータが公開されていてインターネットを通じて簡単に入手できる.
モデル植物であるシロイヌナズナでは,大規模なマイクロアレイデータの収集と公開は2004年から始まった.「AtGenExpress」という国際プロジェクトが大きな役割を果たした.筆者らもこのプロジェクトの中で独国マックス・プランク研究所をはじめとする欧米の研究機関とともに,さまざまな刺激応答,環境応答,組織特異性についての遺伝子発現データを収集した.AtGenExpressの遺伝子発現データは世界中の研究者に活用されている.マイクロアレイデータの公開データベースはいくつか存在し,シロイヌナズナのマイクロアレイデータを扱うデータベースの中でもNational Center for Biotechnology Information(NCBI)のGene Expression Omnibus(GEO)が使われることが多くなってきた.GEOでは2001年には僅か14サンプルだったシロイヌナズナのマイクロアレイデータは2015年には20,000サンプルを超え,さまざまな条件における遺伝子発現が登録されている(図1a図1■(a)GEOにおける公開マイクロアレイデータサンプル数の変遷2001年から2015年7月まで,(b)RNA-seqデータ数の変遷).このようなデータレポジトリと呼ばれる1次データベースは情報科学を専門とする研究者には活用されているが,それ以外の研究者が直接研究活動に利用する機会は少ないと思われる.
RNA-seqによるトランスクリプトーム解析は比較的新しい手法でマイクロアレイ解析に比べるとまだデータの報告数は少ないが,こちらもかなりの勢いで蓄積されてきている.RNA-seqデータなど次世代シーケンサーの公開データが登録されているデータベースとしてはNCBI,国立遺伝学研究所(DDBJ),European Bioinformatics Institute(EBI)が参加しているSRA(Sequence Read Archive)が利用可能で,RNA-seqによるトランスクリプトーム解析に関してはGEOからもRNA-seq発現データを参照できる(図1b図1■(a)GEOにおける公開マイクロアレイデータサンプル数の変遷2001年から2015年7月まで,(b)RNA-seqデータ数の変遷).
トランスクリプトームデータを応用した発展型データベースは近年盛んに開発されている.シロイヌナズナや植物に関する物を中心にいくつかを紹介する(表1表1■発展型トランスクリプトーム解析ツール・データベースのリスト).特にATTED-IIなどの遺伝子–遺伝子共発現解析(4~8)は遺伝子の機能推定にその有用性が注目されているため,ここに紹介した以外にも多くのデータベースが開発されている.遺伝子発現の組織特異性などをグラフィカルに表現する「eFP Browser」(Arabidopsis eFP Browser(9)9) D. Winter, B. Vinegar, H. Nahal, R. Ammar, G. V. Wilson & N. J. Provart: PLoS ONE, 2, e718 (2007).など)も直感的に遺伝子発現の特徴を理解できる優れたツールである.
データベース名 | カテゴリー | 生物種 | URL |
---|---|---|---|
ATTED-II | 遺伝子–遺伝子間共発現解析 | シロイヌナズナ | http://www.atted.bio.titech.ac.jp |
CORNET | 遺伝子–遺伝子間共発現解析 | シロイヌナズナ | https://cornet.psb.ugent.be |
Cress Express | 遺伝子–遺伝子間共発現解析 | シロイヌナズナ | http://www.cressexpress.org |
RiceFREND | 遺伝子–遺伝子間共発現解析 | イネ | http://ricefrend.dna.affrc.go.jp |
GeneFriends | 遺伝子–遺伝子間共発現解析 | ヒト,マウス | http://genefriends.org/ |
Arabidopsis eFP Browser | 遺伝子発現情報可視化ツール | シロイヌナズナ | http://bar.utoronto.ca/efp/cgi-bin/efpWeb.cgi |
MapMANWeb | 遺伝子発現情報可視化ツール | 主にシロイヌナズナ | http://mapman.gabipd.org/web/guest/mapmanweb |
AgriGO | GO term enrichment解析 | 植物 | http://bioinfo.cau.edu.cn/agriGO/ |
AmiGO | GO term enrichment解析 | モデル生物一般 | http://amigo.geneontology.org/amigo |
FiT-DB | 生育条件における遺伝子発現とモデル | イネ | http://fitdb.dna.affrc.go.jp/ |
AtMetExpres | オミクス統合データベース(代謝) | シロイヌナズナ | http://prime.psc.riken.jp/lcms/AtMetExpress/ |
UniVIO | オミクス統合データベース(ホルモン) | シロイヌナズナ | http://univio.psc.riken.jp/ |
STIFDB2 | オミクス統合データベース(転写因子結合サイト) | シロイヌナズナ | http://caps.ncbs.res.in/stifdb2/ |
CATdb | 独自データのトランスクリプトームデータベース | シロイヌナズナほかヒトなど | http://urgv.evry.inra.fr/CATdb |
トランスクリプトーム解析では一度に数万遺伝子の発現変動情報(変動しない遺伝子も含む)が得られるので,全体としてどのような応答が生物の体内で起こっているのかを理解するのが難しい.そこで2次的な解析を行い,トランスクリプトームデータの中で起きている遺伝子発現の変動がどのようなカテゴリーの遺伝子群を含むのかを表現するGSEA(Gene set enrichment analysis)と呼ばれる解析手法がある.たとえば炭水化物輸送関連の遺伝子といった遺伝子カテゴリーにひも付けられたGene Ontology(GO)term(この場合GO: 0008643, carbohydrate transport)をもつ遺伝子の総数に対して,変動遺伝子でこのGO termをもつ遺伝子の頻度が高いかどうかを調べるGO term Enrichment(GOE)解析(AgriGO(10)10) Z. Du, X. Zhou, Y. Ling, Z. Zhang & Z. Su: Nucleic Acids Res., 38(Web Server), W64 (2010).やAmiGO(11)11) M. Ashburner, C. A. Ball, J. A. Blake, D. Botstein, H. Butler, J. M. Cherry, A. P. Davis, K. Dolinski, S. S. Dwight, J. T. Eppig et al.: New Phytol., 195, 707 (2012).など)は最近のトランスクリプトーム解析の報告でよく使われている.ほかにもさまざまなパスウェイ解析(MapMANWeb(12)12) O. Thimm, O. Bläsing, Y. Gibon, A. Nagel, S. Meyer, P. Krüger, J. Selbig, L. A. Müller, S. Y. Rhee & M. Stitt: Plant J., 37, 914 (2004).など)がトランスクリプトームデータを理解しやすい形で表現する手法として一般的である.トランスクリプトームをそれ以外のオミクスデータと統合して解析が可能なデータベースもいくつか登場している(13~17)13) A. J. Nagano, Y. Sato, M. Mihara, B. A. Antonio, R. Motoyama, H. Itoh, Y. Nagamura & T. Izawa: Cell, 151, 1358 (2012).17) R. Zaag, J. P. Tamby, C. Guichard, Z. Tariq, G. Rigaill, E. Delannoy, J. Renou, S. Balzergue, T. Mary-Huard, S. Aubourg et al.: Nucleic Acids Res., 43(D1), D1010 (2015)..
AtCASTはさまざまなトランスクリプトームデータのプロファイルをユーザーがより簡単に解析し,理解できるようなツールを目指して開発されている.反復実験データ間の再現性を確認するための散布図描画,2群間で有意に変動した遺伝子を抽出する統計処理(Student’s t-test, False discovery rateの算出)といった基本的な解析を行うことができる.発展的な解析としてGOE解析が行われ,さらにAtCASTの特徴的な機能であるMCN(Module based correlation network)解析(18)18) E. Sasaki, C. Takahashi, T. Asami & Y. Shimada: Plant Cell Physiol., 52, 169 (2011).が行われる.MCN解析はあまり馴染みのない言葉だと思うので,まずMCN解析で何ができるのかを紹介する.
自分が取得したトランスクリプトームデータについて解析する際に,そのデータに潜む遺伝子発現の傾向について,公開されている既知のデータと比較したいと考えたことはないだろうか.ちょうど自分でクローニングした遺伝子の配列をBLAST検索にかけて相同性の高い遺伝子を検索するような感覚の検索である.これまでに大量の公開トランスクリプトームデータが蓄積されていることを紹介したように,検索対象となりうるデータは大量に存在する.しかし,これらのデータには収集された実験環境に影響されるノイズ成分(後述)が含まれており,異なる研究者が解析した公開トランスクリプトームデータ同士を比較することは難しい.AtCASTでは,MCN(Module based correlation network)という技術を使うことにより,これらの影響を乗り越えてユーザーが入力したトランスクリプトームデータと公開データの比較をすることができる.また,公開トランスクリプトームデータ同士の遺伝子発現変動の類似度や逆相関といった関連性を見ることもできる.ここではまず解析例を用いてAtCASTがどのようなツールであるかを紹介する.
植物ホルモンの一種であるエチレンの生合成阻害剤として用いられていたAVG(Amino ethoxyvinyl glycine)という化合物をシロイヌナズナに処理した際のトランスクリプトームデータを,AtCASTを用いてMCN解析した結果を図2図2■AVG処理実験トランスクリプトームデータのAtCASTによるMCN解析結果に示す.AtCASTの解析結果ではAVG処理トランスクリプトームはエチレン処理実験と,別の植物ホルモンであるオーキシン処理実験のトランスクリプトームプロファイルと青い線でつながっていた.青線は遺伝子発現データの間に逆相関があることを表すので,AVGはエチレンの生合成を抑える効果とともに,何らかの機構でオーキシンの働きも抑えていることが推測された.AVGが光関連実験群とも相関していたことはエチレンとオーキシンの両方が光形態形成の過程で機能していることを反映していると考えられる.この発見はその後AVGを元に構造展開した化合物AOPP(Amino oxyphenyl propionic acid)などがオーキシン生合成を特異的に阻害するという発見につながった(19)19) K. Soeno, H. Goda, T. Ishii, T. Ogura, T. Tachikawa, E. Sasaki, S. Yoshida, S. Fujioka, T. Asami & Y. Shimada: Plant Cell Physiol., 51, 524 (2010)..この研究によりわれわれの研究室ではオーキシン生合成阻害剤を世界で初めて開発することに成功した.ほかにもジベレリンの阻害剤として知られていたuniconazole-Pがサイトカイニンの生合成も止めることが,AtCASTの解析結果と引き続く研究によって証明された(20)20) E. Sasaki, T. Ogura, K. Takei, M. Kojima, N. Kitahata, H. Sakakibara, T. Asami & Y. Shimada: Phytochemistry, 87, 30 (2013)..遺伝子発現変化はさまざまな環境要因の組み合わせの結果として起こっている.通常,複数の要因を反映した遺伝子発現変化を人間が解釈することは難しいが,AtCASTのMCN解析を用いれば,あるトランスクリプトームデータが要因の組み合わさった結果であるということが推察できるようになっている.
そのほかにもMCN解析は変異体の原因遺伝子の機能推定に役立つであろうと期待している.図2図2■AVG処理実験トランスクリプトームデータのAtCASTによるMCN解析結果ではオーキシン下流の転写制御にかかわる遺伝子の変異体nph4のトランスクリプトームデータがオーキシン処理実験と逆相関していることがわかる.機能未知の遺伝子の変異体のトランスクリプトームデータを,AtCASTを用いて解析することで,その変異体の原因遺伝子が植物のどのような機構にかかわる遺伝子なのかを推定することができると考えている.
図3図3■AtCAST使い方の概要にAtCASTによる解析のおおよその流れを示した.AtCASTでの解析は2種類の方法が用意されている.一つは事前に解析されている公開トランスクリプトームデータを検索する方法(①公開データの解析結果検索).もう一つはユーザーが用意したトランスクリプトームデータの解析をする方法(②ユーザーデータの入力)である.