解説

AtCASTシロイヌナズナの発展型トランスクリプトームデータ解析ツール

AtCAST: An Advanced Transcriptome Analysis Tool for Arabidopsis thaliana

Yusuke Kakei

雄介

横浜市立大学・木原生物学研究所

Yukihisa Shimada

嶋田 幸久

横浜市立大学・木原生物学研究所

Published: 2016-05-20

本稿では進歩し続けているトランスクリプトーム解析を取り巻く現状と,関連する解析ツールについて紹介する.なかでも,モデル植物のシロイヌナズナのトランスクリプトーム解析用にわれわれが最近開発しウェブ上で提供しているAtCAST(http://atpbsmd.yokohama-cu.ac.jp/)について詳しく解説する.近年ではトランスクリプトームデータ同士や各種オミクスデータなどを合わせてさらに解析するなど,発展型トランスクリプトーム解析ツールの開発が盛んである.AtCASTはこのような発展型トランスクリプトーム解析ツールの一つであり,基本的な統計解析に引き続いてGOE解析やMCN解析といったトランスクリプトームデータの解釈を助ける解析をまとめて行うツールである.

はじめに

遺伝子の転写量(遺伝子発現量)を調べることは分子生物学において一般的な解析手法となっている.多くの遺伝子は,細胞の置かれた状況に応じて,転写レベルでどのくらい強く働くか調節される.たとえば生物が環境変化に応答する場合に,刺激を受けて短時間では見た目の応答が検出できないことが多いが,トランスクリプトームは見た目の応答に先立って変化しているので,生物の環境応答を知るうえでトランスクリプトーム解析は特に有用性が高い.一般的に,ほかのオミクス解析手法と比較してモデル生物では特に安価に網羅性の高いデータを得ることができる.

トランスクリプトーム解析ではDNAマイクロアレイを用いたマイクロアレイ解析と次世代シーケンサーを用いたRNA-seq解析が主流となっている.それぞれの解析手法の原理については多くの方が解説されているのでそれらを参考にされたい(1~3).次世代シーケンサーの登場とAgilentなどから提供されているカスタムアレイ設計の自動化システムなどにより,非モデル生物のトランスクリプトーム解析も以前より手軽なものとなってきている.これまで数多くの研究でマイクロアレイ解析の結果が発表され,近年ではRNA-seq解析の報告数も増えつつある.また大量のトランスクリプトームデータが公開されていてインターネットを通じて簡単に入手できる.

モデル植物であるシロイヌナズナでは,大規模なマイクロアレイデータの収集と公開は2004年から始まった.「AtGenExpress」という国際プロジェクトが大きな役割を果たした.筆者らもこのプロジェクトの中で独国マックス・プランク研究所をはじめとする欧米の研究機関とともに,さまざまな刺激応答,環境応答,組織特異性についての遺伝子発現データを収集した.AtGenExpressの遺伝子発現データは世界中の研究者に活用されている.マイクロアレイデータの公開データベースはいくつか存在し,シロイヌナズナのマイクロアレイデータを扱うデータベースの中でもNational Center for Biotechnology Information(NCBI)のGene Expression Omnibus(GEO)が使われることが多くなってきた.GEOでは2001年には僅か14サンプルだったシロイヌナズナのマイクロアレイデータは2015年には20,000サンプルを超え,さまざまな条件における遺伝子発現が登録されている(図1a図1■(a)GEOにおける公開マイクロアレイデータサンプル数の変遷2001年から2015年7月まで,(b)RNA-seqデータ数の変遷).このようなデータレポジトリと呼ばれる1次データベースは情報科学を専門とする研究者には活用されているが,それ以外の研究者が直接研究活動に利用する機会は少ないと思われる.

図1■(a)GEOにおける公開マイクロアレイデータサンプル数の変遷2001年から2015年7月まで,(b)RNA-seqデータ数の変遷

RNA-seqによるトランスクリプトーム解析は比較的新しい手法でマイクロアレイ解析に比べるとまだデータの報告数は少ないが,こちらもかなりの勢いで蓄積されてきている.RNA-seqデータなど次世代シーケンサーの公開データが登録されているデータベースとしてはNCBI,国立遺伝学研究所(DDBJ),European Bioinformatics Institute(EBI)が参加しているSRA(Sequence Read Archive)が利用可能で,RNA-seqによるトランスクリプトーム解析に関してはGEOからもRNA-seq発現データを参照できる(図1b図1■(a)GEOにおける公開マイクロアレイデータサンプル数の変遷2001年から2015年7月まで,(b)RNA-seqデータ数の変遷).

トランスクリプトームデータを応用したインフォマティクスデータベース(2次データベース)の紹介

トランスクリプトームデータを応用した発展型データベースは近年盛んに開発されている.シロイヌナズナや植物に関する物を中心にいくつかを紹介する(表1表1■発展型トランスクリプトーム解析ツール・データベースのリスト).特にATTED-IIなどの遺伝子–遺伝子共発現解析(4~8)は遺伝子の機能推定にその有用性が注目されているため,ここに紹介した以外にも多くのデータベースが開発されている.遺伝子発現の組織特異性などをグラフィカルに表現する「eFP Browser」(Arabidopsis eFP Browser(9)9) D. Winter, B. Vinegar, H. Nahal, R. Ammar, G. V. Wilson & N. J. Provart: PLoS ONE, 2, e718 (2007).など)も直感的に遺伝子発現の特徴を理解できる優れたツールである.

表1■発展型トランスクリプトーム解析ツール・データベースのリスト
データベース名カテゴリー生物種URL
ATTED-II遺伝子–遺伝子間共発現解析シロイヌナズナhttp://www.atted.bio.titech.ac.jp
CORNET遺伝子–遺伝子間共発現解析シロイヌナズナhttps://cornet.psb.ugent.be
Cress Express遺伝子–遺伝子間共発現解析シロイヌナズナhttp://www.cressexpress.org
RiceFREND遺伝子–遺伝子間共発現解析イネhttp://ricefrend.dna.affrc.go.jp
GeneFriends遺伝子–遺伝子間共発現解析ヒト,マウスhttp://genefriends.org/
Arabidopsis eFP Browser遺伝子発現情報可視化ツールシロイヌナズナhttp://bar.utoronto.ca/efp/cgi-bin/efpWeb.cgi
MapMANWeb遺伝子発現情報可視化ツール主にシロイヌナズナhttp://mapman.gabipd.org/web/guest/mapmanweb
AgriGOGO term enrichment解析植物http://bioinfo.cau.edu.cn/agriGO/
AmiGOGO term enrichment解析モデル生物一般http://amigo.geneontology.org/amigo
FiT-DB生育条件における遺伝子発現とモデルイネhttp://fitdb.dna.affrc.go.jp/
AtMetExpresオミクス統合データベース(代謝)シロイヌナズナhttp://prime.psc.riken.jp/lcms/AtMetExpress/
UniVIOオミクス統合データベース(ホルモン)シロイヌナズナhttp://univio.psc.riken.jp/
STIFDB2オミクス統合データベース(転写因子結合サイト)シロイヌナズナhttp://caps.ncbs.res.in/stifdb2/
CATdb独自データのトランスクリプトームデータベースシロイヌナズナほかヒトなどhttp://urgv.evry.inra.fr/CATdb

トランスクリプトーム解析では一度に数万遺伝子の発現変動情報(変動しない遺伝子も含む)が得られるので,全体としてどのような応答が生物の体内で起こっているのかを理解するのが難しい.そこで2次的な解析を行い,トランスクリプトームデータの中で起きている遺伝子発現の変動がどのようなカテゴリーの遺伝子群を含むのかを表現するGSEA(Gene set enrichment analysis)と呼ばれる解析手法がある.たとえば炭水化物輸送関連の遺伝子といった遺伝子カテゴリーにひも付けられたGene Ontology(GO)term(この場合GO: 0008643, carbohydrate transport)をもつ遺伝子の総数に対して,変動遺伝子でこのGO termをもつ遺伝子の頻度が高いかどうかを調べるGO term Enrichment(GOE)解析(AgriGO(10)10) Z. Du, X. Zhou, Y. Ling, Z. Zhang & Z. Su: Nucleic Acids Res., 38(Web Server), W64 (2010).やAmiGO(11)11) M. Ashburner, C. A. Ball, J. A. Blake, D. Botstein, H. Butler, J. M. Cherry, A. P. Davis, K. Dolinski, S. S. Dwight, J. T. Eppig et al.: New Phytol., 195, 707 (2012).など)は最近のトランスクリプトーム解析の報告でよく使われている.ほかにもさまざまなパスウェイ解析(MapMANWeb(12)12) O. Thimm, O. Bläsing, Y. Gibon, A. Nagel, S. Meyer, P. Krüger, J. Selbig, L. A. Müller, S. Y. Rhee & M. Stitt: Plant J., 37, 914 (2004).など)がトランスクリプトームデータを理解しやすい形で表現する手法として一般的である.トランスクリプトームをそれ以外のオミクスデータと統合して解析が可能なデータベースもいくつか登場している(13~17)13) A. J. Nagano, Y. Sato, M. Mihara, B. A. Antonio, R. Motoyama, H. Itoh, Y. Nagamura & T. Izawa: Cell, 151, 1358 (2012).17) R. Zaag, J. P. Tamby, C. Guichard, Z. Tariq, G. Rigaill, E. Delannoy, J. Renou, S. Balzergue, T. Mary-Huard, S. Aubourg et al.: Nucleic Acids Res., 43(D1), D1010 (2015).

AtCASTとは?

AtCASTはさまざまなトランスクリプトームデータのプロファイルをユーザーがより簡単に解析し,理解できるようなツールを目指して開発されている.反復実験データ間の再現性を確認するための散布図描画,2群間で有意に変動した遺伝子を抽出する統計処理(Student’s t-test, False discovery rateの算出)といった基本的な解析を行うことができる.発展的な解析としてGOE解析が行われ,さらにAtCASTの特徴的な機能であるMCN(Module based correlation network)解析(18)18) E. Sasaki, C. Takahashi, T. Asami & Y. Shimada: Plant Cell Physiol., 52, 169 (2011).が行われる.MCN解析はあまり馴染みのない言葉だと思うので,まずMCN解析で何ができるのかを紹介する.

自分が取得したトランスクリプトームデータについて解析する際に,そのデータに潜む遺伝子発現の傾向について,公開されている既知のデータと比較したいと考えたことはないだろうか.ちょうど自分でクローニングした遺伝子の配列をBLAST検索にかけて相同性の高い遺伝子を検索するような感覚の検索である.これまでに大量の公開トランスクリプトームデータが蓄積されていることを紹介したように,検索対象となりうるデータは大量に存在する.しかし,これらのデータには収集された実験環境に影響されるノイズ成分(後述)が含まれており,異なる研究者が解析した公開トランスクリプトームデータ同士を比較することは難しい.AtCASTでは,MCN(Module based correlation network)という技術を使うことにより,これらの影響を乗り越えてユーザーが入力したトランスクリプトームデータと公開データの比較をすることができる.また,公開トランスクリプトームデータ同士の遺伝子発現変動の類似度や逆相関といった関連性を見ることもできる.ここではまず解析例を用いてAtCASTがどのようなツールであるかを紹介する.

AtCAST解析結果(MCN)とその応用—新しい生理活性物質の発見への貢献など

植物ホルモンの一種であるエチレンの生合成阻害剤として用いられていたAVG(Amino ethoxyvinyl glycine)という化合物をシロイヌナズナに処理した際のトランスクリプトームデータを,AtCASTを用いてMCN解析した結果を図2図2■AVG処理実験トランスクリプトームデータのAtCASTによるMCN解析結果に示す.AtCASTの解析結果ではAVG処理トランスクリプトームはエチレン処理実験と,別の植物ホルモンであるオーキシン処理実験のトランスクリプトームプロファイルと青い線でつながっていた.青線は遺伝子発現データの間に逆相関があることを表すので,AVGはエチレンの生合成を抑える効果とともに,何らかの機構でオーキシンの働きも抑えていることが推測された.AVGが光関連実験群とも相関していたことはエチレンとオーキシンの両方が光形態形成の過程で機能していることを反映していると考えられる.この発見はその後AVGを元に構造展開した化合物AOPP(Amino oxyphenyl propionic acid)などがオーキシン生合成を特異的に阻害するという発見につながった(19)19) K. Soeno, H. Goda, T. Ishii, T. Ogura, T. Tachikawa, E. Sasaki, S. Yoshida, S. Fujioka, T. Asami & Y. Shimada: Plant Cell Physiol., 51, 524 (2010)..この研究によりわれわれの研究室ではオーキシン生合成阻害剤を世界で初めて開発することに成功した.ほかにもジベレリンの阻害剤として知られていたuniconazole-Pがサイトカイニンの生合成も止めることが,AtCASTの解析結果と引き続く研究によって証明された(20)20) E. Sasaki, T. Ogura, K. Takei, M. Kojima, N. Kitahata, H. Sakakibara, T. Asami & Y. Shimada: Phytochemistry, 87, 30 (2013)..遺伝子発現変化はさまざまな環境要因の組み合わせの結果として起こっている.通常,複数の要因を反映した遺伝子発現変化を人間が解釈することは難しいが,AtCASTのMCN解析を用いれば,あるトランスクリプトームデータが要因の組み合わさった結果であるということが推察できるようになっている.

図2■AVG処理実験トランスクリプトームデータのAtCASTによるMCN解析結果

そのほかにもMCN解析は変異体の原因遺伝子の機能推定に役立つであろうと期待している.図2図2■AVG処理実験トランスクリプトームデータのAtCASTによるMCN解析結果ではオーキシン下流の転写制御にかかわる遺伝子の変異体nph4のトランスクリプトームデータがオーキシン処理実験と逆相関していることがわかる.機能未知の遺伝子の変異体のトランスクリプトームデータを,AtCASTを用いて解析することで,その変異体の原因遺伝子が植物のどのような機構にかかわる遺伝子なのかを推定することができると考えている.

AtCASTの使い方

図3図3■AtCAST使い方の概要にAtCASTによる解析のおおよその流れを示した.AtCASTでの解析は2種類の方法が用意されている.一つは事前に解析されている公開トランスクリプトームデータを検索する方法(①公開データの解析結果検索).もう一つはユーザーが用意したトランスクリプトームデータの解析をする方法(②ユーザーデータの入力)である.

図3■AtCAST使い方の概要

AtCAST3(http://atpbsmd.yokohama-cu.ac.jp/cgi/atcast/home.cgi)のトップページから「Analyze public data」をクリックすると検索窓のあるページに移動する(図3図3■AtCAST使い方の概要–①).この検索窓に興味のある単語を入力すると,公開されているマイクロアレイ実験の中からタイトルにその単語が含まれる実験が検索されて,検索結果がリストとして表示される.AtCASTデータベースには現在2,000以上の実験データセットが登録されている.実験リストのうち一つを選ぶとその実験と遺伝子発現応答に相関がある実験をネットワークで表示するMCN解析結果のページへ移動する(図3図3■AtCAST使い方の概要–③).

ユーザーデータを入力する場合は,同じくAtCASTのトップページから「Analyze user data」をクリックするとマイクロアレイデータ,もしくはRNA-seqデータの入力ができるページに移動する(図3図3■AtCAST使い方の概要–②).データは事前にエクセルファイルかテキスト形式の表にまとめておく必要がある.表の作り方はManualページや入力ページにある「See a sample of the data format」リンクで解説している.データは暗号化して解析サーバへ送られる.

解析結果はまず,ネットワーク図(MCN)で表示される(図3図3■AtCAST使い方の概要–③).オレンジ色のノード(中心ノード)は検索で選ばれたデータやユーザーが入力したトランスクリプトームデータとなる.中心ノードから2階層分の相関のある実験が探し出されてネットワーク図に表示される.実験–実験間で遺伝子発現プロファイルが似ていれば赤い線,反対向きの遺伝子発現制御を受けていれば青い線で結ばれる.

実験の遺伝子発現データの統計情報を表示するページ(図3図3■AtCAST使い方の概要–④)を設けており,ここへは相関のある公開実験データのリスト」の右端のリンク「Data set Details」(図3図3■AtCAST使い方の概要–③)から移動できる.データのクオリティを確認するために,実験反復間の遺伝子発現量の比較が散布図として確認できる.

比較先の公開実験の実験条件などの詳細を知りたい場合は「相関のある公開実験データのリスト」の中の「Original data」リンクからデータが公開されている一次データベースのウェブページを参照することができる.

次に,どのような遺伝子が発現制御されているのか,またほかの実験でも同じように(または逆向きに)制御されているのかどうかを確認する方法について説明する.ネットワーク図の下には「相関のある公開実験データのリスト」(List of experiments correlated with <実験>)が表示されている.このリストでは遺伝子発現の類似性が高い順に実験が表示され,相関係数が示されている.相関係数の横についている「More info」リンクから「2つの実験間の遺伝子発現相関情報」(Information of module)ページに移動できる(図3図3■AtCAST使い方の概要–⑤).このページは比較元実験で発現が変動していた遺伝子が比較先の実験でどのように変動していたかを示す(図3図3■AtCAST使い方の概要–⑤散布図).ページの右上にはGOE解析結果が表示され,どのようなカテゴリーの遺伝子が比較元の実験で発現変動しているのかがわかるようになっている.たとえば,上記のAVGの解析結果ではエチレン応答性の遺伝子群が共通して発現変動しているケースと,オーキシン応答性の遺伝子群が共通して発現変動しているケースの2つの異なるパターンがGOE解析結果からも裏づけられる.

AtCASTで用いられる技術MCNの解説

実験手法が異なるトランスクリプトームデータの間の発現変動の類似性を比較するのは難しい.たとえばマイクロアレイ解析もRNA-Seqも多くの場合解析対象はmRNAで同じだが,生み出されるデータには無視できない違いがある.たとえばマイクロアレイ解析はその原理から観測される発現強度が飽和しやすい.RNA-Seq解析では転写量が少なく短いRNAを安定的に定量するために必要とされる総リード数が多く,高価なリード数の多い解析を選ばない限り転写量の低いmRNA同士の比較がより難しい.したがって遺伝子発現レベルが高い遺伝子の発現変動はRNA-seq解析だけで見いだされたり,発現レベルの低い遺伝子の発現変動は逆にマイクロアレイ解析でしか検出されなかったりする.もちろん同じ解析手法を使っていても,サンプルの準備方法やプラットフォーム,ハイブリダイゼーションの条件などによって検出可能な変化の範囲は異なってくる.MCNでは片方の実験で検出された信頼性の高い発現変動遺伝子(Module)について,もう片方の信頼性のより低いデータで同じような変動の傾向を見せるかという比較解析をする.この比較は双方向で行われ,スピアマンの順位相関係数を使って関連性が判断される.さらにこの関係性をネットワーク図にすることで,2実験間の関連性が第3の実験との関係性で補強されることがある.AtCASTではMCNを用いることで手法の違いや実験環境の違いなどに由来して,信頼性が違ったり,ノイズを含んだりするデータの間の発現変動の比較が可能になっている.さらに詳しい原理の説明が必要であれば原著を参考にしてほしい(18, 21)18) E. Sasaki, C. Takahashi, T. Asami & Y. Shimada: Plant Cell Physiol., 52, 169 (2011).21) Y. Kakei & Y. Shimada: Plant Cell Physiol., 56, e7 (2015).

大規模な情報から目的のものを見つけ出す作業は常に擬陽性と陽性(真の目的)を見分ける作業になる.トランスクリプトームデータを用いた解析の多くは,2つ以上の条件を比較してどの遺伝子の発現が変動しているのかを解析することを目的としている.最終的には統計的に有意な差があるかどうかを検討するが,その前に計測した遺伝子発現レベルのデータの補正をすることが一般的となっている.トランスクリプトーム解析で得られるデータがさまざまなバイアスを含んでおり,一般的にそれらのバイアスは解析の妨げにならないように補正される.AtCASTでは以下に紹介する技術を用いて信頼性の高いデータを準備し,それぞれの手法により算出されるデータがMCNによって同じように解析できるかどうかをテストしている.

マイクロアレイ解析では使用するマイクロアレイプラットホームの違いによって遺伝子発現量を算出する計算手法が異なる.基本的にはバックグラウンド補正をした後,同じ遺伝子をターゲットとした複数のプローブのデータをまとめたシグナル値を遺伝子の発現量として算出する.たとえばシロイヌナズナのマイクロアレイ解析で一番多く用いられているAffymetrix社ATH1 GeneChipを用いる場合MAS5(22)22) E. Hubbell, W.-M. Liu & R. Mei: Bioinformatics, 18, 1585 (2002).またはRMA(23)23) R. A. Irizarry, B. Hobbs, F. Collin, Y. D. Beazer-Barclay, K. J. Antonellis, U. Scherf & T. P. Speed: Biostat, 4, 249 (2003).によるシグナル値の算出が一般的である.ほかにもGCRMA,(24)24) Z. Wu, R. A. Irizarry, R. Gentleman, F. Martinez-Murillo & F. Spencer: J. Am. Stat. Assoc., 99, 909 (2004). FARMS,(25)25) S. Hochreiter, D.-A. Clevert & K. Obermayer: Bioinformatics, 22, 943 (2006). DFW(26)26) Z. Chen, M. McGee, Q. Liu & R. H. Scheuermann: Bioinformatics, 23, 321 (2007).など,補正効果がより大きいシグナル値の算出方法も開発されている.一般的に補正が強いシグナル算出方法は値の信頼性は高くなるとされているが,観測された遺伝子発現量のデータを計算機の中で加工しているので取り扱いには注意が必要であろう.マイクロアレイ解析を2色法で実施した場合はLOWESS法などを用いて2色の間の検出感度の違いを補正した後データを合わせるのが一般的である.このように数値化には多くの手法が存在するが,調べた限りではAtCASTはどの手法とも親和性があるため,どの手法で計算された遺伝子発現データも,AtCASTへ入力することができる.

RNA-Seqの場合,シークエンスされた配列(リード)をクリーニングした後ゲノムにマッピングし,遺伝子領域にマッピングされたリード数を遺伝子の発現量として算出する.次世代シーケンサーの場合読まれた配列の信頼性が比較的低く(たとえば信頼性99.9%程度など),長く読むほど信頼性が落ちていくので,シークエンス時のシグナルの精度に対する閾値でリードをクリーニングすることで,信頼性の高い配列のみを解析に用いる.また,そのためデータの解析の際には読み間違いを考慮する必要がある.また,エキソンの組み合わせからなるRNA由来のリードを分割して正確にゲノムにマッピングしてカウントする必要があるなど,正確に発現量を算出することは技術的に難しい.そのため,遺伝子発現量算出の計算方法は発展途上にあるといえるだろう.今のところシロイヌナズナのショートリードから遺伝子発現を算出する場合,クリーニングされたリードをTopHat(27)27) C. Trapnell, L. Pachter & S. L. Salzberg: Bioinformatics, 25, 1105 (2009).でマッピングし,Cufflinks(28)28) C. Trapnell, B. A. Williams, G. Pertea, A. Mortazavi, G. Kwan, M. J. van Baren, S. L. Salzberg, B. J. Wold & L. Pachter: Nat. Biotechnol., 28, 511 (2010).でリードカウントを算出,発現に差があるかどうかをedgeR(29)29) D. J. McCarthy, Y. Chen & G. K. Smyth: Nucleic Acids Res., 40, 4288 (2012).やDESeq(30)30) S. Anders & W. Huber: Genome Biol., 11, R106 (2010).などの専用の統計ツールで解析することが多くなってきたと思われる.AtCAST3.02ではユーザーにリードカウントを入力してもらい,統計解析にはedgeR(29)29) D. J. McCarthy, Y. Chen & G. K. Smyth: Nucleic Acids Res., 40, 4288 (2012).のTMM正規化,一般化線形モデルと尤度比検定を用いている.入力は遺伝子座レベルのリードカウントに対応している.RNA-Seq解析から高精度に遺伝子発現量を算出する技術はベイズ推定を用いたもの(31)31) Y. Katz, E. T. Wang, E. M. Airoldi & C. B. Burge: Nat. Methods, 7, 1009 (2010).など,開発が盛んに行われている.より改良された実験手法,試薬,ツールが引き続き登場してくることが期待され,順次対応していく予定である.

おわりに

AtCASTデータベースでは今後の展開として,RNA-Seqデータを含む新たなデータの取り込み,イネやトマト版のAtCASTの開発,ATTED-IIなどの遺伝子–遺伝子共発現解析ツールやプロモーター解析などのツールとの連携などを予定している.本ツールは多くの研究者の研究に貢献できるように,入力エラーを検知して入力のアドバイスを行うようにしている.またツールに関する要望を随時受け付けている(atpbsmd@yokohama-cu.ac.jp).

AtCASTに一部類似したデータ解析データベースとして,ArraySearch(32)32) T. J. Wilson & S. X. Ge: Comp. Funct. Genomics, 2012, 650842 (2012).やMARQ(33)33) M. Vazquez, R. Nogales-Cadenas, J. Arroyo, P. Botías, R. García, J. M. Carazo, F. Tirado, A. Pascual-Montano & P. Carmona-Saez: Nucleic Acids Res., 38(Suppl. 2), W228 (2010).がある.ArraySearchでは入力された遺伝子群とその遺伝子発現比に対して,シロイヌナズナの公開データで発現が相関しているものがあるかどうかを探すことができる.MARQでは入力された遺伝子群が,シロイヌナズナ,ヒト,マウス,酵母の公開データにおいて誘導もしくは抑制されているかどうかを検索し比較することができる.いずれのデータベースも入力する遺伝子群は自分で選択する,双方向の相関ではない,ネットワーク解析ではないなどがMCN解析とは異なっているが,特定の遺伝子群についてのみほかの実験での発現を簡単に知りたい,ヒトなどの生物種で解析したいなどの場合にはこれらのデータベースが利用できる.

発展型トランスクリプトーム解析ツールは今後も盛んに研究が行われ,新しい解析手法が開発されると期待される.本稿で紹介したさまざまな発展型トランスクリプトーム解析データベースやツールが,新たな生理学的機構の解明につながることを期待している.

Acknowledgments

本稿のうち,筆者らの研究にかかわる部分は,SIP戦略的イノベーション創造プログラム(次世代農林水産業創造技術)の助成を受けてなされたものである.ここに深く感謝申し上げます.

Reference

1) 内田和彦:化学と生物,38, 10 (2009).

2) 勝間 進,辻本豪三:化学と生物,41, 3 (2009).

3) 成相直樹:日本進化学会ニュース,15, 2 (2014).

4) T. Obayashi, Y. Okamura, S. Ito, S. Tadaka, Y. Aoki, M. Shirota & K. Kinoshita: Plant Cell Physiol., 55, e6 (2014).

5) S. De Bodt, J. Hollunder, H. Nelissen, N. Meulemeester & D. Inzé: New Phytol., 195, 707 (2012).

6) V. Srinivasasainagendra, G. P. Page, T. Mehta, I. Coulibaly & A. E. Loraine: Plant Physiol., 147, 1004 (2008).

7) Y. Sato, N. Namiki, H. Takehisa, K. Kamatsuki, H. Minami, H. Ikawa, H. Ohyanagi, K. Sugimoto, J. Itoh, B. A. Antonio et al.: Nucleic Acids Res., 41(D1), D1214 (2013).

8) S. van Dam, T. Craig & J. P. de Magalhães: Nucleic Acids Res., 43(D1), D1124 (2015).

9) D. Winter, B. Vinegar, H. Nahal, R. Ammar, G. V. Wilson & N. J. Provart: PLoS ONE, 2, e718 (2007).

10) Z. Du, X. Zhou, Y. Ling, Z. Zhang & Z. Su: Nucleic Acids Res., 38(Web Server), W64 (2010).

11) M. Ashburner, C. A. Ball, J. A. Blake, D. Botstein, H. Butler, J. M. Cherry, A. P. Davis, K. Dolinski, S. S. Dwight, J. T. Eppig et al.: New Phytol., 195, 707 (2012).

12) O. Thimm, O. Bläsing, Y. Gibon, A. Nagel, S. Meyer, P. Krüger, J. Selbig, L. A. Müller, S. Y. Rhee & M. Stitt: Plant J., 37, 914 (2004).

13) A. J. Nagano, Y. Sato, M. Mihara, B. A. Antonio, R. Motoyama, H. Itoh, Y. Nagamura & T. Izawa: Cell, 151, 1358 (2012).

14) T. Sakurai, Y. Yamada, Y. Sawada, F. Matsuda, K. Akiyama, K. Shinozaki, M. Y. Hirai & K. Saito: Plant Cell Physiol., 54, e5 (2013).

15) T. Kudo, K. Akiyama, M. Kojima, N. Makita, T. Sakurai & H. Sakakibara: Plant Cell Physiol., 54, e9 (2013).

16) M. Naika, K. Shameer, O. K. Mathew, R. Gowda & R. Sowdhamini: Plant Cell Physiol., 54, e8 (2013).

17) R. Zaag, J. P. Tamby, C. Guichard, Z. Tariq, G. Rigaill, E. Delannoy, J. Renou, S. Balzergue, T. Mary-Huard, S. Aubourg et al.: Nucleic Acids Res., 43(D1), D1010 (2015).

18) E. Sasaki, C. Takahashi, T. Asami & Y. Shimada: Plant Cell Physiol., 52, 169 (2011).

19) K. Soeno, H. Goda, T. Ishii, T. Ogura, T. Tachikawa, E. Sasaki, S. Yoshida, S. Fujioka, T. Asami & Y. Shimada: Plant Cell Physiol., 51, 524 (2010).

20) E. Sasaki, T. Ogura, K. Takei, M. Kojima, N. Kitahata, H. Sakakibara, T. Asami & Y. Shimada: Phytochemistry, 87, 30 (2013).

21) Y. Kakei & Y. Shimada: Plant Cell Physiol., 56, e7 (2015).

22) E. Hubbell, W.-M. Liu & R. Mei: Bioinformatics, 18, 1585 (2002).

23) R. A. Irizarry, B. Hobbs, F. Collin, Y. D. Beazer-Barclay, K. J. Antonellis, U. Scherf & T. P. Speed: Biostat, 4, 249 (2003).

24) Z. Wu, R. A. Irizarry, R. Gentleman, F. Martinez-Murillo & F. Spencer: J. Am. Stat. Assoc., 99, 909 (2004).

25) S. Hochreiter, D.-A. Clevert & K. Obermayer: Bioinformatics, 22, 943 (2006).

26) Z. Chen, M. McGee, Q. Liu & R. H. Scheuermann: Bioinformatics, 23, 321 (2007).

27) C. Trapnell, L. Pachter & S. L. Salzberg: Bioinformatics, 25, 1105 (2009).

28) C. Trapnell, B. A. Williams, G. Pertea, A. Mortazavi, G. Kwan, M. J. van Baren, S. L. Salzberg, B. J. Wold & L. Pachter: Nat. Biotechnol., 28, 511 (2010).

29) D. J. McCarthy, Y. Chen & G. K. Smyth: Nucleic Acids Res., 40, 4288 (2012).

30) S. Anders & W. Huber: Genome Biol., 11, R106 (2010).

31) Y. Katz, E. T. Wang, E. M. Airoldi & C. B. Burge: Nat. Methods, 7, 1009 (2010).

32) T. J. Wilson & S. X. Ge: Comp. Funct. Genomics, 2012, 650842 (2012).

33) M. Vazquez, R. Nogales-Cadenas, J. Arroyo, P. Botías, R. García, J. M. Carazo, F. Tirado, A. Pascual-Montano & P. Carmona-Saez: Nucleic Acids Res., 38(Suppl. 2), W228 (2010).