ゲノムデータの分子系統解析への応用と今後の展望

現在，地球上には3千万種ともいわれる生物種が生息しているが，これらはすべて共通祖先から種分岐し，進化してきたと考えられている．つまり，すべての種は祖先を介して繋がっており，「系統樹」でその関係を表すことができる．系統樹構築は進化研究の中心的な役割を果たすだけではなく，分子生物学研究の基盤にもなりうる．かつては生物種間で生態的・生理的に共通した特徴から種の系統関係を推定することが多かったが，現在はDNAの塩基配列を決定する技術が普及したことから，DNAの塩基配列やタンパク質のアミノ酸配列の情報を用いた分子系統解析法が良く用いられる．このときに問題になるのが，系統解析に用いる配列データの収集法である．BLAST検索などを用いてDNAデータベースからホモログ（共通祖先から派生する配列で，互いに配列類似性の高い傾向がある）を集め，系統解析することもあるが，どの生物の配列を元に相同性検索するかにより，集められる配列が変わってしまうため，あまり望ましくない．一方，オーソログデータセット作成プログラムは解析対象生物が持つすべての遺伝子（またはタンパク質，以降は煩雑な表記を避けるために単に「遺伝子」とする．）の中からオーソログ（種分岐に由来する遺伝子群，図1a図1■分子系統樹上でのオーソログとパラログの関係を示す例）を収集することができる．このように収集されたすべてのオーソログデータを用いると，系統情報が豊富なため系統推定の信頼性が増す．しかし，これまでに公開されたプログラムのほとんどは，すべての生物のすべての配列間で類似性のスコアを計算し，最も類似性の高い配列同士をグルーピングしていくプロセスを共有するものの，パラログ除去のプロセスを持たないため，オーソログデータセットにパラログが混在してしまう問題がある（図1a図1■分子系統樹上でのオーソログとパラログの関係を示す例）⁽¹⁾1) E. V. Koonin: Annu. Rev. Genet., 39, 309 (2005).．その場合，パラログが混在することは認識できてもどちらか一方を選ぶことができないため，パラログを含まない遺伝子である「シングルトン」のみが用いられるが，遠縁種を含む場合はシングルトンの数が限られてしまうため，情報量が大きく低下する問題が生じる．OrthoFinder⁽²⁾2) D. M. Emms & S. Kelly: Genome Biol., 20, 238 (2019).やOMA⁽³⁾3) A. M. Altenhoff, J. Levy, M. Zarowiecki, B. Tomiczek, A. W. Vesztrocy, D. A. Dalquen, S. Müller, M. J. Telford, N. M. Glover, D. Dylus et al.: Genome Res., 29, 1152 (2019).のようにパラログを認識し，そのパラログだけを除去が可能なプログラムも開発されており，これらを用いることである程度のパラログを削除できる．これらのパラログ検出法は互いに異なるものの，重複遺伝子群のうちのいくつかは欠失せず，2コピー以上の遺伝子がゲノム上に残っていることを仮定している．そのため，遺伝子重複後に互い違いに一方の遺伝子が欠失したことで（differential gene lossという），見かけ上シングルトンのようにみえる「隠れパラログ」⁽⁴⁾4) D. M. Kristensen, Y. I. Wolf, A. R. Mushegian & E. V. Koonin: Brief. Bioinform., 12, 379 (2011).を除去できない（図1b図1■分子系統樹上でのオーソログとパラログの関係を示す例）．筆者らが以前開発したOrtholog Finderは，隠れパラログを除去できる初めてのプログラムである⁽⁵⁾5) T. Horiike, R. Minai, D. Miyata, Y. Nakamura & Y. Tateno: Genome Biol. Evol., 8, 446 (2016).．このプログラムでは，全解析対象種を2分するグループを定義し，この2グループが分岐する前に生じた遺伝子重複による隠れパラログを除去できる．しかし，2グループに分岐した後に生じた遺伝子重複による隠れパラログを除くことはできなかったため，完全に隠れパラログを除去できなかった．筆者らが最近開発した，OrthoPhy⁽⁶⁾6) T. Watanabe, A. Kure & T. Horiike: Genome Biol. Evol., 15, evad026 (2023).はユーザーが与えた生物群の分類情報を自由に与えることにより，より多くの隠れパラログを除去できる（図1c図1■分子系統樹上でのオーソログとパラログの関係を示す例）．現在利用可能な多くのオルソログデータセット構築プログラムの中で，特に系統解析のために設計されたOrthoPhyはこの点で最高の性能を示した．

図1■分子系統樹上でのオーソログとパラログの関係を示す例

この分子系統樹では，共通祖先から遺伝子重複により遺伝子Aと遺伝子Bに分岐し（●），AとBのそれぞれで種分岐している（■）．オーソログとは共通祖先から種分岐により派生した遺伝子群である．a）ヒトA・ゴリラA・イヌAとヒトB・ゴリラB・イヌBがそれぞれオーソログであり，どちらのオーソロググループも種の系統樹の分岐パターンと一致する．パラログは共通祖先から遺伝子重複により派生した遺伝子群である．b）ヒトB, イヌB, ゴリラAの遺伝子が進化の過程で欠失すると，ヒトA・イヌAとゴリラBが互いに隠れパラログとなる．これらの遺伝子を用いて系統推定を行うと，ヒトとイヌが最近縁になるという誤った推定がなされてしまう．c）分類情報が与えられることにより，隠れパラログを認識し，削除することができる．

複数の分子系統樹を推定したときに分子の種類によって異なる樹形になることがよくあるが，どの樹形が真実の種の系統関係を表すか判断することは難しい．多数のオーソログを用いた系統解析は，個々のオーソログに生じた進化的イベントに起因する系統樹の差異を相殺するため，真実の種の系統樹と合致しすくなる．多数のオーソログを用いた系統解析法は2つに大別できる．一つはオーソログの配列あるいはオーソログをアラインメントしたデータを連結させて大きなアラインメントデータを生成し，系統樹を推定する方法（連結樹という）である．もう一つは，まず個々のオーソログ系統樹を推定し，それらの樹形を統合した種の系統樹を推定する（合意樹という）を推定する方法である．合意樹を推定する方法はいくつか開発されているが，現在よく用いられているのがASTRAL⁽⁷⁾7) C. Zhang, R. Maryam, S. Erfan & M. Siavash: BMC Bioinformatics, 19, 153 (2018).である．ASTRALと連結樹の相対的な精度は個々のオーソログ系統樹の樹形のばらつきに依存する．ばらつきが中程度以上の場合はASTRALが有利であり，ばらつきが小さい場合は連結樹が有利な傾向がある．前述のOrthoPhyはオーソログデータ作成後，そのまま連結樹か合意樹を作成可能である．

OrthoPhyなどのオーソログデータセット作成プログラムはドラフトゲノム配列にも対応しているが，完全長ゲノム配列が決定されている生物を利用したほうが，オーソログ推定の精度は高くなる．したがって，ゲノム配列決定がより安価に，簡便にできるようになり，利用できる完全長ゲノム配列が増加すれば，よりこの方法の重要性は高まるだろう．また，合意樹は個々のオーソログ系統樹の樹形に影響を受けるため，今後は長枝誘引（進化速度の速い系統同士がクラスタリングされることで正確な系統推定が妨げられる現象）の可能性がある分子を除くなどの工夫により，さらに信頼度を高められると期待している．