解説

次世代シークエンスデータベースの活用法最前線

How to Make Full Use of Database for Next-Gen Sequences

Takeru Nakazato

仲里 猛留

大学共同利用機関法人情報・システム研究機構データサイエンス共同利用基盤施設ライフサイエンス統合データベースセンター

Hidemasa Bono

坊農 秀雅

大学共同利用機関法人情報・システム研究機構データサイエンス共同利用基盤施設ライフサイエンス統合データベースセンター

Published: 2016-11-20

次世代シークエンサー(NGS: next generation sequencer)の活躍によって,さまざまな生命科学の謎が解き明かされている.マイクロアレイ同様,NGSから得られるデータも公共データベースに収めることが論文投稿の条件となってきており,そのデータ量は約3.2ペタバイトにもなっている(ペタは10の15乗).これまでよく用いられてきたBLASTなどの配列類似性による検索手段ではもはや歯がたたず,それぞれのデータの付帯情報であるメタデータをたよりに必要な情報を探し出すことになる.膨大なNGSのデータベースから効率よくデータを取り出し,自らの研究に活用する方策を紹介する.

はじめに

Plant & Animal Genome(PAG)はアグリゲノム分野で世界でも最大級の学会大会で,今年も1月9日から13日までアメリカ合衆国サンディエゴにて第24回目が開催された.PAGは元々植物ゲノムの会議として毎年開催されていたのが,近年家畜ゲノムもカバーするようになり,現在では最新の次世代シークエンサー(NGS: next generation sequencer)による塩基配列解読技術が公表される場ともなっている.昨年はイルミナ社よりHiSeq 3000, 4000がこの学会に合わせて発表され,今年は同社よりMiniSeqが発表された.近年,NGSがいわゆる古典的なモデル生物だけでなく,植物や家畜,菌類といった農芸化学分野でよく用いられるような生物種に対しても盛んに用いられるようになってきた.

図1図1■次世代シークエンサーとそのデータ解析の流れに示すようにさまざまな種類のNGSから得られる配列データはFASTQ形式という読まれた塩基配列とそのクオリティの組がときに数十億収められたようなファイルとなっている.NGSデータ解析の最初のステップは既知のリファレンスゲノム配列に対して写像(マッピング)するか,それぞれの配列をつなぎ合わせる(アッセンブル)か,することになる.図示していないが,ゲノム配列解読やRNA-seqといった目的に応じたデータ解析は,このさらに下流になる.

NGSデータは,クローニングした塩基配列やマイクロアレイなどの遺伝子発現のデータがそうであったように,公共データベースに収められている.その配列をアーカイブしたデータベース(DB)にはおもにこのFASTQ形式のデータ(もしくは,これを圧縮した形式のデータ)が収められている.NGSのDBに関して以下に詳しく述べる.

NGSのデータベース:Sequence Read Archive(SRA)

NGSにより解読された塩基配列情報は,どのような実験を行ったかというデータ(メタデータ)と合わせて米国NCBI,欧州EBIとともに日本の国立遺伝学研究所のDDBJにより収集されており,Sequence Read Archive(SRA)と呼ばれる公共データベースに登録されている(1)1) Y. Kodama, M. Shumway & R. Leinonen; International Nucleotide Sequence Database Collaboration: Nucleic Acids Res., 40(D1), D54 (2012)..なお,DDBJではDDBJ Sequence Read Archive(DRA)と呼称しているが,NCBIやEBIとデータ交換を行っており,内容は同じものである.SRAへの登録は2007年から始まり,2016年4月現在,総塩基数で約5.2ペタ塩基(ペタは10の15乗),データ量は約3.2ペタバイト(2)2) NCBI: Sequence Read Archive: Overview: http://www.ncbi.nlm.nih.gov/Traces/sra/, 2016.と,想像を絶する大きさになっている.研究分野による内訳では,ゲノムが1/2近くを占め,その残りの半分がトランスクリプトーム,次いでメタゲノムとなっている(3)3) 坊農秀雅:領域融合レビュー,4, e008(2015).

NGSはヒトサンプルを用いた研究にも盛んに用いられている.これらのデータはプライバシーの観点から誰でも利用可能なopen accessではなく,controlled accessなデータとして収集されており,塩基数で言うと収集されたものの4割にあたる2.2ペタ塩基を占めるまでになっている.日本ではDDBJがDRAと同じ枠組みでJGA(Japanese Genotype-phenotype Archive)として収載しており,利用時には倫理審査などの手続きを踏んだうえで科学技術振興機構バイオサイエンスデータベースセンター(NBDC: National Bioscience Database Center)によるNBDCヒトデータベース(4)4) NBDCヒトデータベース:http://humandbs.biosciencedbc.jp/, 2016.から申請可能である.

DBCLS SRA

NGSはゲノム解読,発現解析,メタゲノム解析など多様な目的に用いられている.SRAの検索においては,キーワードで検索するのが主であることは想像に難くないが,すると,たとえばメタゲノムのデータがほしいのに,ヒトSNP解析のデータが検索結果にいわばノイズとして混じってくることが起こりうる.また,シークエンサーの種類によって解析の方法が変わってくるので機器で検索結果を絞り込みたいというニーズも大きい.そこでわれわれはメタデータとして付与された実験目的,使用した機器や試薬,サンプルの情報などの実験手法や実験条件によってSRA登録データを整理し,これらで容易にSRA登録データを検索できるDBCLS SRAを開発した(5, 6)5) T. Nakazato, T. Ohta & H. Bono: PLoS ONE, 8, e77910 (2013).6) DBCLS SRA: http://sra.dbcls.jp/, 2016..週1回の定期的なデータ更新を行い,ウェブサービスとして公開している(図2図2■DBCLS SRAによるデータ統計の可視化).なお,このDBCLS SRAの使い方の流れは,生命科学分野の有用なデータベースやウェブツールの活用法を動画で紹介するウェブサイトの統合TVに紹介されている(7)7) 統合TV: DBCLS SRAを使ってNGSデータを検索する,http://doi.org/10.7875/togotv.2014.097, 2016.

図1■次世代シークエンサーとそのデータ解析の流れ

図2■DBCLS SRAによるデータ統計の可視化

NGSは最近,さまざまな生物種に対して用いられるようになってきているが,DBCLS DRAでは生物種による検索機能にも工夫をしている.従来のデータベース検索では,イネ(Oryza sativa)といわゆるインディカ米(O. sativa indica),ジャポニカ米(O. sativa japonica)は別のtaxonomy ID(生物種ID)が振られ,一度に検索することが困難な場合があった.また,Oryza属のほかの種と比較したいなどという場合,すべての種でいちいち検索せねばならない,というケースもあった.そこで,DBCLS SRAでは,種→亜種,品種,交配種,株というような下位構造も含めた検索や,種→属→科→…というような上位構造へと範囲を広げる検索がワンクリックで簡便に行えるようにしている.

ウェブインターフェースから利用可能なNGSデータの活用事例

FASTQ形式の配列データを自ら解析する際,あるプログラムにかければワンストップで可能,という状況にはなっていないのが現状である(8)8) 清水厚志,坊農秀雅:“次世代シークエンサーDRY解析教本”,学研メディカル秀潤社,2015.表1表1■目的によって利用法がさまざまなNGS(FASTQ)データにまとめたように,目的によってやるべき配列解析は異なる.コンピュータリソースが必要であるうえに,なによりそれを操作するための人手がかかる.

表1■目的によって利用法がさまざまなNGS(FASTQ)データ
ゲノム未解読 :アッセンブルして配列をつなぎ合わせて利用
ゲノム解読ゲノムアッセンブルしてFASTA形式の配列データ
遺伝子発現トランスクリプトームアッセンブリ→転写単位ごとに発現定量したデータ(Spreadsheet形式:縦に転写単位,横にサンプル)
ゲノム解読済み:基本はリファレンスゲノムに対してマッピング.マップ済みの配列や数値をゲノムブラウザで閲覧
遺伝子多型BAM形式のファイルからデータ解析したVCF形式のファイル
遺伝子発現転写単位ごとに発現定量したデータ(Spreadsheet形式:縦に転写単位,横にサンプル)

SRAに収められたNGSデータを再利用して,となるとその手間はなおさらである.そこで,すでにSRAにある配列データに関して,あらかじめ配列解析済みのデータをウェブインターフェイスから利用する方法が一般的には便利である.実用的な利用方法として,DBCLSでサービスしているRefExとChIP-Atlasを以下に紹介する.

RefEx

RefExは公共遺伝子発現データから作成されたリファレンス遺伝子発現データセット(Reference Expression Dataset)である(9)9) RefEx: Reference Expression Dataset, http://refex.dbcls.jp/, 2016..RefExには,かつてのESTのみならず,Affymetrix社のマイクロアレイ(GeneChip),CAGE, RNA-seqの合計4種類の遺伝子発現測定手法による,40種類のヒト,マウス,ラット臓器での遺伝子発現プロファイルが統合され,誰でも簡単に再利用できるようになっている(図3図3■ヒトのAQP1に対するRefEx検索結果).

図3■ヒトのAQP1に対するRefEx検索結果

RefExには,上述のとおりSRAから取得した発現定量がなされたRNA-seqのデータも含まれているが,それに加えてFANTOM5プロジェクトによって得られたCAGEデータによる遺伝子発現データも統合されている.500種類を超えるヒトおよびマウスそれぞれの細胞株,初代培養細胞,さまざまな成体および胎児組織における遺伝子発現プロファイルが閲覧可能となっている(10)10) M. Lizio, J. Harshbarger, H. Shimoji, J. Severin, T. Kasukawa, S. Sahin, I. Abugessaisa, S. Fukuda, F. Hori, S. Ishikawa-Kato et al.; FANTOM consortium: Genome Biol., 16, 22 (2015)..RefExの使い方に関しても統合TVから動画で利用可能である(11)11) RefExの使い方:http://doi.org/10.7875/togotv.2014.009, 2016.

ChIP Atlas

ChIP Atlasは,SRAに収められた公共ChIP-seqデータを再解析,転写因子などのDNA結合タンパク質の結合していたゲノム領域をウェブブラウザから閲覧できるツールである(12)12) ChIP-Atlas: http://chip-atlas.org/, 2016..たとえば,Peak Browserでは,使われた抗体の種類(Antigen Class),サンプルの細胞種(Cell type Class)と閾値を選ぶことで,該当する公共ChIP-seqデータのゲノムへのマッピング結果をIGV(Integrative Genomics Viewer)上で閲覧することができる.

これを実現するためには,SRAから必要なChIP-seqデータを探し出し,該当するFASTQ形式のファイルを取得し,さらにリファレンスゲノムへのマッピングを自ら実行する必要があり,たいへん手間がかかる.しかしながら,このChIP Atlasを使うと,その手間なく注目している遺伝子のゲノム上でのコード領域へのマッピング結果を瞬時にチェックすることができる(図4図4■ChIP-AtlasのPeak Browserを用いたID4という遺伝子のゲノムコード領域付近でのChIP-seqデータのゲノムマッピング結果).なお,このゲノムマッピングを閲覧するために必要なゲノムブラウザIGVのインストール方法も,上述の統合TVに紹介されている(13)13) 統合TV: Integrative Genomics Viewer IGVを使い倒す~基本編~,http://doi.org/10.7875/togotv.2014.027, 2016.

図4■ChIP-AtlasのPeak Browserを用いたID4という遺伝子のゲノムコード領域付近でのChIP-seqデータのゲノムマッピング結果

おわりに

データに対して何らかの情報を付与することをアノテーション(annotation)と呼ぶ.塩基配列決定が高速かつ大量になるにつれ,このアノテーションが重要になってきている.DBCLS SRAでは各データにアノテーションされたメタデータを検索する手段を,RefExは各遺伝子にアノテーションされた定量済みの発現データを,ChIP-Atlasでは各遺伝子コード領域にアノテーションされたDNA断片のマッピング情報を,提供している.逆に,メタデータがきっちりアノテーションされていないとそのデータは検索されず,「ないのと同じ」である.現在ではこの種のデータは誰かが論文を読んで親切にアノテーションしてくれるものではなく,そのデータを出した研究者自身がSRAに登録するときにすべきものとなっている.自分のデータが再利用されることは,ひいてはその研究の価値を高めることになる.後からでもアップデート可能なので,ぜひしっかりと自身のNGSデータをアノテーションしていただきたい.

Reference

1) Y. Kodama, M. Shumway & R. Leinonen; International Nucleotide Sequence Database Collaboration: Nucleic Acids Res., 40(D1), D54 (2012).

2) NCBI: Sequence Read Archive: Overview: http://www.ncbi.nlm.nih.gov/Traces/sra/, 2016.

3) 坊農秀雅:領域融合レビュー,4, e008(2015).

4) NBDCヒトデータベース:http://humandbs.biosciencedbc.jp/, 2016.

5) T. Nakazato, T. Ohta & H. Bono: PLoS ONE, 8, e77910 (2013).

6) DBCLS SRA: http://sra.dbcls.jp/, 2016.

7) 統合TV: DBCLS SRAを使ってNGSデータを検索する,http://doi.org/10.7875/togotv.2014.097, 2016.

8) 清水厚志,坊農秀雅:“次世代シークエンサーDRY解析教本”,学研メディカル秀潤社,2015.

9) RefEx: Reference Expression Dataset, http://refex.dbcls.jp/, 2016.

10) M. Lizio, J. Harshbarger, H. Shimoji, J. Severin, T. Kasukawa, S. Sahin, I. Abugessaisa, S. Fukuda, F. Hori, S. Ishikawa-Kato et al.; FANTOM consortium: Genome Biol., 16, 22 (2015).

11) RefExの使い方:http://doi.org/10.7875/togotv.2014.009, 2016.

12) ChIP-Atlas: http://chip-atlas.org/, 2016.

13) 統合TV: Integrative Genomics Viewer IGVを使い倒す~基本編~,http://doi.org/10.7875/togotv.2014.027, 2016.