データマイニングによる転写因子の結合配列環境と発現応答の関連性の解析

DNA結合型転写因子（以下，転写因子）は，標的遺伝子のプロモーター領域に結合し，その下流に位置する遺伝子の発現制御を行うことでさまざまな生命機構に深く関与している．この転写因子の機能を特定するためには，ゲノム上に多数点在する結合DNA領域を同定することが重要となる．現在，ゲノムレベルでの結合部位の同定を目的としたアプローチでは，細胞内の標的転写因子の結合部位を検出するクロマチン免疫沈降法（ChIP）と高速DNAシーケンシング技術を組み合わせたChIP-Seqが最も用いられている．また近年の研究により，転写因子の結合は結合DNAモチーフの有無だけでなく，その近傍の配列環境も影響することが明らかになっており⁽¹⁾1) I. Dror, T. Golan, C. Levy, R. Rohs & Y. Mandel-Gutfreund: Genome Res., 25, 1268 (2015).，転写因子の結合部位をゲノムレベルで同定する重要性がますます高まっている．

われわれの研究グループは，目的とする生物由来のゲノムDNAより作製したライブラリーから標的転写因子にin vitroで結合するDNA領域のみを濃縮し，この選択されたDNAプールの配列を高速DNAシーケンシングによって解析する，gSELEX-Seq（genomic Systematic Evolution of Ligands by EXponential enrichment-Seq）を独自に開発した⁽²⁾2) T. Kojima, E. Kunitake, K. Ihara, T. Kobayashi & H. Nakano: PLOS ONE, 11, e0159011 (2016).．In vitroで転写因子の結合反応を行うこのgSELEX-Seqは，ChIP-Seqと比べ，迅速，簡便でかつ再現性良く一連の操作を遂行することができる．

われわれは，この手法を用いてこれまでに種々の転写因子の結合部位をゲノムワイドに同定してきたが，この過程でin vitroで結合するDNA領域と実際に細胞内で発現制御を受けるプロモーター領域との間に大きなズレがあることを改めて認識させられた．たとえば，糸状菌Aspergillus nudulans由来の転写因子AmyRを用いた場合，gSELEX-Seqでは2,000種類以上の遺伝子上流にその結合配列が検出されたのに対し，実際にRNA-SeqによってAmyR依存的に発現変動するとみなされた遺伝子はその約1％程度であった⁽²⁾2) T. Kojima, E. Kunitake, K. Ihara, T. Kobayashi & H. Nakano: PLOS ONE, 11, e0159011 (2016).．糸状菌A. oryzae由来の転写因子AoXlnRを用いてゲノム上の結合領域を同定した場合も同様であり，検出されたAoXlnR結合領域の下流に位置する遺伝子数に対し，先行論文で報告されていた発現変動遺伝子数は圧倒的に少なかった⁽^{3, 4)}3) H. Oka, T. Kojima, K. Ihara, T. Kobayashi & H. Nakano: BMC Genomics, 20, 16 (2019).4) Y. Noguchi, M. Sano, K. Kanamaru, T. Ko, M. Takeuchi, M. Kato & T. Kobayashi: Appl. Microbiol. Biotechnol., 85, 141 (2009).．無論，細胞内にはほかの転写因子との競合を含めさまざまな要因が介在するため，転写因子の結合条件が試験管内と細胞内では全く異なると言ってしまえばそれまでである．しかしながら，転写因子が制御領域を区別する未知のルールもまだまだ存在しているのではないかという漠然とした推測を抱いた．

そこで，われわれは上記AoXlnR依存的に発現変動する遺伝子の変動レベルと制御プロモーター中のAoXlnR結合配列の頻度をパラメーターとしたデータマイニングを実施した．その結果，プロモーター中に存在するAoXlnRの結合DNAモチーフ，GGC TAA部位もしくはGGC TGA部位の個数が増加すると，AoXlnRの過剰発現に伴う発現量の増加がより顕著になる傾向，つまり正の相関関係が確認された⁽³⁾3) H. Oka, T. Kojima, K. Ihara, T. Kobayashi & H. Nakano: BMC Genomics, 20, 16 (2019).．これに加えて，プロモーター中におけるGGC TAA部位とGGC TGA部位の共存がAoXlnRによる下流遺伝子の発現活性化に寄与することが示唆された⁽³⁾3) H. Oka, T. Kojima, K. Ihara, T. Kobayashi & H. Nakano: BMC Genomics, 20, 16 (2019).．さらに最近の解析により，プロモーター中のGGC TAA部位-GGC TGA部位間の距離とAoXlnR依存的発現変動レベルとの間に負の相関があることもわかった．これら一連の結果は，転写因子を介した発現制御機構の解明にデータマイニングが大きな力を発揮することを示している．

一方，近年DNAの塩基の並びから算出される構造パラメータと転写因子の結合とを関連付ける試みも盛んに行われている．構造パラメータは主にMGW（minor groove width），ProT（propeller twist），HelT（helix twist），およびRollの4種からなる⁽⁵⁾5) T. Zhou, L. Yang, Y. Lu, I. Dror, A. C. Dantas Machado, T. Ghane, R. Di Felice & R. Rohs: Nucleic Acids Res., 41, W56 (2013).．これらのパラメータ値を組み込んで構築した結合予測モデルは，従来のシークエンス情報のみを用いたモデルよりもより正確であることが示されており⁽⁶⁾6) T. Zhou, N. Shen, L. Yang, N. Abe, J. Horton, R. S. Mann, H. J. Bussemaker, R. Gordân & R. Rohs: Proc. Natl. Acad. Sci. USA, 112, 4654 (2015).，現在ではさらに9つのDNA構造パラメータも追加されている⁽⁷⁾7) J. Li, J. M. Sagendorf, T. P. Chiu, M. Pasi, A. Perez & R. Rohs: Nucleic Acids Res., 45, 12877 (2017).．これらの各パラメータは統計解析ソフトRの専用パッケージDNAshapeRを導入し，R上で目的DNA配列を入力することで取得できる．この構造パラメータは汎用性が非常に高く，たとえばA. oryzaeにおける転写因子の結合部位近傍のDNA構造解析にも応用されている⁽⁸⁾8) C. Wang, Y. Lv, B. Wang, C. Yin, Y. Lin & L. Pan: Nucleic Acids Res., 43, 4429 (2015).．しかし，これらのアプローチにより転写因子の結合の有無を説明することはできるものの，プロモーター配列情報のみから結合領域下流に位置する遺伝子の発現変動を推定することは非常に難しい．

その一方でわれわれはMGW, ProT, HelT, Rollの4種類の構造パラメータを用いて上記のAoXlnRの結合DNAモチーフ近傍の配列構造を詳細に解析し，AoXlnR過剰発現条件下における発現制御の有無により一部のDNA構造パラメータの値が有意に異なることを明らかにした（岡ら，第71回日本生物工学大会）．現在，われわれはこの知見をもとに，転写因子の結合DNAモチーフを含むプロモーター配列情報から，下流に位置する遺伝子の標的転写因子に依存的な発現変動を予測するモデルの構築を試みている（図1図1■プロモーター配列からの発現変動遺伝子の予測アプローチの概要）．このモデルに種々の条件下での発現変動遺伝子の情報を適用することにより，プロモーター配列情報から任意の培養条件下における未知の発現変動遺伝子の同定が可能となるかもしれない．

図1■プロモーター配列からの発現変動遺伝子の予測アプローチの概要

以上に述べたように，転写因子を介した転写制御機構は想像以上に緻密で複雑であると考えられる．そしてこの機構を包括的に理解するためにはバイオインフォマティクスは今や必要不可欠となっている．コンピュータの演算処理能力の向上の影響も受けつつ，バイオインフォマティクスを駆使した転写制御機構の全貌解明へのアプローチは今後一層加速していくだろう．