お茶の育種を加速する

茶葉にはカテキン類やテアニンなどの特異的かつ多様な機能性成分が豊富に含まれており，「茶は健康に良い飲み物」との認識が広く浸透している．世界的にも茶の需要は高いため，茶の生産面積は年々拡大している．日本においても近年の和食ブームを背景に茶の消費・輸出量は増えているが，茶の生産面積は減少しており，茶業の衰退は深刻である．そのため，価値のある日本茶の育成や開発などを通じた茶業の再興を推進しているものの，茶樹は木本植物であるため新品種の育成や改良に20年以上の時間と多くの労力を要し，課題は山積みである．また，日本の茶栽培面積の70％以上を「やぶきた」一品種が占めており，茶品質の画一化，作期の集中による過剰労働や気象災害のリスク拡大などの諸問題が以前から指摘されている．この「やぶきた」偏重の現状を打開するためにも，公的研究機関を中心に有用系統の探索と品種開発が行われている一方，現場では慣行的な交配育種あるいは在来系統からの選抜に基づいた育種が現在も行われている．上記課題を解決するためにも，生産者や消費者の多様なニーズに即応できる，従来よりも効率的な茶樹の品種改良技術を開発することが急務となっている．

現状の茶樹の品種改良では，目的形質を評価するための生育期間が数年単位と長く，それらの栽培に必要な圃場の確保が足枷となっている．この状況を打破するための効率的な茶樹の育種方法として，「集団遺伝学」を応用する次世代育種法が注目されている．近年，家畜の育種や一部の主要作物では，品種改良の過程における新たな個体選抜技術として，DNA情報を用いたゲノミック予測（Genomic prediction: GP）法が実用化されている⁽¹⁾1) J. L. Jannink, A. J. Lorenz & H. Iwata: Brief. Funct. Genomics, 9, 166 (2010).．DNAはアデニン（A），グアニン（G），シトシン（C），チミン（T）の4種類の塩基の組み合わせで構成され生物の遺伝情報を担う．いわゆる遺伝情報とはDNA情報を意味しており，品種や系統ごとに異なるDNA情報，AGCTの組み合わせ配列がデジタル情報としてデータ化されている．GP技術では，解析対象となる品種・系統などの個体集団について大量のDNA情報が必要となる．これらのデータを用いて統計解析と機械学習に基づいて目的の形質値に対する予測モデルを作成する．この予測モデルの推定精度を上げることができれば，DNA情報のみで次の世代や新たな個体の目的とする形質値が予測できる．つまり，DNA抽出可能な発芽個体の段階で将来有望な個体のみを選抜することができるため，茶の育種にGP技術を活用することで個体管理の省力化と品種改良に要する期間の大幅な短縮を同時に達成することができる（図1図1■チャにおけるゲノミック予測を活用した育種体系）．すなわち，多様なニーズに即応した新品種の開発につながるため，国際的に注目を集める「日本茶」に新しい付加価値を加えることが従来よりも簡単になり，世界的な消費・輸出の拡大なども期待できる．

図1■チャにおけるゲノミック予測を活用した育種体系

次世代シーケンシング技術の発展により，様々な植物種のゲノム解読や形質の多様性を司る遺伝子機能や分子変異が明らかにされている．茶樹においても，いくつかの研究グループがゲノム解読を試み，染色体ならびにハプロタイプスケールのゲノム情報が公開されるに至っている⁽^{2, 3)}2) E. Xia, W. Tong, Y. Hou, Y. An, L. Chen, Q. Wu, Y. Liu, J. Yu, F. Li, R. Li et al.: Mol. Plant, 13, 1013 (2020).3) Z. Zhang, S. Chen, L. Shi, D. Gong, S. Zhang, Q. Zhao, D. Zhan, L. Vasseur, Y. Wang, J. Yu et al.: Nat. Genet., 53, 1250 (2021).．我々は，静岡県農林技術研究所茶業研究センターの茶遺伝資源集団を対象に，約200系統についてdouble digest restriction site-associated DNA sequencing（ddRAD-seq）法によりDNA塩基配列を解読し，茶樹の染色体15本に対して均一に1万個近いSNPsマーカーを整備することで，茶樹においてこれまでにない高密度なマッピング地図を構築した（図2図2■染色体のスケールでゲノムワイドに分布したSNPs）⁽⁴⁾4) H. Yamashita, H. Katai, L. Kawaguchi, A. J. Nagano, Y. Nakamura, A. Morita & T. Ikka: PLoS One, 14, 8 (2019).．解析集団の形質値さえ取得できれば，あとはGPによる予測モデルを検証することができる．予測を重要視するGPは，機械学習と相性が良い．例えば，Ridge regression（RR）およびGaussian kernel（GAUSS）に基づいたGenomic Best Linear Unbiased Predictor［GBLUP（RR），GBLUP（GAUSS）］，Ridge, Lasso, Elastic Net, Ransom Forestなどのアルゴリズムがよく用いられる．GBLUPはゲノム関係行列を使用した線形混合モデル，Ridge, Lasso, Elastic Netは線形回帰モデル，Random Forestは決定木を使用したアルゴリズムである．また，使用するアルゴリズムによってGPの予測精度は異なり，その精度評価にも様々な手法が用いられる．度々用いられる手法が，k分割交差検証法である．この方法では，全体のデータをランダムにk分割し，そのうちk−1個をトレーニングデータとして機械学習による予測モデル構築に用い，残りの1個をテストデータとして予測モデルに対する予測値の算出に用いる．これを分割したk個全てに対して行い，最終的に全データの予測値が得られる．その予測値と実測値を比較することでGPの予測精度を評価する．

図2■染色体のスケールでゲノムワイドに分布したSNPs

UA; Un-anchored SNPs

我々は実際に茶樹でGPが可能かどうか検証を進めている．SNPs情報を整備した遺伝資源集団を対象に，複数年にわたり一番茶新芽の遊離アミノ酸類，カテキン類，カフェイン，クロロフィルなどの機能性成分含量を調査し，年次間差の少ない表現型形質値を取得した．予測精度の指標として実測値と予測値間のピアソン相関係数（r）相関係数を用い，上記に示した6つのモデルについてGPを試みたところ，カテキン類の一種である（−）-epigallocatechin gallate（EGCG, r＝0.32–0.41）やカフェイン（r＝0.44–0.51）については高精度に予測することができたことから，茶の育種にGPが実用可能であると考えられた（図3図3■ゲノミックプレディクションによる茶葉中化学成分の予測精度）⁽⁵⁾5) H. Yamashita, T. Uchida, Y. Tanaka, H. Katai, A. J. Nagano, A. Morita & T. Ikka: Sci. Rep., 10, 17480 (2020).．その一方で，光，温度，栽培管理といった環境因子の影響を受けやすい表現型，例えば，アミノ酸やクロロフィル含量などの予測値は低かった．このことから，環境因子の影響を受けにくい形質を対象とした育種には，現在のGP技術でも十分に活用可能であると考えられるが，茶が含有する多くの有用成分について総合的にGPを用いた育種を行うためには，環境因子に左右されやすい形質に対する解析精度の向上が課題となる．

図3■ゲノミックプレディクションによる茶葉中化学成分の予測精度

様々なアルゴリズムにより，DNA情報から茶葉中の機能性成分含量を予測し，その予測値と実測値の相関（r）を算出．

木本植物の茶樹においても，GPにより茶葉中の主要な機能性成分含量を数十ミリグラムの植物組織由来のDNA情報から予測できることが明らかとなった．このGP技術は，機能性成分以外の茶樹の重要な農業形質（収量性，病害虫抵抗性など）の予測にも応用できる．解析対象の遺伝資源個体の数を更に増加させ，DNA情報と形質情報を蓄積していくことで，GPの予測精度の向上も見込まれる．ただし，GP技術の実用化のためには，DNA情報の整備に加えて目的とする表現型形質を確実に取得していく必要がある．そのためには，効率的な表現型取得技術や茶樹の地下部状態，樹勢，収量性といった重要な形質も定量的に評価できる新しい手法の開発も必要不可欠である．