茶樹種質(zhì)資源數(shù)字化研究及展望

茶樹種質(zhì)資源數(shù)字化研究及展望

19閱讀 2022-05-31 01:17 權(quán)威

一、茶樹基因型數(shù)字化

基因型又稱遺傳型,是某一生物個體全部基因組合的總稱?;蛐蛿?shù)字化鑒定能夠高通量準確鑒定基因型,是解析重要農(nóng)藝性狀相關(guān)遺傳信息的基礎(chǔ),是茶樹種質(zhì)資源研究的必然發(fā)展趨勢。

1.基因組組裝

2017—2018年,利用二代測序技術(shù)進行基因組序列組裝的云抗10號和舒茶早基因組草圖陸續(xù)公布。其中,云抗10號組裝得到的基因組大小為3.02Gb,包括了36951個注釋編碼蛋白;舒茶早基因組大小為3.14Gb,包含33932個注釋編碼蛋白。

隨著三代測序和Hi-C技術(shù)的成熟,近些年公布了多個染色體水平的茶樹基因組。利用Hi-C技術(shù)將舒茶早基因組草圖提升到了染色體水平,scaffoldN50從原來的1.4Mb提升到218.1Mb,基因組中94.7%的序列被定位到了15條染色體中。利用PacBio和Hi-C技術(shù),構(gòu)建了染色體級別的舒茶早基因組,其大小為2.94Gb,具有50525個注釋編碼蛋白。利用PacBio和Hi-C技術(shù)獲得了茶樹碧云染色體級別的基因組圖譜,其大小為2.92Gb,scaffoldN50為195.68Mb。公布了龍井43的染色體級別基因組序列,其基因組大小為3.26Gb,編碼33556個注釋蛋白。華中農(nóng)業(yè)大學的研究團隊公布了云南省古茶樹DASZ基因組序列,該基因組為3.11Gb,編碼33021個注釋蛋白。福建農(nóng)林大學和中國農(nóng)業(yè)科學院基因所發(fā)布了黃棪和鐵觀音2個品種染色體級別的基因組序列。黃棪茶樹基因組為2.94Gb,包含43779個蛋白質(zhì)編碼基因。鐵觀音茶樹基因組大小為3.06Gb,包含了42825個蛋白質(zhì)編碼基因。

茶樹基因組和基因家族的進化

‘龍井43’基因組特征和質(zhì)量評估結(jié)果

2.單核苷酸多態(tài)SNP分型

全基因組重測序能夠基于SNP實現(xiàn)全基因組水平上的基因型分型,近年來逐步開始應用于茶樹種質(zhì)資源的鑒定。對來自中國、老撾、俄羅斯、阿塞拜疆和伊朗的81個栽培型和野生型茶樹進行重測序,共檢測到6252201個SNP位點,基于基因型進行了系統(tǒng)發(fā)育分析,將這些資源分為3個類群。利用重測序技術(shù)對來自世界各地的139份茶樹種質(zhì)資源進行分析,得到了21887萬個SNP位點的基因型分型結(jié)果,平均1kb就有67個SNP位點。對190份茶樹資源進行重測序分析,共鑒定到9407149個SNP位點,得到相關(guān)基因型分型結(jié)果,并進行了茶樹種質(zhì)資源的系統(tǒng)發(fā)育分析。對金萱和云茶1號及其96個F1代進行了全基因組重測序,利用8956個SNP位點的基因型數(shù)字化結(jié)果構(gòu)建了遺傳圖譜。

簡化基因組測序是利用限制性內(nèi)切酶對DNA進行酶切,并對酶切片段兩端序列進行高通量測序,通過鑒定獲得的SNP信息進行基因分型,是一種快速、簡單、低成本的基因型數(shù)字化方法?;谟⒈避S單株及其148個F1子代利用SLAF-seq技術(shù)開發(fā)出了6042個SNP標記,并以此建立了首張茶樹SNP遺傳圖譜?;邶埦?3、白毫早及其327個F1代使用2bRAD測序技術(shù)獲得了13446個SNP標記,構(gòu)建了高密度遺傳圖譜,并得到了27個與兒茶素相關(guān)的QTL位點。利用簡化基因組技術(shù)對59份茶組植物進行測序,得到了248772個高質(zhì)量SNP位點的分型結(jié)果,隨后對這些SNP位點進行了主成分分析、遺傳結(jié)構(gòu)分析和基因流分析,結(jié)果發(fā)現(xiàn)大廠茶與疏齒茶有遺傳結(jié)構(gòu)上的差異,且證明茶組植物種內(nèi)親緣關(guān)系受其地理來源的直接影響。對龍井43、白雞冠及其雜交產(chǎn)生的198個F1個體進行了簡化基因組測序,構(gòu)建了包含2688個SNP標記的遺傳圖譜,并根據(jù)2年的氨基酸數(shù)據(jù)進行了QTL分析,最終得到了4個與氨基酸含量相關(guān)的QTL位點。

轉(zhuǎn)錄組測序能夠鑒定基因表達區(qū)的SNP位點,進行SNP分型。完成了古茶樹DASZ染色體級別的基因組組裝,并在此基礎(chǔ)上與217份不同茶樹種質(zhì)資源的轉(zhuǎn)錄組數(shù)據(jù)進行比較。結(jié)果表明,81.1%的DASZ注釋基因被覆蓋SNPs,其中4個SNP與ECG的含量顯著關(guān)聯(lián)。利用139份中國茶樹品種的轉(zhuǎn)錄組數(shù)據(jù)鑒定到了925854個高質(zhì)量的SNP,并將139份茶樹品種分為5個類群,發(fā)現(xiàn)每個類群各有特異代謝物積累和基因表達差異,其中阿薩姆茶具有豐富的黃酮類化合物積累。

二、茶樹表型數(shù)字化

表型組學旨在集成自動化平臺裝備和信息化技術(shù)手段,可以系統(tǒng)、高效地獲取表型信息,以實現(xiàn)植物表型的數(shù)字化精準鑒定。表型組學常常構(gòu)建一些表型檢測平臺,搭載圖像、點云、光譜、紅外、X射線等技術(shù)來快速高效地數(shù)字化采集植物多尺度的大量表型數(shù)據(jù),目前已在玉米、小麥、大豆等較多作物上應用。

表型組學在茶樹種質(zhì)資源鑒定評價中的應用還處于起步階段,一些簡單的技術(shù)在茶樹葉片形態(tài)特征和農(nóng)藝性狀相關(guān)的表型上開展了應用。利用Photoshop對茶樹的葉面積進行了測量,并與葉面積的經(jīng)驗公式進行對比,發(fā)現(xiàn)計算機測定的結(jié)果更加準確。利用Photoshop對茶樹新梢的顏色和成熟葉的葉面積進行了測定,并對其中的相關(guān)參數(shù)進行了分析。但是這兩項工作都是基于Photoshop軟件進行研究,導致關(guān)于圖像處理的操作有限,自由度小,同時工作效率也受到限制,難以處理大批量的茶樹葉片圖像。隨著數(shù)字化研究的不斷深入,像Python、R、MATLAB等編程語言因具有批量處理、速度快、應用面廣等優(yōu)點,漸漸成為了進行茶樹表型數(shù)字化處理的主流工具。隨著無人機技術(shù)的發(fā)展,利用無人機對茶樹進行表型分析成為了新的發(fā)展趨勢。利用3種模型分別通過無人機拍攝的茶園多光譜圖片對茶樹的氮、茶多酚和氨基酸的含量進行評估。結(jié)果表明,SVM模型對于預測氮和茶多酚的含量最佳;PLSR模型預測氨基酸的含量是最佳的,同時證明空中預測結(jié)果與地面測量結(jié)果一樣可靠,這為茶樹種質(zhì)資源的精準評價提供了技術(shù)支持。

SVM、PLS和BP模型被用于驗證,并測量和預測的值進行比較和分析:(a)使用支持向量機來預測氮(N);(b)利用SVM預測茶多酚(TP);(c)利用SVM預測氨基酸(AA);(d)PLS回歸預測N;(e)PLS回歸預測TP;(f)PLS回歸預測AA;(g)BP預測N;(h)利用BP預測TP;(i)利用BP預測AA。

目前,茶樹種質(zhì)資源表型數(shù)字化的應用主要體現(xiàn)在基于分類器結(jié)合圖像特征對茶樹種質(zhì)資源識別的方面。提取了17份茶樹種質(zhì)資源的14個圖像特征,并基于圖像特征進行了遺傳多樣性分析,并利用人工神經(jīng)網(wǎng)絡(luò)對茶樹品種進行了預測。通過茶樹鮮葉圖像對10個茶樹品種進行了識別。除了利用形態(tài)特征、紋理特征及顏色特征外,還使用多重分形特征來對葉片進行描述,并用6種分類器同時建模比較分類精度。結(jié)果表明,SVM和隨機森林法的建模對茶樹種質(zhì)資源的分類精度較高,能達到90%左右。在利用圖像特征識別武夷巖茶的方面研究較多,2018年對SVM分類器的內(nèi)核進行了優(yōu)化后,以提取的14個形狀和紋理圖像特征為基礎(chǔ),對水仙和肉桂這2份茶樹資源進行識別,準確率高達91%;2019年利用3種分類器通過灰度共生矩陣下的紋理特征對黃觀音、瑞香、丹桂和奇蘭4個品種的茶鮮葉進行識別,其識別準確率在80%左右,且結(jié)果證明KNN分類器的識別率最高;2020年利用整體與局部信息融合的CNN模型結(jié)合茶樹葉片的整體特征和局部特征對9個武夷巖茶茶樹品種進行識別,識別率達到96.69%。

三、茶樹數(shù)字化管理與利用

隨著表型組和基因組的快速發(fā)展,大量種質(zhì)資源的數(shù)字化表型和基因型被鑒定,這使得很多重要的農(nóng)藝性狀被揭示。但是由于數(shù)據(jù)量大,導致共享利用不便,阻礙了茶樹重要農(nóng)藝性狀的分子解析。隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,種質(zhì)資源信息數(shù)據(jù)庫的搭建可以快速實現(xiàn)數(shù)字化管理與利用。中國農(nóng)業(yè)科學院茶葉研究所利用生物信息技術(shù)和互聯(lián)網(wǎng)技術(shù)建設(shè)了茶樹種質(zhì)資源基因組變異大數(shù)據(jù)分析平臺。目前平臺已經(jīng)整合超過7000多萬個基因組變異位點、808份茶樹資源的基因型數(shù)據(jù)、464種代謝物的表型數(shù)據(jù)和430682個基因型-表型關(guān)聯(lián)位點。平臺主要用于茶樹種質(zhì)資源基因組變異的大數(shù)據(jù)在線分析,能夠根據(jù)基因組位置、基因信息、材料比較、基因或變異編號等不同的策略檢索基因組SNP和InDel。通過該平臺還能夠?qū)崿F(xiàn)茶樹種質(zhì)資源的代謝表型查詢及GWAS分析,快速挖掘性狀相關(guān)的SNP和InDel位點。此外,平臺還整合了在線Blast、序列提取、引物設(shè)計、群體遺傳分析等工具,為茶樹種質(zhì)資源的數(shù)字化利用與共享提供了一個用戶友好型平臺。安徽農(nóng)業(yè)大學構(gòu)建了茶樹信息檔案數(shù)據(jù)庫(TPIA),以舒茶早基因組圖譜為框架,整合了基因組信息、轉(zhuǎn)錄組、代謝組等數(shù)據(jù)。平臺還集成了功能富集分析、相關(guān)性分析、引物設(shè)計、序列比對等工具,有助于組學數(shù)據(jù)的數(shù)字化利用。南京農(nóng)業(yè)大學構(gòu)建了茶樹基因組數(shù)據(jù)庫(TeaPGDB),整合了已完成組裝的各個基因組數(shù)據(jù),方便科研人員進行利用分析。此外,一些轉(zhuǎn)錄組相關(guān)的數(shù)據(jù)庫網(wǎng)站也陸續(xù)被開發(fā),如TeaCoN、TeaAS等。茶樹種質(zhì)資源數(shù)字化管理與利用能有效促進茶樹種質(zhì)資源的保護、利用與共享,為茶樹系統(tǒng)演化研究、關(guān)鍵性狀解析、品種改良等提供了堅實的基礎(chǔ)。

茶樹信息檔案數(shù)據(jù)庫(TPIA)

四、展望

1.組學技術(shù)

未來,組學技術(shù)將在茶樹種質(zhì)資源的數(shù)字化精準鑒定方面不斷深入,利用基因組學、轉(zhuǎn)錄組學、表觀組學、蛋白組學、代謝組學、表型組學等技術(shù)手段,對茶樹種質(zhì)資源進行高通量、多維度、精準化的鑒定評估。與基因組學技術(shù)相比,表型組學技術(shù)在茶樹種質(zhì)資源中的應用還比較落后,這阻礙了茶樹種質(zhì)資源的精準評價和深入挖掘進程。針對茶樹種質(zhì)資源的特性,加強茶樹表型鑒定設(shè)施平臺的建設(shè),開發(fā)對應的數(shù)字化鑒定方法,從而提升茶樹種質(zhì)資源規(guī)?;?、批量化、精準化鑒定評價的基礎(chǔ)和條件。

2.多組學聯(lián)合分析

伴隨著大量茶樹種質(zhì)資源被數(shù)字化精準鑒定,多組學聯(lián)合分析將成為實現(xiàn)茶樹種質(zhì)資源創(chuàng)新利用的必然途徑。通過基因組學和生物信息學等技術(shù)手段,利用多組學聯(lián)合分析系統(tǒng)深入挖掘基因型、表型和環(huán)境型之間的內(nèi)在關(guān)聯(lián),研究茶樹表型對遺傳信息和環(huán)境變化的響應機制。同時,結(jié)合分子生物學、遺傳育種學、生物化學、合成生物學等技術(shù),深入解析茶樹重要農(nóng)藝性狀的分子機理和遺傳基礎(chǔ),為茶樹種質(zhì)資源的創(chuàng)新利用提供堅實基礎(chǔ),并加速茶樹品種改良進程。

3.數(shù)字化利用與共享

茶樹種質(zhì)資源數(shù)字化鑒定評估產(chǎn)生的數(shù)據(jù)量龐大、標準不一,導致共享利用不便,阻礙了其生物數(shù)據(jù)的有效利用。為了增加不同數(shù)據(jù)集之間的可比性,必須通過科學的分類、統(tǒng)一的描述規(guī)范和對茶樹種質(zhì)資源的基因組、轉(zhuǎn)錄組、代謝組、表型組等組學數(shù)據(jù)進行標準化處理和評價。利用大數(shù)據(jù)和互聯(lián)網(wǎng)技術(shù),整合茶樹種質(zhì)資源多組學數(shù)據(jù),開發(fā)友好型在線分析工具,創(chuàng)建資源共享利用平臺,加快數(shù)字化種質(zhì)資源的利用效率,推動整個茶科學的進步與發(fā)展。

本文節(jié)選自《中國茶葉》2022年第4期,P1-7,《茶樹種質(zhì)資源數(shù)字化研究及展望》,作者:陳琪予,陳亮,陳杰丹。

信息貴在分享,如涉及版權(quán)問題請聯(lián)系刪除


上一頁:茶知識:普洱茶貯藏過程中主要化學成分的變化

下一頁:柑馨甜飴,茶醇潤養(yǎng) 大益 大紅柑潤養(yǎng)茶禮上新

相關(guān)閱讀

蘭花茶不適用
288閱讀
茶友網(wǎng)
滇ICP備19006320號-4
滇ICP備19006320號-4