转眼间,2021暑气渐消,秋风逐现。回顾过去8个月科研人员在植物基因组学取得的研究成果,我们惊讶的发现,相关文献呈现井喷式增长。以数据为例,2019年前8个月植物基因组相关文章共有35篇,2020年有86篇,而2021年则达到了153篇!因此,我们有必要对2021年已发表的植物基因组文献进行系统总结。
我们首先对2021年1-8月的153篇植物基因组文章进行了筛选,筛选的标准有两点:(1)过滤单纯的基因组文章(无具体生物学故事)、(2)过滤IF相对较低的文章,最后保留了100篇基因组多组学文章(33个期刊)。接下来,我们以“HiFi”、“基因组完成图”、“基因分型”、“泛基因组”、“超大基因组”、“高频物种”、“特色生物学故事”为主题,来系统总结这100篇多组学文章的“研究特点”。
图1 100篇基因组多组学文章期刊分布
关键词一:HiFi
HiFi测序的出现,极大的提升了基因组组装效率,进而也促进了基因组文章的发表。截止8月,2021年基于HiFi测序的植物基因组文章共有7篇,包括Cell、BioRxiv-马铃薯、MP-水稻、HR-茶树、NC-山核桃、NP-红豆杉、HR-玫瑰等,我们重点介绍马铃薯和玫瑰基因组。
(1)Cell-二倍体马铃薯基因组
文章题目:Genome design of hybrid potato
发表时间:2021年6月
组学技术:基因组+群体材料评价+遗传育种
研究结果:研究者建立了杂交马铃薯基因组设计育种流程,包括四个环节:(1)选择用于培育自交系的起始材料;(2)依据全基因组偏分离分析和表型评价,确定基因组中大效应有害等位基因和优良等位基因的分布;(3)淘汰大效应的有害突变,保留优良等位基因,比较关键的是要打破上述两种基因之间的连锁;(4)依据基因组测序结果,选择基因组互补性比较高的自交系进行相互杂交,最后获得具有显著杂种优势的杂交种。
图2 杂交马铃薯基因组设计育种流程
(2)HR-玫瑰基因组
文章题目:A chromosome-level genome assembly of rugged rose (Rosa rugosa) provides insights into its evolution, ecology, and floral characteristics
发表时间:2021年6月
组学技术:基因组+转录组
研究结果:与栽培玫瑰相比,野玫瑰对逆境的适应性更强,例如耐盐碱、耐寒冷、耐干旱等。本研究中,研究者通过HiFi+Hi-C测序构建了野玫瑰的参考基因组,其基因组大小为382.6Mb,Contig N50=15.36Mb,注释得到39704个蛋白编码基因。在双子叶植物共同发生的三倍化事件后,野玫瑰没有再发生额外的WGD事件。进一步通过与已发表的玫瑰基因组进行比较,研究者发现中国栽培玫瑰基因组存在一个独特的倒位;三倍化事件后,与花发育和应激反应信号相关的基因在野玫瑰中得以保留,这可能是该植物适应恶劣环境的原因之一。总之,本研究为蔷薇属植物的比较基因组研究提供了新见解。
图3 几种双子叶植物的共线性分析
关键词二:基因组完成图
Gap free(也称基因组完成图)是基因组组装的最高标准,构建 Gap free 的基因组不仅可以为群体遗传研究、 基因功能定位提供最全面的参考基因组信息, 还可以对着丝粒与端粒区域进行结构与功能分析。2021年6月,MP背靠背发表了两篇水稻的基因组完成图,具体详情如下。
文章题目:Two Gap-free Reference Genomes and a Global View of the Centromere Architecture in Rice
组学技术:基因组+转录组+甲基化
研究结果:研究者采用高深度的HiFi和CLR测序,组装出0 gap的ZS97和MH63 R3版本参考基因组(基因组大小分别为391.56Mb和395.77Mb)。基于Gap free的参考基因组,研究者对水稻12条染色体上着丝粒区域的结构和功能进行了详细研究,发现着丝粒核心区域的长度在不同染色体上存在10倍差距。在ZS97和MH63着丝粒区域,研究者分别鉴定到了395个和539个非TE基因,但其转录活性低、特异性表达的比例低,且大多数活跃转录的基因位于着丝粒周围区域。此外,研究者还发现相同染色体中CentO重复序列的相似性高于跨染色体的相似性;亚洲水稻的同一亚种(或自然群体)中,同一染色体着丝粒核心区域中的CentO卫星重复序列的长度在不同品种之间有显著差异。
图4 Gap free的ZS97和MH63参考基因组
关键词三:基因分型
基因组分型后,我们可以研究等位基因间的结构差异、表达差异、表观调控差异等。2021年发表的基因分型物种包括异源四倍体金瓜、四倍体水稻、二倍体茶树、同源四倍体马铃薯、六倍体燕麦、二倍体姜等,我们重点介绍二倍体茶树和同源四倍体马铃薯的基因组分型。
(1)NG-铁观音基因组分型
文章题目:Haplotype-resolved genome assembly provides insights into evolutionary history of the tea plant Camellia sinensis
发表时间:2021年7月
组学技术:基因组+转录组+重测序
研究结果:茶是世界上最重要的饮料之一,通过构建高质量的茶基因组并进行分型既可以了解无性繁殖过程中应对”遗传负荷”的机制,也可以研究茶树的群体演化和驯化历史。此研究中,研究者构建了高质量的“铁观音”基因组,利用ALLHiC对其进行了分型(单倍体分型基因组大小为5.98 Gb,来自父母本的两套单倍型之间存在大量遗传变异)。在此基础上,阐释了等位特异性表达在长期无性繁殖过程中应对”遗传负荷”的机制。结合190份材料进行群体进化分析,揭示了CSA和CSS的独立进化与平行驯化史,还揭示了广泛的种内和种间渗入增加了现代品种的遗传多样性。最后,通过选择性消除分析研究了人工选择对大叶茶和小叶茶芳香化合物的含量和耐寒性的影响,并指出CsDWF4和CsBAS1基因在茶树矮化、产量提高方面具有重要作用。
图5 190份茶树的群体结构分析
(2)bioRxiv-四倍体马铃薯
文章题目:Chromosome-scale and haplotype-resolved genome assembly of a tetraploid potato cultivar
发表时间:2021年5月
组学技术:基因组+转录组
研究结果:马铃薯是世界第三大粮食作物。尽管具有社会和经济重要性,但栽培马铃薯的同源四倍体基因组尚未组装,对四倍体马铃薯进行基因组分型仍然是一个未解决的挑战。本研究中,利用HiFi测序结合花粉单细胞测序,对近亲繁殖的同源四倍体进行了分型,进一步发现几乎 50% 的四倍体基因组与至少一种其他单倍型在片段上是相同的。这种高水平的近亲繁殖与包含近 20% 基因组的极端结构重排形成鲜明对比。此外,研究者注释了 148,577 个基因模型,其中只有 54% 的基因存在于所有四种单倍型中,每个基因平均有 3.2 个拷贝。
图6 四倍体马铃薯的分型流程图
关键词四:泛基因组
泛基因组包含了物种绝大部分的基因组信息和变异信息,已逐渐成为研究物种进化、基因功能定位的标配“reference”。2021年已发表的泛基因组文章如下表所示,占据总选择文章数目(100篇)的14%。我们重点介绍33个水稻泛基因组和26个玉米泛基因组。
表1 2021年发表的泛基因组文章(截止到8月)
(1)Cell-33个水稻泛基因组
文章题目:Pan-genome analysis of 33 genetically diverse rice accessions reveals hidden genomic variations
发表时间:2021年5月
组学技术:基因组+转录组+GWAS
研究结果:结构变异(SVs)和基因拷贝数变异(CNV)有助于作物进化、驯化和改良。本研究中,研究者构建了31个水稻的高质量基因组,结合两个已发表的基因组,利用33个样本构建了水稻的图形泛基因组。基于泛基因组,研究者鉴定到了171072个SVs和25549个gCNVs。研究者对SV的形成机制、SV对基因表达的影响、SV在亚群体间分布进行了详细研究,从而证明了SVs和gCNVs是如何影响水稻环境适应和驯化的。此外,基于图形泛基因组的SV-GWAS鉴定到很多与表型相关的遗传变异,这是仅使用SNP和单一参考组合时无法检测到的。总之,本研究为水稻功能基因组学和进化生物学研究提供了新见解。
图7 33个水稻的泛基因组研究
(2)Science-26个玉米的泛基因组
文章题目:De novo assembly, annotation, and comparative analysis of 26 diverse maize genomes
发表时间:2021年8月
组学技术:基因组+转录组+GWAS+甲基化
研究结果:玉米是世界上种植最广泛的作物, 也是研究基因功能的重要模式系统, 具有高度的遗传多样性,以玉米NAM 群体进行泛基因组分析更具代表性。研究者选择了25个NAM群体和B73共26份材料构建了玉米的泛基因组,泛基因组的基因数目大于10万个,其中三分之一的基因在26个玉米中都存在。基因组进化研究表明,玉米的古四倍体特性至今仍然在通过分离而不断消失。重复序列分析表明,玉米存在诸多的着丝粒移动事件。同时基于 SNP 和 SV的 GWAS 分析表明,93.05%的 SNP 和 SV 位点相互重合,10 号染色体上关于枯叶病的关联位点 SV-GWAS 鉴定到了,而SNP-GWAS没鉴定到,这说明将 SNP-GWAS 和 SV-GWAS 联合可以提高性状与基因关联的准确性。此外,甲基化数据分析表明,未甲基化的区域富含顺式调控元件,增进了表型变异。
图8 26个玉米的泛基因组分析
关键词五:超大基因组
超大基因组通常具有很高的重复序列、较高的杂合区段,破译其完整的基因组序列很具挑战性。2021年已攻克发表的超大基因组包括NG背靠背的黑麦、MP/NP的红豆杉、MER/NC的百岁兰、NP的银杏以及四倍体、六倍体燕麦等。我们重点介绍红豆杉(NP)基因组和银杏基因组。
(1)NP-银杏基因组
文章题目:The nearly complete genome of Ginkgo biloba illuminates gymnosperm evolution
发表时间:2021年6月
组学技术:基因组+转录组
研究结果:银杏(Ginkgo biloba)作为典型的孑遗物种,是银杏纲现存的唯一成员,不仅具有特殊的进化地位。研究者组装的银杏基因组大小为9.88Gb(contig N50=1.58Mb),注释得到27832个蛋白编码基因。在研究的植物种类中,银杏基因组内含子的长度是最大的, 这进一步说明重复序列不仅促进了基因组的扩展, 而且增加了蛋白质编码基因的大小和复杂性。随后研究者利用基因组及转录组来解析银杏特殊的表型,重点关注银杏保留的精子鞭毛、未成形的花、扇形的叶等。总之,本研究对银杏环境适应性、裸子植物进化研究具有重要意义。
图9 银杏基因组特征
(2)NP-红豆杉基因组
文章题目:The Taxus genome provides insights into paclitaxel biosynthesis
发表时间:2021年7月
组学技术:基因组+转录组+代谢组
研究结果:红豆杉属于一级保护植物,其活性成分紫杉醇具有显著的抗癌功效。本研究中,研究者构建了南方红豆杉(Taxuschinensis var. mairei)染色体水平的参考基因组,其基因组大小为10.23 Gb,Contig N50为2.44 Mb。比较基因组分析表明,红豆杉发生了一次WGD事件,重复序列的连续插入使得红豆杉基因组变得庞大;在进化过程中,红豆杉保留了独特的Gypsy和Copia转座子家族和大量紫杉醇合成相关基因。结合基因组、转录组和代谢组数据,研究者系统分析了紫杉醇合成相关基因的基因组定位与协同表达调控,并首次发现了由六个基因串联组成的基因簇与紫杉醇生物合成的前两步密切相关。总之,本研究为紫杉醇生物合成的研究提供了新见解。
图10 紫杉醇CYP450s的进化及结构特征
关键词六:高频物种
由于某些植物本身具有较高的经济、应用与研究价值,长期以来一直都是科研人员的聚焦点。经统计2021年基因组重复发表大于两次的物种,我们发现作物仍然是植物基因组中的最热门物种,棉花、水稻、玉米、小麦占据了总发表文章的15%,而蓖麻、大豆等也得到了多次研究。基于此,我们以玉米为例,来阐述“高频”物种的研究特点。
图11 2021年植物基因组研究的热门物种
(1)2021年2月,NC在线发表了题为“Genome assembly and population genomic analysis provide insights into the evolution of modern sweet corn”的研究论文,该研究通过基因组+群体进化,组装了高质量的甜玉米基因组,解析了甜玉米的起源进化。
(2)2021年6月,GB在线发表了题为“Chromosome-level genome assembly of a regenerable maize inbred line A188”的研究论文,该研究通过基因组+转录组+甲基化的组学技术,解析了A188与B73间的遗传结构差异,解释了A188白色种子表型的来源,还揭示了防御途径的增强表达和胚胎愈伤组织DNA甲基化模式的改变。
(3)2021年7月,the plant journal在线发表了题为“Genome assembly of the Chinese maize elite inbred line RP125 and its EMS mutant collection provide new resources for maize genetics research and crop improvement”的研究论文,该研究构建了玉米自交系RP125的高质量基因组,创建了EMS突变体库,克隆了诸多基因并对籽粒灌浆缺陷突变体的功能进行了详细解析。
图12 2021已发表玉米基因组的形态信息
综上,构建同一物种不同材料的参考基因组,一方面可以与已有参考基因组进行结构差异比较,另一方可结合多组学阐述不同材料表型差异的分子基础。
关键词七:特色生物学故事
高质量的基因组千篇一律,有趣的生物学故事万里挑一,完整的阐述、解析生物学故事是基因组文章最后的落脚点。我们汇总了100篇文章所解析的生物学故事类型,占比前三的依次是表型机制解析、次生代谢物合成和环境适应性解析,累计占比达到67%,这说明此类生物学问题是植物基因组研究的共性问题。我们从次生代谢物和环境适应性解析两种类型文章中挑选最具代表性的进行详细解析。
图13 2021植物基因组研究最热门的生物学故事类型
(1)证实黄花菜不含秋水仙碱(HR-黄花菜基因组)
文章题目:The chromosome-level Hemerocallis citrina Borani genome provides new insights into the rutin biosynthesis and the lack of colchicine
发表时间:2021年4月
组学技术:基因组+转录组+代谢组
研究结果:黄花菜(Hemerocallis citrina)是一种多年生作物,其花蕾是亚洲人广泛食用的蔬菜之一。研究者构建了首个黄花菜基因组,其基因组大小为3.77Gb,Contig N50=2.08 Mb,注释得到54295个蛋白编码基因。基因家族收缩扩张分析表明,黄花菜有10357个基因扩张,显著富集在与黄酮类化合物合成相关的通路中,这可能会影响芦丁的生物合成。研究者通过基因组、转录组、代谢组在黄花菜中鉴定到20个基因可能参与芦丁的生物合成,也证实了黄花菜不含秋水仙碱。总之,本研究为黄花菜的遗传育种提供了坚实的理论基础。
图14 黄花菜基因组特征
(2)最长寿的植物(NC-百岁兰基因组)
文章题目:The Welwitschia genome reveals a unique biology underpinning extreme longevity in deserts
发表时间:2021年7月
组学技术:基因组+转录组+甲基化
研究结果:通过ONT测序结合多种辅助组装技术,研究者构建了染色体水平的百岁兰基因组(基因组大小6.86Gb,Contig N50=1.48Mb),比较基因组发现WGD事件(约 8600 万年前)和逆转座子活动(1-200 万年)使得其基因组如此庞大。进一步结合甲基化和转录组数据,研究者发现了高水平的胞嘧啶甲基化(特别是在 CHH 基序上)与逆转录转座子相关,而长期脱氨基作用导致基因组 GC 异常少。此外,与细胞生长、分化和代谢相关的基因家族和转录因子的拷贝数和表达量的变化增强了百岁兰的寿命和对温度、养分和水分胁迫的适应性。
图15 百岁兰的生境特征
总 结
这是小编连续第三年进行植物基因组的文章汇总,每年固定有半年和全年的总结。每次总结结束,都会感觉到有很多相同,也有很多不同。相同的是研究思路、测序技术、组学方法,不同的是研究物种、生物学故事。此次汇总的100篇文章,每篇都是以基因组学为基础,然后结合其他组学来丰富研究内容,我们期望能将这种多组学的理念与意义扩充到每篇基因组文章中。毕竟,“有血有肉”的文章才更具可读性!
最后,我们将100篇文章的基本信息汇总成表2。在“5848vip威尼斯电子游戏”公众号本篇推文下留言,即可获取这100篇文章的原文及解读信息。
表2 2021年1-8月发表的100篇植物基因组多组学文章