进入2022年,当国内学者发表Cell创刊以来的第一篇祼子植物研究论文的“轰动”还未褪去时,4个月后,由22个机构的65位科学家在Nature Plants上联合发表的苏铁基因组,再次“点燃”了研究者对于裸子植物的研究热情。至此,裸子植物一跃成为植物基因组研究中的“明星”物种。而抛却这些,穿越亿年的进化、高比例的雌雄异株、原始状态的精子鞭毛、极其珍贵的代谢产物……,裸子植物多姿多彩的表型性状和生态特征同样令人着迷。
怀着对裸子植物的喜爱之情,小编查阅了植物基因组研究网站(https://plabipd.de/plant_genomes_pa.ep)、Web of Science、NCBI等各类基因组文献与数据平台,共获得18篇裸子植物基因组文章,包括多篇Nature NP、Cell、MP等,现将上述文章进行系统梳理,以雍读者。
图1 已发表的裸子植物基因组(部分)
1
柏类基因组
柏类物种在我国拥有悠久的栽培历史,其树姿端庄、适应性强,是优质的家具和建材原料,其花语象征着斗寒傲雪、坚毅挺拔。目前已发表的柏类基因组包括红豆杉、北美红杉和巨杉等。
(1)红豆杉基因组
2021年5月,Molecular Plant在线发表了喜马拉雅红豆杉(Taxus wallichiana)的基因组,其基因组大小为10.9Gb,contig N50=8.6Mb,并将contig版本基因组锚定到12条染色体上。研究者发现红豆杉基因家族的进化驱动力是串联复制,它不仅将紫杉醇合成酶、P450s和紫杉醇生物合成转移酶的主要基因聚集在同一染色体上,还为紫杉醇核心结构的自然变异提供了遗传资源。研究者还确认了簇紫杉醇生物合成途径中已知基因的两种同工酶。
2021年7月,Nature plants在线发表了南方红豆杉(Taxus chinensis var. mairei)基因组,其基因组大小为10.23 Gb,Contig N50为2.44 Mb。比较基因组分析表明,红豆杉发生了一次WGD事件,重复序列的连续插入使得红豆杉基因组变得庞大;在进化过程中,红豆杉保留了独特的Gypsy和Copia转座子家族和大量紫杉醇合成相关基因。结合基因组、转录组和代谢组数据,研究者系统分析了紫杉醇合成相关基因的基因组定位与协同表达调控,并首次发现了由六个基因串联组成的基因簇与紫杉醇生物合成的前两步密切相关。
2021年10月,Communications Biology在线发表了云南红豆杉(Taxus yunnanensis)基因组,其基因组大小为10.7Gb,Contig N50为2.89 Mb。比较基因组分析表明,长末端逆转录转座子是其基因组庞大的主要贡献者,在云南红豆杉中普遍存在。此外,编码紫杉醇途径中羟化酶的基因家族表现出显著的扩张。
图2 南方红豆杉的基因组特征
(2)巨杉和北美红杉基因组
文章题目:A Reference Genome Sequence for Giant Sequoia/ Assembled and annotated 26.5 Gbp coast redwood genome: a resource for estimating evolutionary adaptive potential and investigating hexaploid origin
发表期刊:G3
发表时间:2020年11月、2021年12月
测序策略:ONT+Hi-C
研究结果:
巨杉基因组中,研究者最终组装的基因组大小为8.125Gb,其contig N50=0.34Mb,并将contig版本的基因组挂载到11条染色体上;通过结合全长转录组数据,研究者共预测得到41632个蛋白编码基因,并预测到900多个NLR基因,基因组中重复序列占比达到72.85%,且在染色体中呈现不均匀分布。
北美红杉基因组中,研究者最终组装的基因组大小为26.5Gb,其contig N50=96.84Kb,共注释得到118906个基因,其中113个内含子长度超过500kb,一个内含子长度达到2Mb;基因组中近19Gb的序列为重复序列,绝大多数为长末端重复。比较基因组分析发现,非生物和生物应激反应基因在北美红杉中得到显著扩增,包括参与真菌抗病性、解毒和物理损伤/结构重塑以及其他支持类黄酮生物合成的基因。此外,对存在的多个基因进行了分析,这些基因在其二倍体近亲巨杉中只存在一次,这支持了之前的假设,即六倍体是多倍化的结果,不涉及与相邻物种杂交。
图3 巨杉的基因组特征(基因与重复序列分布)
2
松类基因组
松类物种共有80余种,在全世界有非常广泛的分布,松树树冠蓬松、根基坚固,寿命及长,其花语象征着坚定、贞洁、长寿。目前已发表的松类基因组包括花旗松、北美云杉、火炬松、白云杉、欧洲冷杉、油松和落叶松等,我们重点介绍欧洲云杉、油松和落叶松基因组。
表1 已发表松类基因组
(1)欧洲云杉基因组
文章题目:The Norway spruce genome sequence and conifer genome evolution
发表期刊:Nature
发表时间:2013年
研究结果:
针叶树在森林中占据主导地位已超过2亿年,具有巨大的生态和经济效应。本研究中,研究者构建了第一个裸子植物基因组,其大小超过20Gb,但其注释的基因仅有28354个,和拟南芥基因数目类似。比较基因组分析表明,欧洲云杉最近没有发生WGD事件,长末端重复转座因子缓慢而稳定地积累使得其基因组异常庞大,且还缺乏有效的清楚机制。此外,转座因子多样性在现存针叶树中是共享的,欧洲云杉小RNA表达水平比其它植物中要低得多。
图4 欧洲云杉的比较基因组学分析
(2)油松基因组
文章题目:The Chinese pine genome and methylome unveil key features of conifer evolution
发表期刊:Cell
发表时间:2021年12月
测序技术:PacBio+Hi-C+Illumina
研究结果:
针叶树群是森林生态系统的主要成员,是世界范围内种植最广的树种。针叶树种的基因组庞大,重复序列多,缺少完整的参考基因组,这限制了其基因组的演化和功能研究。本研究中,研究者组装的油松(Pinus tabuliformis)基因组大小为25.4 Gb,揭示其基因组庞大主要归因于基因间区较大、且内含子较长、较多的转座因子(TE)。但有趣的是,内含子较长的基因反而表现出较高的表达水平。另外,虽然油松基因组无近期WGD事件,但91.2%的基因是通过散布复制进行复制的,并且扩张的基因家族主要与胁迫响应有关,这可能与针叶树适应其生存环境相关(寒冷、干旱)。与被子植物相比,裸子植物的生殖调控网络存在较大差异。在油松基因组中,高水平甲基化的TEs去除较为缓慢,这可能促进了其基因组的扩展。总之,本研究为针叶树种的演化、适应性和发育研究提供了新见解。
图5 油松的进化适应性
(3)落叶松基因组
文章题目:The Larix kaempferi genome reveals new insights into wood properties
发表期刊:JIPB
发表时间:2022年4月
测序技术:PacBio+Bionano+Illumina
研究结果:
日本落叶松是一种针叶树种,对木材生产和生态造林具有重要价值。通过PacBio测序,研究者组装的基因组大小为10.97GB,包含45828个蛋白质编码基因。66.8%的基因组由重复序列组成,其中LTR-RTs占优势,占69.86%。研究者发现,串联重复导致了转录调控和应激反应相关基因的扩增,揭示了它们在适应性进化中的关键作用。群体转录组分析表明,木质素含量主要由单信号醇聚合过程决定。六个基因(LkCOMT7、LkCOMT8、LkLAC23、LkLAC102、LkPRX148和LkPRX166)的表达值与木质素含量显著正相关。这些结果表明,这六个基因的表达增加可能是落叶松木材木质素含量高的原因。总的来说,这项研究为针叶树的进化和生物功能提供了新的基因组资源,也为落叶松的木材特性研究提供了新见解。
图6 落叶松的串联重复基因特征
3
银杏类基因组
银杏(Ginkgo biloba)隶属银杏科银杏属,是中生代孑遗的稀有树种,系中国特产,同时也是珍贵的用材树种,其花语象征着长久守护的爱、坚强不屈的精神和沉着稳定的魅力。2016年发布了银杏基因组的草图,2021年基于三代测序了发布了高质量的银杏染色体水平基因组,具体详情如下。
文章题目:The nearly complete genome of Ginkgo biloba illuminates gymnosperm evolution
发表期刊:Nature Plants
发表时间:2021年6月
测序策略:PacBio+Hi-C
研究结果:
银杏(Ginkgo biloba)作为典型的孑遗物种,是银杏纲现存的唯一成员,不仅具有特殊的进化地位,而且还具有极高的观赏价值和药用价值。研究者组装的银杏基因组大小为9.88Gb(contig N50=1.58Mb),注释得到27832个蛋白编码基因。在研究的植物种类中,银杏基因组内含子的长度是最大的,这进一步说明重复序列不仅促进了基因组的扩展,而且增加了蛋白质编码基因的大小和复杂性。随后研究者利用基因组及转录组来解析银杏特殊的表型,重点关注银杏保留的精子鞭毛、未成形的花、扇形的叶等。总之,本研究对银杏环境适应性、裸子植物进化研究具有重要意义。
图7 银杏基因组特征
4
买麻藤类基因组
买麻藤类植物植株健壮,具有良好的逆境适应和抗胁迫能力,部分物种可入药,具有较高的药用价值和经济价值。目前已发表的买麻藤类物种包括买麻藤和百岁兰,具体详情如下。
(1)买麻藤基因组
文章题目:A genome for gnetophytes and early evolution of seed plants
发表期刊:Nature Plants
发表时间:2018年6月
测序策略:Illumina
研究结果:
买麻藤的进化地位一直存在争议,本研究中,研究者对接近4.5G的买麻藤(G. montanum)进行了全基因组测序组装,随后结合转录组数据,对17种具有代表性的陆地植物进行了比较分析。结果表明,买麻藤在内含子、重复序列等特征上显著区别于其他种子植物,与现存最古老的被子植物无油樟“相似”。此外,买麻藤在种子植物保守功能基因上呈现出古老的状态,表明其并未发生剧烈的家族扩张和收缩。综上,本研究为种子植物的演化提供了新见解。
图8 种子植物的进化研究
(2)百岁兰基因组
百岁兰(Welwitschia mirabilis)又名百岁叶、千岁兰,是百岁兰科百岁兰属的唯一种,生长在气候炎热干旱的安哥拉与纳米布沙漠。百岁兰一生只有两片叶子,永不凋谢,可存活上千年,是植物界中寿命最长的叶子。2021年NC和MER的两篇文章分别组装了百岁兰基因组,并解析了其长寿和抗旱机制,具体情况如下。
NC-The Welwitschia genome reveals a unique biology underpinning extreme longevity in deserts
研究结果:通过ONT测序结合多种辅助组装技术,研究者构建了染色体水平的百岁兰基因组(基因组大小6.86Gb,Contig N50=1.48Mb),比较基因组发现WGD事件(约 8600 万年前)和逆转座子活动(1-200 万年)使得其基因组如此庞大。进一步结合甲基化和转录组数据,研究者发现了高水平的胞嘧啶甲基化(特别是在 CHH 基序上)与逆转录转座子相关,而长期脱氨基作用导致基因组 GC 异常少。此外,与细胞生长、分化和代谢相关的基因家族和转录因子的拷贝数和表达量的变化增强了百岁兰的寿命和对温度、养分和水分胁迫的适应性。
图9 百岁兰基因组的进化
MER-Chromosome-level genome assembly of Welwitschia mirabilis, a unique Namib Desert species
研究结果:研究者组装了染色体水平的百岁兰基因组,其基因组大小为6.30 Gb,Contig N50=27.5Mb,总共预测得到39019个蛋白质编码基因。两个油菜素类固醇相关基因(BRI1和CYCD3)是细胞分裂和伸长的关键调控因子,在百岁兰基因组中被强有力地选择,可能有助于其长叶。此外,MAPK信号通路中的29个基因家族显示出显著扩增,这可能有助于植物适应沙漠环境。三个正选择的基因(EHMT1、EIF4E、SOD2)可能参与导致长寿的机制。根据分子钟时间和化石标定,百岁兰和买麻藤的分歧时间大约在1.235亿年前,这与沙漠的干旱化时间非常吻合。总之,本研究为百岁兰的进化研究提供了新见解。
图10 百岁兰环境适应性的分子机制
5
苏铁类基因组
苏铁(Cycas panzhihuaensis)俗称铁树,是地球上现存最古老的种子植物,是著名的“活化石”植物,其起源可追溯至3亿年前,并在侏罗纪时代与恐龙一起称霸整个地球。2022年4月,多位科学家联手破译了苏铁的基因组,完成了裸子植物的最后一块基因组拼图,具体详情如下。
文章题目:The Cycas genome and the early evolution of seed plants
发表期刊:Nature Plants
发表时间:2022年4月
测序策略:PacBio+Illumina
研究结果:
苏铁代表了现存种子植物最古老的谱系之一,识别苏铁区别于其他种子植物的基因组特征,可能有助于发现新的起源途径、以及理解种子植物的早期多样化。本研究中,研究者组装了攀枝花苏铁的10.5Gb参考基因组,以及339种苏铁的转录组。核和质体系统基因组学分析表明,苏铁和银杏与所有其他活裸子植物形成一个分支姐妹,而线粒体数据仅将苏铁置于这个位置。研究者在现存裸子植物的共同祖先中发现了古代全基因组复制的证据。苏铁基因组包含fitD基因家族的四个同系物,它们可能是通过真菌水平基因转移获得的,这些基因赋予苏铁对草食动物的抗性。苏铁Y染色体的雄性特异性区域包含一个MADS-box转录因子,该转录因子仅在雄性球果中表达,类似于银杏中报道的一个系统,表明由MADS-box基因控制的性别决定机制可能起源于苏铁和银杏的共同祖先。总之,本研究为种子植物的起源进化研究提供了新见解。
图11 种子植物的进化及WGD事件
总 结
通过对上述已发表的裸子植物基因组进行梳理分析,我们不难发现,这类“活化石”群体正在“重获新生”。在拥有了基因组“标签”后,它们存活亿万年而依旧亘古长青的奥妙正在不断被揭开,而那些岁月留在它们身上的印记也不再“光鲜”。展望未来,裸子植物的基因组研究应重点关注如下4个方面:
1、结合最新的测序技术(HiFi、ONT超长),解析更多、获得更高质量的裸子植物基因组,尤其是买麻藤类和苏铁类;
2、利用多组学技术,深入解析裸子植物的适应性进化,包括但不限于以下几点:
特殊的性别决定机制、性染色体、精子形态特征变化;
极端环境的适应性(干旱、寒冷、炎热);
长寿机制;
次生代谢产物的合成通路(紫杉醇、黄酮、生物碱);
基因组大小的差异原因(买麻藤2-4G、百岁兰6-8G、银杏红豆杉10G、松柏10-20G);
3、重复序列的具体特征,为何难以清除,对基因组进化到底有何作用?是否会对基因的表达有影响?
4、种子植物的起源进化(包括不限于具体分类、拉丁文名具体分类、分化先后顺序、特定的WGD事件等)。
参考文献:
[1] Cheng J, Wang X, Liu X, et al. Chromosome-level genome of Himalayan yew provides insights into the origin and evolution of the paclitaxel biosynthetic pathway[J]. Molecular Plant, 2021, 14(7): 1199-1209.
[2] Xiong X, Gou J, Liao Q, et al. The Taxus genome provides insights into paclitaxel biosynthesis[J]. Nature Plants, 2021, 7(8): 1026-1036.
[3] Song C, Fu F, Yang L, et al. Taxus yunnanensis genome offers insights into gymnosperm phylogeny and taxol production[J]. Communications biology, 2021, 4(1): 1-8.
[4] Scott A D, Zimin A V, Puiu D, et al. A reference genome sequence for giant sequoia[J]. G3: Genes, Genomes, Genetics, 2020, 10(11): 3907-3919.
[5] Neale D B, Zimin A V, Zaman S, et al. Assembled and annotated 26.5 Gbp coast redwood genome: a resource for estimating evolutionary adaptive potential and investigating hexaploid origin[J]. G3, 2022, 12(1): jkab380.
[6] Nystedt B, Street N R, Wetterbom A, et al. The Norway spruce genome sequence and conifer genome evolution[J]. Nature, 2013, 497(7451): 579-584.
[7] Niu S, Li J, Bo W, et al. The Chinese pine genome and methylome unveil key features of conifer evolution[J]. Cell, 2022, 185(1): 204-217. e14.
[8] Sun C, Xie Y, Li Z, et al. The Larix kaempferi genome reveals new insights into wood properties[J]. Journal of integrative plant biology.
[9] Liu H, Wang X, Wang G, et al. The nearly complete genome of Ginkgo biloba illuminates gymnosperm evolution[J]. Nature Plants, 2021, 7(6): 748-756.
[10] Wan T, Liu Z M, Li L F, et al. A genome for gnetophytes and early evolution of seed plants[J]. Nature Plants, 2018, 4(2): 82-89.
[11] Wan T, Liu Z, Leitch I J, et al. The Welwitschia genome reveals a unique biology underpinning extreme longevity in deserts[J]. Nature communications, 2021, 12(1): 1-15.
[12] Liu Y, Wang S, Li L, et al. The Cycas genome and the early evolution of seed plants[J]. Nature Plants, 2022: 1-13.