蚕豆(Phaseolus vulgaris)是世界上第三大重要的冬季食用豆作物,具有蛋白质含量高、产量高、适应性广等特点,是满足植物蛋白需求的首选作物。在遗传学方面,蚕豆部分异花交配、种子繁殖率低,基因组大小高达13Gb,这些特征极大地限制了蚕豆的遗传育种研究。此外,虽然转录组和芯片SNP促进了蚕豆病发生机理的研究,但由于缺乏参考基因组序列,蚕豆的作物改良与基础研究进展仍十分缓慢。
近日,预印版期刊bioRxiv在线发表了题为“The giant diploid faba genome unlocks variation in a global protein crop”的研究论文。该研究通过PacBio HiFi测序,构建了首个染色体水平的蚕豆基因组(德国Hedin/2品种),解析了蚕豆基因组庞大的原因,并结合转录组与GWAS分析鉴定到了与蚕豆种脐颜色相关的基因,从而为蚕豆的新品种选育与遗传变异研究提供了新见解。
图1 文章发表信息
研究思路
基因组材料:德国Hedin/2蚕豆、Tiffany蚕豆
测序策略:HiFi+Hi-C
GWAS材料:197份蚕豆个体
研究结果
1
●
蚕豆基因组的组装
蚕豆基因组高达13Gb,但染色体条数仅有6条,其最长的染色体与人类基因组相当,这使得其基因组组装一直存在挑战。通过20×的HiFi测序,研究者组装了11.9Gb的Hedin/2,结合遗传图谱与Hi-C挂载,将94%的序列锚定到染色体上。此外,研究者还通过10×的HiFi组装了Tiffany’蚕豆基因组,其大小为11.4Gb,contig N50=1.6Mb。上述通过HiFi组装的蚕豆高质量基因组,可作为后续蚕豆泛基因组研究的基础。
图2 蚕豆的基因组特征
2
●
蚕豆基因组庞大的原因
通过注释,研究者在蚕豆中预测得到34221个蛋白编码基因(Tiffany品种为34043个基因),BUSCO评估注释完整性为96%。蚕豆的基因密度沿染色体均匀分布,平均每cM有27个基因,这表明尽管蚕豆基因组较大,但其构建遗传图谱可能更容易。
与裸子植物相比,蚕豆的内含子长度与其它豆科植物相当,但其基因间区长度显著增加;蚕豆多拷贝基因家族的数据与近缘的二倍体物种相似;WGD分析表明,蚕豆没有谱系特异性的WGD事件,但其有更多的串联重复,并与最近的TE序列扩张相一致。这说明,重复序列的扩张,可能是蚕豆基因组庞大的主要原因。
进一步分析表明,蚕豆中重复序列占比为79%,其中LTR-RTs占比为63.7%(最丰富的是Gypsy)。单个散在重复序列的长度及丰度,部分解释了蚕豆基因组的庞大规模。此外,不同的卫星重复序列、缓慢的重复序列清除机制,也是蚕豆基因组庞大的主要原因。
从甲基化程度来看,蚕豆是甲基化程度最高的植物之一。蚕豆中具有高甲基化水平的基因平均长度更长,基因组中高占比的重复序列甲基化程度也很高。这表明,蚕豆甲基化机制功能齐全,有效地甲基化了所有类别的重复序列,即甲基化缺陷不太可能在蚕豆基因组扩增中发挥作用。
综上,重复序列的扩张与缓慢的序列清除机制,是造成蚕豆基因组庞大的主要因素。
图3 蚕豆基因组庞大的原因分析
3
●
与种脐颜色调控相关基因的鉴定
高质量的蚕豆基因组对GWAS分析至关重要,通过选取197份材料进行SPET基因分型,共获得了1,081,031个高质量的SNP,随后对种脐颜色进行了GWAS分析。研究者确定额1个单独显著的峰,与已有种颜色研究结果相一致;该峰包括8个PPO基因组成的基因组簇,结合豌豆种脐颜色相关研究成果,研究者认为PPO活性的差异是导致豌豆和蚕豆种脐颜色变化的原因。
进一步通过转录组和基因结构分析,研究者发现PPO基因簇中的VfPPO-2基因的启动子区域含有约2Kb的插入,中断了预测的VfPPO-2基因启动子序列,进而控制了蚕豆种脐颜色的变化。
图4 蚕豆种脐颜色调控相关基因的鉴定
总 结
蚕豆作为重要的作物,其未来育种的核心是需要提供低生物碱、高蛋白、高产和高抗的品种,而构建高质量的参考基因组可以为蚕豆育种提供重要帮助。研究者通过HiFi测序构建了高质量的蚕豆基因组,解析了蚕豆基因组庞大的原因;在此基础上,结合变异、QTL数据构建了蚕豆新的遗传图谱,并对种脐颜色相关性状做了GWAS分析。总之,本研究可为蚕豆分子遗传、新品种选育等提供重要理论基础。