2021年6月22日,华中农业大学作物遗传改良国家重点实验室水稻研究团队张建伟、陈玲玲教授等及其合作者在国际权威期刊Molecular Plant(IF=12.08)上发表了题为“Two Gap-free Reference Genomes and a Global View of the Centromere Architecture in Rice”的研究论文。该研究利用高准确性、长读长的PacBio HiFi+CLR测序技术首次构建了籼稻“珍汕97”(ZS97)和“明恢63”(MH63)的无缺洞(Gap-free)参考基因组,并对水稻所有染色体着丝粒区域的结构和功能进行了比较分析,为构建植物参考基因组建立了新标准。5848vip威尼斯电子游戏承担了本研究中珍汕97的CLR和HiFi测序工作。
图1 文章发表信息
研究思路
材料:珍汕97(ZS97)、明恢63(MH63)
测序策略:ZS97(23×HiFi、131×CLR)、MH63(103×HiFi、132×CLR)、Illumina、Bionano
组装软件:Canu + Falcon+ Mecat 2+Flye+Wtdbg 2+ NextDenovo+Miniasm
研究结果
ZS97和MH63 Gap-free基因组的组装与评估
通过高深度的HiFi与CLR测序,同时结合多种软件进行组装,研究者获得了Gap-free的ZS97和MH63参考基因组(基因组大小分别为391.56 Mb和395.77 Mb)。R3版本的基因组不仅对R1版本中的Gap进行了补洞,还将R1版本部分错配区域进行了纠正。随后,研究者通过Hi-C与光学图谱检验、各种测序数据回比参考基因组、BUSCO与LTR评分、rRNA鉴定等多种方式对ZS97和MH63参考基因组进行全面评估,结果均表明R3版本的基因组准确性高、连续性好。
图2 Gap free的ZS97和MH63参考基因组
2
ZS97和MH63 Gap-free基因组的注释与比较
整合RepeatMasker、最新的RepBase、TIGR Oryza Repeats数据库,研究者对R3版本的ZS97和MH63中的重复序列进行了注释,与R1相比,R3版本的ZS97和MH63中TE序列占比分别提升4.88%和4.41%。结合多种方法,研究者最终在R3版本的ZS97和MH63基因组中注释得到60,935和59,903个基因,其中39,258和39,406个基因属于非TE基因位点(比R1分别提升11.8%和5.3%)。
基于最新的R3组装结果,研究者后续对ZS97、MH63、日本晴间的变异信息进行了更新,在ZS97和MH63的11号染色体末端鉴定到两个大的SV(MH-E和MH-I)。在MH-E中,ZS97的抗性基因是MH63的2-10倍,导致了大量基因序列扩张,这些基因在根组织中的表达量最高;在MH-I中,MH63RS3中有857 Kb的插入,包含11个抗性基因,在根组织中的表达量也最高,这部分地解释了MH63对水稻病害的优异抗性。
图3 ZS97和MH63(R3版本)间的结构变异比较
3
水稻着丝粒区域的定位与分析
通过ChIP-seq及FISH实验,研究者鉴定了水稻不同染色体上着丝粒的分布情况,结果表明其长度为0.6-1.8 Mb。随后,研究者进一步将着丝粒区域分为核心区域(CoERs)与着丝粒周围区域,核心区域显示出高水平的CENH3结合位点。在MH63中,不同染色体间CoERs的长度存在10倍差距,CENH3密度的分布也是可变且不均匀的。在ZS97和MH63着丝粒区域,研究者分别鉴定到了395个和539个非TE基因,但其转录活性低、特异性表达的比例低,且大多数活跃转录的基因位于着丝粒周围区域。
基于Gap-free的基因组,研究者还在ZS97和MH63着丝粒区域鉴定到了许多独特的基因,部分是其特有的。比较基因组分析表明,ZS97和MH63着丝粒区域共享72%的基因,且多数overlap基因集中在1号染色体上。此外,着丝粒区域的甲基化水平是基因组其它区域的两倍,这种情况在CoERs区域更明显。
最后,基于系统进化树和与其它15个高质量的水稻基因组比较,研究者发现相同染色体中CentO重复序列的相似性高于跨染色体的相似性;亚洲水稻的同一亚种(或自然群体)中,同一染色体着丝粒核心区域中的CentO卫星重复序列的长度在不同品种之间有显著差异。
图4 水稻着丝粒区域的特征
总 结
此研究中,研究者构建了首个植物基因组完成图,并深入研究了水稻不同染色体着丝粒区域的结构和功能差异,为植物参考基因组的构建提供了新标准。但正如文章中研究者所指出的,由于着丝粒区域结构复杂且富含大量重复区域,因此在构建植物基因组完成图的道路上异常曲折,这往往需要结合不同测序平台、不同测序模式、不同组装软件综合考虑。使用PacBio HiFi测序,利用不同组装软件的优势结果,同时加入人工手动纠错,可能会使构建植物基因组完成图的征程稍微容易些!
文章原文:https://www.cell.com/molecular-plant/fulltext/S1674-2052(21)00230-6