一系列新兴的测序平台和分析工具,让如今的基因组组装有了更多的选择:PacBio/ONT、10xGC、Hi-C、BioNano,是不是让你选花了眼,到底选择什么样的测序策略?CANU、Falcon、Flye、DBG2OLC、MaSuRCA、Minimap……是不是挑扎了心,选择什么样的组装工具?更别说还有高质量的DNA提取问题,gap补洞,计算资源消耗等等一大堆的问题。那么今天,我们就以植物基因组组装为例,好好梳理下基因组组装的那些事儿。
DNA提取
每种植物都有自己的特点,我们根据自己的经验,就提取方法提供一般性的建议:提取的DNA除了不含蛋白质、碳水化合物和多酚类污染物的明显要求外,还应该寻求产生高分子量DNA的方法。鉴于基于柱状结构的DNA提取方法具有剪切DNA的倾向,因此建议避免使用柱状结构的DNA提取方法,推荐磁珠吸附的方式提取纯化DNA。附上我们准备的提取protocol-您还在为高质量基因组DNA的提取而烦恼吗?
测序平台
对于那些二倍体(基因组大小500Mb左右)且不那么复杂的植物,现如今的测序策略已经很模式化,通常选择100X二代survey数据用于评估和纠错,80X左右三代数据组装。但对于较大的植物基因组,使用这种方法进行从头组装通常会得到不理想的结果。这在很大程度上是由于测序过程本身碱基识别错误导致的,其中一些问题可以通过增加测序覆盖深度来解决。可是针对植物基因组中跨越1 Mb以上的长重复序列区,例如端粒和着丝粒区,即使PacBio或ONT的最长读取长度也常常无法跨越这些区域。作为补充解决方案,可以选择10xGC增加读长的连续性和准确性,Hi-C、BioNano促进重复区基因组的连接来减少scaffold数量,并将scaffold的大小增加三到十倍,完成基因组装配。
表1 长读长测序平台比较
通过汇总最近发表的植物基因组测序策略的选择,不难看出二代+三代是标配,BioNano、Hi-C已经普及应用,而10xGC还没推广开来。
表2 植物基因组测序策略的选择汇总
计算资源
一般来说成功地组装一个中等大小的二倍体植物基因组(1Gb),使用组装软件Canu或Falcon将需要至少96物理CPU内核,1 TB内存,3 TB的本地存储,10 TB的共享存储。多倍体、高重复、大基因组(每增加1Gb基因组大小)可能需要比其多50%的计算资源。增加计算资源虽然会减少组装时间,但需要平衡时间成本和费用成本关系。与选择构建自己的内部计算集群系统相比,基于云平台的租赁,不仅可以满足对大基因组增长的计算资源的需求,还可以提供了灵活性、有竞争力的价格以及不断更新的硬件和软件。比如华为云(mark一下推广费)。
组 装
图1 组装策略汇总
组装是整个基因组De novo过程中最关键的环节,承上启下。但植物物种的差异性,组装工具的千差万别,使得我们需要苦苦摸索最佳的组装工具搭配。在过去的十年中,de Bruijn Graph (DBG)算法已经成为二代测序数据组装植物和动物基因组的首选方法。同时配合10xGC数据,可使scaffold N50的提高3倍以上,成本也比单独使用二代数据组装低了20倍,但这种方法通常在最终装配中会留下许多gap和组装错误或未组装的区域,特别在针对重复区域和/或组装多倍体物种的基因组时。三代数据都有很高的随机和系统错误率(PacBio为5% 10%,ONT为5% 15%),因此需要大量的覆盖深度来进行自我纠错,随着PacBio和ONT测序费用的降低,选择三代数据进行组装相对越来越划算,表3汇总了用于长读和相关程序的最常用的从头组装工具及其功能特性。
表3 组装工具汇总
纠 错
处理ONT数据纠错上,Minimap是计算效率最高、最敏感的工具(包括时间和内存)。然而对于PacBio数据,Minimap不像GraphMap、DALIGNER或MHAP那样敏感或特定。GraphMap和DALIGNER是PacBio数据处理上最特异、最敏感的两种方法,DALIGNER的计算规模更大。校准工具的选择很大程度上是基于基因组特征等因素,能够提高误差校正和修正一致性的整体精度。另外将Illumina paiend (PE)和/或mate pair (MP)数据合并用于额外的修正,通常可以获得更好的准精度。
表4 校正工具说明
辅助组装
BioNano和Hi-C两种方法可以通过验证初始装配的完整性、纠正错误的排列方向和排列支架来提高装配质量。一般Hi-C数据比BioNano更能有效解决染色体的长片段排列问题,这使得染色体水平的装配更快、更便宜、更准确。Hi-C方法结合PE、MP或三代数据,通过检测和量化基因组中成对染色质相互作用,可以有效提高染色体空间排列的分辨率。特别是,如果有可用的遗传图谱,则应该考虑利用Hi-C数据创建远距离染色质相互作用图谱,以完成更详细的3D基因组染色体结构装配。
图2 辅助组装工具
评 估
评估组装质量需要几个统计和生物验证:组装大小(确定与估计基因组大小的匹配)、组装连续性(N50;number of contigs; contig length; and contig mean length))、组装完整性(BUSCO评分和/或RNA-Seq映射);定量性状位点(QTL)、荧光原位杂交(FISH)实验(利用细菌人工染色体(BAC)克隆)、基因组组装与染色体水平遗传图谱的接近性,这些是评估组装质量的有力指标。如果组装尝试不满意,通常是最好的补测更多三代数据或10xGC数据。
图3 评估指标
小 结
当开始一个新的基因组组装项目时,首要考虑四个问题:
①基因组有多大?
②它是二倍体、多倍体和/或高度杂合的杂交物种吗?
③基因组序列重复度多少?
④采用怎样测序策略和组装方案呢?
这样我们才能从整体层面把控项目的风险和成本。总的来说采用混合测序方法(10xGC/BioNano + ONT/PacBio + Hi-C)与合适的基因组组装工具相匹配时,在成本和准确性方面往往是最优的。
图4 混合组装策略
菲沙集成先进的三代测序技术平台和三维技术平台,全方位从基因组组装、分型,基因功能和进化研究为您助力基因组学研究,期望与各领域的专家合作,制定最优的解决方案,提供快速、准确、专业的服务,共同迎接生命科学研究中的挑战。
配图来源网络/侵删
参考文献:
Jung H, Winefield C, et al. Tools and Strategies for Long-Read Sequencing and De Novo Assembly of Plant Genomes. Trends Plant Sci. 2019 Jun 14.