位于染色体上某一区域的一组相关联的SNP等位位点被称作单体型(haplotype),与之相关的全基因组范围的组合即为单体型图谱(Haplotype Map, HapMap)。通过单体型分析可以发现两个变异是否来自同一个等位基因,从而判断这些变异是否有害;在临床上,单体型对器官移植时Donor-host的匹配很关键;此外,单体型还能反映出群体结构和进化历程。大量研究表明基因表达存在等位不平衡性(Allelic imbalances),预示着等位基因在遗传或表观上可能存在差异。
基于单体型的重要性,国际单体型图谱计划、千人基因组计划等通过研究不相关群体的连锁不平衡来系统地构建单体型。然而利用这种方法可准确分型的单体型平均长度限制在300kb左右。另一种方法是通过Parent-child Trios这种组合对子代进行分型,但是这种方法的成本很大,同时,生物学父母本的获取对于某些样本来说也比较困难。也有一些研究者通过实验进行分型,包括长片段测序,Mate-pair测序,Fosmid测序等。这种方法可以构建几kb到几Mb的单体型块,但是不能构建基因组水平的单体型块。当然也有全基因组跨度的分型,包括荧光激活细胞分选(Fluorescence-activated cell sorting),染色体分离测序(Chromosome-segregation followed by sequencing),以及基于染色体显微切割测序(Chromosome microdissection–based sequencing)方法,但是这些技术一方面仅能分型出部分杂合变异,另一方面存在技术壁垒,需特殊平台和机构才能做到。
此外,还可以采用计算的方法构建单体型,对此,测序文库的大小是一个很重要的因素。如Mate-pair测序(Insert size约5kb)相比于常规测序(Insert size约500bp)可以获到更长单体型。然而,基于Shotgun测序手段,即使采用超高的深度,也很难构建长于1M的Haplotype blocks。
随着Hi-C技术的发展成熟,人们在2013年就提出了采用Hi-C数据构建单体型的方法,称作HaploSeq方法[1],并对应开发了一个叫做HapCUT的软件,其原理即是采用Hi-C contact根据染色体内互作强于染色体间互作将检测到的变异组合联系起来。
研究者使用了小鼠和人的Hi-C数据来做测试,并且从完整性(completeness),分辨率(resolution)和准确性(accuracy)三个方面对分型结果进行了评估。这三个指标代表的意义如下:
01
完整性
在分型过程中,通常不能达到将一条染色体作为一个整体完全分开,而是常会有多个独立的haplotype blocks(单体型块),haplotype blocks的数量取决于杂合变异的联结情况。在这些haplotype blocks中已分型的杂合变异最多的那个haplotype blocks称之为MVP(Most heterozygous variant phased)block。完整性评估通常指MVP block中分型的杂合变异的位点数量。
02
分辨率
指MVP block分型的变异位点数除以MVP跨度范围内的所有变异位点数。如下图:
图中红色线(Chromosome)上的黑色竖线表示已分型的杂合变异位点。A-J这些位点分型后构建成了MVP block。在MVP block外还存在一些位点如图中X,Y位点,计算分辨率时这些位点不计算在内。
03
准确性
准确性定义为MVP block内正确分型的杂合变异位点比例,测试结果表明采用Hi-C数据经HapCUT软件对小鼠和人的基因组分型,其准确性均达到99.5%以上。
看来仅使用Hi-C数据,分型效果已经很好了,那么随之而来的问题是:
问题一
Hi-C与其它测序策略结合是否可以提高分型指标?
通过比较不同测序策略与MVP block完整性,评估图如下:
结果显示,Hi-C reads + WGS reads没有增加分型的haplotypes的完整性,但是Hi-C reads + WGS reads的分辨率要比单纯用Hi-C reads的分辨率更高。如下图:
横坐标:将所有Block按杂合位点数从大到小排列后的前100个Block
纵坐标:累积校正跨度的百分比。
根据分辨率的比较评估可以看出:
① 整体而言,使用Proximity ligation(即Hi-C连接)的测序策略最佳(仅需第一条Block就能反映总体情况),使用Fosmid文库的测序策略次之(需要用前30条Blocks才能反映总体情况),而采用Meta-pair的测序策略效果非常差(使用了前100条也不能反映总体情况)。
② 虽然仅用WGS的分型结果效果远差于其它测序策略的结果,但是无论是Proximity ligation,还是Fosmid,还是Meta-pair,同时再使用WGS,结果都会有所提升。
③ 所有结果中Proximity ligation + WGS的测序策略是最佳组合。
注意上图中纵坐标采用的是累积校正跨度的百分比,那么何为“校正跨度”?由于Block之间在跨度上可能存在交集,如下图Block1与Block2,直接用Block的跨度来反应分型情况,意义并不大,所以研究者对这个跨度作了一个调整,即校正跨度(Adjusted span,简称AS),定义为Block的跨度乘以Block内分型的杂合位点比例(可理解为Block跨度×分辨率),如下图。
问题二
哪些因素可以影响分型效果?
因素1:物种的杂合情况,即变异位点的密度。
因为小鼠的变异位点密度大约是每150bp一个,是人类变异位点密度的7-10倍。研究者作了一个测试:随机取样,将小鼠的变异位点密度取得与人类的一致。使用全部变异位点,各染色体准确性在99.4%-99.7%范围内,随机取样后各染色体准确性在99.2%-99.6%范围内,说明分型准确性没有降低多少。但是分型分辨率变化却非常大,从原来的95%降到了32%!
结论:低的变异位点密度不会影响完整性和准确性,但是会显著地影响分型分辨率。
因素2:Hi-C数据测序深度和Hi-C reads长度
像人类这种变异位点密度比较低的基因组,可以将HaploSeq(其结果作为"seed haplotype")和局部条件分型(Local conditional phasing,采用Beagle软件对千人基因组计划里的数据进行分析)相结合来提高分辨率。两者结合使用后分辨率从约22%提高到约81%,同时各染色体平均准确性达到98%左右。
然而实际项目中很少有局部分型的数据,此时可以通过增加测序深度,同时增加read长度的办法来提高"seed haplotype"分型分辨率。当测序覆盖低时,Hi-C连接的边界可靠性会降低,同时准确性会下降。例如,两个变异位点如果只有1条Hi-C reads连接,它们可能在测序错误或者比对错误等情况下导致单体型分型错误,但是当这两个变异位点有10条Hi-C reads连接时结果就比较可靠了。
目前,采用二代WGS+Hi-C这种简单高效的策略已成熟应用于对三代组装的基因组(尤其是高杂合基因组)进行单体型分型。5848vip威尼斯电子游戏提供全套单倍体分型技术服务(NGS+PacBio Sequel+Hi-C)(链接:全球首批Sequel II登陆菲沙,与您共同见证高通量长片段测序的魔力),或者您只需要提供给我们以下数据,我们即可返还给您单体型的基因组组装结果。
① PacBio下机subreads数据及组装完成的基因组数据(p-contig和a-contig,fasta格式);
② 染色体数目/核型;
③ 100x Hi-C数据;
④ 100x二代WGS数据(可使用survey数据)。
参考文献:
[1] Selvaraj S, et al. Whole-genome haplotype reconstruction using proximity-ligation and shotgun sequencing. 2013, Nature Biotechnology.