单菌基因组测序是指利用二代或三代测序技术,获得单菌的基因组序列,并在全基因组组装的基础上,进行基因组组分分析,功能注释等分析。其已取代传统方法成为研究细菌进化遗传机制,关键功能基因的重要工具。
PacBio SMRT测序以其超长读长、无GC偏好性的特点,迅速成为微生物基因组研究的利器。此外,新一代高通量测序技术大大降低了细菌基因组研究的成本,缩短了研究周期,为越来越多的实验室提供了细菌基因组研究的便利。
一、送样要求和测序策略
1.非致病性;
2.对数期50ml菌液,4000×g离心10min(4℃),液氮速冻,-80℃保存,干冰送样;
3.有明显主带,无降解,无 RNA、蛋白质等杂质污染;
4.细菌完成图:DNA总量≥10μg。
文库大小:10kb;测序平台:PacBio sequel
基因组是阐释生命现象和揭示生命规律的重要手段,采用三代PacBio测序,可以提供高准确率、高覆盖度的微生物基因组解决方案。生物信息分析工作流程图如下所示:
生物信息分析流程图
部分分析结果展示
1.数据质控:三代测序数据下机后,对原始的下机数据(Raw reads)经过数据过滤,可得到高质量测序数据(subreads)用于后期拼接组装分析。
subreads长度分布直方图
2.基因组结构注释
基因岛预测:基因岛(Genomics Islands,GIs)是一些细菌、噬菌体或质粒中有横向起源迹象的一部分基因组。一个基因岛可以与多种生物功能相关,能与共生或病原机理相关,与生物体的适应性相关等,因此一直以来都是研究的热点。结合基因功能注释结果,分析基因岛上基因的功能,通过比较基因组分析手段可研究具有特殊功能的微生物功能的特异性和功能来源。
基因岛预测结果
前噬菌体预测:整合在宿主基因组上的温和噬菌体的核酸称之为前噬菌体。前噬菌体序列的存在可能也会允许一些细菌获取抗生素抗性,增强对环境的适应性,提高粘附力或使细菌成为致病菌。同时,通过前噬菌体的研究可能找到特异的抗生素甚至是先进的癌症治疗方法。
前噬菌体预测结果
3. 基本功能数据库注释
基因功能注释主要采用将预测的蛋白集与已知的数据库(NR、Swiss-Prot、COG、KEGG、GO这五个主要数据库)比对(挑选最好的比对结果,最高的identity和最多hit)并结合数据库内蛋白的功能信息对现有蛋白做功能预测。
蛋白功能注释的总体状况示例
KEGG是系统分析基因产物和化合物在细胞中的代谢途径以及这些基因产物功能的数据库。它整合了基因组信息、化合物和小分子信息以及生化反应系统等方面数据,主要包括代谢通路、药物、疾病、功能模型、基因序列及基因组等。KO(KEGG ORTHOLOG)系统将各个KEGG注释系统联系在一起,KEGG已建立了一套完整KO注释的系统,可完成新测序物种的基因组或转录组的功能注释。
KEGG注释结果统计
GO(Gene Ontology)是一套国际标准化的基因功能描述的分类系统。GO数据库将蛋白序列分为三大类:生物过程、分子功能和细胞组分,分别用来描述基因编码的产物所参与的生物过程、所具有的分子功能及所处的细胞环境。GO的基本单元是term,每个term有一个唯一的标示符。
GO注释结果统计
4. 特定功能注释
包含CARD,CAZy,PHI,VFDB,TCDB,RMS,分泌蛋白注释,III型分泌系统效应蛋白注释和跨膜结构注释。
特定功能数据库共有和特有注释分析统计图
5.碱基修饰分析
DNA甲基化广泛存在于原核和真核生物基因组中。传统的碱基修饰分析方法如Bisulfite测序技术,操作复杂、后续检测繁琐。PacBio测序技术可以在进行基因组测序的同时获取碱基修饰信息。
碱基修饰的碱基脉冲信号分布
对检测得到的m4C、m6A以及其他检测到的未知类型的碱基修饰分别进行数量、覆盖度及质量值进行统计。
6. 细菌基因组圈图
将各种信息综合(这里指GC含量、GC偏差、tRNA/rRNA、COG注释、碱基修饰和限制性修饰系统相关酶)展示在一张基因组圈图中,可以使我们对菌株基因组的特征有更全面、更直观的认识。
基因组圈图
结 语
(1)通过对目标菌株de novo测序精细组装,得到基因组完成图。
(2)对基因组进行基因功能注释,基因组组分分析和比较基因组分析等,获得变异信息,进而揭示菌株特异的性状特征,阐释菌株毒力、抗药等分子机制,找到目标菌株生产特定代谢产物的核心基因。
(3)运用于疫苗和新型抗生素的研究和开发,菌株之间的进化分析。
(4)联合使用Hi-C(高通量染色体构象捕获技术),还可从三维结构层面解析微生物基因表达的空间调控机制。
配图来源于网络/侵删