转录组已经是十分普及的组学手段,通过也通常是组学的入门技术,但是对于大多数初学者来说,还是会有许多问题。2023年又到年末,我们将汇总3期10问10答,解答常见转录组问题,希望可以对大家有所帮助~
Q1:研究的物种没有参考基因组怎么办?
没有参考基因组的情况下我们可以考虑进行无参转录组分析,使用Trinity等软件构建参考转录本集从而进行后续分析。
Q2:有参考基因组,但是参考基因组质量不太好,有影响吗?
参考基因组质量会影响到转录组的分析。主要在两个方面,第一个是当参考基因组存在较多的Gap及拼接问题时,会导致基因结构注释存在问题;第二个方面则是,这类参考基因组的注释往往也存在较多缺失的情况,因此我们推荐使用达到染色体级别的且注释较为全面的参考基因组进行转录组分析,也可以进行无参转录组分析。
参考基因组和转录组数据比对率(mapping)较低,一般是什么原因?
比对率低最主要的原因可能是使用的参考基因组与所测物种亲源关系较远或参考基因组组装较差导致,当然也有可能是由于特殊的前处理或实验设计导致。一般而言,在有参转录组分析中,参考基因组mapping率通常>70%。
Q4:转录组一般需要多少个重复?
通常而言,转录组需要设置至少3个生物学重复,如果针对基础差异较大的样本,需要设置的生物学重复数量也应该增加。具体情况可以根据实验设计来决定,样本量越多对于统计筛选得到可靠的结论越有利。
Q5:转录组测序数据量一般是多少?
转录组测序所需数据量和说研究物种的基因数量相关,往往也和基因组大小相关,通常会认为,基因组越大,所需的数据量也越大。常规物种一般推荐6G数据量,而基因组较大的物种则推荐8G以上数据量,如小麦通常会推荐10G数据量以上。
Q6:基因表达(gene expression)和转录本表达(Transcript expression)有什么区别?
一个基因可以表达出多个转录本;对于基因的表达水平分析实际上是综合一个基因的多个转录本定量的结果,二者属于不同层面分析,可以根据研究需求使用基因&转录本表达结果。
Q7:组内某个生物学重复样本和其他相关性不太好怎么办?
生物学重复一般而言会有较高的相关性,但是不能排除存在样本制备时的波动;通常而言转录组会要求至少3个生物学重复样本,如果出现某一样本离群,可以将该样本剔除后,重新分析;如果后期实验验证可以顺利验证,一般不影响文章发表。我们也可以通过多设立重复,来减少或避免样本重复的缺失。
Q8:一般对于差异基因的筛选阈值是多少,差异大小怎么判断?
通常的筛选标准为:FDR (false discovery rate) <0.05,log FC (fold change (condition 2 / condition 1) for a gene) >1或log FC<-1;其中FDR表述差异显著性,log FC表述差异倍数大小。FDR越小,显著性越大,|log FC越大,差异倍数越大。
Q9:利用公式计算的log FC为什么会和结果文件有一些差异?
我们以常用的差异软件DEseq2为例,其是一种用于计算数据差异分析的方法,它使用离散度和倍数变化的收缩估计来提高估计的稳定性和可解释性,并不是说所有的数据都是按照表达量的数值来计算的,其实是使用了一个收缩模型,当这个数据异常变化的时候,是对数据有处理的,所以会出现不一致的情况。对于这个模型可以参考DEseq2说明文档或模型解释。
模型解释:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4302049
Q10:为什么利用公式计算的FC和结果文件不一样?
需要注意,差异结果是通过read count计算,并不是通过FPKM计算,因此如果使用FPKM计算FC会与结果提供的FC不一致。这里需要注意,FPKM是在考虑基因长度情况下的标准化数据,可以用来比较一个样本中所有基因谁的表达量更高,而样本间差异则依赖read count计算。
本期十问十答重点在转录组分析起始阶段,后续问答将会围绕转录组后续分析进行,让我们敬请期待~