11月,三代测序热度不减,全长转录组项目文章一周内连续见刊PeerJ和Genomics,分别对寒羊尾部脂肪沉积机制和棉花基因组注释及育性恢复候选基因进行研究。今天小编精选其中一篇,为大家带来内容解读。
近日,中国农业科学院棉花研究所棉花生物学国家重点实验室邢朝柱研究员团队在Genomics期刊发表了题为“Single-molecule real-time transcript sequencing of developing cotton anthers facilitates genome annotation and fertility restoration candidate gene discovery”的研究论文,该研究采用三代测序的方法,对CMS-D2恢复系花药进行全长转录组测序,结合二代测序数据进行了差异比较和结构分析,丰富了棉花基因组的注释信息,通过差异分析也进一步筛选到育性恢复候选基因,有助于揭示Rf1和CMS-D2细胞质相互作用的分子机制。5848vip威尼斯电子游戏承担本研究中的全长转录组测序、分析等工作。
研究背景
棉花是世界上广泛种植的重要纤维油料作物,杂种优势是其增产的重要途径。在生产实践中,细胞质雄性不育(CMS)系统在棉花杂种种子的生产中起着重要的作用。CMS-D2是主要的CMS系统之一,而显性的Rf1基因可以恢复CMS-D2植株的可育性,但Rf1还没有被分离和克隆,核质间的相互作用也不清楚。虽然已经有许多关于CMS-D2和棉花育性恢复的研究。但是,Rf1恢复基因和CMS-D2细胞质相互作用机制尚不明确。
材料方法
实验材料:采集不育系A、保持系B和恢复系R的1、2、3和4毫米花蕾。
测序平台:PacBio测序
技术路线:
研究结果
1、测序和纠错
以往的研究中,已经分别获取了A、B、R三系的二代转录组数据。本研究以恢复系的花药样本进行全长转录组测序,总共获得了505,837条reads,平均长度为54,028bp,N50为89,239bp。通过进一步筛选得到394,270个FLNC,同时使用此前研究中构建的二代数据对三代进行进一步校正。最终获得了379,519个能匹配到TM-1参考基因组的高质量FLNC和819个新发现的FLNC。
图1 转录本筛选统计
2、基因和转录异构体检测
测序的数据鉴定出了44,338个基因的107,066个转录本。统计数据显示,20,101个基因可以产生单一转录本,54.66%的基因存在两个或两个以上的转录本,与参考基因组相比有明显增多。因此本研究基于三代测序发现了更多的转录本,这表明全长转录组的数据提供了比参考基因组更丰富的转录本多样性。同时鉴定出的新基因和新转录本,有助于提高陆地棉TM-1基因组注释的完整性。
图2 与陆地棉参考基因组TM-1比较
3、新转录本功能预测
将新基因的10,086个新转录本与NR、GO、KO、KOG和SwissProt数据库进行比对注释,存在911个转录本未被注释。此外将没有匹配到TM-1基因组的819个FLNC进行注释,也发现其中66个未被注释。GO富集分析表明新转录本可以富集到生物过程、细胞成分和分子功能三个大类。KEGG富集分析表明新转录本被富集到了,包括细胞过程、环境信息处理、遗传信息处理、代谢和生物系统在内的120条KEGG条目中。KOG则将新转录本分为25组。
图3 新转录本功能注释
4、融合基因、APA事件、lncRNA、ORF和AS分析
使用全长转录组数据进行结构分析,在23,449个基因中检测到了41,809个Poly-A位点,其中10,466个基因存在APA事件,其中860个基因存在5个或以上的多Poly-A位点。同时鉴定到了61个融合基因,其中59个为染色体间序列融合,2个为染色体内序列融合。对没有匹配到数据库的转录本进行lncRNA鉴定,得到了1146个lncRNA,其中超过1000bp长度的有697个,超过5000bp的有1个。并且通过软件预测出了60,995个具有ORF的新转录本。并且研究也进一步探究了因为AS事件导致的mRNA变化,鉴定出了共56572个AS事件,并随机选取了其中5个基因,进行了RT-PCR验证,检验结果与预测一致。
图4 AS事件检测验证
5、差异基因分析
恢复基因是仅在恢复系中特异性表达的基因。因此选择未比对到TM-1参考基因组的6703个基因和819个FLNC进行差异表达分析。对A、B、R三组进行两两比较,统计三个比较中的共有和特有差异基因。随后,将在R组中特异表达的新基因和位于恢复基因Rf1所在目标染色体Chr_D05及其同源染色体上的差异基因进行热图分析。
图5 差异表达基因热图
6、候选育性恢复基因鉴定及验证
选择了在恢复系中特意表达的3个新基因和位于染色体Chr_D05的两个已知基因和一个未定位到染色体的已知基因进行qRT-PCR验证,发现其在A、B、R三个株系表达均与RNA-seq结果一致。值得注意的是,其中新发现的2个在恢复系中特异性表达的基因,在R株系中特异性高表达,而在A、B中则几乎不表达。因此,我们可以将这两个基因作为候选Rf1基因进行进一步研究。
图6 特异表达基因验证
结 论
本研究利用全长转录组技术,对陆地棉的恢复系品系进行了研究。鉴定出了大量新的转录本和结构变异信息。同时通过转录组比较分析,新发现了2个在恢复系中特异性高表达基因,且都位于恢复系的Chr_D05上,因此将在后续中作为候选Rf1基因。本研究为进一步研究棉质雄性不育细胞质核相互作用的分子机制和Rf1研究奠定了基础。
总 结
结合全长转录组技术优势,更全面的鉴定转录本以及结构变化,无论是在丰富物种注释信息还是寻找关键基因等方向都具有明显优势。好的研究思路更需要和好且新的研究手段相辅相成。转录组并不都是千篇一律,好的研究方向结合技术优势,共同助力一样可以发表高质量的研究文章。
5848vip威尼斯电子游戏在全长转录组等转录调控方向具有丰富的项目经验,可以提供全面的测序分析服务。同时,我们的“冬季预付款”也在火热进行中,送课程!送礼品!享大额增值!菲沙给各位一个诚意满满的冬季。
参考文献:
Li T, Zhang X, Guo L,et al. Single-molecule real-time transcript sequencing of developing cotton anthers facilitates genome annotation and fertility restoration candidate gene discovery. Genomics. 2021 Nov 16;113(6):4245-4253.