癌症已成为人类健康的头号杀手,发病率逐年升高且趋向年轻化。人类基因组中只有2%的基因编码蛋白,关于癌症的非编码基因(占人类基因组的98%)和调控机制,大部分仍是未知的。TCGA系统性地收集了来自原发性人类癌症组织的DNA突变、甲基化、RNA表达和其它综合数据集,成为鉴定基因组变异、可变转录网络和癌症亚型的宝贵资源。但这些肿瘤基因的调控很大程度上都是通过间接手段推断出来的。
在一项研究中,ATAC-seq的两个主要开发者William J. Greenleaf和Howard Y. Chang整合ATAC-seq与TCGA多组学数据,于2018年在Science期刊上发表了题为“The chromatin accessibility landscape of primary human cancers”的重大科研成果—绘制人类原发性肿瘤染色质可及性图谱,涵盖了23种癌症的410个肿瘤样本的796个全基因组染色质可及性图谱,发现了562,709个DNA调控元件,平均每一种癌症类型中鉴定了近10万个染色质可及性位点,揭示了一系列与染色质可及性有关的调控相互作用,这些相互作用可改变与癌症风险和治疗结果相关的基因表达。
如此大样本量的采用ATAC-seq技术,能在全基因组范围内识别组织特异性细胞内的DNA调节元件,将其应用在不同癌症类型中可促进人们对癌症发生的生物学机制有更深的理解,对肿瘤亚型预后性产生新的认识。
图1 癌症类型、样本数量和peaks的基因组分布特征和数量
小样本量的ATAC-seq用来描绘某个特定时空下的某个组织/细胞的染色质可及性图谱,得到特定条件下的调控元件和调控因子,而大样本量ATAC-seq则可以非常详细的绘制生命体不同组织或不同条件下的染色质调控图谱,得到全面的各组织特异性的转录调控网络,并为本研究物种提供大量宝贵的数据资源。
通过本研究得到了哪些结果呢?且看下文。
01鉴定新的调控元件
ATAC-seq得到的肿瘤特异peaks与Roadmap Epigenetics project中DNase-seq测序得到的peaks有65%的overlap,表明此研究中鉴定到的调控元件与以往研究结果一致性较高,并且ATAC-seq在启动子和增强子区域鉴定到了更多的DNA调控元件。
图2 鉴定新的调控元件
02远端调控元件表现出癌症类型特异性
对ATAC-seq鉴定的远端调控元件和启动子进行Pearson相关性层次聚类分析,发现远端调控元件表现出更强的癌症类型特异性,而启动子可及性则表现出与RNA-seq基因表达相似的模式。
图3 远端调控元件、启动子、RNA-seq数据相关性聚类
进行t-SNE和密度聚类分析鉴定到18个明显不同的簇, ATAC-seq、mRNA-seq与癌症类型聚类高度一致,这种一致性也表明ATAC-seq测序结果具有很强的细胞类型特异性。
图4 染色质可及性的癌症类型特异性
03特异性调控元件与转录因子相关
远端调控元件在不同癌症类型组织中表现出簇特异性,而簇特异性的Peaks主要集中在TF区域,参与调控基因的表达,因此可以利用基因的这种特异性识别癌症类型。
图5 簇特异性的远端调控元件与癌症特异性TF motif相关
DNA的甲基化水平与调控元件染色体可及性呈负相关,染色体可及性程度低的区域,甲基化程度高。与DNA甲基化图谱联合分析发现:远端调控元件和启动子区域出现明显的DNA甲基化缺失。
04足迹分析识别转录因子与DNA结合的方式
高深度的ATAC数据可进行单碱基的转录因子足迹分析,RNA-seq与ATAC-seq相关性分析发现:TF与DNA结合导致DNA的侧翼开放性增加,并伴随转录调控的增加和甲基化水平的降低。例如转录因子TP63和NKX-2。
图6 足迹分析鉴定癌症中的活性转录因子
05远端调控元件与基因表达的相互作用
基于染色体可及性和基因表达的相关性,预测了81,323个远端调控元件与基因相互作用,发现这种相互作用大部分是由肿瘤类型决定的。
图7 远端调控元件与基因表达互作
06验证远端调控元件与基因表达的关系
利用CRISPRi进行验证:沉默BCL2基因的远端调控元件,导致MCF7细胞系中的BCL2基因表达量降低,而在MDA-MB-231细胞系中则保持不变,这可能是因为BCL2是其特异的调控因子;同样的,沉默SRC基因的远端调控元件导致该基因在上述两种细胞系中的表达量均降低。这说明基因表达水平与远端调控元件之间存在相关性,并且与细胞类型相关。
图8 验证远端调控元件与基因表达的关系
07远端调控元件与癌症免疫治疗之间的关联
大量免疫细胞的浸润会影响实体肿瘤的组成,使用CD8+ T细胞的2个标志基因(GZMA和PRF1)的表达量对细胞溶解活性进行评定,该活性与免疫细胞浸润明显相关,基于此推断peak-gene的关联方式与免疫细胞浸润方式是高度相关的。同时发现了PDL1在其TSS 43Kb范围内有4个远端调控元件,该元件在不同的癌症类型中表现出明显不同程度的染色体可及性,利用CRISPRi已经在2种乳腺癌细胞中得到验证。阐明PDL1和其他药物靶点调控元件的状态或许可以为个性化治疗提供新的方法。
图9 远端调控元件调控PDL1的癌症特异性
08识别与癌症相关的非编码突变
为了识别癌症发生和发展过程中调控元件的突变情况,联合ATAC-seq和WGS数据在调控元件区域发现了很多突变。
1)启动子区域突变:如TERT,导致染色体可及性与TERT基因表达明显增加。相比WES只能检测外显子区域,ATAC-seq能够鉴定到更多调控元件的突变。
2)增强子突变:如eFGD4的突变产生一个新的NKK2-8 motif,导致在FGD4上游12kb区域内的染色质可及性大幅增加,FGD4进而高表达,使得膀胱癌的生存率显著降低,表明FGD4的增强子突变对特定癌症产生重要影响。
图10 增强子突变改变IF motif增强FGD4基因表达
参考文献:
Corces MR, et al. The chromatin accessibility landscape of primary human cancers. 2018, Science.