I型HLA基因中和癌症相关的体细胞突变 Comprehensive analysis of cancer-associated somatic mutations in class I HLA genes

Comprehensive analysis of cancer-associated somatic mutations in class I HLA genes

肿 瘤的发生与免疫系统的功能密切相关。在免疫系统中,MHC (主要组织相容性复合体, major histocompatibility complex) 是所有生物相容复合体抗原的一种统称。HLA (human leucocyteantigen) 就是人类的MHC基因,即人类白细胞抗原,位于6号染色体,它所在的区域是人类基因组中多态性最高的区域之一,有高达上千个等位基因。

HLA –I 类基因在细胞毒性T细胞反应中作用至关重要,可以在细胞表面呈递可被T细胞受体识别的肽段。

研究表明,肿瘤中HLA基因存在大量的体细胞突变。这强烈地暗示了HLA突变导致的功能丧失与肿瘤细胞的免疫逃避密切相关。因此,分析肿瘤病人的HLA基因序列的变化就显得异常重要。

然而,在人的参照性基因组数据库中每个HLA基因只给出单一的参考序列。由于HLA等位基因的高度多态性,基因序列的比对往往得不到理想的结果。加之HLA基因的GC含量较高,这会增加测序的困难。这为序列比对及突变等进一步的分析带来了极大的挑战。

为 了克服上述的问题,Sachet A Shukla等发表在《Nature Biotechnology》上的文章对HLA –I 类基因中和癌症相关的体细胞突变进行了全局性的分析。在这篇文章中研究者开发了一种称为Polysolver ( polymorphic loci resolver, 多态性位点解析器)的计算流程,能够精确计算出I类HLA-A,B,C 的种系等位基因。以种系等位基因作为参考,可以分析肿瘤病人样本中HLA基因体细胞突变情况,从而能够非常精确地对病人肿瘤样本HLA进行分型。

文 中对20多种肿瘤的7930对(肿瘤和正常组织)样本进行WES(whole-exomesequencing,全外显子组测序)数据分析,从其中266 个肿瘤患者中发现了298个HLA基因的非沉默突变(nonsilent mutations)。这298个突变中大多数为功能性突变,包括可能的功能缺失(Loss-of-function)突变。

通过这一研究,研究者提出以下几点生物学意义:
第 一,结肠腺癌(colon adenocarcinoma)、头颈癌(head and neck cancer)、肺鳞状细胞癌(lung squamous cancer)和胃癌(stomach cancer)受HLA –I 基因突变显著影响,而胶质瘤(glioblastoma)、卵巢癌(ovarian cancer)、慢性淋巴细胞癌(CLL)则较少包含HLA基因突变。

第二,HLA基因一些非同义突变影响了抗原的呈递。比如研 究者鉴定出至少在3例肿瘤样本中发生非同义突变包括29个热点,至少在2例肿瘤样本中发生非同义突变包括35个热点,这提示这些突变热点是可以被正向选择 的。导致功能丧失的突变事件数量也较为显著,如移码突变、无义突变、剪切位点的突变等;这些功能丧失的突变事件极有可能影响了HLA –I 类基因编码产物在细胞表面的表达,从而影响了抗原的呈递。

第三,HLA突变肿瘤中浸润的效应淋巴细胞会上调一系列和细胞裂解活性相关的基因,但这和肿瘤细胞的免疫逃避之间的关系需要进一步实验阐明。
Figure 1. Polysolver 算法的开发与验证;a, Polysolver算法示意图。b,  Polysolver算法和已报道算法的比较。其衡量标准有(i) sensitivity,所有已有等位基因被鉴定出来的比例;(ii) precision,参考等位基因正确的概率;(iii) accuracy,所有等位基因被召集出来的比例;(iv) homozygosity success rate, 纯合基因被鉴定出来的比例。

Figure 2. 在 多种癌症样本中检测I型MHC基因的体细胞突变。a,利用Polysolver检测HLA基因体细胞突变示意图。突变检测算法MuTect和 Strelka分别用来检测点突变和indels。b,比较TCGA鉴定的(黄色)与Polysolver鉴定的(黑色)不同肿瘤中HLA突变 (n=2545)。绿色:两种方法共同鉴定出的突变。c,用TCGA和Polysolver鉴定的HLA突变数量以及每种癌症所占百分比的比较。d,用 RNA-seq和long-read sequencing验证突变。基于RNA-seq的验证方法只用49个包含HLA点突变的样本(错义突变,无义突变,非终止突变,剪接位点突变)。 Long-read sequencing方法用来验证18个有DNA样本的HLA等位基因。

Figure 3. HLA突变在不同的癌症样本以及HLA的功能性结构域的分布情况。上图:功能丧失突变的分布情况,包括移码突变和无义突变事件。柱状图示意了每个位点的突 变次数。中间图:不同肿瘤样本HLA的突变分布模式。下图:突变次数≥5突变事件分布模式。膀胱(BLCA), 乳腺(BRCA), 宫颈鳞状细胞 (CESC), 结肠腺癌 (COAD), 头颈鳞状细胞(HNSC), 低级别胶质瘤(LGG), 肺腺癌(LUAD), 肺鳞状细胞(LUSC), 前列腺腺癌(PRAD), 直肠腺癌(READ), 黑色素瘤 (SKCM), 胃腺癌(STAD), 甲状腺 (THCA), 子宫内膜(UCEC)。

Figure 4.MHC I型突变的分布以及功能性选择的证据。a,HLA基因与非HLA基因突变图谱的比较。b,HLA基因突变在外显子上的分布.c, HLA中和(呈递的抗原)肽段直接接触位点的突变。左边:9个氨基酸的肽段和HLA以及TCR复合体的相对位置示意图;右边:肽段的9个氨基酸和HLA相 对位点接触的情形分布。(绿色,HLA锚定位点;蓝色,T细胞分子接触位点;)直方图代表对应位点的突变频率。d,MHC I型突变的肿瘤中(浸润的)杀伤性淋巴细胞的效应基因表达被上调。热图显示的是HLA突变组和非突变组肿瘤样本的中基因表达变化的比较。