
本发明涉及生物信息学中的数据挖掘领域,具体是涉及一种揭示乳腺癌免疫逃避调控机制的多源数据融合框架。
背景技术:
:精准医疗是一种新兴的癌症预防和治疗策略,它考虑到每个患者的遗传基础的个体变异性。借助下一代高通量测序技术,研究人员对全基因组突变的细节越来越熟悉,不同组学数据之间的整体关系也越来越系统化。对于精准医疗来说,了解肿瘤发生的免疫逃逸机制是非常有必要的,特别是当肿瘤的异质性显著影响免疫治疗的效果时。根据免疫相关基因识别乳腺癌的亚型,有助于了解不同亚型主导的免疫逃逸途径,从而针对不同亚型实施有效的治疗措施。肿瘤异质性是指单个肿瘤在不同肿瘤患者之间的分子和细胞差异(肿瘤间异质性),甚至单个患者不同肿瘤形成部位之间的差异(肿瘤内异质性)。然而,研究人员只知道肿瘤异质性的冰山一角,导致缺乏有针对性的精准医疗。乳腺癌在分子和细胞水平上也表现出异质性,这抑制了常规临床实践中诊断、预后或预测策略的效果。尽管之前有研究对tcga收集的乳腺癌样本进行了聚类,但仍然不清楚肿瘤细胞的大部分机制如何调节免疫基因的表达以逃避免疫细胞的杀伤.同时尽管tcga也采集癌症患者的非恶性邻近正常组织样本,但这类正常样本面临两个主要限制:匹配的正常样本数量太小,以及来自癌症患者的正常样本仍不能完全取代来自非癌症个体的真实正常组织样本。综上所述,现有的方法在研究肿瘤免疫逃逸机制上存在不足,同时各个数据库存在各自的缺陷,极少有对于乳腺癌细胞在多源数据情况下对癌细胞免疫逃逸调控机制开展研究技术实现要素:为了了解乳腺癌免疫逃逸的调控机制,我们提出了一种揭示乳腺癌免疫逃避调控机制的多源数据融合框架。本发明试图通过比较tcga和gtex的mrna数据,找出肿瘤组织中差异表达的免疫相关基因。为了找出免疫基因表达变化的原因,我们进行了cnv与mrna的相关性分析,并基于atac-seq数据分析了转录因子(tf)与免疫靶基因的关系。然后,利用通用数据库对tfs与免疫基因的关系进行了验证。进一步,所述双层基因调控网络的构建方法包括以下步骤:步骤一:使用nmf聚类算法对tcga乳腺癌样本进行亚群识别。需要注意的是,免疫相关基因被认为是聚类特征,因此不同的亚组可能有不同的免疫逃避途径。步骤二:为了避免从癌症患者采集的正常组织的数据偏差,我们将gtex正常数据与tcga乳腺癌样本的每一亚组进行比较,找出差异表达的免疫相关基因。步骤三:我们设计了一个基于atac-seq数据的调控分析算法来寻找免疫相关基因表达变化的调控因素。步骤四:我们分析了免疫相关基因表达对患者的生存是否会造成影响。进一步,所述步骤一具体包括:1)比较肿瘤组织和正常组织中候选免疫相关基因的差异。除了tcga的数据外,我们还额外收集了2171个候选免疫相关基因;2)解决基因表达定量、特定研究的偏倚和批量效应的消除等问题,为此我们下载了511个乳腺癌样本和212个正常样本进行下游分析;3)使用非负矩阵(nmf)因式分解对肿瘤样本进行分组。将2171个候选免疫相关基因对511个乳腺癌样本进行了聚类。进一步,所述步骤二我们使用了edger和deseq2技术进行比较。为了消除假阳性,我们将候选致病基因作为edger和deseq2的共识结果。我们使用斯皮尔曼相关性来检验cnv与候选致病基因的mrna之间的相关性。进一步,所述步骤三具体包括:1)所有位于基因tss位点20kb的峰都被认为是含有转录因子(tf)或阻遏蛋白(rp)的候选调节区2)目标基因有多个峰被映射,因此提出了一种多目标优化策略对所有峰进行排序。我们分别用距离,分值和斯皮尔曼相关系数,从不同的角度审视每一个高峰。斯皮尔曼相关系数计算公式如下:3)利用通用数据库对tf与免疫基因的关系进行验证。本发明提供了一个整合多源数据的分析框架,可以有效提升研究过程和研究结果的生物学意义。更重要的是,本发明的单样本规律分析方法可以更深入地探索肿瘤的异质性,对精准医疗实践具有重要意义。了解肿瘤的异质性(肿瘤间异质性或肿瘤内异质性)是精准医疗的重要基础。这是因为不同的亚型可能使用完全不同的免疫逃逸途径。如果使用相同的治疗方法,不仅可能没有效果,而且可能会产生副作用。本发明收集免疫相关基因,结合tcga病例样本和gtex正常样本,识别与乳腺癌不同亚群相关的特异性免疫基因。设计了评价靶基因附近峰重要性的多目标标准,提出了基于atac-seq数据定位调控免疫相关基因表达的tf或rp的调控分析算法。同时在单个样本水平上解释了靶基因表达的差异,表明本发明设计的框架可以为精准医疗服务。附图说明图1:多源数据融合框架主要流程图图2:190个峰与pvrl2的相关性图3:pvrl2的存活结果图4:cdh1的存活结果具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实验,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。下面结合附图对本发明的应用原理作详细的描述。如图1所示,本发明实施例提供的揭示乳腺癌免疫逃避调控机制的多源数据融合框架包括以下步骤:1)通过tcga提供的乳腺癌样本数据和免疫基因数据进行非负矩阵分解(nmf)来进行聚类从而获得乳腺癌数据中的亚群。2)将得到的亚群数据与从gtex中获得的正常样本数据进行分析,以获得两种样本之前不同的基因表达数据。3)将之前获得的不同基因表达数据与ucscxena以泛癌方式提供的tcga峰信号通过基于atac-seq的监管分析,通过分析数据来研究乳腺癌是通过何种方式达到免疫逃逸机制。下面对本发明的每一步应用原理作进一步的描述。1.使用nmf对乳腺癌样本进行聚类为了了解这些肿瘤细胞如何逃避免疫细胞的损伤,本发明收集了2171个候选免疫相关基因。同时下载已经完成统一比对、基因表达定量、研究特异性偏倚和批量效应消除的了511个乳腺癌样本和212个正常样本,将这些数据进行下游分析。为了研究肿瘤的异质性,本发明使用nmf根据候选免疫相关基因对乳腺癌样本进行了聚类。nmf的数学公式如下:x≈wh公式表示包含n个特征和p个样本的矩阵x的近似。其中x中的所有条目都是非负的。w和h的近似解的估计可视为如下公式中的最优化问题:其中第一分量用于测量近似的质量,即损失函数。为了避免过拟合,第二个分量使用正则化函数来确保矩阵w和h的稀疏性或光滑性。γ是用于平衡这两个分量的参数。2.亚型间分析差异表达基因由于不同的肿瘤亚型可能有不同的免疫逃逸途径。本发明将各亚型的免疫相关基因表达与gtex采集的正常样本进行了比较。为了消除假阳性,我们将候选致病基因作为edger和deseq2的共识结果。为了避免nk细胞的损伤,肿瘤细胞有两种可能的免疫抑制策略:一种是降低nk激活配体的表达,另一种是增加nk抑制配体的表达。分析得到的各亚型所有差异表达的nk配体基因如表1所示:表1:各亚型的差异表达基因表1第一列列出了edger和deseq2的共识得出的4个亚型的所有差异表达的nk配体基因。第二列分别列出了每个簇中的所有nk激活剂配体。第三列分别列出了每个簇中所有这些nk激活剂配体。第四列分别列出了每个簇中的所有这些nk抑制剂配体,由于在这种情况下没有发现显著低表达的基因,本发明使用‘-’符号来表示。第五列列出了每个簇中的所有nk抑制剂配体。可以从表中看到cdh1和pvrl2同时出现在所有簇中,这可能意味着它们在乳腺癌的免疫逃逸中起着非常重要的作用。3.cdh1和pvrl2上cnv与mrna的相关性分析使用斯皮尔曼相关系数来衡量配体基因本身cnv和mrna之间的关联强度。如果它们之间的相关性强,则可以解释mrna的变化是由cnv自身引起的,否则就意味着mrna的变化可能有其他的调节因素。斯皮尔曼相关性用于测量两个变量之间单调关系的强度。它的计算和显著性检验是基于两个假设:两个变量的数据是区间或比率水平或序数,且它们是单调相关的。斯皮尔曼相关系数的取值在[-1,+1],越接近+1,正相关越强;越接近-1,负相关越强。cdh1的cnv与mrna具有中等的斯皮尔曼相关系数(相关系数为0.54,调整后的p值为3.12e-05),但对于pvrl2,相关性很弱,因此肯定有其他因素调节pvrl2的基因表达。4.基于atac-seq的监管机制分析本发明进一步探索了是什么因素调节了pvrl2的表达变化。如图2所示,可以发现pvrl2周围大约有190个峰。使用我们的多目标峰选择标准,保留了三个候选峰(最正相关峰、最负相关峰和最接近的基因得分最高峰)用于下游分析。本发明匹配了5个常用的数据库,即jaspar、encode、chea、motifmap和transfac。验证结果如表2所示:表2:tf和pvrl2之间的验证相关性“√”表示对应的tf与pvrl2存在调控关系,“-”表示数据库不包含tf与pvrl2之间的对应调控关系。对于cdh1,也应用了相同的监管分析,结果如表3所示:表3:tf和cdh1之间的验证相关性tfjasparencodecheamotifmaptransfacar--√--gtf2l-----irf2-----nf1-----nfatc2-----xbp1-----yy1-√---“√”表示对应的tf与cdh1存在调控关系,“-”表示数据库不包含tf与pvrl2之间的对应调控关系。5.cdh1和pvrl2的存活分析如果本发明得到的cdh1和pvrl2对于肿瘤细胞避免免疫逃避信息是正确的,那么它们的表达应该会影响患者的生存。因此本发明同时描绘了cdh1和pvrl2的生存分析结果。如图3,4所示。在图4中,蓝线表示pvrl2的低表达,灰色线表示pvrl2的中度表达,红线表示pvrl2的高表达。p值为0.009,说明pvrl2对乳腺癌患者的生存质量有显著影响。对于cdh1,在图4中,深蓝色线条表示低表达,浅蓝色线条表示中度大量研究证实,肿瘤等复杂疾病的发生发展通常涉及环境、基因突变等多种因素的相互作用。然而,单一水平的组学数据很难系统和完整地揭示多种因素是如何相互作用的。同时,单源数据集通常受到样本总体、样本量和数据类型等因素的限制,导致统计能力不足,难以重复相关性研究。因此,本发明提供了一个整合多源数据的分析框架,可以有效提升研究过程和研究结果的生物学意义。更重要的是,本发明的单样本规律分析方法可以更深入地探索肿瘤的异质性,对精准医学实践具有重要意义。本发明收集免疫相关基因,结合tcga病例样本和gtex正常样本,识别与乳腺癌不同亚群相关的特异性免疫基因。设计了评价靶基因附近峰重要性的多目标准则,提出了基于atac-seq数据定位调控免疫相关基因表达的tf或rp的调控分析算法。在单个样本水平上解释了靶基因表达的差异,表明本发明设计的框架可以为精确医学服务。本发明使用统计学方法来判断目标基因在单个样本中的表达量是否高于其在正常样本中的表达量,然后以单样本的方式分析目标基因表达变化的具体原因。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。当前第1页12