一种利用生物信息学筛选疾病标志物的方法及其应用与流程

文档序号:29620568发布日期:2022-04-13 13:11阅读:461来源:国知局
一种利用生物信息学筛选疾病标志物的方法及其应用与流程

1.本发明涉及生物信息学技术领域,具体涉及一种利用生物信息学筛选疾病标志物的方法及其应用。


背景技术:

2.瘢痕疙瘩(keloids)是常见且难治的一种疾病,其在非洲人口中的发病率约为10%,在亚洲人口中的发病率为0.15%。瘢痕疙瘩通常发生在胸部、肩膀、耳廓、上臂和背部,特征是瘢痕疙瘩增生超过最初的损伤界限,形成不能自发消退的固体结节,这不仅影响皮肤的外观,还会引发疼痛、瘙痒、感染、感觉过敏,甚至导致功能障碍,长期溃烂还有恶变可能,严重影响患者生活质量。现在有越来越多的证据表明,瘢痕疙瘩的形成可能是多种系统或局部因素持续刺激伤口引起炎症,从而导致成纤维细胞过度增殖,阻碍瘢痕正常愈合。典型的瘢痕疙瘩的病理过程就是胶原纤维的增厚和玻璃化。手术切除和常规治疗后复发成为一个常见的挑战;随着基因组检测技术的不断发展,曾经被称为“暗物质”的长链非编码rna,现已被证实对基因组印迹、多能性调节和生物体发育至关重要。大量研究表明,lncrnas通过调节细胞增殖、侵袭和凋亡在纤维化疾病中发挥着重要作用。li等研究表明在纤维化疾病中lncrnas表达失调,表明其在纤维化重塑过程中存在差异表达。纤维化作为瘢痕疙瘩形成的主要机制。近年来,越来越多的学者发现长链非编码rna在参与瘢痕疙瘩的形成过程中起着重要作用,这就为瘢痕疙瘩的诊断,预防和治疗找到了另一个突破口。
3.lncrna是一类长度超过200个核苷酸,并且明显缺乏蛋白编码能力的rna分子。据报道,lncrna具有多种功能和相互作用,包括rna-rna碱基配对、rna-蛋白质和rna-dna相互作用。由于能够与dna、rna或蛋白质结合,lncrna已经被证明在肿瘤、皮肤病等疾病中起着重要的调控作用。目前研究认为,lncrna的形成方式有5种:(1)染色质重构的状态;(2)调控蛋白编码基因的变异;(3)lncrna内部产生重复序列而构成新的lncrna;(4)非编码基因在复制过程中发生移位;(5)基因中插入转座子。根据遗传学的观点,将lncrna可分为正义lncrna、反义lncrna、双向lncrna、内含子lncrna和基因组间lncrna 5种类型。越来越多的研究表明lncrna可能在细胞增殖、凋亡、分化和转移的调控中发挥着癌基因或抑癌基因作用。目前人们认识到lncrna在多种疾病中都存在异常表达,随着基因测序和染色质免疫沉淀等研究技术的不断快速发展,大量与瘢痕疙瘩有关的lncrna被筛选出来,但目前仅有部分lncrna被研究得较为清楚。
4.生物信息学分析,用于二代测序数据的突变检测,是通过一系列的生物信息分析,从上百万条乃至更多的dna短序列测序数据,检测出可能造成某些生物学表型(遗传病、肿瘤、药物代谢等)的相关突变。主要方法是通过计算机软硬件技术,对样本的测序获得的大量dna的碱基序列进行生物信息分析处理,从而得到与参考基因组不一致的位点以及这些位点的相关信息。
5.目前,通过生物信息学分析瘢痕疙瘩数据库的研究还没有。


技术实现要素:

6.本发明的一方面提供了一种利用生物信息学筛选疾病标志物的方法。
7.本发明另一方面提供了所述方法在瘢痕疙瘩标志物筛选中的应用。
8.为实现上述目的,本发明首先提供了一种利用生物信息学筛选疾病标志物的方法,具体步骤为:
9.(1)geo数据芯片获取,根据分类不同选择不同来源的芯片,所述芯片包括mrna和mirna芯片,所述芯片数量大于等于2;
10.(2)一级靶基因的获取与分析,利用在线分析软件geo2r对mrna基因进行分组分析,分为疾病组和正常人组,筛选一级靶基因;
11.(3)差异mirna的获取与分析,获得log2fc分值高的mirna,所筛选的差异mirna包括上调mirna不少于2个和下调mirna不少于2个;
12.(4)mirna调控基因预测,利用数据库targetscan、mirtarbase、mirwalk或mirdb联合对步骤(3)对筛选出的差异mirna进行调控基因预测,获得mirna的调控基因;
13.(5)mrna-mirna网络构建,将步骤(4)获得的mirna的调控基因再与步骤(2)的一级靶基因数据集取交集,得到二级靶基因;
14.(6)蛋白-蛋白互作网络分析,利用数据库string通过蛋白互作网络分析获得三级靶基因;
15.(7)对三级靶基因进行数据清洗,通过公开文献报道筛除已经被研究过的靶基因,或得清洗后的三级靶基因;
16.(8)通过疾病相关性预测获得最终新的疾病标志靶基因,利用ctd数据库(http://ctdbase.org/)查看三级靶基因在皮肤疾病中评分情况,并获得最终能够作为疾病诊断的疾病标志靶基因。
17.优选的,所述步骤(2)中筛选一级靶基因条件定位:p《0.05&|log2fc|》1时差异具有统计学意义。
18.本发明所述疾病包括结肠炎、炎性肠病、溃疡性结肠炎、克罗恩氏病、系统性红斑狼疮、骨质疏松、非酒精性脂肪肝、糖尿病、葡萄糖耐受不良、肥胖症、代谢综合征、移植物抗宿主疾病、多发性硬化症、类风湿性关节炎、青少年类风湿性关节炎、眼病、葡萄膜炎、皮肤疾病、肾脏疾病、血液疾病、、自身免疫性肝病、其它风湿病、内分泌疾病、脉管炎、硬皮病、crest、神经疾病、肺病、肌炎、耳病、重症肌无力、全身性红斑狼疮、特发性血小板减少性紫癜、硬皮病、混合型结缔组织疾病、腹腔疾病或任何其他免疫相关或免疫介导的障碍性疾病。
19.优选的,所述疾病为瘢痕疙瘩。
20.进一步地,本发明提供了上述方法在瘢痕疙瘩标志物筛选中的应用。
21.具体地,所述应用包括如下步骤:
22.(1)geo数据芯片获取,根据分类不同选择不同来源的芯片,所述芯片包括mrna和mirna芯片,所述芯片数量大于等于2;
23.(2)一级靶基因的获取与分析,利用在线分析软件geo2r对mrna基因进行分组分析,分为瘢痕疙瘩组和正常人组,筛选一级靶基因;
24.(3)差异mirna的获取与分析,获得log2fc分值高的mirna,所筛选的差异mirna包
括上调mirna不少于2个和下调mirna不少于2个;
25.(4)mirna调控基因预测,利用数据库targetscan、mirtarbase、mirwalk或mirdb联合对步骤(3)对筛选出的差异mirna进行调控基因预测,获得mirna的调控基因;
26.(5)mrna-mirna网络构建,将步骤(4)获得的mirna的调控基因再与步骤(2)的一级靶基因数据集取交集,得到二级靶基因;
27.(6)蛋白-蛋白互作网络分析,利用数据库string通过蛋白互作网络分析获得三级靶基因;
28.(7)对三级靶基因进行数据清洗,通过公开文献报道筛除已经被研究过的靶基因,或得清洗后的三级靶基因;
29.(8)通过疾病相关性预测获得最终新的疾病标志靶基因,利用ctd数据库(http://ctdbase.org/)查看三级靶基因在皮肤疾病中评分情况,并获得最终能够作为疾病诊断的瘢痕疙瘩标志靶基因。
30.优选的,所述应用筛选出的差异mirna为hsa-mir-1202(

),hsa-mir-6076(

),hsa-mir-3621(

),hsa-mir-3180-3p(

),筛选出的瘢痕疙瘩标志靶基因为extl1(

),nrg2(

),tfcp2l1(

),bnc2(

),且差异mirna与瘢痕疙瘩标志靶基因存在互作关系。
31.进一步地,所述应用还包括基因功能预测-利用harmonizome数据库和go分析进行功能验证的步骤。
32.更进一步地,本发明提供了一组瘢痕疙瘩标志物在制备治疗瘢痕疙瘩相关疾病药物中的应用,所述瘢痕疙瘩标志物包括hsa-mir-1202,hsa-mir-6076,hsa-mir-3621,hsa-mir-3180-3p,筛选出的瘢痕疙瘩标志靶基因为extl1,nrg2,tfcp2l1,bnc2,且所述差异mirna与瘢痕疙瘩标志靶基因存在互作关系。
33.有益效果
34.目前筛选疾病标志物的方法大部分都是各种高通量测序,成分较高,本发明通过生物信息学分析方法筛选到了与疫病相关的标志物,尤其与瘢痕疙瘩相关的基因和mrna,可信度非常高,为疾病基因水平的研究提供了重要的生物分析方法和靶标。
附图说明
35.图1瘢痕疙瘩共有差异基因筛选结果图,图1a为瘢痕疙瘩差异基因的火山图分析(灰色:上调;黑色:下调);图1b为韦恩图寻找共有差异基因;
36.图2 mirna靶基因预测及交集情况,图2a以hsa-mir-3621为例得到靶基因数据库预测出的全部靶基因,其余3个mirna同理分析,框中表示筛选出的共同靶基因;图2b为筛选数据集中下调差异基因与上调mirna预测出的靶基因取交情况;图2c为筛选数据集中上调差异基因与下调mirna预测出的靶基因取交情况;
37.图3 mrna-mirna网络构建图,中间圆心圆点代表上调或下调基因/mirna,周围散射状圆点代表其他相关基因;
38.图4差异基因在芯片中的表达情况,图4a,4b,4c,4d为下调mirna(hsa-mir-1202,hsa-6076)和上调mirna(hsa-mir-3621,hsa-mir-3180-3p)在mirna芯片中的表达情况;图4e-4p为6个上调/下调mrna在2个mrna芯片中的表达情况(*表示0.01<p<0.05,**表示0.001<p<0.01,***表示0.0001<p<0.001,****表示p<0.0001);
39.图5 ppi网络图,正三角代表锁定上调基因,倒三角箭头代表锁定下调基因;线段:粗细及颜色表示实验验证相关性,细线表示无实验验证,粗线表示有实验验证,线段越粗互作关系验证越强;
40.图6 ctd评分情况,灰色:相关皮肤疾病;黑色:瘢痕疙瘩。
具体实施方式
41.以下实施例用于说明本发明,但不用来限制本发明的范围。若未特别指明,实施例中所用的技术手段为本领域技术人员所熟知的常规手段。
42.一、分析方法
43.1.瘢痕疙瘩的geo数据芯片获取
44.利用基因表达数据库geo(https://www.ncbi.nlm.nih.gov/gds/)筛选与瘢痕疙瘩相关的geo数据,将keloids输入检索框,共得到196个geo数据,根据分类(attribute name)选择来源组织的芯片进一步筛选到3个可联合分析的数据:mrna(gse92566、gse83286)、mirna(gse113620),样本均来自于受试者的皮肤组织,组别设置均是keloids vs对照组control。gse92566包含正常组3个样本,瘢痕疙瘩4个样本;gse83286包含正常组3个样本,瘢痕疙瘩3个样本;gse113620包含正常组11个样本,瘢痕疙瘩16个样本。
45.2.一级靶基因的获取与分析
46.利用在线分析软件geo2r对基因进行分组分析,分为瘢痕疙瘩组和正常人组。将2个mrna芯片数据(gse92566、gse83286)设置p值和差异倍数(fold change,fc)进行差异基因的筛选。认为当p《0.05&|log2fc|》1时差异具有统计学意义。利用venny(https://bioinfogp.cnb.csic.es/tools/venny/index.html)在线制作韦恩图。利用rstudio软件制作火山图。
47.3.差异mirna的获取与分析
48.将mirna芯片数据(gse113620)在p《0.05的筛选条件下,上下调mirna按照log2fc由高到低排序,选取差异倍数高的上下调mirna各两个,上调即hsa-mir-3621和hsa-mir-3180-3p,下调即hsa-mir-6076和hsa-mir-1202。
49.4.mirna调控基因预测
50.利用4个数据库(targetscan、mirtarbase、mirwalk、mirdb)对筛选出的4个mirna进行mirna调控基因预测。
51.targetscan:http://www.targetscan.org/vert_72/
52.mirtarbase:http://mirtarbase.mbc.nctu.edu.tw/php/index.php
53.mirwalk:http://zmf.umm.uni-heidelberg.de/apps/zmf/mirwalk2/
54.mirdb:http://mirdb.org/
55.5.mrna-mirna网络构建
56.将mirna调控基因再与一级靶基因数据集取交集,得到最终确定的二级靶基因。将这些二级靶基因与所对应的mirna利用cytoscape软件制作网络构建图。
57.6.蛋白-蛋白互作网络分析
58.将mrna-mirna网络中的共有差异基因利用string数据库(https://version11.string-db.org/cgi/input.pl?sessionid=s5stof3exwna&input_page_show_
search=on)进行蛋白质-蛋白质相互作用分析。
59.7.基因与疾病相关性预测
60.将最终靶基因利用ctd数据库(http://ctdbase.org/)查看基因在皮肤疾病中评分情况。
61.二、分析结果
62.1.瘢痕疙瘩差异一级靶基因筛选结果
63.在p《0.05&|log2fc|》1的筛选条件下,gse92566共筛选到2612个基因,其中上调基因1075个,下调基因1539个;gse83286共筛选到2342个基因,其中上调基因1285个,下调基因1058个;在2个mrna芯片中筛选到共有差异基因847个,其中共有上调基因500个,共有下调基因347个,这些共有差异基因作为一级靶基因。图1展示了瘢痕疙瘩共有差异基因筛选的火山图及韦恩图。其中图1a为瘢痕疙瘩差异基因的火山图分析(右边灰色up:上调;左边给色down:下调);图1b为韦恩图寻找共有差异基因,两个数据库中都上调的有500个基因,都下调的有347个基因。
64.2.终极靶基因预测结果
65.利用4个数据库(targetscan、mirtarbase、mirwalk、mirdb)对4个mirna进行mirna调控基因预测,选取≥2个数据库共有的调控基因,再与mrna芯片筛选到的共有差异一级靶基因取交集(上调mirna与mrna芯片筛选到的下调基因取交集,下调mirna同理相反),最终得到hsa-mir-3621靶向调控12个mrna,hsa-mir-3180-3p靶向调控14个mrna,hsa-mir-6076靶向调控20个mrna,hsa-mir-1202靶向调控39个mrna,这些mrna作为二级靶基因。图2mirna调控基因预测及交集情况,图2a以hsa-mir-3621为例得到调控基因数据库预测出的全部调控基因,其余3个mirna同理分析,框中表示筛选出的共同调控基因;图2b为筛选数据集中下调差异基因与上调mirna预测出的调控基因取交情况;图2c为筛选数据集中上调差异基因与下调mirna预测出的调控基因取交情况。
66.3.mrna-mirna网络构建结果
67.将调控基因预测最后得到的调控基因以及所对应的mirna利用cytoscape软件作网络构建图,2个上调mirna得到3个共同调控的下调mrna(nrg2、extl1、tfcp2l1),2个下调mirna得到3个共同调控的上调mrna(bnc2、slc24a2、tmem2),其中tmem2查到与瘢痕疙瘩有相关文献报道咱不做考虑(或作为对照考虑),将这5个基因作为后续锁定三级靶基因。图3mrna-mirna网络构建图,中间圆心圆点代表上调或下调基因/mirna,周围散射状圆点代表其他相关基因。
68.4.差异基因在芯片中的表达情况
69.三级靶基因与mirna在geo筛选数据集中的表达情况如图4所示。图4a,4b,4c,4d为下调mirna(hsa-mir-1202,hsa-6076)和上调mirna(hsa-mir-3621,hsa-mir-3180-3p)在mirna芯片中的表达情况;图4e-4p为6个上调/下调mrna在2个mrna芯片中的表达情况(*表示0.01<p<0.05,**表示0.001<p<0.01,***表示0.0001<p<0.001,****表示p<0.0001)。
70.5.ppi网络构建
71.将mrna-mirna网络中所有基因利用string数据库进行蛋白质-蛋白质相互作用分析,得到如图5所示的网络图,发现6个三级靶基因对应的蛋白均与其他蛋白有互作关系。图
5ppi网络图中,正三角代表上调三级靶基因,倒三角箭头代表下调三级靶基因;线段:粗细及颜色表示实验验证相关性,细线表示无实验验证,粗线表示有实验验证,线段越粗互作关系验证越强。
72.6.基因与疾病相关性预测情况
73.根据瘢痕疙瘩(皮肤活检组织、组别设置:keloids vs normal),共锁定5个新的差异表达三级靶基因:extl1(

),nrg2(

),tfcp2l1(

),bnc2(

),slc24a2(

);锁定相关mirna共4个:hsa-mir-1202(

),hsa-mir-6076(

),hsa-mir-3621(

),hsa-mir-3180-3p(

)。
74.三级靶基因extl1、nrg2、tfcp2l1、bnc2、slc24a2在皮肤疾病中评分情况。ctd评分情况如图6所示,灰色:相关皮肤疾病;黑色:瘢痕疙瘩,选项中用局部性硬皮症替代,extl1与瘢痕疙瘩相关性评分为8.15,nrg2与瘢痕疙瘩相关性评分为14.7,tfcp2l1与瘢痕疙瘩相关性评分为13.27,bnc2与瘢痕疙瘩相关性评分为13.41,slc24a2与瘢痕疙瘩相关性评分为2.88。最后选定extl1、nrg2、tfcp2l1、bnc2共4个新的最终靶基因作为与瘢痕疙瘩相关靶基因,选定hsa-mir-1202(

),hsa-mir-6076(

),hsa-mir-3621(

),hsa-mir-3180-3p(

),共4个mirna为与上述4个最终靶基因互作的mirna。
75.从数据分析结果看,通过本发明生物信息学分析方法筛选到的与瘢痕疙瘩相关的基因可信度非常高,为瘢痕疙瘩基因水平的研究提供了重要的生物靶点。
76.7、基因功能预测-利用harmonizome数据库和go分析进行功能验证
77.(1)extl1(外泌素类似糖基转移酶1),是一种蛋白质编码基因。与extl1相关的疾病包括遗传性多发性外生骨疣和外生骨疣。其相关途径包括代谢和硫酸乙酰肝素的生物合成。go分析该基因包括转移酶活性,转移己糖基和葡萄糖醛糖基-n-乙酰氨基葡萄糖基-蛋白聚糖4-α-n-乙酰氨基葡萄糖基转移酶的活性。
78.(2)nrg2(神经调节蛋白2),该基因编码神经调节蛋白家族的生长和分化因子的新成员。通过与erbb受体家族的相互作用,该蛋白可诱导上皮,神经元,神经胶质和其他类型细胞的生长和分化。该基因由12个外显子组成,其基因组结构与神经调节蛋白1的配体相似。这些基因的产物通过作用于组织中的不同部位并在细胞中引发不同的生物学反应来介导不同的生物学过程。该基因位于使charcot-marie-tooth疾病位点脱髓鞘的区域附近,但与该疾病无关。go分析该基因包括信号受体结合和生长因子活性。
79.(3)tfcp2l1(转录因子cp2类似1),是一种蛋白质编码基因。与tfcp2l1相关的疾病包括fraser综合征1和甲状腺变性癌。go分析该基因包括dna结合转录因子活性和转录corepressor活性、促进上皮细胞成熟。
80.(4)bnc2该基因编码保守的锌指蛋白,编码的蛋白质在肤色饱和度中起作用,皮肤角质形成细胞特异的可能转录因子。该基因的突变与面部色素斑有关。该基因还与青少年特发性脊柱侧凸的易感性有关,与bnc2相关的疾病还包括下尿路梗阻,先天性和尿路梗阻。go分析该基因与软骨内骨生长和间质发展有关。
81.总结分析这四个基因的功能可知,通过生物信息学筛选的这些基因都与皮肤病或者细胞分化有关,所以本发明的方法是可行有效的。
82.虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1