基于基因表达和药物靶标的药物活性预测与筛选方法
【专利摘要】本发明公开了一种基于基因表达和药物靶标的药物活性预测与筛选方法,包括以下步骤:1)根据药物靶标数据库中的信息,获取待测药物对应的靶基因;获取病人的疾病组织的基因表达数据以及相应对照数据,通过系统生物学的方法计算评价基因的重要性,得出在该病人发病过程中的重要基因列表;2)通过统计分析查看步骤1)中得到的待测药物的靶基因是否靶向了该病人发病过程中的重要基因列表来预测该待测药物对于该病人的活性,筛选适合该病人的药物。本发明的方法易于使用、效率高、适用范围广,本发明的预测方法可以用于筛选针对特定病人个体的适合药物,从而为该病人提供个性化的治疗方案。
【专利说明】
基于基因表达和药物靶标的药物活性预测与筛选方法
技术领域
[0001]本发明涉及生物医药技术领域,尤其涉及一种基于基因表达和药物靶标数据、针对某个病人个体进行药物活性预测与药物筛选的方法。
【背景技术】
[0002]精准医疗(Precis1n Medicine)是指利用基因组、转录组、蛋白组等高通量生物数据,通过生物信息学等技术手段来对一种疾病不同状态和过程进行精确分类,最终实现对于疾病和特定患者进行个性化精准治疗,从而提高疾病诊治与预防的效益(可参见:Collins F S,Varmus H.A new initiative on precis1n medicine[J].N Engl J Med,2015,372(9):793-795.)的概念与医疗模式。对于癌症等复杂疾病,精准化医疗具有重要的意义(可参见:Friedman A A,Letai A,Fisher D E , et al.Precis1n medicine forcancer with next-generat1n funct1nal diagnostics[J].Nature Reviews Cancer,2015,15(12): 747-756.),而预测某种药物或某种组合药物对病人的药效是精准化医疗中的重要课题(可参见:Dittmer J , Leyh B.The impact of tumor stroma on drugresponse in breast cancer[J].Seminars In Cancer B1logy,2015,31:3-15.;Petrillo M,Zannoni G F,Beltrame L,et al.1dentificat1n of high-grade serousovarian cancer miRNA species associated with survival and drug response inpatients receiving neoadjuvant chemotherapy:a retrospective longitudinalanalysis using matched tumor b1psies[J].Annals Of Oncology,2016,27(4):625-634.)。
[0003]目前的方法主要从生物医学大数据出发,以遗传学为基础,建立疾病人群的基因型-表型关联(可参见:Low S K , Takahashi A ,Mushiroda T , et al.Genome-wideassociat1n study: a useful tool to identify common genetic variantsassociated with drug toxicity and efficacy in cancer pharmacogenomics[J]? Clinical Cancer Research,2014,20( 10): 2541-2552.),然后根据基因型进行有针对性的治疗。该思路有两个潜在的困难:1、由于疾病对应基因型的外显率(penetrance)不清楚,因此所建立的基因型-表型关联在应用于患者个体时效果不能保证,发现的关联通常不具有临床应用价值(可参见:AK M, JP I, IS K.Cl inical Genomics: From PathogenicityClaims to Quantitative Risk Estimates[J].JAMA,2016.) ;2、米用的各种遗传学推断大都基于统计学和有限的样本,因此只能揭示表面的基因型-表型关联,缺乏对疾病机制的解释,据此建立的预测模型推广性不强。如果考虑到除了 DNA的突变,病人还存在表观修饰等方面的个体差异,目前基于遗传学的个体化医疗策略将更难实施(可参见:Manrai A K,1annidis J P,Kohane I S.Clinical Genomics: From Pathogenicity Claims toQuantitative Risk Estimates[J].JAMA,2016,315(12):1233-1234.)0
[0004]众所周知,基因表达谱数据携带了个体间基因型、表观修饰等各方面的差异,而且与表型的距离比较近,因此我们认为从表达谱出发可能更有利于开展个性化治疗。也有学者通过对某个药物响应的病人的基因表达数据以及未响应的病人的基因表达数据进行差异表达分析,将差异表达基因作为特征,建立分类器模型来预测某个病人对特定药物是否口向应(可参见:Hatzis C1Pusztai L,Valero V,et al.A genomic predictor of responseand survival following taxane-anthracycline chemotherapy for invasive breastcancer[J].JAMA, 2011,305(18): 1873-1881.)。这类方法取得了一定的效果,显示了基因表达数据在预测病人对特定药物的药效方面的潜能。但是这种方法需要对每种疾病建立一个预测模型,而每种模型的构建都需要大量的基因表达数据集,这大大影响了这类方法的实用价值。同时,由于癌症等复杂疾病存在着高度的异质性(可参见:Burrell R A,McGranahan N,Bartek J,et al.The causes and consequences of geneticheterogeneity in cancer evolut1n[J].Nature,2013,501(7467):338-345.),这种完全数据驱动、没有考虑疾病背后的生物机制的方法存在着过拟合现象。
【发明内容】
[0005]本发明的目的在于克服现有技术存在的不足之处而提供了基于基因表达谱和药物靶标的药物活性预测及筛选方法,进而实现病人的个性化治疗。本发明的方法具有易于实现、效率高、适用范围广等优点,在精准化医疗中的病人对特定药物的药效预测,以及特定病人的药物筛选方面具有广阔的应用前景。
[0006]本发明采用的技术方案为:一种基于基因表达和药物靶标的药物活性预测与筛选方法,包括以下步骤:
[0007]I)根据药物靶标数据库中的信息,获取待测药物对应的靶基因;
[0008]获取病人的疾病组织的基因表达数据以及相应对照数据,通过系统生物学的方法计算评价基因的重要性,得出在该病人发病过程中的重要基因列表;
[0009]2)通过统计分析查看步骤I)中得到的待测药物的靶基因是否靶向了该病人发病过程中的重要基因列表来预测该待测药物对于该病人的活性,筛选适合该病人的药物。
[0010]在本发明中,待测药物可为单一药物,也可为组合药物。当待测药物为单一药物时,所述靶基因即为此药物对应的靶基因;当待测药物为组合药物时,所述靶基因为组合药物中每种药物对应的靶基因的并集。
[0011 ]作为对上述技术方案的进一步改进,所述步骤I)中,通过fold-change的绝对值来计算评价基因的重要性。
[0012]作为对上述技术方案的进一步改进,所述步骤I)中的药物靶标数据库为DGIdb(Drug-Gene Interact1n database)、TTD(Therapeutic target database)和Drugbank中的至少一种。
[0013]作为对上述技术方案的更进一步改进,所述待测药物的靶基因为DGIdb、TTD和Drugbank三个数据库数据的靶基因数据的并集。
[0014]作为对上述技术方案的进一步改进,所述步骤2)中,统计分析是指富集分析,通过分析步骤I)中得到的待测药物的靶基因是否富集于该病人发病过程中的重要基因列表来确定其是否靶向了该病人发病过程中的重要基因列表。
[0015]作为对上述技术方案的更进一步改进,所述富集分析使用的富集分析模型为Ko Imogorov-Smirnov 检验。
[0016]作为对上述技术方案的进一步改进,所述基因表达数据通过基因表达量分析方法获得,所述基因表达量分析方法包括基因芯片、RNA-Seq中的至少一种。
[0017]作为对上述技术方案的进一步改进,所述对照数据为正常组织的基因表达数据。本发明的正常组织是相对于疾病组织而言的,正常组织包括疾病组织旁的正常组织以及其他正常组织;其中,疾病组织旁的正常组织可为完全正常、无病理形态变化的组织,也可为呈现病理形态变化的正常组织,例如,当所述疾病组织为癌变组织,所述对照数据可为癌旁正常组织或正常组织的基因表达数据。
[0018]本发明还提供了所述的基于基因表达谱和药物靶标的药物活性预测与筛选方法在个性化药物和/或药物组合筛选、个性化用药中的应用。
[0019 ]相对于现有技术,本发明的有益效果为:
[0020]本发明提供的基于基因表达和药物靶标的药物活性预测与筛选方法可预测药物对病人的药效,该方法易于使用、效率高、适用范围广;本发明的方法可以用于筛选针对病人个体的适合药物(包含药物组合),从而为该病人提供个性化的治疗方案。本发明在精准医疗领域具有广阔的应用前景。
【附图说明】
[0021]图1为本发明基于基因表达和药物靶标的药物活性预测与筛选方法的一个实施例的流程图;
[0022]图2为本发明实施例1?3中基于基因表达和药物靶标的药物活性预测与筛选方法的验证流程图;
[0023]图3为本发明的实施例1中的生存分析图,该生存分析是对使用本发明的方法预测的两组卵巢癌病人(按照是否正确使用药物分成两组)的生存时间的统计分析;
[0024]图4为本发明的实施例2中的生存分析图,该生存分析是对使用本发明的方法预测的两组多形性成胶质细胞瘤病人(按照是否正确使用药物分成两组)的生存时间的统计分析。
【具体实施方式】
[0025]药物治疗的本质是药物(小分子)与致病因子(靶标)相互作用,从而调控疾病相关基因的表达。我们由此提出一种基于病人的基因表达谱和药物靶标数据(Vivian L1CraigK,Yannick D,et al.DrugBank 4.0: shedding new light on drug metabolism[J].Nucleic Acids Research,2014,42(Database issue):1091-1097.;
[0026]Griffith MjGriffith 0 LjCoffman A C,et al.DGIdb:mining the druggablegenome[J].Nature Methods,2013,10(12):1209-1210.;Yang H,Qin C, Li Y Hj etal.Therapeutic target database update 2016: enriched resource for bench toclinical drug target and targeted pathway informat1n[J].Nucleic AcidsResearch,2015:gkvl230.)的药物活性预测与药物筛选方法该方法通过分析药物的革巴基因(或组合药物的靶基因集合)是否靶向了病人的基因表达数据中的差异表达基因来预测(组合)药物活性,确定合适的治疗药物。该方法的特点是从药物作用的基本原理出发,利用了表达谱中蕴含的个性化信息,不基于任何遗传学模型,从而实现了理性的个性化治疗,具有很好的推广性。
[0027]图1为本发明基于基因表达和药物靶标的药物活性预测与筛选方法的一个实施例的流程图,本发明基于基因表达和药物靶标的药物活性预测与筛选方法,包括以下步骤:
[0028]S1、根据药物靶标数据库中的信息,获取待测药物对应的靶基因;
[0029]其中,待测药物可为单一药物或组合药物,当待测药物为单一药物时,所述靶基因即为此药物对应的靶基因;当待测药物为组合药物时,所述靶基因为组合药物中每种药物对应的靶基因的并集。
[0030]药物靶标数据库为DGIdb、TTD和Drugbank中的至少一种;优选地,所述待测药物的靶基因为DGIdb、TTD和Drugbank三个数据库数据的靶基因数据的并集,这样可使得预测结果更为准确。
[0031]S2、获取病人的疾病组织的基因表达数据以及相应对照数据,通过系统生物学的方法计算评价基因的重要性,得出在该病人发病过程中的重要基因列表;
[0032]其中,病人是指患某种疾病的特定病人个体;对照数据是指疾病组织相应的正常组织的基因表达数据;在本发明的一个实施例中,所述疾病组织为癌变组织,所述对照数据为癌旁组织或正常组织的基因表达数据,因为癌旁组织与癌症组织具有相似的肿瘤微环境,所以更优选为癌旁组织的基因表达数据。
[0033]所使用的基因表达数据是病人的疾病组织的基因表达数据和相应的对照数据(在癌症病人中,优选为癌症组织的基因表达数据和癌旁组织的基因表达谱数据(作为对照数据))。基因表达数据反映的是直接或间接测量得到的基因转录产物mRNA在细胞中的丰度,这些数据可以用于分析哪些基因的表达发生了改变,基因之间有何相关性,在不同条件下基因的活动是如何受影响的。因此可以通过病人的疾病组织的全基因组的基因表达数据和相应对照数据,计算每个基因的差异表达。
[0034]基因表达数据通过基因表达量分析方法获得,所述基因表达量分析方法包括基因芯片、RNA-Seq中的至少一种。在本发明的优选实施例中,基因表达数据包括通过基因芯片和RNA-Seq获取的基因表达数据。在本发明的优选实施例中,获取每个病人发病过程中的重要基因列表的方法如下:根据每个病人的疾病组织的基因表达数据和相应对照数据,计算每个基因的f ο I d-change值,按照基因的f ο I d-change值的绝对值排序(降序),则该序列中排在越前面的基因的重要性可能越大。通常,对每个病人的药物药效预测过程中使用的重要基因列表不一样。
[0035]S3、通过统计分析查看步骤SI中得到的待测药物的靶基因是否靶向了该病人发病过程中的重要基因列表来预测该待测药物对于该病人的活性,筛选适合该病人的药物。
[0036]其中,统计分析是指富集分析,通过分析SI中得到的待测药物的靶基因是否富集于该病人发病过程中的重要基因列表来确定其是否靶向了该病人发病过程中的重要基因列表;如果某种药物的靶基因富集于特定病人发病过程中的关键基因列表,则这种药物就是适合该病人的药物,特别地,当药物为组合药物时,如果此组合药物的靶基因集合(也即这几种药物的靶基因数据的并集)富集于特定病人发病过程中的关键基因列表,则这几种药物就是适合该病人的组合药物。
[0037]所述的药物靶基因富集分析的思路是对于某种药物或组合药物,如果该种药物或组合药物的靶基因主要分布于病人中的重要基因列表的上部(重要基因集合),那么就认为该种药物或组合药物对此病人具有较好的疗效。具体的方法是使用Kolmogoro v-Smirno V检验,该统计能够统计一个集合中的元素是否显著地分布于一个序列中的上部或者下部。在本发明中,最上部分的基因列表是最重要的基因,因此我们使用该统计查看(组合)药物的靶基因是否显著地分布于病人的关键基因列表的最上部分。这样,根据步骤SI得到的药物靶基因数据集,以及步骤S2得到的病人发病过程中的关键基因列表(也即重要基因列表),我们采用步骤S3中的富集分析就可以查看药物的靶基因是否主要靶向病人发病过程中的重要基因,从而预测药物对于该病人是否具有药效。对于Kolmogorov-Smirnov检验,如果该检验的p-value〈0.05,就认为该药物对于此病人是合适的药物,具有活性和疗效。药物对某个病人的药效预测模型的构建过程中没有使用类标签,没有训练过程。
[0038]本发明整合使用了基因表达数据(包含通过基因芯片和RNA-Seq等基因表达量分析方法获得的基因表达数据)和药物靶标信息,综合使用了一个或多个目标药物对应的多个靶基因的差异表达数据。在本发明中,利用药物靶基因信息和该病人的关键基因信息不仅可以预测某种药物或某些药物的组合(即组合药物)对该病人的药效,还可以筛选最适合该病人的药物(组合),包括目前没有使用在该疾病中的药物,因而本发明的方法不仅可以预测某个病人对特定(组合)药物的药效,还可以实现(组合)药物筛选,甚至是老药新用。同时,本发明还可以通过分析药物组合的靶基因(比如两种药物的靶基因的并集)是否正确靶向病人的差异表达基因来预测组合药物对于特定病人的药效,实现组合药物的筛选。
[0039]对于任何疾病的病人,只要能够获取其基因表达数据和相应对照数据,就可以筛选出适合该病人的(组合)药物,因而我们的方法易于实现、效率高,可以广泛地应用于(组合)药物对特定病人的药效预测。
[0040]为更好地说明本发明的目的、技术方案和优点,下面将结合附图和具体实施例对本发明作进一步说明。
[0041]实施例中,所使用的实验方法如无特殊说明,均为常规方法,所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
[0042]实施例1
[0043]使用本发明方法对卵巢癌病人进行药物活性预测
[0044]—、收集人类成功上市或者在研药物及其革巴标
[0045]查找药物革E标数据库(包含DGIdb:http: //dgidb.genome.wustl.edu/、DrugBank:http://www.drugbank.ca/和TTD:http://bidd.nus.edu.Sg/group/ttd/ttd.asp),得到数据库中所包含的所有药物以及其对应的靶标数据。
[0046]二、收集卵巢癌病人样本的基因表达数据和临床数据
[0047]从TCGA(The Cancer Genome Atlas)下载卵巢癌(OV)病人和对照样本的基因表达数据(AgilentG4502A芯片的level 3数据)、病人的预后跟踪数据(死亡时间、死亡状态)以及病人的用药信息。剔除用药信息缺乏(或药物靶标不明)和预后信息缺失的样本,共得到499个癌症病人和10个正常卵巢组织样本的基因表达数据,这499个病人的预后跟踪信息以及用药信息(1982组用药信息)。
[0048]三、计算病人发病过程中的关键基因列表
[0049]对每个癌症病人,基于其基因表达数据和对照数据(本实施例以10个正常组织的基因表达数据的均值作为对照样本的基因表达数据,实际应用时的优选为每个癌症病人的癌旁组织的基因表达数据作为对照),计算每个基因的fold-change值,然后按照fold-change 绝对值的大小将基因进行排序 (降序 )。根据排序后的基因序列就可以得到该病人在发病过程中的重要基因列表,排名越靠前的基因越重要。
[0050]四、对每个病人的药物药效预测
[0051]对于每个病人,从步骤二中查看其使用了哪些药物,而对于每种药物,我们从步骤一中搜索其革G基因,将该药物的所有革El基因构成一个革El基因集合。通过KolmogoroV-Smirnov检验来查看该药物的靶基因是否显著地分布在步骤三得到的基因列表的靠前部分,也就是查看该药物的靶基因是否靶向了该病人发病过程中的那些最重要的基因。如果该统计的p-value〈0.05,就认为该药物对于此病人是合适的药物,具有疗效。
[0052]五、预测性能评估
[0053]对本实施例中的499个卵巢癌病人,如果其使用的药物中至少存在一个药物对其具有药效,那么就认为该病人接受了正确的药物治疗,将该病人划分为正确治疗组,否则将其划分为错误治疗组。根据这两组病人的预后信息(死亡时间、死亡状态)对这两组病人进行生存分析,查看正确治疗组是否比错误治疗组具有更长的生存时间。如果正确治疗组显著地比错误治疗组具有更长的生存时间,那么就可以证实我们的药物药效预测方法的正确性。
[0054]在这499个病人中,根据我们的预测方法,一共有129个病人接受了正确的药物治疗,370个病人接受了错误的治疗。对这两组病人进行生存分析显示它们的风险比(HazardRat1)为1.46(95%置信区间为1.08到1.97),其Log-rank test的p-value为0.0074,这显示了我们的预测方法的有效性。实施例1中得到的两组病人的生存曲线见附图2.为了进一步验证我们的方法的有效性,我们随机打乱该实施例中的病人与药物关系,然后根据本发明所述方法重新对病人进行划分,并计算新划分的两组病人的风险比和Log-rank test的p-value,重复该过程1000次,发现在置换检验中没有结果比真实数据中的划分好(风险比大于1.00且p_value〈0.0074),显示置换检验的p_value = 0o
[0055]实施例2
[0056]使用本发明方法预测多形性成胶质细胞瘤病人的药物活性
[0057]本实施例步骤一同实施例1,其他步骤如下:
[0058]二、收集多形性成胶质细胞瘤病人样本的基因表达数据和临床数据
[0059]从TCGA(The Cancer Genome Atlas)下载多形性成胶质细胞瘤病人(GBM)和对照样本的基因表达数据(AgilentG4502A芯片的level 3数据)、病人的预后跟踪数据(死亡时间、死亡状态)以及病人的用药信息。剔除用药信息缺乏(或药物靶标不明)和预后信息缺失的样本,共得到193个癌症病人和10个相应正常组织样本的基因表达数据、这193个病人的预后跟踪信息以及用药信息(445组用药信息)。
[0060]三、计算病人发病过程中的关键基因列表
[0061]对每个癌症病人,基于其基因表达数据和对照数据(本实施例以10个正常组织的基因表达数据的均值作为对照样本的基因表达数据,实际应用时的优选为每个癌症病人的癌旁组织的基因表达数据作为对照),计算每个基因的fold-change值,然后按照fold-change 绝对值的大小将基因进行排序 (降序 )。根据排序后的基因序列就可以得到该病人在发病过程中的重要基因列表,排名越靠前的基因越重要。
[0062]四、对每个病人的药物药效预测
[0063]对于每个病人,从步骤二中查看其使用了哪些药物,而对于每种药物,我们从步骤一中搜索其靶基因,将该药物的所有靶基因构成一个靶基因集合。然后通过Kolmogorov-Smirnov检验来查看该药物的靶基因是否显著地分布在步骤三得到的基因列表的靠前部分,也就是查看该药物的靶基因是否靶向了该病人发病过程中的那些最重要的基因。如果该统计的p-value〈0.05,就认为该药物对于此病人是合适的药物,具有疗效。
[0064]五、预测性能评估
[0065]对本实施例中所涉及的193个患有多形性成胶质细胞瘤的病人,如果其使用的药物中至少存在一个药物对其具有药效,那么就认为该病人接受了正确的药物治疗,将其划分为正确治疗组,否则将其划分为错误治疗组。根据这两组病人的预后信息(死亡时间、死亡状态)对这两组病人进行生存分析,查看正确治疗组是否比错误治疗组具有更长的生存时间。如果正确治疗组显著地比错误治疗组具有更长的生存时间,那么就可以证实我们的药物药效预测方法的正确性。
[0066]在这193个病人中,一共有45个病人接受了正确的药物治疗,148个病人接受了错误的治疗。对这两组病人的进行生存分析显示它们的风险比(Hazard Rat1)为1.49(95%置信区间为1.00到2.22),其Log-rank test的p-value为0.026,这显示了我们的预测方法的有效性。实施例2中得到的两组病人的生存曲线见附图3.为了进一步验证我们的方法的有效性,我们随机打乱该实施例数据中的病人与药物关系,然后根据本发明所述方法重新对病人进行划分,并计算新划分的两组病人的风险比和Log-rank test的p-value,重复该过程1000次,发现在置换检验中仅有25次结果比真实数据中的划分好(风险比大于1.00且p-value<0.026),显示置换检验的p-value = 0.025。
[0067]实施例3
[0068]使用本发明方法对乳腺癌病人进行组合药物活性预测
[0069]—、本实施例所使用的药物靶标数据库同实施例1和实施例2,对组合药物,其靶标为这几种药物的靶标数据的并集,其他步骤如下:
[0070]二、从NCBI GEO上下载MDAl和MDA/MAQC-1I这两个乳腺癌数据集。该数据集包含这些病人的基因表达数据(278个乳腺癌病人的GPL96芯片数据)以及后续接受了T-FAC(pacIitaxeI,f IuorouraciI,doxorubicin和cyIclophosphamide)治疗后的口向应状况信息。从NCBI GEO下载GSE9574数据集,该数据中包含正常乳腺组织的基因芯片数据(GPL96芯片)。首先将乳腺癌病人和对照数据的基因芯片探针数据匹配到基因ID,处理得到以基因ID为基本单位的基因表达数据。因为乳腺癌病人和对照数据来自不同的数据源,将每个样本的芯片数据标准化以作下一步处理。
[0071]三、计算病人发病过程中的关键基因列表
[0072]对每个癌症病人,基于其基因表达数据和对照数据(本实施例以正常组织的基因表达数据的均值作为对照样本的基因表达数据),计算每个基因的fold-change值,然后按照fold-change绝对值的大小将基因进行排序(降序)。根据排序后的基因序列就可以得到该病人在发病过程中的重要基因列表,排名越靠前的基因越重要。
[0073]四、对每个病人的药物药效预测
[0074]因为该数据集的病人均接受了T-FAC治疗,通过步骤一得到这四种药物的靶基因集合(94个药物革El基因)。然后通过Kolmogorov-Smirnov检验来查看该革El基因集合是否显著地分布在步骤三得到的基因列表的靠前部分,也就是查看该组合药物的靶基因是否靶向了该病人发病过程中的那些最重要的基因。如果该统计的p-value〈0.05,就认为该病人接受了合适的治疗。
[0075]五、预测性能评估
[0076]对本实施例中所涉及的278个病人,按照本发明所述的方法预测,一共137个病人接受了正确的治疗,141个病人接受了错误的治疗。而这些病人中,共有56个病人接受了T-FAC治疗后有响应,剩余的222个病人没有响应。
[0077]为了评估本发明对组合药物的活性的预测能力,我们用卡方检验来查看本发明的活性预测结果与这这些病人的真实响应情况之间是否具有显著的相关性。在本发明方法预测的137个接受了正确治疗的病人中,有37个病人对药物有响应,而没有接受正确治疗的141个病人中,仅有19病人对治疗有响应。两组病人的odds rat1为2.38(95%置信区间为
1.29到4.38),卡方检验表明本发明的预测结果与实际的响应状况具有显著的相关性,其P-value为0.0049。进一步地,我们随机打乱该实施例数据中的每个病人的差异表达基因序列,然后根据本发明所述方法重新对病人进行划分,并计算新划分的两组病人的oddsrat1和划分结果与病人药物响应之间的关系(卡方检验),重复该过程1000次,发现在置换检验中没有结果比真实数据中的划分好(odds瓜1^0大于1.00且口-¥31116〈0.0049),说明置换检验的p-value = 0。该结果证实了本发明能够准确预测组合药物对特定病人的活性,同时说明了本发明提出的药物活性预测方法可用于组合药物活性预测及组合药物筛选,具有显著的预测效果。
[0078]最后所应当说明的是,以上实施例仅用以说明本发明的技术方案而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。
【主权项】
1.一种基于基因表达和药物靶标的药物活性预测与筛选方法,其特征在于:包括以下步骤: 1)根据药物靶标数据库中的信息,获取待测药物对应的靶基因; 获取病人的疾病组织的基因表达数据以及相应对照数据,通过系统生物学的方法计算评价基因的重要性,得出在该病人发病过程中的重要基因列表; 2)通过统计分析查看步骤I)中得到的待测药物的靶基因是否靶向了该病人发病过程中的重要基因列表来预测该待测药物对于该病人的活性,筛选适合该病人的药物。2.根据权利要求1所述的基于基因表达谱和药物靶标的药物活性预测与筛选方法,其特征在于:所述步骤I)中,通过fold-change的绝对值来计算评价基因的重要性。3.根据权利要求1所述的基于基因表达谱和药物靶标的药物活性预测与筛选方法,其特征在于:所述步骤I)中的药物革El标数据库为DGIdb、TTD和Drugbank中的至少一种。4.根据权利要求3所述的基于基因表达谱和药物靶标的药物活性预测与筛选方法,其特征在于:所述待测药物的靶基因为DGIdb、TTD和Drugbank三个数据库数据的靶基因数据的并集。5.根据权利要求1所述的基于基因表达谱和药物靶标的药物活性预测与筛选方法,其特征在于:所述步骤2)中,统计分析是指富集分析,通过分析步骤I)中得到的待测药物的靶基因是否富集于该病人发病过程中的重要基因列表来确定其是否靶向了该病人发病过程中的重要基因列表。6.根据权利要求5所述的基于基因表达谱和药物靶标的药物活性预测与筛选方法,其特征在于:所述富集分析使用的富集分析模型为Ko Imogorov-Smirnov检验。7.根据权利要求1所述的基于基因表达谱和药物靶标的药物活性预测与筛选方法,其特征在于:所述基因表达数据通过基因表达量分析方法获得,所述基因表达量分析方法包括基因芯片、RNA-Seq中的至少一种。8.根据权利要求1?7中任一项所述的基于基因表达谱和药物靶标的药物活性预测与筛选方法,其特征在于:所述对照数据为正常组织的基因表达数据。9.权利要求1?8中任一项所述的基于基因表达谱和药物靶标的药物活性预测与筛选方法在个性化药物和/或药物组合筛选、个性化用药中的应用。
【文档编号】G06F19/18GK106055921SQ201610361900
【公开日】2016年10月26日
【申请日】2016年5月27日
【发明人】张红雨, 周雄辉, 朱丽达, 全源, 崔泽嘉, 杨庆勇
【申请人】华中农业大学