一种利用跨物种相似性的元分析方法

文档序号:395872阅读:292来源:国知局
专利名称:一种利用跨物种相似性的元分析方法
技术领域
本发明属于生物信息学领域;更具体地,本发明涉及一种利用跨物种相似性的元分析方法。
背景技术
动物模型在药物研究中具有不可替代的作用。利用传统的实验方法在动物模型中筛选数千种药物需要耗费大量的人力,物力以及时间。生物信息学,计算生物学的发展为药物的研究提供了一个崭新的思路,并且在成本时间上和传统的方法相比,具有很大的优势。动物模型在疾病研究及药物研发中很重要的一个原因是人疾病样本相对而言要难获得的多,特别是当需要建立一个疾病样本的时间序列来进行分析时,人的疾病样本就显得更为稀少,而这个困难在动物模型中可以很好的解决。但是,利用传统的研究手段要想 在动物模型上检验数千种药物的活性或者毒性需要大量的工作。计算生物学的发展为药物的研究提供了一个崭新的思路,能够低成本高通量的对药物进行筛选。该领域一个代表性的工作就是Lamb(Lamb J,et al. (2006)TheConnectivity Map using gene-expression signatures to connect small molecules,genes, and disease. (Translated from eng) Science 313(5795) :1929-1935)等人收集了用146个具有生物活性的小分子处理的培养人类细胞的基因表达谱,这些小分子包括抗癌药物,雌激素,抗生素等。作者引出相似性比较的思想试图建立药物间、疾病间、药物与疾病间的“联系图(connectivity map)”。许多研究者还利用“联系图”来寻找药物的副作用,药物靶点等。例如,本领域人员通过比较糖皮质激素敏感与非敏感的淋巴白血病细胞表达谱芯片数据,成功预测并证明了 Rapamycin能够诱导淋巴对于糖皮质激素的敏感性。通过同样的方法还发现了新的HSP90抑制剂,因为该抑制剂与已有的抑制剂celastrol和gedunin有很好的相似性,实验的结果也证明了该点。本领域人员还利用从PredTox(http://www.innomed-predtox.com)上获得的250个基因表达谱数据作为参考数据库,用化合物griseofulvin作为查询,在参考数据库发现了 5种与其有相似毒性的化合物。尽管“联系图”取得了很大的成功,但是它也有很大的局限性。其中一点就是“联系图”数据集中仅含有人的基因表达谱数据,且只能使用人的芯片数据来与之进行比较。为了能够使用其他物种的表达谱芯片来进行相似性比较,必须要使用同物种的数据集,这一点是不现实的。另外一点限制了“联系图”的大规模应用在于它所采用的算法方面,“联系图”首先需要挑选出能代表细胞所处状态的基因。这些代表性的基因的不稳定性会导致结果的不稳定性。动物模型在多种人类相关疾病的研究中都有应用,特别是当涉及到道德原因人类的样本很难获得的情况。另外,动物模型的花费也要小的多。在阿尔茨海默症、癌症、新药开发等领域,动物模型都得到了很好的应用。研究已证实动物模型能够预测71%的药物在人体中的毒性。另一方面,疾病状态下人_ENREF_5各组织中的细胞很难获得,因此经常会用细胞模型来替代,但是体外(细胞水平)与体内真实的生理情况并不一致,而这个矛盾在用动物模型时则并不存在。因此,怎样将动物模型与已有数据资料有效整合,快速地、良好地应用于分析药物对人体疾病的有效性是一个亟需研究和完善的课题。

发明内容
本发明的目的在于提供一种利用跨物种相似性的元分析方法。在本发明的第一方面,提供一种跨物种分析待测药物的潜在作用的方法,包括(I)获得测试组以及对照组的基因表达谱;该测试组是待测药物处理后的动物疾病模型;该对照组是未以待测药物处理的动物疾病模型;(2)将(I)的动物疾病模型的基因表达谱中的基因同源转换成人的同源基因,从 而动物疾病模型的基因表达谱中的基因被转换成人的同源基因,获得相应的人同源基因及
表达量;(3)将测试组与对照组人同源基因的表达量进行比较,去除测试组中表达差异不显著(统计学上差异不显著)的部分;对测试组中表达差异显著(统计学上差异显著)的人同源基因进行基因本体模块的富集分析(聚类分析),获得差异显著的基因本体模块;(4)从参考数据库中收集该种疾病相关的经各种已知药物处理前后的表达谱,针对每一已知药物处理前后的表达谱,收集处理前后表达差异显著的基因进行基因本体模块的富集分析;从而,针对每一已知药物,获得一组差异显著的基因本体模块;(5)将(3)获得的基因本体模块与⑷获得的每一组基因本体模块进行相似性比较,根据相似性基因模块的数量对参考数据库中相应的已知药物(如小分子化合物)进行排名,相似性基因模块数量越多则越相关,确定最相关的若干个药物,它们是与待测药物功能最接近的已知药物,从而得知待测药物的潜在作用。在本发明的另一方面,提供一种分析对疾病动物模型有效或有致病性(或副作用)的潜在药物的方法,该方法包括(I)获得测试组以及对照组的基因表达谱;该测试组是疾病状态下的动物模型;该对照组是健康状态下的动物模型;(2)将(I)的动物疾病模型的基因表达谱中的基因同源转换成人的同源基因,从而动物模型的基因表达谱中的基因被转换成人的同源基因,获得相应的人同源基因及表达量;(3)将测试组与对照组人同源基因的表达量进行比较,去除测试组中表达差异不显著(统计学上差异不显著)的部分;对测试组中表达差异显著(统计学上差异显著)的人同源基因进行基因本体模块的富集分析(聚类分析),获得差异显著的基因本体模块;(4)从参考数据库中收集该种疾病相关的经各种已知药物处理前后的表达谱,针对每一已知药物处理前后的表达谱,收集处理前后表达差异显著的基因进行基因本体模块的富集分析;从而,针对每一已知药物,获得一组差异显著的基因本体模块;(5)将(3)获得的基因本体模块与(4)获得的每一组基因本体模块进行相似性比较,根据相似性基因模块的数量对参考数据库中相应的已知药物(如小分子化合物)进行排名,相似性基因模块数量越多则越相关;(6)确定最相关的若干个药物,它们是对疾病动物模型有致病性(或副作用)的潜在药物;确定最不相关的若干个药物,它们是对该疾病有效的潜在药物。在另一优选例中,⑷中,所述的参考数据库主要来源于ConnectivityMap(cMap),其记载了各种药物-疾病间联系,以及药物处理前后的表达谱。在另一优选例中,所述的待测药物是化合物(如小分子化合物)。在另一优选例中,(2)中,通过Roundup同源基因数据库进行同源转换。在另一优选例中,3)中,设置差异表达的阈值,若低于该阈值表明差异不显著,而高于该阈值表明差异显著。在另一优选例中,该差异表达的阈值是2倍差异(即P值小于0. 01)表达。在另一优选例中,(3)中,利用超几何检验的方法对挑选出的差异显著的人同源基 因进行基因本体模块的富集分析。在另一优选例中,(5)中,采用Kolmogorov-smirnov算法计算基因本体模块的相似性。在另一优选例中,所述的动物选自(但不限于)鼠、兔、猴、牛、羊。在另一优选例中,所述方法还用于富集功能相同或相似的药物;或评估动物疾病模型是否能够很好地模拟人疾病。本发明的其它方面由于本文的公开内容,对本领域的技术人员而言是显而易见的。


图I、0GMES2 流程图。图2、对照组和试验组的表达谱的处理流程示意图。
具体实施例方式本发明人经过广泛的研究,首次开发出一种基于跨物种基因模块相似性比较的方法,通过该方法,仅需比较待测药物刺激作用下的转录组芯片数据就可以推断出该待测药物的功能,作用机制等。该方法在药物作用机制,疾病机理研究中有巨大的应用价值。为了解决“联系图"(connectivity map)的局限性,并且充分利用动物疾病模型的数据,使它们在药物重新利用,药物功能研究以及疾病研究中发挥更好的作用,本发明人开发了一种新的方法,包括(I)获得测试组以及对照组的基因表达谱;该测试组是待测药物处理后的动物疾病模型;该对照组是未以待测药物处理的动物疾病模型;(2)将(I)的动物疾病模型的基因表达谱中的基因同源转换成人的同源基因,从而动物模型的基因表达谱中的基因被转换成人的同源基因,获得相应的人同源基因及表达量;(3)将测试组与对照组人同源基因的表达量进行比较,去除测试组中表达差异不显著(统计学上差异不显著)的部分;对测试组中表达差异显著(统计学上差异显著)的人同源基因进行基因本体模块的富集分析(聚类分析),获得差异显著的基因本体模块;(4)从参考数据库中收集该种疾病相关的经各种已知药物处理前后的表达谱,针对每一已知药物处理前后的表达谱,收集处理前后表达差异显著的基因进行基因本体模块的富集分析;从而,针对每一已知药物,获得一组差异显著的基因本体模块;(5)将(3)获得的基因本体模块与(4)获得的每一组基因本体模块进行相似性比较,根据相似性基因模块的数量对参考数据库中相应的已知药物(如小分子化合物)进行排名,相似性基因模块数量越多则越相关,确定最相关的若干个药物,它们是与待测药物功能最接近的已知药物,从而得知待测药物的潜在作用。此外,本发明的方法也可用于针对疾病动物模型来筛选治疗药物或导致副作用的潜在药物。只要在上述第(I)步种,获得测试组以及对照组的基因表达谱;该测试组是疾病状态下的动物模型;该对照组是健康状态下的动物模型;而在上述第(5)步的最后,确定最相关的若干个药物,它们是对疾病动物模型有致病性(或副作用)的潜在药物;确定最不相关的若干个药物,它们是对该疾病有效的潜在药物。优选地,所述的试验组和对照组动物模型中,除了在待测药物处理和未处理上存在区别以外,其它方面如动物喂养方式、动物年龄等均是相同的,这样有利于获得的比较结果的客观、正确性。基因表达谱(Gene Expression Profile)是指通过构建处于某一特定状态下的 细胞或组织的非偏性cDNA文库,大规模cDNA测序,收集cDNA序列片段、定性、定量分析其mRNA群体组成,从而描绘该特定细胞或组织在特定状态下的基因表达种类和丰度信息,这样编制成的数据表就称为基因表达谱。基因表达谱的制备以及基因表达谱数据之间的比较是本领域技术人员熟知的技术,目前现有技术中也已经有测试基因表达谱的仪器,以及用于基因表达谱之间比较的仪器、程序或软件。将动物模型的基因与人的基因数据库进行比较,从而找到其同源基因,这是本领域人员熟知的技术。本领域人员很清楚,基因表达谱的基本信息中,包括了基因ID信息、以及其丰度(表达量)信息。因此,本发明中所述的“将动物模型的基因表达谱与人的相关基因表达谱参考数据集进行比较”,实质上是基于动物模型的基因ID信息,找到人中相应的同源基因的ID信息,从而将该人的基因ID信息与动物模型中测得的基因表达谱中的丰度(表达量)信息建立关联(即“获得相应的人同源基因及表达量”)。在药物处理或不处理的情况下,表达差异不显著的那些基因,通常是无关基因,药物对其表达方式没有改变。因此,测试组数据需要与对照组数据进行比较,从而去除表达差异不显著的那些基因信息。基因本体模块以及基因本体模块的聚类分析是本领域熟知的技术,并且已经有成熟的统计分析方法,如超几何检验的方法。基因本体模块的相似性分析也是本领域熟知的技术,并且已经有成熟的统计分析方法,如采用Kolmogorov-smirnov算法或与其类似的方法。所述的参考数据库主要来源于“联系图”(Connectivity Map, cMap)。这是本领域人员在先已经建立的一个数据库。其中收集了多于1300种小分子化合物的表达谱芯片数据。本发明的方法的一个主要特点在于将“联系图”中可利用的数据拓展到除人以外其他的物种中去,另外,该方法还可以用来评估动物模型是否能够很好的模拟人疾病的真实情况。为了能够实现不同物种间的比较,本发明的方法利用Roundup (Deluca TF,et al. (2006)Roundup :a multi-genome repository of orthologs and evolutionarydistances. (Translated from eng)Bioinformatics 22(16) :2044-2046)数据中的同源基因信息将其他物种的基因转换成人的基因。
尽管现有技术中的“联系图”在许多方面证明了其有效性,但是还没有研究证实其在跨物种的表达谱相似性比较中的有效性。而本发明在这方面进行了改进,建立了一个基于“联系图”的跨物种相似性比较分析的平台;并证明本发明人的平台的可行性。通过测试一些已知的表达谱数据,证明了本发明的方法可以利用跨物种、跨平台的表达谱数据进行相似性比较,并且在预测药物未知功能及一些可能的临床应用方面有着一定的价值。可基于本发明提供的方法,建立界面友好的网络查询、分析系统,从而方便人们使用和分析。本发明的主要优点在于(I)本发明将目前的基于相似性比较的方法应用到不同的动物模型中,并证明了相似性比较的方法在跨物种平台的比较中的可行性,并且该方法在疾病机理研究中有巨大
的应用价值。(2)之前的研究都是基于同一物种之间的比较,跨物种间的比较还是第一次.因此本发明的方法克服了人们的技术偏见。(3)通过本发明的平台,成功地为阿尔茨海默症、缺氧等疾病找到合适的治疗性药物,并且在药物作用机制方面给予了阐释。下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法,通常按照常规条件,或按照制造厂商所建议的条件。实施例I、分析方法和流程本发明人开发了基于同源基因模块相似比较的方法来建立小分子化合物与动物疾病模型间的联系。以小鼠癌症疾病模型为例,给予待测小分子化合物后,分别获得试验组和对照组小鼠的基因表达谱数据(数据由基因ID和表达值组成),将小鼠的基因ID转换成人的基因ID(同源基因转换);然后将试验组与对照组人同源基因的表达量进行比较,去除测试组中表达差异在统计学上不显著的部分;保留测试组中表达差异在统计学上显著的人同源基因;然后将这些转换之后的基因信息富集到相应的基因本体模块上。通过基因本体模块间的比较来比较待测小分子化合物与动物疾病的相关性。具体的流程如图I。本发明人将该方法称为0GEMS2。试验组(测试组)给予待测小分子化合物刺激的小鼠模型;对照组不给予待测小分子化合物刺激,喂养等其它方面同试验组的小鼠模型。或者, 试验组小鼠疾病模型;对照组正常(非疾病)小鼠。数据来源本发明人从联系图(connectivity map)上获得已知小分子刺激下人的癌症相关细胞的表达谱芯片数据集,作为参考数据库;下载地址http://www. broda. mit. edu/cmap/,得到关于已知小分子刺激下人的癌症相关细胞的基因表达谱芯片数据;经处理后作为参考数据库。处理流程为针对每一已知小分子处理前后的表达谱,收集处理前后表达差异显著的基因进行基因本体模块的富集分析;针对每一已知药物,获得一组差异显著的基因(根据基因表达变化倍数值,对基因进行排名,获得基因表达变化值的排名,如图2)。同源基因转换给定小鼠的基因ID,通过 Roundup 数据库(http://round, hms. harvard, edu/site/index, php)将同源信息转换成人的基因。Roundup是一个同源基因的数据库。根据RSD(Reciprocal Smallest Distance)(Wall DP,Fraser HB,& Hirsh AE(2003) !Detectingputative orthologs. (Translated from eng) Bioinformatics 19(13) :1710-1711)算法
来计算同源的距离。GEMS2同源转换处理后,通过比较刺激作用细胞的基因表达谱数据(试验组)与非刺激 下的表达谱数据(对照组),挑选出差异表达的基因(默认采用2倍的fold作为差异表达的阈值)。然后利用超几何检验的方法对这些基因进行基因本体(Gene ontology)富集分析,选取与对照组相比P值小于0. 01的基因本体模块(G0模块;G0M)。基于选中的GO模块,计算查询数据与参考数据库中相关疾病经小分子药物刺激后获得的表达谱中每个基因本体模块的相似情况。采用kolmogorov-smirnov算法来计算相似性(Lamb J, et al. (2006) TheConnectivity Map using gene-expression signatures to connect small molecules,genes, and disease. (Translated from eng) Science 313(5795) :1929-1935)。与文章中不同的地方在于,Lamb等将相似性比较应用在整个表达谱数据上,而本发明则集中在每个基因模块上。输出的结果是一个相似性的矩阵,每列代表着参考数据库中的每个药物,而每行则表示特征基因模块。矩阵数据框中的数值则表示了参考数据库中化合物与查询数据每个基因模块相似性的大小。结果中将包含最相关的(包括正相关和副相关)10个已知小分子药物,并且在结果中列出它们最相关的的基因本体模块(G0模块),该模块是正相关还是副相关,都将在结果中显示。结果分析根据相似性基因模块的数量对参考数据库中的小分子化合物进行排名,一般选取排名前10的化合物来进行进一步分析。当试验组为给予待测小分子化合物刺激的小鼠模型,对照组为不给予待测小分子化合物刺激时,确定最相关的10个已知化合物,它们是与待测药物功能最接近的已知药物,从而得知待测药物的潜在作用。当试验组为小鼠疾病模型,对照组为正常(非疾病)小鼠时,确定最相关的10个已知化合物,它们是对疾病动物模型有致病性(或副作用)的潜在药物;确定最不相关(副相关)的10个已知化合物,它们是对该疾病有效的潜在药物。实施例2、寻找具有相似功能的化合物首先,本发明人验证了所述的跨物种分析方法能够寻找出具有相似功能的小分子。从GEO(GDS :3002, http://www. ncbi. nlm. nih. gov/gds term = gds3002)上下载得到了 7张TSA (—种组蛋白去乙酰化酶抑制剂;Trichostatin A)刺激作用下的小鼠成骨细胞(MC3T3-E1)的基因表达谱数据,7张数据包括3个TSA刺激下的重复数据及4个对照组,具体数据如下试验组GSM234802 (http: //www. ncbi. nlm. nih. gov/geo/query/acc. cgi acc =GSM234802) TSA Treated Rep I ;GSM234803 (http://www. ncbi. nlm. nih. gov/geo/query/acc. cgi acc =GSM234803) TSA Treated Rep 2 ;GSM234804 (http://www. ncbi. nlm. nih. gov/geo/query/acc. cgi acc =GSM234804) TSA Treated Rep 3。对照组GSM234794 (http://www. ncbi. nlm. nih. gov/geo/query/acc. cgi acc =GSM234794) DMS0 Treated Control I ;GSM234795 (http://www. ncbi. nlm. nih. gov/geo/query/acc. cgi acc =GSM234795) DMS0 Treated Control 2 ;GSM234796 (http://www. ncbi. nlm. nih. gov/geo/query/acc. cgi acc =GSM234796) DMS0 Treated Control 3 ;GSM234797 (http://www. ncbi. nlm. nih. gov/geo/query/acc. cgi acc =GSM234797) DMS0 Treated Control 4。本发明人将上述获得的表达谱数据作为动物模型的基因表达谱数据,按照实施例I中所述的方法,进行相似性搜寻,得到了 10个得分最高的化合物,如表I。
权利要求
1.一种跨物种分析待测药物的潜在作用的方法,其特征在于,包括 (1)获得测试组以及对照组的基因表达谱;该测试组是待测药物处理后的动物疾病模型;该对照组是未以待测药物处理的动物疾病模型; (2)将(I)的动物疾病模型的基因表达谱中的基因同源转换成人的同源基因,从而动物疾病模型的基因表达谱中的基因被转换成人的同源基因,获得相应的人同源基因及表达量; (3)将测试组与对照组人同源基因的表达量进行比较,去除测试组中表达差异不显著的部分;对测试组中表达差异显著的人同源基因进行基因本体模块的富集分析,获得差异显著的基因本体模块; (4)从参考数据库中收集该种疾病相关的经各种已知药物处理前后的表达谱,针对每一已知药物处理前后的表达谱,收集处理前后表达差异显著的基因进行基因本体模块的富集分析;从而,针对每一已知药物,获得一组差异显著的基因本体模块; (5)将(3)获得的基因本体模块与(4)获得的每一组基因本体模块进行相似性比较,根据相似性基因模块的数量对参考数据库中相应的已知药物(如小分子化合物)进行排名,相似性基因模块数量越多则越相关,确定最相关的若干个药物,它们是与待测药物功能最接近的已知药物,从而得知待测药物的潜在作用。
2.—种分析对疾病动物模型有效或有致病性的潜在药物的方法,其特征在于,该方法包括 (1)获得测试组以及对照组的基因表达谱;该测试组是疾病状态下的动物模型;该对照组是健康状态下的动物模型; (2)将(I)的动物疾病模型的基因表达谱中的基因同源转换成人的同源基因,从而动物模型的基因表达谱中的基因被转换成人的同源基因,获得相应的人同源基因及表达量; (3)将测试组与对照组人同源基因的表达量进行比较,去除测试组中表达差异不显著的部分;对测试组中表达差异显著的人同源基因进行基因本体模块的富集分析,获得差异显著的基因本体模块; (4)从参考数据库中收集该种疾病相关的经各种已知药物处理前后的表达谱,针对每一已知药物处理前后的表达谱,收集处理前后表达差异显著的基因进行基因本体模块的富集分析;从而,针对每一已知药物,获得一组差异显著的基因本体模块; (5)将(3)获得的基因本体模块与(4)获得的每一组基因本体模块进行相似性比较,根据相似性基因模块的数量对参考数据库中相应的已知药物(如小分子化合物)进行排名,相似性基因模块数量越多则越相关; (6)确定最相关的若干个药物,它们是对疾病动物模型有致病性的潜在药物;确定最不相关的若干个药物,它们是对该疾病有效的潜在药物。
3.如权利要求I或2所述的方法,其特征在于,(4)中,所述的参考数据库主要来源于Connectivity Map,其记载了各种药物-疾病间联系,以及药物处理前后的表达谱。
4.如权利要求I或2所述的方法,其特征在于,所述的待测药物是化合物(如小分子化合 物)。
5.如权利要求I或2所述的方法,其特征在于,(2)中,通过Roundup同源基因数据库进行同源转换。
6.如权利要求I或2所述的方法,其特征在于,(3)中,设置差异表达的阈值,若低于该阈值表明差异不显著,而高于该阈值表明差异显著。
7.如权利要求6所述的方法,其特征在于,该差异表达的阈值是2倍差异表达。
8.如权利要求I或2所述的方法,其特征在于,(3)中,利用超几何检验的方法对挑选出的差异显著的人同源基因进行基因本体模块的富集分析。
9.如权利要求I或2所述的方法,其特征在于,(5)中,采用Kolmogorov-smirnov算法计算基因本体模块的相似性。
10.如权利要求I或2所述的方法,其特征在于,所述方法还用于 富集功能相同或相似的药物;或 评估动物疾病模型是否能够很好地模拟人疾病。
全文摘要
本发明涉及一种利用跨物种相似性的元分析方法。首次开发出一种基于跨物种基因模块相似性比较的方法,通过该方法,仅需比较待测药物刺激作用下的转录组芯片数据就可以推断出该待测药物的功能,作用机制等。该方法在药物作用机制,疾病机理研究中有巨大的应用价值。
文档编号C12Q1/68GK102789550SQ20111012646
公开日2012年11月21日 申请日期2011年5月17日 优先权日2011年5月17日
发明者于洋, 俞书皓, 李亦学, 李芸, 李轩, 郝沛 申请人:中国科学院上海生命科学研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1