计算药物靶标选择的制作方法

文档序号:34981505发布日期:2023-08-02 08:34阅读:143来源:国知局
计算药物靶标选择的制作方法

本发明涉及用于计算选择靶分子或基因(例如药物靶标)的方法和系统,分子(例如药物)将被设计为以最佳方式与靶分子或靶基因相互作用。


背景技术:

1、药物发现是鉴定候选化合物以进入药物开发的下一阶段的过程,例如临床前试验。这些候选化合物需要满足进一步开发的某些标准。现代药物发现涉及初步筛选“命中”化合物的鉴定和优化。特别是,需要根据目标标准对此类化合物进行优化,其中可包括对许多不同特性的优化。要优化的特性可以包括,例如:针对目标生物靶标的活性;对非目标生物靶标的选择性;较低概率的毒性;良好的药物代谢和药物代谢动力学(adme)特性。只有满足特定要求的化合物才能成为能够继续进行药物开发过程的候选化合物。

2、因此,鉴定和选择生物或药物靶标,然后对命中的化合物进行优化是药物发现过程中的一个关键步骤。事实上,靶标鉴定和优先排序是药物发现过程和新药开发的第一个关键步骤。药物靶标是存在于生物体中与药物相互作用的某种物质,例如蛋白质或核酸,药物与之相互作用,例如结合。这种与药物的相互作用导致药物靶标的行为发生变化。有前景的药物靶标可以是与待决的特定疾病相关的靶标,例如药物靶标改变疾病或在疾病的病理生理学中发挥作用。

3、由于存在大量潜在的药物靶标,选择药物靶标的过程变得复杂。例如,对于一个人类疾病,有数以万计的可成为新药的靶标的基因表达蛋白质。此外,由于按医学分类,存在数千种人类疾病,因此有数百万种,特别地,数亿种可能的靶标疾病组合。因此,解决办法的检索空间非常大,以至于对每个组合或假设进行实验测试是不可行的。

4、传统上,药物靶标是由药物化学家根据已发表的科学文献(如学术期刊和公共数据库)逐案鉴定的。也就是说,传统上,大量的靶标鉴定是通过科学家个体利用他们的专业知识解释科学文献进行的。然而,这种方法的一个日益严重的问题是剧增的可供检索的公共数据,如学术论文。生命科学领域有数千万篇已发表的科学论文,成千上万的基因组和成百上千个数据库。事实上,不考虑其他数据来源,如预印本和临床试验报告,每天都有成千上万篇同行评审的文章发表。显然,人类在选择药物靶标时不可能掌握所有可用的数据来源。换言之,不断增长的发表率使得很难维持概观,以鉴定有前景的新的或现有的药物靶标。

5、优化药物靶标的鉴定和选择对于优化整个药物发现过程至关重要。特别是,针对特定药物发现项目的药物靶标的最佳选择可以增加在更短的时间内,即在更短的项目设计周期内鉴定候选化合物的概率。反过来,这减少了特定项目的相关时间和/或相关成本。

6、本发明就是在这种背景下提出的。


技术实现思路

1、本发明提供了一个鉴定可与特定疾病相关的药物的生物靶标的改进方法,以减少药物发现过程的总时间和/或相关成本,例如提高作为特定药物发现项目一部分的候选化合物的鉴定效率。此外,本发明提供了用于药物发现的方法。特别地,在包括选择至少一个药物靶标的方法中,所述方法可以包括基于所述至少一个药物靶标进行药物发现项目;以及任选地选择和/或合成和/或测试针对所述选定的至少一个药物靶标的潜在治疗性化合物。

2、根据本发明的一个方面,提供了一个用于计算药物靶标选择的方法。所述方法包括从至少一个公开数据源获取公开数据,并链接至与包括历史公开文档和当前公开文档的多个出版物。所述方法包括检索公开数据以针对每个公开文档提供关于相应的公开文档是否与一个或多个药物靶标相关的指示。所述方法包括基于从历史公开文档中检索到的公开数据来确定一个或多个药物靶标中的每一个的预期公开参数,以及基于从当前公开文档中检索到的公开数据来确定一个或多个药物靶标中每一个的实际公开参数。所述方法包括基于其实际公开参数相对于其预期公开参数来评估一个或多个药物靶标中的每一个以进行选择。

3、所述方法可以包括为每个药物靶标定义一个或多个字符表达式指代药物靶标,并且其中检索公开数据包括在公开数据中检索每个药物靶标的一个或多个个字符表达式。

4、所述方法可以包括针对每个药物靶标将一个或多个字符表达中的每个字符表达分类为安全字符表达或不安全字符表达。所述分类可以基于公开数据中一个字符表达式指代药物靶标的可能性。

5、在一些实施方案中,如果从公开文档之一检索到的公开数据包括安全字符表达,则确定该公开文档与药物靶标相关联。

6、一个或多个字符表达式可以是用户定义的,以分类为安全字符表达式。

7、一个或多个字符表达式不安全特性可以是用户定义的,以指示对应的字符表达式是不安全的。所检索的公开数据中表现出一个或多个字符表达式不安全特性的字符表达式可以被分类为不安全字符表达式。

8、所述一个或多个用户定义的字符表达式不安全特性可以包括以下一个或多个:与特定自然语言中的单词相对应的字符表达式;具有少于规定数量字符的字符表达式,任选地,其中所述规定数量为三;以及被定义为指代至少两个不同的药物靶标的字符表达式。

9、一个或多个字符表达式模糊度特性可以被定义为赋予一个或多个字符表达式模糊度得分。每个字符表达式可以基于相应赋予的模糊度得分被分类为安全字符表达式或不安全字符表达式。

10、一个或多个字符表达式模糊度特性中可以是用户定义的。

11、如果字符表达式的模糊度得分大于规定的阈值模糊度得分,则所述字符表达式可以被分类为不安全字符表达式。

12、对于每个药物靶标,所述一个或多个字符表达式模糊度特性可以包括以下一个或多个:公开数据中包括一个或多个指代药物靶标的已定义字符表达式的公开文档总数;相对于公开数据中包括一个或多个指代药物靶标的已定义字符表达式的公开文档总数,公开数据中包括一个或多个指代药物靶标的已定义字符表达式的公开文档数;指代药物靶标的已定义字符表达式中其中一个的字符数;指代药物靶标的已定义字符表达式中其中一个的每个字符出现在所述公开数据中的频率,任选地是所述一个字符表达式中每个字符的频率之和,任选地为所述和的对数;包括所述一个已定义表达式的药物靶标已定义字符表达式数;公开数据中包括已定义字符表达式中的一个的公开文档还包括所选字符表达式的概率,所述已定义字符表达式不同于所选字符表达式,所述所选表达式为从指代药物靶标的已定义字符表达式中选择的是安全字符表达式的字符表达式;以及,公开数据中包括所选择字符表达式的公开文档,还包括不同于所选字符表达式的已定义字符表达式的概率。

13、所述方法可以包括应用机器学习算法,以基于一个或多个字符表达式模糊度特性将模糊度得分赋予一个或多个字符表达式中的每一个。

14、所述机器学习算法可以使用一个或多个字符表达式的不安全特性来将模糊度得分赋予一个或多个字符表达式中的每一个。

15、所述机器学习算法可以包括正样本未标记学习(positive-unlabelledlearning)技术。

16、所述机器学习算法可以包括随机森林分类器的应用。

17、在一些实施方案中,在机器学习算法的每次迭代后,用户检查先赋(ascribed)模糊度得分的一个子集,以确定是否手动更改先赋模糊度得分的任何一个子集。

18、所述子集可以对应于具有最高先赋模糊度得分的规定数量的字符表达式。

19、至少一些公开文档的公开数据可以包括引用数据,所述引用数据指示由一个公开文档对多个公开文档中的一个或多个其他公开文档所作的引用。检索公开数据可以包括使用引用数据来识别已经被同一公开文档引用的公开文档对。

20、所述方法可以包括,对于每个识别的公开文档对,确定共同引用值,所述共同引用值表示引用这对公开文档的多个公开文档。

21、所述方法可以包括基于所确定的共同引用值和引用公开文档对的公开文档,将公开文档对分配给多个公开文档群中的一个。

22、在一些实施方案中,将公开文档对分配给多个群中的一个包括贪心优化算法的应用。

23、所述方法可以包括,对于多个公开文档群中的每一个,确定是否将所述群与药物靶标之一相关联。

24、所述确定可以包括确定指代一个药物靶标的已定义字符表达式中哪些存在于群中的每个公开文档的公开数据中。

25、所述确定可以包括确定群中在其公开数据中包括至少一个安全字符表达式的公开文档的比例。在一些实施方案中,如果所述比例大于规定的阈值比例,则确定群与一个药物靶标相关联。

26、在一些实施方案中,检索所述公开文档对包括检索包括至少一个指代一个药物靶标的已定义字符表达式的公开文档对。

27、在一些实施方案中,至少一些公开文档的公开数据不包括引用数据。对于每一个公开文档,所述方法可以包括基于其公开数据,特别是基于在其公开数据中一个或多个指代药物靶标的已定义字符表达式,确定是否将公开文档分配给与药物靶标之一相关的群中的一个。

28、在一些实施方案中,如果公开文档的公开数据包括至少一个安全字符表达式,则确定将公开文档分配给与一个药物靶标相关的一个群。

29、在一些实施方案中,如果公开文档的公开数据不包括至少一个安全字符表达式,则使用机器学习算法来确定是否将公开文档分配给与药物靶标之一相关的群中的一个。

30、所述机器学习算法可以包括正样本未标记学习技术。

31、机器学习算法可以包括机器学习分类器的应用,任选地,至少一个:逻辑回归分类器、额外的树分类器、高斯过程分类器、k近邻分类器、岭回归分类器、随机森林分类器、以及支持向量机分类器。

32、对于每个药物靶标,预期公开参数可以是与药物靶标相关的公开文档的预期数量,而实际公开参数可以为与药物靶标相关的公开文档的实际数量。

33、对于每个药物靶标,预期公开参数可以是以下之一:与药物靶标相关的临床试验的预期数量;与药物靶标相关的综述公开文档的预期数量;以及,与所定义的公司规模相关的公开文档的预期数量;并且,实际公开参数可以是以下之一:分别为,与药物靶标相关的临床试验的实际数量;与所述药物靶标相关联的综述公开文档的实际数量;以及,与所定义的公司规模相关的公开文档的实际数量。

34、在一些实施方案中,确定预期公开参数包括使用通过从历史公开文档中检索到的公开数据进行训练的机器学习算法。

35、所述机器学习算法可以是递归神经网络算法。

36、在一些实施方案中,评估药物靶标以供选择包括基于药物靶标各自的实际和预期公开参数的比较来对药物靶标进行排名。

37、药物靶标可以根据指示其各自的实际和预期公布参数之间的差异的参数进行排序。

38、所述方法可以包括确定药物靶标对之间的靶标-靶标共现参数,所述靶标-靶标共存参数是基于来自检索到的公开数据的指示来确定的,所述公开数据是与两个药物靶标相关的公开文档对的公开数据。每个靶标-靶标共现参数可以指示成对的两个药物靶标都出现在公开文档的数量。所述方法可以包括基于所确定的靶标-靶标共现参数来评估一个或多个药物靶标以供选择。

39、所述方法可以包括检索公开数据以针对每个公开文档提供关于相应的公开文档是否与一个或多种疾病相关的指示。

40、所述方法可以包括,对于每种疾病,定义指代该疾病的一个或多个字符表达式。检索公开数据可以包括在公开数据中检索每种疾病的一个或多个字符表达式。

41、所述方法可包括确定每个药物靶标和每种疾病之间的靶标-疾病的共现参数。基于检索的公开数据中,公开文档每个药物靶标和每种疾病相关的指示,确定靶标-疾病共现参数。每个靶疾病共现参数可指示出现药物靶标之一和疾病之一的公开文档的数量。所述方法可包括基于确定的靶标-疾病的共现参数数评估一个或多个药物靶标。

42、所述方法可包括将主题建模算法应用于与每个药物靶标相关的公开文档的公开数据,以获得与每个药物靶标相关的一个或多个主题。所述方法可包括基于获得的一个或多个主题评估一个或多个药物选择靶标。

43、所述方法可包括,对每个药物靶标,基于获得的一个或多个主题,确定所述药物靶标与一个或多个公开文档相关性的错误。

44、主题建模算法可包括以下至少一个:潜在狄利克雷分配算法;和非负矩阵分解算法。

45、与一个或多个公开文档相关的公开数据可包括一个或多个:公开文档的标题;公开文档摘要;以及与公开文档相关的一个或多个关键词。

46、公开数据可包括多个公开文档的公开日期。

47、公开日期可决定每个公开文档是历史公开文档还是当前公开文档。

48、在一些实施方案中,公开日期在规定截止日期之前的公开文档被定义为历史公开文档。

49、在一些实施方案中,公开日期在规定截止日期之后的公开文档被定义为当前公开文档。

50、在一些实施方案中,公开日期在规定截止日期范围内的公开文档被定义为当前公开文档。

51、至少一个公开数据源可包括至少一个在线公开数据源。

52、一个或多个药物靶标可包括一个或多个基因,任选地,一个或多个人类基因,任选地,由这些基因编码的一个或多个蛋白质。

53、所述方法可以包括使用一个或多个药物靶标的评估来为选择至少一个药物靶标用于药物发现项目提供信息。

54、所述方法可包括设计药物发现项目,基于所述评估选择至少一个用于药物发现项目的药物靶标。

55、所述方法可包括利用至少一个所选的药物靶标开展药物发现项目。

56、在一些实施方案中,进行药物发现项目包括选择,任选地,(计算机模拟、体外和/或体内)合成和测试针对至少一个所选药物靶标的化合物。

57、根据本发明的另一方面,提供了一种用于鉴定对药物靶标/靶标分子具有结合亲和力的药物/化合物的方法,所述方法包括开展药物发现项目(例如,基于一个根据本文所公开的方面和实施方案鉴定药物靶标的方法),以及任选地,选择和/或合成和/或测试针对至少一个所选药物靶标的化合物,以确定对药物靶标具有治疗活性的化合物;其中“治疗活性”可包括但不限于所需的结合特性(如亲和力、选择性);抑制特性;激动剂或拮抗剂特性。

58、应理解,本文公开的任何方面或实施方案的任何特征都可以与本文公开的任何其他方面或实施方案的任何特征相结合,并且所有此类特征组合均被考虑并在此公开,除非此类组合明显不兼容。

59、根据本发明的另一方面,提供了一个非晶体管、计算机可读存储介质存储指令,当由计算机处理器执行时,所述指令使得计算机处理器执行上述方法。

60、根据本发明的另一方面,提供了用于药物靶标选择的计算机设备。所述计算机设备被配置为从至少一个公开数据源获取、接收或下载公开数据,并连接至多个公开文档(包括历史公开文档和当前公开文档)。所述计算机设备被配置为检索公开数据,以为每个公开文档提供指示,即相应的公开文档是否与一个或多个药物靶标相关。所述计算机设备被配置为根据历史公开文档中的检索的公开数据确定一个或多个药物靶标的预期公开参数,并基于当前公开文档中检索的公开数据确定每个药物靶标的实际公开参数。所述计算机设备被配置为基于其相对于预期公开参数的实际公开参数对一个或多个药物靶标中的每一个进行评估。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1