1.本发明涉及医药研发领域,具体而言,涉及一种医药研发的管理方法及管理系统。
背景技术:2.作为“生物技术产业”的重点发展对象,医药研发开始受到人们的广泛关注。国内医药公司快速发展,外资企业的研发职能也逐渐向国内转移,中国开始成为新药研发中心,新药研发的能力决定着整个研发的成败与否,但是在新药研发过程中,为了分析材料本身的结构特征,以知晓特征与性能之间的对应关系需要付出大量的劳动,不仅耗费大量的人力物力,也浪费了大量的时间成本以及人力成本。
3.有鉴于此,特提出本发明。
技术实现要素:4.有鉴于此,本发明公开了一种针对医药研发的管理方法以及管理系统,通过对材料信息学、统计、数据挖掘、机器学习的手段的结合,降低新材料的研发成本,逐层缩小候选材料的范围,以形成筛选
‑
验证
‑
更准确筛选的正反馈回路,更加适用于有机小分子和无机晶体类型材料的研发管理。
5.具体地,本发明是通过以下技术方案实现的:
6.第一方面,本发明公开了一种医药研发的管理方法,包括如下步骤:
7.对医药研发的材料进行检索,检索的方式包括材料特征类检索、ai模型检索、相似度检索、化学式检索中的一种或几种的结合;
8.对医药研发的材料进行统计分析以形成可视化的形式进行展示,结合材料学原理的机器学习;
9.通过结构编辑以及描述符计算的方式对分子、晶体的虚拟筛选,以及材料性能的预测。
10.第二方面,本发明公开了一种医药研发的管理系统,包括:
11.检索单元:用于对医药研发的材料进行检索,检索的方式包括材料特征类检索、ai模型检索、相似度检索、化学式检索中的一种或几种的结合;
12.统计分析以及可视化单元:用于对医药研发的材料进行统计分析以形成可视化的形式进行展示;
13.机器学习单元:用于结合材料学原理的机器学习;
14.结构编辑单元:通过结构编辑以及描述符计算的方式对分子、晶体的虚拟筛选,以及材料性能的预测。
15.第三方面,本发明公开了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如第一方面所述管理方法的步骤。
16.第四方面,本发明公开了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述管理
方法的步骤。
17.总之,本发明提出的医药研发管理方法以及管理系统,通过对材料信息学、统计、数据挖掘、机器学习的手段的结合,降低新材料的研发成本,逐层缩小候选材料的范围,以形成筛选
‑
验证
‑
更准确筛选的正反馈回路,更加适用于有机小分子和无机晶体类型材料的研发管理。
附图说明
18.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
19.图1为本发明实施例提供的医药研发的管理方法的流程示意图;
20.图2为本发明实施例提供的医药研发的管理系统的结构示意图;
21.图3为本发明实施例提供的一种计算机设备的流程示意图。
具体实施方式
22.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
23.在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
24.应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
25.本发明公开了一种医药研发的管理方法,包括如下步骤:
26.对医药研发的材料进行检索,检索的方式包括材料特征类检索、ai模型检索、相似度检索、化学式检索中的一种或几种的结合;
27.对医药研发的材料进行统计分析以形成可视化的形式进行展示,结合材料学原理的机器学习;
28.通过结构编辑以及描述符计算的方式对分子、晶体的虚拟筛选,以及材料性能的预测。
29.现有技术中,医药研发开始受到人们的广泛关注。国内医药公司快速发展,外资企业的研发职能也逐渐向国内转移,中国开始成为新药研发中心,新药研发的能力决定着整个研发的成败与否,但是在新药研发过程中,为了分析材料本身的结构特征,以知晓特征与性能之间的对应关系需要付出大量的劳动,不仅耗费大量的人力物力,也浪费了大量的时
间成本以及人力成本,医药研发的发展将面临极大的挑战。
30.本发明为了解决上述技术问题,提供了一种针对医药研发进行管理的方法,该方法通过对材料信息学、统计、数据挖掘、机器学习的手段的结合,降低新材料的研发成本,逐层缩小候选材料的范围,以形成筛选
‑
验证
‑
更准确筛选的正反馈回路,该方法不仅更加适用于有机小分子和无机晶体类型材料的研发管理,而且能够更为有效的提高医药研发的管理水平。
31.图1为本发明实施例公开的一种医药研发的管理方法,参照图1所示,所述方法包括如下步骤:
32.s1、对医药研发的材料进行检索,检索的方式包括材料特征类检索、ai模型检索、相似度检索、化学式检索中的一种或几种的结合;
33.s2、对医药研发的材料进行统计分析以形成可视化的形式进行展示,结合材料学原理的机器学习;
34.s3、通过结构编辑以及描述符计算的方式对分子、晶体的虚拟筛选,以及材料性能的预测。
35.优选地,所述s1步骤中,所述相似度检索的方法包括:
36.以结构密匙或是长度固定的化合物分子指纹来表示化合物分子本身的结构,然后通过对海量化合物分子的canonical smiles的daylight fp2编码和生成的预计算,使用非关系型数据库mongodb对canonical smiles进行存储,以比较化合物之间是否属于相同结构。
37.优选地,所述分子指纹包括maccs指纹,daylight fp2,daylight fp3或daylight fp4指纹中的其中一种。可通过计算tanimoto系统对两者间的指纹相似性进行比较。
38.优选地,采用计算tanimoto系统对其指纹相似性进行比较,tanimoto系统通常在0
‑
1的范围内,值越接近1,则说明越相似,值越接近0,则说明越不相似。
39.在本发明的方法中采用了基于canonical smiles技术实现的一种结构搜索方式,其将化合物的分子结构编码为一个唯一的字符串,其具有唯一的原子信息,键连接信息,手性等化学性质。通过对化合物的canonical smiles进行编码和生成,比较两个化合物是否属于相同结构。通过对海量化合物分子进行canonical smiles的预计算,并且使用新型的非关系型数据库mongodb对canonical smiles进行存储,对分子的精确结构进行搜索时可以达到毫秒级别的响应效率。
40.通过输入一个化合物的部分结构,搜索匹配到含有该部分结构的全部化合物。子结构搜索在本系统中使用预编码指纹扫描形式实现,即通过将海量化合物分子预计算为分子指纹串,搜索子结构时通过对指纹串进行先期过滤,滤除必然不会包含某个子结构的化合物分子,然后对余下的化合物分子再做精确匹配,最终找出包含某个子结构的分子。分子子结构搜索效率极高,对1700万个小分子组成的分子数据库进行子结构搜索,且将返回的匹配结果控制在5000个分子以内时,能够达到秒级别的搜索效率。
41.本发明的方法简单快捷,可以降低新材料的研发成本,是mi和ml双驱动的材料设计和筛选系统,能用于虚拟筛选、构效分析,材料数据挖掘等任务,以材料信息学数据库为核心的,自动化智能化的材料设计workflow。
42.优选地,所述s2步骤中,机器学习的方法包括:
43.将研发材料预处理后输入到机器学习模型进行判断,校验机器学习判断结果的准确性,将研发材料不符合实验条件的输送至可视化操作平台进行人工判断,将人工判断结果与机器学习的结果进行比较,结果不一致则调整优化机器学习模型,一致则通过机器学习模型进行校验。
44.如图2所示,本发明还提供了一种医药研发的管理系统,包括:
45.检索单元101:用于对医药研发的材料进行检索,检索的方式包括材料特征类检索、ai模型检索、相似度检索、化学式检索中的一种或几种的结合;
46.统计分析以及可视化单元102:用于对医药研发的材料进行统计分析以形成可视化的形式进行展示;
47.机器学习单元103:用于结合材料学原理的机器学习;
48.结构编辑单元104:通过结构编辑以及描述符计算的方式对分子、晶体的虚拟筛选,以及材料性能的预测。
49.图3为本发明公开的一种计算机设备的结构示意图。参考图3所示,该计算机设备400,至少包括存储器402和处理器401;所述存储器402通过通信总线403和处理器连接,用于存储所述处理器401可执行的计算机指令,所述处理器301用于从所述存储器402读取计算机指令以实现上述任一实施例所述的管理方法的步骤。
50.对于上述装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
51.适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备,例如包括半导体存储器设备(例如eprom、eeprom和闪存设备)、磁盘(例如内部磁盘或可移动盘)、磁光盘以及cd rom和dvd
‑
rom盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
52.最后应说明的是:虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
53.类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
54.由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在
某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
55.以上所述仅为本公开的较佳实施例而已,并不用以限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开保护的范围之内。