基因疾病关系知识库构建方法、装置和计算机设备与流程

文档序号:23155725发布日期:2020-12-04 13:50阅读:143来源:国知局
基因疾病关系知识库构建方法、装置和计算机设备与流程

本申请涉及到人工智能领域,特别是涉及到一种基因疾病关系知识库构建方法、装置和计算机设备。



背景技术:

医学文献资料中存在着海量的包含疾病基因之间的靶标关系的自然语句,疾病的靶标基因对于医学基础的研究、疾病诊治及靶向药物研发有着重要的意义。关于疾病靶标基因的知识库的构建,现有的高质量的疾病基因的靶标关系的获取基本是通过专家人力构建获取的,但是随着医学文献的指数级增长,只是靠专家人工整理编辑审核的构建医学知识库的方式基本上无法实现构建比较全的知识库。

目前也有利用计算机技术自动从医学文献资料中获取医学实体关系的技术方案,这些技术方案主要分为两种,基于人为设计的规则进行医学实体关系抽取和利用机器学习技术进行医学实体关系抽取。基于规则的方案目前的做法都是需要领域专家总结可用高质量规则,可获取的知识的数量完全取决于高质量的规则的质量和数量,目前大部分基于规则的方案召回率都很低,准确率较高但成本也高。基于机器学习算法进行医学关系抽取的方案,目前最好的模型是基于深度学习的关系抽取模型,但是即便是在目前基于深度学习的模型在医学关系抽取的效果仍然比较低,离可以实际可用的还有较大的横沟。另外深度学习模型的训练需要大量的高质量的标签数据集,高质量的医学关系抽取标签数据需要专家人工标注。



技术实现要素:

本申请的主要目的为提供一种基因疾病关系知识库构建方法、装置和计算机设备,旨在解决目前的基因疾病关系知识库构建成本高、效果差的问题。

为了实现上述发明目的,本申请提出一种基因疾病关系知识库构建方法,包括:

对指定数量的包含基因-疾病实体对的自然语句进行依存关系分析,获得每个所述自然语句的依存关系;

根据每个所述自然语句的依存关系确定每个所述自然语句的路径描述符,其中所述路径描述符是指自然语句中在基因疾病实体依存路径上所有词的排列顺序;

根据每个所述自然语句的所述路径描述符生成规则模板,建立规则模板库;

利用所述规则模板库中的所述规则模板对全量的医学文献进行知识抽取,获取基因疾病关系,建立基因疾病关系知识库。

进一步地,所述对指定数量的包含基因-疾病实体对的自然语句进行依存关系分析,获得每个所述自然语句的依存关系步骤之前,包括:

在指定的医学资料库中获取包含基因-疾病实体对的自然语句;

随机选取指定数量的包含基因-疾病实体对的自然语句。

进一步地,所述对指定数量的包含基因-疾病实体对的自然语句进行依存关系分析,获得每个所述自然语句的依存关系的步骤包括:

利用自然语言处理工具包stanfordnlp对每个所述自然语句进行依存关系分析,获得每个所述自然语句的依存关系。

进一步地,所述根据每个所述自然语句的依存关系确定每个所述自然语句的路径描述符的步骤之后,所述根据每个所述自然语句的所述路径描述符生成规则模板,建立规则模板库的步骤之前还包括:

计算不同的路径描述符之间的编辑距离,将编辑距离小于等于第一指定值的路径描述符聚类为同一种路径描述符;以及,

识别所述自然语句中的依存关系中是否存在否定语义,若存在,则过滤掉该所述自然语句对应的路径描述符。

进一步地,所述根据每个所述自然语句的所述路径描述符生成规则模板,建立规则模板库的步骤包括:

统计同一个路径描述符对应的自然语句case数量,过滤掉所述case数量小于第二指定值的路径描述符;

将过滤后的路径描述符进行质量评估,将通过质量评估的路径描述符保存为规则模板,建立规则模板库。

进一步地,所述将过滤后的路径描述符进行质量评估,将通过质量评估的路径描述符保存为规则模板,建立规则模板库的步骤包括:

统计待评估的路径描述符所对应的实体对集合;

统计所述实体对集合里的实体对在ctd中存在的数量;

若存在的数量大于指定的数量阈值或存在的数量与实体对集合中实体对总数量的比值大于指定的比值阈值,则保留所述待评估的路径描述符为可用规则模板,储存起来建立规则模板库。

进一步地,所述利用所述规则模板库中的所述规则模板对全量的医学文献进行知识抽取,获取基因疾病关系,建立基因疾病关系知识库的步骤包括:

对全量的医学文献中的自然语句进行实体识别,获取包含基因-疾病实体对的自然语句;

分别对所有包含基因-疾病实体对的自然语句进行依存关系分析,获得每个所述自然语句的依存关系;

根据每个所述自然语句的依存关系确定每个所述自然语句的路径描述符;

判断所述路径描述符是否在所述规则模板库中;

若是,则根据所述路径描述符获取基因疾病关系,将所述基因疾病关系保存在基因疾病关系知识库中。

本申请实施例还提供一种基因疾病关系知识库构建装置,包括:

依存关系分析模块,用于对指定数量的包含基因-疾病实体对的自然语句进行依存关系分析,获得每个所述自然语句的依存关系;

路径描述符确定模块,用于根据每个所述自然语句的依存关系确定每个所述自然语句的路径描述符;

规则模板生成模块,用于根据每个所述自然语句的所述路径描述符生成规则模板,建立规则模板库;

知识抽取模块,用于利用所述规则模板库中的所述规则模板对全量的医学文献进行知识抽取,获取基因疾病关系,建立基因疾病关系知识库。

本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的基因疾病关系知识库构建方法、装置和计算机设备,通过对指定数量的包含基因-疾病实体对的自然语句进行依存关系分析,自动学习出大量的规则模板,然后利用规则模板从医学文献中自动抽取基因疾病的关系知识,无需高昂的人工成本,而且抽取到的知识数量多,抽取效果好,并且具有良好的迁移性和适用性,可用于更多的医学实体间关系抽取。

附图说明

图1为本申请一实施例的基因疾病关系知识库构建方法的流程示意图;

图2为本申请一实施例的自然语句依存关系举例示意图;

图3为本申请另一实施例的自然语句依存关系举例示意图;

图4为本申请一实施例的基因疾病关系知识库构建装置的结构示意框图;

图5为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

参照图1,本申请实施例中提供一种基因疾病关系知识库构建方法,包括步骤:

s1、对指定数量的包含基因-疾病实体对的自然语句进行依存关系分析,获得每个所述自然语句的依存关系;

s2、根据每个所述自然语句的依存关系确定每个所述自然语句的路径描述符,其中所述路径描述符是指自然语句中在基因疾病实体依存路径上所有词的排列顺序;

s3、根据每个所述自然语句的所述路径描述符生成规则模板,建立规则模板库;

s4、利用所述规则模板库中的所述规则模板对全量的医学文献进行知识抽取,获取基因疾病关系,建立基因疾病关系知识库。

医学关系抽取的任务是根据包含给定基因-疾病实体对的医学文本中语义信息判断在给定基因、疾病实体对之间的关系。在本实施例中,使用了基于规则模板的方案从海量医学文献中抽取基因-疾病关系知识,本实施例中的规则模板并不是专家构建得到的规则模板,专家构建的规则模板需要耗费较高的人工成本,而且规则模板的数量较少,从而导致基于专家构建规则的方式抽取的医学关系知识规模很小且成本高。本实施例中,可以在指定数量的包含实体对的自然语句中自动学习出大量的高质量的可用的规则模板,然后使用这些模板进行知识抽取,在全量的医学文献中获取大量的医学关系知识,构建知识库。

如上述步骤s1所述,规则模板是基于对自然语句的依存关系设计抽取的。依存关系分析又被称为依存句法分析,是自然语言处理中的关键技术之一,它是对输入的文本句子进行分析以得到句子的句法结构的处理过程。目前常用的依存关系分析工具有斯坦福大学的stanfordnlp工具包、hanlp、spacy以及复旦大学的fudannlp等。具体地,以一个例子case1来举例说明。

case1:“theprofileoftheapelinmakesitatherapeutictargetforischemicheartdisease.”的依存关系如图2所示,其中箭头代表句子中不同词(word)之间的依存关系指向,箭头上的文字(如:det、nsubj、case、nmod等)表示具体的依存关系类型,自然语句的依存关系类型有广泛认可的规范化的分类。图中的gene代表的是apelin,dise代表的是ischemicheartdisease。

从图中可以看出给定gene实体和dise实体的在该句中的依存关系路径是gene←profile←makes→target→dise,并且从该依存路径可以看出makes是该路径中的根节点(root)。

如上述步骤s2所述,根据依存关系可以确定路径描述符。以case1为例,将给定的gene实体和dise实体的依存路径上的所有词(word)按照自然语句中的顺序排列可以得到“profilegenemakestargetdise”,“profilegenemakestargetdise”被称为路径描述符。

如上述步骤s3所述,对指定数量的包含基因-疾病实体对的自然语句进行依存关系分析,可以获得大量的路径描述符,然后对这些路径描述符进行去重等操作可以得到候选规则模板,然后对候选规则模板进行排序,过滤掉抽取到给定路径描述符的case数量小于预设值的路径描述符,然后对剩余的路径描述符质量评估,将通过评估的路径描述符保存为规则模板,储存在规则模板库中。

如上述步骤s4所述,在建立规则模板库之后,对全量的医学文件进行知识抽取,获取海量的基因疾病关系,将获取到的基因疾病关系保存起来,建立基因疾病关系知识库。

在一个实施例中,所述对指定数量的包含基因-疾病实体对的自然语句进行依存关系分析,获得每个所述自然语句的依存关系步骤之前,包括:

s01、在指定的医学资料库中获取包含基因-疾病实体对的自然语句;

s02、随机选取指定数量的包含基因-疾病实体对的自然语句。

如上所述,规则模板的建立首先需要对指定数量的包含基因-疾病实体对的自然语句进行依存关系分析,也就是说,需要在给定的自然语句中自动学习出规则模板。在本实施例中,指定的医学资料库是pubmed,pubmed是最大的医学文献数据库,截止到2019年pubmed中文献数量超过3000万。基因实体库使用ncbi的gene实体库,疾病的实体库采用mesh疾病实体库,上述基因实体库和疾病实体库都是目前医学领域被广泛认可质量高覆盖率广的实体库。实体库中提供了基因、疾病的英文标准名称以及别名,使用基因、疾病的名称从医学文献中抽取同时包含基因、疾病的句子,比如“breastfeedingandtheriskofbreastcancerinbrca1mutationcarriers.”,其中breastcancer是疾病实体库一种疾病的名称,brac1是基因实体库中一种基因的名称。从医学文献pubmed中获取同时包含基因、疾病实体的句子集合,然后抽取指定数量的自然语句进行依存关系分析,最终得到规则模板。更具体地,指定数量为100万。

在一个实施例中,所述对指定数量的包含基因-疾病实体对的自然语句进行依存关系分析,获得每个所述自然语句的依存关系的步骤包括:

s11、利用自然语言处理工具包stanfordnlp对每个所述自然语句进行依存关系分析,获得每个所述自然语句的依存关系。

如上所述,在本实施中,选用了stanfordnlp作为依存关系分析的工具。stanfordnlp工具包支持多种语言的完整文本分析管道,包括分词、词性标注、词形归并和依存关系解析,此外它还提供了与corenlp的python接口,可以轻松设置本地python实现。

在一个实施例中,所述根据每个所述自然语句的依存关系确定每个所述自然语句的路径描述符的步骤之后,所述根据每个所述自然语句的所述路径描述符生成规则模板,建立规则模板库的步骤之前还包括:

s21、计算不同的路径描述符之间的编辑距离,将编辑距离小于等于第一指定值的路径描述符聚类为同一种路径描述符;以及,

s22、识别所述自然语句中的依存关系中是否存在否定语义,若存在,则过滤掉该所述自然语句对应的路径描述符。

如上述步骤s21所述,在上述步骤s2中获取到的路径描述符存在着大量的冗余,比如下列路径描述符{“genetargetindise”,“genetargetondise”,“genetargetsindise”,“genetargetsondise”},这些路径描述符实际上是冗余的。关于路径描述符冗余问题,本实施例中采用通过计算不同路径描述符的编辑距离,如果编辑距离小于等于第一指定值,则认为同一个路径描述符。通过后续的统计发现,对路径描述符中通过编辑距离为2(优选的第一指定值)进行聚类,可以将规则模板数量减少60%,从而减少了大量的路径描述符的冗余。编辑距离是指两个给定的字符串,从一个转换到另一个的最小编辑操作次数,这里的编辑操作可以是删除、插入、替换操作。比如“genetargetindise”通过一次插入操作(插入s)变成“genetargetsindise”,在通过一次替换操作(i替换成o)可以变成“genetargetsondise”。所以这里的“genetargetindise”和“genetargetsindise”的编辑距离为2。

如上述步骤s22所述,现有的路径描述符中通过无法发现否定信息(neg)。这里以一个具体的例子进行说明。

case2:“theprofileoftheapelindidnotmakeitatherapeutictargetforischemicheartdisease.”的依存关系如图3所示。

可以看出这里给的给定gene、dise的依存关系路径是gene←profile←make→target→dise,对应的路径描述符是“profilegenemaketargetdise”,其中make是该路径的根节点(root)。可以发现case2和case1的路径描述符“profilegenemakestargetdise”表述的相同的语义,但是实际上case2表述的否定的语义,可以发现case2根节点make的依存关系中可以看出是有否定语义(neg)。这里通过根节点的所有依存关系中,如果根节点的依存关系存在neg,则在生成规则模板时过滤掉该样例。

在一个实施例中,所述根据每个所述自然语句的所述路径描述符生成规则模板,建立规则模板库的步骤包括:

s31、统计同一个路径描述符对应的自然语句case数量,过滤掉所述case数量小于第二指定值的路径描述符;

s32、将过滤后的路径描述符进行质量评估,将通过质量评估的路径描述符保存为规则模板,建立规则模板库。

如上所述,在步骤s2中可以得到路径描述符,以case1为例进行说明,case1的句子是“theprofileoftheapelinmakesitatherapeutictargetforischemicheartdisease.”该样例中给定gene是apelin,给定dise代表的是ischemicheartdisease。得到路径描述符“profilegenemakestargetdise”(这里路径描述符即是候选的规则模板)。每个数据样例处理后可以得到如下信息{数据样例,该数据样例中实体对,对应的路径描述符}。

比如case1即可以得到{“theprofileoftheapelinmakesitatherapeutictargetforischemicheartdisease.”,<apelin,ischemicheartdisease>,“profilegenemakestargetdise”}

然后计算全部的路径描述符中每两个路径描述符之间的编辑距离,如果编辑距离小于等于2则认为是同一种路径描述符,从而解决路径描述符存在的冗余问题。这样通过得到全部的路径描述符即是候选的规则模板。比如case1的路径描述符“profilegenemakestargetdise”可以简化成“profilegenemaketargetdise”,将路径描述符简化后可以到所有数据对应的新的路径描述符。这样所有的数据样例处理之后可以得到这样的数据:

{case1,基因疾病实体对,路径描述符1},…,{casen,基因疾病实体对,路径描述符m}

上述的数据格式经过简单的统计可以得到每一个路径描述符的cases:

{路径描述符1,对应全部cases,对应的所有实体对集合1},…,{路径描述符m,对应全部cases,对应的所有实体对集合m}。

根据每一个路径描述符对应的cases通过简单统计可以得到每一个路径描述符对应的数据样例数,格式如下:{路径描述符1,对应case数},…,{路径描述符m,对应case数}。按照每个路径描述符的case数量进行排序,过滤掉case数小于第二指定值(这里第二指定值设置为3)的路径描述符。这样做提高抽取到的路径描述符的普适性和准确性。

然后对过滤后的路径描述符进行质量评估,将通过质量评估的路径描述符保存为规则模板,建立规则模板库。质量评估的方法可以采用人工众包、监督学习等。

在一个具体的实施例中,所述将过滤后的路径描述符进行质量评估,将通过质量评估的路径描述符保存为规则模板,建立规则模板库的步骤包括:

s321、统计待评估的路径描述符所对应的实体对集合;

s322、统计所述实体对集合里的实体对在ctd中存在的数量;

s323、若存在的数量大于指定的数量阈值或存在的数量与实体对集合中实体对总数量的比值大于指定的比值阈值,则保留所述待评估的路径描述符为可用规则模板,储存起来建立规则模板库。

如上所述,在本实施例中,采用了基于远程监督的思想对规则模板进行评估。远程监督的核心思想是如果在已有的知识库中已经存在的知识三元组(比如<ace,target,heartfailure>,表示基因ace和疾病heartfailure有target关系),那么在文本中提及到该实体对(比如ace、heartfailure)的文本大概率是在描述该实体对的target语义。具体地,使用的已有知识库是ctd,ctd(commontechnicaldocument)是医学领域被广泛的认可的医学知识库。

任意选取一个路径描述符集合1~m里的一个路径描述符i以及所述路径描述符i所对应的实体对集合i,统计所述实体对集合i中的实体对在ctd知识库里存在的数量,如果存在的数量大于指定的数量阈值(优选为4)或存在的数量与实体对集合中实体对总数量的比值大于指定的比值阈值(优选为0.5),则保留所述路径描述符i为可用的规则模板,将所有可用的规则模板保存起来,构建成规则模板库。

在一个实施例中,所述利用所述规则模板库中的所述规则模板对全量的医学文献进行知识抽取,获取基因疾病关系,建立基因疾病关系知识库的步骤包括:

s41、对全量的医学文献中的自然语句进行实体识别,获取包含基因-疾病实体对的自然语句;

s42、分别对所有包含基因-疾病实体对的自然语句进行依存关系分析,获得每个所述自然语句的依存关系;

s43、根据每个所述自然语句的依存关系确定每个所述自然语句的路径描述符;

s44、判断所述路径描述符是否在所述规则模板库中;

s45、若是,则根据所述路径描述符获取基因疾病关系,将所述基因疾病关系保存在基因疾病关系知识库中。

如上所述,在步骤s1~s3的中,通过对自然语句进行依存关系分析,得到路径描述符,然后对路径描述符进行质量评估等操作得到了规则模板,并建立了规则模板库。建立规则模板库的过程中选用了100万条包含基因-疾病实体对的自然语句。对全量的医学文献中的自然语句进行基因、疾病实体识别,获取所有包含基因-疾病实体的自然语句,然后利用工具包对这些自然语句依次进行依存关系分析,获取每个自然语句的依存关系,确定路径描述符,然后判断所述路径描述符是否在通过步骤s1~s3创建的规则模板库中,若是,则根据路径描述符获取基因和疾病之间的关系(如case1中的target),将所述基因疾病关系保存在基因疾病关系知识库中。

在一个实施例中,所述医学资料库、所述规则模板和所述基因疾病关系知识库等储存于区块链的节点中,在区块链中实现如上所述的基因疾病关系知识库构建方法。

如上所述,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层10等。区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身15份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约20模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、25监控网络情况、监控节点设备健康状态等。

本申请实施例的基因疾病关系知识库构建方法,通过对指定数量的包含基因-疾病实体对的自然语句进行依存关系分析,自动学习出大量的规则模板,然后利用规则模板从医学文献中自动抽取基因疾病的关系知识,无需高昂的人工成本,而且抽取到的知识数量多,抽取效果好,并且具有良好的迁移性和适用性,可用于更多的医学实体间关系抽取。

参照图4,本申请实施例中还提供一种基因疾病关系知识库构建装置,包括:

依存关系分析模块1,用于对指定数量的包含基因-疾病实体对的自然语句进行依存关系分析,获得每个所述自然语句的依存关系;

路径描述符确定模块2,用于根据每个所述自然语句的依存关系确定每个所述自然语句的路径描述符,其中所述路径描述符是指自然语句中在基因疾病实体依存路径上所有词的排列顺序;

规则模板生成模块3,用于根据每个所述自然语句的所述路径描述符生成规则模板,建立规则模板库;

知识抽取模块4,用于利用所述规则模板库中的所述规则模板对全量的医学文献进行知识抽取,获取基因疾病关系,建立基因疾病关系知识库。

在一个实施例中,所述基因疾病关系知识库构建装置还包括:

自然语句获取模块,用于在指定的医学资料库中获取包含基因-疾病实体对的自然语句;

选择模块,用于随机选取指定数量的包含基因-疾病实体对的自然语句。

在一个实施例中,所述依存关系分析模块1包括:

依存关系分析单元,用于利用自然语言处理工具包stanfordnlp对每个所述自然语句进行依存关系分析,获得每个所述自然语句的依存关系。

在一个实施例中,所述基因疾病关系知识库构建装置还包括:

聚类模块,用于计算不同的路径描述符之间的编辑距离,将编辑距离小于等于第一指定值的路径描述符聚类为同一种路径描述符;

过滤模块,用于识别所述自然语句中的依存关系中是否存在否定语义,若存在,则过滤掉该所述自然语句对应的路径描述符。

在一个实施例中,所述规则模板生成模块3包括:

统计模块,用于统计同一个路径描述符对应的自然语句case数量,过滤掉所述case数量小于第二指定值的路径描述符;

质量评估模块,用于将过滤后的路径描述符进行质量评估,将通过质量评估的路径描述符保存为规则模板,建立规则模板库。

在一个实施例中,所述质量评估模块包括:

第一统计单元,用于统计待评估的路径描述符所对应的实体对集合;

第二统计单元,用于统计所述实体对集合里的实体对在ctd中存在的数量;

处理单元,用于若存在的数量大于指定的数量阈值或存在的数量与实体对集合中实体对总数量的比值大于指定的比值阈值,则保留所述待评估的路径描述符为可用规则模板,储存起来建立规则模板库。

在一个实施例中,所述知识抽取模块4包括:

实体识别单元,用于对全量的医学文献中的自然语句进行实体识别,获取包含基因-疾病实体对的自然语句;

依存关系分析单元,用于分别对所有包含基因-疾病实体对的自然语句进行依存关系分析,获得每个所述自然语句的依存关系;

路径描述符确定单元,用于根据每个所述自然语句的依存关系确定每个所述自然语句的路径描述符;

判断单元,用于判断所述路径描述符是否在所述规则模板库中;

获取单元,若是,则根据所述路径描述符获取基因疾病关系,将所述基因疾病关系保存在基因疾病关系知识库中。

如上所述,可以理解地,本申请中提出的所述基因疾病关系知识库构建装置的各组成部分可以实现如上所述基因疾病关系知识库构建方法任一项的功能,具体结构不再赘述。

参照图5,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存规则模板等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基因疾病关系知识库构建方法。

上述处理器执行上述的基因疾病关系知识库构建方法,包括:

对指定数量的包含基因-疾病实体对的自然语句进行依存关系分析,获得每个所述自然语句的依存关系;

根据每个所述自然语句的依存关系确定每个所述自然语句的路径描述符,其中所述路径描述符是指自然语句中在基因疾病实体依存路径上所有词的排列顺序;

根据每个所述自然语句的所述路径描述符生成规则模板,建立规则模板库;

利用所述规则模板库中的所述规则模板对全量的医学文献进行知识抽取,获取基因疾病关系,建立基因疾病关系知识库。

本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种基因疾病关系知识库构建方法,包括步骤:

对指定数量的包含基因-疾病实体对的自然语句进行依存关系分析,获得每个所述自然语句的依存关系;

根据每个所述自然语句的依存关系确定每个所述自然语句的路径描述符,其中所述路径描述符是指自然语句中在基因疾病实体依存路径上所有词的排列顺序;

根据每个所述自然语句的所述路径描述符生成规则模板,建立规则模板库;

利用所述规则模板库中的所述规则模板对全量的医学文献进行知识抽取,获取基因疾病关系,建立基因疾病关系知识库。

上述执行的基因疾病关系知识库构建方法,通过对指定数量的包含基因-疾病实体对的自然语句进行依存关系分析,自动学习出大量的规则模板,然后利用规则模板从医学文献中自动抽取基因疾病的关系知识,无需高昂的人工成本,而且抽取到的知识数量多,抽取效果好,并且具有良好的迁移性和适用性,可用于更多的医学实体间关系抽取。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双速据率sdram(ssrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1