药品知识图谱的构建方法及计算存储装置与流程

文档序号:16587556发布日期:2019-01-14 18:40阅读:324来源:国知局
药品知识图谱的构建方法及计算存储装置与流程

本发明涉及人工智能知识图谱技术领域,具体涉及药品知识图谱的构建方法及计算存储装置。



背景技术:

知识图谱是人工智能中知识工程的一个分支,在通用领域已有比较成熟的应用,比如互联网企业推出用以提升搜索服务质量的谷歌知识图谱、搜狗知立方等。

大量的药品专业知识以书籍与文献的形式交流,还有少量的知识可通过百科类网站查询浏览,而这些知识都是非结构化与半结构化的信息数据,无法直接作为人工智能应用的基础,在药品领域,目前尚未有成熟公开的药品知识图谱。

综上,如何有效地将文献、网络渠道等获取的医药数据整理为药品知识,从而为实现人工智能在医药垂直领域中应用打下基础,成为需要解决的问题。



技术实现要素:

本发明实施例的目的在于提供一种药品知识图谱的构建方法及计算存储装置。

第一方面,本发明实施例提供了一种药品知识图谱的构建方法,

获取结构化与半结构化药品知识文本信息;

基于预设的药品特征词典对分词处理之后的每个药品特征信息若干词汇进行匹配识别;将两例或多例信息完全相同药品去除为剩余一例;将药品名称相同其他信息有差异的多例药品的药品名称区分为药品名称1、药品名称2、…药品名称n;

药品名称为第一实体,药品特征为关系,药品特征对应具体信息为第二实体组成三元组;判别实体信息是否符合标准,去除第二实体为空的三元组;

将药品信息三元组存储到图数据库,生成药品知识图谱;

第二方面,本发明实施例又提供了一种药品知识图谱的计算存储装置,包括:

信息获取模块,用于获取结构化与半结构化药品知识文本信息;

数据清理模块,包括分词匹配单元和去重单元,其中分词匹配单元首先将每个药品特征信息进行分词处理,之后利用预设的药品特征词典对分词处理后的若干个词汇进行匹配识别;去重单元将两例或多例信息完全相同的药品去除为剩余一例;将药品名称相同其他信息有差异的多例药品的药品名称区分为药品名称1、药品名称2、…药品名称n;

三元组抽取模块,包括判断单元和数据融合单元,药品名称为第一实体,药品特征为关系,药品特征对应具体信息为第二实体,其中判断单元判别实体信息是否符合标准规范,并去除第二实体为空的个体,数据融合单元将药品数据按照第一实体-关系-第二实体的模式组成三元组;

生成及存储模块,用于将药品信息三元组存储到图数据库,生成药品知识图谱。

本发明实施例提供了一种药品知识图谱的构建方法及计算存储装置,该方法中,首先获取药品知识数据源的文本信息,接着构建药品特征词典,利用特征词典对每个药品特征信息进行匹配识别,去除重复药品信息,将有差异的重名药品按照药品名称序列进行区分,之后以药品名称为第一实体,药品特征为关系,药品特征对应具体信息为第二实体组成三元组;判别实体信息是否符合标准,去除第二实体为空的三元组,最后将药品信息三元组存储到图数据库,生成药品知识图谱。本发明实施例提供的方法能够有效地从医药知识文献、百科类网站等结构化与半结构化药品文本信息中整理得到药品知识,并自动生成药品知识图谱,从而为医生与患者提供较为翔实有效的医药知识。

附图说明

为了更清楚地说明本发明具体实施方式,让本领域技术人员更好地理解本公开的技术方案,下面将对具体实施方式中所需要使用的附图做出介绍。附图仅用于演示出优选实施方式的目的,而并不认为是对本发明的限制。在附图中:

图1是本发明提供的一种药品知识图谱的构建方法实施例流程图;

图2是本发明提供的一种药品知识图谱的计算存储装置实施例结构示意图;

图3是本发明实施例提供的药品知识图谱示意图;

图4是本发明提供的一种计算机设备实施例结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

第一方面,本发明实施例提供了一种药品知识图谱的构建方法,如图1所示,包括:

s101、获取结构化与半结构化药品知识文本信息;

s102、基于预设的药品特征词典对分词处理之后的每个药品特征信息若干词汇进行匹配识别;将两例或多例信息完全相同药品去除为剩余一例;将药品名称相同其他信息有差异的多例药品的药品名称区分为药品名称1、药品名称2、…药品名称n;

s103、药品名称为第一实体,药品特征为关系,药品特征对应具体信息为第二实体组成三元组;判别实体信息是否符合标准,去除第二实体为空的三元组;

s104、将药品信息三元组存储到图数据库,生成药品知识图谱。

本发明实施例提供的药品知识图谱的构建方法中,首先利用药品知识数据源抽取出药品名称、药品特征和药品特征对应具体信息等结构化与半结构化文本信息,然后将获取的文本数据进行去重等清理操作,接着以药品名称为第一实体,药品特征为关系,药品特征对应具体信息为第二实体组成三元组,最后将药品信息三元组存储到图数据库,进而得到药品知识图谱。本发明实施例提供的方法能够有效地从医药知识文献、百科类网站等结构化与半结构化药品文本信息中整理得到药品知识,并自动生成药品知识图谱,从而为医生与患者提供较为翔实有效的医药知识。

为便于理解,下面对上述方法实施例中的各个步骤进行详细说明。

s101、获取结构化与半结构化药品知识文本信息;

其中,药品知识数据源具体可以包括:结构化的药品数据库,半结构化的网站百科类信息、医药网药品信息,当然还可以包括其他记载有药品知识的数据源,本发明实例对此不作具体限定。这里的具体获取方法可以利用网络爬虫技术对药品知识数据源进行大规模爬取,也可以人工整理。

需要说明的是,各类医药网在售的药品已有国家相关部门认证,其药品特征及对应信息不用后续专业人员进行确认;网站百科类药品信息是由网友自行编辑,其药品特征及对应信息需要后续专业人员进行确认。这里以scrapy网络爬虫框架获取医药网在售药品信息为例介绍详细流程,具体包括:

s1011、网页抓取;

引擎从调度器获取url链接并将url链接作为请求传给下载器,然后下载器将药品网页源码信息下载下来,并封装为响应。

调度器需要有一个初始url链接作为获取药品信息的入口,可以为常见任意销售药品的网站。下载器将网页源码信息下载后,等待下一步的解析。

s1012、网页解析;

下载器获得的网页源码中含有超链接、文本、数字等信息,可以利用正则表达式、xpath、css等解析网页的语法对下载的网页进行解析,药品信息一般以表格的形式存在,将药品名称、药品特征、药品特征对应信息解析出来。药品特征主要包含包装规格、生产企业、有效期、批准文号、适应症、禁忌、用法用量等。

s1013、数据存储;

若网页解析出来的是药品信息实体,则将药品信息存储起来,若解析出是url链接,则把url交给调度器等待抓取。

s102、基于预设的药品特征词典对分词处理之后的每个药品特征信息若干词汇进行匹配识别;将两例或多例信息完全相同药品去除为剩余一例;将药品名称相同其他信息有差异的多例药品的药品名称区分为药品名称1、药品名称2、…药品名称n;

其中,这里的药品特征词典为预先设置好的词典,可以通过如下方式来构建:以医院药品信息词库为基础,构建标准规范的药品特征词典。这一词典中收录了全面的医药特征知识词汇,例如“功效主治”、“注意事项”、“用法用量”、“成分”、“不良反应”、“生产企业”、“禁忌”、“规格”、“贮藏”等词汇。

进而可以将单个药品的特征进行分词处理,分词处理后的词汇与药品特征词典中的词汇进行字符串识别或计算词汇相似度。例如,获取的药品特征中含有“禁忌事项”、“化学成分”这样的词汇,那么在进行分词之后,“禁忌”以及“事项”这样的词汇实体就可以被识别出来,在与药品特征词典匹配的时候,可以匹配到“禁忌”,同理,“化学成分”在分词之后可以匹配到“成分”。在获取的药品特征中含有“主要功能”时,可以通过计算该词汇与药品特征词典中词汇的相似性来进行排序,将相似性最高的词与之匹配,“主要功能”与药品特征词典中的“功效主治”相似性最高,故可以将“主要功能”匹配到“功效主治”。

药品信息会有重复的现象,在完成药品信息获取和药品特征分词匹配之后,需要将两例或多例药品信息完全相同的药品删减为仅保留一例。

药品信息会有药品名称相同,而其他药品特征有差异的现象,例如不同药企生产的阿莫西林胶囊,其“生产企业”药品特征会有差异,这种情况需要将药品名称进行差异化,如“阿莫西林胶囊1”、“阿莫西林胶囊2”、…“阿莫西林胶囊n”。

s103、药品名称为第一实体,药品特征为关系,药品特征对应具体信息为第二实体组成三元组;判别实体信息是否符合标准,去除第二实体为空的三元组;

具体来说,以每个药品的差异化后的药品名称作为第一实体,以药品特征词典中词汇为关系,以对应药品特征的具体信息为第二实体。由于有些药品没有药品特征词典中特征词汇对应的第二实体,所以在合并为三元组后,去除第二实体为空的个体。

最终得到<第一实体关系第二实体>这样的三元组数据。

下面以“阿莫西林胶囊”为例来说明上述过程。

有多个药企生产药品“阿莫西林胶囊”,此处药企a生产的为“阿莫西林胶囊1”,该药品的“禁忌”为:“青霉素过敏及青霉素皮肤试验阳性患者禁用”,“贮藏”为:“遮光,密封保存”,“有效期”为:“48个月”。

首先药品名称为“阿莫西林胶囊1”;

药品特征分别为“禁忌”、“贮藏”和“有效期”。

药品特征对应信息分别为“青霉素过敏及青霉素皮肤试验阳性患者禁用“、“遮光,密封保存”、“48个月”。

那么生成的三元组为:

<阿莫西林胶囊1禁忌青霉素过敏及青霉素皮肤试验阳性患者禁用>

<阿莫西林胶囊1贮藏遮光、密封保存>

<阿莫西林胶囊1有效期48个月>

s104、将药品信息三元组存储到图数据库,生成药品知识图谱

具体来说可以将上述三元组导入neo4j图数据库中,并进行可视化操作,最终生成医学知识图谱,图3示出了一种药品知识图谱的示例。

从而在医生或患者输入例如疾病、禁忌等实体参数之后,在对这些实体参数进行分词以及语义解析之后确定医生和患者想输入的实体,再基于该已生成的药品知识图谱,可以自动生成并输出关于该实体参数的用药方案,以辅助医生用药,帮助患者避免禁忌用药。

第二方面,本发明实施例还提供了一种药品知识图谱的计算存储装置,如图4所示,包括:

信息获取模块10,用于获取结构化与半结构化药品知识文本信息;

数据清理模块20,用于对药品特征进行匹配处理,将每例药品的特征信息标准化,去除重复药品信息。

三元组抽取模块30,用于融合药品信息,将药品数据按照第一实体-关系-第二实体的模式组成三元组;

生成及存储模块40,用于将药品信息三元组存储到图数据库,生成药品知识图谱。

进一步地,如图2所示,数据清理模块20包括:

分词匹配单元21,用于将每个药品特征信息进行分词处理,之后利用预设的药品特征词典对分词处理后的若干个词汇进行匹配识别;

去重单元22,用于将两例或多例信息完全相同的药品去除为剩余一例;将药品名称相同其他信息有差异的多例药品的药品名称区分为药品名称1、药品名称2、…药品名称n;

进一步地,三元组抽取模块30包括:

判断单元31,用于判断实体信息是否符合标准规范;

数据融合单元32,用于在符合标准规范地情况下,将药品信息融合为三元组。

本发明实施例提供的药品知识图谱计算存储装置,与上述实施例提供的药品知识图谱构建方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。本领域所属技术人员能够了解本实施例的药品知识图谱的计算存储装置的具体实施方式以及其各种变化形式,所以在此对于该药品知识图谱的计算存储装置如何实现本发明实施例中的药品知识图谱的构建方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中药品知识图谱的构建方法所采用的装置,都属于本申请所欲保护的范围。

此外,图4示出本发明实施例提供的计算机设备结构框图。

参照图4,该计算机设备,包括:处理器201、存储器202、以及总线203;

其中,所述处理器201与存储器202通过总线203完成两者之间的通信。

所述处理器201用于调用存储器202中的程序指令,以执行上述各个方法实施例所提供的方法。

本发明实施例公开了一种计算机程序软件,所述计算机程序软件包括程序指令,当所述程序指令被计算机执行时,计算机能够处理执行上述各方法实施例所提供的方法。

本发明实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。

前述的存储介质包括:u盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可存储程序代码的介质。

前述的计算机设备可以是个人计算机、服务器或者网络设备等。

可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1