本发明涉及定义型知识图谱评估,尤其涉及一种医学知识图谱质量评估方法及系统。
背景技术:
1、随着算法模型的发展和真实场景的应用需求,各种业务领域的知识图谱不断被构建出来,对于已构建的定义型知识图谱,如何有效评估知识图谱的质量,是当前亟待解决的问题。
2、鉴于此,本发明提出了一种医学知识图谱质量评估方法及系统,能够对已构建的定义型医学知识图谱进行质量评估,以便后续对医学知识图谱的状态和不足之处进行认识和修正。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种医学知识图谱质量评估方法及系统。
2、第一方面本技术提出了一种医学知识图谱质量评估方法,用于后端服务器、与后端服务器交互的前端以及与后端服务器交互的知识图谱检测系统,该方法包括:
3、用户在前端发送目标定义型医学知识图谱检测的api请求,api请求通过http接口形式返回至后端服务器,所述目标定义型医学知识图谱为已构建的定义型医学知识图谱;
4、后端服务器接收前端发送的api请求,调用知识图谱检测系统对目标定义型医学知识图谱进行形式检测、概念异常检测和关系一致性检测;
5、知识图谱检测系统对目标定义型医学知识图谱进行检测后,生成质量检测结果返回给后端服务器;
6、后端服务器将质量检测结果通过http接口形式返回至前端,在前端显示质量检测结果;
7、所述形式检测包括术语重复性检测、属性值异常检测和异常字符检测,所述概念异常检测包括概念粒度异常检测和分类异常检测,所述关系一致性检测包括层级关系闭合检测和关系唯一性检测。
8、在一些实施例的一些可选的实现方式中,所述术语重复性检测,具体包括:
9、采用直接匹配实体名的方法,判断同一类型的实体集合中是否存在重复的实体,若判断某一类型的实体集合中存在重复的实体,则判定相应类型的实体集合中某个实体不唯一;相反,则判定相应类型的实体集合中实体唯一。
10、在一些实施例的一些可选的实现方式中,所述属性值异常检测,具体包括:
11、采用直接匹配属性值内容的方法,判断每个实体的属性值数据是否存在重复的内容,若判断某一实体的属性值数据存在重复的内容,则判定相应实体的属性值数据不唯一;相反,则判定相应实体的属性值数据唯一。
12、在一些实施例的一些可选的实现方式中,所述异常字符检测,具体包括:
13、利用待检测实体中每个词在目标定义型医学知识图谱中成词的概率作为指标进行检测,所述待检测实体在目标定义型医学知识图谱中成词的概率的相反数pp(s)的计算公式如下:
14、
15、式中:s表示待检测实体,n表示句子长度,表示第i个词的概率,表示基于前i-1个词,计算得到第i个词的概率;
16、根据待检测实体在目标定义型医学知识图谱中成词的概率的相反数pp(s),得到待检测实体在目标定义型医学知识图谱中成词的概率ppl。
17、在一些实施例的一些可选的实现方式中,所述概念粒度异常检测,具体包括:
18、判断每个尾节点的实体类型对应的关系下面是否存在子集,若判断某一尾节点的实体类型对应的关系下面存在子集,则判定相应尾节点的实体类型不属于最细粒度实体类型;相反,则判定相应尾节点的实体类型属于最细粒度实体类型。
19、在一些实施例的一些可选的实现方式中,所述分类异常检测,具体包括:
20、判断每个非顶层实体类型是否只属于一个类型的顶层实体类型,若判断某一非顶层实体类型只属于一个类型的顶层实体类型,则判定相应非顶层实体类型分类正常;相反,则判定相应非顶层实体类型分类异常。
21、在一些实施例的一些可选的实现方式中,所述层级关系闭合检测,具体包括:
22、判断从最顶层实体类型至最细粒度实体类型的每条层级关系以及从相应的最细粒度实体类型至最顶层实体类型的相应层级关系能否形成闭环,若形成闭环,则判定相应层级关系闭合;相反,则判定相应层级关系不闭合。
23、在一些实施例的一些可选的实现方式中,所述关系唯一性检测,具体包括:
24、采用规则校验的方法,判断每个实体和相应实体包含的所有子集实体集合中相同类型的实体之间的关系类型是否唯一,若判断某一实体和相应实体包含的所有子集实体集合中相同类型的实体之间的关系类型唯一,则判定相应实体的同一类型的关系唯一;相反,则判定相应实体的同一类型的关系不唯一。
25、第二方面本技术提出了一种医学知识图谱质量评估系统,用于后端服务器、与后端服务器交互的前端以及与后端服务器交互的知识图谱检测系统,所述前端包括请求发送模块和显示模块;所述后端服务器包括请求接收模块、调用模块和结果发送模块;所述知识图谱检测系统包括形式检测模块、概念异常检测模块、关系一致性检测模块和结果生成模块;
26、请求发送模块,用于用户在前端发送目标定义型医学知识图谱检测的api请求,api请求通过http接口形式返回至后端服务器,所述目标定义型医学知识图谱为已构建的定义型医学知识图谱;
27、显示模块,用于接收后端服务器发送的质量检测结果,并在前端显示质量检测结果;
28、请求接收模块,用于后端服务器接收前端发送的api请求;
29、调用模块,用于调用知识图谱检测系统对目标定义型医学知识图谱进行形式检测、概念异常检测和关系一致性检测;
30、形式检测模块,用于对目标定义型医学知识图谱进行形式检测;
31、概念异常检测模块,用于对目标定义型医学知识图谱进行概念异常检测;
32、关系一致性检测模块,用于对目标定义型医学知识图谱进行关系一致性检测;
33、结果生成模块,用于知识图谱检测系统对目标定义型医学知识图谱进行检测后,生成质量检测结果返回给后端服务器;
34、结果发送模块,用于后端服务器将质量检测结果通过http接口形式返回至前端;
35、所述形式检测包括术语重复性检测、属性值异常检测和异常字符检测,所述概念异常检测包括概念粒度异常检测和分类异常检测,所述关系一致性检测包括层级关系闭合检测和关系唯一性检测。
36、第三方面本技术提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
37、本发明的优点及有益效果在于:本发明提供的一种医学知识图谱质量评估方法及系统,该方法通过用户在前端发起对目标定义型医学知识图谱进行检测的api请求,该api请求通过http接口形式返回至后端服务器,后端服务器在接收该api请求后开始调用知识图谱检测系统进行检测,基于形式检测、概念异常检测和关系一致性检测,以便对目标定义型医学知识图谱的状态和不足之处进行筛选,生成相应的质量检测结果,后端服务器将生成的质量检测结果再次通过http接口形式返回至前端,用于展示质量检测结果,以供用户查看,通过查看质量检测结果,用户能够对目标定义型医学知识图谱的状态和不足之处认识和了解,以便下一步的修正,从而提高了定义型医学知识图谱内知识的准确性和可靠性。