一种基于文本相似度的病状判断方法、装置及可读介质

文档序号:37910702发布日期:2024-05-10 23:50阅读:10来源:国知局
一种基于文本相似度的病状判断方法、装置及可读介质

本发明涉及医疗大数据处理领域,具体涉及一种基于文本相似度的病状判断方法、装置及可读介质。


背景技术:

1、目前,只有具有专业医学知识的医生才能根据病历文本来判断病人的基本情况,并结合这些基本情况来判断患者患某些病症的可能。但是,这样的方法十分依赖医生的专业素质,耗费的人力成本过大。再者每位医生对于同一份病历的侧重点不同,具有比较强的主观判断,可能会造成判断片面等问题。对于陌生的医患病历,医生阅读病历判断病情需要花费较长的时间成本。这些问题都造成了病历阅读困难、病状预警不全面等情况出现。现有的技术主要研究医疗文本的分类问题,具体来说就是根据现有的医疗文本,判断病情所属类别,这样的技术仅能将医疗文本进行大致的分类,而无法达到理解患病情况、实现病程预警的效果。


技术实现思路

1、本技术的目的在于针对上述提到的技术问题提出一种基于文本相似度的病状判断方法、装置及可读介质,以克服现有病历阅读门槛高、理解所需时间长、判断病程有疏漏等问题。

2、第一方面,本发明提供了一种基于文本相似度的病状判断方法,包括以下步骤:

3、获取病历文本数据,对病历文本数据进行裁切和过滤处理,得到若干个短病历文本;

4、构建基于病状特征的树状结构,树状结构包括若干个根节点以及与每个根节点连接的若干个叶子节点,根节点上记录与病状相关的人体系统分类结果,叶子节点上记录与病状相关的症状描述和/或症状程度描述,采用深度遍历算法对基于病状特征的树状结构进行遍历,并解析得到若干个完整病状描述文本,完整病状描述文本由根节点上记录的人体系统分类结果与其对应的每个叶子节点上记录的症状描述和/或症状程度描述拼接而成;

5、分别对每个完整病状描述文本和短病历文本进行编码,得到第一文本向量和第二文本向量;

6、遍历每个短病历文本,将每个短病历文本所对应的第二文本向量与每个完整病状描述文本所对应的第一文本向量进行相似度计算,得到相似度值,并统计每个短病历文本与每个完整病状描述文本之间的共同字符数,根据相似度值和共同字符数计算得到相似度评分,基于相似度评分确定短病历文本对应的病状。

7、作为优选,对病历文本数据进行裁切和过滤处理,得到若干个短病历文本,具体包括:

8、基于标点符号将病历文本数据裁切为若干语句,并保存在病历文本列表中;

9、采用关键词和正则表达式过滤掉若干语句中与病状描述无关的信息,得到若干个短病历文本,与病状描述无关的信息包括个人信息和文本字符。

10、作为优选,采用深度遍历算法对树状结构进行遍历,并解析得到若干个完整病状描述文本,具体包括:

11、从树状结构的每个根节点开始递归遍历,并构建一个病状描述文本列表,病状描述文本列表中存储由每次遍历完成后已读取到的人体系统分类结果、症状描述和/或症状程度描述拼接而成的病状描述文本,病状描述文本的开头为人体系统分类结果;

12、设当前遍历的节点为root,判断当前节点root是否为空节点,若是则返回上一层的节点,否则判断当前节点root是否还有下一层的节点,若是,则确定当前节点root为根节点,读取根节点上记录的人体系统分类结果,并再次递归进行下一次遍历,否则确定为叶子节点读取叶子节点上记录的症状描述和/或症状程度描述并将其与遍历完上一层的节点后得到的病状描述文本拼接,直至得到完整病状描述文本。

13、作为优选,分别对每个完整病状描述文本和短病历文本进行编码,得到第一文本向量和第二文本向量,具体包括:

14、对每个完整病状描述文本和短病历文本分别采用基于全词掩码技术的中文预训练模型bert-wwm将其转化为第一文本向量和第二文本向量。

15、作为优选,将每个短病历文本所对应的第二文本向量与每个完整病状描述文本所对应的第一文本向量进行相似度计算,得到相似度值,并统计每个短病历文本与每个完整病状描述文本之间的共同字符数,根据相似度值和共同字符数计算得到相似度评分,具体包括:

16、计算每个短病历文本所对应的第二文本向量与每个完整病状描述文本所对应的第一文本向量之间的余弦相似度s,表达式如下:

17、

18、其中,yi为短病历文本所对应的第二文本向量,xi为完整病状描述文本所对应的第一文本向量;

19、统计每个短病历文本与每个完整病状描述文本之间的初始共同字符;

20、在初始共同字符的基础上根据关键词过滤掉无法表征两者相似程度的字符,最终统计得到共同字符数c,无法表征两者相似程度的字符包括性质为介词、形容词的字符;

21、按照下式计算相似度评分:

22、score=αs+(1-α)c

23、其中,α为权重系数,0<α<1。

24、作为优选,基于相似度评分确定短病历文本对应的病状,具体包括:

25、判断相似度评分是否大于预设阈值,若是,则将对应的完整病状描述文本作为短病历文本对应的病状进行输出。

26、作为优选,还包括:

27、响应于确定完整病状描述文本的末端为预警文本,则根据预警文本生成并输出预警信息。

28、第二方面,本发明提供了一种基于文本相似度的病状判断装置,包括:

29、病历文本数据处理模块,被配置为获取病历文本数据,对病历文本数据进行裁切和过滤处理,得到若干个短病历文本;

30、树状结构构建模块,被配置为构建基于病状特征的树状结构,树状结构包括若干个根节点以及与每个根节点连接的若干个叶子节点,根节点上记录与病状相关的人体系统分类结果,叶子节点上记录与病状相关的症状描述和/或症状程度描述,采用深度遍历算法对树状结构进行遍历,并解析得到若干个完整病状描述文本,完整病状描述文本由根节点上记录的人体系统分类结果与其对应的每个叶子节点上记录的症状描述和/或症状程度描述拼接而成;

31、编码模块,被配置为分别对每个完整病状描述文本和短病历文本进行编码,得到第一文本向量和第二文本向量;

32、相似度确定模块,被配置为遍历每个短病历文本,将每个短病历文本所对应的第二文本向量与每个完整病状描述文本所对应的第一文本向量进行相似度计算,得到相似度值,并统计每个短病历文本与每个完整病状描述文本之间的共同字符数,根据相似度值和共同字符数计算得到相似度评分,基于相似度评分确定短病历文本对应的病状。

33、第三方面,本发明提供了一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

34、第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

35、相比于现有技术,本发明具有以下有益效果:

36、(1)本发明的基于文本相似度的病状判断方法通过构建基于病状特征的树状结构,并遍历得到尽可能全面的完整病状描述文本,将病历文本数据裁切得到的短病历文本与完整病状描述文本进行相似度比较,以得到相似的完整病状描述文本,能够在短时间内理解病历文本,指明病人可能存在的病状,并给出预警信息。

37、(2)本发明的基于文本相似度的病状判断方法能够自动从病历文本数据中提取出关键的完整的短病历文本,并与完整病状描述文本匹配,从而根据对应的完整病状描述文本给出对应的预警信息,帮助医护人员快速获取完整的病历信息。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1