1.本技术涉及智能医疗技术领域,特别是涉及一种诊断预测方法及相关装置、电子设备和存储介质。
背景技术:2.目前,常见的诊断推荐系统主要根据患者的现病史和既往史来为患者推荐诊断,可以极大地节省医生的就诊时间,辅助医生快速做出诊断,提高医生的工作效率。其中,一般通过计算两份病例之间的相似度,在相似度大于阈值则保留并推荐给用户;或者,通过对已有的大量数据进行标注,将病历与标注过的大量数据进行比对,并结合预先设定的权重进行权重分配,最后将权重最大的诊断推荐给用户。
3.但是,前一种方式,过于依赖阈值的判定,单通过阈值就将部分数据删除不够科学严谨;后一种方式,仅会标注预设设定的每个诊断的性别、年龄、症状、检查检验结果,考虑的信息不够全面,无法区分不同地域、不同医院对诊断的影响。
技术实现要素:4.本技术主要解决的技术问题是提供一种诊断预测方法及相关装置、电子设备和存储介质,能够提高诊断预测结果的准确性。
5.为了解决上述技术问题,本技术第一方面提供了一种诊断预测方法,包括:获取目标对象的病历文本,并获取目标对象的个人史文本;其中,个人史文本包括目标对象住过的目标地点以及在各个目标地点的居住时长;获取与个人史文本相关的地域属性信息和患病规则信息;其中,地域属性信息包括各个目标地点分别流行的第一疾病及其严重程度,患病规则信息包括各种第一疾病的罹患规则,且罹患规则包括在流行第一疾病的目标地点的居住时长与罹患第一疾病的可能性之间的映射关系;基于病历文本、个人史文本、地域属性信息和患病规则信息进行诊断预测,得到目标对象的诊断预测结果;其中,诊断预测结果包括目标对象分别罹患若干种疾病的概率值,且若干种疾病包括第一疾病。
6.为了解决上述技术问题,本技术第二方面提供了一种诊断预测装置,包括:第一获取模块,用于获取目标对象的病历文本,并获取目标对象的个人史文本;其中,个人史文本包括目标对象住过的目标地点以及在各个目标地点的居住时长;第二获取模块,用于获取与个人史文本相关的地域属性信息和患病规则信息;其中,地域属性信息包括各个目标地点分别流行的第一疾病及其严重程度,患病规则信息包括各种第一疾病的罹患规则,且罹患规则包括在流行第一疾病的目标地点的居住时长与罹患第一疾病的可能性之间的映射关系;预测模块,用于基于病历文本、个人史文本、低于属性信息和患病规则信息进行诊断预测,得到目标对象的诊断预测结果;其中,诊断预测结果包括目标对象分别罹患若干种疾病的概率值,且若干种疾病包括第一疾病。
7.为了解决上述技术问题,本技术第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方
面中的诊断预测方法。
8.为了解决上述技术问题,本技术第四方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面中的诊断预测方法。
9.上述方案,通过综合考虑病历文本、个人史文本、地域属性信息和患病规则信息,即本技术不止考虑了病历文本中目标对象的性别、年龄、症状、检验检查等信息,还考虑了目标对象个人史文本中目标地点和目标地点的居住时长信息以及与个人史文本相关的地域属性信息和患病规则信息等,在此基础上生成诊断预测结果,使得得到的目标对象的诊断预测结果更加合乎真实场景,准确性更高。
附图说明
10.图1是本技术提供的诊断预测方法一实施例的流程示意图;
11.图2是本技术提供的基于规则匹配得到诊断预测结果一实施例的流程示意图;
12.图3是本技术提供的基于规则匹配得到诊断预测结果另一实施例的流程示意图;
13.图4是本技术提供的基于规则匹配得到诊断预测结果另一实施例的流程示意图;
14.图5是本技术提供的基于模型预测得到诊断预测结果一实施例的流程示意图;
15.图6是本技术提供的诊断预测模型一实施例的结构示意图;
16.图7是本技术提供的基于模型预测得到诊断预测结果另一实施例的流程示意图;
17.图8是本技术提供的基于模型预测得到诊断预测结果另一实施例的流程示意图;
18.图9是本技术提供的诊断预测装置一实施例的框架示意图;
19.图10是本技术提供的电子设备一实施例的框架示意图;
20.图11是本技术提供的计算机可读存储介质一实施例的框架示意图。
具体实施方式
21.下面结合说明书附图,对本技术实施例的方案进行详细说明。
22.以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本技术。
23.本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
24.请参阅图1,图1是本技术提供的诊断预测方法一实施例的流程示意图。需要注意的是,若有实质上相同的结果,本实施例并不以图1所示的流程顺序为限。如图1所示,本实施例包括:
25.步骤s11:获取目标对象的病历文本,并获取目标对象的个人史文本。
26.本实施例的方法用于基于目标对象的病历文本和目标对象的个人史文本生成目标对象的诊断预测结果,本文所述的病历文本具体可以包括但不限于:主诉(main suit)、现病史(illness history)、既往史(previous history)、辅助检查(aux exam)、常规检查(checkup)等等,在此不做限定。需要说明的是,主诉为病人自诉病情,如“阵发性右上腹痛伴恶心呕吐1天”;现病史是记录病人病后的全过程,即发生、发展、演变和诊治经过,如“阵
发性右上腹痛恶心呕吐1天,不发热,无腹泻”;既往史为就医时医生向病人问询的病人既往的健康状况和过去曾经患过的疾病等方面;辅助检查可以包括但不限于:ct(computed tomography,计算机断层扫描)、b超等检查;常规检查可以包括但不限于:血压、体格等检查。
27.其中,本文所述的个人史文本包括目标对象住过的目标地点以及在各个目标地点的居住时长。目标地点包括出生地、成长地、居留地以及短暂停留地等。举例来说,某患者a的个人史文本涉及4个住过的目标地点,具体为:出生地(全椒县)-18年,成长地(明光县)-4年,居留地(尚义县)-2年,短暂停留地(天长县)-10天。
28.在一实施方式中,可采用关键信息提取、命名实体识别、实体关联等自然语言处理(natural language processing,nlp)技术从目标对象的描述中提炼得到目标对象的个人史文本。在其他实施方式中,也可利用其他处理技术从目标对象的描述中提炼得到目标对象的个人史文本,在此不做具体限定。
29.步骤s12:获取与个人史文本相关的地域属性信息和患病规则信息。
30.本实施方式中,获取与个人史文本相关的地域属性信息和患病规则信息。也就是说,根据获得的目标对象的个人史文本,获取与目标对象的个人史文本相关的地域属性信息和患病规则信息。
31.其中,地域属性信息包括各个目标地点分别流行的第一疾病及其严重程度。举例来说,某患者a的个人史文本涉及3个住过的目标地点,具体为:张北县、尚义县和涿鹿县;3个目标地点流行的第一疾病均为克山病;各个目标地点流行的克山病的严重程度为:张北县-克山病-重病区、尚义县-克山病-中病区、涿鹿县-克山病-轻病区。
32.患病规则信息包括各种第一疾病的罹患规则,且罹患规则包括在流行第一疾病的目标地点的居住时长与罹患第一疾病的可能性之间的映射关系。也就是说,目标对象罹患第一疾病的概率与在流行第一疾病的目标地点的居住时长存在关系。其中,在流行第一疾病的目标地点的居住时长与罹患第一疾病的可能性之间的映射关系可以是居住时长越长,罹患第一疾病的概率越大;也可以是居住时长越短,罹患第一疾病的概率越大。举例来说,第一疾病为克山病,在流行克山病的张北县的居住时长与罹患克山病的可能性之间的映射关系为:在张北县居住时长越长,目标对象罹患克山病的概率越大。
33.步骤s13:基于病历文本、个人史文本、地域属性信息和患病规则信息进行诊断预测,得到目标对象的诊断预测结果。
34.由于不同地域特有的地质、地貌、水质、气候、食物、居住条件等,可能使得不同地域会有其特有的流行疾病,分为化学性流行疾病和生物性流行疾病两大类,前者如碘元素的缺乏可引起地方性甲状腺肿或克汀病,氟元素分布过多的地方会引起地方性氟中毒,而缺氟地区可出现龋齿、老年骨质疏松症增多等;后者如血吸虫病、疟疾、鼠疫等。所以,单一考虑目标对象的性别、年龄、症状、检验检查结果等信息,不够科学全面,得到的诊断预测结果不合乎真实场景,准确性较低。
35.本实施方式中,根据病历文本、个人史文本、地域属性信息和患病规则进行诊断预测,得到目标对象的诊断预测结果。也就是说,本技术不止考虑了病历文本中目标对象的性别、年龄、症状、检验检查等信息,还考虑了目标对象个人史文本中目标地点和目标地点的居住时长信息以及与个人史文本相关的地域属性信息和患病规则信息等,即通过综合考虑
病历文本、个人史文本、地域属性信息和患病规则信息生成诊断预测结果,使得得到的目标对象的诊断预测结果更加合乎真实场景,准确性更高。
36.其中,诊断预测结果包括目标对象分别罹患若干种疾病的概率值,且若干种疾病中包括第一疾病。举例来说,诊断预测结果包括:“化脓性关节炎”、“克山病”、“急性胆囊炎”、“胆管结石”、“上呼吸道感染”和“扁桃体炎”,且目标对象罹患“化脓性关节炎”的概率值为0.4,罹患“克山病”的概率值为0.3,罹患“急性胆囊炎”的概率值为0.2,罹患“胆管结石”的概率值为0.5,罹患“上呼吸道感染”的概率值为0.4以及罹患“扁桃体炎”的概率值为0.8。
37.在一实施方式中,具体可以将最大的概率值对应的疾病作为诊断预测结果,以供用户参考。在其他实施方式中,也可以按照概率值由大到小的顺序,将概率值进行排序,并选取排在预设序位之前的若干种疾病,作为诊断预测结果,以供用户参考。其中,预设序位具体可以根据实际应用需要进行设置。例如,可以设置为3、4、5等,在此不做限定。
38.在一实施方式中,在生成目标对象的诊断预测结果时,也可同时考虑疾病好发季节这一信息。考虑不同疾病的好发病时间,如手足口病在夏季和秋季比较容易爆发,慢性阻塞性肺疾病通常在冬季和春季发病,所以同时考虑疾病好发季节这一信息,能够动态调整诊断预测结果中各种疾病的排序,从而提高诊断预测结果的准确性。
39.在其他实施方式中,在生成目标对象的诊断预测结果时,也可同时考虑不同等级医院的发病概率规则信息。不同等级医院出现疾病的频率存在差别,如三级医院更多出现的是危急重症疾病及罕见病、一级医院更多出现的是常见病。例如,咳嗽、咳痰、气喘,对应的可能疾病有支气管炎、慢性阻塞性肺疾病急性发作等,三级医院出现慢性阻塞性肺疾病急性发作的概率远远高于支气管炎,一级医院恰恰相反。所以,将不同等级医院的发病概率规则信息考虑在内,能够使得诊断预测结果更加充分地合乎真实场景,提高诊断预测结果的准确性。
40.在一实施方式中,诊断预测结果可以是基于规则匹配得到的,即基于规则匹配的方式,对病历文本、个人史文本、地域属性信息和患病规则信息进行处理,以得到目标对象的诊断预测结果。可以理解地,在其他实施方式中,为了提高生成目标对象的诊断预测结果的泛化能力,诊断预测结果也可以是基于模型预测得到的,即基于模型预测的方式,对病历文本、个人史文本、地域属性信息和患病规则信息进行处理,以得到目标对象的诊断预测结果。可以理解地,在其他实施方式中,也可将基于规则匹配得到的诊断预测结果和基于模型预测得到的诊断预测结果进行融合,从而得到最终的诊断预测结果。
41.上述方案,通过综合考虑病历文本、个人史文本、地域属性信息和患病规则信息,即本技术不止考虑了病历文本中目标对象的性别、年龄、症状、检验检查等信息,还考虑了目标对象个人史文本中目标地点和目标地点的居住时长信息以及与个人史文本相关的地域属性信息和患病规则信息等,在此基础上生成诊断预测结果,使得得到的目标对象的诊断预测结果更加合乎真实场景,准确性更高。
42.请参阅图2,图2是本技术提供的基于规则匹配得到诊断预测结果一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图2所示的流程顺序为限。如图2所示,本实施例中,诊断预测结果是基于规则匹配得到的,具体包括:
43.步骤s21:基于目标地点流行第一疾病的严重程度,得到第一疾病的第一权重系
数,并基于罹患规则,得到第一疾病的第二权重系数。
44.本实施方式中,根据目标地点流行第一疾病的严重程度,得到第一疾病的第一权重系数;并根据罹患第一疾病的规则,得到第一疾病的第二权重系数。其中,不对目标地点流行第一疾病的严重程度和第一疾病的第一权重系数之间的关系以及罹患规则和第一疾病的第二权重系数之间的关系进行具体限定。例如,目标地点流行第一疾病的严重程度和第一疾病的第一权重系数成正相关的关系,即目标地点流行第一疾病的严重程度越高,第一权重系数越大;在流行第一疾病的目标地点的居住时长和第一疾病的第二权重系数成正相关的关系,即在流行第一疾病的目标地点的居住时长越长,第二权重系数越大。
45.步骤s22:融合第一权重系数和第二权重系数,得到目标对象罹患第一疾病的第一概率值。
46.本实施方式中,将第一疾病的第一权重系数和第一疾病的第二权重系数进行融合,从而得到目标对象罹患第一疾病的第一概率值。
47.在一实施方式中,可将第一权重系数和第二权重系数进行加权求和,从而得到目标对象罹患第一疾病的第一概率值。其中,不对第一权重系数和第二权重系数的权重大小进行限定,可根据实际使用需要具体设置。举例来说,第一权重系数为0.4,第一权重系数对应的权重为0.3,第二权重系数为0.6,第二权重系数对应的权重为0.7,所以目标对象罹患第一疾病的第一概率值=0.4
×
0.3+0.6
×
0.7=0.54。
48.可以理解地,在其他实施方式中,也可将第一权重系数和第二权重系数进行求和处理,从而得到目标对象罹患第一疾病的第一概率值。
49.步骤s23:获取若干第二疾病的诊断规则信息。
50.本实施方式中,诊断规则信息包含诊断文本的若干规则文本。诊断文本具体可以根据实际应用需要进行设置。例如,对于社区医院、诊所等基层医疗机构而言,诊断文本可以包含常见的诊断文本,如具体可以包括:上呼吸道感染、扁桃体炎等等;或者,对于儿科、骨科等专科医院而言,诊断文本可以包含与医学分科相关的诊断文本,如对于骨科医院,诊断文本具体可以包括:化脓性关节炎、大骨节病等等;或者,对于综合性医院而言,诊断文本可以包含与各医学分科相关的诊断文本,如具体可以包括:诸如上述化脓性关节炎、大骨节病等与骨科相关的诊断文本、诸如急性胆囊炎、胆管结石等与普外相关的诊断文本,以及与心内科、神经内科、烧伤科、男科、妇科等医学学科相关的诊断文本,在此不再一一举例。
51.需要说明的是,本公开实施例中,每一诊断文本均对应设置有若干规则文本。
52.在一个具体的实施场景中,为了提高后续诊断推荐的准确性,若干规则文本具体可以包括:与充分条件规则、必要条件规则至少一者相关的第一文本,以及与否定条件规则相关的第二文本。在满足诊断文本的充分条件规则的情况下,可以大概率推断病历文本与该诊断文本相匹配;而在不满足诊断文本的必要条件规则的情况下,可以推断病历文本与该诊断文本不匹配;在满足诊断文本的否定条件规则的情况下,可以推断病历文本与该诊断文本不匹配。
53.在另一个具体的实施场景中,规则文本具体可以包含有若干规则词语。为了提高后续诊断推荐的准确性,规则词语还可以标注有其对应的词语类型。词语类型可以包括但不限于:诱因、症状、体征等等,在此不做限定。
54.以诊断文本“急性胆囊炎”为例,其可以包括下述与充分条件规则相关的第一文
本:“右上腹痛6|右上腹胀6|右上腹不适6|肩背放射痛6,胆囊区压痛7|右上腹反跳痛7|murphy症阳性7|恶心6|呕吐6,^黄疸6,^皮肤巩膜黄染7,^消化道穿孔9”、“进食油腻食物5|饮酒5,右上腹痛6|右上腹压痛7,^右上腹痛6,^黄疸6,^皮肤巩膜黄染7,^饮食不节5”、“右上腹痛6,恶心6|呕吐6|肩背放射痛6,^胆囊结石3,^饮食不节5,^消化道穿孔9”等等,在此不做限定。此外,其还可以包括下述与必要条件规则相关的第一文本:“右上腹痛6|右上腹胀6|上腹不适6|肩背放射痛6”等等,在此不做限定。此外,其还可以包括下述与否定条件规则相关的第二文本:“下腹痛6|下腹胀6|左下腹痛6|左下腹胀6”、“肾区叩击痛7|麦氏点压痛7”等等,在此不做限定。
55.上述各个规则文本中,数字“5”、“6”、“7”均表示规则词语对应的词语类型,其中数字“5”表示诱因,数字“6”表示症状,数字“7”表示体征。采用上述数字标注词语类型仅仅是实际应用中可能存在的一种方式,在其他实施场景中,也可以采用其他数字标注词语类型,或者还可以采用字母等其他字符标注词语类型,在此不做限定。
56.此外,在上述规则文本中,
‘
|’表示逻辑或,
‘
,’表示逻辑与,
‘
^’表示逻辑非。例如,对于上述规则文本“下腹痛6|下腹胀6|左下腹痛6|左下腹胀6”,其具体含义为“下腹痛或者下腹胀或者左下腹痛或者左下腹胀”,其他规则文本可以以此类推,在此不再一一举例。
57.此外,需要说明的是,为了提高诊断推荐的准确性,诊断文本的规则库在使用过程中,可以进行更新。例如,在医生发现某一规则文本不再适用时,可以对其进行修改,或者将其删除,在此不做限定;或者,在医生发现更加准确的规则文本的情况下,可以将该规则文本添加至规则库,或者将该规则文本替换规则库中某一旧的规则文本,在此不做限定。
58.步骤s24:基于病历文本分别与各种第二疾病的规则文本之间的语义相似度,得到目标对象罹患各种第二疾病的第二概率值。
59.本实施方式中,根据病历文本分别与各种第二疾病的规则文本之间的语义相似度,得到目标对象罹患各种第二疾病的第二概率值。也就是说,可利用病历语义表示和若干第二疾病的规则文本的规则语义表示,获取病历文本分别与各种第二疾病的规则文本之间的语义相似度,在此基础上,可以再基于病历文本分别与各种第二疾病的规则文本之间的语义相似度,得到病历文本分别与各种第二疾病之间的语义相似度,即得到目标对象罹患各种第二疾病的第二概率值。
60.在一个实施方式中,可以直接对病历文本进行语义提取,得到病历语义表示。
61.在一个具体的实施场景中,可以将病历文本进行分词,得到若干病历词语,并将若干病历词语进行向量映射,得到病历词语的词语向量,从而可以对若干词语向量进行语义提取,得到若干病历词语的词语语义表示,进而可以将若干病历词语的词语语义表示的组合,作为病历语义表示。例如,病历文本中包含|r|个病历词语,每个病历词语的词语语义表示为d(如,256)维向量,则病历语义表示可以表示为一个维度为|r|*d的向量。
62.在另一个具体的实施场景中,为了提高语义提取效率,可以预先训练一个诊断推荐模型,且诊断推荐模型包括病历语义提取网络,从而可以将上述病历词语的词语向量输入病历语义提取网络,得到病历语义表示。病历语义提取网络可以包括但不限于:bert(bidirectional encoder representation from transformers,即双向transformer的encoder)、emlo(embedding from language model)模型等,在此不做限定。
63.在另一个实施场景中,为了提高病历语义表示的准确性,还可以识别病历文本中
的关键词语,并将病历文本与关键词语进行拼接,以更新病历文本,从而可以对更新后的病历文本进行语义提取,得到病历语义表示。具体地,上述关键词语可以包括但不限于:症状、诱因、病史等等,在此不做限定。上述方式,通过识别病历文本中的关键词语,并将病历文本与关键词语进行拼接,以更新病历文本,从而对更新后的病历文本进行语义提取,得到病历语义表示,能够有利于增强病历文本,提高病历文本的丰富度,提高病历语义表示的准确性。此外,还能够在后续计算与规则文本的规则语义表示的相关度过程中,不仅考虑病历本身的语义信息,还能够考虑提取到的关键词语的语义信息,进而能够有利于提高相关度的准确性。其中,关键词语具体可以是利用hanlp、结巴、ltp等ner(named-entity recognition,命名实体识别)工具对病历文本进行识别得到,在此不做限定。
64.在一个实施方式中,如前所述,第二疾病的规则文本包含若干规则词语,在此基础上,可以获取若干第二疾病的规则词语的语义表示,从而可以基于若干第二疾病的规则词语的语义表示的组合,得到第二疾病的规则文本的规则语义表示。在一个具体的实施场景中,规则词语的语义表示可以是预训练得到的。例如,可以获取bert模型预训练得到的词表中各个词语的语义表示,并将该词表中与规则词语对应的词语的语义表示,作为对应规则词语的语义表示。在另一个具体的实施场景中,为了便于后续计算相关度,还可以对若干规则词语的语义表示的组合进行降维处理,从而得到规则文本的规则语义表示。具体地,可以利用卷积神经网络(convolutional neural network,cnn)对上述规则词语的语义表示的组合进行降维处理。
65.在另一个实施方式中,如前所述,规则文本中包含若干规则词语,在此基础上,可以获取规则词语的第一语义表示,并获取规则文本的规则类型的第二语义表示,从而可以若干规则词语的第一语义表示和规则类型的第二语义表示进行融合,得到规则文本的规则语义表示。具体地,规则类型可以包括但不限于:充分条件规则、必要条件规则、否定条件规则,上述规则类型的具体含义可以参阅前述相关描述,在此不再赘述。上述方式,通过获取规则词语的第一语义表示,并获取规则文本的规则类型的第二语义表示,从而可以若干规则词语的第一语义表示和规则类型的第二语义表示进行融合,得到规则文本的规则语义表示,能够使得规则语义表示不仅包含规则文本本身的语义信息,还包括规则类型的语义信息,进而能够有利于提高规则文本的规则语义表示的准确性,有利于提高后续诊断推荐的准确性。
66.在一个具体的实施方式中,规则类型的第二语义表示具体可以为随机向量。也就是说,该第二语义表示可以是随机初始化得到的。
67.在另一个具体的实施方式中,规则语义表示具体可以表示为一个预设维度d(如,256)的向量。此外,为了便于处理,可以预先设置一个规则文本的最大数量m,如,可以设置为58,则在诊断文本的规则库所包含的规则文本的数量不足上述最大数量的情况下,可以将规则文本的数量补足该最大数量,从而可以使得该诊断文本所对应的若干规则文本的规则语义表示最终可以表示为一个维度为m*d的向量矩阵,如可以表示为一个维度为58*256的向量矩阵。例如,诊断文本对应的若干规则文本包含3条充分条件规则相关的规则文本、1条必要条件规则相关的规则文本和2条否定条件规则相关的规则文本,则该诊断文本的规则语义表示可以表示为一个维度为6*d的向量矩阵,对于不足的52*d可以以0元素进行补足。此外,为了便于描述,可以将该向量矩阵记为。
68.在另一个实施方式中,为了便于提高规则语义表示的提取效率和准确性,还可以在提取规则语义表示之前,检测规则文本是否包含用于表示逻辑或的预设字符(如,前述
‘
|’),并在规则文本包含预设字符的情况下,基于预设字符,将规则文本拆分为至少两个子规则文本,从而后续可以分别对拆分得到的子规则文本进行语义提取。上述方式,通过在分别提取规则库中若干规则文本的规则语义表示之前,检测规则文本是否包含用于表示逻辑或的预设字符,并在规则文本包含预设字符的情况下,基于预设字符,将规则文本拆分为至少两个子规则文本,能够有利于提高提取规则语义表示的效率和准确性。
69.在一个具体的实施方式中,具体可以按预设字符拆分规则文本,并在拆分过程中,保留与逻辑与、逻辑非相关的规则词语。以规则文本“头晕|头痛,^腹痛”为例,可以按照预设字符
‘
|’进行拆分,并保留逻辑与、逻辑非相关的规则词语“腹痛”,最终可以拆分得到两个子规则文本“头晕,^腹痛”和“头痛,^腹痛”。其他情况可以以此类推,在此不再一一举例。
70.步骤s25:结合目标对象罹患各种第一疾病的第一概率值和罹患各种第二疾病的第二概率值,得到目标对象罹患各种疾病的概率值。
71.本实施方式中,结合目标对象罹患各种第一疾病的第一概率值和罹患各种第二疾病的第二概率值,得到目标对象罹患各种疾病的概率值。
72.在一实施方式中,第一疾病和第二疾病中的各种疾病不存在相同的疾病,那么根据目标对象罹患各种第一疾病的第一概率值和罹患各种第二疾病的第二概率值,直接得到目标对象罹患各种疾病的概率值。举例来说,目标对象罹患各种第一疾病的第一概率值分别为:“克汀病”的第一概率值为0.1、“血吸虫病”的第一概率值为0.4、“鼠疫”的第一概率值为0.6、“老年骨质疏松症”的第一概率值为0.5;目标对象罹患各种第二疾病的第二概率值分别为:“化脓性关节炎”的第二概率值为0.4、“大骨节病”的第二概率值为0.3、“急性胆囊炎”的第二概率值为0.2、“胆管结石”的第二概率值为0.5、“上呼吸道感染”的第二概率值为0.4、“扁桃体炎”的第二概率值为0.8;由于各种第一疾病和各种第二疾病之间不存在相同的疾病,所以目标对象罹患各种疾病的概率值分别为:“克汀病”的概率值为0.1、“血吸虫病”的概率值为0.4、“鼠疫”的概率值为0.6、“老年骨质疏松症”的概率值为0.5、“化脓性关节炎”的概率值为0.4、“大骨节病”的概率值为0.3、“急性胆囊炎”的概率值为0.2、“胆管结石”的概率值为0.5、“上呼吸道感染”的概率值为0.4、“扁桃体炎”的概率值为0.8。
73.在其他实施方式中,第一疾病和第二疾病中的各种疾病存在某些相同的疾病,所以需要对该疾病的第一概率值和第二概率值进行融合处理后,以得到对应该疾病的最终概率值。在一具体的实施方式中,可直接将该疾病的第一概率值和第二概率值进行相加,以得到该疾病的概率值。在其他具体的实施方式中,也可在第二概率值的基础上增加第一预设系数与第一概率值的乘积,以得到该疾病的概率值。其中,不对第一预设系数的大小进行限定,可根据实际使用需要具体设置。举例来说,第一疾病“克汀病”的第一概率值为0.3,第二疾病“克汀病”的第二概率值为0.5,第一预设系数为0.2,所以疾病“克汀病”的概率值=0.5+0.3
×
0.2=0.56。
74.请参阅图3,图3是本技术提供的基于规则匹配得到诊断预测结果另一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图3所示的流程顺序为限。如图3所示,本实施例中,同时考虑疾病好发季节这一信息,即同时考虑病历文本、个人史文本、地域属性信息、患病规则信息和疾病好发季节信息,以得到目标对象分别罹患若干种疾
病的概率值,具体包括:
75.步骤s31:基于目标对象的病历文本,获取目标对象的发病时间,并基于好发规则信息,获取各种疾病的好发时间。
76.本实施方式中,根据目标对象的病历文本,获取目标对象的发病时间,并且根据疾病好发规则信息,获取各种疾病的好发时间。
77.举例来说,目标对象的就诊时间为2021年6月28日,并且从目标对象的病历文本中提取到的主诉中症状的持续时间为3天,所以根据就诊时间和病历文本中症状的持续时间,得到目标对象的发病时间为2021年6月25日。又例如,手足口病在夏季和秋季比较容易爆发,慢性阻塞性肺疾病通常在冬季和春季发病,将季节转换为相对应的月份,如北半球的春季为3月、4月和5月,南半球的春季为9月、10月和11月。
78.步骤s32:响应于存在好发时间与发病时间吻合的疾病,将疾病的概率值调大。
79.本实施方式中,响应于存在好发时间与发病时间吻合的疾病,将该疾病的概率值调大。也就是说,通过上述方式获得的目标对象可能罹患的各种疾病中,如果存在某一疾病的好发时间与目标对象的发病时间吻合的话,就将该疾病的概率值对应调大。其中,不对概率值调整的大小进行限定,可根据实际使用需要具体设置,例如,调大0.1、0.15、0.2等。同时考虑不同疾病的好发病时间信息,如手足口病在夏季和秋季比较容易爆发,慢性阻塞性肺疾病通常在冬季和春季发病,能够调整诊断预测结果中各疾病的概率值,从而动态调整各种疾病的排序,进而提高诊断预测结果的准确性。
80.举例来说,目标对象的发病时间为2021年4月25日、通过上述方式获得的目标对象可能罹患的“手足口病”的好发时间为3月-5月、“手足口病”的概率值为0.3,所以“手足口病”的好发时间与目标对象的发病时间吻合,因此将“手足口病”的概率值调大0.1,即为0.4。
81.请参阅图4,图4是本技术提供的基于规则匹配得到诊断预测结果另一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图4所示的流程顺序为限。如图4所示,本实施例中,同时考虑不同等级医院的发病概率规则这一信息,即同时考虑病历文本、个人史文本、地域属性信息、患病规则信息和不同等级医院的发病概率规则信息以得到目标对象分别罹患若干种疾病的概率值,具体包括:
82.步骤s41:基于目标对象的病历文本,获取目标对象的就诊机构。
83.本实施方式中,根据目标对象的病历文本,获取得到目标对象的就诊机构。例如,目标对象的就诊医院是三级医院、一级医院等。
84.步骤s42:获取就诊机构的诊断统计信息。
85.本实施方式中,基于从目标对象的病历文本中获取到的目标对象的就诊机构,从目标对象的就诊机构调取诊断统计信息,从而获取就诊机构的诊断统计信息。其中,就诊机构的诊断统计信息包括在就诊机构接诊总数中分别诊断为各种疾病的占比。
86.步骤s43:基于疾病对应的占比,调整疾病的概率值。
87.本实施方式中,根据目标对象的就诊机构的疾病对应的占比,调整疾病的概率值。其中,就诊机构的疾病对应的占比与该疾病的概率值的调整幅度呈正相关,也就是说,目标对象可能罹患的某一疾病在目标对象的就诊机构的占比越大,那么对该疾病的概率值的调整幅度越大。其中,不对每一占比对应的概率值调整幅度进行限定,可根据实际使用需要具
体设置。不同等级医院出现疾病的频率存在差别,如三级医院更多出现的是危急重症疾病及罕见病、一级医院更多出现的是常见病;例如,咳嗽、咳痰、气喘,对应的可能疾病有支气管炎、慢性阻塞性肺疾病急性发作等,三级医院出现慢性阻塞性肺疾病急性发作的概率远远高于支气管炎,一级医院恰恰相反。所以,将不同等级医院的发病概率规则信息考虑在内而得到的目标对象分别罹患若干种疾病的概率值,能够更加充分地合乎真实场景,能够提高诊断预测结果的准确性。
88.举例来说,通过上述方式获得的目标对象可能罹患的“手足口病”在目标对象的就诊医院的占比为30%且“手足口病”的概率值为0.5,以及“支气管炎”在目标对象的就诊医院的占比为10%且“支气管炎”的概率值为0.2,由于占比越大,疾病概率值的调整幅度越大,所以调整手足口病”的概率值为0.7,调整“支气管炎”的概率值为0.3。
89.可以理解地,在其他实施方式中,也可同时考虑疾病好发季节信息和不同等级医院的发病概率规则信息,即同时考虑病历文本、个人史文本、地域属性信息、患病规则信息、不同等级医院的发病概率规则信息和疾病好发季节信息以得到目标对象分别罹患若干种疾病的概率值,则此时步骤s31-步骤s32和步骤s41-步骤s43均需执行。
90.请结合参阅图5-图6,图5是本技术提供的基于模型预测得到诊断预测结果一实施例的流程示意图,图6是本技术提供的诊断预测模型一实施例的结构示意图。需注意的是,若有实质上相同的结果,本实施例并不以图5所示的流程顺序为限。
91.如图5所示,本实施例中,诊断预测结果是基于模型预测得到的,具体包括:
92.步骤s51:利用诊断预测模型的编码网络分别对病历文本、个人史文本、地域属性信息和患病规则信息进行语义编码,得到病历文本的第一语义表示、个人史文本的第二语义表示、地域属性信息的第三语义表示和患病规则信息的第四语义表示。
93.本实施方式中,利用诊断预测模型的编码网络分别对病历文本、个人史文本、地域属性信息和患病规则信息进行语义编码,得到病历文本的第一语义表示、个人史文本的第二语义表示、地域属性信息的第三语义表示和患病规则的第四语义表示。语义编码网络可以包括但不限于:bert(bidirectional encoder representation from transformers,即双向transformer的encoder)、emlo(embedding from language model)模型等,在此不做限定,可根据实际使用需要具体设置。
94.具体地,如图6所示,首先,将病历文本、个人史文本、地域属性信息和患病规则信息作为诊断预测模型的输入层,主要输入的信息包括目标对象的性别、年龄、症状、检查检验结果等从病历文本提取出来的信息、目标对象住过的目标地点以及各个目标地点的居住时长等从个人史文本中提取出来的信息、各个目标地点分别流行的第一疾病及其严重程度等从地域属性信息中提取出来的信息以及各种第一疾病的罹患规则信息等从患病规则信息中提取出来的信息。其次,诊断预测模型的编码层将输入的各信息文本进行量化处理,并输入bert模型,以得到对应病历文本的第一语义表示、对应个人史文本的第二语义表示、对应地域属性信息的第三语义表示和对应患病规则信息的第四语义表示。
95.步骤s52:利用诊断预测模型的交互网络将第一语义表示、第二语义表示、第三语义表示和第四语义表示进行信息交互,得到第一重要度、第二重要度、第三重要度和第四重要度。
96.本实施方式中,利用诊断预测模型的交互网络将第一语义表示、第二语义表示、第
三语义表示和第四语义表示进行信息交互,从而得到表示个人史文本对病历文本的重要程度的第一重要度、表示地域属性信息对病历文本的重要程度的第二重要度、表示患病规则信息对病历文本的重要程度的第三重要度以及表示地域属性信息对患病规则信息的重要程度的第四重要度。
97.具体地,如图6所示,根据各信息之间的相关性,采用注意力机制,将病历文本的第一语义表示、个人史文本的第二语义表示、地域属性信息的第三语义表示和患病规则信息的第四语义表示进行信息交互,从而得到表示个人史文本对病历文本的重要程度的第一重要度、表示地域属性信息对病历文本的重要程度的第二重要度、表示患病规则信息对病历文本的重要程度的第三重要度以及表示地域属性信息对患病规则信息的重要程度的第四重要度。
98.步骤s53:基于第一重要度、第二重要度和第三重要度,对第二语义表示、第三语义表示和第四语义表示进行加权,得到第一融合表示,并基于第四重要度,对第三语义表示进行加权,得到第二融合表示。
99.本实施方式中,根据表示个人史文本对病历文本的重要程度的第一重要度、表示地域属性信息对病历文本的重要程度的第二重要度和表示患病规则信息对病历文本的重要程度的第三重要度,对第二语义表示、第三语义表示和第四语义表示进行加权处理,以得到第一融合表示,并根据表示地域属性信息对患病规则信息的重要程度的第四重要度,对第三语义表示进行加权处理,以得到第二融合表示。
100.步骤s54:利用诊断预测模型的预测网络对第一融合表示和第二融合表示进行诊断预测,得到诊断预测结果。
101.本实施方式中,利用诊断预测模型的预测网络对第一融合表示和第二融合表示进行诊断预测,得到诊断预测结果。具体地,如图6所示,将目标对象与输入信息中各种疾病的匹配程度的最终表达即第一融合表示和第二融合表示经过全连接层,以得到目标对象罹患输入信息中相关疾病(例如,地方病)的概率值,即诊断预测结果。
102.本实施例中,根据病历文本、个人史文本、地域属性信息和患病规则进行诊断预测,得到目标对象的诊断预测结果。也就是说,本技术不止考虑了病历文本中目标对象的性别、年龄、症状、检验检查等信息,还考虑了目标对象个人史文本中目标地点和目标地点的居住时长信息以及与个人史文本相关的地域属性信息和患病规则信息等,即通过综合考虑病历文本、个人史文本、地域属性信息和患病规则信息生成诊断预测结果,使得得到的目标对象的诊断预测结果更加合乎真实场景,准确性更高。
103.其中,诊断预测模型的预测网络在训练过程中采用交叉熵loss计算的思路训练模型参数,训练过程中直接将概率值作为最终输出的概率值,并在不同疾病之间进行得分比较,取概率值最大对应的疾病作为最终诊断预测结果。其中,交叉熵loss公式为:
[0104][0105]
其中,yi表示第i个训练示例的标注结果(0/1);p表示第i个训练示例的模型预测得分,n表示训练的类别数。
[0106]
请参阅图7,图7是本技术提供的基于模型预测得到诊断预测结果另一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图7所示的流程顺序为限。
如图7所示,本实施例中,同时考虑疾病好发季节这一信息,即同时考虑病历文本、个人史文本、地域属性信息、患病规则信息和疾病好发季节信息,以得到目标对象分别罹患若干种疾病的概率值,具体包括:
[0107]
步骤s71:利用诊断预测模型的编码网络分别对病历文本、个人史文本、地域属性信息和患病规则信息进行语义编码,得到病历文本的第一语义表示、个人史文本的第二语义表示、地域属性信息的第三语义表示和患病规则信息的第四语义表示。
[0108]
步骤s71与步骤s51类似,在此不再赘述。
[0109]
步骤s72:利用编码网络对好发规则信息进行语义编码,得到好发规则信息的第五语义表示。
[0110]
本实施方式中,利用诊断预测模型的编码网络对好发规则信息进行语义编码,得到好发规则信息的第五语义表示。其中,好发规则信息包括疾病的好发时间。语义编码网络可以包括但不限于:bert(bidirectional encoder representation from transformers,即双向transformer的encoder)、emlo(embedding from language model)模型等,在此不做限定,可根据实际使用需要具体设置。
[0111]
具体地,如图6所示,首先,将好发规则信息作为诊断预测模型的输入层,主要输入的信息包括不同疾病的好发时间。其次,诊断预测模型的编码层将输入的各信息文本进行量化处理,并输入bert模型,以得到对应好发规则信息的第五语义表示。
[0112]
步骤s73:利用交互网络将第一语义表示、第二语义表示、第三语义表示、第四语义表示和第五语义表示进行信息交互,得到第一重要度、第二重要度、第三重要度、第四重要度和第五重要度、第六重要度。
[0113]
本实施方式中,利用诊断预测模型的交互网络将第一语义表示、第二语义表示、第三语义表示、第四语义表示和第五语义表示进行信息交互,从而得到表示个人史文本对病历文本的重要程度的第一重要度、表示地域属性信息对病历文本的重要程度的第二重要度、表示患病规则信息对病历文本的重要程度的第三重要度、表示地域属性信息对患病规则信息的重要程度的第四重要度、表示好发规则信息对病历文本的重要程度的第五重要度和表示病历文本对好发规则信息的重要程度的第六重要度。
[0114]
具体地,如图6所示,根据各信息之间的相关性,采用注意力机制,将病历文本的第一语义表示、个人史文本的第二语义表示、地域属性信息的第三语义表示、患病规则信息的第四语义表示、好发规则信息的第五语义表示进行信息交互,从而得到表示个人史文本对病历文本的重要程度的第一重要度、表示地域属性信息对病历文本的重要程度的第二重要度、表示患病规则信息对病历文本的重要程度的第三重要度、表示地域属性信息对患病规则信息的重要程度的第四重要度、表示好发规则信息对病历文本的重要程度的第五重要度以及表示病历文本对好发规则信息的重要程度的第六重要度。
[0115]
步骤s74:基于第一重要度、第二重要度、第三重要度和第五重要度,对第二语义表示、第三语义表示、第四语义表示和第五语义表示进行加权,得到第一融合表示,并基于第四重要度,对第三语义表示进行加权,得到第二融合表示,以及基于第六重要度对第一语义表示进行加权,得到第三融合表示。
[0116]
本实施方式中,根据表示个人史文本对病历文本的重要程度的第一重要度、表示地域属性信息对病历文本的重要程度的第二重要度、表示患病规则信息对病历文本的重要
程度的第三重要度和表示好发规则信息对病历文本的重要程度的第五重要度,对第二语义表示、第三语义表示、第四语义表示和第五语义表示进行加权处理,以得到第一融合表示;并根据表示地域属性信息对患病规则信息的重要程度的第四重要度,对第三语义表示进行加权处理,以得到第二融合表示;以及根据表示病历文本对好发规则信息的重要程度的第六重要度进行加权处理,以得到第三融合表示。
[0117]
步骤s75:利用预测网络对第一融合表示、第二融合表示和第三融合表示进行诊断预测,得到诊断预测结果。
[0118]
本实施方式中,利用诊断预测模型的预测网络对第一融合表示、第二融合表示和第三融合表示进行诊断预测,得到诊断预测结果。具体地,如图6所示,将目标对象与输入信息中各种疾病的匹配程度的最终表达即第一融合表示、第二融合表示和第三融合表示经过全连接层,以得到目标对象罹患输入信息中相关疾病(例如,地方病、与发病时间吻合的疾病等)的概率值,即诊断预测结果。
[0119]
本实施例中,同时考虑不同疾病的好发病时间信息,如手足口病在夏季和秋季比较容易爆发,慢性阻塞性肺疾病通常在冬季和春季发病,所以同时考虑疾病好发季节这一信息,能够调整诊断预测结果中各疾病的概率值,从而动态调整各种疾病的排序,进而提高诊断预测结果的准确性。
[0120]
请参阅图8,图8是本技术提供的基于模型预测得到诊断预测结果另一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图8所示的流程顺序为限。如图8所示,本实施例中,同时考虑不同等级医院的发病概率规则这一信息,即同时考虑病历文本、个人史文本、地域属性信息、患病规则信息和不同等级医院的发病概率规则信息以得到目标对象分别罹患若干种疾病的概率值,具体包括:
[0121]
步骤s81:利用诊断预测模型的编码网络分别对病历文本、个人史文本、地域属性信息和患病规则信息进行语义编码,得到病历文本的第一语义表示、个人史文本的第二语义表示、地域属性信息的第三语义表示和患病规则信息的第四语义表示。
[0122]
步骤s81与步骤s51类似,在此不再赘述。
[0123]
步骤s82:基于目标对象的病历文本,获取目标对象的就诊机构。
[0124]
步骤s82与步骤s41类似,在此不再赘述。
[0125]
步骤s83:获取就诊机构的诊断统计信息。
[0126]
步骤s83与步骤s42类似,在此不再赘述。
[0127]
步骤s84:利用编码网络对诊断统计信息进行语义编码,得到诊断统计信息的第六语义表示。
[0128]
本实施方式中,利用诊断预测模型的编码网络对诊断统计信息进行语义编码,得到诊断统计信息的第六语义表示。语义编码网络可以包括但不限于:bert(bidirectional encoder representation from transformers,即双向transformer的encoder)、emlo(embedding from language model)模型等,在此不做限定,可根据实际使用需要具体设置。
[0129]
具体地,如图6所示,首先,将诊断统计信息作为诊断预测模型的输入层,主要输入的信息包括在就诊机构接诊总数中分别诊断为各种疾病的占比。其次,诊断预测模型的编码层将输入的各信息文本进行量化处理,并输入bert模型,以得到对应诊断统计信息的第
六语义表示。
[0130]
步骤s85:利用交互网络将第一语义表示、第二语义表示、第三语义表示、第四语义表示和第六语义表示进行信息交互,得到第一重要度、第二重要度、第三重要度、第四重要度和第七重要度、第八重要度。
[0131]
本实施方式中,利用诊断预测模型的交互网络将第一语义表示、第二语义表示、第三语义表示、第四语义表示和第六语义表示进行信息交互,从而得到表示个人史文本对病历文本的重要程度的第一重要度、表示地域属性信息对病历文本的重要程度的第二重要度、表示患病规则信息对病历文本的重要程度的第三重要度、表示地域属性信息对患病规则信息的重要程度的第四重要度、表示诊断统计信息对病历文本的重要程度的第七重要度以及表示个人史文本对诊断统计信息的重要程度的第八重要度。
[0132]
具体地,如图6所示,根据各信息之间的相关性,采用注意力机制,将病历文本的第一语义表示、个人史文本的第二语义表示、地域属性信息的第三语义表示、患病规则信息的第四语义表示、诊断统计信息的第六语义表示进行信息交互,从而得到表示个人史文本对病历文本的重要程度的第一重要度、表示地域属性信息对病历文本的重要程度的第二重要度、表示患病规则信息对病历文本的重要程度的第三重要度、表示地域属性信息对患病规则信息的重要程度的第四重要度、表示诊断统计信息对病历文本的重要程度的第七重要度以及表示个人史文本对诊断统计信息的重要程度的第八重要度。
[0133]
步骤s86:基于第一重要度、第二重要度、第三重要度和第七重要度,对第二语义表示、第三语义表示、第四语义表示和第六语义表示进行加权,得到第一融合表示,并基于第四重要度,对第三语义表示进行加权,得到第二融合表示,以及基于第八重要度对第二语义表示进行加权,得到第四融合表示。
[0134]
本实施方式中,根据表示个人史文本对病历文本的重要程度的第一重要度、表示地域属性信息对病历文本的重要程度的第二重要度、表示患病规则信息对病历文本的重要程度的第三重要度和表示诊断统计信息对病历文本的重要程度的第七重要度,对第二语义表示、第三语义表示、第四语义表示和第六语义表示进行加权处理,以得到第一融合表示;并根据表示地域属性信息对患病规则信息的重要程度的第四重要度,对第三语义表示进行加权处理,以得到第二融合表示;以及根据表示个人史文本对诊断统计信息的重要程度的第八重要度进行加权处理,以得到第四融合表示。
[0135]
步骤s87:利用预测网络对第一融合表示、第二融合表示和第四融合表示进行诊断预测,得到诊断预测结果。
[0136]
本实施方式中,利用诊断预测模型的预测网络对第一融合表示、第二融合表示和第四融合表示进行诊断预测,得到诊断预测结果。具体地,如图6所示,将目标对象与输入信息中各种疾病的匹配程度的最终表达即第一融合表示、第二融合表示和第四融合表示经过全连接层,以得到目标对象罹患输入信息中相关疾病(例如,地方病、与就诊医院相关的疾病等)的概率值,即诊断预测结果。
[0137]
本实施例中,同时考虑不同等级医院的发病概率规则信息,不同等级医院出现疾病的频率存在差别,如三级医院更多出现的是危急重症疾病及罕见病、一级医院更多出现的是常见病;例如,咳嗽、咳痰、气喘,对应的可能疾病有支气管炎、慢性阻塞性肺疾病急性发作等,三级医院出现慢性阻塞性肺疾病急性发作的概率远远高于支气管炎,一级医院恰
恰相反。所以,将不同等级医院的发病概率规则信息考虑在内而得到的目标对象分别罹患若干种疾病的概率值,能够更加充分地合乎真实场景,能够提高诊断预测结果的准确性。
[0138]
可以理解地,在其他实施方式中,也可同时考虑疾病好发季节信息和不同等级医院的发病概率规则信息,以得到目标对象分别罹患若干种疾病的概率值,则此时步骤s71-步骤s75和步骤s81-步骤s87均需执行。
[0139]
在其他实施方式中,诊断预测结果是基于规则匹配和模型预测得到的,且诊断预测结果是融合基于规则匹配得到的诊断预测结果和基于模型预测得到的诊断预测结果。
[0140]
在一具体实施方式中,基于规则匹配得到的诊断预测结果和基于模型预测得到的诊断预测结果中的各种疾病不存在相同的疾病,那么诊断预测结果即为基于规则匹配得到的诊断预测结果和基于模型预测得到的诊断预测结果。举例来说,基于规则匹配得到的诊断预测结果为:“克汀病”的概率值为0.1、“血吸虫病”的概率值为0.4、“鼠疫”的概率值为0.6、“老年骨质疏松症”的概率值为0.5;基于模型预测得到的诊断预测结果为:“化脓性关节炎”的概率值为0.4、“大骨节病”的概率值为0.3、“急性胆囊炎”的概率值为0.2、“胆管结石”的概率值为0.5、“上呼吸道感染”的概率值为0.4、“扁桃体炎”的概率值为0.8;由于基于规则匹配得到的诊断预测结果和基于模型预测得到的诊断预测结果中的各种疾病不存在相同的疾病,所以最终的诊断预测结果为:“克汀病”的概率值为0.1、“血吸虫病”的概率值为0.4、“鼠疫”的概率值为0.6、“老年骨质疏松症”的概率值为0.5、“化脓性关节炎”的概率值为0.4、“大骨节病”的概率值为0.3、“急性胆囊炎”的概率值为0.2、“胆管结石”的概率值为0.5、“上呼吸道感染”的概率值为0.4、“扁桃体炎”的概率值为0.8。
[0141]
在另一具体实施方式中,基于规则匹配得到的诊断预测结果和基于模型预测得到的诊断预测结果中的各种疾病存在某些相同的疾病,所以需要对该疾病的基于规则匹配得到的概率值和基于模型预测得到的概率值进行融合处理后,以得到对应该疾病的最终概率值。其中,融合处理包括但不限于取平均值、加权求和等。举例来说,以融合处理为取平均值为例,基于规则匹配得到的诊断预测结果为:“克汀病”的概率值为0.1、“血吸虫病”的概率值为0.4;基于模型预测得到的诊断预测结果为:“化脓性关节炎”的概率值为0.4、“克汀病”的概率值为0.2;由于基于规则匹配得到的诊断预测结果和基于模型预测得到的诊断预测结果中的各种疾病存在相同的疾病,所以将“克汀病”基于规则匹配得到的概率值0.1和基于模型预测得到的概率值0.2进行取平均值处理,得到“克汀病”最终的概率值0.15;因此,最终的诊断预测结果为:“克汀病”的概率值为0.15、“血吸虫病”的概率值为0.4、“化脓性关节炎”的概率值为0.4。
[0142]
请参阅图9,图9是本技术提供的诊断预测装置一实施例的框架示意图。诊断预测装置90包括:第一获取模块91、第二获取模块92和预测模块93。第一获取模块91用于获取目标对象的病历文本,并获取目标对象的个人史文本;其中,个人史文本包括目标对象住过的目标地点以及在各个目标地点的居住时长;第二获取模块92用于获取与个人史文本相关的地域属性信息和患病规则信息;其中,地域属性信息包括各个目标地点分别流行的第一疾病及其严重程度,患病规则信息包括各种第一疾病的罹患规则,且罹患规则包括在流行第一疾病的目标地点的居住时长与罹患第一疾病的可能性之间的映射关系;预测模块93用于基于病历文本、个人史文本、低于属性信息和患病规则信息进行诊断预测,得到目标对象的诊断预测结果;其中,诊断预测结果包括目标对象分别罹患若干种疾病的概率值,且若干种
疾病包括第一疾病。
[0143]
其中,上述诊断预测结果是基于规则匹配得到的,上述规则匹配的步骤包括:预测模块93用于基于目标地点流行第一疾病的严重程度,得到第一疾病的第一权重系数,并基于罹患规则,得到第一疾病的第二权重系数;融合第一权重系数和第二权重系数,得到目标对象罹患第一疾病的第一概率值。
[0144]
其中,诊断预测装置90还包括结合模块94,结合模块94用于获取若干第二疾病的诊断规则信息;其中,诊断规则信息包括各个第二疾病的规则文本;基于病历文本分别与各种第二疾病的规则文本之间的语义相似度,得到目标对象罹患各种第二疾病的第二概率值;结合目标对象罹患各种第一疾病的第一概率值和罹患各种第二疾病的第二概率值,得到目标对象罹患各种疾病的概率值。
[0145]
其中,诊断预测装置90还包括第一调整模块95,第一调整模块95用于基于目标对象的病历文本,获取目标对象的发病时间,并基于好发规则信息,获取各种疾病的好发时间;响应于存在好发时间与发病时间吻合的疾病,将疾病的概率值调大。
[0146]
其中,诊断预测装置90还包括第二调整模块96,第二调整模块96用于基于目标对象的病历文本,获取目标对象的就诊机构;获取就诊机构的诊断统计信息;其中,诊断统计信息包括在就诊机构接诊总数中分别诊断为各种疾病的占比;基于疾病对应的占比,调整疾病的概率值;其中,疾病对应的占比越大与疾病的概率值的调整幅度正相关。
[0147]
其中,上述诊断预测结果是基于模型预测得到的,上述模型预测的步骤包括:预测模块93用于利用诊断预测模型的编码网络分别对病历文本、个人史文本、地域属性信息和患病规则信息进行语义编码,得到病历文本的第一语义表示、个人史文本的第二语义表示、地域属性信息的第三语义表示和患病规则信息的第四语义表示;利用诊断预测模型的交互网络将第一语义表示、第二语义表示、第三语义表示和第四语义表示进行信息交互,得到第一重要度、第二重要度、第三重要度和第四重要度;其中,第一重要度、第二重要度和第三重要度分别表示个人史文本、地域属性信息和患病规则信息分别对病历文本的重要程度,第四重要度表示地域属性信息对患病规则信息的重要程度;基于第一重要度、第二重要度和第三重要度,对第二语义表示、第三语义表示和第四语义表示进行加权,得到第一融合表示,并基于第四重要度,对第三语义表示进行加权,得到第二融合表示;利用诊断预测模型的预测网络对第一融合表示和第二融合表示进行诊断预测,得到诊断预测结果。
[0148]
其中,预测模块93用于在利用诊断预测模型的交互网络将第一语义表示、第二语义表示、第三语义表示和第四语义表示进行信息交互,得到第一重要度、第二重要度、第三重要度和第四重要度之前,具体还包括:利用编码网络对好发规则信息进行语义编码,得到好发规则信息的第五语义表示;其中,好发规则信息包括疾病的好发时间;预测模块93利用诊断预测模型的交互网络将第一语义表示、第二语义表示、第三语义表示和第四语义表示进行信息交互,得到第一重要度、第二重要度、第三重要度和第四重要度,具体包括:利用交互网络将第一语义表示、第二语义表示、第三语义表示、第四语义表示和第五语义表示进行信息交互,得到第一重要度、第二重要度、第三重要度、第四重要度和第五重要度、第六重要度;其中,第五重要度表示好发规则信息对病历文本的重要程度,第六重要度表示病历文本对好发规则信息的重要程度;预测模块93在利用诊断预测模型的预测网络对第一融合表示和第二融合表示进行诊断预测,得到诊断预测结果之前,具体还包括:基于第一重要度、第
二重要度、第三重要度和第五重要度,对第二语义表示、第三语义表示、第四语义表示和第五语义表示进行加权,得到第一融合表示,并基于第四重要度,对第三语义表示进行加权,得到第二融合表示,以及基于第六重要度对第一语义表示进行加权,得到第三融合表示;预测模块93利用诊断预测模型的预测网络对第一融合表示和第二融合表示进行诊断预测,得到诊断预测结果,具体包括:利用预测网络对第一融合表示、第二融合表示和第三融合表示进行诊断预测,得到诊断预测结果。
[0149]
其中,预测模块93用于在利用诊断预测模型的交互网络将第一语义表示、第二语义表示、第三语义表示和第四语义表示进行信息交互,得到第一重要度、第二重要度、第三重要度和第四重要度之前,具体还包括:基于目标对象的病历文本,获取目标对象的就诊机构;获取就诊机构的诊断统计信息;其中,诊断统计信息包括在就诊机构接诊总数中分别诊断为各种疾病的占比;利用编码网络对诊断统计信息进行语义编码,得到诊断统计信息的第六语义表示;预测模块93用于利用诊断预测模型的交互网络将第一语义表示、第二语义表示、第三语义表示和第四语义表示进行信息交互,得到第一重要度、第二重要度、第三重要度和第四重要度,具体包括:利用交互网络将第一语义表示、第二语义表示、第三语义表示、第四语义表示和第六语义表示进行信息交互,得到第一重要度、第二重要度、第三重要度、第四重要度和第七重要度、第八重要度;其中,第七重要度表示诊断统计信息对病历文本的重要程度,第八重要度表示个人史文本对诊断统计信息的重要程度;预测模块93用于在利用诊断预测模型的预测网络对第一融合表示和第二融合表示进行诊断预测,得到诊断预测结果之前,具体还包括:基于第一重要度、第二重要度、第三重要度和第七重要度,对第二语义表示、第三语义表示、第四语义表示和第六语义表示进行加权,得到第一融合表示,并基于第四重要度,对第三语义表示进行加权,得到第二融合表示,以及基于第八重要度对第二语义表示进行加权,得到第三融合表示;预测模块93用于利用诊断预测模型的预测网络对第一融合表示和第二融合表示进行诊断预测,得到诊断预测结果,具体包括:利用预测网络对第一融合表示、第二融合表示和第四融合表示进行诊断预测,得到诊断预测结果。
[0150]
其中,上述诊断预测结果是基于规则匹配和模型预测得到的,且诊断预测结果是融合基于规则匹配得到的诊断预测结果和基于模型预测得到的诊断预测结果得到的。
[0151]
请参阅图10,图10是本技术提供的电子设备一实施例的框架示意图。电子设备100包括相互耦接的存储器101和处理器102,存储器101中存储有程序指令,处理器102用于执行程序指令以实现上述任一诊断预测方法实施例中的步骤。具体地,电子设备100可以包括但不限于:台式计算机、笔记本电脑、服务器、手机、平板电脑等等,在此不做限定。
[0152]
具体而言,处理器102用于控制其自身以及存储器101以实现上述任一诊断预测方法实施例中的步骤。处理器102还可以称为cpu(central processing unit,中央处理单元)。处理器102可能是一种集成电路芯片,具有信号的处理能力。处理器102还可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器102可以由集成电路芯片共同实现。
[0153]
请参阅图11,图11是本技术提供的计算机可读存储介质一实施例的框架示意图。
计算机可读存储介质110存储有能够被处理器运行的程序指令111,程序指令111用于实现上述任一诊断预测方法实施例中的步骤。
[0154]
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
[0155]
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
[0156]
在本技术所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
[0157]
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
[0158]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0159]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本技术各个实施方式方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0160]
以上所述仅为本技术的实施方式,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。