本发明涉及医疗领域,特别涉及一种基于ocr的医学材料结构化处理方法、装置、设备及介质。
背景技术:
1、在医疗领域,存在大量由患者通过移动设备(手机等)自行拍摄的医学材料。为了更好的进行医学信息分析,需要对患者拍摄的医学材料进行信息一级结构化处理,即从医学图片材料中提取出“诊断”、“出院医嘱”、“诊疗经过”等的第一级的结构化信息,为下一步进行详细信息提取提供数据基础。
2、但是,由于全国医院之间医学材料差异性较大,现有技术对全国各所医院的医学材料支持度差,覆盖率低,提取医学一级结构化信息的效率低,不能合理利用拍摄的医学材料。
技术实现思路
1、鉴于此,本发明提供一种基于ocr的医学材料结构化处理方法、装置、设备及介质,以解决现有技术对全国各所医院的医学材料支持度差,覆盖率低,提取医学一级结构化信息的效率低,不能合理利用拍摄的医学材料的技术问题。
2、具体而言,包括以下的技术方案:
3、第一方面,提供了一种基于ocr的医学材料结构化处理方法,包括:
4、获取待识别医学材料图片;
5、利用ocr技术对所述待识别医学材料图片进行文本识别,获得多个识别文本,并对多个所述识别文本进行预处理,获得多个目标文本;
6、对多个所述目标文本进行排序,提取多个所述目标文本中的文本内容并进行拼接,获得目标文本集;
7、基于预先训练的医学材料模型,确定所述目标文本集对应的医学材料类型;
8、基于预先构建的结构化词典,确定所述目标文本集对应的医学材料类型对应的多个结构化字段名称,及每个结构化字段名称对应的多个关键词;
9、根据多个所述结构化字段名称,及每个所述结构化字段名称对应的多个所述关键词,对所述目标文本集进行结构化处理。
10、第二方面,提供了一种基于ocr的医学材料结构化处理装置,包括:
11、获取模块,用于获取待识别医学材料图片;
12、识别模块,用于利用ocr技术对所述待识别医学材料图片进行文本识别,获得多个识别文本,并对多个所述识别文本进行预处理,获得多个目标文本;
13、排序模块,用于对多个所述目标文本进行排序,提取多个所述目标文本中的文本内容并进行拼接,获得目标文本集;
14、分类模块,用于基于预先训练的医学材料模型,确定所述目标文本集对应的医学材料类型;
15、查询模块,用于基于预先构建的结构化词典,确定所述目标文本集对应的医学材料类型对应的多个结构化字段名称,及每个结构化字段名称对应的多个关键词;
16、处理模块,用于根据多个所述结构化字段名称,及每个所述结构化字段名称对应的多个所述关键词,对所述目标文本集进行结构化处理。
17、第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上所述基于ocr的医学材料结构化处理方法的步骤。
18、第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述基于ocr的医学材料结构化处理方法的步骤。
19、本发明提供的技术方案的有益效果至少包括:
20、本发明通过获取待识别医学材料图片获得目标文本集,将目标文本集输入预先训练的医学材料模型,确定目标文本集对应的医学材料类型,通过预先构建的结构化词典,确定目标文本集结构化处理时对应的多个结构化字段名称和关键词,能够极大的消除全国各医院医学材料之间的差异性,对全国各所医院的医学材料支持度高,覆盖全面,提取医学一级结构化信息的效率高,能够合理利用拍摄的医学材料。
1.一种基于ocr的医学材料结构化处理方法,其特征在于,包括:
2.根据权利要求1所述的基于ocr的医学材料结构化处理方法,其特征在于,
3.根据权利要求2所述的基于ocr的医学材料结构化处理方法,其特征在于,
4.根据权利要求1所述的基于ocr的医学材料结构化处理方法,其特征在于,
5.根据权利要求1所述的基于ocr的医学材料结构化处理方法,其特征在于,
6.根据权利要求1所述的基于ocr的医学材料结构化处理方法,其特征在于,
7.根据权利要求1所述的基于ocr的医学材料结构化处理方法,其特征在于,
8.一种基于ocr的医学材料结构化处理装置,其特征在于,包括:
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于ocr的医学材料结构化处理方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于ocr的医学材料结构化处理方法的步骤。