一种基于OCR的医学文本结构化识别处理方法

文档序号:41038016发布日期:2025-02-21 20:11阅读:5来源:国知局
一种基于OCR的医学文本结构化识别处理方法

本发明涉及医学文本相关数据处理,特别涉及一种基于ocr的医学文本结构化识别处理方法。


背景技术:

1、每一次就诊通常伴随着多项检查和检验,产生了大量的医疗报告。由于各医院出具的报告格式不一,这不仅增加了医生的工作负担,要求他们在解读报告时既要识别出患者的异常指标,又要评估潜在的健康风险;同时也使得患者难以及时获得专业的报告解读,影响了治疗决策的及时性和准确性,有时甚至会导致病情延误。这种情况在患者从小城市前往大城市的医疗机构寻求更高水平医疗服务时更为明显,他们往往需要携带各种医疗文档,如化验单、入院记录等,这进一步增加了信息处理的复杂度。为了缓解这一状况,有必要采取措施来标准化和数字化医疗文本,提高其可读性和互操作性,减轻医护人员的工作压力,同时确保患者能够更快速准确地理解自己的健康状况,从而做出更合适的治疗选择。

2、光学字符识别(ocr)是将图像形式的文字转换成计算机可编辑的文本形式,其有着广泛的应用前景。随着ocr技术的发展,文字识别已经应用到生活中的各个领域。主要包括印刷体识别、身份证识别、银行卡识别、验证码识别、车牌号识别、表格识别、文档识别等领域。上述领域文字识别已经取得了相当不错的成果。但自然场景下文字识别仍然是一项有待突破的任务,如化验单识别、发票识别、广告牌识别等领域。一方面,自然场景中的文字具有多样性,比如文字序列长度、文字大小,文字颜色、文字方向、文字字体等;另一方面,自然场景中的图像背景复杂,比如光照分布不均匀、字体模糊不清晰、噪声和物体遮挡等,这些问题给自然场景中的文字识别带来非常大的困难。因此,提高场景ocr识别精度将对生活中其它领域带来巨大的便捷。近年来,随着深度学习的崛起,人工智能得到了迅速的发展,并取得了一系列惊人的成果,特别在计算机视觉方面,机器可以取代人类完成比较复杂危险的工作。

3、深度学习可以采用监督的学习方式进行学习,将有标签的训练数据输入到模型上,通过反向传播梯度下降训练模型参数,从而实现正确的预测结果。此外,深度学习在解决问题的速度、效果等方面全面领先于传统方法。深度学习面临的问题是需要大量的训练数据去训练模型,当前,正处于数据呈爆炸式增长的时代,刚好满足深度学习发展的需求。结合深度学习的文字识别模型,将成为目前解决场景ocr问题的主流方法。

4、综上所述,构建一个端到端的医学文本结构化识别模型,可以更好地在医疗资源相对紧张地情况下,平衡医生和患者之间的关系,提高医生的接诊效率和病人看病的迫切心理;可以为其他医学智能决策系统提供结构化的数据,节省大量的医疗资源和人力成本,为后续医生的诊断提供帮助,有利于患者后续治疗。


技术实现思路

1、有鉴于此,本发明提供了一种基于ocr的医学文本结构化识别模型,以解决现有技术背景中医学文本识别的问题,此方法首先对现实场景的医学文本图片进行图像矫正,随后对医学文本进行分类,针对不同类型,分别进行ocr识别以及对应的结构化后处理模块,得到最后的结构化数据,从而实现医学文本的结构化识别。

2、本发明为解决上述技术问题采用以下技术方案:

3、本发明提供一种基于ocr的医学文本结构化识别处理方法,具体步骤如下:

4、步骤1,数据收集,收集病人医学文本图片,对化验单,入院小结和影像报告等医学文本图像进行文本框位置标注,对文本框进行文字识别标注,将标注信息制作成医学文本图像数据集,

5、步骤2,数据预处理,对原始医学文本图片首先使用基于transformer的图像矫正算法进行图像矫正,再使用ocr识别出图像的文本框信息和文字信息,得到初步的医学文本图像识别结果,然后根据识别结果对医学文本进行分类,

6、步骤3,数据后处理,对于不同类型的医学文本图像,基于其本身特征建立不同的结构化后处理模型,针对化验单图像,首先进行文本对齐,自动筛选出所需要的化验单正文信息,同时根据化验单本身结构化的特征,对文本框进行分割,放入到文本识别模型得出文字信息,最后通过文本信息抽取,得到化验单结构化数据,针对入院小结,首先剔除掉多余的患者,医院和页码信息,将多页信息整合在一起,然后针对入院小结的格式,设置对应的提取规则,提取出对应的结构化信息,针对影像报告,首先进行文本对齐,然后按段进行分类,最后设置对应的提取规则,得到结构化数据。

7、作为本发明的进一步优化方案,得到的初步的医学文本识别结果的保存形式为txt后缀结尾的文件。

8、作为本发明的进一步优化方案,在步骤2中,对现实场景中的图像使用基于

9、transformer的图像矫正算法的处理流程包括以下步骤:

10、首先,将形变图像输入到卷积神经网络(cnn)中以提取图像的特征。随后将这些特征被送入一个畸形特征编码器,该编码器利用自注意力机制捕捉现实图像中的结构特征。此编码器由三个子模块组成,每个子模块均包含两个标准的transformer编码层。这种架构设计允许模型在保持高分辨率纹理细节的同时,也能获取低分辨率下的高级语义信息。接着将编码器的特征以及一组可学习的矫正提示向量序列输入到矫正解码器中,生成用于后续坐标映射矩阵预测的特征。这些矫正提示向量初始时为零,并附加有固定的位置编码。与编码器相似,解码器同样由三个子模块构成,每个子模块内含两个标准的transformer解码层。最后,将解码器输出的特征还原成新图像。

11、本发明采用以上技术方案可以有效地解决拍摄条件如采光、边缘锐化、弯曲和褶皱等因素造成的图像质量问题,显著提升化验单图像ocr的识别精度。

12、作为本发明的进一步优化方案,在步骤3中,针对化验单特征建立的结构化后处理模型的处理流程包括以下步骤:

13、第一阶段中,首先将步骤2得到的初步的化验单识别结果进行文本对齐操作,将文本框按照横坐标从小到大排序,然后根据文本框上横坐标和下横坐标对文本框进行分组,同一组的文本框即在同一行上。随后根据化验单正文常用的开头和结束的文字制作文字库,对化验单识别结果进行文字匹配,从而返回化验单正文的起止行数。

14、第二阶段中,根据化验单本身结构化的特征,统计每一行分组数的中位数,然后计算出每一列的平均开始和结束坐标,根据该坐标对跨列的文本框进行分割,对未识别出的文本框进行框选,随后将文本框放入到文字识别模型中预测。

15、第三阶段中,进行文本信息抽取,根据化验单常用的标题制作文字库,提取出想要的标题,再将预测出的文本框结果与化验单的标题进行匹配,然后针对每一类数据项进行优化操作。

16、本发明采用以上技术方案可以有效地解决一部分化验单存在的文本拥挤现象,即不同化验项目的数据紧密排列导致表格单元识别困难的情况。通过运用该方法,可以依据化验单的具体排版格式精准地分割出各个单元格,确保每个信息区块都被准确地识别;技术方案可以有效地解决一部分化验单存在的多样化的排版和命名差异的问题,本方法将不同版面不同样式的化验单的标题进行总结制作标题库。借助这个标题库,我们能更加高效准确地从复杂多样的化验单中提取关键标题信息。基于这些标题信息的有效区分,进一步判断化验单属于单栏还是双栏结构,从而简化了整个化验单结构化的流程,提高了处理效率及准确性。

17、项目名称:由于化验单的风格各式各样,有些化验单会将序号放在名称之前,所以首先删除名称前的序号信息。

18、化验结果:化验结果一般是放在名称之后的,所以其结果前有中文则会将其放入到名称之中,同时将结果转为数字形式。

19、单位:参考范围和单位在有些情况下是放一起的,所以我们通过构造单位库来将两者进行分离,同时针对单位难以识别的情况,构造每一种单位错误识别结果的库,将识别结果与库中的结果进行模糊匹配,然后将其替换为正确的单位。

20、参考范围:针对范围两边的数据进行规范,如小数位数相同。

21、作为本发明的进一步优化方案,在步骤3中,针对入院小结图像特征建立的结构化后处理模型的处理流程包括以下步骤:

22、第一阶段中,首先将步骤2得到的初步的识别结果进行文本对齐操作,随后删除掉每一页存在的多余的页眉页脚,患者或者医院信息,将多页的识别结果合并在一起。

23、第二阶段中,根据入院小结的排版结构,归纳出需要提取的字段的关键字集合,从上到下逐行读取文本,利用正则化匹配的方法,遇到需要提取的字段就将其添加到对应的字典中进行保存。抽取的入院小结结构化数据主要包括:主诉、现病史、既往史、个人史、年龄、性别、入院时间、体格检查和专科检查。

24、本发明采用以上技术方案通过合并多页内容,形成了一个连续的信息流,使得整个文档作为一个整体来处理,避免了跨页信息被割裂的情况发生;对文本进行了清洗,提高了后续处理环节的数据质量。

25、作为本发明的进一步优化方案,在步骤3中,针对影像报告图像特征建立的结构化后处理模型的处理流程包括以下步骤:

26、第一阶段中,首先将步骤2得到的初步的识别结果进行文本对齐操作,随后利用段落的规则,将行分类的文本合并成段分类的文本。

27、第二阶段中,根据影像报告的排版结构,归纳出需要提取的字段的关键字集合,从上到下逐段读取文本,利用正则化匹配的方法,遇到需要提取的字段就将其添加到对应的字典中进行保存。抽取的影像报告结构化数据主要包括:检查项目名称、检查所见、检验结论和检查时间。

28、本发明采用以上技术方案根据影像报告特有的排版结构归纳出需要提取的关键字集合,并采用从上到下逐段读取文本的方式,这种方法可以更精确地定位到相关的医疗信息字段,大大提升了影像报告处理的效率和质量。

29、本发明采用以上技术方案,有益效果为:通过自动化流程处理医学文本图像,包括图像校正、ocr文字识别以及结构化信息提取,极大地提高了处理速度,减少了人工参与的需求,从而节省了大量医疗资源和人力成本,提高数据处理效率。结构化后处理模型结合关键字集合和正则表达式匹配技术,确保了从非结构化的文本中准确地提取出关键的医学信息。构建专门的文字库用于纠错,进一步提升了识别结果的准确性,减少了错误率,保证了数据质量,为后续的临床决策奠定了坚实基础。系统能够处理不同风格和排版的医学文本图像,无论是入院小结还是影像报告,都能有效地进行识别和结构化处理。通过构建标题库来应对化验单等文档中存在的多样化排版和命名差异,增强了系统的通用性和适应能力。

30、综上所述,本发明通过收集患者医学文本图像,构建医学数据集,并利用图像矫正模型、ocr和结构化后处理模型对现实场景下的医学文本图像进行图像恢复、文字识别和结构化处理,从而提取出医学文本图像的结构化信息,可以为其他医学智能决策系统提供结构化的数据,节省大量的医疗资源和人力成本,为后续医生的诊断提供帮助,有利于患者后续治疗。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1