基于多分类文本检测的医疗票据识别的方法

文档序号:40737309发布日期:2025-01-21 11:27阅读:3来源:国知局
基于多分类文本检测的医疗票据识别的方法

本发明涉及图像处理与识别,具体地说,涉及基于多分类文本检测的医疗票据识别的方法。


背景技术:

1、随着深度学习技术的持续进步,票据识别领域正经历着从传统识别方法向基于深度学习技术的转变。这些新兴方法深深植根于自然场景下的文本检测与识别技术,并在此基础上不断演进,以构建一个集文本检测与识别于一体的端到端处理流程。鉴于票据图像独有的底纹模板、文字特性与自然场景文本图像的显著差异,以及对识别准确率的高标准要求,针对特定票据类型的识别研究日益增多。当前,诸如百度ocr、旷世ocr等领先的票据ocr项目,在规整票据图像的识别上展现出卓越性能。然而,这些系统对票据图像质量及文字工整度有较高要求,面对复杂票据或文本间相互干扰的情况,其识别效果尚显不足,有待进一步优化与提升。

2、在当前医疗票据识别的研究领域内,针对复杂票据的深入探讨尚显不足。目前普遍采用的票据识别系统中,于文本检测阶段,大多依赖于二分类的检测算法。这类算法虽能有效定位文本区域,却无法精准区分票据上不同类型的文字信息,从而在处理多元化、复杂化的医疗票据时面临局限。因此,提供基于多分类文本检测的医疗票据识别的方法。


技术实现思路

1、本发明的目的在于提供基于多分类文本检测的医疗票据识别的方法,以解决上述背景技术中提出的在当前医疗票据识别的研究领域内,针对复杂票据的深入探讨尚显不足。目前普遍采用的票据识别系统中,于文本检测阶段,大多依赖于二分类的检测算法。这类算法虽能有效定位文本区域,却无法精准区分票据上不同类型的文字信息,从而在处理多元化、复杂化的医疗票据时面临局限的问题。

2、为实现上述目的,本发明目的在于提供了基于多分类文本检测的医疗票据识别的方法,包括以下步骤:

3、s1、通过扫描实体医疗票据收集医疗票据图像数据;

4、s2、对票据图像数据进行预处理;

5、s3、对票据图像中的关键信息进行标注;

6、s4、基于dbnet框架,设计并构建适用于医疗票据的多分类文本检测模型;

7、s5、针对文本识别中的干扰因素,增强crnn特征提取网络,并引入transformer结构。

8、作为本技术方案的进一步改进,所述s1中,通过扫描实体医疗票据收集医疗票据图像数据的具体步骤为:

9、s2.1、使用扫描仪采集医疗票据的图片;

10、s2.2、存储图像数据,并记录每张票据的基本信息;

11、其中,基本信息包括日期、编号;

12、s2.3、对收集的医疗票据图像数据进行初步的质量检查,剔除模糊不清和损坏严重的图像。

13、作为本技术方案的进一步改进,所述s2中,对票据图像数据进行预处理的具体步骤为:

14、s3.1、调整所有图像到统一的大小;

15、s3.2、将彩色图像转换成灰度图像,用于减少计算复杂度;

16、s3.3、使用滤波器去除图像中的噪声。

17、作为本技术方案的进一步改进,所述s3.2中,将彩色图像转换成灰度图像具体表达式为:

18、igray=r·0.299+g·0.587+b·0.114;

19、其中,igray表示转换后的灰度图像;r表示原始图像中的红色通道的像素值;g表示原始图像中的绿色通道的像素值;b表示原始图像中的蓝色通道的像素值。

20、作为本技术方案的进一步改进,所述s3中,对票据图像中的关键信息进行标注的具体步骤为:

21、s4.1、定义需要标注的关键信息类型;

22、其中,关键信息类型包括发票号码、金额、日期、医疗机构名称;

23、s4.2、使用标注工具手动框选每个信息字段的位置;

24、s4.3、对每个框选区域赋予标签类别;

25、s4.4、检查标注结果的一致性和准确性。

26、作为本技术方案的进一步改进,所述s4中,基于dbnet框架,设计并构建适用于医疗票据的多分类文本检测模型的具体步骤为:

27、s5.1、设计输入层用于匹配预处理后的图像尺寸;

28、s5.2、构建基于dbnet的特征提取网络;

29、s5.3、设计分类层,用于区分不同类别的信息字段;

30、s5.4、设置交叉熵损失函数用于监督学习过程;

31、s5.5、实现训练流程;

32、其中,训练流程包括前向传播、反向传播以及参数更新。

33、作为本技术方案的进一步改进,所述s5.4中,设置交叉熵损失函数的具体表达式为:

34、

35、其中,lc表示交叉熵损失;c表示类别总数;yi表示真实标签;i表示索引变量;pi表示模型预测的概率。

36、作为本技术方案的进一步改进,所述s5.5中,实现训练流程具体流程表达式为:

37、前向传播:

38、o=f(i;θ);

39、l=loss(o,y);

40、其中,o表示模型的输出;i表示输入数据;θ表示模型参数;y表示真实标签;l表示损失函数;f表示模型的前向传播函数;

41、反向传播:

42、

43、其中,表示损失函数l关于模型参数θ的梯度;表示损失函数相对于模型参数的偏导数;表示第l层参数θl的梯度;θl表示第l层参数;ol+1表示第l+1层的输出;zl表示第l层的输入;表示损失函数l关于第l+1层输出ol+1的偏导数;表示第l+1层输出ol+1关于第l层输入zl的偏导数;表示第l层输入zl关于第l层参数θl的偏导数。

44、参数更新:

45、

46、其中,θnew表示更新后的模型参数;η表示学习率。

47、作为本技术方案的进一步改进,所述s5中,针对文本识别中的干扰因素,增强crnn特征提取网络,并引入transformer结构的具体步骤为:

48、s6.1、分析干扰因素,用于确定需要增强的特性;

49、s6.2、在crnn中加入额外卷积层;

50、s6.3、引入transformer模块来捕捉长距离依赖关系;

51、s6.4、调整模型架构,确保新加入的组件能够与现有网络无缝集成;

52、s6.5、进行多次实验验证,优化模型性能。

53、作为本技术方案的进一步改进,所述s6.3中,引入transformer模块来捕捉长距离依赖关系的具体表达式为:

54、

55、其中,attention表示attention机制;q表示查询矩阵;k表示键矩阵;v表示值矩阵;dk表示键向量维度的平方根;t表示矩阵的转置操作;softmax表示注意力得分转换为概率分布的函数。

56、与现有技术相比,本发明的有益效果:

57、1、该基于多分类文本检测的医疗票据识别的方法中,通过扫描设备可以快速高效地将纸质票据转化为数字图像,便于存储和管理。通过预处理保证图像的一致性,便于模型训练和推理。通过标注可以精确指出需要识别的关键信息所在的位置,有助于训练模型更准确地定位和识别这些信息。

58、2、该基于多分类文本检测的医疗票据识别的方法中,通过dbnet框架结合了文本检测和识别的优势,能够在检测的同时进行分类,提高了检测效率。支持多分类任务,可以一次性检测出票据上的多种不同类型的信息。引入transformer结构可以更好地捕捉文本中的长距离依赖关系,这对于理解复杂的文本结构非常重要。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1