本发明涉及字符识别技术领域,具体涉及一种医疗检验单的检验项信息自动提取方法。
背景技术:
光学字符识别(OCR)技术作为图像识别领域的一大重要研究热点,主要针对文档图像中各种语言、字体等字符的识别,被广泛应用于各种证件识别、票据识别、标志牌识别、文档分析等人们生活、工作和学习的各个方面。关于OCR技术的研究始于20世纪初,经过近一个世纪的研究发展,OCR技术目前已可支持多种语言、针对多种场景并可结合不同平台进行开发,应用也日趋成熟,国内外有许多投入市场应用的OCR软件如Tesseract OCR、ABBYY FineReader、清华文通和清华紫光OCR、汉王OCR等等。
现有的字符识别方法基本可分为预处理、文本定位与字符分割、特征提取、分类识别及后处理等几大阶段。文献[1]提出一种针对文档图像的基于像素点的二值化算法,文献[2]通过对比不同的人工神经网络模型并从中选取最优模型进行字符识别,文献[3]则针对的是文本行的提取过程;文献[4-6]对手写字符的识别进行了研究,分别使用基于模糊理论、基于粒子群优化算法和基于离散小波变换的方法,并达到较高的识别准确率;文献[7]则针对的是场景字符的识别,使用ICDAR2003数据集,其中包括书籍杂志封面、海报横幅、街道牌、 商店标牌、商品铭牌、标志标识牌等多场景字符图像,实验识别率均在80%以上;对于各种语言字符识别的研究,则有文献[8]的印度语识别技术、文献[9]对泰文中断裂字符现象的针对性算法以及文献[10]对手写梵文字符的识别研究等等;在其他应用方面,有文献[11]的盲文识别技术、文献[12]的门牌号识别方法、文献[13]对嵌入式系统视频图像中的文字识别、文献[14,15]的车牌自动识别技术以及文献[16-18]的数学公式识别系统等等。
从已有工作上来看,目前还缺少完善的针对医疗检验单的文字识别方法,已有的商业OCR软件无法在复杂的医疗检验单拍照图像上得到满意的识别结果。因此,本工作给出一种针对医疗检验单拍照图像的文字识别和信息提取方法。
参考文献:
[1]Ntirogiannis K,Gatos B,Pratikakis I.Performance evaluation methodology for historical document image binarization[J].Image Processing,IEEE Transactions on,2013,22(2):595-609.
[2]Sahu V L,Kubde B.Offline Handwritten Character Recognition Techniques using Neural Network:A Review[J].International journal of science and Research(IJSR),2013,2(1):87-94.
[3]Malakar S,Halder S,Sarkar R,et al.Text line extraction from handwritten document pages using spiral run length smearing algorithm[C]//Communications,Devices and Intelligent Systems(CODIS),2012International Conference on.IEEE,2012:616-619.
[4]Gur E,Zelavsky Z.Retrieval of rashi semi-cursive handwriting via fuzzy logic[C]//Frontiers in Handwriting Recognition(ICFHR),2012International Conference on.IEEE,2012:354-359.
[5]Abed M A,Alasadi H A A.Simplifying Handwritten Characters Recognition Using a Particle Swarm Optimization Approach[J].European Academic Research I(5)(August 2013).
[6]Patel D K,Som T,Yadav S K,et al.Handwritten Character Recognition Using Multiresolution Technique and Euclidean Distance Metric[J].2012.
[7]Coates A,Carpenter B,Case C,et al.Text detection and character recognition in scene images with unsupervised feature learning[C]//Document Analysis and Recognition(ICDAR),2011 International Conference on.IEEE,2011:440-445.
[8]Dutta S,Sankaran N,Sankar K P,et al.Robust recognition of degraded documents using character n-grams[C]//Document Analysis Systems(DAS),201210th IAPR International Workshop on.IEEE,2012:130-134.
[9]Sumetphong C,Tangwongsan S.An optimal approach towards recognizing broken Thai characters in OCR systems[C]//Digital Image Computing Techniques and Applications(DICTA),2012 International Conference on.IEEE,2012:1-5.
[10]Sankaran N,Jawahar C V.Recognition of printed Devanagari text using BLSTM Neural Network[C]//Pattern Recognition(ICPR),2012 21st International Conference on.IEEE,2012:322-325.
[11]AlSalman A,El-Zaart A,Al-Salman S,et al.A novel approach for Braille images segmentation[C]//Multimedia Computing and Systems(ICMCS),2012 International Conference on.IEEE,2012:190-195.
[12]Rhead M,Gurney R,Ramalingam S,et al.Accuracy of automatic number plate recognition(ANPR)and real world UK number plate problems[C]//Procs 46th IEEE Int Carnahan Conf on Security Technology.IEEE,2012.
[13]Hori O.A video text extraction method for character recognition[C]//Document Analysis and Recognition,1999.ICDAR'99.Proceedings of the Fifth International Conference on.IEEE,1999:25-28.
[14]Kim K K,Kim K I,Kim J B,et al.Learning-based approach for license plate recognition[C]//Neural Networks for Signal Processing X,2000.Proceedings of the2000 IEEE Signal Processing Society Workshop.IEEE,2000,2:614-623.
[15]Anagnostopoulos C N E,Anagnostopoulos I E,Psoroulas I D,et al.License plate recognition from still images and video sequences:A survey[J].Intelligent Transportation Systems,IEEE Transactions on,2008,9(3):377-391.
[16]Hu L,Hart K,Pospesel R,et al.Baseline extraction-driven parsing of handwritten mathematical expressions[C]//Pattern Recognition(ICPR),2012 21st International Conference on.IEEE,2012:326-330.
[17]Hu Y,Peng L,Tang Y.On-line handwritten mathematical expression recognition method based on statistical and semantic analysis[C]//Document Analysis Systems(DAS),2014 11th IAPR International Workshop on.IEEE,2014:171-175.
[18]Kumar P P,Agarwal A,Bhagvati C.A rule-based approach to form mathematical symbols in printed mathematical expressions[M]//Multi-disciplinary Trends in Artificial Intelligence.Springer Berlin Heidelberg,2011:181-192.
技术实现要素:
本发明的目的是针对现有技术中的不足,提供一种医疗检验单拍照图像识别方法,解决医疗检验单拍照图像中文字倾斜、定向错误、噪音干扰、版式复杂、光照不均等多种情况下的文字识别和信息提取问题。
为实现上述目的,本发明公开了如下技术方案:
一种医疗检验单的检验项信息自动提取方法,包括如下步骤:
S1预处理:首先,将拍照得到的彩色图像分别通过灰度化和自适应二值化处理转为二值图像,并在二值图像上进行连通体搜索,得到所有的连通体信息;然后,根据连通体的宽度和高度滤除过宽或过高的连通体,并将重叠率较高的连通体合并;最后,根据每一连通体在多个方向上的识别可信度进行投票,得到医疗检验单拍照图像的正确定向结果;
S2化验结果识别和定位:首先,对每一连通体按英文和数字进行字符识别,将识别可信度较高的连通体保留,并将垂直方向重叠、水平方向距离较近的连通体合并为英文数字字符组;然后,考虑检验结果列有汉字结果的情况,对每一连通体及其可能的组合按汉字进行字符识别,将识别可信度较高的连通体或连通体组合保留,并将垂直方向重叠、水平方向距离较近的字符组合并,生成多个候选检验结果列,以数字结果数量、汉字结果数量、英文结果数量为依据从候选结果中选出可信的结果列;
S3化验项目名称识别和定位:首先,将按英文和数字识别可信度较低的连通体作为候选汉字连通体,将垂直方向重叠、水平方向距离较近的连通体或连通体组合合并为汉字字符组,再将水平方向重叠、垂直方向距离较近的连通体或连通体组合合并为候选项目名称列,并对候选项目名称列进行汉字识别;最后,根据化验项目名称关键词列表从候选项目名称列中找出匹配的项目名称识别结果,不匹配的候选项目名称做出标记,但不删除;
S4化验项目名称和化验项目结果匹配:首先,找到水平方向与化验项目名称列和化验结果列均重叠、且其顶部距离化验项目名称列和化验项目结果列顶部最近的连通体A;然后,以连通体A的上边界作为参考线,计算最顶端化验项目名称和化验结果距该参考线的Y方向距离,确定第一个化验项目名称对应的正确化验结果项,再根据第一对匹配结果的位置进行第二对结果的匹配,以此类推;最后,对于一对匹配结果,如果对应的化验项目名称是不匹配的候选项目名称,且化验结果不是数字、也不是匹配的英文关键词或汉字关键词,则认为该匹配结果无效,将位于顶端或底端的无效结果滤除。
进一步的,在所述步骤S2开始之前,为了减少混杂在化验项目名称中的英文对项目名称识别和定位所造成的干扰,将括号中的英文都滤除掉。
进一步的,所述字符识别方法为基于梯度方向直方图特征HOG的方法,HOG通过提取局部区域的梯度方向直方图作为特征。
进一步的,进行字符识别时,先将图像的检测窗口划分为小的单 元格,计算单元格内所有像素点的一维梯度或边缘方向直方图,然后将若干单元格组成大的块,在块内进行对比度归一化,通过滑动窗口密集扫描图像,获取最终的HOG特征向量。
进一步的,获取最终的HOG特征向量的具体步骤为:首先,按下述公式计算点(x,y)的梯度幅值G(x,y)和方向θ(x,y),图像的梯度图表现了异态汉字的整体轮廓和梯度幅值,
式中,Gx(x,y),Gy(x,y)分别表示该点水平方向、垂直方向的梯度幅值,其计算方法如下式所示,
Gx(x,y)=I(x+1,y)-I(x-1,y),Gy(x,y)=I(x,y+1)-I(x,y-1)
式中,I(x+1,y)表示图像I在点(x+1,y)上的像素值,I(x-1,y)表示图像I在点(x-1,y)上的像素值,I(x,y+1)表示图像I在点(x,y+1)上的像素值,I(x,y-1)表示图像I在点(x,y-1)上的像素值;
然后,在块内基于单元格统计直方图,对于单元格内每个像素点的权值,根据其梯度幅值采用高斯加权统计到其梯度方向所属的直方图分组中,直方图分组的方向范围为0~π;
为了提高识别性能,削弱图像中光照下不均的影响,对同一块内所有单元格的特征向量进行归一化处理;
最后,通过滑动窗口密集扫描图像,其中滑动窗口移动间隔为单元格大小,将检测窗口中所有块的特征向量依次连接起来,构成HOG特征集合。
进一步的,对同一块内所有单元格的特征向量进行归一化处理时, 采用L2-Hys归一化方式,即,以0.2为上限值对L2-Hys归一化数据修剪后再次归一化,其计算公式如下:
其中,ν是未归一化的特征向量,ε是一个极小的常量。
本发明公开的一种医疗检验单的检验项信息自动提取方法,具有以下有益效果:
本发明采用预处理、化验结果识别和定位、化验项目名称识别和定位、化验项目名称和化验结果匹配等步骤实现了复杂医疗检验单拍照图像中的文字识别和信息提取功能,对于文字倾斜、定向错误、噪音干扰、版式复杂、光照不均等情况有较强的鲁棒性,解决了复杂医疗检验单拍照图像中文字倾斜、定向错误、噪音干扰、版式复杂、光照不均等多种情况下的文字识别和信息提取问题。本发明对多种复杂情况下的医疗检验单拍照图像进行文字识别和信息提取,准确率达到90%以上,能够满足个人医疗记录保存和检索等应用的需要。
附图说明
图1是本发明的系统流程图;
图2是预处理结果示例图;
图3是匹配结果示例图。
具体实施方式
下面结合实施例并参照附图对本发明作进一步描述。
请参见图1。
一种医疗检验单的检验项信息自动提取方法,包括如下步骤:
S1预处理:首先,将拍照得到的彩色图像分别通过灰度化和自适应二值化处理转为二值图像,并在二值图像上进行连通体搜索,得到所有的连通体信息;然后,根据连通体的宽度和高度滤除过宽或过高的连通体,并将重叠率较高的连通体合并;最后,根据每一连通体在多个方向上的识别可信度进行投票,得到医疗检验单拍照图像的正确定向结果,见图2;
S2化验结果识别和定位:首先,对每一连通体按英文和数字进行字符识别,将识别可信度较高的连通体保留,并将垂直方向重叠、水平方向距离较近的连通体合并为英文数字字符组;然后,考虑检验结果列有汉字结果的情况,对每一连通体及其可能的组合按汉字进行字符识别,将识别可信度较高的连通体或连通体组合保留,并将垂直方向重叠、水平方向距离较近的字符组合并,生成多个候选检验结果列,以数字结果数量、汉字结果数量、英文结果数量为依据从候选结果中选出可信的结果列;
S3化验项目名称识别和定位:首先,将按英文和数字识别可信度较低的连通体作为候选汉字连通体,将垂直方向重叠、水平方向距离较近的连通体或连通体组合合并为汉字字符组,再将水平方向重叠、垂直方向距离较近的连通体或连通体组合合并为候选项目名称列,并对候选项目名称列进行汉字识别;最后,根据化验项目名称关键词列表从候选项目名称列中找出匹配的项目名称识别结果,不匹配的候选 项目名称做出标记,但不删除;
S4化验项目名称和化验项目结果匹配:首先,找到水平方向与化验项目名称列和化验结果列均重叠、且其顶部距离化验项目名称列和化验项目结果列顶部最近的连通体A;然后,以连通体A的上边界作为参考线,计算最顶端化验项目名称和化验结果距该参考线的Y方向距离,确定第一个化验项目名称对应的正确化验结果项,再根据第一对匹配结果的位置进行第二对结果的匹配,以此类推;最后,对于一对匹配结果,如果对应的化验项目名称是不匹配的候选项目名称,且化验结果不是数字、也不是匹配的英文关键词或汉字关键词,则认为该匹配结果无效,将位于顶端或底端的无效结果滤除。化验项目名称和化验结果匹配结果示例图如图3所示。
作为一种具体实施例,在所述步骤S2开始之前,为了减少混杂在化验项目名称中的英文对项目名称识别和定位所造成的干扰,将括号中的英文都滤除掉。
作为一种具体实施例,所述字符识别方法为基于梯度方向直方图特征HOG(histograms of oriented gradients,简称HOG)的方法,其对光照变化、适当的倾斜和小位移具有鲁棒性。HOG特征由SIFT特征发展而来,是一种局部描述符。局部梯度或边缘方向的分布能够很好地表征目标的形状和外形。HOG通过提取局部区域的梯度方向直方图作为特征,无需考虑图像的整体信息。
进行字符识别时,先将图像的检测窗口划分为小的单元格(cell),计算单元格内所有像素点的一维梯度或边缘方向直方图,然后将若干 单元格组成大的块(block),在块内进行对比度归一化,通过滑动窗口密集扫描图像,获取最终的HOG特征向量,具体步骤为:
首先,按下述公式计算点(x,y)的梯度幅值G(x,y)和方向θ(x,y),图像的梯度图表现了异态汉字的整体轮廓和梯度幅值,
式中,Gx(x,y),Gy(x,y)分别表示该点水平方向、垂直方向的梯度幅值,其计算方法如下式所示,
Gx(x,y)=I(x+1,y)-I(x-1,y),Gy(x,y)=I(x,y+1)-I(x,y-1)
式中,I(x+1,y)表示图像I在点(x+1,y)上的像素值,I(x-1,y)表示图像I在点(x-1,y)上的像素值,I(x,y+1)表示图像I在点(x,y+1)上的像素值,I(x,y-1)表示图像I在点(x,y-1)上的像素值;
然后,在块内基于单元格统计直方图,对于单元格内每个像素点的权值,根据其梯度幅值采用高斯加权统计到其梯度方向所属的直方图分组(bin)中,直方图分组的方向范围为0~π;
为了提高识别性能,削弱图像中光照下不均的影响,对同一块内所有单元格的特征向量进行归一化处理:
采用L2-Hys归一化方式,即,以0.2为上限值对L2-Hys归一化数据修剪后再次归一化,其计算公式如下:
其中,ν是未归一化的特征向量,ε是一个极小的常量;
最后,通过滑动窗口密集扫描图像,其中滑动窗口移动间隔为单元格大小,将检测窗口中所有块的特征向量依次连接起来,构成HOG 特征集合。
本发明通过基于单字符识别的自动定向方法,使得本发明能够自动校正医疗检验单拍照图像的定向错误;通过自底向上的连通体分析的方法,使得本发明对文字倾斜、噪音干扰、版式复杂等情况具有较强的鲁棒性;通过采用梯度方向直方图特征进行文字识别,使得本发明对文字倾斜、光照不均等情况具有较强的鲁棒性;通过基于医疗单参考线的项目名称域和结果域匹配方法,使得本发明能够在倾斜下得到正确的匹配结果。
以上所述仅是本发明的优选实施方式,而非对其限制;应当指出,尽管参照上述各实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,其依然可以对上述各实施例所记载的技术方案进行修改,或对其中部分或者全部技术特征进行等同替换;而这些修改和替换,并不使相应的技术方案的本质脱离本发明各实施例技术方案的范围。