提高纸质医疗化验单手机扫描识别率的方法

文档序号:10570399阅读:743来源:国知局
提高纸质医疗化验单手机扫描识别率的方法
【专利摘要】本发明公开了一种提高纸质医疗化验单手机扫描识别率的方法,用于解决现有医疗化验单图像识别方法识别率低的技术问题。技术方案是首先对手机扫描的医疗化验单图像利用Canny算法进行边缘检测,然后对二值化处理后的医疗化验单图片按照不同的字符模式进行均等分割。再对分割后的图片进行逐个对比识别,最后对识别的字符串结果进行遍历,完成识别。由于利用Canny算子进行边缘检测和滤波,实现局部的阈值分割,得到较好的预处理效果;利用分割图片结合不同语言模式识别,得到初步识别结果;遍历识别出的字符串根据上下文出现的概率大小,进行进一步检验更正。提高了医疗化验单图像的识别率。
【专利说明】
提高纸质医疗化验单手机扫描识别率的方法
技术领域
[0001]本发明涉及一种医疗化验单图像识别方法,特别涉及一种提高纸质医疗化验单手机扫描识别率的方法。
【背景技术】
[0002]文献“申请公布号是CN104966109A的中国发明专利”公开了一种医疗化验单图像分类方法及装置。所述医疗化验单图像分类方法包括:计算给定医疗化验单图像的图像特征;以及基于所计算的图像特征利用训练好的分类模型确定所述给定医疗化验单图像所对应的医疗化验单的类型和格式。本发明提供的医疗化验单图像分类方法及装置通过图像特性自动判断医疗化验单的类型和格式,免去人工鉴别医疗化验单的类型和格式的过程,提高了医疗化验单识别的效率。

【发明内容】

[0003]为了克服现有医疗化验单图像识别方法识别率低的不足,本发明提供一种提高纸质医疗化验单手机扫描识别率的方法。该方法首先对手机扫描的医疗化验单图像利用Canny算法进行边缘检测,然后利用字符本身的形态学特征与背景噪音的本质差别进行特征滤波以及局部的阈值分割。对二值化处理后的医疗化验单图片按照不同的字符模式进行均等分割。结合OCR识别引擎,建立医疗化验单词汇数据库,对分割后的图片进行逐个对比识别。对识别的字符串结果进行遍历,如果结果字符串中包含与高频词汇类似的结果,则将结果字符串中与高频词汇类似的结果替换成专业医疗词汇。由于利用Canny算子进行边缘检测和滤波,实现局部的阈值分割,得到较好的预处理效果;利用分割图片结合不同语言模式识别,得到初步识别结果;遍历识别出的字符串根据上下文出现的概率大小,进行进一步检验更正。提高了医疗化验单图像的识别率。
[0004]本发明解决其技术问题所采用的技术方案:一种提高纸质医疗化验单手机扫描识别率的方法,其特点是包括以下步骤:
[0005]步骤一、对手机扫描的医疗化验单图像利用Canny算法进行边缘检测,找到字符与空白部分的界限,然后利用字符本身的形态学特征与背景噪音的本质差别进行特征滤波以及局部的阈值分割,最后利用投票法对未检测出的字符再次定位并二值化。
[0006]步骤二、对二值化处理后的医疗化验单图片按照不同的字符模式进行均等分割。
[0007]步骤三、结合OCR识别引擎,建立医疗化验单词汇数据库,对分割后的图片进行逐个对比识别。其中,按照医疗化验单的固有格式,在不同列的识别中进行中英文模式切换。
[0008]步骤四、对识别的字符串结果进行遍历,如果结果字符串中包含与高频词汇类似的结果,则将结果字符串中与高频词汇类似的结果替换成专业医疗词汇。对识别错误的字符进行修改,并将修改结果同步记录到对应到识别语库中。
[0009]本发明的有益效果是:该方法首先对手机扫描的医疗化验单图像利用Canny算法进行边缘检测,然后利用字符本身的形态学特征与背景噪音的本质差别进行特征滤波以及局部的阈值分割。对二值化处理后的医疗化验单图片按照不同的字符模式进行均等分割。结合OCR识别引擎,建立医疗化验单词汇数据库,对分割后的图片进行逐个对比识别。对识别的字符串结果进行遍历,如果结果字符串中包含与高频词汇类似的结果,则将结果字符串中与高频词汇类似的结果替换成专业医疗词汇。由于利用Canny算子进行边缘检测和滤波,实现局部的阈值分割,得到较好的预处理效果;利用分割图片结合不同语言模式识别,得到初步识别结果;遍历识别出的字符串根据上下文出现的概率大小,进行进一步检验更正。医疗化验单图像的识别率由【背景技术】的60%提高到80%。
[0010]下面结合附图和【具体实施方式】对本发明作详细说明。
【附图说明】
[0011]图1是本发明提高纸质医疗化验单手机扫描识别率的方法流程图。
[0012]图2是本发明方法中用于识别的化验单示意图。
[0013]图3是本发明方法识别后的化验单截图。
[0014]图4是本发明方法利用图3识别结果生成的ExceI表截图。
【具体实施方式】
[0015]参照图1-4。本发明提高纸质医疗化验单手机扫描识别率的方法具体步骤如下:
[0016]第一步,优化预处理过程。为提高识别效率,特将图像转变为二值化图像,而传统的最大方差,阈值分割等二值化方法对本图中出现的褶皱,光暗不均等问题,无法达到一个很好的效果,为解决这些问题,本专利利用结合边缘检测和实际字符形态学特征的的二值化方法。由于canny算子作为传统方法中最好的边缘算子,在提取目标边缘的过程中,对噪音的抑制较好。在本图像的实际场景中,目标即为相应的字符,而字符的边缘在整张图看来尽管有明暗差异,但是其与周围背景的对比度仍旧很高,像素之间梯度变化的很强烈,故canny算子可以很好的保留字符的边缘,而对噪音有着很好的抑制,有处理后的图像可以看出,大部分的噪音得以去除,而此时出现的边缘噪音,在很大程度上,呈现出与字符截然不同的特性。字符本身有一定的形态学特性,汉字与英文字母,特定符号和数字均有一定的大小范围,而其余的噪音的大小则不确定,呈现出来的长线形等情况。利用这样的形态学特征进行滤波,以不同的字符窗的大小进行滤波,保留条件为最大程度上的字符窗内包含着相应的边缘检测部分,便可以得到较为精确的对字符的定位,也可以在一定程度上抑制长条形等孤立的噪音等等。而在真正的二值化过程中,对已经确定的字符位置,对相应位置便可以进行局部的阈值分割。确定相应字符的精确性。在最后的二值化判决过程中,已检测出来的字符位置上的权值要远远大于背景位置。而由于拍照角度等问题,对于背景的分割可以采用先中值滤波再全局阈值分割的方式,防止有突变点的影响。之后可以采用投票算法,将未检出的点,再次二值化出。
[0017]第二步,分割化验单并识别。当前的图像识别库,都是中英分开的,为了提高对化验单的识别率可以将手机拍下的照片,进行分块识别,对每一个分块,找到每一个分块的阈值,再按照第一步进行识别,对于化验单中先中文后英文,或者中英文交替的规律,在对图片分块预处理之后选择不同的语言库,提高对每一个分块的识别率。
[0018]第三步,建立医学词汇数据库。在手机安卓端建立一个专业的医学词汇数据库,识别化验单时,将识别到的医学词汇与医学词汇库进行对比,计算两者的相似度,由于化验单上的医学词汇比较专业,当两者的相似度达到一定阈值时,即认为识别到的中文就是医学词汇库里面的词汇。从图3可以看到,化验单的识别率得到了提高。
[0019]第四步,识别结果优化。由于手机像素不高,拍照的光线角度等问题,手机端对医疗化验单的识别率不够高。而化验单上的检查项名词出现的频率较高,比如红细胞,白细胞等专业词汇,在实际识别过程中,对这些高频词汇进行一定的权值加重,在之后的优化处理中,对已经识别的词汇进行遍历扫描,如果出现很大程度上对特定高频词汇的偏好,即采用相应高频词汇,人机交互,提高人的参与性,在实际文件保存之前,操作者对生成的Excel表进行编辑和选择,这样在下一次遇到相同或类似的情况时,就可以直接以上次人的选择为主在人的意识主导下,确保较高的正确率。
【主权项】
1.一种提高纸质医疗化验单手机扫描识别率的方法,其特征在于包括以下步骤: 步骤一、对手机扫描的医疗化验单图像利用Canny算法进行边缘检测,找到字符与空白部分的界限,然后利用字符本身的形态学特征与背景噪音的本质差别进行特征滤波以及局部的阈值分割,最后利用投票法对未检测出的字符再次定位并二值化; 步骤二、对二值化处理后的医疗化验单图片按照不同的字符模式进行均等分割; 步骤三、结合OCR识别引擎,建立医疗化验单词汇数据库,对分割后的图片进行逐个对比识别;其中,按照医疗化验单的固有格式,在不同列的识别中进行中英文模式切换; 步骤四、对识别的字符串结果进行遍历,如果结果字符串中包含与高频词汇类似的结果,则将结果字符串中与高频词汇类似的结果替换成专业医疗词汇;对识别错误的字符进行修改,并将修改结果同步记录到对应到识别语库中。
【文档编号】G06K9/34GK105930844SQ201610245064
【公开日】2016年9月7日
【申请日】2016年4月20日
【发明人】钟冬, 张靖, 董辉, 吴轶成, 张甲栋, 解飞
【申请人】西北工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1