本发明涉及图像处理领域,特别是一种基于ocr的格式化传真的分类和信息提取方法。
背景技术:
随着科技的进步,跨国跨地区的业务交流也越来越频繁,由于传真较其他文件传输方式具有特别的法律效应,使得其在办公系统中被大量使用。格式化传真文件中包含了大量有用信息,目前这些传真文件都需要人工进行分类,并手动提取其中的重要信息,效率底下。亟需一种高效快捷的文件分类和信息提取方法,提升员工的工作效率,降低人力成本,释放生产力。
中国专利公开号cn101876999公开了一种生成传真索引的方法、报文分析装置和传真检索系统,该系统对传真报文进行版面分析,提取所述传真报文中的特征信息,根据所述提取的特征信息为传真报文建立标签,将所述标签作为所述传真报文的索引,以便用户根据所述标签查找相对应的传真报文。但该系统只能够实现文件的分类和索引,难以实现文件中关键信息的提取。
中国专利公开号cn102222289公开了一种基于ocr的手机财务管理方法及系统,该系统借助ocr技术对财务票据进行分析识别,但不能针对格式化的扫描传真件,无法实现传真影像的分类和信息提取。
技术实现要素:
本发明所要解决的技术问题是针对上述现有技术的不足提供一种基于ocr的格式化传真的分类和信息提取方法,本基于ocr的格式化传真的分类和信息提取方法具有提高办公的工作效率,解放员工生产力,实现非结构化数据向结构化数据的转变,本发明适应于格式化传真,即表格图像的传真,例如规范化合同、自制凭证、票据等。
为实现上述技术目的,本发明采取的技术方案为:
一种基于ocr的格式化传真的分类和信息提取方法,具体包括以下步骤:
步骤1:获取传真的图像文件,对图像进行自适应阈值的二值化,降低噪声的干扰;
步骤2:确定图像的倾斜角度,对图像进行校正;
步骤3:找到校正后的图像中表格的最大包围框的轮廓,从图像中表格的最大包围框的上部区域截取图像的表头区域;
步骤4:筛选表头区域中的字体轮廓并对字体轮廓进行融合,从而将字体轮廓合并成完整字段;
步骤5:检测表头区域合并后的字段的数量,根据表头区域的字段的数量和字段的内容对图像进行分类;
步骤6:提取分类成功的图像,对图像中待识别区域进行定位;
步骤7:根据待识别的区域在表格中的位置以及ocr识别技术对表格中的待识别的区域的字段进行识别;
步骤8:优化已识别的字段。
作为本发明进一步改进的技术方案,所述的步骤1具体包括以下步骤:
(1)获取传真的图像文件,将图像转到hsv色域的图像,去除落在红色区间的像素点;
(2)根据图像的像素的邻域块的像素值分布来确定该像素位置上的二值化阈值,对图像进行自适应阈值的二值化,降低噪声的干扰。
作为本发明进一步改进的技术方案,所述的步骤2包括找到图像中的最长直线,根据最长直线与水平方向的夹角,从而对图像进行旋转校正。
作为本发明进一步改进的技术方案,所述的步骤4包括以下步骤:
(1)设定字体轮廓的长度阈值的范围和宽度阈值的范围;
(2)对表头区域进行轮廓检索,筛选出长度在字体轮廓的长度阈值的范围内且宽度在字体轮廓的宽度阈值的范围内的轮廓,筛选出的轮廓即为字体轮廓;
(3)对字体轮廓进行融合,提取字体轮廓的颜色,将颜色相近的字体轮廓且每个字体轮廓之间的距离小于字体轮廓本身的宽度的一半的字体合并成完整字段。
作为本发明进一步改进的技术方案,所述的步骤5包括以下步骤:
(1)检测表头区域的字段的数量;
(2)如果字段的数量是0,则不对图像进行分类;
(3)如果字段的数量是1,则采用机器学习svm分类器的方法对图像进行分类;
(4)如果字段的数量大于1,则通过ocr识别表头区域的字体,将表头区域的字体与图像识别库中的类型名称进行匹配,从而实现分类,将匹配的总字数除以匹配正确的字段总字数并将得到的结果与预先设定的阈值进行对比,如果大于预先设定的阈值,则分类成功,否则,分类失败。
作为本发明进一步改进的技术方案,所述的步骤6包括以下步骤:
(1)加载事先制作好模板信息;
(2)提取步骤5分类成功的图像,找到图像中最大包围框的轮廓中所有的内含包围框的轮廓;
(3)设定包围框的长度阈值范围和宽度阈值范围,筛选出长度在包围框的长度阈值范围内且宽度在包围框的宽度阈值的范围内的包围框;
(4)根据筛选出的包围框的位置信息,按照从上到下,从左到右的顺序对所有包围框进行扫描并排序,实现表格的定位,根据模版信息寻找表格内待识别的区域;
(5)根据模板信息判断是否需要识别表格外部,如果需要识别表格外部的信息,则需要对表格外部进行字段轮廓提取,采用步骤4的方法筛选表格外部的字体轮廓并对字体轮廓进行融合,从而将字体轮廓合并成完整字段,根据模板信息中记录的字段与图像中的最大包围框的相对位置确定表格外部的待识别的区域,根据模板信息中记录的字段对最大包围框以外需要识别的字段位置进行定位。
作为本发明进一步改进的技术方案,所述的步骤7包括以下步骤:
(1)根据步骤6中待识别区域的位置信息,截取字段图片;
(2)通过ocr识别,对定位好的字段进行识别。
作为本发明进一步改进的技术方案,所述的步骤8包括以下步骤:
(1)提取ocr识别的字段;
(2)针对字段类型不同进行优化,对小写类字段,去除其中的非数字部分;对日期字段,将空格以及非数字及年月日进行筛除;
(3)字典优化,通过建立字典库的形式,将ocr识别的字段与字典库中字段进行匹配,如果匹配分数大于预先设定的阈值,则将字典库中字段替换为ocr识别的字段从而对字典库中的字段进行优化更新,同时,将人工确认的正确字段补充进字典库中,所述匹配分数等于ocr识别正确的字总数除以当前与字典库中匹配字总数。
本发明能够快速对格式化传真文件进行分类和信息提取,分类速度快,分类准确,信息提取准确率高。现有技术中有对传真图像进行检索分类的,但无法实现字段信息的提取;有对图像进行识别的,但无法实现格式化传真图像的识别功能。因此,目前还没有一种针对格式化传真文件信息提取的有效方法,本文提出的方法补全了这一技术空缺,提升了办公工作效率,释放了生产力,节约了人力成本。
附图说明
图1为本发明的流程图。
具体实施方式
下面根据图1对本发明的具体实施方式作出进一步说明:
参见图1,本实施例适应于任何格式化的传真,其中格式化的传真即具有表格的图像传真,本实施例以票据的传真为例,具体如下:
一种基于ocr的格式化传真的分类和信息提取方法,具体包括以下步骤:
步骤1:获取票据的传真的图像文件,对图像进行自适应阈值的二值化,降低噪声的干扰;
步骤2:确定图像的倾斜角度,对图像进行校正;
步骤3:找到校正后的图像中表格的最大包围框的轮廓,从图像中表格的最大包围框的上部区域截取图像的票头区域;
步骤4:筛选表头区域中的字体轮廓并对字体轮廓进行融合,从而将字体轮廓合并成完整字段;
步骤5:检测表头区域合并后的字段的数量,根据表头区域的字段的数量和字段的内容对图像进行分类;
步骤6:提取分类成功的图像,对图像中待识别区域进行定位(包括表格内部和表格外部);
步骤7:根据待识别的区域在表格中的位置以及ocr识别技术对表格中的待识别的区域的字段进行识别;
步骤8:优化已识别的字段。
本实施例中,所述的步骤1具体包括以下步骤:
(1)获取传真的图像文件,将图像转到hsv色域的图像,去除落在红色区间的像素点(去红章);
(2)根据图像的像素的邻域块的像素值分布来确定该像素位置上的二值化阈值,对图像进行自适应阈值的二值化,降低噪声的干扰。
优选的,所述的步骤2具体为找到图像中的最长直线,根据最长直线与水平方向的夹角,从而对图像进行旋转校正。
本实施例中,所述的步骤4包括以下步骤:
(1)设定字体轮廓的长度阈值的范围和宽度阈值的范围;
(2)对表头区域进行轮廓检索,筛选出轮廓的长度在字体轮廓的长度阈值的范围内且轮廓的宽度在字体轮廓的宽度阈值的范围内的轮廓,筛选出的轮廓即为字体轮廓;
(3)对字体轮廓进行融合,提取字体轮廓的颜色,将颜色相同的字体轮廓且每个字体轮廓之间的距离小于字体轮廓本身的宽度的一半的字体合并成完整字段。
本实施例中,所述的步骤5包括以下步骤:
(1)检测表头区域的字段的数量;
(2)如果字段的数量是0,则不对图像进行分类,退出;
(3)如果字段的数量是1,则采用机器学习svm分类器的方法对图像进行分类,svm分类器需要事先进行对大量表头进行训练,未被svm分类器区分出的票据直接退出,本实施例采用现有技术中的机器学习svm分类器;
(4)如果字段的数量大于1,则通过ocr识别表头区域的字体,将表头区域的字体与图像识别库中的类型名称进行匹配,从而实现分类,将匹配的总字数除以匹配正确的字段总字数并将得到的结果与预先设定的阈值thr进行对比,如果大于预先设定的阈值,则分类成功,否则,分类失败,退出。
优选的,所述的步骤6包括以下步骤:
(1)制作模板信息,加载事先制作好模板信息;
(2)提取分类成功的图像,找到图像中最大包围框的轮廓中所有的内含包围框的轮廓;
(3)设定包围框的长度阈值范围和宽度阈值范围,筛选出包围框的长度在包围框的长度阈值范围内且包围框的宽度在包围框的宽度阈值的范围内的包围框;
(4)根据筛选出的包围框的位置信息,按照从上到下,从左到右的顺序对所有包围框进行扫描并排序,实现表格的定位,根据模板信息寻找表格中待识别的区域(根据模板信息,判断待识别的区域在表格中的位置从而判断待识别的区域是否在表格外;如果待识别的区域均在表格的内部,则只需要对表格内的待识别的区域进行定位提取,如果待识别的区域在表格外,执行下面步骤);
(5)根据模板信息确定是否需要识别表格外部,如果需要识别表格外部信息,则需要对表格外部进行字段轮廓提取,采用步骤4的方法筛选表格外部的字体轮廓并对字体轮廓进行融合,从而将字体轮廓合并成完整字段,根据模板信息中记录的字段与图像中的最大包围框的相对位置确定表格外的待识别的区域,根据模板信息中记录的字段对最大包围框以外需要识别的字段位置进行定位。
本实施例中,所述的步骤7包括以下步骤:
(1)根据步骤6中待识别区域的位置信息,截取字段图片;
(2)通过ocr识别,对定位好的字段进行识别。
本实施例中,所述的步骤8包括以下步骤:
(1)提取ocr识别的字段;
(2)针对字段类型不同进行优化,对小写类字段,去除其中的非数字部分;对日期字段,对其中的空格以及非数字及“年月日”进行筛除;
(3)字典优化,通过建立字典库的形式,将ocr识别的的字段与字典库中字段进行匹配,如果匹配分数大于预先设定的阈值scorethr,则将字典库中字段替换为ocr识别的字段从而对字典库中的字段进行优化更新,同时,将人工确认的正确字段不断补充进字典库中,所述匹配分数等于ocr识别正确的字总数除以当前与字典库中匹配字总数。
本发明能够快速对格式化传真文件进行分类和信息提取,分类速度快,分类准确,信息提取准确率高。现有技术中有对传真图像进行检索分类的,但无法实现字段信息的提取;有对图像进行识别的,但无法实现格式化传真图像的识别功能。因此,目前还没有一种针对格式化传真文件信息提取的有效方法,本文提出的方法补全了这一技术空缺,提升了办公工作效率,释放了生产力,节约了人力成本。
本发明的保护范围包括但不限于以上实施方式,本发明的保护范围以权利要求书为准,任何对本技术做出的本领域的技术人员容易想到的替换、变形、改进均落入本发明的保护范围。