专利名称:一种基于学习的超分辨文档图像复原处理方法
技术领域:
本发明涉及一种文档图像处理方法,尤其是涉及一种基于学习的超分辨文档图像复原处理方法。
背景技术:
在实际的应用环境中,由于扫描仪及打印机等外界硬件设备等条件的限制,采集到的电子文档图像分辨率较低或降质严重,例如图书馆藏的书籍的电子化、传真图像等。经常出现笔画的缺失、断裂、粘连等问题,使得阅读困难、OCR识别率下降。因此,对该类低分辨率文档图像进行复原来提高其显示效果和OCR识别率具有重要意义。在文档图像复原领域,低分辨率文档图像将直接影响文字识别的正确率。如何在低分辨率条件下对文档图像进行识别,并保持较高的识别率是研究的重点。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种复原效果好的基于学习的超分辨文档图像复原处理方法。本发明的目的可以通过以下技术方案来实现一种基于学习的超分辨文档图像复原处理方法,该方法用于低分辨率文档图像的复原,所述的方法包括以下几个步骤I)图像获取模块获得已知的多个高分辨率图像;2)图像获取模块获得高分辨率图像所对应的低分辨率图像,所述的高分辨率图像和低分辨率图像坐标相对对齐;3)训练模块将获得的高分辨率图像和低分辨率图像作为训练样本,进行训练学习,建立学习模型;4)向复原模块输入待复原低分辨率图像;5)复原模块根据学习模型将待复原低分辨率图像复原为高分辨率复原图像。所述的步骤2)中的获得高分辨率图像所对应的低分辨率图像的具体方法包括将高分辨率图像以1/3-1/2的比例进行压缩或缩小。所述的步骤3)中的训练学习过程具体包括以下步骤31)对高分辨率图像和低分辨率图像进行图像预处理,消除图像中无关的信息并进行二值化处理;32)将高分辨率图像与低分辨率图像划分成块数一致、且坐标一一对应的图像块;33)对这些图像块进行特征值标示,确定图像块之间的位置关系;34)根据图像块的特征值标示进行类别统计,将相同特征值的块归为一类;35)用统计的方法确定高分辨率图像类别与低分辨率图像类别之间的概率关系,建立学习模型。
所述的步骤31)中的二值化处理是指图像上的像素点的灰度值设置为0或者1,呈现出黑白效果。所述的步骤5)中的复原过程具体步骤包括51)对待复原低分辨率图像\进行切分,将其切分成与训练样本对应块数的待修复图像块,设图像块数为n;52)对每一个待修复图像块X分别寻找其在低分辨率图像类别中所属的类;53)根据学习模型中高分辨率图像类别与低分辨率图像类别之间的概率关系,获得与待修复图像块X对应的具有最大概率的高分辨率图像块y ;54)根据获得的高分辨率图像块y,生成高分辨率复原图像Yh。所述的步骤53)具体为
tn531)降低算法时间复杂度将公式F7f =argmax max ["[炉(^,_)]^^(兄,^),转
yj aU y^yi^yj !=i/^=1
tn
化为 inP(yw,D =H^iynyj));532)将待修复图像块x与高分辨率图像块间的概率关按概率值从大到
小排序,按顺序选取前k个概率值所对应的图像块{yi,y2,y3,...yk}作为候选块,将与待修复图像块X相邻的8块低分辨率图像Ix1, x2, .... x8}分别找出它们各自的前k个候选块;533)获得与待修复图像块X对应的具有最大概率的高分辨率图像块y
k k
y = arg max{max[w0 x <p(x, y) + w; x [ (p{xt ,J,)+ X ,少;.)]}!
>=iM上述P (Yh,Xl)为高分辨率图像Yh与待复原低分辨率图像的联合概率,V (Yi,Yj)为高分辨率图像块Yi与高分辨率图像块&间的概率关系,Ii幸为待复原图像块Xi与高分辨率图像块y」间的概率关系,t为互异的高分辨率图像块数目,Wi为权重,
=1。
/=0与现有技术相比,本发明首先对样本图像进行块划分,通过训练学习获得低分辨率图像块和高分辨率图像块之间的先验概率,利用贝叶斯公式对待复原的低分辨率文档图像进行复原,本发明对低分辨率文档图像能够有较好的复原效果,同时也可提高OCR识别率。
图I为本发明方法的流程示意图;图2为本发明训练过程示意图;图3为本发明复原过程示意图;图4为实施例2中待修复低分辨率图像;图5为实施例2中修复好的高分辨率图像。
具体实施例方式下面结合附图和具体实施例对本发明进行详细说明。实施例I如图I所示,一种基于学习的超分辨文档图像复原处理方法,该方法用于低分辨率文档图像的复原,所述的方法包括以下几个步骤I)获得已知的多个高分辨率图像;2)将高分辨率图像以1/3的比例进行压缩或缩小,获得高分辨率图像所对应的低分辨率图像,所述的高分辨率图像和低分辨率图像坐标相对对齐;3)将获得的高分辨率图像和低分辨率图像作为训练样本,进行训练学习,建立学习模型;4)输入待复原低分辨率图像;5)根据学习模型将待复原低分辨率图像复原为高分辨率复原图像。如图2所示,步骤3)中的训练学习过程具体包括以下步骤31)对高分辨率图像和低分辨率图像进行图像预处理,消除图像中无关的信息并进行二值化处理;32)将高分辨率图像与低分辨率图像划分成块数一致、且坐标一一对应的图像块, 高低分辨率图像块的大小比例关系即为高低分辨率图像之间的比例关系;33)对这些图像块进行特征值标示,确定图像块之间的位置关系;34)根据图像块的特征值标示进行类别统计,将相同特征值的块归为一类;35)用统计的方法确定高分辨率图像类别与低分辨率图像类别之间的概率关系,如表I所示,建立学习模型。表I :小(Xi, Yj)
^ Ji Y2Yt
X1PiP2P4
X2 P5 P6P8
XsPwPw+1 "Pz上表中,Pi表示高分辨率图像与低分辨率图像类别之间的概率关系。所述的步骤31)中的二值化处理是指图像上的像素点的灰度值设置为0或者1,呈现出黑白效果。如图3所示,所述的步骤5)中的复原过程具体步骤包括51)对待复原低分辨率图像进行切分,将其切分成与训练样本对应块数的待修复图像块,设图像块数为n;52)对每一个待修复图像块X分别寻找其在低分辨率图像类别中所属的类;53)根据学习模型中高分辨率图像类别与低分辨率图像类别之间的概率关系,获得与待修复图像块X对应的具有最大概率的高分辨率图像块y
tn531)降低算法时间复杂度将公式& =argmax max,转
yj al'yi^*yj /=1 /j=i
化为lnP(rH,X7) = Xln(炉(U))+ J Hyz^yj));
/=1D=I 532)将待修复图像块X与高分辨率图像块间的概率关系按概率值从大到
小排序,按顺序选取前k个概率值所对应的图像块{yi,y2,y3,...yk}作为候选块,将与待修复图像块X相邻的8块低分辨率图像Ix1, x2, .... x8}分别找出它们各自的前k个候选块;533)获得与待修复图像块X对应的具有最大概率的高分辨率图像块y
k k
少=argmax{max[w0x<p(x,y) + w,.x^<p(Xi,j;) +^iyi,y」)]};
)=1 / 1 /e{ly2,...8}上述P (Yh,Xl)为高分辨率图像Yh与待复原低分辨率图像的联合概率,V (Yi,Yj)为高分辨率图像块Yi与高分辨率图像块&间的概率关系,Ii幸&供(\,力)为待复原图像块Xi与高分辨率图像块y」间的概率关系,t为互异的高分辨率图像块数目,Wi为权重,
Zw/=1;
i=054)根据获得的高分辨率图像块y,生成高分辨率复原图像Yh。实施例2参考图I-图3所示,一种基于学习的超分辨文档图像复原处理方法,收集了 100张高分辨率文档图像,对其进行降质处理,降质为1/2(即图像的宽度和高度只有高分辨率图像的一半)生成对应的100张低分辨率图像,以此作为训练样本。本实施例中,将高分辨率图像块的大小设置为10*10,低分辨率图像块的大小设置为5*5。根据实施例I中的步骤对待修复低分辨率文档图像进行复原。在类别统计过程中,将特征值相同的图像块归为一类。通过训练学习,求得表I所示概率关系。再利用学习到的数据对输入的待修复低分辨率文档图像进行了复原,结果如图4和图5所示。
权利要求
1.一种基于学习的超分辨文档图像复原处理方法,其特征在于,该方法用于低分辨率文档图像的复原,所述的方法包括以下几个步骤 1)图像获取模块获得已知的多个高分辨率图像; 2)图像获取模块获得高分辨率图像所对应的低分辨率图像,所述的高分辨率图像和低分辨率图像坐标相对对齐; 3)训练模块将获得的高分辨率图像和低分辨率图像作为训练样本,进行训练学习,建立学习模型; 4)向复原模块输入待复原低分辨率图像; 5)复原模块根据学习模型将待复原低分辨率图像复原为高分辨率复原图像。
2.根据权利要求I所述的一种基于学习的超分辨文档图像复原处理方法,其特征在于,所述的步骤2)中的获得高分辨率图像所对应的低分辨率图像的具体方法包括将高分辨率图像以1/3-1/2的比例进行压缩或缩小。
3.根据权利要求I所述的一种基于学习的超分辨文档图像复原处理方法,其特征在于,所述的步骤3)中的训练学习过程具体包括以下步骤 31)对高分辨率图像和低分辨率图像进行图像预处理,消除图像中无关的信息并进行二值化处理; 32)将高分辨率图像与低分辨率图像划分成块数一致、且坐标一一对应的图像块; 33)对这些图像块进行特征值标示,确定图像块之间的位置关系; 34)根据图像块的特征值标示进行类别统计,将相同特征值的块归为一类; 35)用统计的方法确定高分辨率图像类别与低分辨率图像类别之间的概率关系,建立学习模型。
4.根据权利要求3所述的一种基于学习的超分辨文档图像复原处理方法,其特征在于,所述的步骤31)中的二值化处理是指图像上的像素点的灰度值设置为O或者1,呈现出黑白效果。
5.根据权利要求3所述的一种基于学习的超分辨文档图像复原处理方法,其特征在于,所述的步骤5)中的复原过程具体步骤包括 51)对待复原低分辨率图像\进行切分,将其切分成与训练样本对应块数的待修复图像块,设图像块数为n; 52)对每一个待修复图像块X分别寻找其在低分辨率图像类别中所属的类; 53)根据学习模型中高分辨率图像类别与低分辨率图像类别之间的概率关系,获得与待修复图像块X对应的具有最大概率的高分辨率图像块y ; 54)根据获得的高分辨率图像块y,生成高分辨率复原图像Yh。
6.根据权利要求5所述的一种基于学习的超分辨文档图像复原处理方法,其特征在于,所述的步骤53)具体为 531)降低算法时间复杂度将公式
全文摘要
本发明涉及一种基于学习的超分辨文档图像复原处理方法,其特征在于,该方法用于低分辨率文档图像的复原,所述的方法包括以下几个步骤1)图像获取模块获得已知的多个高分辨率图像;2)图像获取模块获得高分辨率图像所对应的低分辨率图像,所述的高分辨率图像和低分辨率图像相对对齐;3)训练模块将获得的高分辨率图像和低分辨率图像作为训练样本,进行训练学习,建立学习模型;4)向复原模块输入待复原低分辨率图像;5)复原模块根据学习模型将待复原低分辨率图像复原为高分辨率复原图像。与现有技术相比,本发明具有复原效果好、操作方便等优点。
文档编号G06K9/66GK102750686SQ20121019306
公开日2012年10月24日 申请日期2012年6月12日 优先权日2012年6月12日
发明者朱敏 申请人:华东师范大学