一种水下视频图像的文字识别方法

文档序号：6636199阅读：271来源：国知局

一种水下视频图像的文字识别方法
【专利摘要】本发明公开了一种水下视频图像的文字识别方法，包括：根据形态学图像处理原理对视频图像进行预处理，增强对比度，滤除噪声；根据预处理结果对视频文字进行区域分割，采用基于边缘检测与连通元相结合的方法进行文本区域定位；根据视频文字区域分割的结果，采用全局阈值法与局部阈值法相结合的二值化方法对文字进行字符分割，并将分割出的字符进行归一化，使分割后的字符与模板库中的字符大小一致；根据视频文字的特点进行模板库设计，将分割出的字符与模板库中的字符进行匹配，实现字符识别并保存到文本中。
【专利说明】一种水下视频图像的文字识别方法

【技术领域】
[0001] 本发明涉及文字识别方法，特别涉及一种水下视频图像的文字识别方法，属于图像处理【技术领域】。

【背景技术】
[0002] 近年来，由于图像处理、模式识别、人工智能等计算机技术取得了飞速的发展，使得基于图像处理的文字识别领域得到广泛应用，随着OCR(OpticalCharacter Recognition，光学字符识别）技术研究的深入，文字识别领域引入一种基于复杂背景下的视频图像文字信息提取方法。其基本思想是通过对图像的形态学预处理、文字区域的定位与提取实现字符的识别。大量的学者在文字识别的预处理、文字区域定位、字符分割、字符识别等领域展开深入的研究，研究结果表明文字识别结合边缘检测、连通元定位及全局阀值二值化等技术，在字符区域定位、特征提取、字符分割、字符识别等领域表现出明显的优势。
[0003] 以往常规的字符识别算法，适合于背景简单，字符与背景之间的对比度和分辨率都很明显，字体清晰的文本。实际情况中，水下拍摄的视频有复杂的背景，复杂的背景文理以及模糊的对比度都对字符的识别带来很大的干扰，对于有复杂背景下的文本往往识别的效率很低。
[0004] 要想对复杂背景下视频图像中的文本进行识别，首先需要定位出有文本的区域，再对其中的字符进行识别。现有的文字定位方法分有以下几类：基于连通元的方法 (ConnectedComponent-basedMethods)、基于边缘的方法（Edge-basedMethods)和基于纹理的方法（Texture-basedMethods)。基于连通元的方法从像素级开始，通过将小的成分合并成较大的成分，直至图像中所有的区域都被确认。该方法能够准确定位文本区域的边界，实现相对简单。基于连通元的方法很容易将一个字符分割成多个连通元，对文本和背景粘连的情况往往无能为力；基于边缘的方法主要是利用图像中文本与背景之间总是呈现出较强的对比度这一特性。该类方法的基本处理步骤是：利用某种边缘检测算子（如Canny、 SobeURobert算子）检测出图像中的边缘信息，然后将文本边界处的边缘合并（常常会用一个平滑操作或一个形态学算子），最后用试探法来滤除非文本区域；基于纹理的方法将文本看作是一种特殊纹理，这种方法能比较有效地克服复杂背景的问题，一般使用快速傅里叶变换、离散余弦（DiscreteCosineTransform,DCT)变换、小波（Wavelet)分解和 Gabor滤波等方法来提取特征，也有方法直接根据像素之间的空间位置关系来对纹理特征做描述。
[0005] 二值化算法主要分为两种类型，全局阈值法和局部阈值法。全局阈值法是最为简单的处理方法，它采用单一的阈值对图像中所有像素点进行判定。这些算法大多是基于直方图进行分析的。最为著名的全局阈值法是Otsu(大律法）算法，它的核心是找到一个合适的门限，使两类之间的距离最大。全局阈值法仅仅在图像比较简单，前景和背景灰度差距比较远的时候有比较好的效果；局部阈值法对每个像素点都动态得计算阈值。这样的阈值都是根据像素点的邻域信息计算得出，因此具有很高的准确性，二值化的效果也更好。
[0006] 文字定位和图像二值化是字符识别中最重要的两部分，文字定位的作用是把图像中文字与非文字部分区分开来。二值化的作用是对文字区域中的文字进行处理，让它自身的特点增强并与背景分离开来。
[0007] 对此，广大研究者在文本信息提取方面做了大量的工作，取得诸多重要研究成果，然而现有文本信息提取系统与实用化的要求尚有不小的距离，比如：
[0008] 1、视频图像存在阴影或纹理、对比度不强、背景复杂等情况，文本信息的提取效果还不理想；
[0009] 2、对字体风格、字号大小、颜色、空间排列变化等情况的适应性还不强；
[0010] 3、单一的采用全局二值法和局部二值法对背景复杂的视频文字处理无法准确的将文字本身与背景分离出来。

【发明内容】

[0011] 本发明的目的在于克服现有技术中的不足，提供一种水下视频图像的文字识别方法，解决现有技术中复杂背景下水下视频图像文字识别效果差，识别率低的技术问题。
[0012] 为解决上述技术问题，本发明所采用的技术方案是：一种水下视频图像的文字识别方法，包括如下步骤：
[0013] 步骤一：预处理：根据形态学图像处理原理对视频图像进行预处理，增强对比度，滤除噪声；
[0014] 步骤二：区域分割：根据预处理结果对视频文字进行区域分割，采用基于边缘检测与连通元相结合的方法进行文本区域定位；
[0015] 步骤三：字符分割：根据视频文字区域分割的结果，采用全局阈值法与局部阈值法相结合的二值化方法对文字进行字符分割，并将分割出的字符进行归一化，使分割后的字符与模板库中的字符大小一致；
[0016] 步骤四：字符识别：根据视频文字的特点进行模板库设计，将分割出的字符与模板库中的字符进行匹配，实现字符识别并保存到文本中。
[0017] 步骤一所述预处理包括：灰度处理、边缘检测、图像腐蚀和图像平滑。
[0018] 所述灰度处理是采用公式Y(x，y) = (30R+59G+11B)/100将原始图像转换为灰度图像。
[0019] 所述边缘检测是采用Robert算子识别强度图像中的边界。
[0020] 步骤二所述区域分割包括如下步骤：
[0021] 步骤201 :对待处理图像进行水平方向的像素统计，根据水平方向的像素点确定文本区域的高度：如果文本区域的高度符合规则文本的区域高度，则去掉水平边缘像素点；否则，进行水平区域合并，并进入下一步；
[0022] 步骤202 :统计垂直方向的像素点，根据垂直方向的像素点确定文本区域的宽度：如果文本区域的宽度符合规则文本的区域宽度，则去掉垂直边缘像素点；否则，提取出文本区域。
[0023] 步骤三所述字符分割包括如下步骤：
[0024] 步骤301 :将区域分割图像转换为灰度图像；
[0025] 步骤302 :将灰度图像采用全局阈值法与局部阈值法相结合的二值化方法转换成二值图像，并取反，将全部文字信息变为白色，背景色变为黑色；
[0026] 步骤303 :进行均值滤波，去除像素聚集小于阈值的像素点并保存；
[0027] 步骤304 :对二值图像进行垂直方向上的投影，统计每一列上白色像素点的个数，白色像素点代表字符笔画区域，投影穿过字符笔画数较小的列被认为是两个字符的分割线.
[0028] 步骤305 :将分割后的字符进行归一化处理。
[0029] 步骤四所述字符识别包括如下步骤：
[0030] 步骤401 :加载模板库：对多幅水下视频图像文字进行提取分割字符，通过对比、去噪、修正生成模板库；
[0031] 步骤402 :提取分割出的字符；
[0032] 步骤403 :将字符库中分割出的字符与模板库中的字符进行相似度比较；
[0033] 步骤404 :找到最大相似度的索引，输出相应字符并保存；
[0034] 步骤405 :循环步骤402?404,直至所有字符被全部比较输出，将得到的结果保存至IjTXT文档中。
[0035] 步骤四所述模板库设计是：根据各区域形状固有的特点，突出各个类似区域之间的差别，并考虑由处理过程引起的噪声、位移因素，按照基于图像不便特性所设计的特征量来构建模板库。
[0036] 步骤三中所述局部阈值法中阈值的选择方法如下：
[0037] (2)取初始阈值gQ
[0038]

【权利要求】
1. 一种水下视频图像的文字识别方法，其特征在于，包括如下步骤：步骤一：预处理：根据形态学图像处理原理对视频图像进行预处理，增强对比度，滤除噪声；步骤二：区域分割：根据预处理结果对视频文字进行区域分割，采用基于边缘检测与连通元相结合的方法进行文本区域定位；步骤三：字符分割：根据视频文字区域分割的结果，采用全局阈值法与局部阈值法相结合的二值化方法对文字进行字符分割，并将分割出的字符进行归一化，使分割后的字符与模板库中的字符大小一致；步骤四：字符识别：根据视频文字的特点进行模板库设计，将分割出的字符与模板库中的字符进行匹配，实现字符识别并保存到文本中。
2. 根据权利要求1所述的水下视频图像的文字识别方法，其特征在于，步骤一所述预处理包括：灰度处理、边缘检测、图像腐蚀和图像平滑。
3. 根据权利要求2所述的水下视频图像的文字识别方法，其特征在于，所述灰度处理是采用公式Y(x，y) = (30R+59G+11B)/100将原始图像转换为灰度图像。
4. 根据权利要求2所述的水下视频图像的文字识别方法，其特征在于，所述边缘检测是采用Robert算子识别强度图像中的边界。
5. 根据权利要求1所述的水下视频图像的文字识别方法，其特征在于，步骤二所述区域分割包括如下步骤：步骤201 :对待处理图像进行水平方向的像素统计，根据水平方向的像素点确定文本区域的高度：如果文本区域的高度符合规则文本的区域高度，则去掉水平边缘像素点；否贝U，进行水平区域合并，并进入下一步；步骤202 :统计垂直方向的像素点，根据垂直方向的像素点确定文本区域的宽度：如果文本区域的宽度符合规则文本的区域宽度，则去掉垂直边缘像素点；否则，提取出文本区域。
6. 根据权利要求1所述的水下视频图像的文字识别方法，其特征在于，步骤三所述字符分割包括如下步骤：步骤301 :将区域分割图像转换为灰度图像；步骤302 :将灰度图像采用全局阈值法与局部阈值法相结合的二值化方法转换成二值图像，并取反，将全部文字信息变为白色，背景色变为黑色；步骤303 :进行均值滤波，去除像素聚集小于阈值的像素点并保存；步骤304 :对二值图像进行垂直方向上的投影，统计每一列上白色像素点的个数，白色像素点代表字符笔画区域，投影穿过字符笔画数较小的列被认为是两个字符的分割线；步骤305 :将分割后的字符进行归一化处理。
7. 根据权利要求1所述的水下视频图像的文字识别方法，其特征在于，步骤四所述字符识别包括如下步骤：步骤401 :加载模板库：对多幅水下视频图像文字进行提取分割字符，通过对比、去噪、修正生成模板库；步骤402 :提取分割出的字符；步骤403 :将字符库中分割出的字符与模板库中的字符进行相似度比较；步骤404 :找到最大相似度的索引，输出相应字符并保存；步骤405 :循环步骤402?404,直至所有字符被全部比较输出，将得到的结果保存到 TXT文档中。
8. 根据权利要求1所述的水下视频图像的文字识别方法，其特征在于，步骤四所述模板库设计是：根据各区域形状固有的特点，突出各个类似区域之间的差别，并考虑由处理过程引起的噪声、位移因素，按照基于图像不便特性所设计的特征量来构建模板库。
9. 根据权利要求1所述的水下视频图像的文字识别方法，其特征在于，步骤三中所述局部阈值法中阈值的选择方法如下： (1) 取初始阈值g。
其中是文本图像最大灰度值Smin是文本图像最小灰度值； (2) 根据g(1值，将图像像素分成大于g(1部分和小于g(1部分； (3) 分别求步骤（2)中两部分的期望值，取它们期望的平均值gl ; ⑷反复迭代，当I gn-glri I的值足够小时，则取T = gn得到的T为阈值。
10. 根据权利要求1所述的水下视频图像的文字识别方法，其特征在于，步骤三所述字符分割前还需要对字符粘连情况进行先验校正：采用垂直投影法寻找粘连文字块，如果文字块长度大于既定阈值就认为是两个字符组成，需要进行分割；否则，不需要分割。
【文档编号】G06K9/36GK104361336SQ201410699528
【公开日】2015年2月18日申请日期:2014年11月26日优先权日:2014年11月26日
【发明者】鹿浩, 马林冲, 鲍星星, 汪飞, 胡居荣, 曹宁申请人:河海大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：鹿浩;马林冲;鲍星星;汪飞;胡居荣;曹宁;
技术所有人：河海大学;
我是此专利的发明人

上一篇：多媒体互动文档处理方法
上一篇：一种基于航空倾斜摄影测量的三维实景建模系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。