一种水下视频图像的文字识别方法
【专利摘要】本发明公开了一种水下视频图像的文字识别方法,包括:根据形态学图像处理原理对视频图像进行预处理,增强对比度,滤除噪声;根据预处理结果对视频文字进行区域分割,采用基于边缘检测与连通元相结合的方法进行文本区域定位;根据视频文字区域分割的结果,采用全局阈值法与局部阈值法相结合的二值化方法对文字进行字符分割,并将分割出的字符进行归一化,使分割后的字符与模板库中的字符大小一致;根据视频文字的特点进行模板库设计,将分割出的字符与模板库中的字符进行匹配,实现字符识别并保存到文本中。
【专利说明】一种水下视频图像的文字识别方法
【技术领域】
[0001] 本发明涉及文字识别方法,特别涉及一种水下视频图像的文字识别方法,属于图 像处理【技术领域】。
【背景技术】
[0002] 近年来,由于图像处理、模式识别、人工智能等计算机技术取得了飞速的发 展,使得基于图像处理的文字识别领域得到广泛应用,随着OCR(OpticalCharacter Recognition,光学字符识别)技术研究的深入,文字识别领域引入一种基于复杂背景下的 视频图像文字信息提取方法。其基本思想是通过对图像的形态学预处理、文字区域的定位 与提取实现字符的识别。大量的学者在文字识别的预处理、文字区域定位、字符分割、字符 识别等领域展开深入的研究,研究结果表明文字识别结合边缘检测、连通元定位及全局阀 值二值化等技术,在字符区域定位、特征提取、字符分割、字符识别等领域表现出明显的优 势。
[0003] 以往常规的字符识别算法,适合于背景简单,字符与背景之间的对比度和分辨率 都很明显,字体清晰的文本。实际情况中,水下拍摄的视频有复杂的背景,复杂的背景文理 以及模糊的对比度都对字符的识别带来很大的干扰,对于有复杂背景下的文本往往识别的 效率很低。
[0004] 要想对复杂背景下视频图像中的文本进行识别,首先需要定位出有文本的区 域,再对其中的字符进行识别。现有的文字定位方法分有以下几类:基于连通元的方法 (ConnectedComponent-basedMethods)、基于边缘的方法(Edge-basedMethods)和基于 纹理的方法(Texture-basedMethods)。基于连通元的方法从像素级开始,通过将小的成分 合并成较大的成分,直至图像中所有的区域都被确认。该方法能够准确定位文本区域的边 界,实现相对简单。基于连通元的方法很容易将一个字符分割成多个连通元,对文本和背景 粘连的情况往往无能为力;基于边缘的方法主要是利用图像中文本与背景之间总是呈现出 较强的对比度这一特性。该类方法的基本处理步骤是:利用某种边缘检测算子(如Canny、 SobeURobert算子)检测出图像中的边缘信息,然后将文本边界处的边缘合并(常常会 用一个平滑操作或一个形态学算子),最后用试探法来滤除非文本区域;基于纹理的方法 将文本看作是一种特殊纹理,这种方法能比较有效地克服复杂背景的问题,一般使用快速 傅里叶变换、离散余弦(DiscreteCosineTransform,DCT)变换、小波(Wavelet)分解和 Gabor滤波等方法来提取特征,也有方法直接根据像素之间的空间位置关系来对纹理特征 做描述。
[0005] 二值化算法主要分为两种类型,全局阈值法和局部阈值法。全局阈值法是最为简 单的处理方法,它采用单一的阈值对图像中所有像素点进行判定。这些算法大多是基于直 方图进行分析的。最为著名的全局阈值法是Otsu(大律法)算法,它的核心是找到一个合 适的门限,使两类之间的距离最大。全局阈值法仅仅在图像比较简单,前景和背景灰度差距 比较远的时候有比较好的效果;局部阈值法对每个像素点都动态得计算阈值。这样的阈值 都是根据像素点的邻域信息计算得出,因此具有很高的准确性,二值化的效果也更好。
[0006] 文字定位和图像二值化是字符识别中最重要的两部分,文字定位的作用是把图像 中文字与非文字部分区分开来。二值化的作用是对文字区域中的文字进行处理,让它自身 的特点增强并与背景分离开来。
[0007] 对此,广大研究者在文本信息提取方面做了大量的工作,取得诸多重要研究成果, 然而现有文本信息提取系统与实用化的要求尚有不小的距离,比如:
[0008] 1、视频图像存在阴影或纹理、对比度不强、背景复杂等情况,文本信息的提取效果 还不理想;
[0009] 2、对字体风格、字号大小、颜色、空间排列变化等情况的适应性还不强;
[0010] 3、单一的采用全局二值法和局部二值法对背景复杂的视频文字处理无法准确的 将文字本身与背景分离出来。
【发明内容】
[0011] 本发明的目的在于克服现有技术中的不足,提供一种水下视频图像的文字识别方 法,解决现有技术中复杂背景下水下视频图像文字识别效果差,识别率低的技术问题。
[0012] 为解决上述技术问题,本发明所采用的技术方案是:一种水下视频图像的文字识 别方法,包括如下步骤:
[0013] 步骤一:预处理:根据形态学图像处理原理对视频图像进行预处理,增强对比度, 滤除噪声;
[0014] 步骤二:区域分割:根据预处理结果对视频文字进行区域分割,采用基于边缘检 测与连通元相结合的方法进行文本区域定位;
[0015] 步骤三:字符分割:根据视频文字区域分割的结果,采用全局阈值法与局部阈值 法相结合的二值化方法对文字进行字符分割,并将分割出的字符进行归一化,使分割后的 字符与模板库中的字符大小一致;
[0016] 步骤四:字符识别:根据视频文字的特点进行模板库设计,将分割出的字符与模 板库中的字符进行匹配,实现字符识别并保存到文本中。
[0017] 步骤一所述预处理包括:灰度处理、边缘检测、图像腐蚀和图像平滑。
[0018] 所述灰度处理是采用公式Y(x,y) = (30R+59G+11B)/100将原始图像转换为灰度 图像。
[0019] 所述边缘检测是采用Robert算子识别强度图像中的边界。
[0020] 步骤二所述区域分割包括如下步骤:
[0021] 步骤201 :对待处理图像进行水平方向的像素统计,根据水平方向的像素点确定 文本区域的高度:如果文本区域的高度符合规则文本的区域高度,则去掉水平边缘像素点; 否则,进行水平区域合并,并进入下一步;
[0022] 步骤202 :统计垂直方向的像素点,根据垂直方向的像素点确定文本区域的宽度: 如果文本区域的宽度符合规则文本的区域宽度,则去掉垂直边缘像素点;否则,提取出文本 区域。
[0023] 步骤三所述字符分割包括如下步骤:
[0024] 步骤301 :将区域分割图像转换为灰度图像;
[0025] 步骤302 :将灰度图像采用全局阈值法与局部阈值法相结合的二值化方法转换成 二值图像,并取反,将全部文字信息变为白色,背景色变为黑色;
[0026] 步骤303 :进行均值滤波,去除像素聚集小于阈值的像素点并保存;
[0027] 步骤304 :对二值图像进行垂直方向上的投影,统计每一列上白色像素点的个数, 白色像素点代表字符笔画区域,投影穿过字符笔画数较小的列被认为是两个字符的分割 线.
[0028] 步骤305 :将分割后的字符进行归一化处理。
[0029] 步骤四所述字符识别包括如下步骤:
[0030] 步骤401 :加载模板库:对多幅水下视频图像文字进行提取分割字符,通过对比、 去噪、修正生成模板库;
[0031] 步骤402 :提取分割出的字符;
[0032] 步骤403 :将字符库中分割出的字符与模板库中的字符进行相似度比较;
[0033] 步骤404 :找到最大相似度的索引,输出相应字符并保存;
[0034] 步骤405 :循环步骤402?404,直至所有字符被全部比较输出,将得到的结果保存 至IjTXT文档中。
[0035] 步骤四所述模板库设计是:根据各区域形状固有的特点,突出各个类似区域之间 的差别,并考虑由处理过程引起的噪声、位移因素,按照基于图像不便特性所设计的特征量 来构建模板库。
[0036] 步骤三中所述局部阈值法中阈值的选择方法如下:
[0037] (2)取初始阈值gQ
[0038]
【权利要求】
1. 一种水下视频图像的文字识别方法,其特征在于,包括如下步骤: 步骤一:预处理:根据形态学图像处理原理对视频图像进行预处理,增强对比度,滤除 噪声; 步骤二:区域分割:根据预处理结果对视频文字进行区域分割,采用基于边缘检测与 连通元相结合的方法进行文本区域定位; 步骤三:字符分割:根据视频文字区域分割的结果,采用全局阈值法与局部阈值法相 结合的二值化方法对文字进行字符分割,并将分割出的字符进行归一化,使分割后的字符 与模板库中的字符大小一致; 步骤四:字符识别:根据视频文字的特点进行模板库设计,将分割出的字符与模板库 中的字符进行匹配,实现字符识别并保存到文本中。
2. 根据权利要求1所述的水下视频图像的文字识别方法,其特征在于,步骤一所述预 处理包括:灰度处理、边缘检测、图像腐蚀和图像平滑。
3. 根据权利要求2所述的水下视频图像的文字识别方法,其特征在于,所述灰度处理 是采用公式Y(x,y) = (30R+59G+11B)/100将原始图像转换为灰度图像。
4. 根据权利要求2所述的水下视频图像的文字识别方法,其特征在于,所述边缘检测 是采用Robert算子识别强度图像中的边界。
5. 根据权利要求1所述的水下视频图像的文字识别方法,其特征在于,步骤二所述区 域分割包括如下步骤: 步骤201 :对待处理图像进行水平方向的像素统计,根据水平方向的像素点确定文本 区域的高度:如果文本区域的高度符合规则文本的区域高度,则去掉水平边缘像素点;否 贝U,进行水平区域合并,并进入下一步; 步骤202 :统计垂直方向的像素点,根据垂直方向的像素点确定文本区域的宽度:如果 文本区域的宽度符合规则文本的区域宽度,则去掉垂直边缘像素点;否则,提取出文本区 域。
6. 根据权利要求1所述的水下视频图像的文字识别方法,其特征在于,步骤三所述字 符分割包括如下步骤: 步骤301 :将区域分割图像转换为灰度图像; 步骤302 :将灰度图像采用全局阈值法与局部阈值法相结合的二值化方法转换成二值 图像,并取反,将全部文字信息变为白色,背景色变为黑色; 步骤303 :进行均值滤波,去除像素聚集小于阈值的像素点并保存; 步骤304 :对二值图像进行垂直方向上的投影,统计每一列上白色像素点的个数,白色 像素点代表字符笔画区域,投影穿过字符笔画数较小的列被认为是两个字符的分割线; 步骤305 :将分割后的字符进行归一化处理。
7. 根据权利要求1所述的水下视频图像的文字识别方法,其特征在于,步骤四所述字 符识别包括如下步骤: 步骤401 :加载模板库:对多幅水下视频图像文字进行提取分割字符,通过对比、去噪、 修正生成模板库; 步骤402 :提取分割出的字符; 步骤403 :将字符库中分割出的字符与模板库中的字符进行相似度比较; 步骤404 :找到最大相似度的索引,输出相应字符并保存; 步骤405 :循环步骤402?404,直至所有字符被全部比较输出,将得到的结果保存到 TXT文档中。
8. 根据权利要求1所述的水下视频图像的文字识别方法,其特征在于,步骤四所述模 板库设计是:根据各区域形状固有的特点,突出各个类似区域之间的差别,并考虑由处理过 程引起的噪声、位移因素,按照基于图像不便特性所设计的特征量来构建模板库。
9. 根据权利要求1所述的水下视频图像的文字识别方法,其特征在于,步骤三中所述 局部阈值法中阈值的选择方法如下: (1) 取初始阈值g。
其中是文本图像最大灰度值Smin是文本图像最小灰度值; (2) 根据g(1值,将图像像素分成大于g(1部分和小于g(1部分; (3) 分别求步骤(2)中两部分的期望值,取它们期望的平均值gl ; ⑷反复迭代,当I gn-glri I的值足够小时,则取T = gn得到的T为阈值。
10. 根据权利要求1所述的水下视频图像的文字识别方法,其特征在于,步骤三所述字 符分割前还需要对字符粘连情况进行先验校正:采用垂直投影法寻找粘连文字块,如果文 字块长度大于既定阈值就认为是两个字符组成,需要进行分割;否则,不需要分割。
【文档编号】G06K9/36GK104361336SQ201410699528
【公开日】2015年2月18日 申请日期:2014年11月26日 优先权日:2014年11月26日
【发明者】鹿浩, 马林冲, 鲍星星, 汪飞, 胡居荣, 曹宁 申请人:河海大学