一种环形文本矫正及识别方法

文档序号:25170900发布日期:2021-05-25 14:40阅读:49来源:国知局
一种环形文本矫正及识别方法

本发明涉及弯曲文本矫正和文字识别领域,具体为一种基于卷积神经网络、圆曲线拟合算法和tps插值转换算法的环形文本矫正及识别方法。



背景技术:

环形文本由于其排列位置和方向的不一致性,导致其检测与识别的难度相比于沿直线排列的文本具有更大的挑战性。针对环形文本进行矫正使其展开为水平排列的文本,正是克服上述困难的一种有效解决办法。

tian等(荷兰,2016)提出了名为ctpn的深度神经网络模型,ctpn基于文本行一般以水平长矩形的形式存在这一先验条件,提出先检测文本行的局部并预测文本竖直方向上的位置,然后将属于同一文本行的小文本行分别合并得到完整的文本行。白翔等(华中科技大学,2017)在已有的检测方法基础之上,提出了基于ssd的水平文本检测方法,名为textboxes以及进一步针对任意倾斜方向文本的textboxes++检测方法,这类方法通过修改ssd卷积核尺寸成长条形卷积核,以尽可能的接近文本行形状,并通过此举取得优秀的检测效果。周新宇等(旷世科技,2018)提出了名为east的文本检测模型,该模型首先使用全卷积网络(fcn)生成多尺度融合的特征图,在此基础上直接进行像素级的文本块预测,该模型消除了候选区域聚合和单词分割等不必要的中间步骤,在速度上有较大提升,并且直接预测四边形的四个坐标,对带有仿射变换的文本行也预测的十分准确。龙上邦等(北京大学,2018)用一个有序的圆盘序列来表示文字,先用fcn检测文本区域、文本中心线、以及每个点的圆盘半径、方向,获得由文本中心点组成的序列,最后结合圆盘半径得到文本区域的textsnake数学表示形式,并对各个textsnake进行组合得到最终的文本区域。刘家铭等(百度,2019)提出针对任意方向文字检测,先用cenet网络对单个字符检测并得到字符对向量,通过阈值提取检测到的字符与字符对,最后利用图模型与一阶线性模型形成文本线,从而获得文本行。

尽管研究人员提出了一系列定位弯曲文本的思路,但以上方法仍存在如下不足:(1)目前的场景文字检测主要研究水平排列文字与倾斜文字的定位问题为主;(2)对于目前的弯曲文本检测方法只能定位弯曲度较小的文本行,对于弯曲度较大的环形文本检测效果较差。

因此如何能够利用文本围绕环形排列这一特征进行定位与矫正是研究的关键。



技术实现要素:

为解决现有方法的不足,本发明提出一种高效、精准的环形文本矫正及识别方法。它依据深度神经网络检测文本区域的旋转矩形框,通过圆曲线拟合算法和tps插值转换算法将环形文本展开,接着通过计算扇环的最小包围矩形来确定矫正后文本的矩形边界框,最后使用文本识别模型用来识别其中的文字部分。本发明包括如下步骤:

步骤1:准备数据集及网络模型训练,具体为:

步骤1.1:采集不同场景下的环形文字图像样本集,通过颜色变化、亮度变化和噪点变化方式来对样本集进行扩充,使用旋转矩形框标注样本集中的每一张图片的文字区域,按照1:1:3的比例随机将样本集划分为验证集、测试集和训练集;

步骤1.2:统一将图像分辨率调整为800*600,初始化深度卷积神经网络参数训练模型,反复比较确定的训练迭代周期和学习率,得到文字区域检测网络模型;

步骤2:拟合环形文字的圆曲线方程,具体为:

步骤2.1:使用文字区域检测网络模型对环形文字图像i的每个文字区域进行检测,得到每个文字区域的旋转矩形检测框ci;计算旋转矩形框ci的四个顶点pi1,pi2,pi3,pi4,得到点集ai,ai={(xik,yik)|k=1,2,3,4},(xik,yik)表示顶点pik的坐标;合并点集ai,得到集合a={pik|i=1,2,…,n;k=1,2,3,4},n表示图像i中被检测到的文本区域的数量;

步骤2.2:将集合a中各点的坐标代入式(1)中,通过式(2)和(3),拟合得到圆曲线方程x2+y2+ax+by+c=0的参数a,b,c及其圆心坐标(x0,y0),其中,

a=(xt·x)-1·xt·y(3)

式中,δ表示事先选定的拟合误差阈值;

步骤3:将环形文本图像逐像素矫正展开,具体步骤为:

步骤3.1:在图像i中以拟合圆圆心(x0,y0)为极点、从(x0,y0)出发水平向右引一条射线为极轴,构建极坐标系;通过坐标转换公式(4)计算得到点(xik,yik)在极坐标系中的坐标(rik,θik);

步骤3.2:将待生成图像记为i′,生成在图像i′中的点集a′={p′ik|i=1,2,…,n;k=1,2,3,4},点p′ik的坐标(x′ik,y′ik)根据公式(5)计算得到;

步骤3.3:定义集合b={(pik,p′ik)|i=1,2,…,n;k=1,2,3,4},其中(pik,p′ik)表示pik与p′ik之间的对应关系,组成一组图像转换控制点对;将集合b中的所有控制点对(pik,p′ik)代入tps样条插值函数,实现环形文本图像i到平直文本图像i′的转换;

步骤4:矫正图像i′中的边界框:记c′i为ci矫正后在图像i′中的扇环,记c″i为c′i的最小包络矩形框,根据公式(6)计算c″i的顶点(x″i1,y″i1)、(x″i1,y″i3)、(x″i2,y″i2)、(x″i2,y″i4);在图像i′中创建矩形边界框c″i;将c″i所包围的图像输入文字识别模型,输出文本识别的结果为c″i中的内容;

步骤5:重复步骤3和步骤4,最终得到图像i′上全部文本的识别结果。

本发明的优点是:本发明基于深度神经网络并结合圆曲线拟合算法和tps插值转换算法,检测和识别的精准度高且鲁棒性强,同时由于本发明仅分别调用一次基于深度神经网络模型的文本检测和识别模型,时间效率高。

附图说明

图1为文字区域检测结果图;

图2为圆曲线拟合结果图;

图3为文本矫正后的结果图;

图4为边界框矫正后的结果图;

图5为边界框内部特写图。

具体实施方式

下面结合实施例和图片来详细阐述本发明。

步骤1:准备数据集及网络模型训练,具体为:

步骤1.1:采集不同场景下的环形文字图像样本集,通过颜色变化、亮度变化和噪点变化方式来对样本集进行扩充,使用旋转矩形框标注样本集中的每一张图片的文字区域,按照1:1:3的比例随机将样本集划分为验证集、测试集和训练集;在本实施例中,采集了环形排列的车胎侧壁文字图像样本集,文字类别为26个大写英文字母、10个数字以及数个特殊字符,样本集总数共1000张;

步骤1.2:统一将图像分辨率调整为800*600,初始化深度卷积神经网络参数训练模型,反复比较确定的训练迭代周期和学习率,得到文字区域检测网络模型;

步骤2:拟合环形文字的圆曲线方程,具体为:

步骤2.1:使用文字区域检测模型对环形文字图像i的每个文字区域进行检测,得到每个文字区域的旋转矩形检测框ci;计算旋转矩形框ci的四个顶点pi1,pi2,pi3,pi4,得到点集ai,ai={(xik,yik)|k=1,2,3,4},(xik,yik)表示顶点pik的坐标;合并点集ai,得到集合a={pik|i=1,2,…,n;k=1,2,3,4},n表示图像i中被检测到的文本区域的数量;

步骤2.2:将集合a中各点的坐标代入式(1)中,通过式(2)和(3),拟合得到圆曲线方程x2+y2+ax+by+c=0的参数a,b,c及其圆心坐标(x0,y0),其中,

a=(xt·x)-1·xt·y(3)

式中,δ表示事先选定的拟合误差阈值;在本实施例中,选取δ=10;

步骤3:将环形文本图像逐像素矫正展开,具体步骤为:

步骤3.1:在图像i中以拟合圆圆心(x0,y0)为极点、从(x0,y0)出发水平向右引一条射线为极轴,构建极坐标系;通过坐标转换公式(4)计算得到点(xik,yik)在极坐标系中的坐标(rik,θik);

步骤3.2:将待生成图像记为i′,生成在图像i′中的点集a′={p′ik|i=1,2,…,n;k=1,2,3,4},点p′ik的坐标(x′ik,y′ik)根据公式(5)计算得到;

步骤3.3:定义集合b={(pik,p′ik)|i=1,2,…,n;k=1,2,3,4},其中(pik,p′ik)表示pik与p′ik之间的对应关系,组成一组图像转换控制点对;将集合b中的所有控制点对(pik,p′ik)代入tps样条插值函数,实现环形文本图像i到平直文本图像i′的转换;在本实施例中,文本矫正后的结果图如图3所示;

步骤4:矫正图像i′中的边界框:记c′i为ci矫正后在图像i′中的扇环,记c″i为c′i的最小包络矩形框,根据公式(6)计算c″i的顶点(x″i1,y″i1)、(x″i1,y″i3)、(x″i2,y″i2)、(x″i2,y″i4);在图像i′中创建矩形边界框c″i;将c″i所包围的图像输入文字识别模型,输出文本识别的结果为c″i中的内容;在本实施例中,边界框矫正后的结果图如图4所示,边界框内部特写图如图5所示;

步骤5:重复步骤3和步骤4,最终得到图像i′上全部文本的识别结果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1