一种文本区域检测方法及装置与流程

文档序号:23092208发布日期:2020-11-27 12:46阅读:来源:国知局

技术特征:

1.一种文本区域检测方法,其特征在于,所述方法包括:

获取待检测的目标图像,所述目标图像中包含目标文本;

将所述目标图像输入预先训练的语义分割网络模型中,得到所述目标图像中各个像素点的类别标签,所述语义分割网络模型是根据预设训练集训练得到的,所述预设训练集包括多个包括文本区域的样本图像、以及每个样本图像中文本区域的像素点的文本类标签、每个样本图像中文本区域的边界的像素点的边界类标签、每个样本图像中背景区域的像素点的背景类标签;

根据所述目标图像中类别标签为文本类标签的像素点,确定包含所述目标文本的目标文本区域;

对所述目标文本区域进行矫正,得到矩形文本区域。

2.根据权利要求1所述的方法,其特征在于,在根据所述目标图像中类别标签为文本类标签的像素点,确定包含所述目标文本的目标文本区域之前,还包括:

针对每个文本连通域,确定该文本连通域的周边像素点中类别标签为边界类标签的像素点与背景类标签的像素点的比例;所述文本连通域为所述目标图像中类别标签为文本类标签的像素点所在区域;

若确定的比例小于预设比例阈值,则将该文本连通域中的像素点及其周边像素点的类别标签更新为背景类标签。

3.根据权利要求1所述的方法,其特征在于,所述根据所述目标图像中类别标签为文本类标签的像素点,确定包含所述目标文本的目标文本区域的步骤,包括:

从所述目标图像中类别标签为文本类标签的像素点中选择像素点,作为第一像素点;

获取在预设方向上与所述第一像素点相邻的像素点,作为第二像素点;

判断所述第二像素点的类别标签是否为文本类标签;

若不是文本类标签,判断预设衰减系数是否大于第一预设值,所述预设衰减系数的初始值大于所述第一预设值;

若不大于所述第一预设值,则将当前所述目标图像中类别标签为文本类标签的像素点所在区域,作为包含所述目标文本的目标文本区域。

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

若大于所述第一预设值,则将所述第二像素点的类别标签更新为文本类标签,并将预设衰减系数减第二预设值,将所述第二像素点作为第一像素点,返回执行所述获取在预设方向上与所述第一像素点相邻的像素点,作为第二像素点;

若所述第二像素点的类别标签为文本类标签,则将所述第二像素点作为第一像素点,返回执行所述获取在预设方向上与所述第一像素点相邻的像素点,作为第二像素点。

5.根据权利要求1所述的方法,其特征在于,所述根据所述目标图像中类别标签为文本类标签的像素点,确定包含所述目标文本的目标文本区域的步骤,包括:

针对每个文本连通域,获取外接该文本连通域的矩形图像;所述文本连通域为所述目标图像中类别标签为文本类标签的像素点所在区域;

将所述矩形图像中类别标签为文本类标签的像素点赋值为第一数值,并将所述矩形图像中类别标签为边界类或背景类标签的像素点赋值为第二数值,得到所述矩形图像对应的二值图像;

将所述二值图像输入预先训练的角点网络模型,得到多个角点坐标;所述角点网络模型是根据多个样本二值图像以及各个样本二值图像对应的角点坐标训练得到的;

将得到的多个角点坐标组成的多边形区域,作为所述目标文本区域。

6.一种文本区域检测装置,其特征在于,所述装置包括:

获取模块,用于获取待检测的目标图像,所述目标图像中包含目标文本;

语义分割模块,用于将所述目标图像输入预先训练的语义分割网络模型中,得到所述目标图像中各个像素点的类别标签,所述语义分割网络模型是根据预设训练集训练得到的,所述预设训练集包括多个包括文本区域的样本图像、以及每个样本图像中文本区域的像素点的文本类标签、每个样本图像中文本区域的边界的像素点的边界类标签、每个样本图像中背景区域的像素点的背景类标签;

确定模块,用于根据所述目标图像中类别标签为文本类标签的像素点,确定包含所述目标文本的目标文本区域;

矫正模块,用于对所述目标文本区域进行矫正,得到矩形文本区域。

7.根据权利要求6所述的装置,其特征在于,所述确定模块,具体用于:

从所述目标图像中类别标签为文本类标签的像素点中选择像素点,作为第一像素点;

获取在预设方向上与所述第一像素点相邻的像素点,作为第二像素点;

判断所述第二像素点的类别标签是否为文本类标签;

若不是文本类标签,判断预设衰减系数是否大于第一预设值,所述预设衰减系数的初始值大于所述第一预设值;

若不大于所述第一预设值,则将当前所述目标图像中类别标签为文本类标签的像素点所在区域,作为包含所述目标文本的目标文本区域。

8.根据权利要求6所述的装置,其特征在于,所述确定模块,具体用于:

针对每个文本连通域,获取外接该文本连通域的矩形图像;所述文本连通域为所述目标图像中类别标签为文本类标签的像素点所在区域;

将所述矩形图像中类别标签为文本类标签的像素点赋值为第一数值,并将所述矩形图像中类别标签为边界类或背景类标签的像素点赋值为第二数值,得到所述矩形图像对应的二值图像;

将所述二值图像输入预先训练的角点网络模型,得到多个角点坐标;所述角点网络模型是根据多个样本二值图像以及各个样本二值图像对应的角点坐标训练得到的;

将得到的多个角点坐标组成的多边形区域,作为所述目标文本区域。

9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现权利要求1-5任一所述的方法步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。


技术总结
本发明实施例提供了一种文本区域检测方法及装置,方法包括:获取待检测的目标图像,目标图像中包含目标文本;将待检测的目标图像输入预先训练的语义分割网络模型中,得到目标图像中各个像素点的类别标签,包括文本类标签,边界类标签和背景类标签,其中边界类标签的像素点位于各个文本区域的周边,因此,能够将不同文本区域分割开。再根据文本类标签的像素点,确定包含目标文本的目标文本区域,并对目标文本区域进行矫正,得到矩形文本区域,矩形文本区域能够便于文本识别,提高文本识别的准确性。

技术研发人员:乔梁
受保护的技术使用者:杭州海康威视数字技术股份有限公司
技术研发日:2019.05.27
技术公布日:2020.11.27
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1