本发明涉及计算机视觉领域,特别是涉及一种场景文本擦除方法、系统及设备。
背景技术:
1、近年来,深度学习技术的发展为场景文本去除提供了新的思路。利用cnn等深度学习模型可以学习图像中的文本和背景特征,并对其进行准确的区分,从而实现场景文本去除。
2、现有场景文本擦除方法都是将文字定位和背景重建使用同一个网络进行学习,通过对整张图所有像素进行编辑处理完成擦除,这种擦除过程缺乏明确的信息指导,因而没有明确的擦除目标,从而导致对非文字区域的过度擦除,无法有效保证背景区域的连续性和完整性。
技术实现思路
1、本发明的目的是提供一种场景文本擦除方法、系统及设备,以解决非文字区域的过度擦除,无法有效保证背景区域的连续性和完整性的问题。
2、为实现上述目的,本发明提供了如下方案:
3、一种场景文本擦除方法,包括:
4、将场景文本图片输入至tsrnet分割网络,生成文本区域的分割掩模图;
5、根据所述文本区域的分割掩模图以及所述场景文本图片生成带有空洞区域的待修复的场景图片;所述空洞区域为所述场景文本图片的文本区域;
6、将所述待修复的场景图片输入至文本擦除网络,将所述待修复的场景图片中的空洞区域填充上与所述场景文本图片视觉上一致的背景,生成擦除文本后的场景图片;所述文本擦除网络包括tfill-coarse网络以及基于cnn实现的图像擦除优化模块;所述tfill-coarse网络用于标记出所述待修复的场景图片中待修复的视觉标记;所述基于cnn实现的图像擦除优化模块用于修复所述待修复的视觉标记。
7、可选的,根据所述文本区域的分割掩模图以及所述场景文本图片生成带有空洞区域的待修复的场景图片,具体包括:
8、将所述文本区域的分割掩模图进行膨胀操作,得到膨胀后的掩模图;
9、将所述膨胀后的掩模图与所述场景文本图片相加融合,带有空洞区域的待修复的场景图片。
10、可选的,所述tfill-coarse网络,具体包括:依次连接的用于产生视觉标记的restrictive cnn模块、基于transformer实现的编码器以及基于cnn实现的解码器;
11、所述用于产生视觉标记的restrictive cnn模块包括4个相同的块;每个块中利用1×1卷积层以及归一化层进行非线性投影,并利用2×2卷积核的部分卷积层提取所述待修复的场景图片的视觉标记;每个所述视觉标记只表示块中的可见信息;
12、所述基于transformer实现的编码器包括多注意力机制以及掩码自注意力层;基于所述多头自注意力机制,在基于transformer实现的编码器的每一层都有一个可学习的位置嵌入,并在每一个可学习的位置嵌入的可见信息利用所述掩码自注意力层缩放所述视觉标记的注意力分数;
13、所述基于cnn实现的解码器,用于根据缩放后的注意力分数,解码每一个可学习的位置嵌入的可见信息,输出特征图。
14、可选的,所述多头注意力机制的多头注意力为:
15、
16、其中,z为所述待修复的场景图片的输入序列经所述用于产生视觉标记的restrictivecnn模块嵌入后的视觉标记;wq,k,v为可学习的参数,作用于视觉标记z,以产生查询向量q,键向量k和值向量v;a为注意力分数,h为多头自注意力机制的头数,sa(z)为单头自注意力输出,msa(z)为多头注意力输出;san(z)为第n头自注意力输出,n=1,2,...。
17、可选的,所述基于cnn实现的图像擦除优化模块,具体包括:依次连接的3个下采样卷积层、4个残差块以及3个上采样卷积层。
18、可选的,所述文本擦除网络的损失函数l为:l=lpxxel+lper+lgan;lpixel为l1重建损失;lper为感知损失函数;lgan为生成器损失函数。
19、一种场景文本擦除系统,包括:
20、分割模块,用于将场景文本图片输入至tsrnet分割网络,生成文本区域的分割掩模图;
21、带有空洞区域的待修复的场景图片生成模块,用于根据所述文本区域的分割掩模图以及所述场景文本图片生成带有空洞区域的待修复的场景图片;所述空洞区域为所述场景文本图片的文本区域;
22、擦除模块,用于将所述待修复的场景图片输入至文本擦除网络,将所述待修复的场景图片中的空洞区域填充上与所述场景文本图片视觉上一致的背景,生成擦除文本后的场景图片;所述文本擦除网络包括tfill-coarse网络以及基于cnn实现的图像擦除优化模块;所述tfill-coarse网络用于标记出所述待修复的场景图片中待修复的视觉标记;所述基于cnn实现的图像擦除优化模块用于修复所述待修复的视觉标记。
23、一种电子设备,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行上述场景文本擦除方法。
24、可选的,所述存储器为非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述场景文本擦除方法。
25、根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明实施例利用tsrnet分割网络,精准地分割出文本区域,后送入到文本擦除网络中,所述文本擦除网络包括tfill-coarse网络以及基于cnn实现的图像擦除优化模块,所述tfill-coarse网络用于标记出所述待修复的场景图片中待修复的视觉标记;所述基于cnn实现的图像擦除优化模块用于修复所述待修复的视觉标记。本发明能够实现有目标的、局部擦除,保证了文本区域的有效彻底擦除以背景区域的完整性。
1.一种场景文本擦除方法,其特征在于,包括:
2.根据权利要求1所述的场景文本擦除方法,其特征在于,根据所述文本区域的分割掩模图以及所述场景文本图片生成带有空洞区域的待修复的场景图片,具体包括:
3.根据权利要求1所述的场景文本擦除方法,其特征在于,所述tfill-coarse网络,具体包括:依次连接的用于产生视觉标记的restrictive cnn模块、基于transformer实现的编码器以及基于cnn实现的解码器;
4.根据权利要求3所述的场景文本擦除方法,其特征在于,所述多头注意力机制的多头注意力为:
5.根据权利要求3所述的场景文本擦除方法,其特征在于,所述基于cnn实现的图像擦除优化模块,具体包括:依次连接的3个下采样卷积层、4个残差块以及3个上采样卷积层。
6.根据权利要求1所述的场景文本擦除方法,其特征在于,所述文本擦除网络的损失函数l为:l=lpxxel+lper+lgan;lpixel为l1重建损失;lper为感知损失函数;lgan为生成器损失函数。
7.一种场景文本擦除系统,其特征在于,包括:
8.一种电子设备,其特征在于,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行如权利要求1-7中任一项所述的场景文本擦除方法。
9.根据权利要求8所述的电子设备,其特征在于,所述存储器为非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的场景文本擦除方法。