改进FANnet生成网络的图像字符编辑方法

文档序号:26008451发布日期:2021-07-23 21:27阅读:159来源:国知局
本发明属于图像识别
技术领域
:,特别是涉及一种改进fannet生成网络的图像字符编辑方法。
背景技术
::当今国际化社会,作为国际通用语言的英文字符出现在众多公共场合;与英文字符具有相同几何结构特征的拼音字符也很重要。当这些字符出现在图像中,尤其图像风格复杂时,难以直接对其进行编辑修改。字体风格迁移与文字生成是人工智能的一个重要研究领域。不论是实景图还是电子效果图,总包含有大量文字信息。这些文字信息可以帮助读者更好理解图像中的上下文语义和场景信息。与文本中修改编辑文字不同,当一幅图像中的文字发生错误或需要修改时,直接在原图中进行修改非常困难。例如,一幅图像包含的有限文字中,可以提取的视觉信息数据不满足生成模型所需条件;在不同自然场景下,图像往往呈现出不同特征:亮度、对比度、阴影、透视形变和背景复杂度等。文字字体设计要求数据集内每一种文字的风格相同且具视觉一致性,建立这样的数据集往往需要消耗大量的人力和物力。如何通过有限规模的字符集,使计算机自动生成与源字符具有相同物理结构和视觉效果的其他字符是当前的研究热点。研究人员对图像文字的研究主要集中于文字识别方向,2005年,杨志华等人提出一种基于经验模式分解的汉字识别方法,通过对汉字常用笔画精简,做emd分析,从而提出特征识别汉字。2011年,易剑等人提出一种基于颜色聚类和多帧融合的视频文字识别方法,2017年,丁明宇等人提出一种将深度学习和ocr相融合的一种商品参数文字检测方法。而针对文字生成研究领域,最先采用的是基于几何特征的文字合成算法。这种基于几何特征的算法只能用于特定的字体拓扑结构,无法生成大量不同字体的文字。随着生成对抗网络(gans)模型的出现,文字生成问题主要采用基于生成对抗模型的相关算法来解决,即从一个特定或随机的数据集中针对特定文字生成未知文字。然而,即使基于gans的相关算法可以预测目标文字,但是将其直接应用于实景图片依然面临着许多困难。首先,大多数基于gans的字体生成算法需要对一个确定的源文字进行精准的识别。而在具有复杂背景的实景图中准确的文本申请字识别本身就极具挑战性。而且,文字识别过程中的误差累积会直接影响后续目标文字生成的准确性。其次,图像中的文本申请字往往融合了多种特征,例如:尺寸、颜色、结构等。受到光线、角度等外部条件的影响,图像中的文字将经历不同程度的透视形变(perspectivedistortion)。一些基于gans的算法需要大量同一字体类型的观察数据来提高生成数据的置信度,同时在生成算法前需要进行严格的透视消除步骤。1998年,shamir等提出了一种基于特征约束的字体设计算法。在这种方法中,需要通过用户交互来进行文字特征提取,消耗时间成本;2010年,suveeranont等提出了一种基于实际图像文字的的相同文本字体生成算法,可以从用户自定义的实例中自动生成新字体。然而这种方法只注重字体的几何特征,忽略了字体形变等因素,从而生成的字体容易出现扭曲。随着深度学习技术的发展,研究人员开始采用深度学习技术来解决字体生成问题,2014年joshuab等提出的双线性映射(bilinearfactorization)可以将内容与风格特征进行分割并应用于字体生成。2015年,huy等人提出采用概率统计(statisticalmodels)的方法将少量的字体集生成一套完整的字体。2016年,baluja等人在成功地使用深度学习模型一小组字母上来区分字体,并生成相同风格的其他字母。bernhardsson等以公开收集的5万字体作为训练集,通过调整隐变量(latentvariable)的参数来产生不同的字体。但是这种通过少量样本生成的结果存在很大的误差,例如在生成字体时遗漏了“q”的尾部。2017年,samaneh等提出了leave-one-out的训练方法,可以完成通过少量字母生成其他字母。但在该方法中生成的字体更加关注整体字体风格,对于文字内部颜色特征关注较少。2018年,azadi等提出采用端到端的方式从少量已有艺术字符通过gan生成相同风格的其他字符。projectnaptha是一款基于ocr的在线图像文字识别、提取、翻译、编辑、擦除的chrome插件。其主要功能是文字识别和提取,针对于其编辑功能,只是简单的进行图像文字识别和擦除后将修改文字替换上去,无法保证与原图像风格一致。2019年,吴亮通过设计三个网络:前景文字迁移网络,背景擦除网络,前景背景融合网络来实现实景图像文字编辑工作,但是在编辑过程中每一个网络中出现的差错都会在下一个网络中累积,并大量消耗成本。2020年,prasunroy等人首次提出基于cnn的文字生成网络(fannet),实现了实景图像文字编辑的steffan模型,但是由于其在源文字提取阶段无法很好地识别字体结构或颜色特征复杂的实景图像字符,因此fannet准确率不高,无法很好地实现图像字符编辑工作。技术实现要素:为解决
背景技术
:所提到的技术问题,本申请设计并实现一种可以直接在图像中编辑、修改文本字符的方法,以满足图像文字更替、修改等需求。其整体框架流程图,如图1所示。从图1可以看出,本申请图像字符编辑方法包括三个步骤:首先,准确提取图像中的源文字。即通过用户交互确定图像中需要修改的文本字符,采用基于对比度直方图(histogrambasedcontrast,hc)显著性检测算法和自定义阈值分割算法的自适应目标检测模型来准确提取出图像中的源文字字符。其次,运用基于fannet的生成网络生成与源字符字体结构一致的目标字符二值图。最后,采用基于颜色复杂度判别的自适应局部颜色迁移模型进行颜色迁移,生成最终目标字符图,以保证与源字符一致的结构特征与颜色特征。这里,采用了基于卷积神经网络(convolutionalneuralnetwork,cnn)的文字生成网络(fontadaptiveneuralnetwork,fannet),可以避免生成对抗网络(generativeadversarialnetworks,gans)方法中需要对图像中文本申请字事先进行精确检测识别的步骤。cnn对具有复杂视觉特征的图像进行风格迁移和结构生成等方面有着广泛的应用;不同于gans,fannet不需事先判定图像中的文字内容,目标字符生成的正确性主要取决于网络输入的源字符是否能够被准确分割。为保证源文字精确分割,本申请提出了一种基于hc显著性检测改进的自适应目标检测模型,在该模型中通过最大稳定极值区域(maximallystableextrernalregions,mser)对图像文本区域进行检测;并根据实景图像的特点,自适应选择阈值分割算法或hc显著性检测算法来分割源字符。同时,为保证修改后的图像与原图像具有相同的视觉平滑性,本申请提出了一种基于颜色复杂度的自适应局部颜色迁移模型,保证目标文字与源文字具有相同的颜色特征;该颜色迁移模型不仅可以应用在纯色字体,对于具有渐变色或复杂颜色的字符颜色迁移亦具有良好的效果。最后,在msra-td500、coco-text和icdar数据集上,展示本申请方法较相关其他方法具有更好的效果。本发明的有益效果是:(1)设计一种基于fannet生成网络的图像字符编辑模型,其字符编辑效果与原图像保持有高度视觉一致性。(2)提出一种基于hc显著性检测的改进自适应目标检测模型(characteradaptivedetectionmodel,cadmodel),可以根据源字符图像结构几何特征自适应地从hc显著性检测算法与阈值分割算法中选择码本。(3)提出一种基于颜色复杂度判别的局部色彩迁移模型(colorsdistribute-basedlocalcolortransfer,cdlcolortransfer)。通过颜色复杂度判别算法设定阈值将源字符颜色分类,自适应选择基于最大值的纯色迁移算法与基于双线性插值的复合色迁移算法。结果保证了目标字母与源字母颜色特征的一致性。(4)改进现有技术出现的问题及局限性,并满足在图像中直接编辑、修改文本字符的需求,本申请设计了一种基于fannet的图像字符编辑方法,通过提出一种基于hc显著性检测的自适应目标检测模型对数据预处理步骤进行改进,明显提高了fannet网络生成字符的准确率;同时提出基于颜色复杂度判别的局部色彩迁移模型,使生成字符与源字符在颜色纹理特征上保持高度的视觉平滑性。附图说明图1是本发明图像字符编辑整体框架流程图图2本发明自适应目标检测算法流程图图3本发明fannet生成网络结构图图4本发明局部颜色迁移模型流程图图5本发明源字母提取模型典型结果图图6本发明单通道平均ssim分数值图图7本发明fannet的部分结果对比图。图8本发明基于颜色复杂度的局部颜色迁移模型部分结果图。图9本发明颜色复杂度阈值λ分数图图10本发明含有颜色纹理特征的字符图像颜色迁移效果图图11本发明生成字母结果对比图图12本发明颜色迁移结果对比图。图13本发明平均ssim曲线(cassim)对比图图14本发明字符生成结果对比图。图15本发明实景图像字符编辑结果对比图。图16本发明电子图像应用结果图图17本发明自然场景图像应用结果图具体实施方式改进fannet生成网络的图像字符编辑方法由以下步骤组成:(1)从图像中选择欲替换的源字母,并通过hc显著性检测算法和自定义阈值分割算法的自适应目标检测模型提取源字母的二值图;(2)通过fannet网络生成目标字母二值图;(3)通过基于颜色复杂度的自适应局部颜色迁移模型对已得目标二值图进行颜色迁移后将源字母替换为生成字母。在步骤(1)中,采取自定义检测区域来确定需要修改的区域,并使用自适应目标检测模型检测出该区域中每一个字母的边界框(boundingbox)。对确定区域中的所有字母,可以选择任何一个希望被修改的源字母,并指定输入希望代替的目标字母。基于这些输入,进行颜色迁移、替换等步骤。自适应目标检测模型将i记为含有大量文本区域的实景图像,ω记为实景图像中选定的检测区域,即仅需在区域ω中进行字母提取。具体来说,用户通过标记四个顶点的四边形来确定实景图像中文本区域ω的边框线。在区域ω确定后,应用mser算法检测出ω区域中每一个字母的二值掩码图im。通过实验发现,单一的mser算法多数情况下无法生成具有更高保真度且能精确框定字母的掩码(sharpmask)。因此,特别引入基于颜色直方图对比度(hc)的目标检测算法。首先,将区域ω规则化为ω’作为hc的输入:式中,map(.)分别代表区域ω’;p代表区域ω的四个定点坐标值。在区域ω’内有:式中,r(.)表示颜色ci在区域ω’内的显著值;n为区域ω’内所含的颜色总数;wj表示颜色cj的权重;dis(ci,cj)表示颜色ci和cj在ciel*a*b*空间内的颜色距离度量。具体表示为:式中,num(.)表示cj在区域ω’出现的次数;表示cj在ciel*a*b*空间中第k个分量的值。为避免相似颜色被量化产生不同显著值从而造成噪声,使用平滑操作将相似颜色的显著值进行加权平均成为一个颜色集:式中,表示颜色c与它相似值最高的k个颜色的距离度量,k在本申请中取n的25%。最后将颜色集的显著值按照其在空间像素点的实际位置还原便可提取出区域ω’中的显著性目标。还原后的图像由于颜色值的减少会出现边界,内部纹理噪声等明显现象,因此采用高斯滤波和像素值归一化对结果图进行平滑操作,减少噪声。得到经过hc操作后的字母灰度图后,采用otsu算法对其进行二值化处理,得到二值掩码图ihc。实验发现,hc算法的准确性主要取决于图像中字母与背景的颜色对比度,因此在字母提取过程中会出现字母分割不完全或过分割等情况。为解决这一问题,引入自适应目标判别模型:δ(t)=sr(thc)-sr(tb)(7)式中,ihc代表原图i经过hc算法处理后的的二值图;ib代表区域ω的二值图。假设每个字母是不重叠的,基于每个英文字母都具有连通性的特点,采用连通分量分析法来计算提取图中连通分量的最小边界值bt。t代表区域ω内的一个连通分量,sr(.)代表对区域ω经过源字母提取后的最小边界框。普遍来说,当sr(thc)<sr(tb)时,说明经过hc算法后的源字母提取效果优于阈值分割法,反之阈值分割法更优。当源字母很小时,hc算法结果往往存在提取不完全的情况,因此附加条件bt<δ,即当源字母尺寸小于阈值δ时,采用阈值分割法,实验中δ取值为25。最终源字母二值图定义为:图像if包含选定区域ω内所有的字母二值图。im代表原图i经过mser算法处理后得到的二值图;⊙代表矩阵的元素积。假设if中共有n个连通分量,用来表示区域0<n≤n中的第n个连通分量。用户可以自定义多个希望重新修改或编辑的源字母。我们定义这些源字母的集合为θ,且|θ|≤n,|.|表示集合的基数。定义为第cθ连通分量的二值图。bθ为的最小边界框,θ表示源字母且θ∈θ。自适应目标检测算法流程图,如图2所示。基于fannet的目标字母二值图生成算法图像预处理通常来说,神经网络的输入图像横纵比是相等的。但是受源字母、字体类型、字体尺寸等因素的影响,会含有不同横纵比;然而,直接对进行缩放操作会导致字体扭曲。因此,采用填充(padding)操作使获得相同横纵比mθ×mθ。其中,mθ=max(hθ,wθ),hθ和wθ分别代表边界框bθ的长和宽;max(.)代表取二者较大值,即沿x轴和y轴分别用px和py填充生成规则化二值图iθ。其中,px和py满足:随后,对iθ进行缩放操作,使其维度为64×64。字体适应性神经网络(fannet)字体自适应生成神经网络含有两个不同的输入,分别是尺寸为64×64的源字母二值图和目标字母的标签,即长度为26的独热编码(one-hotencoding)v。假设目标字母为‘h’,则v在下标为7的位置置1,其余位置为0,如图3所示。在网络的编码部分,输入的源字母图像通过滤波器分别为16、16和1的3个卷积层(convolutionlayer)。随后经过全连接层(fully-connectedlayer)fc1。独热编码v经过全连接层fc2。通过维度变换,将fc1和fc2的输出均转化为512维的潜在表示(latentrepresentation),并将其连接作为全连接层fc3和fc4的输入。全连接层fc3和fc4均含有1024个神经元。网络的解码部分将fc4输出的特征向量尺寸转换为8×8×16,后依次经过3个滤波器为16、16和1的反卷积层。每一个反卷积层包括一次上采样操作和一个2d卷积。所有的卷积层使用3×3的卷积核,后连接一个relu的激活函数。局部颜色迁移模型色彩平滑性是保证目标字母生成的重要因素。因此,本申请提出局部色彩迁移模型,以有效将源字母的颜色特征迁移到目标字母上。首先,计算iθ的非零边框得到通过元素点成操作后得到具有颜色特征的源字母显著图:背景颜色不影响目标字母颜色的生成,因此只需提取中源字母内的颜色特征。源字母内部的颜色特征受外界条件的影响,例如亮度、角度等,直接进行像素值复制会导致字母内部纹理、颜色特征信息的丢失。因此,采用双线性差值法对源字母内含有颜色特征信息的区域依次进行处理,从而得到颜色掩码:首先,定义icolor为大小与目标字母二值图相同尺寸的零图,然后对图像逐行进行颜色提取,即当像素点值pcolor=0时删除该像素点,否则保留。将颜色提取后的第i行记为rowi。ti(.)代表对rowi进行双线性插值操作,其中:ycolor对应颜色掩码icolor第i行中像素点坐标,对应rowi中像素点坐标,且存在映射关系:wcolor,分别为icolor和rowi的宽度,u,v分别为计算得到和ycolor的小数部分。最后进行颜色迁移操作:式中,icolor表示颜色掩码图,bterget表示目标字母的二值图,⊙表示矩阵元素内积。当源字母是纯色图时,由于在实景图像中的文本申请字边缘部分总是模糊且含有少量背景颜色,因此在源字母的二值掩码图提取后常含有颜色噪音。这些噪音将在icolor中被放大以至于颜色迁移结果不准确。为解决这一现象,特别提出了自适应的色彩复杂度判别算法:s为源字符颜色复杂度,γ为判别因子,定义为0.28,m代表在nc中随机选择fcolor×n个颜色,n代表中不同颜色的数目,fcolor定义为0.1。n代表像素点p在rgb通道的值,且满足pn=max(nc)。nc定义为中颜色c出现的次数。dissimlar(.)表示空间颜色距离,当且仅当pn与pi为相似色时计数加一。当源字母被判定为纯色时,仅对目标字母进行纯色迁移。局部颜色迁移模型流程图如图4所示。为保证修改后图像的视觉平滑性,替换过程由以下步骤完成。首先,采用以作为掩码的图像修复算法将源文字移除。其中d(.)代表对包含选定源字母的连通分量二值图进行核为ρ=6×6的膨胀操作。其次对规则化,调整尺寸与iθ相同并定义规则化后的为rθ。取rθ的最小边界框当大于或小于bθ时,则按比例缩放区域以防止目标字母过大或过小。最后通过矩阵元素积对与修复过的原图进行字母替换。实验结果与分析实验设置实验平台配置:硬件环境,cpu,intel酷睿i77700hq2.8ghz;内存,ddr416gb;显卡,nvidiaquadrom1200(显存,4gb)。软件环境:操作系统,ubunturelease20.04;深度学习环境,tensorflow-gpu1.14.0;数据可视化工具,matplotlib2.2.0;编程语言,python3。为验证本申请方法的性能,在msra-td500、coco-text和icdar数据集上进行效果展示。msra-td500数据集包含500个自然情景下具有挑战性的室内外实际场景文本图像;室内图像主要为标志、门板和警示牌,室外图像主要为复杂背景下的导板和广告牌,分辨率从1269×864到1920×1280不等。图像中文本包含英文、中文或两者的混合,且字体、大小、颜色、方向和背景不同。coco-text数据集包含63686张自然场景图像,其中包含约14,000个文本实例。icdar数据集图片为自然场景图片,具有文字在图片中央,分辨率高,文字清晰可见的特点。为验证实景图像字符编辑模型的实效性,通过百度图片、相机拍摄等渠道下载、拍摄自然场景图片,并对其文字部分进行实验。实验结果表明实景图像字符编辑模型在修改自然场景图像中文字信息方面具有一定的有效性和准确性。源字符提取模型性能表现采用基于卷积神经网络的fannet网络,来进行目标字母的生成。fannet网络具有结构简单、所需样本信息少的特点,且可以有效避开图像预处理中对图像文字识别的步骤,从而提高生成文字的准确性。在fannet网络中生成文字图像的准确性与源字母提取二值图的准确性成正相关。传统的阈值分割法设定固定的阈值,因此在不同因素影响下,将导致提取的源字母图像边界噪声大,分割不完全或过分割等情况。例如图像整体亮度过大或过小、源字母内部颜色特征复杂而背景纹理相对简单、背景颜色亮度大于字母颜色亮度等。同时阈值分割法往往需要用户交互不断调整阈值来保证源字母提取效果。而在自然场景图片中确定区域的文字部分通常符合背景纹理简单且文字颜色突出的特点。为弥补这一缺陷,在源文字提取阶段采用基于hc的目标显著性检测算法对确定区域中的文字部分进行目标分割。hc目标显著性检测算法主要依据像素间的色彩差异来分配像素的显著值,在效果上具有速度快,细节精确,边界清晰的特点。本申请对1000张自然场景下含有文本的图像进行文字区域确定和hc目标显著性检测,其正确率达87.4%。因此,对于大多数自然场景下的文字图像hc算法具有较高的准确性。而针对在中文语言环境下的英文字母,因为其在图像中所占比例或所占像素较少,当一次性修改多个字母时,hc算法无法精准地将每个源字母与背景信息分开,此时通过自定义阈值的分割方法更优。因此本申请在源字母提取阶段将hc目标显著性检测算法与自定义阈值法相结合,并设定条件使源字母提取模型可以自适应地选择hc目标显著性检测算法或阈值分割算法的结果作为码本。在提高了源字母提取正确性的同时,减少了用户交互操作。源字母提取模型典型结果图,如图5所示。图5中:ⅰ为hc目标显著图;ⅱ为基于otsu的hc目标显著分割图;ⅲ为自定义阈值分割图;ⅳ为源字母提取模型自适应选择后的最终掩码图。在图5中,(1)当受到亮度影响时,如背景亮度大于源字符内部颜色亮度,如(b)、(d)所示,和源字母具有复杂颜色纹理特征时,如(m)、(o)。由于hc显著性检测算法受亮度影响小且主要提取原理为图像颜色对比度,因此,与传统的阈值分割法相比,hc显著性检测算法往往能够更加准确地提取出源文字字符的结构几何特征。(2)因为hc显著性检测算法为避免结果图像颜色块状化而将相似颜色统一为颜色集并赋予相同显著值。因此当编辑区域内有多个连通分量,且文字字符尺寸较小或所占像素点较少时。尤其针对中文语言环境下的英文注释如(g)、(l)、(n)和实际生活场景中字母相对于背景亮度过高时,如(j)。hc显著性检测算法会导致结果图像出现过分割的情况,以至于无法识别编辑区域内不同的连通分量。此时通过用户交互,传统的阈值分割法反而可以更好地提取出编辑区域内的每一个连通分量。(3)当字母内部颜色简单,且与背景颜色相差较大时,如(a)、(c)、(e)、(f)、(i)所示,此时hc显著性检测算法和阈值分割法效果相似。最后,通过码本判别机制,从hc显著性检测算法计算出的码本与阈值分割hc显著性检测算法算法计算出的码本中择优选择,并融合mser算法计算出的码本得到最终的源字符提取图。当出现由于欠分割导致的码本判别错误时,只需用户通过键盘输入适当调整阈值分割法中的阈值即可进行码本的重计算和判别机制的重判断。在实验过程中,我们通过对coco-text数据集中选取863张包含自然场景下室内、室外英文字符的图像进行字符提取实验,由于hc显著性检测算法和阈值分割算法可以优缺点互补,其成功率可达88.6%。fannet生成网络性能表现fannet网络训练:fannet的训练及测试数据集字体均采用谷歌字体数据集。实验中,源字母二值图像和目标字母独热编码向量作为fannet生成网络的一个输入对。因为任一源字母图像可以生成与其结构几何特征相同的26个不同目标字母。因此,对于1000种不同字体,训练数据集共包含67.60万个训练输入对。同样的,对另外300种不同字体的大写字母数据集,验证数据集共包括20.28万个输入对。为使网络平均绝对误差(meanabsoluteerror,mae)达到最小,采用学习率为lr=10-3的自适应矩估计优化器(adaptivemomentestimationoptimizer,adamoptimizer)来训练网络。同时设置动量参数β1=0.9,β2=0.99和规则化参数ε=10-7。目标字母生成结果评估:fannet可以实现通过一个特定的源字母生成与其几何特征相同的任意目标字母。实验中,在数据集中随机选择300个不同字体的字母‘a’,作为源字母,生成26个与‘a’相同结构特征的目标字母。通过结构相似性(structuralsimilarity,ssim)算法计算每个生成字母与其真值图的相似度分数,并计算相同字母的平均ssim值。ssim是一种衡量两幅图像相似度的指标,用均值作为亮度的估计,标准差作为对比度的估计,协方差作为结构相似程度的度量。单通道平均ssim分数值,如图6所示。从图6可以看出,与自定义阈值分割结果图作为fannet的输入相比,通过源字母目标检测模型自适应择优选取后的源字母二值图使生成字母ssim分值平均上升0.1,证明了基于hc显著性检测的改进自适应目标检测模型对准确性的提高。在生成结果中,字母“i”生成结果相对较好,这是因为字母“i”本身结构简单,几何特征不明显,而字母‘m’和‘w’生成效果相对较差,究其原因是在测试集中生成过程中字母“m”和“w”为保持与源字母质心相同,从而导致整体字母尺寸较大,真值图中为保持视觉一致性将字母“m”和“w”相对缩小。实验结果显示,本申请方法所得生成字母平均ssim值可达0.7308,而原fannet为0.6058。fannet的部分结果对比图如图7所示,每一组从上至下依次为原fannet结果图,应用自适应目标检测模型后的fannet结果图,真值图。从数据集中随机选取三种字体的大写字母集,在每一组实验中,分别将经典阈值分割算法和自适应源字母目标检测模型提取后的源字母掩码作为fannet网络的输入,并将生成结果与真值图相对比。实验结果表明,通过自适应源字母目标检测模型提取后的源字母,可以更大程度保留源字母的结构特征,使生成结果更加准确。局部颜色迁移模型的性能表现本申请提出的基于颜色复杂度判别的颜色迁移算法为针对图像字符内部颜色特征迁移模型。可以很好的实现将源字符内部颜色特征迁移至与其几何结构不一致的目标字符二值图中。由颜色复杂度判别机制将源字符颜色特征分为纯色图和渐变色图,并根据分类结果分别进行相应的颜色迁移方法。部分颜色迁移结果图如图8所示,ⅰ为源字母颜色码本图,ⅱ为fannet生成的目标字母二值图,ⅲ为通过颜色迁移模型后生成的目标字母颜色图。由于所得源字母二值掩码图与原图像字符依旧存在微小的误差,因此在颜色提取过程中,字符边缘部分往往存在少量的背景颜色噪音,尤其当源字母是纯色图时,如(d)、(e)、(i)、(p)所示。若仅使用基于双线性差值的颜色迁移算法,这些颜色噪音将会在后续的颜色迁移过程中放大,导致颜色迁移结果不准确。同样的,当字符图像内部颜色纹理复杂时,如(h)、(i)、(k),仅通过最多颜色值迁移同样会导致颜色迁移失败。因此,设定颜色复杂度判别机制,当且仅当源字母颜色复杂度s≥γ时为纯色图,否则为渐变色图。并根据不同的判定结果选择相应的颜色迁移算法来实现源字符的颜色迁移。实验中,通过随机在数据集msra-td500和数据集icdar中选取400张实际场景下含有文本图像的字母颜色进行测试,颜色复杂度判别算法正确率可达87.75%。源字符颜色复杂度判别算法阈值λ的确定。采用rgb空间颜色距离进行像素点相似度判断,并计算在阈值λ下1000张包含不同颜色特征的源字母分割图的通过率。其中包括一般纯色图、含有边缘颜色噪声的纯色图、渐变色图和具有复杂纹理特征的颜色字符图像。实验结果,如图9所示。实验中,通过人工标记的方式将1000张图片分为纯色图与渐变色图。之后对其进行区间为[0.1,0.9],步数为0.01的阈值计算。实验结果表明,当阈值在区间[0.25,0.30]时正确率最高。针对尺寸小,所占像素点少的字母可以适当减小阈值,针对渐变色色差小,没有明显颜色差别的渐变色可以适当提高阈值。针对复杂色字符图像,本申请方法既能对具有渐变颜色的字符图像进行颜色迁移,又能对具有明显纹理特征的字符图像进行颜色迁移,并最大程度保留源字母内部纹理特征,如图10所示。针对纯色图像,本申请方法可以很好地进行边缘去噪,提取并迁移主要颜色特征,使目标字符与源字符保持视觉一致性。实验对比与分析为更好展示本申请模型的优越性,本节进行了本实施例方法和相关方法的对比实验。字符生成对比实验。mc-gan方法主要采用端到端的方案,通过同一类型少量英文字符的输入,生成与其类型相同其余字母。fannet生成网络可以通过输入一张源字符二值图,生成与其相同几何结构特征的任一字符。而其生成字符的准确性主要取决于源字母二值图是否提取准确。因此在本节实验中通过对比原fannet生成网络结果与应用本申请提出的源字母检测方法的fannet做对比,结果如图11所示:实验发现,当输入源字母个数为1时,本申请方法效果远优于mc-gan方法,如图11右列所示,其中输入字母均为‘a’。然而随着mc-gan方法中输入源字母数量的增加,其在字母边界形状以及字母几何结构上要略优于本申请方法,如图11左列所示,其中fannet与本申请方法输入源字母均为‘a’,mc-gan输入字母由红色矩形框标出。字符颜色迁移对比实验。由于目前没有专门的颜色字母显著图数据库,因此在本申请实验中,通过选取谷歌字体数据集中100种不同字体图像,二值化后与不同颜色码本做矩阵元素点乘,得到颜色字母数据集。其中包含624张纯色图和1,976张渐变色图。目前已有的局部颜色迁移方法主要针对源色彩图像向目标灰度图像的迁移,而对于色彩图像向二值图迁移有效方法较少。通过对比本申请提出的自适应局部颜色迁移方法和colornet方法进行实验。colornet为prasunroy等人提出的二值图像颜色生成网络。在实验中,选取不同字体和颜色特征字母图‘a’与其同字体的目标二值字母图作为本申请方法和colornet方法的输入。部分对比结果如图12所示,每组结果图从上至下依次为colornet方法结果图、本申请方法结果图、真值图。相对于colornet方法,本申请提出的模型直接在原图像素点上进行操作,避免了颜色生成步骤。因此在视觉上本申请方法更符合原图像颜色特征。而colornet方法会导致生成颜色偏暗或含有明显颜色噪声,从而字符几何结构发生改变。基于这些结果图,本申请通过计算其与真值图在rgb通道内的结构相似性指数进行评价,得到具有颜色特征的平均ssim曲线(cassim),如图13所示。其中本申请方法的颜色平均ssim分数值可达到0.8357,而colornet方法为0.7747,平均提高0.06。其中当源字母图像为渐变色图时,本申请方法主要通过基于双线性差值的方式获得颜色码本后对目标字母进行颜色迁移。因此当字符为‘i’、‘j’、‘l’时,由于其字符尺寸在颜色码本中所占比例相对其他字母较小,无法从中获得足够的颜色特征,从而导致ssim分数偏低。整体模型对比实验。本申请提出的实景图像文字编辑模型在字符编辑过程中避免了文字字符检测步骤和颜色生成步骤,因此不仅可以减少由文字字符识别出现的错误同时提高了文字编辑速度。本申请模型与现有先进算法stefann字符编辑模型进行对比,部分结果如图14所示,每组结果图从上至下依次为stefann方法生成字符结果图,本申请方法生成字符结果,真值图。在对比实验中,均将字母‘a’作为源字符输入,分别将本申请方法和stefann字符编辑方法结果与真值图对比。由于stefann字符编辑模型主要取决于源字母提取的准确性,当其源字母在提取过程中出现差错时将直接影响目标字母的几何结构和尺寸大小。本申请通过对字符提取方法的改进,提高了fannet生成网络的准确性。实验结果证明本申请模型相较stefann字符编辑方法字符生成准确性更高。为更加客观地对比模型的优劣性,在本实验中通过归一化均方根误差(normalizedrootmeansquareerror,nrmse)、峰值信噪比(peaksignaltonoiseration,psnr)和在rgb通道内的平均结构相似性(structuralsimilarity,ssim)指标进行评价。当输入字符数为1时,输入字符均为‘a’。结果如表1所示。(1)nrmse主要通过计算目标图像与原图像之间像素值的偏差平均值来客观地评价两者之间的区别。其值越小表示两图像之间的差距越小,公式如18所示。式中,it表示目标图像像素点,io表示原图像与之对应像素点,n表示图像i像素点个数。(2)psnr用于衡量图像有效信息和噪声之间的比率,是对图像质量评价的测量指标。其值越大说明两图像之间的误差越小,公式如20所示。定量评价指标结果如表1所示。表1定量评价指标结果从表1可以看出,相对于mc-gan方法,本申请提出的自适应目标检测模型应用于fannet可以明显提高目标字母在几何结构上生成的准确性。本申请模型主要针对于实景图像中文本文字的编辑修改,具有一定的优越性。与stefann字符编辑方法和projectnaptha方法进行对比实验,部分结果如图15所示,ⅰ为projectnaptha编辑字符结果图,ⅱ为stefann编辑字符结果图,ⅲ为本申请方法编辑字符结果图,ⅳ为原图像,并在原图像中用矩形框标注编辑字符。实验发现,projectnaptha方法在ocr识别图像文字成功的基础上才可以进行字符编辑,否则会出现乱码、无法修改等情况,如图15(j)所示,其图像修复结果同样影响字符的编辑,如图15(g)、(h)、(i)所示。其次,projectnaptha算法在进行文字修改时无法指定字符修改,导致运行成本增加且修改效果下降,如图15(a)、(b)、(c)、(e)、(g)所示。另外,projectnaptha算法无法生成与原图像文本字符相同字体的文字,导致编辑后图像视觉效果与原图相差较大,如图(d)、(f)所示。对于stefann字符编辑方法,在进行编辑时需要大量人工交互操作来提取源文字。源文字提取和颜色生成步骤的错误将直接影响生成字符的几何结构和颜色特征,如图15ⅱ所示。本申请通过对源文字提取技术的改进,大大提高了fannet生成网络的准确性。在后续颜色迁移步骤改进了单一的像素点放大,采用自适应纯色和渐变色的颜色迁移方法。在实景图中,不论纯色图还是渐变色图或是具有简单纹理特征的文字图像均能产生较好的效果,使最终结果图更加逼真,如图15ⅲ所示。实际应用为验证本申请方法的实际应用能力,将本申请方法应用于实际生活图像中。验证数据通过相机拍摄、百度下载等渠道获取。部分结果如图16、17所示。其中修改字母通过矩形框标注,当图列为上下时,上方为原图,下方为编辑后图像;当图列为左右时,左方为原图,右方为编辑后图像。在实际场景图像和电子设计图像中,所含有的字符信息往往是有限的,本申请方法可以从有限的字符结构及颜色中提取特征并迁移到目标字符。因此在多数含有文本字符的自然场景图像(如图17所示)和电子图像(如图16所示),本申请模型均可很好地进行文字编辑,保证与原图像高度视觉一致。对于一些挑战性较强的图像,如中文字符环境下英文或拼音字符尺寸较小(如图17中字母‘k’改为‘g’)、字体边界颜色模糊(如图17中字母‘lu’改为‘rd’);因拍摄角度导致的字体形状不规则(如图17中字母‘ahead’改为‘there’)、光线过亮(如图17中字母‘p’改为‘t’)或过暗(如图17中字母‘sh’改为‘ll’);字符内部颜色纹理复杂(如图17中字母‘s’改为‘b’)等,本申请方法均有较好的编辑效果。字符编辑在图像文本纠错、重存储和图像重利用等方面具有广泛的应用。本申请设计的基于字符级的实景图像文字编辑模型可以在图像编辑过程中编辑单个或同时编辑多个字符文字。不仅保证了编辑效果同时减小了运行成本。由于文字生成步骤中采用了基于cnn的fannet生成网络,避免了一般gan网络中对文字检测步骤,同时通过本申请提出的基于hc显著性检测的改进自适应目标检测模型提高了fannet生成目标字符的准确性。在颜色迁移步骤中,有针对性的对源字符颜色特征进行提取,并通过颜色复杂度判别机制来减少颜色噪音的生成与迁移。在msra-td500、coco-text和icdar数据集和百度下载、相机拍摄图像上的字符编辑结果表示本申请模型在视觉感受和相关评价指标(ssim、nrse、psnr)均优于其他先进算法。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1