漫画气泡识别训练、响应方法及其装置、设备、介质与流程

文档序号:24973028发布日期:2021-05-07 22:44阅读:233来源:国知局
漫画气泡识别训练、响应方法及其装置、设备、介质与流程

本申请属于图像识别技术,具体涉及一种漫画气泡识别训练、响应方法及其相应的漫画气泡识别、响应装置,以及相关电子设备和非易失性存储介质。



背景技术:

采用卷积神经网络来进行基于人工智能的图像识别的相关技术已经成熟。众所周知,人工智能的实现依赖于大数据及其算法,换言之,一个有效的神经网络,对其训练样本的稀疏性和样本总量往往存在依赖。

在一种关于“气泡识别”的应用中,通过使用计算机视觉识别技术来高亮漫画图片中对话气泡。该方法主要用于辅助漫画领域进行光学文字识别(ocr),以便提高漫画领域ocr的识别精度。

传统气泡识别算法以“connected-components”技术为主,虽然算法简单,但执行算法需要定义许多苛刻条件(例如气泡必须是白色、气泡的形状特定)才能相对准确的识别气泡,因此难以在工程领域中发挥作用。

随着深度学习在计算机视觉识别领域的广泛应用。以u-net为主的端对端“气泡识别“算法也由此而生。u-net是一种图像分割/高亮算法,主要应用于医疗影响领域,原本在高亮细胞,肿瘤等任务上被广泛使用。2019年,daviddubray和jochenlaubrock发表论文(dubray,david,andjochenlaubrock.deepcnn-basedspeechballoondetectionandsegmentationforcomicbooks.2019internationalconferenceondocumentanalysisandrecognition(icdar).ieee,2019.url),将u-net技术运用到气泡识别上,针对气泡识别的需求,提出一种基于u-net实现的图像分割模型,凭借u-net强大的拟合能力取得了不错的效果。同时,其自身端对端黑盒子的特性也降低了气泡提取流程的复杂度。

尽管如此,由于训练并收敛一个u-net模型,需要依赖大量的打标数据,在daviddebray和jochenlaubrock提出的实测数据中也显示,即使提供750张样本也难以使其提出的图像分割模型收敛,因此生产这一图像分割模型的训练成本明显高于传统方法。由此可见,如何持续优化气泡识别相关技术,进一步降低训练相关模型的样本总量从而降低其生产成本,对于本领域而言,有其积极意义。



技术实现要素:

本申请的目的之一,旨在提供一种漫画气泡识别训练方法及其各自相应的装置、电子设备、非易失性存储介质。

相应的,本申请的目的之一进一步提供一种漫画气泡识别响应方法及其各自相应的装置、电子设备、非易失性存储介质。

为满足本申请的各个目的,本申请采用如下技术方案:

适应于本申请的目的之一而提供的一种漫画气泡识别训练方法,包括如下步骤:

以生成对抗模型的生成器所用的图像分割模型从漫画原图中提取出包含其气泡特征的气泡特征图;

由该生成器中的融合网络将所述漫画原图分别与所提取的气泡特征图和预标记的气泡特征图进行融合,对应生成假值类型和真值类型的合成图;

将所述合成图作为训练样本馈入该生成对抗模型的鉴别器实施训练,使其具备识别图片中所含气泡特征所属真假类别的能力;

利用完成训练的鉴别器作为该生成器输出的合成图的真假类别判别依据,训练该生成器的图像分割模型,使其提升从漫画原图中提取气泡特征的准确率。

部分实施例中,所述图像分割模型从漫画原图中提取出包含气泡特征的气泡特征图的过程,包括:

将所述漫画原图馈入基于u-net神经网络构建的所述图像分割模型的输入卷积层中进行局部特征提取,获得中间特征映射;

将所述中间特征映射经图像分割模型的编码路径中的多个编码器逐步编码提取多尺度特征;

以所述多尺度特征为馈入特征,经图像分割模型的解码路径中的多个解码器逐步解码,逐级还原为更高分辨率的特征图,其中,每个解码器以其对应的一个编码器所获得的特征图为参照用于实施所述的还原;

将解码器的所有输出进行融合,获得包含该漫画原图的气泡特征的气泡特征图。

部分实施例中,融合网络将漫画原图与气泡特征图进行融合的过程,包括:

接收所述的气泡特征图及其对应的漫画原图,所述气泡特征图来源于所述图像分割模型的输出或其他外部存储地址;

采用以神经网络构成的单个神经元对该漫画原图和该气泡特征图分别关联权重参数做线性运算,实现将两者融合为同一张合成图;

将该合成图输出给所述的鉴别器。

部分实施例中,所述鉴别器的训练过程,包括:

对馈入的每种类别的合成图进行特征提取;

依据所提取的特征对合成图进行分类判别,获得对应的真值和假值判别结果,从而增强其判别能力;

根据判别结果修正其自身所使用的权重参数;

向生成对抗模型反向传播,相应修正所述生成器中的融合网络及图像分割模型的权重参数。

部分实施例中,利用完成训练的鉴别器作为该生成器输出的合成图的真假类别判别依据的步骤中,所述鉴别器的判别过程,包括:

对馈入的每种类别的合成图进行特征提取;

依据所提取的特征对合成图进行分类判别,获得对应的真值和假值判别结果;

冻结对其自身所使用的权重参数的修正;

根据判别结果向生成对抗模型反向传播,相应修正所述生成器中的融合网络及图像分割模型的权重参数。

适应本申请的目的之一而提供的一种漫画气泡识别训练装置,其包括:

气泡分割模块,用于以生成对抗模型的生成器所用的图像分割模型从漫画原图中提取出包含其气泡特征的气泡特征图;

图像融合模块,用于由该生成器中的融合网络将所述漫画原图分别与所提取的气泡特征图和预标记的气泡特征图进行融合,对应生成假值类型和真值类型的合成图;

辨别训练模块,用于将所述合成图作为训练样本馈入该生成对抗模型的鉴别器实施训练,使其具备识别图片中所含气泡特征所属真假类别的能力;

生成训练模块,用于利用完成训练的鉴别器作为该生成器输出的合成图的真假类别判别依据,训练该生成器的图像分割模型,使其提升从漫画原图中提取气泡特征的准确率。

适应本申请目的之一而提供的一种漫画气泡识别响应方法,包括如下步骤:

将待识别的漫画图片输入预训练的图像分割模型中进行图像分割,获得该漫画图片中所包含的气泡特征图;

根据所述气泡特征图与所述漫画图片的对应关系获取该漫画图片中的文字图像;

对所述文字图像进行光学识别,以将其转换输出为计算机可识别的文字信息;

其中,所述图像分割模型按照如下具体步骤进行迭代实现预训练:

以生成对抗模型的生成器所用的图像分割模型从漫画原图中提取出包含其气泡特征的气泡特征图;

由该生成器中的融合网络将所述漫画原图分别与所提取的气泡特征图和预标记的气泡特征图进行融合,对应生成假值类型和真值类型的合成图;

将所述合成图作为训练样本馈入该生成对抗模型的鉴别器实施训练,使其具备识别图片中所含气泡特征所属真假类别的能力;

利用完成训练的鉴别器作为该生成器输出的合成图的真假类别判别依据,训练该生成器的图像分割模型,使其提升从漫画原图中提取气泡特征的准确率。

部分实施例中,该方法还包括如下后续步骤:

调用人声模型为所述文字信息合成相应的人声语音文件,将所述人声语音文件与所述漫画图片关联存储以供与所述漫画图片同步播放。

适应本申请的目的之一而提供的一种漫画气泡识别响应装置,其包括:

气泡分割模块,用于将待识别的漫画图片输入预训练的图像分割模型中进行图像分割,获得该漫画图片中所包含的气泡特征图;

图文提取模块,用于根据所述气泡特征图与所述漫画图片的对应关系获取该漫画图片中的文字图像;

图文转换模块,用于对所述文字图像进行光学识别,以将其转换输出为计算机可识别的文字信息;

其中,所述图像分割模型按照如下具体步骤进行迭代实现预训练:

以生成对抗模型的生成器所用的图像分割模型从漫画原图中提取出包含其气泡特征的气泡特征图;

由该生成器中的融合网络将所述漫画原图分别与所提取的气泡特征图和预标记的气泡特征图进行融合,对应生成假值类型和真值类型的合成图;

将所述合成图作为训练样本馈入该生成对抗模型的鉴别器实施训练,使其具备识别图片中所含气泡特征所属真假类别的能力;

利用完成训练的鉴别器作为该生成器输出的合成图的真假类别判别依据,训练该生成器的图像分割模型,使其提升从漫画原图中提取气泡特征的准确率。

适应于本申请的目的之一而提供的一种电子设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行所述的漫画气泡识别训练/响应方法。

适应于本申请的目的之一而提供一种非易失性存储介质,其以计算机可读指令的形式存储用依据所述的漫画气泡识别训练/响应方法所述实现的计算机程序,该计算机程序被计算机调用时,执行该方法所包括的步骤。

相对于现有技术,本申请具有如下优势:

本申请采用图像分割模型用于从漫画原图中分割出气泡特征图,继承了这一架构的优点,在此基础上,结合生成对抗模型,一方面,利用图像分割模型产生气泡特征图后,借助本申请提供的融合网络将其与漫画原图进行融合得到合成图,将这类合成图作为假值类别的样本;另一方面,采用人工预标记的气泡特征图和相对应的漫画原图通过该融合网络进行合成,获得合成图作为真值类别的样本。用这两类样本先训练出该生产对抗模型的鉴别器,使鉴别器获得从图片中判别出其所含的气泡特征是真值还是假值的能力。再利用训练好的鉴别器作为判决依据,协助训练生成器,主要是训练其中的图像分割模型,使得图像分割模型所生成的气泡特征图可以持续收敛到理想的效果。

本申请将图像分割模型与生成对抗模型进行结合,通过生成器与鉴别器之间实现对抗学习,利用图像分割模型在训练过程中生产的气泡特征图与漫画原图进行合成生产出更丰富的样本参与训练,最终优化了图像分割模型,所需漫画原图明显减少,使其仅需少量样本训练便可实现收敛,适用于对漫画图片进行气泡特征图提取,通过向其馈入原始漫画图片,便可分割形成代表其气泡轮廓特征的高亮图片,实现了漫画图处的气泡识别。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为适于部署本申请的一种网络架构的原理示意图;

图2为本申请提出的一种人工神经网络架构的原理示意图;

图3为本申请的漫画气泡识别训练方法的典型实施例的流程示意图;

图4为本申请的漫画气泡识别训练方法的另一实施例,依据图3所揭示的步骤s11,其中,图像分割模型所执行的过程所呈现的流程示意图;

图5为本申请的漫画气泡识别训练方法的另一实施例,依据图3所揭示的步骤s12,其中,融合模型所执行的过程所呈现的流程示意图;

图6为本申请的漫画气泡识别训练方法的另一实施例,依据图3所揭示的步骤s13,其中,鉴别器在被训练过程中所呈现的流程示意图;

图7为本申请的漫画气泡识别训练方法的另一实施例,依据图3所揭示的步骤s14,其中,鉴别器在为生成器提供判据的过程中所呈现的流程示意图;

图8为本申请的漫画气泡识别响应方法的典型实施例的流程示意图;

图9为本申请的漫画气泡识别响应方法的另一实施例的流程示意图;

图10为本申请的漫画气泡识别训练装置的原理框图;

图11为本申请的漫画气泡识别响应装置的原理框图。

具体实施方式

下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;pcs(personalcommunicationsservice,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;pda(personaldigitalassistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或gps(globalpositioningsystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是pda、mid(mobileinternetdevice,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。

本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。

需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。

请参阅图1,本申请相关技术方案实施时所需的硬件基础可按图中所示的架构进行部署。本申请所称的服务器80部署在云端,主要用于部署本申请的生成对抗模型,其仅为逻辑概念上的服务器,代表着用于实现该生成对抗模型或者用于实现漫画气泡识别的整个服务机群,通过设计应用程序开放调用接口来实现利用这一逻辑上的服务器为相关的终端设备例如图中所示的智能手机81和个人计算机82提供服务。所述的智能手机和个人计算机均可通过公知的网络接入方式接入互联网,与云端的服务器80建立数据通信链路,以便启动漫画气泡识别作业、实施对该生成对抗模型及其所采用的图像分割模型的训练、利用该图像分割模型进行漫画气泡分割识别操作等。

请参阅图2,本申请的技术方案基于图2所示的架构而实施,在该架构中,实现了一个复合了生成对抗模型与图像分割模型的结构。

生成对抗模型(gan:generativeadversarialnetwork),是goodfellow等在2014年提出的一种生成式模型,gan在结构上受博弈论中的二人零和博弈(即二人的利益之和为零,一方的所得正是另一方的所失)的启发,系统由一个生成器90和一个鉴别器92构成,生成器捕捉真实数据样本的潜在分布,并生成新的数据样本;鉴别器92是一个二分类器,判别输入是真实数据还是生成的样本,生成器90和鉴别器92均可以采用深度神经网络来构造。gan的优化过程是一个极小极大博弈问题,优化目标是达到纳什均衡,使生成器估测到数据样本的分布。

图像分割模型901采用前文所述由daviddubray和jochenlaubrock于2019年提出的基于u-net架构实现的模型,其本身适于从一张漫画图片903中分割生成一张包含其中的对话气泡特征的气泡特征图906,通常表达为具有纯色遮罩效果的气泡高亮图。

本申请所采用的架构,将所述图像分割模型903作为该生成器90的主要构件,用于生产与馈入的漫画原图903相对应的气泡特征图906。为了有机整合这两个模型,在生成器90中增设一个由神经网络实现的神经元,称为融合网络902,用于通过线性运算,将漫画原图903与其对应的由图像分割模型901提取生产的气泡特征图906进行融合,或者独立地将漫画原图903与人工预标记馈入的气泡特征图进行融合,对应得到两类合成图909,前一类被自动标记为假值类型,后一类因人工预标记而被标记为真值类型,由此,真假两类图片数据便可被馈入至生产对抗模型的鉴别器92对其实施训练。

当鉴别器92完成训练并定型后,便可反过来用于训练生成器90,具体是为了训练其中的图像分割模型901,使该图像分割模型901不断提高其从漫画原图中提取气泡特征图的准确率,最终完成图像分割模型901的训练。

可见,基于本申请的技术方案而实现的上述网络架构,综合了u-net和gan的优点,将两者有机整合,由u-net负责生产部分越来越趋于真实的训练样本,由gan的鉴别器92负责提升鉴别能力相当于对u-net提出更高要求,经过多番迭代,最终达到纳什均衡,经此训练的图像分割模型901便可具有准确提取漫画图片中的对话气泡,准确输出其相对应的气泡特征图的能力。

在理解上述所揭示的与本申请技术方案相关的相关应用环境和开发环境的基础上,请参阅如下说明继续了解本申请的多种实施方式。需要指出的是,本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。

请结合图3,本申请的一种漫画气泡识别训练方法,用于训练一个适于从漫画图片中分割出其所含对话气泡的气泡特征图的图像分割模型,适宜在云端部署实施,通过提供调用接口以允许外部调用其服务实现相关功能,其包括如下迭代执行的步骤:

步骤s11:以生成对抗模型的生成器所用的图像分割模型从漫画原图中提取出包含其气泡特征的气泡特征图。

生产对抗模型的生成器采用图像分割模型作为其生产工厂,当为其馈入一张漫画原图时,该图像分割模型便会为其相应输出一张气泡特征图。众所周知的,漫画图片中的气泡形状各异,往往存在尾迹,因此,其气泡特征往往是非规则的。这里所称的气泡特征可以理解为是对话气泡的整体轮廓。要将一个非规则的整体轮廓特征从一张漫画图片中提取出来,对于未经训练的图像分割模型而言,虽然其自身算法已经具备一定的总结能力,但在初期所得的输出结果是偏向幼稚的。因此,图像分割模型在初期所产生的气泡特征图的质量参差不齐,因此,其所得气泡特征图的准确率明显不高。因此,在对生产对抗模型的鉴别器进行训练的前期阶段,图像分割模型所生成的气泡特征图将被视为假值类型的数据,在其与相对应的漫画原图合成后作为假值类型的训练样本用于为鉴别器实施训练。

步骤s12:由该生成器中的融合网络将所述漫画原图分别与所提取的气泡特征图和预标记的气泡特征图进行融合,对应生成假值类型和真值类型的合成图。

在对鉴别器进行训练的阶段,根据gan原理,需要为所述鉴别器提供两类训练样本,一类为表示真实数据的图片,另一类为表示伪数据的图片,以便鉴别器从两类图片别学习到判别图片真假的能力。

对于所述表示真实数据的图片,可以采用漫画原图与人工识别预标记的该漫画原图的气泡特征相匹配的气泡特征图进行二合一融合,成为一张合成图,该合成图便是表示真实数据,将这类合成图标记为真值类型作为训练样本提供给鉴别器训练。

对于所述表示伪数据的图片,其由所述图像分割模型所生成,因此,生产对抗模型的生成器自动将其视为伪数据,将其与其对应的漫画原图进行二合一融合成合成图后,将其打标为假值类型表示伪数据,然后将这类合成图作为训练样本提供给鉴别器训练。

一个实施例中,在对鉴别器进行训练的阶段,可以人工干预或自动识别所述图像分割模型所生产的气泡特征图与漫画原图的真实气泡特征之间的匹配度,将其中被判断为具有较高匹配度即较高准确性的气泡特征图打标归入真值类型,其与其漫画原图融合生成的合成图便被归入真实数据训练样本提供给所述的鉴别器进行训练。

所述融合网络可以采用线性运算函数实现气泡特征图与其对应的漫画原图进行融合,如采用以下的数学表达式:

z=w1t+w2yunet(1)

其中,t为原始图片即所述的漫画原图,yunet为图像分割模型(u-net)的输出,z为生成器最终的输出,而w1与w2是模型需要优化的参数。

步骤s13:将所述合成图作为训练样本馈入该生成对抗模型的鉴别器实施训练,使其具备识别图片中所含气泡特征所属真假类别的能力。

如前所述,在生成器生成的各类合成图均作为训练样本均可作为训练样本馈入至鉴别器中,对鉴别器进行训练,以提升鉴别器判别合成图是包含了准确的气泡特征图还是包含了不准确的气泡特征图的判别能力。

可以理解,所述的合成图是一张漫画原图与一张与其理论上相匹配的(但对于假值类型而言事实上是不匹配的)气泡特征图线性叠加合成的效果图,这一效果图中,既包含了漫画原图的信息,也包含了该理论上的气泡特征图的信息,因此,鉴别器判断这一效果图的真假的过程,本质上也是判断叠加其中的气泡特征图是否与其中的漫画原图的真实对话气泡轮廓特征相匹配的过程。

鉴别器是一个相对简单的分类模型,其主要功能便在于从馈入的合成图中分辨出生成器所生成的假值类型的合成图和人工打标的真值类型的合成图。鉴别器在结构上通常由两部分组成,其前端部分为cnn卷积层,用于合成图进行特征提取,一般采用resnet或者vgg网络作为其主干;后端部分为一全连接层,负责将cnn卷积层提取的特征映射到[0,1]空间实现分类,此处数值1代表真值类型,0代表假值类型。

由于鉴别器是简单的二分类模型,因此,使用交叉熵损失函数即可满足需求,其损失函数lossd表达式为:

lossd=-∑tlogy(2)

其中,t为鉴别器的模型目标,y为模型的输出。

可以理解,为了训练鉴别器,可以多次迭代执行步骤s11-步骤s13,经过多次迭代训练之后,鉴别器通过不断修正自身的权重参数提高自身的识别能力,最终使函数收敛,获得识别图片中所含气泡特征所属真假类别的能力。

需要指出的是,鉴别器经训练后可以为之判别的图片,虽然不局限于本申请所称的各种图片,但是,在本申请这一特定应用场景中,为解决本申请的特定问题,发挥鉴别器为生成器提供判据的作用,这里所称的鉴别器经训练后可以为之判别的图片一般是指由融合网络输出的合成图。

步骤s14:利用完成训练的鉴别器作为该生成器输出的合成图的真假类别判别依据,训练该生成器的图像分割模型,使其提升从漫画原图中提取气泡特征的准确率。

如前所述,当所述鉴别器完成训练之后,鉴别器便具备了从一张图片中识别出其所含气泡特征是真值类型还是假值类型的能力,因此,鉴别器可以反过来用作对生成器进行训练的判断依据,反向指导生成器,特别是其所采用的图像分割模型不断优化自身权重参数来生产出具有更高匹配度的更为准确的气泡特征图。

因此,可以理解,在进入对生成器进行训练的阶段中,鉴别器不再接受训练,故其权重参数被冻结而不再被修正,只是将其判断结果提供给生成器作为判断依据,反向传播修正生成器的相关权重参数,包括修正其中的融合网络所用的权重参数,以及由此引起修正所述图像分割模型的权重参数。

对生成器训练阶段,使用以下损失函数:

lossgan=-∑tlogy+norm(w1,w2)(3)

其中,norm(w1,w2)=log(w1)+log(w2)(4)

这里,w1和w2来自公式(1)

生成器除了要缩短假值数据与真值数据之间的差异,还需要保证w1和w2不能为0值,故在公式(4)中对其取对数。

注:另一实施例中,从收敛角度考虑norm(w1,w2)使用kldivergence会更加自然,但这会引入另一个参数‘ρ’来控制w1和w2分布。

经过上述各个步骤,本申请的典型实施例,先训练出所述的鉴别器,然后将鉴别器用于为生成器输出的合成图判别真假,为其提供判据,持续修正生成器,使其产生提供越来越接近理想效果的合成图。

相应的,由于生成器采用u-net为架构的图像分割模型来实现,因此,在对生成器进行训练的过程,本质上也是对图像分割模型进行训练的过程,这一过程使得图像分割模型生成越来越准确的气泡特征图,随着迭代训练的次数不断增加,图像分割模型从漫画图片中分割出的气泡特征图所表达的气泡轮廓将越来越准确。

更值得一提的是,由于图像分割模型在生成对抗模型的支持下被训练,其分割出的气泡特征图一方面能够被鉴别器高效验证,另一方面又为生成对抗模型生成有代表性的样本,生成对抗模型的博弈机制又反过来帮助图像分割模型不断提升自身从漫画原图中提取出气泡特征图的准确率,相辅相成,两相益彰。

由此可以理解,按照本申请的技术方案实施的训练过程,仅需采用少量的表示真实数据的气泡特征图作为训练样本素材,便可训练出一个基于u-net的图像分割模型。

在本申请人的实测中,只要给出50张分布足够稀疏的样本,就可以训练出一个u-net图像分割模型。如果在训练鉴别器的过程中适度人工干预,比如在迭代过程中将图像分割模型所生产的一部分匹配效果比较好的气泡特征图打标为真值类型的训练样本,则会大大提高整个架构相关模型尤其是图像分割模型的收敛速度和鲁棒性。

因此可见,本申请提出的架构,不断接近人类智能,仅需少量的训练样本,便能使神经网络架构总结归纳出相关的规律,大大提升其学习效率和应用能力。

在本申请的漫画气泡识别训练方法的典型初稿例的基础上,还可以变换出多种灵活实现或者不断深化的实施例,如下继续揭示其他实施例:

一个实施例中,在本申请的典型实施例的基础上,对步骤s11进行深化,在该步骤中,采用了daviddubray和jochenlaubrock于2019年提出的基于u-net架构实现的图像分割模型,u-net是基于residualu-block结构的神经网络,其通过呈u型结构的编码器和解码器来实现特征提取和图像还原,具有可以捕获多尺度特征的特点。原理上,u-net的图像分割模型具有一个由多个编码器构成的编码路径,以及一个由多个解码器构成的解码路径,编码路径主要通过各级编码器实施特征压缩来逐步提升特征提取的语义,解码路径主要通过各级解码器实施解码来逐步还原出越来越高分辨率的图片。在解码路径逐级解压的过程中会选择上下文信息,因此,为了补偿特征丢失,在u型对称结构中,每个解码器级将其上一级的解压后的特征映射与其同级的编码器获得特征映射作为输入,也即,与该解码器同级的编码器的输出被直连到该解码器作为输入,用于补偿上下文信息,以便确保所还原的图像质量。

其中,如图4所示,所述图像分割模型从漫画原图中提取出包含气泡特征的气泡特征图的过程,包括:

步骤s111:将所述漫画原图馈入基于u-net神经网络构建的所述图像分割模型的输入卷积层中进行局部特征提取,获得中间特征映射。

本步骤使用了完全卷积的方法来预测基于像素的图像分割。

步骤s112:将所述中间特征映射经图像分割模型的编码路径中的多个编码器逐步压缩提取多尺度特征。

编码路径使用了vgg-16模型的卷积部分。每一幅馈入的漫画原图逐步被各级编码器提取出各级编码表示即所述的中间特征映射,每个中间特征映射将前一级的中间特征映射的空间高度和宽度减半。最终经编码路径获得漫画图片的多尺度特征映射。

本步骤中,具体可以通过使用vgg-16模型的五个卷积块的输出来实现。

步骤s113:以所述多尺度特征为馈入特征,经图像分割模型的解码路径中的多个解码器逐步解码,逐级还原为更高分辨率的特征图,其中,每个解码器以其对应的一个编码器所获得的特征图为参照用于实施所述的还原。

本步骤中,由解码路径负责解码到原来同级对应获取的中间特征映射的分辨率。五个解码步骤中的每一个步骤都使编码表示的宽度和高度加倍。

解码是通过转置卷积来实现的。在每个解码步骤中,都会使用直连,意味着与该级解码器的输出结果的宽度和高度相对应的编码表示的副本会被作为上下文参考直接从编码路径中提供过来,由此实现逐级解码还原。可以理解,最后一个解码器输出的图片包含了漫画原图相对应的气泡特征信息,即所述的气泡特征图。

步骤s114:将解码器的所有输出进行融合,获得包含该漫画原图的气泡特征的气泡特征图。

通过本实施例,进一步揭示了图像分割模型的一种实施架构及其运作过程,可以知晓,图像分割模型可以用于为馈入其中的漫画原图生成相应的气泡特征图。

本申请的另一实施例中,因应本申请结合图像分割模型与传统的生成对抗模型的需要,如图5所示,在本申请典型实施例的步骤s12中为生成对抗模型的生成器增设了一个融合网络,其中,融合网络将漫画原图与气泡特征图进行融合的过程,包括:

步骤s121:接收所述的气泡特征图及其对应的漫画原图,所述气泡特征图来源于所述图像分割模型的输出或其他外部存储地址。

本步骤中,融合网络主要将一张漫画原图与其相对应的气泡特征图进行合成,对于图像分割模型的输出的气泡特征图,默认情况下,其与该漫画原图合成后,会被打标为假值类型。同理,也适用于为人工预标记的气泡特征图与该相应的漫画原图进行合成,其相应获得的合成图将被标记为真值类型。对于图像分割模型输出的气泡特征图而言,其可以被同步输出至某些存储地址中,以便在必要时实施人工干预,例如前文对部分匹配度较高的气泡特征图进行人工打标。

步骤s122:采用以神经网络构成的单个神经元对该漫画原图和该气泡特征图分别关联权重参数做线性运算,实现将两者融合为同一张合成图。

所述的融合网络同理也以神经网络来构造,由于所涉及的运算主要是线性运算,因此,利用神经网络构造出一个神经元便可满足融合网络的应用需要,其所采用的数学表达如前文公式(1)所示,将漫画原图与相应的气泡特征图分别关联不同权重参数做线性运算,便可将两图合二为一,获得相应的合成图。

步骤s123:将该合成图输出给所述的鉴别器。

图像分割模型输出的气泡特征图由于默认视为伪数据,因此,其相应的合成图会被打标为假值类型0后传递给鉴别器作为训练样本,而对于人工预标记的气泡特征图合成的合成图,则相应被打标为真值类型1后传递给鉴别器作为训练样本。

通过本实施例可见,本申请仅通过一个结构简单的融合网络便巧妙地将gan与u-net有机结合在一起,成就对图像分割模型实施高效训练的基础。

本申请的再一实施例中,主要深化生成对抗模型中的鉴别器在其训练过程中的运作,通过优化这一过程,确保生成对抗模型与u-net的有效协作。本实施例中,特别是在步骤s13中,如图6所示,所述鉴别器所体现的训练过程,包括:

步骤s131:对馈入的每种类别的合成图进行特征提取。

结合前文,鉴别器是一个简单的分类模型,其先通过一个卷积层对所述合成图进行特征提取之后,获得相关特征映射。

步骤s132:依据所提取的特征对合成图进行分类判别,获得对应的真值和假值判别结果,从而增强其判别能力。

前一步骤获得的特征映射再经过一个全连接层处理,将其映射到[0,1]空间中,从而相应的判别结果。

步骤s133:根据判别结果修正其自身所使用的权重参数。

根据所述判别结果,鉴别器根据损失函数修正自身的权重,由于鉴别器正处于训练期间,因此,其自身的权重参数需要持续修正,以便使判别结果逐渐趋于收敛,使其不断习得和增强其自身的判别能力。

步骤s134:向生成对抗模型反向传播,相应修正所述生成器中的融合网络及图像分割模型的权重参数。

鉴别器实施训练过程中,其判别结果也可作为判据用于修正生成对抗模型中的生成器,因此在本步骤中可以进行反向传播,首先是修正融合网络中的线性算法中的两个权重参数,然后,在生成器内部,所述图像分割模型的相关权重参数也同理被反向传播并修正,从而使图像分割模型提取气泡特征的能力不断提升。

本申请的又一实施例中,主要是进一步深化揭示所述鉴别器在训练完成后,在参与生成器的训练的过程中的表现。在步骤s14中,如图7所示,鉴别器不再被训练,而是反过来为生成器的训练提供判断依据,因此,利用完成训练的鉴别器作为该生成器输出的合成图的真假类别判别依据的步骤中,所述鉴别器的判别过程,包括:

步骤s141:对馈入的每种类别的合成图进行特征提取:

步骤s142:依据所提取的特征对合成图进行分类判别,获得对应的真值和假值判别结果。

步骤s143:冻结对其自身所使用的权重参数的修正。

步骤s144:根据判别结果向生成对抗模型反向传播,相应修正所述生成器中的融合网络及图像分割模型的权重参数。

根据以上的步骤可以理解,鉴别器在其用于提供判据和在其被训练的过程中的不同表现,主要体现在前一实施例步骤s133与本实施例步骤s143的区别上,在步骤s133中,由于鉴别器正在接受训练,因此其自身权重参数需要持续修正,而在步骤s143中,由于鉴别器理论上已经被训练为成熟的鉴别器,其享有为生成器提供判决依据的权威,并且需要确保这种权威的稳定性,因此,在步骤s143中,鉴别器自身的权重参数将被冻结,不再参与反向传播过程的修正。因此,鉴别器根据其判断结果,通过反向传播略过自身的权重参数,而在步骤s144中修正生成器的融合网络的参数,最终也导致图像分割模型的权重参数被持续修正。如此多次迭代,使图像分割模型的结果逐渐收敛。

需要指出的是,以上揭示本申请的诸多实施例,彼此之间可以任意结合或单独实施,或者基于本申请的创造精神而与其他同类技术或者同理技术等同替换。例如,对于u-net的不断升级的网络结构,理论上也可被用于本申请中替换所述的图像分割模型。本领域技术人员对此应当知晓。

本申请还提供一种漫画气泡响应方法,其主要是利用本申请提出的网络架构,在经过本申请的漫画气泡训练方法训练成熟的基础上,做进一步的应用。

具体而言,请参阅图8,其包括如下步骤:

步骤s21:将待识别的漫画图片输入预训练的图像分割模型中进行图像分割,获得该漫画图片中所包含的气泡特征图。

其中,所述图像分割模型即为本申请的漫画气泡训练方法的任意一种实施例所训练成的图像分割模型。由于该图像分割模型具备了以较高的准确率为漫画原图提取出气泡特征图的能力,因此,可以将这一图像分割模型用于本方法中,为漫画图片的利用服务。在本步骤中,只需调用该图像分割模型提供的接口,将需要提取气泡轮廓特征的漫画图片馈入给该图像分割模型进行特征提取即可,便可获得与该漫画图片相对应的气泡特征图。

步骤s22:根据所述气泡特征图与所述漫画图片的对应关系获取该漫画图片中的文字图像。

由于图像分割模型所获取的气泡特征图已经可靠地包含了所述漫画图片的气泡轮廓特征,因此,可以利用该气泡特征图作为模板,从所述漫画图片中提取出该模板中,气泡轮廓所覆盖的区域的文字图像。可以理解,该文字图像便只包含文字信息。

步骤s23:对所述文字图像进行光学识别,以将其转换输出为计算机可识别的文字信息。

获得所述的文字图像之后,便可调用公知已经成熟的ocr光学识别技术对逐个气泡的所述文字图像进行光学识别,将其转换输出为计算机可识别的文字信息,完成对漫画图片的对话气泡中的文字信息的提取。

可以预见,利用本申请的技术方案训练而得的图像分割模型用于提取漫画图片中的文字信息,更为精准可靠。

本申请一种漫画气泡响应方法的进一步丰富的一种实施例中,在步骤s23之后,如图9所示,可以增设后续步骤:

步骤s24:调用人声模型为所述文字信息合成相应的人声语音文件,将所述人声语音文件与所述漫画图片关联存储以供与所述漫画图片同步播放。

漫画图片的文字信息被提取后可以被用于制作电教化有声读物,在一些网络直播场景中被调用。因此,对于前一实施例所获得的计算机可识别的文字信息,本实施例进一步利用公知成熟的人声语音合成技术,调用人声模型为所述文字信息合成相应的人声语音文件,然后将其与所述漫画图片关联存储到数据库中,后续在一声网络直播场景中接受调用,在被调用时通过播放器与所述漫画图片同步播放。当然,人声语音文件的应用不局限于网络直播这一具体应用场景中,也可用于诸如点读教材这样的场景中,被与漫画图片关联存储到可点读设备中,通过点读笔点读漫画图片的气泡,而播放其相应的人声语音文件。

可见,本实施例进一步拓宽了本申请的技术方案的应用场景,扩展了本申请解决不同技术领域的同类技术难题的能力,夯实了本申请技术方案的经济贡献能力。

进一步的,可以通过将上述的漫画气泡识别训练方法中的各个实施例进行功能化,构造出本申请的一种漫画气泡识别训练装置,按照这一思路,请参阅图10,其典型实施例中,该装置包括:

气泡分割模块11,用于以生成对抗模型的生成器所用的图像分割模型从漫画原图中提取出包含其气泡特征的气泡特征图;

图像融合模块12,用于由该生成器中的融合网络将所述漫画原图分别与所提取的气泡特征图和预标记的气泡特征图进行融合,对应生成假值类型和真值类型的合成图;

辨别训练模块13,用于将所述合成图作为训练样本馈入该生成对抗模型的鉴别器实施训练,使其具备识别图片中所含气泡特征所属真假类别的能力;

生成训练模块14,用于利用完成训练的鉴别器作为该生成器输出的合成图的真假类别判别依据,训练该生成器的图像分割模型,使其提升从漫画原图中提取气泡特征的准确率。

同理,可以通过将上述的漫画气泡识别响应方法中的各个实施例进行功能化,构造出本申请的一种漫画气泡识别响应装置,按照这一思路,请参阅图11,其典型实施例中,该装置包括:

气泡分割模块21,用于将待识别的漫画图片输入预训练的图像分割模型中进行图像分割,获得该漫画图片中所包含的气泡特征图;

图文提取模块22,用于根据所述气泡特征图与所述漫画图片的对应关系获取该漫画图片中的文字图像;

图文转换模块23,用于对所述文字图像进行光学识别,以将其转换输出为计算机可识别的文字信息;

其中,所述图像分割模型按照如下具体步骤进行迭代实现预训练:

以生成对抗模型的生成器所用的图像分割模型从漫画原图中提取出包含其气泡特征的气泡特征图;

由该生成器中的融合网络将所述漫画原图分别与所提取的气泡特征图和预标记的气泡特征图进行融合,对应生成假值类型和真值类型的合成图;

将所述合成图作为训练样本馈入该生成对抗模型的鉴别器实施训练,使其具备识别图片中所含气泡特征所属真假类别的能力;

利用完成训练的鉴别器作为该生成器输出的合成图的真假类别判别依据,训练该生成器的图像分割模型,使其提升从漫画原图中提取气泡特征的准确率。

为了便于本申请的执行,提供一种电子设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中计算机程序以执行如前述的一种漫画气泡识别训练/响应方法的步骤。

可以看出,存储器适宜采用非易失性存储介质,通过将前述的方法实现为计算机程序,安装到手机之类电子设备中,相关程序代码和数据便被存储到电子设备的非易失性存储介质中,进一步通过电子设备的中央处理器运行该程序,将其从非易性存储介质中调入内存中运行,便可实现本申请所期望的目的。因此,可以理解,本申请的一个实施例中,还可提供一种非易失性存储介质,其以计算机可读指令的形式存储有依据所述的漫画气泡识别训练/响应方法的各个实施例所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。

综上所述,本申请能以少量样本训练出适于从漫画图片中分割出包含其气泡特征的气泡高亮图的图像分割模型,通过该图像分割模型可以快速且准确地从漫画图片中分割提取出其气泡特征图。

本技术领域技术人员可以理解,本申请包涉及用于执行本申请中所述操作、方法中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其存储器之内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、cd-rom、和磁光盘)、rom(read-onlymemory,只读存储器)、ram(randomaccessmemory,随即存储器)、eprom(erasableprogrammableread-onlymemory,可擦写可编程只读存储器)、eeprom(electricallyerasableprogrammableread-onlymemory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。

本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本申请公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1