一种图像生成方法、装置、电子设备及存储介质与流程

文档序号：36310558发布日期：2023-12-07 12:20阅读：70来源：国知局

本发明涉及图像生成领域，特别涉及一种图像生成方法、装置、电子设备及存储介质。

背景技术：

1、在ocr领域(optical character recognition，光学字符识别)中，图像中的手写文字一般难以识别，这是由于不同人的写字风格不一，且自然场景对文字图像内容的干扰较大，导致即使是同一个字，其对应的手写文字图像差异也会很大，从而导致手写文字较难识别。

2、相关技术中，为提升对图像中手写文字的识别率，一个较为直接的做法就是收集大量的手写文字图像，并利用这些图像增强识别模型的识别能力。然而，人工收集手写文字图像较为困难，尤其是收集能够显著干扰模型识别结果的手写文字图像则更为困难。

3、因此，如何提升手写文字图像的数据丰富度，是本领域技术人员亟需解决的技术问题。

技术实现思路

1、本发明的目的是提供一种图像生成方法、装置、电子设备及存储介质，可采用生成式方法，在少量困难样本图像的基础上自动扩充大量生成式困难样本图像，从而能够高效地扩充困难手写文字图像的数据丰富度。

2、为解决上述技术问题，本发明提供一种图像生成方法，包括：

3、获取包含手写文字的多张困难样本图像，并从所述困难样本图像中提取背景图像和纯文字图像；识别模型对所述困难样本图像中的文字识别率低于预设值；

4、利用所述纯文字图像训练文字图像生成模型，并利用文字库及训练后的所述文字图像生成模型进行图像生成，得到生成式纯文字图像；

5、将所述生成式纯文字图像与所述背景图像进行融合得到生成式困难样本图像，以利用所述生成式困难样本图像对所述识别模型进行调优。

6、可选地，所述获取包含手写文字的多张困难样本图像，包括：

7、获取已标注的初始困难样本图像；

8、从线上查找与所述初始困难样本图像满足相似度条件的线上手写文字图像；

9、将所述初始困难样本图像及所述线上手写文字图像设置为所述困难样本图像。

10、可选地，所述从线上查找与所述初始困难样本图像满足相似度条件的线上手写文字图像，包括：

11、将从线上获取的线上图像转换为第一表征向量，并将所述初始困难样本图像转换为第二表征向量；

12、确定所述第二表征向量与各所述第一表征向量间的相似度；

13、将相似度最高的第一表征向量对应的线上图像与所述初始困难样本图像满足相似度条件的线上手写文字图像。

14、可选地，在将从线上获取的线上图像转换为第一表征向量之后，还包括：

15、将所述第一表征向量添加至向量数据库；

16、相应的，所述确定所述第二表征向量与各所述第一表征向量间的相似度，包括：

17、将所述第二表征向量输入所述向量数据库，得到所述向量数据库返回的所述第二表征向量与各所述第一表征向量间的相似度。

18、可选地，所述将所述生成式纯文字图像与所述背景图像进行融合得到生成式困难样本图像，包括：

19、将所述生成式纯文字图像叠加至所述背景图像中，并将所述生成式纯文字图像的边缘部分与所述背景图像进行加权融合，得到所述生成式困难样本图像。

20、可选地，所述将所述生成式纯文字图像叠加至所述背景图像中，包括：

21、基于预设句式，将所述预设句式中的各字符对应的生成式纯文字图像进行排布，得到生成式纯文字图像组合；

22、将所述生成式纯文字图像组合叠加至所述背景图像中。

23、可选地，在将所述生成式纯文字图像叠加至所述背景图像中之前，还包括：

24、对所述生成式纯文字图像进行变换调整，并利用变换调整后的生成式纯文字图像执行所述将所述生成式纯文字图像叠加至所述背景图像中的步骤；所述变换调整包括仿射变换、扭曲、对比度调整、亮度调整、颜色调整中的任一种或多种的组合。

25、本发明还提供一种图像生成装置，包括：

26、图像处理模块，用于获取包含手写文字的多张困难样本图像，并从所述困难样本图像中提取背景图像和纯文字图像；识别模型对所述困难样本图像中的文字识别率低于预设值；

27、图像生成模块，用于利用所述纯文字图像训练文字图像生成模型，并利用文字库及训练后的所述文字图像生成模型进行图像生成，得到生成式纯文字图像；

28、图像融合模块，用于将所述生成式纯文字图像与所述背景图像进行融合得到生成式困难样本图像，以利用所述生成式困难样本图像对所述识别模型进行调优。

29、本发明还提供一种电子设备，包括：

30、存储器，用于存储计算机程序；

31、处理器，用于执行所述计算机程序时实现如上所述的图像生成方法。

32、本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上所述的图像生成方法。

33、本发明提供一种图像生成方法，包括：获取包含手写文字的多张困难样本图像，并从所述困难样本图像中提取背景图像和纯文字图像；识别模型对所述困难样本图像中的文字识别率低于预设值；利用所述纯文字图像训练文字图像生成模型，并利用文字库及训练后的所述文字图像生成模型进行图像生成，得到生成式纯文字图像；将所述生成式纯文字图像与所述背景图像进行融合得到生成式困难样本图像，以利用所述生成式困难样本图像对所述识别模型进行调优。

34、可见，本发明首先可获取包含手写文字的多张困难样本图像，其中识别模型对这些困难样本图像中的文字识别率低于预设值，即能够确定这些困难样本图像容易干扰模型的识别效果；随后，本发明可从困难样本图像中提取背景图像和纯文字图像，并利用纯文字图像训练文字图像生成模型，从而利用文字库及训练后的文字图像生成模型进行图像生成，得到生成式纯文字图像，由于文字图像生成模型能够学习人的书写风格，因此可基于文字库及文字图像生成模型生成书写风格各异且包含不同文字内容的生成式纯文字图像；进一步，本发明还可将生成式纯文字图像与背景图像进行融合得到生成式困难样本图像，即进一步保留原困难样本图像中背景内容对手写字体的干扰；进而，本申请可采用生成式方法，在少量困难样本图像的基础上自动扩充大量生成式困难样本图像，从而能够高效地扩充手写文字图像的数据丰富度，尤其是能够高效地扩充可显著干扰模型识别效果的手写文字图像的数据丰富度。本发明还提供一种图像生成装置、电子设备及计算机可读存储介质，具有上述有益效果。

技术特征：

1.一种图像生成方法，其特征在于，包括：

2.根据权利要求1所述的图像生成方法，其特征在于，所述获取包含手写文字的多张困难样本图像，包括：

3.根据权利要求2所述的图像生成方法，其特征在于，所述从线上查找与所述初始困难样本图像满足相似度条件的线上手写文字图像，包括：

4.根据权利要求3所述的图像生成方法，其特征在于，在将从线上获取的线上图像转换为第一表征向量之后，还包括：

5.根据权利要求1至4任一项所述的图像生成方法，其特征在于，所述将所述生成式纯文字图像与所述背景图像进行融合得到生成式困难样本图像，包括：

6.根据权利要求5所述的图像生成方法，其特征在于，所述将所述生成式纯文字图像叠加至所述背景图像中，包括：

7.根据权利要求5所述的图像生成方法，其特征在于，在将所述生成式纯文字图像叠加至所述背景图像中之前，还包括：

8.一种图像生成装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如权利要求1至7任一项所述的图像生成方法。

技术总结
本发明提供一种图像生成方法、装置、电子设备及存储介质，涉及图像生成领域，方法包括：获取包含手写文字的多张困难样本图像，并从困难样本图像中提取背景图像和纯文字图像；识别模型对困难样本图像中的文字识别率低于预设值；利用纯文字图像训练文字图像生成模型，并利用文字库及训练后的文字图像生成模型进行图像生成，得到生成式纯文字图像；将生成式纯文字图像与背景图像进行融合得到生成式困难样本图像，以利用生成式困难样本图像对识别模型进行调优；可采用生成式方法，在少量困难样本图像的基础上自动扩充大量生成式困难样本图像，从而能够高效地扩充困难手写文字图像的数据丰富度。

技术研发人员：陈猛,张璐,陶明
受保护的技术使用者：上海任意门科技有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈猛张璐陶明
技术所有人：上海任意门科技有限公司
我是此专利的发明人

上一篇：一种人因节律照明用的制作方法
上一篇：预制构件转运装置及其转运方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。