一种基于深度学习技术图文造假识别研究方法与流程

文档序号：36908998发布日期：2024-02-02 21:38阅读：31来源：国知局

本发明涉及图文方向识别领域，特别是一种基于深度学习技术图文造假识别研究方法。

背景技术：

1、近年来，随着人工智能技术的高速发展，人工智能在各行各业的应用也取得了蓬勃的发展。但同时，人工智能也为社会发展带来新的挑战，不法分子可以利用深度学习技术，可对文档局部或者整体内容进行篡改。针对造假技术也不再局限于传统的ps手段，基于深度学习的伪造技术也逐渐层出不穷，“深度伪造技术”可以通过交换人的脸部来制作假图像(身份证照片)，使得图文造假更加隐蔽和逼真。

2、图文造假指的是利用数字技术和编辑软件对图像和文字进行篡改、伪造或篡改，使其具有误导性或虚假性。这种现象在互联网时代变得更加普遍，对于信息传播、舆论引导和社会信任方面带来了挑战。不法分子可以通过深度学习和生成对抗网络交换人的脸部特征，制作出以假乱真的假图像，这些伪造内容很难被肉眼或传统的图像识别算法所察觉，给人们带来了更大的安全隐患。随着ai技术的发展，造假技术越来越高而成本越来越低，然而监管过程仍采用传统的人工核验的手段，耗时耗力效率极低，尤其是核验过程中极易出现漏验、错验的情况导致不法分子蒙混过关从而导致安全事故。

3、对于图文造假可分两类：数据造假和图像造假。数据造假指的是对电子化凭证(如虚假合同、营业执照、公章)进行数据篡改，即对数据和信息进行虚假操作；而图像造假则是指对图像和视频信息进行伪造，例如盗用他人身份信息，将他人的人脸照片替换为自己的，或者替换公章图片。与数据造假不同的是，图像造假的伪造内容无法通过肉眼进行直接查验，因其以假乱真的程度使得人们很难分辨真伪。基于规则的模式匹配算法依赖于人工定义的规则和模式来判断是否存在造假行为。然而，这种方法的有效性取决于规则的完备性，如果规则不完善或遇到新的造假方式，就可能无法准确识别。此外，基于规则的方法往往对数据和图像的复杂性和多样性要求较高，无法应对复杂的造假手法。另一种传统方法是基于统计的方法，它通过比较样本数据与预期模型的差异来检测潜在的造假行为。然而，统计方法对样本数据的分布假设敏感，当面临新的数据分布或新的造假手法时，可能无法准确识别。特别是对于深度学习技术生成的图文信息进行造假，传统的统计方法往往无法捕捉到微小的图像差异，因此对于这种高度逼真的深度图文造假技术，传统统计方法的识别能力有限。

技术实现思路

1、本发明的目的是为了解决上述问题，设计了一种基于深度学习技术图文造假识别研究方法。

2、实现上述目的本发明的技术方案为，一种基于深度学习技术图文造假识别研究方法，包括以下步骤：

3、步骤s1：获取待处理图文原件，其中图文原件包括纸质单据和电子单据两种；

4、步骤s2：将待处理的图文图像送入到ocr模块中进行数据预处理、版本分析和文本分析；

5、步骤s3：将图像的整体信息、局部图像信息以及文本识别结果输入到图文真伪判别模块中，利用gan网络，达到图像真伪的判断并输出结果；

6、所述步骤s1中针对于纸质单据，需要将图文原件放置于固定位置和稳光环境中，然后通过扫描仪扫描或相机拍摄生成待处理的图文图像，并得到图像的整体信息；

7、步骤s1中针对于电子单据，需要通过文档转图片的方法将其转换为图片，得到图像的整体信息。

8、所述步骤s2中在版本分析ocr技术中进行全局图像预处理，局部图像区域检测以及文本区域检测；在文本分析ocr技术中进行图像预处理，文本区域识别；

9、步骤s2中全局图像预处理：首先调节图文图像的亮度和对比度、然后对图文图像进行缩放，对缩放后的图像进行去噪、二值化、增强和歪斜矫正技术，使图像处于水平竖直且文字较清晰的状态；

10、步骤s2中的局部图像区域和文本区域检测：将预处理后的待识别图像送入版本识别ocr模型中进行分类，得到若干个局部图像区域和文字区域；

11、在检测过程中使用到的检测模型将通过以下方式预先训练得到：

12、版本分析ocr检测模型：将结构化和非结构化图文原件进行采集作为备用图像数据集，再将备用图像数据集中每张图像进行标注；每张图像可标注若干局部图像区域或文本区域，并筛除不适合的图像数据得到最终数据集；将数据集分成训练集、验证集和测试集；接着对数据集预处理，按照不同的种类的图文信息将图像以不同程度的缩放、去噪、二值化、增强、歪斜矫正技术；使用训练集和验收集训练得到检测模型，通过对测试集输入模型中的检测结果进行分析，并反馈到模型中，最终得到适用于版本分析的ocr检测模型；

13、步骤s2中的文本区域识别：将步骤s2中检测的文本区域输入到文本分析ocr中进行文字识别，得到可编辑的文本信息；

14、在识别过程中使用到的识别模型将通过以下方式预先训练得到：

15、文本分析ocr识别模型：将多样的文本信息进行采集作为数据集，对图像数据集中文字区域进行标注，每个标注框都将附带所包含的文本信息文档；将图像和对应文档数据集分成训练集、验证集和测试集；使用缩放、去噪、二值化、增强、歪斜矫正和图像分割技术预处理；使用训练集和验收集训练得到识别模型，通过对测试集输入模型中的识别结果进行分析，并反馈到模型中，最终得到适用于文本分析的ocr识别模型。

16、步骤s3中图文真伪判别模块中包括全局造假识别、局部造假识别、文本造假识别以及结果输出；

17、步骤s3中所述的全局造假识别：结构化数据和非结构化的图像整体输入到gan中的真伪判别器中，输出为判断图像是否为伪造图像或合成图像，即输出"真"或"假"。

18、步骤s3中所述的局部造假识别：结构化数据及非结构化数据经s2.3版本分析ocr处理后输出局部图像区域与文本区域。其中局部图像区域输入真伪判别器中，输出为判断图像是否为伪造图像或合成图像，即输出"真"或"假"。

19、所述步骤s3中所述的文本造假识别：结构化数据及非结构化数据经由步骤s2文本分析ocr处理后输出文本结果。该结果经过信息数据库校对后，判断信息真实性，即输出"真"或"假"。

20、在最后s3图文真伪判别结果输出前判别器将通过以下方式预先训练得到：

21、首先，gan顾名思义为生成器与判别器的对抗学习，在对抗中，生成器不断模拟不法分子的手段进行全局造假、局部造假以及文本造假，而判别器则通过与真实数据的对比不断尝试判断生成器生成数据的真假。最终生成器与判别器在对抗学习中达到纳什均衡状态，即判别器的判别能力与生成器的数据造假能力大体持平。因此判别器可以轻松识别市面上不如生成器模拟程度的造假技术。并且随着输入数据的多样化，新数据的加入会使gan的整体性能随时间不断提高，生成器与判别器也将达到更高水平的纳什均衡。而除主攻图像级造假识别的判别器外，生成器在不断"鞭策"判别器提升性能的同时，更重要的作用便是为两个ocr模型带来持续性提升。生成器在对抗中练就了以假乱真的deepfake技术，将经由两个ocr模型分别输出的风格及内容信息作为输入，生成器可以将两部分信息经过特征层面的融合，得到十分贴近该行业的伪造数据。“类似但不是”恰好为ocr模型训练提供了源源不断的数据支撑，保障ocr模型适应多场景多分布数据的版面及文本识别能力。

22、所述步骤s3中三种方法判定图文信息是否为真，综合考虑三种方法返回的信息，当三种方法中的任意一种方法返回为“假”结果时，则最终判定改图文信息为“假”，否则最终判定该图文信息为“真”。

23、利用本发明的技术方案制作的一种基于深度学习技术图文造假识别研究方法，提出了具有前瞻性及可持续发展能力的文字图像造假识别模型。该模型创新性地采用生成对抗网络模型中的判别器作为数据造假识别的主线，并辅以两个ocr模块形成整体算法框架。该算法模型分别从图像、文本两大方向，并细分为图像级全局造假识别、图像级局部造假识别以及文本造假识别三个子方向，实现对证券期货行业中常见电子化凭证、图像易造假、难审核数据在整体风格，局部结构以及细部内容三个层次上进行全方位审查。能够识别人眼难以察觉的经由deepfake技术造假数据的同时，大幅提高行业数据审核效率。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：兰勇,王治国,王超,贾丽娜,王子豪
技术所有人：信华信（大连）软件服务股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。