基于图片识别结果的纠错方法、装置、电子设备及介质与流程

文档序号:28423777发布日期:2022-01-11 23:30阅读:163来源:国知局
基于图片识别结果的纠错方法、装置、电子设备及介质与流程
基于图片识别结果的纠错方法、装置、电子设备及介质
1.在技术领域
2.本发明涉及人工智能技术领域,尤其涉及一种基于图片识别结果的纠错方法、装置、电子设备及介质。


背景技术:

3.随着光学字符识别技术(ocr)的蓬勃发展,信息录入系统的工作逐渐被深度神经网络模型所取代。金融领域存在各种各样的信息录入环节,如银行卡信息录入,汇款单等票据的信息录入等。ocr技术可以将工作人员从繁琐的重复劳动中解放出来。
4.但是,ocr的文本识别效果受到图片质量的影响,会出现错误识别的情况,从而影响到信息录入的正确性,因此需要对文本识别的结果进行纠错处理。现有的文本纠错技术通常采用语言模型与字形相似度相结合的纠错方法。语言模型根据文本上下文纠错不合理的识别结果,通常需要在纠错语料库上微调,然而,构建特定场景下纠错语料库是一项繁琐的工作。基于字形相似度的方法计算语言模型输出的候选结果和真实标签的字形相似度,选择字形相似度最高的文字作为输出的结果;需要对语料库中所有的文字做复杂的字形编码,容易出现未登录词的情况。此外,采用语言模型与字形相似度相结合的方式计算复杂度过高,会影响文本识别与纠错系统的速度。


技术实现要素:

5.本发明提供了一种基于图片识别结果的纠错方法、装置、电子设备及介质,以解决现有人工智能技术中图片识别结果不准确的问题。
6.本发明提供的基于图片识别结果的纠错方法,包括:
7.获取目标领域的样本图片,对所述目标领域的样本图片的文本信息进行标注,获取第一标注结果;
8.对所述目标领域的样本图片进行图像变换处理,获取第一处理结果,识别所述第一处理结果的文本信息,获取第一识别结果;
9.构建初始识别模型,根据所述目标领域的样本图片和所述第一标注结果形成第一样本数据集,并采用所述第一样本数据集训练所述初始识别模型,获取用于文本识别的第一模型;
10.构建初始纠错模型,根据所述第一标注结果和所述第一识别结果形成第二样本数据集,并采用所述第二样本数据集训练所述初始纠错模型,获取用于文本纠错的第二模型;
11.获取待识别图片,将所述待识别图片依次输入所述第一模型、所述第二模型,获取目标纠错结果。
12.可选的,所述根据所述第一标注结果和所述第一识别结果形成第二样本数据集,具体包括:
13.获取所述目标领域的新词,并判断所述第一标注结果是否包括所述新词;
14.若否,则获取包含新词的图片,并对所述包含新词的图片的文本信息进行标注,获
取第二标注结果;
15.对所述包含新词的图片进行图像变换处理,获取第二处理结果,识别所述第二处理结果的文本信息,获取第二识别结果;
16.根据所述第一标注结果和所述第一识别结果得到第一数据集;
17.根据所述第二标注结果和所述第二识别结果得到第二数据集,根据所述第一数据集和所述第二数据集形成所述第二样本数据集。
18.可选的,所述根据所述第一数据集和所述第二数据集形成所述第二样本数据集,具体包括:
19.获取已标注的样本图片,并对所述已标注的样本图片进行聚类处理,获取多个分类数据集;
20.合并所述第一数据集和所述第二数据集得到第三数据集,并获取所述分类数据集和所述第三数据集的领域相似度;
21.若所述领域相似度大于相似度阈值,则所述分类数据集为目标数据集;
22.根据所述目标数据集获取目标图片,对所述目标图片进行图像变换处理,获取第三处理结果,识别所述第三处理结果,获取第三识别结果;
23.获取所述目标图片的文本信息,得到第三标注结果,并根据所述第三标注结果和所述第三识别结果获取迁移数据集,合并所述迁移数据集和所述第三数据集,得到所述第二样本数据集。
24.可选的,所述获取所述分类数据集和所述第三数据集的领域相似度,具体包括:
25.获取所述分类数据集和所述第三数据集的同义参数,根据所述同义参数和预设同义权重获取同义评价参数;
26.获取所述分类数据和所述第三数据集的反义参数,根据所述反义参数和预设反义权重获取反义评价参数;
27.获取所述分类数据和所述第三数据集的距离参数,根据所述距离参数和预设距离权重获取距离评价参数;
28.根据所述同义评价参数、所述同义评价参数和所述距离评价参数获取所述分类数据集和所述第三数据集的领域相似度。
29.可选的,所述根据所述目标领域的样本图片和所述第一标注结果形成第一样本数据集,具体包括:
30.根据所述目标领域的样本图片和所述第一标注结果获取第四数据集;
31.根据所述第三标注结果和所述目标图片获取第五数据集,合并所述第四数据集和所述第五数据集,得到所述第一样本数据集。
32.可选的,所述采用所述第一样本数据集训练所述初始识别模型,获取用于文本识别的第一模型,具体包括:
33.将所述第一样本数据集划分为训练数据集和测试数据集;
34.采用所述训练数据集训练所述初始识别模型,获取用于文本识别的第一模型,所述初始识别模型为循环神经网络与卷积神经网络相结合的模型;
35.将所述测试数据集输入所述第一模型,获取测试结果;
36.根据交叉熵损失函数获取所述第一标注结果和所述测试结果的误差,得到第一误
差,并采用所述第一误差反向传播更新所述第一模型。
37.可选的,所述采用所述第二样本数据集训练所述初始纠错模型,获取用于文本纠错的第二模型,具体包括:
38.采用所述第二样本数据集训练所述初始纠错模型,经过前向传播后,获取预测结果,所述初始纠错模型为语言模型;
39.获取所述预测结果与所述第二样本数据集中标注结果的误差,得到第二误差,并采用所述第二误差更新所述训练后的初始纠错模型,获取用于文本纠错的第二模型。
40.本发明还提供一种基于图片识别结果的纠错装置,包括:
41.标注模块,用于获取目标领域的样本图片,对所述目标领域的样本图片的文本信息进行标注,获取第一标注结果;
42.识别模块,用于对所述目标领域的样本图片进行图像变换处理,获取第一处理结果,识别所述第一处理结果的文本信息,获取第一识别结果;
43.第一模型建立模块,用于构建初始识别模型,根据所述目标领域的样本图片和所述第一标注结果形成第一样本数据集,并采用所述第二样本数据集训练所述初始识别模型,获取用于文本识别的第一模型;
44.第二模型建立模块,用于构建初始纠错模型,根据所述第一标注结果和所述第一识别结果形成第二样本数据集,并采用所述第二样本数据集训练所述初始纠错模型,获取用于文本纠错的第二模型;
45.纠错结果获取模块,用于获取待识别图片,将所述待识别图片依次输入所述第一模型、所述第二模型,获取目标纠错结果。
46.本发明还提供一种包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,以使所述电子设备执行所述基于图片识别结果的纠错方法。
47.本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如所述基于图片识别结果的纠错方法。
48.如上所述,本发明提供一种基于图像识别结果的纠错方法、装置、电子设备及介质,具有以下有益效果:通过获取目标领域的样本图片,并对样本图片进行标注,获取第一标注结果;然后对样本图片进行图像变换处理,达到降低样本图片识别准确率的目的,从而获取到低文本信息识别率的图片,识别经过图像变换处理后的样本图片的文本信息,从而获取到更多与第一标注结果不符合的第一识别结果,进而使得第一识别结果形成的第二样本数据集的数据量更大。第一标注结果和错误的第一识别结果的来源样本图片相同,因此不需要对错误识别结果进行重复标注,采用此方式能够获取到大量的样本数据集同时还减少了大量的标注工作。采用第二样本数据集训练语言模型获取第二模型,基于此建立的第二模型将语言模型纠错与字形相似度纠错合二为一的文本纠错模块,没有使用单独的字形相似度模块省去了笔画字典的构建和编辑距离的计算步骤,避免了未登录词的情况,同时提高了第二模型的纠错速度,使其更适用于实际场景中。此外,本发明还通过获取到目标领域的新词,判断第一标注结果是否包含新词,若第一标注结果不包含新词,则需要获取包含新词的图片,并根据包含新词的图片形成第二样本数据集,根据第一样本数据集获取用于文本纠错的第二模型,从而避免了第二模型无法对新词的错误识别结果进行纠错的问题,进而提高了第二模型的纠错准确性。
附图说明
49.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
50.图1是本发明实施例中基于图片识别结果的纠错方法的流程示意图;
51.图2是本发明实施例中第二样本数据集的获取方法的一流程示意图;
52.图3是本发明实施例中第二样本数据集的获取方法的另一流程示意图;
53.图4是本发明实施例中领域相似度的获取方法的流程示意图;
54.图5是本发明实施例中基于图片识别结果的纠错装置的模块图;
55.图6是本发明实施例中电子设备的结构示意图。
具体实施方式
56.以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
57.需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
58.为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
59.具体实施例
60.图1是本发明在一实施例中提供的基于图片识别结果的纠错方法的流程示意图。
61.如图1所示,上述基于图片识别结果的纠错方法,包括步骤s110-s150:
62.s110,获取目标领域的样本图片,对所述目标领域的样本图片的文本信息进行标注,获取第一标注结果;
63.s120,对所述目标领域的样本图片进行图像变换处理,获取第一处理结果,识别所述第一处理结果的文本信息,获取第一识别结果;
64.s130,构建初始识别模型,根据所述目标领域的样本图片和所述第一标注结果形成第一样本数据集,并采用所述第一样本数据集训练所述初始识别模型,获取用于文本识别的第一模型;
65.s140,构建初始纠错模型,根据所述第一标注结果和所述第一识别结果形成第二样本数据集,并采用所述第二样本数据集训练所述初始纠错模型,获取用于文本纠错的第二模型;
66.s150,获取待识别图片,将所述待识别图片依次输入所述第一模型、所述第二模型,获取目标纠错结果。
67.在本实施例的步骤s110中,可以根据待识别图片的归属领域确定目标领域,目标
领域包括但不限于金融领域、健康领域。目标领域的样本图片为包含文本信息的样本图片,目标领域的样本图片可以是已标注的样本图片,也可以是未标注的样本图片。具体地,获取到目标领域的样本图片后,判断目标领域的样本图片是否已经标注,若目标领域的样本图片为未标注的样本图片,则对未标注的样本图片的文本信息进行标注,获取第一标注结果。若样本图片为已标注的样本图片,其标注的内容包括样本图片中的文本信息。
68.具体地,若目标领域的已标注样本图片的数据量满足预设数据量,则可以获取大量已标注样本图片,从而避免标注工作量大的问题;若目标领域的已标注样本图片的数据量不符合预设数据量,则先获取已标注样本图片,再根据预设数据量确定未标注样本图片的数据量,并获取对应的未标注样本图片;通过合理确定已标注样本图片和未标注样本图片的数据量,既能满足训练第一模型和第二模型的样本图片数据量,还能达到减小标注工作量的目的。样本图片的数量和质量均会第一模型的识别准确率以及第二模型的纠错正确率,通过获取足够数据量的样本图片避免了由第一样本数据集数据量和第二样本数据集的数据量过少所导致的在第一模型和第二模型训练过程中会出现过拟合状态的问题,达到了提高第一模型的识别准确率和第二模型的纠错正确率的目的。
69.在本实施例的步骤s120中,实际场景中图像的文本信息受很多因素的影响,这些因素使得实际场景中的文本看起来比较模糊,有阴影,不清晰,因此,识别实际场景中低质量图片的文字信息拥有极大的困难性。为了获取与实际场景更相似的低质量图片,对获取到的样本图片进行图像变换处理,再对图像变换处理后的图片进行文本信息识别,降低了对图片中文本信息的识别准确性,从而得到更多的识别结果。具体地,图像变换处理包括但不限于图片色彩的调整、对比度变换处理、透视变换处理、图片模糊化处理和添加噪声。
70.图像变换处理中有些处理只需要对文本信息进行图像变换处理,因此在对样本图片进行图像变换处理之前,先对样本图片进行分类处理,可以采用公开的图像分类模型对样本图片进行分类处理,将样本图片分为背景图像和文本图像,公开的图像分类模型包括但不限于:支持向量机分类器、softmax分类器。将样本图片分为背景图像和文本图像,便于后续图像变换的顺利进行。
71.图像变换处理包括色彩调整、对比度变换、透视变换、图片模糊处理和添加噪声。对样本图片进行色彩调整包括分别对分类处理后的样本图片中的背景图像颜色和文本图像颜色进行调整,获取第一颜色,将图片背景填充为对应的第一颜色,然后获取第二颜色,并将文本字体填充为对应的第二颜色。为了提高对图片中文本信息识别的难度,第一颜色与第二颜色可以相近或者相同。
72.对比度变换处理具体为降低样本图片中文本信息的对比度,从而提高对样本图片中文本信息的识别难度。对比变换处理可以采用灰度变换法,灰度变换法包括线性灰度变换、分段线性灰度变换和非线性变换。其中,采用线性灰度变换对图片进行处理后,会导致图片局部出现失真的情况。因此,在本实施例中可以采用线性灰度变换对样本图片来达到降低对图片中文本信息识别的准确率。
73.透视变换处理具体包括获取文本图像在样本图片中的坐标和样本图片的坐标,选取透视变换矩阵,采用透视变换矩阵对文本图像的坐标进行处理后,获取文本图像透视变换后的坐标,根据文本图像透视变换后的坐标和样本图片的坐标确定变换后的数据增强图像,从而实现对样本图片的透视变换处理。
74.图片模糊处理即是为样本图片加入运动模糊,图片模糊化处理包括根据文本图像选取模糊量,然后根据选取的模糊量将文本图像进行模糊处理,其中,模糊量包括但不限于平移的模糊量和平移的模糊量。根据文本图像选取模糊量即是根据文本图像的大小和文本内容选取模糊量,若文本图像中的文本信息均是不常见的文本,则可以选取模糊量大于文本图像的大小,即是对所有文本图像均进行模糊处理,便于后续获取所有文本信息的错误识别结果;也可以选取模糊量小于文本图像,然后对文本图像中的文本分别做模糊处理,对其进行文本信息识别后来获取更多的错误识别结果;若文本图像中的一部分文本信息为不常见的文本或者专业术语,则根据这部分文本图像的大小选取模糊量,然后对这部分文本图像进行模糊处理。
75.添加的噪声可以是高斯噪声。上述的图像变换处理方法可以采用相结合的方式来处理样本图片,例如同时对样本图片进行色彩调整、对比度变换、透视变换、图片模糊处理和添加噪声。采用不同图像变换处理相结合时,还可以通过调整图像变换处理的顺序来实现对样本图片进行不同的图像变换处理,从而获取更多不同的识别结果。
76.为了获取文本信息识别难度更高的图片,还可以在样本图片中的文本信息附近添加阴影效果以及对字体进行扭曲处理。对字体进行扭曲处理可以通过对文本图像进行非等比例拉伸实现。
77.在一实施例中,目标领域可以为金融领域,获取到的目标领域的样本图片中文本信息为“中国建设银行”,因此其第一标注结果为“中国建设银行”。对包含文本信息“建设银行”的样本图片进行图像变换处理后,获取到文本信息识别率低的图片即第一处理结果,识别第一处理结果的文本信息,获取第一识别结果。第一识别结果包括但不限于“中国建没银行”、“中国建设很行”、“中国设建银行”。通过对目标领域的样本图片进行图像变换处理,获取低文本信息识别率的图片(第一处理结果),然后采用低识别率的文本识别方式对第一处理结果进行文本信息识别获取更多错误的第一识别结果,基于此形成的第二样本数据集的数据量更大。第一标注结果和错误的第一识别结果的来源样本图片相同,因此不需要对错误识别结果进行重复标注就能获取到大量的样本数据集,减少了大量的标注工作。
78.可选的,本实施例通过采用现有的识别准确性较低的识别模型识别多个第一处理结果,从而获取更多的第一识别结果,进而形成数据量更大以及数据类型更丰富的第二样本数据集,基于此训练后所获取的第二模型的纠错准确率会更高。低识别准确性的识别模型包括但不限于卷积神经网络模型、双向长短期记忆网络、循环神经网络模型。
79.为了提高第二模型的纠错正确率,根据第一标注结果和第一识别结果形成第二样本数据集的具体实现方法可以参阅图2。图2是本发明在一实施例中第二样本数据集的获取方法的一流程示意图。
80.如图2所示,第二样本数据集的获取方法可以包括以下步骤s210-s250:
81.s210,获取目标领域的新词,并判断第一标注结果是否包括新词;
82.s220,若否,则获取包含新词的图片,并对包含新词的图片的文本信息进行标注,获取第二标注结果;
83.s230,对包含新词的图片进行图像变换处理,获取第二处理结果,识别第二处理结果的文本信息,获取第二识别结果;
84.s240,根据第一标注结果和第一识别结果得到第一数据集;
85.s250,根据第二标注结果和第二识别结果得到第二数据集,根据第一数据集和第二数据集形成第二样本数据集。
86.可选的,新词为目标领域最新出现的词或者使用的词,新词的表现形式包括但不限于中文、英文。获取包含新词的图片的方式包括但不限于直接拍摄或者扫描包含新词的原始图像。为了获取到更多的第二识别结果,采用低识别准确率的识别模型识别第二处理结果的文本信息,从而获取到数据量更大以及包括更多错误文本信息的第二样本数据集。同时还避免了第二模型无法对新词的错误识别结果进行纠错的问题,提高了第二模型的纠错准确性。
87.为了扩大第二样本数据集的数据量,根据第一数据集和第二数据集形成第二样本数据集的具体实现方法可以参与图3。图3是本发明在一实施例中第二样本数据集的获取方法的另一流程示意图。
88.如图3所示,第二样本数据集的获取方法可以包括以下步骤s310-s350:
89.s310,获取已标注的样本图片,并对已标注的样本图片进行聚类处理,获取多个分类数据集;
90.s320,合并第一数据集和第二数据集得到第三数据集,并获取分类数据集和第三数据集的领域相似度;
91.s330,若领域相似度大于相似度阈值,则分类数据集为目标数据集;
92.s340,根据目标数据集获取目标图片,对目标图片进行图像变换处理,获取第三处理结果,识别第三处理结果,获取第三识别结果;
93.s350,获取目标图片的文本信息,得到第三标注结果,并根据第三标注结果和第三识别结果获取迁移数据集,合并迁移数据集和第三数据集,得到第二样本数据集。
94.在本实施例的步骤s310中,已标注的样本图片为非目标领域的已标注样本图片,通过获取非目标领域的已标注样本图片,并对其进行聚类处理获取分类数据集,获取分类数据集和第三数据集的领域相似度,并根据领域相似度获取迁移数据集,从而达到扩大第二样本数据集的目的,此外迁移数据集对应的图片为已标注的样本图片,因此也避免了大量的标注工作。
95.具体地,获取已标注的样本图片的标注内容,根据已标注的样本图片的标注内容形成标注数据集,对标注数据集进行聚类处理,获取多个分类数据集,聚类算法包括但不限于聚类算法包括但不限于k-means聚类算法、dbscan聚类算法。得到多个分类数据集后,需要判断分类数据集是否符合预设条件,若不符合,则需要调整聚类参数,并采用调整后的聚类参数重复步骤对标注数据集进行聚类处理获取多个分类数据集。不同的聚类算法调整不同的聚类参数,例如调整dbscan算法的半径eps以及最少属性数据个数minpts或者k-means聚类算法的k值。
96.在一实施例中,判断分类数据集是否符合预设条件,可以通过判断聚类结果是否合理来判断,聚类结果的合理性可以通过同一分类数据集中不同标注内容所属领域的相关性来判断,若同一分类数据集中不同标注内容的所属领域完全不相关,则分类数据集不符合预设条件。同一分类数据集中不同标注内容所属领域的相关性可以通过不同标注内容的距离大小来判断,具体地,可以根据不同标准内容的欧氏距离来获取不同标注内容的相关性,不同标准内容的欧氏距离越大表示不同标注内容所属领域的相关性越小,若不同标注
内容的欧氏距离大于预设欧氏距离阈值,则标注内容的所属领域完全不相关,对应地需要调整聚类参数。
97.在一实施例中,获取分类数据集和第三数据集的领域相似度的具体实现方法可以参阅图4。图4是本发明在一实施例中领域相似度的获取方法的流程示意图。
98.如图4所示,领域相似度的获取方法可以包括以下步骤s310-s350:
99.s410,获取分类数据集和第三数据集的同义参数,根据同义参数和预设同义权重获取同义评价参数;
100.s420,获取分类数据和第三数据集的反义参数,根据反义参数和预设反义权重获取同义评价参数;
101.s430,获取分类数据和第三数据集的距离参数,根据距离参数和预设距离权重获取距离评价参数;
102.s440,根据同义评价参数、同义评价参数和距离评价参数获取分类数据集和第三数据集的领域相似度。
103.具体地,获取第三数据集的同义数据集,获取分类数据集和同义数据集的相似度,得到同一参数,分类数据集和同义数据集的相似度可以通过分类数据集和同义数据集的距离来获取。获取第三数据集的反义数据集,获取分类数据集和反义数据集的相似度,得到反义参数,分类数据集和反义数据集的相似度可以通过分类数据集与反义数据集的距离来获取。获取分类数据集和第三数据集的相似度,得到距离参数,分类数据集和第三数据集的相似度可以通过分类数据集和第三数据集的距离来获取。预设距离权重、预设同义权重和预设反义权重可以通过根据实际情况进行设定,为了提高领域相似度的准确性,设定的预设距离权重大于预设同义权重,预设同义权重大于预设反义权重。同义评价参数为同义参数和预设同义权重之积,反义评价参数为反义参数和预设反义权重之积,距离评价参数为距离参数和预设距离权重之积。通过获取分类数据集和第三数据集的同义评价参数、反义评价参数和距离评价参数,从而得到分类数据集和第三数据集的领域相似度,使得获取到的领域相似度更准确,从而使得根据领域相似度所获取到迁移数据集的归属领域更符合目标领域,基于此所建立的第二模型对目标领域的待识别图片的纠错准确率更高。
104.为了扩大第一样本数据集的数据量,根据目标领域的样本图片和第一标注结果形成第一样本数据集的实现步骤包括:根据目标领域的样本图片和第一标注结果获取第四数据集;根据第三标注结果和目标图片获取第五数据集,合并第四数据集和第五数据集,得到第一样本数据集。通过获取与第三数据集的领域相似度较高的目标数据集,从而得到第五数据集,进而获取到第一样本数据集,在不需要增大标注工作量的同时还扩大了第一样本数据集的数据量,基于此所建立的第一模型对待识别图片的识别准确率更高,通过提高第一模型对待识别图片的识别准确率,使得输入第一模型的目标识别结果与真实情况更符合,从而使得最后所获取到的目标纠错结果更正确。
105.在本实施例的步骤s140中,采用第一样本数据集训练初始识别模型,获取用于文本识别的第一模型的实现步骤包括:将第一样本数据集划分为训练数据集和测试数据集;采用训练数据集训练初始识别模型,获取用于文本识别的第一模型;将测试数据集输入第一模型,获取测试结果;根据交叉熵损失函数获取第一标注结果和测试结果的误差,得到第一误差,并采用第一误差反向传播更新第一模型。具体地,初始识别模型为循环神经网络与
卷积神经网络相结合的模型,其中循环神经网络可以具体为双向长短时记忆网络。通过采用第一误差反向传播更新第一模型的方式来提高第一模型对待识别图片的识别准确率,使得获取到的目标识别结果为错误结果的概率更低,基于此将目标识别结果输入第二模型,使得获取到的目标纠错结果为错误文本的概率更低。
106.在本实施例的步骤s150中,采用第二样本数据集训练初始纠错模型,获取用于文本纠错的第二模型的实现步骤包括:采用第二样本数据集训练初始纠错模型,经过前向传播后,获取预测结果;获取预测结果与第二样本数据集中标注结果的误差,得到第二误差,并采用第二误差更新训练后的初始纠错模型,获取用于文本纠错的第二模型。初始纠错模型为语言模型,语言模型包括但不限于n-gram模型、循环神经网络、双向长短期记忆网络、卷积神经网络。采用反向传播对训练后的初始纠错模型进行更新,从而得到纠错准确率更高的第二模型。
107.本发明实施例提供了一种基于图片识别结果的纠错方法,该方法通过获取目标领域的样本图片,并对样本图片进行标注,获取第一标注结果;然后对样本图片进行图像变换处理,达到降低样本图片识别准确率的目的,从而获取到低文本信息识别率的图片,识别经过图像变换处理后的样本图片的文本信息,从而获取到更多与第一标注结果不符合的第一识别结果,进而使得第一识别结果形成的第二样本数据集的数据量更大。第一标注结果和错误的第一识别结果的来源样本图片相同,因此不需要对错误识别结果进行重复标注,采用此方式能够获取到大量的样本数据集同时还减少了大量的标注工作;采用第二样本数据集训练语言模型获取第二模型,基于此建立的第二模型将语言模型纠错与字形相似度纠错合二为一的文本纠错模块,没有使用单独的字形相似度模块省去了笔画字典的构建和编辑距离的计算步骤,避免了未登录词的情况,同时提高了第二模型的纠错速度,使其更适用于实际场景中。
108.基于与基于图片识别结果的纠错方法相同的发明构思,相应的,本实施例还提供了一种基于图片识别结果的纠错装置。通过对样本图片进行标注,获取第一标注结果;然后对样本图片进行图像变换处理,识别经过图像变换处理后的样本图片的文本信息,从而获取到更多与第一标注结果不符合的第一识别结果,进而使得第一识别结果形成的第二样本数据集的数据量更大。第一标注结果和错误的第一识别结果的来源样本图片相同,因此不需要对错误识别结果进行重复标注,采用此方式能够获取到大量的样本数据集同时还减少了大量的标注工作。
109.在本实施例中,该基于图片识别结果的纠错装置执行上述任一实施例所述的基于图片识别结果的纠错方法,具体功能和技术效果参照上述实施例即可,此处不再赘述。
110.图5为本发明提供的基于图片识别结果的纠错装置的模块图。如图5所示,上述基于图片识别结果的纠错装置包括:51标注模块、52识别模块、53第一模型建立模块、54第二模型建立模块以及55纠错结果获取模块。
111.其中,标注模块,用于获取目标领域的样本图片,对所述目标领域的样本图片的文本信息进行标注,获取第一标注结果;
112.识别模块,用于对所述目标领域的样本图片进行图像变换处理,获取第一处理结果,识别所述第一处理结果的文本信息,获取第一识别结果;
113.第一模型建立模块,用于构建初始识别模型,根据所述目标领域的样本图片和所
述第一标注结果形成第一样本数据集,并采用所述第二样本数据集训练所述初始识别模型,获取用于文本识别的第一模型;
114.第二模型建立模块,用于构建初始纠错模型,根据所述第一标注结果和所述第一识别结果形成第二样本数据集,并采用所述第二样本数据集训练所述初始纠错模型,获取用于文本纠错的第二模型;
115.纠错结果获取模块,用于获取待识别图片,将所述待识别图片依次输入所述第一模型、所述第二模型,获取目标纠错结果。
116.在一些示例性实施例中,第二模型建立模块包括:
117.判断单元,用于获取所述目标领域的新词,并判断所述第一标注结果是否包括所述新词;
118.第二标注结果获取单元,用于若否,则获取包含新词的图片,并对所述包含新词的图片的文本信息进行标注,获取第二标注结果;
119.第二识别结果获取单元,用于对所述包含新词的图片进行图像变换处理,获取第二处理结果,识别所述第二处理结果的文本信息,获取第二识别结果;
120.第一数据集获取单元,用于根据所述第一标注结果和所述第一识别结果得到第一数据集;
121.第二样本集获取第一单元,用于根据所述第二标注结果和所述第二识别结果得到第二数据集,根据所述第一数据集和所述第二数据集形成所述第二样本数据集。
122.在一些示例性实施例中,第二模型建立模块还包括:
123.分类数据集获取单元,用于获取已标注的样本图片,并对所述已标注的样本图片进行聚类处理,获取多个分类数据集;
124.领域相似度获取单元,用于合并所述第一数据集和所述第二数据集得到第三数据集,并获取所述分类数据集和所述第三数据集的领域相似度;
125.目标数据集获取单元,用于若所述领域相似度大于相似度阈值,则所述分类数据集为目标数据集;
126.第三识别结果获取单元,用于根据所述目标数据集获取目标图片,对所述目标图片进行图像变换处理,获取第三处理结果,识别所述第三处理结果,获取第三识别结果;
127.第二样本集获取第二单元,用于获取所述目标图片的文本信息,得到第三标注结果,并根据所述第三标注结果和所述第三识别结果获取迁移数据集,合并所述迁移数据集和所述第三数据集,得到所述第二样本数据集。
128.在一些示例性实施例中,领域相似度获取单元包括:
129.同义评价参数获取子单元,用于获取所述分类数据集和所述第三数据集的同义参数,根据所述同义参数和预设同义权重获取同义评价参数;
130.反义评价参数获取子单元,用于获取所述分类数据和所述第三数据集的反义参数,根据所述反义参数和预设反义权重获取反义评价参数;
131.距离评价参数获取子单元,用于获取所述分类数据和所述第三数据集的距离参数,根据所述距离参数和预设距离权重获取距离评价参数;
132.领域相似度获取子单元,用于根据所述同义评价参数、所述同义评价参数和所述距离评价参数获取所述分类数据集和所述第三数据集的领域相似度。
133.在一些示例性实施例中,第一模型建立模块包括:
134.第四数据集获取单元,用于根据所述目标领域的样本图片和所述第一标注结果获取第四数据集;
135.第一样本数据集获取单元,用于根据所述第三标注结果和所述目标图片获取第五数据集,合并所述第四数据集和所述第五数据集,得到所述第一样本数据集。
136.在一些示例性实施例中,第一模型建立模块还包括:
137.数据集划分单元,用于将所述第一样本数据集划分为训练数据集和测试数据集;
138.第一模型获取单元,用于采用所述训练数据集训练所述初始识别模型,获取用于文本识别的第一模型,所述初始识别模型为循环神经网络与卷积神经网络相结合的模型;
139.测试结果输出单元,用于将所述测试数据集输入所述第一模型,获取测试结果;
140.第一模型更新单元,用于根据交叉熵损失函数获取所述第一标注结果和所述测试结果的误差,得到第一误差,并采用所述第一误差反向传播更新所述第一模型。
141.在一些示例性实施例中,第二模型建立模块还包括:
142.预测结果获取单元,用于采用所述第二样本数据集训练所述初始纠错模型,经过前向传播后,获取预测结果,所述初始纠错模型为卷积神经网络;
143.第二模型更新单元,用于获取所述预测结果与所述第二样本数据集中标注结果的误差,得到第二误差,并采用所述第二误差更新所述训练后的初始纠错模型,获取用于文本纠错的第二模型。
144.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
145.本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本实施例中的任一项方法。
146.在一个实施例中,请参见图6,本实施例还提供了一种电子设备600,包括存储器601、处理器602及存储在存储器上并可在处理器上运行的计算机程序,所述处理器602执行所述计算机程序时实现如上任一项实施例所述方法的步骤。
147.本实施例中的计算机可读存储介质,本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
148.本实施例提供的电子设备,包括处理器、存储器、收发器和通信接口,存储器和通信接口与处理器和收发器连接并完成相互间的通信,存储器用于存储计算机程序,通信接口用于进行通信,处理器和收发器用于运行计算机程序,使电子设备执行如上方法的各个步骤。
149.在本实施例中,存储器可能包含随机存取存储器(random access memory,简称ram),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
150.上述的处理器可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器
(digital signal processing,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
151.在上述实施例中,说明书对“本实施例”、“一实施例”、“另一实施例”、“在一些示例性实施例”或“其他实施例”的提及表示结合实施例说明的特定特征、结构或特性包括在至少一些实施例中,但不必是全部实施例。“本实施例”、“一实施例”、“另一实施例”的多次出现不一定全部都指代相同的实施例。
152.在上述实施例中,尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变形对本领域普通技术人员来说将是显而易见的。例如,其他存储结构(例如,动态ram(dram))可以使用所讨论的实施例。本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。
153.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
154.本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
155.本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
156.上述实施例仅示例性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,但凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1