错别字检测方法、装置、设备及存储介质与流程

文档序号：32987734发布日期：2023-01-17 22:59阅读：129来源：国知局

1.本技术涉及自然语言处理技术领域，更具体的说，是涉及一种错别字检测方法、装置、设备及存储介质。

背景技术：

2.随着信息技术的发展，以信息传递形式多元化为特征的时代已经到来，在日常生产生活中，人们接收文字信息的来源越来越多，如街边广告、自媒体博文等。同时，由于社会节奏的加快，大多广泛传播性文字内容呈现碎片化、精简化趋势，如公益宣传标语海报、广告海报中的商品特点文案等。这些文字内容由于具有残缺、繁多、分布杂乱等特点，使得对这些文稿进行校对与纠错将耗费大量的人力与时间。
3.在人工智能蓬勃发展的今天，特别是得益于自然语言处理技术的进步，各种各样的文本检错纠错系统应运而生，从而帮助人们高效进行文字错误的检查和修改。现有纠错系统的基本流程是接收一段可能包含语法、词汇等各种错误的文本作为输入，对它进行处理，定位其中可能存在的错误并进行纠正，将定位结果以及纠正结果返回并告知用户。当对图片进行纠错时，一般也是先通过ocr等手段将图片中的文本识别出来，进而单纯对识别文本进行错别字纠错。
4.现有的纠错方式仅利用到纯文本信息进行纠错，导致错别字检测准确度不高。

技术实现要素：

5.鉴于上述问题，提出了本技术以便提供一种错别字检测方法、装置、设备及存储介质，以实现提升错别字的检测准确度。具体方案如下：
6.第一方面，提供了一种错别字检测方法，包括：
7.获取包含文本的待检测图片；
8.确定所述待检测图片中文本所处的文本块图片，以及文本块图片中包含的识别文本；
9.提取所述文本块图片的图像视觉特征，以及，提取所述识别文本的文字模态特征；
10.将所述图像视觉特征及所述文字模态特征进行融合，得到融合特征；
11.基于融合特征确定文本块图片中包含的真实文本；
12.对比所述真实文本和所述识别文本，得到待检测图片中的错别字检测结果。
13.第二方面，提供了一种错别字检测装置，包括：
14.图片获取单元，用于获取包含文本的待检测图片；
15.图片处理单元，用于确定所述待检测图片中文本所处的文本块图片，以及文本块图片中包含的识别文本；
16.特征提取单元，用于提取所述文本块图片的图像视觉特征，以及，提取所述识别文本的文字模态特征；
17.特征融合单元，用于将所述图像视觉特征及所述文字模态特征进行融合，得到融
合特征；
18.真实文本确定单元，用于基于融合特征确定文本块图片中包含的真实文本；
19.错别字确定单元，用于对比所述真实文本和所述识别文本，得到待检测图片中的错别字检测结果。
20.第三方面，提供了一种错别字检测设备，包括：存储器和处理器；
21.所述存储器，用于存储程序；
22.所述处理器，用于执行所述程序，实现如上的错别字检测方法的各个步骤。
23.第四方面，提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上的错别字检测方法的各个步骤。
24.借由上述技术方案，本技术对于待检测图片确定其中文本所处的文本块图片，并确定文本块图片中包含的识别文本，进一步提取文本块图片的图像视觉特征，以及提取识别文本的文字模态特征，将图像视觉特征和文字模态特征进行融合，并基于融合特征确定文本块图片中包含的真实文本，对比真实文本和识别文本，以得到错别字检测结果。由此可见，本技术在对图片中错别字进行检测时，在考虑了识别文本的文字模态特征的基础上，进一步融合了文本块图片的图像视觉特征，也即充分利用了文本块图片的图像视觉特征辅助进行真实文本的预测，使得预测结果更加准确，在此基础上，通过对比真实文本和识别文本，确定错别字检测结果，大大提升了错别字检测的准确度。
附图说明
25.通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本技术的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
26.图1为本技术实施例提供的错别字检测方法的一流程示意图；
27.图2示例了一种待检测图片错别字标记过程示意图；
28.图3示例了一种图片文本识别模型的结构示意图；
29.图4示例了一种图像处理模块的结构示意图；
30.图5示例了一种文本块图像标注化处理过程示意图；
31.图6示例了一种文本处理模块的结构示意图；
32.图7示例了一种多模态融合模块的结构示意图；
33.图8示例了一种多模态融合模块的处理流程示意图；
34.图9为本技术实施例提供的一种错别字检测装置结构示意图；
35.图10为本技术实施例提供的错别字检测设备的结构示意图。
具体实施方式
36.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
37.本技术提供了一种错别字检测方法，可以适用于各类型的图像中包含文字的错别
字检测任务，示例如对海报、广告、视频截图、显示屏幕图像等包含的错别字进行检测的任务等。
38.本技术方案可以基于具备数据处理能力的终端实现，该终端可以是手机、电脑、服务器、云端等。
39.接下来，结合图1所述，本技术的错别字检测方法可以包括如下步骤：
40.步骤s100、获取包含文本的待检测图片。
41.具体地，待检测图片为包含文本的图片，本技术可以对图片中的文本进行错别字检测。
42.对于待检测图片其可以是用户拍摄的，也可以是视频截图、电子设备的截图等。图片中包含的文本的位置可以不限，例如可以是按照行排布的，也可以是按照列排布等。
43.待检测图片中包含的文本可以包括中文、非中文字符，如英文字母、特殊符号、数字等。
44.示例如图2，其为电子设备的截图，其中包含字幕文本。可以知道，字幕“艺术品收藏切莫盲目根风”中的“根”属于错别字，正确的应该是“跟”。
45.步骤s110、确定所述待检测图片中文本所处的文本块图片，以及文本块图片中包含的识别文本。
46.具体地，本技术实施例中可以采用图像文本识别算法识别待检测图片中文本所处的文本块图片，示例如采用ocr等算法识别文本块图片，以及文本块图片中包含的识别文本。
47.需要说明的是，此处的文本块可以是文本行或者是文本列。为了便于描述，下文均以文本行为例进行说明。
48.本步骤中可以是从待检测图片中截取文本块图片，也可以是确定文本块图片在待检测图片中的位置信息。
49.根据待检测图片中文本的分布情况，本步骤中得到的文本块图片的数量不限，可以是一个或多个。
50.步骤s120、提取所述文本块图片的图像视觉特征，以及，提取所述识别文本的文字模态特征。
51.具体地，本步骤中可以采用设定的图像视觉算法提取文本块图片的图像视觉特征，也可以采用预训练的神经网络模型来提取文本块图片的图像视觉特征。图像视觉特征从视觉角度描述了文字字形信息。
52.对于文本块图片包含的识别文本，本步骤中提取识别文本的文字模态特征，也即文本特征。文字模态特征提取时，可以采用设定的文本特征提取算法提取，也可以采用预训练的自然语言处理模型提取。
53.步骤s130、将所述图像视觉特征及所述文字模态特征进行融合，得到融合特征。
54.具体地，图像视觉特征和文字模态特征分别从图像和文字两种角度描述了相关信息，为了更准确的预测文本块图片中包含的真实文本，本步骤中将图像视觉特征和文字模态特征进行融合，得到的融合特征的信息更加丰富，表达能力更强。
55.步骤s140、基于融合特征确定文本块图片中包含的真实文本。
56.具体地，在上述步骤得到融合特征之后，可以基于融合特征预测文本块图片中包
含的真实文本，本步骤可以采用预训练的神经网络模型进行真实文本的预测。
57.经过本步骤预测的真实文本为本技术认定的文本块图片中所包含的正确文本。
58.步骤s150、对比所述真实文本和所述识别文本，得到待检测图片中的错别字检测结果。
59.具体地，本步骤中可以以真实文本作为基准，对比识别文本和真实文本，确定识别文本中是否包含错别字，以及，具体所包含的错别字内容，得到待检测图片中的错别字检测结果。
60.示例性的，本步骤中可以匹配所述识别文本中是否存在与所述真实文本不一致的字符，若存在，则将识别文本中不一致的字符作为待检测图片中的错别字。
61.本技术实施例提供的错别字检测方法，对于待检测图片确定其中文本所处的文本块图片，并确定文本块图片中包含的识别文本，进一步提取文本块图片的图像视觉特征，以及提取识别文本的文字模态特征，将图像视觉特征和文字模态特征进行融合，并基于融合特征确定文本块图片中包含的真实文本，对比真实文本和识别文本，以得到错别字检测结果。由此可见，本技术在对图片中错别字进行检测时，在考虑了识别文本的文字模态特征的基础上，进一步融合了文本块图片的图像视觉特征，也即充分利用了文本块图片的图像视觉特征辅助进行真实文本的预测，使得预测结果更加准确，在此基础上，通过对比真实文本和识别文本，确定错别字检测结果，大大提升了错别字检测的准确度。
62.可选的，在上述步骤s150得到错别字检测结果之后，若确认待检测图片中包含错别字，则可以进一步确定错别字在待检测图片中的位置，进而按照所述位置，在待检测图片中对错别字进行标记，以直观的展示待检测图片中错别字。
63.参考图2，对于待检测图片中识别出的错别字“根”，通过矩形框的形式进行标记。
64.当然，对错别字的标记形式并不局限于矩形框标记，还可以采用其它多种类型的标记方式，如高亮显示、下划线等。
65.本实施例中，确定错别字在待检测图片中的位置的过程，具体可以包括：
66.首先确定错别字所在的文本块图片的第一位置信息，该第一位置信息为文本块图片在待检测图片中的位置信息。
67.进一步确定错别字在文本块图片包含的识别文本中的排序顺序。
68.基于第一位置信息，在待检测图片中确定文本块图片中首个字符的位置，按照预估的每个字符的宽度，采用滑动偏移的方式，从首个字符的位置向后偏移所述排序顺序个字符的宽度，以定位到错别字在待检测图片中的位置。
69.在本技术的一些实施例中，对上述步骤s130，将所述图像视觉特征及所述文字模态特征进行融合，得到融合特征的过程进行说明。
70.可选的，步骤s120中提取的图像视觉特征和文字模态特征可以是向量形式。图像视觉特征和文字模态特征的向量维度可以是相同的或不同的。在此基础上，本步骤进行特征融合时，可以将两个向量形式的特征进行融合，得到融合特征。
71.在进行向量融合时，可以采用多种融合方式，本实施例中提供了一种门控融合方式，将向量形式的图像视觉特征及文字模态特征进行融合，得到融合特征。
72.通过采用门控融合方式，以图像视觉特征作为门控，抽取文字模态特征中的部分特征，得到融合特征，也即，相当于以图像视觉特征的角度来看，抽取出文字模态特征中最
为重要的部分，作为图像视觉模态和字符模态融合的特征表示。
73.可选的，本技术实施例中提供了几种不同形式的门控融合方式，示例如可以包括：按位相乘的门控融合方式、按位相加或相除的门控融合方式等。为了便于表述，下述实施例中以按位相乘的门控融合方式为例进行说明。
74.进一步的，为了避免文本语言层面全局特征的损失，本实施例中还可以将上述融合特征与所述文字模态特征相加，得到残差融合特征，作为最终的融合特征。
75.为了增强图像视觉特征表示的丰富性，在步骤s130进行特征融合之前，还可以增加对图像视觉特征进行表示偏移及非线性变换的处理，以得到处理后图像视觉特征，以供步骤s130中对处理后图像视觉特征及文字模态特征进行融合。
76.在本技术的一些实施例中，对于前述实施例中介绍的步骤s120-s140，其可以通过预训练的图片文本识别模型处理得到。
77.对于图片文本识别模型，可以将其配置为：提取文本块图片的图像视觉特征，提取文本块图片中识别文本的文字模态特征，并将图像视觉特征和文字模态特征进行融合，基于融合特征预测文本块图片中包含的真实文本的内部状态表示。
78.其中，图片文本识别模型的输入可以包括从待检测图片中截取出来的文本块图片，以及文本块图片中包含的识别文本。
79.另一种可选情况，图片文本识别模型的输入可以包括待检测图片、文本块图片在待检测图片中的位置信息，以及文本块图片中包含的识别文本。
80.本实施例中，通过预先训练图片文本识别模型，能够利用神经网络模型的强大学习能力，提取到文本块图片的图像视觉特征和识别文本的文字模态特征，在此基础上，进行融合后预测真实文本。
81.接下来，结合图3所示，本实施例中提供了图片文本识别模型的一种可选组成结构。
82.图片文本识别模型可以包括图像处理模块、文本处理模块、多模态融合模块及输出模块。其中：
83.图像处理模块，用于提取文本块图片的图像视觉特征。
84.具体地，若图片文本识别模型的输入是文本块图片，则图像处理模块可以对该文本块图片提取图像视觉特征。若图片文本识别模型的输入是待检测图片及其中文本块图片的位置信息，则图像处理模块可以先根据文本块图片的位置信息，在待检测图片中定位文本块图片，进而对文本块图片提取图像视觉特征。
85.文本处理模块，用于提取文本块图片中包含的识别文本的文字模态特征。
86.多模态融合模块，用于将所述图像视觉特征及所述文字模态特征进行融合，得到融合特征。
87.输出模块，用于基于所述融合特征确定文本块图片中包含的真实文本。
88.其中，输出模块可以采用mlm(maskedlanguagemodel)方式训练得到，基于多模态融合模块输出的融合特征，预测文本块图片中包含的真实文本。
89.接下来，分别对上述各个模块进行展开说明。
90.1、图像处理模块
91.本实施例中介绍了图像处理模块的一种可选组成结构，如图4所示，其可以包括：
92.图像标准化模块，用于对文本块图片进行标准化处理，得到处理后文本块图片。
93.其中，图像标准化模块的输入可以是待检测图片和文本块图片的位置信息，或者是，输入从待检测图片中提取出的文本块图片。图4中，以第一种输入为例进行说明。
94.由于现实世界中文本块图片的形态各异，如与水平线的夹角不同，以及存在近大远小的特性等，为了更好的适配后续模块进行特征的抽取，保证图像视觉特征抽取的质量，本步骤中可以由图像标准化模块对文本块图片进行标准化处理，如通过图像旋转、拉伸、缩放等算法对畸形的文本块图像进行处理。经过处理后的文本块图片，其尺寸为设定尺寸，如[96，384]大小的矩阵形式。
[0095]
示例如图5，上方为原始的倾斜歪曲的文本块图像，经过标准化处理后，如下方的文本块图像。
[0096]
图像特征抽取模块，用于对所述处理后文本块图片抽取图像视觉特征。
[0097]
如图4示例的，图像特征抽取模块可以由若干个视觉特征识别块串联组成，每个视觉特征识别块可以包括若干个卷积层、batch normalization层和非线性层。其中，不同的视觉特征识别块中包含的卷积层的卷积核的大小和数量可以不同，以丰富图像视觉特征抽取的角度，从而使得最终得到的图像视觉特征表示更加丰富和准确。
[0098]
线性变换模块，用于对所述图像视觉特征的维度进行线性变换，以输出与所述文字模态特征相同维度的图像视觉特征。
[0099]
具体地，经过上述图像特征抽取模块提取的图像视觉特征的通道数可能无法与文本处理模块所提取的文字模态特征的维度直接匹配，为此，需要通过线性变换模块对图像视觉特征的维度进行线性变换，以输出与文字模态特征相同维度的图像视觉特征。
[0100]
2、文本处理模块
[0101]
本实施例中介绍了文本处理模块的一种可选组成结构，如图6所示，其可以包括：
[0102]
文字预处理模块，用于将文本块图片中的识别文本通过填充设定字符padding的方式编辑至设定长度，确定编辑后的识别文本的特征表示。
[0103]
具体地，为了统一不同文本块图片中的识别文本的长度，本实施例中通过文字预处理模块，将识别文本通过padding的方式编辑至设定长度。对于小于设定长度的识别文本，可以在识别文本末位添加设定的padding字符，如[pad]等，以将识别文本补充至设定长度。对于大于设定长度的识别文本，可以从首个字符开始截取设定长度，作为一条编辑后识别文本，剩余部分长度如果仍超过设定长度，则重复上述截取操作，如果剩余部分长度不超过设定长度，则将剩余部分作为另一条编辑后识别文本。
[0104]
对于每一条编辑后的识别文本，可以采用预训练的分词器将识别文本编码成模型可以识别的特征表示。具体地，将编辑后的识别文本进行分词，并编码每一个分词，得到分词对应的token特征表示。
[0105]
其中，预训练的分词器可以采用bert tokenizer等预训练模型结构。
[0106]
文字模态特征抽取模块，用于对所述识别文本的特征表示进行编码，得到识别文本的文字模态特征。
[0107]
具体，文字模态特征抽取模块可以采用预训练模型(如bert、transformer等)对经文字预处理模块处理后的识别文本的特征表示进行编码，得到文本块图片的文字模态特征。
[0108]
3、多模态融合模块
[0109]
本实施例中介绍了多模态融合模块的一种可选组成结构，如图7所示，其可以包括：特征编辑模块、门控融合模块和残差连接模块。
[0110]
其中，各个模块的处理流程结合图8进行说明：
[0111]
特征编辑模块，用于对所述图像视觉特征进行表示偏移及非线性变换，得到处理后图像视觉特征。
[0112]
为了增强图像视觉特征的表示效果，可以对图像视觉特征进行表示偏移及非线性变换。其中表示偏移即对图像视觉特征的每个位置添加可学习的偏置参数。非线性变换即，通过非线性函数层，如relu层、sigmoid层、tanh层等对表示偏移后的图像视觉特征进行非线性变换，将其变换至0附近的相对较小的范围，如sigmoid变换后的值域为(0，1)，tanh变换后的值域为(-1，1)。
[0113]
门控融合模块，用于采用门控融合方式，将所述处理后图像视觉特征及所述文字模态特征进行融合，得到融合特征。
[0114]
具体地，本实施例中通过门控融合模块，设计了一种可以按位相乘、按位相加或相除的门控融合方式，对处理后图像视觉特征及文字模态特征进行融合，得到融合特征。
[0115]
图8中以按位相乘的门控融合方式为例，通过采用按位相乘的门控融合方式，以图像视觉特征作为门控，抽取文字模态特征中的部分特征，得到融合特征，也即，相当于以图像视觉特征的角度来看，抽取出文字模态特征中最为重要的部分，作为图像视觉模态和字符模态融合的特征表示。
[0116]
经过上述特征编辑模块对图像视觉特征进行处理后，图像视觉特征相较文字模态特征多了表示偏移和非线性变换，将图像视觉特征映射到0附近的相对较小的范围，如sigmoid的值域为(0,1)。而文字模态特征的值域和分布保持不变。那么，形象地说，经过特征编辑模块编辑后的图像视觉特征的每个位置都相当于一个水龙头(完全打开则对应非线性函数值域的上界，完全关闭则对应非线性函数值域的下界)，用于管控文字模态特征中对应位置的信息，图像视觉特征中这个位置水龙头开得大，那么文字模态特征中对应位置的信息就保留得多，反之保留得少。显然这样按位相乘就得到了由视觉角度进行保留程度把控的文字模态特征部分，即以图像视觉特征的角度来看，抽取出文字模态特征中最为重要的部分，作为图像视觉模态和字符模态融合的特征表示。
[0117]
残差连接模块，用于将所述融合特征与所述文字模态特征相加，得到残差融合特征，作为最终的融合特征。
[0118]
进一步的，为了避免文本语言层面全局特征的损失，本实施例中通过残差连接模块还可以将上述融合特征与所述文字模态特征相加，得到残差融合特征，作为最终的融合特征。
[0119]
在本技术的一些实施例中，为了进一步提升错别字检测的准确度，在步骤s150、对比所述真实文本和所述识别文本，得到待检测图片中的错别字检测结果之后，还可以进一步增加错别字核验的后处理操作。
[0120]
本实施例中，对于错别字核验的后处理过程，可以从句子语义通顺度的角度进行核验，具体可以包括：
[0121]
s1、将所述识别文本中识别出的错别字删除，得到删除错别字的编辑后文本。
[0122]
s2、采用预训练的语言模型，分别计算所述识别文本和所述删除错别字的编辑后文本各自的困惑度。
[0123]
具体地，困惑度是衡量句子语义通顺程度的一个指标，一个句子的语义越通顺，对应的困惑度越小。
[0124]
语言模型是用于计算一个句子是一个语义通顺的正确句子的概率模型。困惑度则是与语言模型预测一个句子的概率相关的经句子长度归一化的指标。对于一个完全正确的句子，语言模型在该句子上的困惑度越小，则说明该语言模型越好。从另一个角度看，若已经选取了一个非常优秀的语言模型，那么对于一个句子而言，如果语言模型在该句子上的困惑度很小，则说明该句子属于正确句子的可能性就很大。
[0125]
本步骤中，为了检验前述识别出的错别字是否真正是错别字，分别计算识别文本，以及删除错别字后的编辑后文本的困惑度。
[0126]
s3、若删除错别字的编辑后文本的困惑度小于识别文本的困惑度，且二者差值的绝对值大于设定阈值，则将所述错别字作为最终的错别字检测结果，否则，将所述错别字从最终的错别字检测结果中去除。
[0127]
可以理解的是，若删除错别字的编辑后文本的困惑度小于识别文本的困惑度，且二者差值的绝对值大于设定阈值，则表示删除错别字后的编辑后文本的语义相比删除前的识别文本的语义更通顺，也即删除的确实是一个错别字，因此可以将删除的错别字加入最终的错别字检测结果中。反之，说明前述步骤识别的错别字是一个伪错别字，可以将其从最终的错别字检测结果中去除，也即最终不会认定其为错别字。
[0128]
本实施例中，通过增加从句子语义通顺度的角度对错别字进行二次核验的后处理操作，进一步提升了图片中错别字识别的准确度。
[0129]
下面对本技术实施例提供的错别字检测装置进行描述，下文描述的错别字检测装置与上文描述的错别字检测方法可相互对应参照。
[0130]
参见图9，图9为本技术实施例公开的一种错别字检测装置结构示意图。
[0131]
如图9所示，该装置可以包括：
[0132]
图片获取单元11，用于获取包含文本的待检测图片；
[0133]
图片处理单元12，用于确定所述待检测图片中文本所处的文本块图片，以及文本块图片中包含的识别文本；
[0134]
特征提取单元13，用于提取所述文本块图片的图像视觉特征，以及，提取所述识别文本的文字模态特征；
[0135]
特征融合单元14，用于将所述图像视觉特征及所述文字模态特征进行融合，得到融合特征；
[0136]
真实文本确定单元15，用于基于融合特征确定文本块图片中包含的真实文本；
[0137]
错别字确定单元16，用于对比所述真实文本和所述识别文本，得到待检测图片中的错别字检测结果。
[0138]
可选的，所述图像视觉特征和所述文字模态特征分别为向量形式，则上述特征融合单元将所述图像视觉特征及所述文字模态特征进行融合，得到融合特征的过程，可以包括：
[0139]
采用门控融合方式，将向量形式的图像视觉特征及文字模态特征进行融合，得到
融合特征。
[0140]
可选的，上述门控融合方式可以包括按位相乘的门控融合方式、按位相加或相除的门控融合方式等。
[0141]
可选的，上述特征融合单元在采用门控融合方式，将向量形式的图像视觉特征及文字模态特征进行融合之后，还可以包括：
[0142]
将融合特征与所述文字模态特征相加，得到残差融合特征，作为最终的融合特征。
[0143]
可选的，上述特征融合单元在采用门控融合方式，将向量形式的图像视觉特征及文字模态特征进行融合之前，还可以包括：
[0144]
对所述图像视觉特征进行表示偏移及非线性变换，得到处理后图像视觉特征。
[0145]
可选的，上述特征提取单元13、特征融合单元14和真实文本确定单元15的处理过程可以通过预训练的图片文本识别模型实现，所述图片文本识别模型被配置为，提取文本块图片的图像视觉特征，提取文本块图片中识别文本的文字模态特征，并将图像视觉特征和文字模态特征进行融合，基于融合特征预测文本块图片中包含的真实文本的内部状态表示。
[0146]
其中，所述图片文本识别模型可以包括：图像处理模块、文本处理模块、多模态融合模块及输出模块；
[0147]
图像处理模块，用于提取文本块图片的图像视觉特征；
[0148]
文本处理模块，用于提取文本块图片中包含的识别文本的文字模态特征；
[0149]
多模态融合模块，用于将所述图像视觉特征及所述文字模态特征进行融合，得到融合特征；
[0150]
输出模块，用于基于所述融合特征确定文本块图片中包含的真实文本。
[0151]
可选的，上述多模态融合模块可以进一步包括：
[0152]
特征编辑模块，用于对所述图像视觉特征进行表示偏移及非线性变换，得到处理后图像视觉特征；
[0153]
门控融合模块，用于采用门控融合方式，将所述处理后图像视觉特征及所述文字模态特征进行融合，得到融合特征；
[0154]
残差连接模块，用于将所述融合特征与所述文字模态特征相加，得到残差融合特征，作为最终的融合特征。
[0155]
可选的，上述图像处理模块可以进一步包括：
[0156]
图像标准化模块，用于对文本块图片进行标准化处理，得到处理后文本块图片；
[0157]
图像特征抽取模块，用于对所述处理后文本块图片抽取图像视觉特征；
[0158]
线性变换模块，用于对所述图像视觉特征的维度进行线性变换，以输出与所述文字模态特征相同维度的图像视觉特征。
[0159]
可选的，上述文本处理模块可以进一步包括：
[0160]
文字预处理模块，用于将文本块图片中的识别文本通过填充设定字符的方式编辑至设定长度，确定编辑后的识别文本的特征表示；
[0161]
文字模态特征抽取模块，用于对所述识别文本的特征表示进行编码，得到识别文本的文字模态特征。
[0162]
可选的，上述错别字确定单元对比所述真实文本和所述识别文本，得到待检测图
片中的错别字检测结果的过程，可以包括：
[0163]
匹配所述识别文本中是否存在与所述真实文本不一致的字符，若存在，则将识别文本中不一致的字符作为待检测图片中的错别字。
[0164]
可选的，本技术的装置还可以包括：错别字核验单元，用于：在对比所述真实文本和所述识别文本，得到待检测图片中的错别字检测结果之后，将所述识别文本中识别出的错别字删除，得到删除错别字的识别文本；采用预训练的语言模型，分别计算所述识别文本和所述删除错别字的识别文本各自的困惑度；若删除错别字的识别文本的困惑度小于识别文本的困惑度，且二者差值的绝对值大于设定阈值，则将所述错别字作为最终的错别字检测结果，否则，将所述错别字从最终的错别字检测结果中去除。
[0165]
可选的，本技术的装置还可以包括：错别字标记单元，用于：在对比所述真实文本和所述识别文本，得到待检测图片中的错别字检测结果之后，确定错别字在所述待检测图片中的位置；按照所述位置，在所述待检测图片中对所述错别字进行标记。
[0166]
本技术实施例提供的错别字检测装置可应用于错别字检测设备，如终端：手机、电脑等。可选的，图10示出了错别字检测设备的硬件结构框图，参照图10，错别字检测设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；
[0167]
在本技术实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；
[0168]
处理器1可能是一个中央处理器cpu，或者是特定集成电路asic(application specific integrated circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；
[0169]
存储器3可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；
[0170]
其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：
[0171]
获取包含文本的待检测图片；
[0172]
确定所述待检测图片中文本所处的文本块图片，以及文本块图片中包含的识别文本；
[0173]
提取所述文本块图片的图像视觉特征，以及，提取所述识别文本的文字模态特征；
[0174]
将所述图像视觉特征及所述文字模态特征进行融合，得到融合特征；
[0175]
基于融合特征确定文本块图片中包含的真实文本；
[0176]
对比所述真实文本和所述识别文本，得到待检测图片中的错别字检测结果。
[0177]
可选的，所述程序的细化功能和扩展功能可参照上文描述。
[0178]
本技术实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：
[0179]
获取包含文本的待检测图片；
[0180]
确定所述待检测图片中文本所处的文本块图片，以及文本块图片中包含的识别文本；
[0181]
提取所述文本块图片的图像视觉特征，以及，提取所述识别文本的文字模态特征；
[0182]
将所述图像视觉特征及所述文字模态特征进行融合，得到融合特征；
[0183]
基于融合特征确定文本块图片中包含的真实文本；
[0184]
对比所述真实文本和所述识别文本，得到待检测图片中的错别字检测结果。
[0185]
可选的，所述程序的细化功能和扩展功能可参照上文描述。
[0186]
最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0187]
本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以根据需要进行组合，且相同相似部分互相参见即可。
[0188]
对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐梓航杨子清崔一鸣王士进
技术所有人：科大讯飞股份有限公司
我是此专利的发明人

上一篇：待办任务的智能调度方法及装置与流程
上一篇：一种高强度镀锌螺杆镀锌后降温冷却装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。