文本识别方法、装置、电子设备及可读存储介质与流程

文档序号:32014944发布日期:2022-11-02 19:54阅读:40来源:国知局
文本识别方法、装置、电子设备及可读存储介质与流程

1.本发明涉及语音识别技术领域,具体而言,涉及一种文本识别方法、装置、电子设备及可读存储介质。


背景技术:

2.在语音识别的应用场景中,有一类场景是将音频识别成文本,然后对用户展示文稿,方便用户阅读。通常语音识别的文本存在一定的错误,为了提升用户体验,可以对用户开通反馈功能,以便用户可以对识别错误的文字进行纠错。
3.为了识别用户反馈的文本是否有效,对完全正确的反馈文本可以及时更新到文稿中,降低文稿错误率。现有的技术通过编辑距离的方式判断下反馈的文本和原始文本相似度,但是该方法太过简单且不能有效判断,并且不能对用户完全反馈正确的情况进行判断。


技术实现要素:

4.本发明的目的之一在于提供一种文本识别方法、装置、电子设备及可读存储介质,用以准确识别用户反馈的内容的有效性,本发明的实施例可以这样实现:
5.第一方面,本发明提供一种文本识别方法,所述方法包括:获取反馈文本和原始文本;其中,所述原始文本是对目标音频进行语音识别得到的文本;所述反馈文本是基于所述原始文本进行纠错处理的文本;若所述反馈文本不满足预设的文本条件,则确定所述反馈文本为无效反馈文本;所述文本条件是表征所述反馈文本的文本形式有效的条件;若所述反馈文本满足所述文本条件,则确定所述反馈文本与所述原始文本各自对应的得分;所述得分表征所述反馈文本、所述原始文本分别与所述目标音频中真实文本的对齐结果;若所述反馈文本与所述原始文本各自对应的得分满足预设的文本得分条件,则确定所述反馈文本为有效反馈文本;若所述反馈文本与所述原始文本各自对应的得分不满足所述文本得分条件,则确定所述反馈文本为无效反馈文本。
6.第二方面,本发明提供一种文本识别装置,包括:获取模块和识别模块;
7.所述获取模块,用于获取反馈文本和原始文本;其中,所述原始文本是对目标音频进行语音识别得到的文本;所述反馈文本是基于所述原始文本进行纠错处理的文本;所述识别模块,用于:若所述反馈文本不满足预设的文本条件,则确定所述反馈文本为无效反馈文本;所述文本条件是表征所述反馈文本的文本形式有效的条件;若所述反馈文本满足所述文本条件,则确定所述反馈文本与所述原始文本各自对应的得分;所述得分表征所述反馈文本、所述原始文本分别与所述目标音频中真实文本的对齐结果;若所述反馈文本与所述原始文本各自对应的得分满足预设的文本得分条件,则确定所述反馈文本为有效反馈文本;若所述反馈文本与所述原始文本各自对应的得分不满足所述文本得分条件,则确定所述反馈文本为无效反馈文本。
8.第三方面,本发明提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机程序,所述处理器可执行所述计算机程序以实现第一方面所
述的方法。
9.第四方面,本发明提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法。
10.本发明提供的文本识别方法、装置、电子设备及可读存储介质,方法包括:在获得语音识别出来的原始文本和用户提供的反馈文本后,先判断反馈文本是否满足文本条件,若不满足文本条件则直接确定反馈文本无效,若满足文本条件满足文本条件,则可以继续判断反馈文本和原始文本是否满足得分条件,即先确定反馈文本与所述原始文本各自对应的得分,然后若所述反馈文本与所述原始文本各自对应的得分满足预设的文本得分条件,则确定所述反馈文本为有效反馈文本,若所述反馈文本与所述原始文本各自对应的得分满足预设的文本得分条件,则确定所述反馈文本为有效反馈文本。在本发明中,首先通过文本条件对反馈文本进行初次判断,若反馈文本满足文本形式,则可以再对反馈文本进行二次判断,即判断反馈文本、所述原始文本分别与所述目标音频中真实文本的对齐结果是否满足条件,本发明通过文本条件和得分条件,对反馈文本进行两次判断,从而准确得到反馈文本的有效性。
附图说明
11.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
12.图1为本发明实施例提供的语音识别的场景示意图;
13.图2为本发明实施例提供的电子设备的结构框图;
14.图3为本发明实施例提供的文本识别方法的示意性流程图;
15.图4为本发明实施例提供的确定反馈文本是否满足文本条件的流程示意图;
16.图5为本发明实施例确定文本的得分的原理示意图;
17.图6为本发明实施例提供的步骤s330的示意性流程图;
18.图7为本发明实施例提供的另一种文本识别方法的示意性流程图;
19.图8为本发明实施例提供的确定反馈文本的置信度的流程示意图;
20.图9为本技术实施例提供的文本识别装置的功能模块图。
具体实施方式
21.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
22.因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
onlymemory,prom),可擦除只读存储器(erasable programmable read-only memory,eprom),电可擦除只读存储器(electric erasable programmable read-only memory,eeprom)等。
37.处理器202可以是一种集成电路芯片,具有信号处理能力。该处理器202可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(networkprocessor,np)等;还可以是数字信号处理器(digital signal processing,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
38.可以理解,图2所示的结构仅为示意,电子设备200还可以包括比图2中所示更多或者更少的组件,或者具有与图2所示不同的配置。图2所示的各组件可以采用硬件、软件或其组合实现。
39.请参见图3,图3为本发明实施例提供的文本识别方法的示意性流程图,该方法的执行主体可以是图2所示的电子设备,该方法可以包括:
40.s310,获取反馈文本和原始文本。
41.其中,原始文本是对目标音频进行语音识别得到的文本;反馈文本是基于原始文本进行纠错处理的文本。
42.s320,若反馈文本不满足预设的文本条件,则确定反馈文本为无效反馈文本。
43.其中,文本条件是表征反馈文本的文本形式有效的条件。
44.s330,若反馈文本满足文本条件,则确定反馈文本与原始文本各自对应的得分;
45.其中,得分表征反馈文本、原始文本分别与目标音频中真实文本的对齐结果。
46.s340,若反馈文本与原始文本各自对应的得分满足预设的文本得分条件,则确定反馈文本为有效反馈文本。
47.s350,若反馈文本与原始文本各自对应的得分不满足预设的文本得分条件,则确定反馈文本为无效反馈文本。
48.根据本发明实施例提供的文本识别方法,在获得语音识别出来的原始文本和用户提供的反馈文本后,先判断反馈文本是否满足文本条件,若不满足文本条件则直接确定反馈文本无效,若满足文本条件满足文本条件,则可以继续判断反馈文本和原始文本是否满足得分条件,即先确定反馈文本与原始文本各自对应的得分,然后若反馈文本与原始文本各自对应的得分满足预设的文本得分条件,则确定反馈文本为有效反馈文本,若反馈文本与原始文本各自对应的得分满足预设的文本得分条件,则确定反馈文本为有效反馈文本。在本发明中,首先通过文本条件对反馈文本进行初次判断,若反馈文本满足文本形式,则可以再对反馈文本进行二次判断,即判断反馈文本、原始文本分别与目标音频中真实文本的对齐结果是否满足条件,本发明通过文本条件和得分条件,对反馈文本进行两次判断,从而准确得到反馈文本的有效性。
49.下面将结合附图4至附图6,对上述步骤s310至步骤s350进行详细介绍。
50.在步骤s310中、获取反馈文本和原始文本。
51.在本发明实施例中,原始文本是对目标音频进行语音识别得到的文本,原始文本可能与目标音频中真实文本一致,也可能与真实文本存在差异,目标音频可以是用户请求
的待识别语音,可以是用户实时录制的,也可以是预先存储在终端设备本地上的语音。反馈文本是用户提供的文本,是用户结合原始文本和真实文本进行纠错的文本。
52.在可选的实施方式中,上述反馈文本可以是用户手动输入终端设备上,也可能基于用户录制的语音进行语音识别得到的文本,还可能是对用户上传的具有反馈文本的图像进行文字识别得到的文本,此处不作限定。
53.在步骤s320中、若反馈文本不满足预设的文本条件,则确定反馈文本为无效反馈文本。
54.在本发明实施例中,文本条件是表征反馈文本的文本形式有效的条件,文本形式包括文本格式、文本长度、以及反馈文本与原始文本之间的编辑距离,其中,编辑距离是对反馈文本和原始文本这二个字符串(的差异程度的进行量化。
55.在本发明实施例中,文本条件可以包括:字符格式条件、文本长度条件和编辑距离条件,字符格式条件表征反馈文本中字符格式有效的条件,文本长度条件表征反馈文本的文本长度有效的条件,编辑距离条件表征反馈文本与原始文本之间的编辑距离有效的条件。
56.基于上述文本条件,在可选的实施方式中,确定反馈文本是否满足文本条件的方式可以参见图4,图4为本发明实施例提供的确定反馈文本是否满足文本条件的流程示意图:
57.a1,判断反馈文本中字符的格式是否为预设字符格式,若是则执行a2,若否则执行a5。
58.在本发明实施例中,预设字符格式为如下任意一种及其组合:中文字符;英文字符;数字;标点符号。
59.a2,判断反馈文本的文本长度是否在预设的文本长度范围内,若是则执行步骤a3,若否则执行a5。
60.在本发明实施例中,文本长度范围可以按照原始文本的长度进行设置,在一种可选的实施方式中,假设原始文本长度为s,那么文本长度范围可以设置为(0.5s,1.5s)。
61.a3,判断若反馈文本与原始文本的编辑距离是否在预设的距离范围内,若是则执行a4,若否则执行a5。
62.在本发明实施例中,编辑距离可以按照实际的需求进行设置,例如编辑距离可以为10。
63.a4,确定反馈文本满足文本条件。
64.a5,确定反馈文本不满足文本条件。
65.即若反馈文本不满足字符格式条件、文本长度条件和编辑距离条件中的任意一种条件,则确定反馈文本不满足文本条件;若反馈文本依次满足字符格式条件、文本长度条件和编辑距离条件,则确定反馈文本满足文本条件。
66.需要说明的是,上述a1至a3之间的执行顺序仅仅是一种示例,并不是对a1至a3之间的执行顺序的一种限定,也就是说,字符格式条件、文本长度条件和编辑距离条件的判断流程可以同时进行,也可以按照字符格式条件、文本长度条件和编辑距离条件不同的顺序依次执行,此处不作限定。
67.通过上述文本条件可以对反馈文本进行初步筛选,以剔除不满足文本形式的反馈
文本,避免不必要的处理,而当反馈文本满足文本形式要求,则可以执行步骤s330,对反馈文本进行二次筛选,确定反馈文本的有效与否。
68.在步骤s330中、若反馈文本满足文本条件,则确定反馈文本与原始文本各自对应的得分;
69.其中,得分表征反馈文本、原始文本分别与目标音频中真实文本的对齐结果,对齐结果是将目标音频分别与该原始文本和反馈文本进行解码获得的结果。
70.在本发明实施例中,为了确定反馈文本和原始文本各自对应的得分,本发明实施例提供了一种可选的实施方式,请参见图5,图5为本发明实施例确定文本的得分的原理示意图,如图5所示:
71.参考文本:指得是原始文本或者反馈文本;
72.构图:通过预训练出的声学模型,结合发音词典进行hclg操作得到需要对齐解码的图。
73.声学模型:声学模型是计算声学特征属于各个音素的后验概率,是由100h小时以上的发音良好的音频训练而成,声学模型训练过程:音频先分帧,然后提取特征为40维梅尔倒谱系数mfcc特征。提取特征完成后,将音频文本按字典展开成音素,用时延神经网络tdnn训练得到声学模型。
74.解码:根据音频输入的mfcc特征,结合声学模型输出似然和构图,通过viterbi算法进行解码,目的是选择最优路径。
75.输出单词对齐结果:比如“今天是个好天气”序列,输出其中每个字内的音素的后验概率及持续时间,进而换算出每个字的得分。
76.结合图5所示的原理示意图,本发明实施例给出了一种实施步骤s330的方式,请参见图6,图6为本发明实施例提供的步骤s330的示意性流程图:
77.s331,将原始文本和反馈文本分别输入到预训练的声学模型中,得到原始文本和反馈文本各自对应的解码图。
78.s332,分别将原始文本和反馈文本各自对应的解码图,与目标音频对应的音频特征进行解码,得到原始文本和反馈文本各自包含的每个字符的音素后验概率和持续时长。
79.s333,根据原始文本和反馈文本各自包含的每个字符的音素后验概率和持续时长,分别得到原始文本和反馈文本各自包含的每个字符的得分,以及原始文本和反馈文本各自的得分。
80.在步骤s333中,得到原始文本和反馈文本中各个字符的得分之后,可以将每个字符得分进行求和,然后将得到的求和除以文本长度,则可以得到原始文本和反馈文本各自对应的得分。
81.在确定了反馈文本与原始文本各自得到的得分之后,则可执行步骤s340和步骤s350,对反馈文本进行二次判断,最终确定反馈文本的有效性。
82.在步骤s340中、若反馈文本与原始文本各自对应的得分满足预设的文本得分条件,则确定反馈文本为有效反馈文本。
83.在步骤s350中、若反馈文本与原始文本各自对应的得分不满足文本得分条件,则确定反馈文本为无效反馈文本。
84.在本发明实施例中,文本得分条件包括:反馈文本的得分大于原始文本的得分,或
者,原始文本的得分大于反馈文本的得分,且原始文本的得分与反馈文本的得分之间的分差在预设的分差范围内。
85.在可选的实施方式中,分差范围可以按照实际需求进行设置,例如分差范围可以为(0,5)。
86.当确定反馈文本为有效反馈文本之后,本发明实施例还可以确定该反馈文本的置信度高低,因此,在图3的基础上,本发明实施例还提供了另一种文本识别方法,请参见图7,图7为本发明实施例提供的另一种文本识别方法的示意性流程图,该方法还包括:
87.s360,当确定反馈文本为有效反馈文本,基于反馈文本和原始文本对应的编辑序列,确定反馈文本和原始文本中被编辑操作的目标字符。
88.在本发明实施例中,编辑序列包含原始文本对应的编辑操作以及编辑操作对应的目标字符,编辑操作包括如下任意一种及其组合:插入操作;删除操作;替换操作。
89.例如:原始文本是“今天是个好天气”,原始文本通过插入一个“看”,将“好”替换成“坏”,再将“气”删除,就能得到反馈文本即“看今天是个坏天”,那么目标字符分别是反馈文本中的“看”、原始原本中的“好”和反馈文本中的“坏”、原始原本中的“气”。
90.s370,基于目标字符对应的编辑操作,确定目标字符对应的字符得分条件。
91.继续参见上述例子,其中,目标字符“看”对应的编辑操作为“插入”、“好”和“坏”对应的编辑操作为“替换”、“气”对应的编辑操作为“删除”。
92.在本发明实施例中,插入操作、删除操作、替换操作各自对应的得分条件不同。
93.针对插入操作,对应的字符得分条件为:目标字符的得分大于第一阈值。
94.针对删除操作,对应的字符得分条件为:目标字符的得分小于第二阈值。
95.针对替换操作,对应的字符得分条件为:替换后的目标字符的得分大于替换前的目标字符的得分,或者,替换后的目标字符的得分小于替换前的目标字符的得分,且替换后的目标字符的得分与替换前的目标字符的得分之间的分差小于第三阈值;其中,替换后的目标字符位于反馈文本中,替换前的目标字符位于原始文本中。
96.对于上述替换条件,其中,替换后的目标字符位于反馈文本中,替换前的目标字符位于原始文本中与反馈文本相同的字符位置上的字符。例如,继续参见上述例子,原始原本中的“好”和反馈文本中的“坏”,其中,“好”是替换前的目标字符,“坏”是替换后的目标字符。
97.需要说明的是,本发明实施例中的第一阈值、第二阈值和第三阈值可以根据实际需求进行设定,例如,上述第一阈值可以是:大于50分;第二阈值可以是小于30分;第三阈值可以是:小于10分。
98.可以理解的是,当插入的字符的得分大于第一阈值,则表明插入的字符提高了反馈文本的置信度,当删除的字符的得分小于第二阈值,则表明将该字符删除,并不会对反馈文本的有效性有较大的影响,当替换后的字符的得分大于替换后的字符的得分,则表明插入的字符提高了反馈文本的置信度,或者,替换后的目标字符的得分小于替换前的目标字符的得分,且替换后的目标字符的得分与替换前的目标字符的得分之间的分差小于第三阈值,则表明将该字符替换,并不会对反馈文本的有效性有较大的影响。
99.s380,确定每个目标字符的得分,若任意一个目标字符的得分不满足目标字符对应的字符得分条件,则确定反馈文本为低置信度反馈文本。
100.可以理解的是,通过上述步骤s330得到反馈文本和原始文本中每个字符的得分之后,此时则可以在确定目标字符之后,即可得到目标字符的得分。
101.s390,若每个目标字符的得分均满足每个目标字符对应的字符得分条件,则确定反馈文本为高置信度反馈文本。
102.基于上述内容,在可选的实施方式中,确定反馈文本是低置信度还是高置信度的方式可以参见图8,图8为本发明实施例提供的确定反馈文本的置信度的流程示意图:
103.b1,判断插入的目标字符的得分是否大于第一阈值,若是则执行b2,若否则执行b5。
104.b2,判断删除的目标字符的得分是否小于第二阈值,若是则执行步骤b3,若否则执行b5。
105.b3,判断替换后的目标字符的得分是否大于替换前的目标字符的得分,或者,替换后的目标字符的得分小于替换前的目标字符的得分,且替换后的目标字符的得分与替换前的目标字符的得分之间的分差小于第三阈值,若是则执行b4,若否则执行b5。
106.b4,确定反馈文本为高置信度反馈文本。
107.b5,确定反馈文本为低置信度反馈文本。
108.需要说明的是,图8所示的步骤b1至步骤b3并无执行的先后顺序,可以理解的是,步骤b1至步骤b3可以按照如图8所示的顺序执行,也可以同时执行,并且,若编辑操作中没有插入操作、替换操作和删除操作中的任意一种,则可以不执行图8中对应的各个操作的执行条件。
109.通过上述实施方式,即可在反馈文本有效的情况下,可以确定反馈文本的置信度情况,进而可以将高置信度及时更新到文稿中,降低文稿错误率。
110.本技术实施例提供的文本识别方法可以在硬件设备或者以软件模块的形式实现中执行,当文本识别方法以软件模块的形式实现时,本技术实施例还提供一种文本识别方法装置,请参见图9,图9为本技术实施例提供的文本识别装置的功能模块图,该文本识别装置400可以包括:
111.获取模块410,用于获取反馈文本和原始文本;其中,原始文本是对目标音频进行语音识别得到的文本;反馈文本是基于原始文本进行纠错处理的文本;
112.识别模块420,用于:若反馈文本不满足预设的文本条件,则确定反馈文本为无效反馈文本;文本条件是表征反馈文本的文本形式有效的条件;若反馈文本满足文本条件,则确定反馈文本与原始文本各自对应的得分;得分表征反馈文本、原始文本分别与目标音频中真实文本的对齐结果;若反馈文本与原始文本各自对应的得分满足预设的文本得分条件,则确定反馈文本为有效反馈文本;若反馈文本与原始文本各自对应的得分不满足文本得分条件,则确定反馈文本为无效反馈文本。
113.可以理解的是,获取模块410、识别模块420可以协同的执行图3中的各个步骤以实现相应的技术效果。
114.在可选的实施方式中,文本条件包括:字符格式条件、文本长度条件和编辑距离条件,识别模块420具体用于:若反馈文本不满足字符格式条件、文本长度条件和编辑距离条件中的任意一种条件,则确定反馈文本不满足文本条件;若反馈文本依次满足字符格式条件、文本长度条件和编辑距离条件,则确定反馈文本满足文本条件。
115.在可选的实施方式中,识别模块420具体用于:若反馈文本中字符的格式为预设字符格式,则反馈文本满足字符格式条件,若反馈文本中字符的格式不为预设字符格式,则反馈文本满足字符格式条件;其中,预设字符格式为如下任意一种及其组合:中文字符;英文字符;数字;标点符号;若反馈文本的文本长度在预设的文本长度范围内,则反馈文本满足文本长度条件,若不在文本长度范围内,则反馈文本不满足文本长度条件;若反馈文本与原始文本的编辑距离在预设的距离范围内,则反馈文本满足编辑距离条件,若不在距离范围内,则反馈文本不满足编辑距离条件。
116.在可选的实施方式中,文本得分条件包括:反馈文本的得分大于原始文本的得分,或者,原始文本的得分大于反馈文本的得分,且原始文本的得分与反馈文本的得分之间的分差在预设的分差范围内。
117.在可选的实施方式中,识别模块420,还用于:当确定反馈文本为有效反馈文本,基于反馈文本和原始文本对应的编辑序列,确定反馈文本和原始文本中被编辑操作的目标字符;基于目标字符对应的编辑操作,确定目标字符对应的字符得分条件;确定每个目标字符的得分,若任意一个目标字符的得分不满足目标字符对应的字符得分条件,则确定反馈文本为低置信度反馈文本;若每个目标字符的得分均满足每个目标字符对应的字符得分条件,则确定反馈文本为高置信度反馈文本。
118.在可选的实施方式中,识别模块420,还具体用于:将原始文本和反馈文本分别输入到预训练的声学模型中,得到原始文本和反馈文本各自对应的解码图;分别将原始文本和反馈文本各自对应的解码图,与目标音频对应的音频特征进行解码,得到原始文本和反馈文本各自包含的每个字符的音素后验概率和持续时长;根据原始文本和反馈文本各自包含的每个字符的音素后验概率和持续时长,分别得到原始文本和反馈文本各自包含的每个字符的得分,以及原始文本和反馈文本各自的得分。
119.在可选的实施方式中,编辑操作包括如下任意一种及其组合:插入操作;删除操作;替换操作;若目标字符的编辑操作为插入操作,则目标字符对应的字符得分条件为:目标字符的得分大于第一阈值;若目标字符的编辑操作为删除操作,则目标字符对应的字符得分条件为:目标字符的得分小于第二阈值;若目标字符的编辑操作为替换操作,则目标字符对应的字符得分条件为:替换后的目标字符的得分大于替换前的目标字符的得分,或者,替换后的目标字符的得分小于替换前的目标字符的得分,且替换后的目标字符的得分与替换前的目标字符的得分之间的分差小于第三阈值;其中,替换后的目标字符位于反馈文本中,替换前的目标字符位于原始文本中。
120.本技术实施例还提供一种可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前述实施方式中任一项的文本识别方法。该计算机可读存储介质可以是,但不限于,u盘、移动硬盘、rom、ram、prom、eprom、eeprom、磁碟或者光盘等各种可以存储程序代码的介质。
121.以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1