技术特征:
1.一种语音文本错误处理方法,其特征在于,包括:获取标准语料和用户语料;分别对所述标准语料和所述用户语料进行分词,得到所述标准语料对应的第一字符串和所述用户语料对应的第二字符串,其中,所述第一字符串和所述第二字符串均包括由分词得到的多个词汇;基于所述第一字符串和所述第二字符串的差异,获取所述第二字符串中的词汇的错误类型;根据所述错误类型对所述第二字符串中的词汇进行合并,基于合并结果显示错误提示信息,其中,所述错误提示信息用于对所述用户语料进行错误标注。2.根据权利要求1所述的方法,其特征在于,所述根据所述错误类型对所述第二字符串中的词汇进行合并,包括:获取每个错误类型对应的词汇在所述第二字符串中的位置信息;根据所述错误类型以及所述位置信息对所述第二字符串中的词汇进行合并。3.根据权利要求2所述的方法,其特征在于,所述根据所述错误类型以及所述位置信息对所述第二字符串中的词汇进行合并,包括:获取第二字符串中错误类型相同且位置连续的词汇,作为第一词汇;将所述第一词汇进行合并,合并所述第一词汇之后得到的词汇对应的错误类型不变。4.根据权利要求3所述的方法,其特征在于,所述错误类型至少包括替换错误和插入错误,所述根据所述错误类型以及所述位置信息对所述第二字符串中的词汇进行合并,包括:获取所述第二字符串中的错误类型为所述替换错误的词汇和错误类型为所述插入错误的词汇,作为第二词汇,其中,所述第二词汇中的错误类型为所述替换错误的词汇位于错误类型为所述插入错误的词汇之前;若所述第二词汇满足预设条件,对所述第二词汇进行合并,合并所述第二词汇之后得到的词汇对应的错误类型为所述替换错误。5.根据权利要求4所述的方法,其特征在于,所述预设条件包括错误类型为所述替换错误的词汇与错误类型为所述插入错误的词汇相邻。6.根据权利要求4所述的方法,其特征在于,所述预设条件包括错误类型为所述替换错误的词汇与错误类型为所述插入错误的词汇之间仅包括正确词汇,所述对所述第二词汇进行合并,包括:计算错误类型为所述替换错误的词汇与所述第一字符串中的与错误类型为所述替换错误的词汇对应的词汇的相似度,得到第一相似度;合并所述第二词汇和所述正确词汇,得到第三词汇;计算所述第三词汇与所述第一字符串中与错误类型为所述替换错误的词汇对应的词汇的相似度,得到第二相似度;若所述第二相似度高于所述第一相似度,将所述第三词汇作为合并所述第二词汇之后得到的词汇,且所述第三词汇的错误类型为所述替换错误。7.根据权利要求4~6任一项所述的方法,其特征在于,在所述根据所述错误类型以及所述位置信息对所述第二字符串中的词汇进行合并之后,所述方法还包括:获取指定关键词;
若合并所述第一词汇或所述第二词汇之后得到的词汇与所述指定关键词一致,去掉合并所述第一词汇或所述第二词汇之后得到的词汇的错误提示;若合并所述第一词汇或所述第二词汇之后得到的词汇与所述指定关键词不一致,保留合并所述第一词汇或所述第二词汇之后得到的词汇的错误提示。8.根据权利要求1所述的方法,其特征在于,所述分别对所述标准语料和所述用户语料进行分词,得到所述标准语料对应的第一字符串和所述用户语料对应的第二字符串,包括:获取指定关键词;将所述指定关键词加入到分词词典中;基于所述分词词典分别对所述标准语料和所述用户语料进行分词,得到所述标准语料对应的第一字符串和所述用户语料对应的第二字符串。9.根据权利要求1所述的方法,其特征在于,基于所述第一字符串和所述第二字符串的差异,获取所述第二字符串中的所有词汇的错误类型,包括:采用编辑距离计算所述第一字符串和所述第二字符串的差异,得到所述第二字符串中的词汇的错误类型。10.一种语音文本错误处理装置,其特征在于,包括:第一获取模块,用于获取标准语料和用户语料;分词模块,用于分别对所述标准语料和所述用户语料进行分词,得到所述标准语料对应的第一字符串和所述用户语料对应的第二字符串,其中,所述第一字符串和所述第二字符串均包括由分词得到的多个词汇;第二获取模块,用于基于所述第一字符串和所述第二字符串的差异,获取所述第二字符串中的词汇的错误类型;合并模块,用于根据所述错误类型对所述第二字符串中的词汇进行合并,基于合并结果显示错误提示信息,其中,所述错误提示信息用于对所述用户语料进行错误标注。11.一种电子设备,其特征在于,包括:存储器;一个或多个处理器;一个或多个应用程序,其中,所述一个或多个应用程序存储在所述存储器中,并被配置为由所述一个或多个处理器调用时,使得所述一个或多个处理器执行如权利要求1~9任一项所述的语音文本错误处理方法。12.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码被配置为由处理器调用时,使得所述处理器执行如权利要求1~9任一项所述的语音文本错误处理方法。
技术总结
本申请实施例提供一种语音文本错误处理方法、装置、电子设备及存储介质,涉及数据处理技术领域。通过获取标准语料和用户语料;分别对标准语料和用户语料进行分词,得到标准语料对应的第一字符串和用户语料对应的第二字符串,其中,第一字符串和第二字符串均包括由分词得到的多个词汇;基于第一字符串和第二字符串的差异,获取第二字符串中的词汇的错误类型;根据错误类型对第二字符串中的词汇进行合并,基于合并结果显示错误提示信息,其中,错误提示信息用于对用户语料进行错误标注,从而可以提高标注错误词汇的准确率,改善由于分词导致的对词汇的错误类型标注不准确的问题。致的对词汇的错误类型标注不准确的问题。致的对词汇的错误类型标注不准确的问题。
技术研发人员:李亚桐 彭子娇
受保护的技术使用者:深圳市声扬科技有限公司
技术研发日:2022.05.26
技术公布日:2022/6/28