一种多模态语音识别纠错方法和系统与流程

文档序号：34306933发布日期：2023-05-31 19:17阅读：93来源：国知局

本发明涉及语音识别，特别涉及一种多模态语音识别纠错方法和系统。

背景技术：

1、现今的客服服务主要以热线电话为主，客服语音质检是热线服务运营中一个非常重要的质量控制环节，传统的客服质检是通过人工监听客服通话录音完成的耗时又耗力，且只能用随机采样的方法进行抽检。智能质检的出现更改了传统客服中心质量检验的现状，全量质量检验，可同屏质检并线上提示客户意味着数据分析报告可即时查询。但客服语音受到环境噪音及方言等问题困扰，自动语音识别文本错误无法避免，如果缺少对文本的纠错处理，质检的准确率无法保证。因此文本纠错技术是智能质检结果可靠性的基础。目前在质检语音纠错任务面临的主要问题有：1、大多数纠错方案只对语音识别后的文本数据进行纠错，损失了原本的语音数据信息；2、目前客服场景语音识别的错误样本标注较少，难以达到较好的训练效果。

技术实现思路

1、本发明其中一个发明目的在于提供一种多模态语音识别纠错方法和系统，所述方法和系统利用语音和文本的多模态融合的特征进行训练，得到用于客服语音纠错的模型，基于文本和语音结合的纠错模型可以降低方言和环境噪音等影响，从而提高客服语音质检的准确率。

2、本发明另一个发明目的在于提供一种多模态语音识别纠错方法和系统，所述方法和系统利用中文的模糊音匹配技术对多模态融合特征进行数据增强，通过所述模糊音的数据增强，扩充了模型的训练数据，从而解决了现有模型训练中数据不足的问题以及语音数据在文本纠错模型中丢弃的问题。

3、本发明另一个发明目的在于提供一种多模态语音识别纠错方法和系统，所述方法和系统通过对语言中的平卷舌音、前后鼻音和发音声调等相关数据生成模糊音的增强数据，所述增强数据基于上述模糊音配置相似度等级，根据现实中标注数据整体情况通过所述模糊音相似度等级调整比例参数，从而使得训练增强数据样本更加接近真实情况。

4、为了实现至少一个上述发明目的，本发明进一步提供一种多模态语音识别纠错方法，所述方法包括：

5、从语料库中获取原始样本数据，利用模糊音生成器对所述原始样本生成错误样本；

6、根据文字的声母和韵母对错误样本数据进行标注，构建不同相似度等级的模糊音文字；

7、根据标注的错误样本数据，调整错误样本数据模糊音文字不同相似度等级比例参数；

8、基于原始的正确样本和错误样本数据构建语音和文字融合特征向量，将所述融合特征向量输入到纠错模型模型中训练，通过全连接层和激活函数输出每一个语音位置的正确概率最大的字。

9、根据本发明其中一个较佳实施例，所述错误样本标记方法包括：根据错误样本每个文字的平卷舌音、声调和前后鼻音分别进行标记，得到标记后样本数据。

10、根据本发明另一个较佳实施例，所述错误样本的生成方法包括：基于模糊音生成器的模糊拼音对原始样本进行处理，得到相似拼音文字不同的错误样本数据。

11、根据本发明另一个较佳实施例，基于错误样本的模糊音文字相似度等级构建方法包括，将存在的至少一个平卷舌音、声调和前后鼻音的相似文字根据相似类型数量配置相似等级，其中相似类型越多相似等级越高。

12、根据本发明另一个较佳实施例，所述错误样本生成方法包括：根据错误样本中模糊音整体情况，调整不同等级模糊音的比例，使得所述错误样本更接近真实数据增强样本。

13、根据本发明另一个较佳实施例，所述纠错模型构建方法包括：将所述错误样本和原始正确样本分别构建各自的语音向量和文本向量，其中所述语音向量包括错误样本的模糊语音向量，所述文本向量包括错误样本得到的汉字向量，生成所述语音和文字融合特征向量。

14、根据本发明另一个较佳实施例，所述语音和文字融合特征向量构建方法包括：利用双向lstm模型分别对两种样本语音和文字进行建模，输入所述样本语音和文字后构建token序列，并对每一个token位置的向量进行注意力机制筛选，得到汉字和语音长度相同的双模态融合向量。

15、根据本发明另一个较佳实施例，所述纠错模型包括预训练albert模型，在所述预训练albert模型的嵌入层中，样本原文对应位置的词嵌入包括所述样本原文对应位置字的词嵌入和该位置掩码的词嵌入进行加权和，其中所述掩码的权重为对应位置的错别字概率。

16、为了实现至少一个上述发明目的，本发明进一步提供一种多模态语音识别纠错系统，所述系统执行上述一种一种多模态语音识别纠错方法。

17、本发明进一步提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序可被处理器执行以实现上述一种多模态语音识别纠错方法。

技术特征：

1.一种多模态语音识别纠错方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种多模态语音识别纠错方法，其特征在于，所述错误样本标记方法包括：根据错误样本每个文字的平卷舌音、声调和前后鼻音分别进行标记，得到标记后样本数据。

3.根据权利要求1所述的一种多模态语音识别纠错方法，其特征在于，所述错误样本的生成方法包括：基于模糊音生成器的模糊拼音对原始样本进行处理，得到相似拼音文字不同的错误样本数据。

4.根据权利要求1所述的一种多模态语音识别纠错方法，其特征在于，基于错误样本的模糊音文字相似度等级构建方法包括，将存在的至少一个平卷舌音、声调和前后鼻音的相似文字根据相似类型数量配置相似等级，其中相似类型越多相似等级越高。

5.根据权利要求1所述的一种多模态语音识别纠错方法，其特征在于，所述错误样本生成方法包括：根据错误样本中模糊音整体情况，调整不同等级模糊音的比例，使得所述错误样本更接近真实数据增强样本。

6.根据权利要求1所述的一种多模态语音识别纠错方法，其特征在于，所述纠错模型构建方法包括：将所述错误样本和原始正确样本分别构建各自的语音向量和文本向量，其中所述语音向量包括错误样本的模糊语音向量，所述文本向量包括错误样本得到的汉字向量，生成所述语音和文字融合特征向量。

7.根据权利要求1所述的一种多模态语音识别纠错方法，其特征在于，所述语音和文字融合特征向量构建方法包括：利用双向lstm模型分别对两种样本语音和文字进行建模，输入所述样本语音和文字后构建token序列，并对每一个token位置的向量进行注意力机制筛选，得到汉字和语音长度相同的双模态融合向量。

8.根据权利要求1所述的一种多模态语音识别纠错方法，其特征在于，所述纠错模型包括预训练albert模型，在所述预训练albert模型的嵌入层中，样本原文对应位置的词嵌入包括所述样本原文对应位置字的词嵌入和该位置掩码的词嵌入进行加权和，其中所述掩码的权重为对应位置的错别字概率。

9.一种多模态语音识别纠错系统，其特征在于，所述系统执行权利要求1-8中任意一项所述的一种多模态语音识别纠错方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现权利要求1-8中任意一项所述的一种多模态语音识别纠错方法。

技术总结
本发明公开了一种多模态语音识别纠错方法和系统，包括：从语料库中获取原始样本数据，利用模糊音生成器对原始样本生成错误样本；根据错误样本文字的声母和韵母进行标注，构建不同相似度等级的模糊音文字；根据标注的错误样本数据，调整错误样本数据模糊音文字不同相似度等级比例参数；基于原始的正确样本和错误样本数据构建语音和文字融合特征向量，将所述融合特征向量输入到纠错模型模型中训练，通过全连接层和激活函数输出每一个语音位置的正确概率最大的字。方法和系统利用语音和文本的多模态融合的特征进行训练，得到用于客服语音纠错的模型，基于文本和语音结合的纠错模型可以降低方言和环境噪音等影响，从而提高客服语音质检的准确率。

技术研发人员：刘卫东,宣明辉,王慜骊
受保护的技术使用者：信雅达科技股份有限公司
技术研发日：
技术公布日：2024/1/12

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘卫东宣明辉王慜骊
技术所有人：信雅达科技股份有限公司
我是此专利的发明人

上一篇：一种基于摄像头的疲劳驾驶检测系统及预警装置的制作方法
上一篇：一种提高25-OHVD项目灵敏度和精密度方法与流程