语音理解方法、装置、设备和介质与流程

文档序号:38973621发布日期:2024-08-14 14:41阅读:31来源:国知局
语音理解方法、装置、设备和介质与流程

本技术涉及语音理解,特别是涉及一种语音理解方法、装置、设备和介质。


背景技术:

1、语音理解技术可以理解用户输入的语音,识别用户意图,使用户可以通过语音实现相关功能。语音理解技术已经应用在智能手机、智能家居、智能座舱等多种应用场景中。

2、目前的语义理解方法,通常首先利用语音识别模型,将用户输入的语音转换成文本(语音识别结果);然后将文本送入到意图理解模型,得到最终的意图结果。

3、在实际应用中,意图理解模型输出的意图结果需要依赖语音识别模型输出的文本,如果语音识别模型输出的文本是错误的语音识别结果,则意图理解模型输出的意图结果也难免存在错误。


技术实现思路

1、本技术实施例提供了一种语音理解方法,能够提高语音理解的准确度。

2、相应地,本技术实施例还提供了一种语音理解装置、一种电子设备和一种机器可读介质,用以保证上述方法的实现及应用。

3、为了解决上述问题,本技术实施例公开了一种语音理解方法,所述方法包括:

4、接收语音序列;

5、利用语音理解模型的语音编码单元,根据所述语音序列进行编码,以得到编码序列;

6、利用所述语音理解模型的意图识别单元,根据所述编码序列确定所述语音序列对应的意图识别结果。

7、为了解决上述问题,本技术实施例公开了一种语音理解装置,所述装置包括:

8、接收模块,用于接收语音序列;

9、编码模块,用于利用语音理解模型的语音编码单元,根据所述语音序列进行编码,以得到编码序列;

10、意图识别模块,用于利用所述语音理解模型的意图识别单元,根据所述编码序列确定所述语音序列对应的意图识别结果。

11、可选地,所述编码模块包括:

12、语音转拼音模块,用于将语音序列转换为拼音序列;

13、则所述意图识别模块还包括:

14、意图槽位识别模块,用于根据拼音序列与意图槽位结果之间的映射关系,确定所述拼音序列对应的意图识别结果。

15、可选地,训练过程中的语音理解模型还包括语音识别单元,其中,所述语音识别单元和所述意图识别单元联合训练。

16、可选地,所述语音理解模型包括:语音编码单元、语音识别单元和意图识别单元;所述装置还包括:

17、第一语音样本接收模块,用于接收第一语音样本;

18、第一语音样本编码模块,用于利用所述语音编码单元,对所述第一语音样本进行语音编码,以得到编码结果;

19、语音识别模块,用于利用所述语音识别单元,根据所述编码结果确定所述第一语音样本对应的识别文本;

20、样本意图识别模块,用于利用所述意图识别单元,根据所述编码结果确定所述第一语音样本对应的识别意图;

21、第一损失信息确定模块,用于根据所述识别文本和所述第一语音样本对应的文本标签,确定第一损失信息;

22、第二损失信息确定模块,用于根据所述识别意图和所述第一语音样本对应的意图标签,确定第二损失信息;

23、第一参数更新模块,用于根据所述第一损失信息和所述第二损失信息,对所述语音编码单元、所述语音识别单元和所述意图识别单元的参数进行更新。

24、可选地,所述意图识别单元包括:第一意图识别单元、第二意图识别单元和第三意图识别单元;

25、所述第一意图识别单元对应的识别意图与控制对象相关,所述第二意图识别单元对应的识别意图与控制对象的操作类型相关,所述第二意图识别单元对应的识别意图与控制对象的操作参数相关。

26、可选地,所述文本标签的文本信息包括如下信息中的至少一种:

27、所述第一语音样本对应的标注文本信息;或者

28、对所述第一语音样本对应的标注文本信息中的部分字符进行删除、或替换或增加后的文本信息。

29、可选地,所述装置还包括:

30、指令执行模块,用于执行所述意图识别结果对应的控制指令。

31、可选地,所述语音理解模型包括:语音转拼音模型和意图槽位模型;所述装置还包括:

32、语音转拼音模型预训练模块,用于根据第二语音样本,对语音转拼音模型进行预训练;所述语音转拼音模型用于将语音序列转换为拼音序列;

33、意图槽位模型预训练模块,用于根据文本样本,对意图槽位模型进行预训练;所述意图槽位模型用于表征拼音序列与意图槽位结果之间的映射关系;

34、第一联合训练模块,用于根据第三语音样本,对预训练后的语音转拼音模型和预训练后的意图槽位模型进行联合训练。

35、可选地,所述语音转拼音模型包括:编码单元和拼音分类单元;所述语音转拼音模型预训练模块包括:

36、第二语音样本编码模块,用于利用所述编码单元确定所述第二语音样本对应的编码特征,以及利用所述拼音分类单元确定所述编码特征对应的拼音信息;

37、第三损失信息确定模块,用于根据所述拼音信息,确定第三损失信息;

38、注意力处理模块,用于对所述第二语音样本的标注拼音对应的拼音特征与所述编码特征进行注意力处理,以得到特征向量;

39、拼音预测模块,用于根据所述特征向量进行拼音预测,以得到拼音预测结果;

40、第四损失信息确定模块,用于根据所述拼音预测结果和所述标注拼音,确定第四损失信息;

41、第二参数更新模块,用于根据所述第三损失信息和所述第四损失信息,对所述编码单元和拼音分类单元的参数进行更新。

42、可选地,所述第一联合训练模块包括:

43、拼音信息确定模块,用于利用所述预训练后的语音转拼音模型,确定所述第三语音样本对应的拼音信息;

44、第五损失信息确定模块,用于根据所述拼音信息,确定第五损失信息;

45、意图槽位结果确定模块,用于根据所述预训练后的意图槽位模型,确定拼音信息对应的意图槽位结果;

46、第六损失信息确定模块,用于根据所述意图槽位结果和所述第三语音样本的标注意图槽位,确定第六损失信息;

47、第三参数更新模块,用于根据所述第五损失信息和所述第六损失信息,对所述预训练后的语音转拼音模型和所述预训练后的意图槽位模型的参数进行更新。

48、可选地,所述装置还包括:

49、文本样本预训练模块,用于根据文本样本,对意图槽位模型和拼音转汉字模型进行预训练;所述拼音转汉字模型用于将拼音序列转换为汉字序列;

50、第二联合训练模块,用于根据第三语音样本,对预训练后的语音转拼音模型、预训练后的意图槽位模型和预训练后的拼音转汉字模型进行联合训练。

51、可选地,所述装置还包括:

52、第一映射关系生成模块,用于针对预设的拼音序列与预设的意图槽位结果,生成语言模型对应的状态处理结构;所述状态处理结构用于表征拼音序列与意图槽位结果之间的映射关系;和/或

53、第二映射关系生成模块,用于对意图槽位模型进行训练,所述意图槽位模型用于表征拼音序列与意图槽位结果之间的映射关系。

54、可选地,所述意图槽位识别模块包括:

55、搜索模块,用于根据所述拼音序列,在所述状态处理结构中进行搜索;

56、第一处理模块,用于若搜索成功,则根据所述状态处理结构的搜索结果,得到所述拼音序列对应的意图槽位结果;

57、第二处理模块,用于若搜索失败,则根据所述意图槽位模型,得到所述拼音序列对应的意图槽位结果。

58、本技术实施例还公开了一种电子设备,包括:处理器;和存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如本技术实施例所述的方法。

59、本技术实施例还公开了一种机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如本技术实施例所述的方法。

60、本技术实施例包括以下优点:

61、本技术实施例的语音理解过程中的语音理解模型可以包括:语音编码单元和意图识别单元。其中,语音编码单元用于对语音序列进行编码,以得到编码序列,意图识别单元用于根据编码序列确定所述语音序列对应的意图识别结果。编码序列可以包含语音序列对应的特征向量,由于本技术实施例的意图识别单元根据编码序列确定语音序列对应的意图识别结果,故本技术实施例的意图识别结果可以避免受到语音序列对应的文本的限制,因此能够提高语音理解的准确度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1