目标语音识别方法、装置、电子设备及存储介质与流程

文档序号：36802415发布日期：2024-01-23 12:29阅读：43来源：国知局

本发明涉及人工智能领域，尤其涉及一种目标语音识别方法、装置、电子设备及存储介质。

背景技术：

1、随着社会经济发展的不断进步，在医疗健康领域中，智慧医疗系统也随之不断的升级，而在智慧医疗系统中常常会展开多人会议的场景，主要是通过多人会议来确定和解决更多的医疗相关的问题。在多人会议场景中，通常存在多个不同的人说话的时候，而在不同的人同时说话时，需要选中一个目标说话人并根据目标说话人的声音作为后续语音识别和会议记录的数据基础，但是在现有技术中无法做到精准的识别目标说话人的语音，因此，亟待提出一种更准确的目标语音识别方法。

技术实现思路

1、本发明提供一种目标语音识别方法、装置、电子设备及存储介质，其主要目的在于提高目标语音识别的准确度。

2、为实现上述目的，本发明提供的一种目标语音识别方法，包括：

3、分别获取第一说话人和第二说话人对应的说话语音数据和脑电信号序列，将所述说话语音数据和所述脑电信号序列进行特征融合处理，得到所述第一说话人和所述第二说话人分别对应的表征融合数据；

4、利用预先训练好的信号融合模型分别对所述第一说话人和所述第二说话人对应的表征融合数据进行信号融合处理，得到第一维度表征和第二维度表征，将所述第一维度表征和所述第二维度表征进行表征相加处理，得到最终表征数据；

5、将所述最终表征数据输入至预设语音增强模型中，得到混合掩码矩阵，基于预构建的损失函数和所述混合掩码矩阵从所述第一说话人和所述第二说话人中筛选出目标说话人，并将所述目标说话人的语音作为目标语音。

6、可选地，所述将所述说话语音数据和所述脑电信号序列进行特征融合处理，得到所述第一说话人和所述第二说话人分别对应的表征融合数据，包括：

7、获取预设的特征提取模块和特征融合模块，利用所述特征提取模块分别对所述第一说话人的说话语音数据和脑电信号序列进行特征提取处理，得到第一语音特征和第一脑电特征；

8、利用所述特征融合模块对所述第一语音特征和所述第一脑电特征进行融合处理，得到所述第一说话人对应的表征融合数据；

9、利用所述特征提取模块分别对所述第二说话人的说话语音数据和脑电信号序列进行特征提取处理，得到第二语音特征和第二脑电特征；

10、利用所述特征融合模块对所述第二语音特征和所述第二脑电特征进行融合处理，得到所述第二说话人对应的表征融合数据。

11、可选地，所述将所述最终表征数据输入至预设语音增强模型中，得到混合掩码矩阵，包括：

12、利用预设语音增强模型中的第一层线性映射层对所述最终表征数据进行第一线性映射处理，得到第一线性映射数据；

13、根据所述语音增强模型中的两层transformer对所述第一线性映射数据进行数据转换处理，得到转换数据；

14、将所述转换数据输入至预设语音增强模型中的第二层线性映射层中进行第二线性映射处理，得到混合掩码矩阵。

15、可选地，所述基于预构建的损失函数和所述混合掩码矩阵从所述第一说话人和所述第二说话人中筛选出目标说话人，包括：

16、根据预设激活函数计算所述混合掩码矩阵对应的激活值；

17、利用所述激活值和预构建的损失函数对预先训练好的信号融合模型进行参数优化，得到优化融合模型；

18、将所述第一说话人和所述第二说话人输入至所述优化融合模型中，得到目标说话人。

19、可选地，所述利用所述激活值和预构建的损失函数对预先训练好的信号融合模型进行参数优化，得到优化融合模型之前，所述方法还包括：

20、根据所述激活值获取对应的说话人，并构建所述说话人对应的损失函数；

21、将多个说话人对应的损失函数进行求和处理，得到预构建的损失函数。

22、可选地，所述利用预先训练好的信号融合模型分别对所述第一说话人和所述第二说话人对应的表征融合数据进行信号融合处理之前，所述方法还包括：

23、获取训练语音序列及与所述训练语音序列对应的训练脑电信号，所述训练脑电信号是与所述训练语音序列并行的对齐信号；

24、利用所述训练语音序列和所述训练脑电信号对预设信号模型进行迭代训练，得到训练好的信号融合模型。

25、可选地，所述分别获取第一说话人和第二说话人对应的说话语音数据和脑电信号序列之前，所述方法还包括：

26、获取预设会议场景并识别所述会议场景下的混合语音数据；

27、从所述混合语音数据中提取出第一说话人和第二说话人对应的说话语音数据；

28、提取所述第一说话人和所述第二说话人对应的脑电信号序列。

29、为了解决上述问题，本发明还提供一种目标语音识别装置，所述装置包括：

30、特征融合模块，用于分别获取第一说话人和第二说话人对应的说话语音数据和脑电信号序列，将所述说话语音数据和所述脑电信号序列进行特征融合处理，得到所述第一说话人和所述第二说话人分别对应的表征融合数据；

31、表征相加模块，用于利用预先训练好的信号融合模型分别对所述第一说话人和所述第二说话人对应的表征融合数据进行信号融合处理，得到第一维度表征和第二维度表征，将所述第一维度表征和所述第二维度表征进行表征相加处理，得到最终表征数据；

32、语音增强模块，用于将所述最终表征数据输入至预设语音增强模型中，得到混合掩码矩阵，基于预构建的损失函数和所述混合掩码矩阵从所述第一说话人和所述第二说话人中筛选出目标说话人，并将所述目标说话人的语音作为目标语音。

33、为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：

34、至少一个处理器；以及，

35、与所述至少一个处理器通信连接的存储器；其中，

36、所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述所述的目标语音识别方法。

37、为了解决上述问题，本发明还提供一种存储介质，所述存储介质中存储有至少一个计算机程序，所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的目标语音识别方法。

38、本发明实施例中，通过结合不同说话人的说话语音数据和脑电信号序列进行特征提取和特征融合，将使用预先训练好的信号融合模型从表征融合数据中学习到的融合表征，其用于语音分离的语音增强模块中，从而实现对目标说话人的语音增强和语音分离。因此本发明提出的目标语音识别方法、装置、电子设备及存储介质，可以解决提高目标语音识别的准确度低的问题。

技术特征：

1.一种目标语音识别方法，其特征在于，所述方法包括：

2.如权利要求1所述的目标语音识别方法，其特征在于，所述将所述说话语音数据和所述脑电信号序列进行特征融合处理，得到所述第一说话人和所述第二说话人分别对应的表征融合数据，包括：

3.如权利要求1所述的目标语音识别方法，其特征在于，所述将所述最终表征数据输入至预设语音增强模型中，得到混合掩码矩阵，包括：

4.如权利要求1所述的目标语音识别方法，其特征在于，所述基于预构建的损失函数和所述混合掩码矩阵从所述第一说话人和所述第二说话人中筛选出目标说话人，包括：

5.如权利要求1所述的目标语音识别方法，其特征在于，所述利用所述激活值和预构建的损失函数对预先训练好的信号融合模型进行参数优化，得到优化融合模型之前，所述方法还包括：

6.如权利要求1所述的目标语音识别方法，其特征在于，所述利用预先训练好的信号融合模型分别对所述第一说话人和所述第二说话人对应的表征融合数据进行信号融合处理之前，所述方法还包括：

7.如权利要求1所述的目标语音识别方法，其特征在于，所述分别获取第一说话人和第二说话人对应的说话语音数据和脑电信号序列之前，所述方法还包括：

8.一种目标语音识别装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：

10.一种存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的目标语音识别方法。

技术总结
本发明涉及人工智能，揭露一种目标语音识别方法，包括：将第一说话人和第二说话人对应的说话语音数据和脑电信号序列进行特征融合，得到第一说话人和第二说话人分别对应的表征融合数据；利用预先训练好的信号融合模型分别对第一说话人和第二说话人对应的表征融合数据进行信号融合，得到第一维度表征和第二维度表征，将第一维度表征和第二维度表征进行表征相加，得到最终表征数据；将最终表征数据输入语音增强模型中，得到混合掩码矩阵，基于损失函数和混合掩码矩阵从第一说话人和第二说话人中筛选出目标说话人，将目标说话人的语音作为目标语音。本发明还提出一种目标语音识别装置、电子设备以及存储介质。本发明可以提高目标语音识别的准确度。

技术研发人员：赵肖英,张之勇,王健宗,程宁
受保护的技术使用者：平安创科科技（北京）有限公司
技术研发日：
技术公布日：2024/1/22

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵肖英,张之勇,王健宗,程宁
技术所有人：平安创科科技（北京）有限公司
我是此专利的发明人

上一篇：车辆控制方法、装置、电子设备及存储介质与流程
上一篇：一种低压线束模组多频连接器的制作方法