语音信号处理方法及相关装置与流程

文档序号：39378028发布日期：2024-09-13 11:32阅读：86来源：国知局

本技术涉及语音通讯，尤其涉及一种语音信号处理方法及相关装置。

背景技术：

1、在第一设备与第二设备进行语音通信的过程中，可能存在声学回声。声学回声是指第二设备的用户语音信号传输至第一设备，经第一设备的扬声器播放后，被第一设备的麦克风采集形成的回声。为了提升第一设备与第二设备之间的通话效果，可对声学回声进行滤除处理。

2、人工智能(artificial intelligence，缩写为ai)回声抑制技术是一种利用人工智能算法来抑制声学回声的技术，它可以通过分析语音信号的特征，识别声学回声信号并将其从麦克风采集的语音信号中去除。由于语音信号是一种序列输入，相邻语音帧之间具有较强相关性，ai模型能够记忆先前的信息，捕捉语音帧之间的时间依赖关系，可通过ai模型对声学回声进行滤除。

3、远端发声是指语音通信双方中第二设备的用户在讲话，仅近端发声是指语音通信双方中仅第一设备的用户在讲话。因为ai模型处理语音帧时具有时间依赖性，在长时间远端发声状态下，ai模型对声学回声的抑制能力逐渐增强，从而可能导致第一设备和第二设备之间的通话状态从远端发声状态进入仅近端发声状态，进而导致第一设备的部分用户语音信号被抑制失真，从而导致语音通信质量差。

技术实现思路

1、本技术提供一种语音信号处理方法及相关装置，基于本技术所描述的方法，能够提升语音通信质量。

2、第一方面，本技术提供一种语音信号处理方法，该方法可由第一设备执行，或由与第一设备匹配的装置执行，例如由处理器、芯片或芯片系统等执行。该方法由第一设备执行时，该第一设备包括扬声器和麦克风；该方法包括：接收来自第二设备的第一语音信号帧，并通过扬声器播放第一语音信号帧，并获取麦克风采集的第二语音信号帧；响应于第一语音信号帧中不存在第一用户语音信号，且第一语音信号帧集合的帧数大于第一阈值，重置第一ai模型，得到第二ai模型；其中，第一语音信号帧集合为第一ai模型已处理的连续语音信号帧的集合，且第一ai模型输出的第一语音信号帧集合中每个语音信号帧的掩码满足重置条件；将第一语音信号帧和第二语音信号帧输入第二ai模型，得到第二ai模型输出的第一掩码；基于第一掩码和第二语音信号帧，确定第三语音信号帧；向第二设备发送第三语音信号帧。

3、在上述实施例中，第一设备可以在采用第一ai模型进行声学回声抑制的情况下，基于第一设备当前处理的近端语音信号帧中不存在声学回声，且第一ai模型长时间处于强抑制状，重置第一ai模型，得到第二ai模型，再通过第二ai模型对当前处理的近端语音信号帧进行回声抑制处理，得到更优质的通信语音信号帧，有利于避免第一设备的用户语音信号被抑制失真，保证第一设备进行声学回声抑制的可靠性和准确性，通过该更优质的通信语音信号帧实现第一设备与第二设备的语音通信，从而有利于提升语音通信质量，同时，有利于提升用户体验感。

4、结合第一方面，在一种可能的方式中，该第二ai模型包括编码器、特征提取模块以及解码器；上述将第一语音信号帧和第二语音信号帧输入第二ai模型，得到第二ai模型输出的第一掩码，包括：获取第一语音信号帧的第一复数谱；并获取第二语音信号帧的第二复数谱；将第一复数谱和第二复数谱进行拼接，得到第三复数谱；通过编码器对第三复数谱进行编码处理，得到第一特征向量；通过特征提取模块对第一特征向量进行深度特征提取，得到第二特征向量；通过解码器对第二特征向量进行解码处理，得到第一掩码。可见，通过采用包括编码器、特征提取模块以及解码器结构的ai模型，对第一语音信号帧进行回声消除处理，得到该第一语音信号帧的第一掩码，有利于更加可靠地确定出该第一掩码。

5、结合第一方面，在一种可能的方式中，该第二ai模型包括信号处理模块、编码器、特征提取模块以及解码器；上述将第一语音信号帧和第二语音信号帧输入第二ai模型，得到第二ai模型输出的第一掩码，包括：通过信号处理模块获取第一语音信号帧的第一复数谱；并通过信号处理模块获取第二语音信号帧的第二复数谱；并通过信号处理模块将第一复数谱和第二复数谱进行拼接，得到第三复数谱；通过编码器对第三复数谱进行编码处理，得到第一特征向量；通过特征提取模块对第一特征向量进行深度特征提取，得到第二特征向量；通过解码器对第二特征向量进行解码处理，得到第一掩码。可见，通过采用包括信号处理模块、编码器、特征提取模块以及解码器结构的ai模型，对第一语音信号帧进行回声消除处理，得到该第一语音信号帧的第一掩码，有利于更加便捷准确地确定出该第一掩码。

6、结合第一方面，在一种可能的方式中，上述基于第一掩码和第二语音信号帧，确定第三语音信号帧，包括：基于第一掩码和第二复数谱，确定第四复数谱；对第四复数谱进行语音合成处理，得到第三语音信号帧。可见，通过第二ai模型输出的第一掩码和第二语音信号帧的第二复数谱，确定第三语音信号帧，有利于更加准确合理地避免第一设备的用户语音信号被抑制失真。

7、结合第一方面，在一种可能的方式中，上述重置第一ai模型，得到第二ai模型，包括：将第一ai模型中的隐藏状态参数和/或记忆细胞参数设置为零，得到第二ai模型。可见，通过将第一ai模型中的隐藏状态参数和/或记忆细胞参数设置为零，得到第二ai模型，有利于更加灵活地得到第二ai模型。

8、结合第一方面，在一种可能的方式中，上述第一语音信号帧集合中每个语音信号帧的掩码满足重置条件，包括：第一语音信号帧集合中每个语音信号帧对应的多个掩码值中的最大值均小于第二阈值。可见，通过对比第一语音信号帧集合中每个语音信号帧对应的多个掩码值中的最大值和第二阈值，可以更加精准细致地对第一ai模型输出的第一语音信号帧集合中每个语音信号帧的掩码进行重置条件的判断。

9、结合第一方面，在一种可能的方式中，该方法还包括：响应于第一语音信号帧中存在第一用户语音信号，且第二语音信号帧集合的帧数大于第三阈值，重置第一ai模型，得到第三ai模型；其中，第二语音信号帧集合为第一ai模型已处理的连续语音信号帧的集合，第二语音信号帧集合中的语音信号帧不包括第二设备的用户语音；将第一语音信号帧和第二语音信号帧输入第三ai模型，得到第三ai模型输出的第二掩码；基于第二掩码和第二语音信号帧，确定第四语音信号帧；向第二设备发送第四语音信号帧。可见，第一设备可以在采用第一ai模型进行声学回声抑制的情况下，基于第一设备当前处理的近端语音信号帧中存在声学回声，且第一ai模型长时间处理不包括第二设备的用户语音的近端语音信号帧，重置第一ai模型，得到第二ai模型，再通过第二ai模型对当前处理的近端语音信号帧进行回声抑制处理，得到更优质的通信语音信号帧，有利于避免第一设备的声学回声残留，提升第一设备进行声学回声抑制的全面性和准确性，通过该更优质的通信语音信号帧实现第一设备与第二设备的语音通信，从而有利于进一步提升语音通信质量，同时，有利于进一步提升用户体验感。

10、第二方面，本技术提供一种语音信号处理装置，该装置应用于第一设备，该第一设备包括扬声器和麦克风；该装置包括：

11、获取单元，用于接收来自第二设备的第一语音信号帧，并通过扬声器播放第一语音信号帧，并获取麦克风采集的第二语音信号帧；

12、模型重置单元，用于响应于第一语音信号帧中不存在第一用户语音信号，且第一语音信号帧集合的帧数大于第一阈值，重置第一ai模型，得到第二ai模型；其中，第一语音信号帧集合为第一ai模型已处理的连续语音信号帧的集合，且第一ai模型输出的第一语音信号帧集合中每个语音信号帧的掩码满足重置条件；

13、掩码获取单元，用于将第一语音信号帧和第二语音信号帧输入第二ai模型，得到第二ai模型输出的第一掩码；

14、确定单元，用于基于第一掩码和第二语音信号帧，确定第三语音信号帧；

15、发送单元，用于向第二设备发送第三语音信号帧。

16、第三方面，本技术提供了一种芯片，该芯片包括处理器和通信接口，处理器被配置用于使芯片执行上述第一方面或其任一种可能的实现方式中的方法。

17、第四方面，本技术提供了一种模组设备，该模组设备包括通信模组、电源模组、存储模组以及芯片，其中：该电源模组用于为该模组设备提供电能；该存储模组用于存储数据和指令；该通信模组用于进行模组设备内部通信，或者用于该模组设备与外部设备进行通信；该芯片用于执行上述第一方面或其任一种可能的实现方式中的方法。

18、第五方面，本技术提供了一种电子设备，该电子设备包括存储器和处理器，该存储器用于存储计算机程序，该计算机程序包括程序指令；该处理器被配置用于调用该程序指令，执行上述第一方面或其任一种可能的实现方式中的方法。

19、第六方面，本技术提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机可读指令，当该计算机可读指令在信号处理装置上运行时，使得该信号处理装置执行上述第一方面或其任一种可能的实现方式中的方法。

20、第七方面，本技术提供一种计算机程序或计算机程序产品，包括代码或指令，当代码或指令在计算机上运行时，使得计算机执行如第一方面或其任一种可能的实现方式中的方法。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：明振宇,董斐,刘金刚
技术所有人：紫光展锐（重庆）科技有限公司
我是此专利的发明人