模型确定方法、模型应用方法和相关装置与流程

文档序号：35145468发布日期：2023-08-18 01:15阅读：30来源：国知局

本技术涉及机器学习，特别是涉及一种模型确定方法、模型应用方法和相关装置。

背景技术：

1、语音识别是模型应用的主要领域之一，通过语音识别模型可以识别出语音信息所对应的对象。在一些场景下，由于同时说话的人数较多，采集到的语音信息中可能混杂着多个对象的语音信息，此时就需要通过语音分离模型将多个对象的语音信息进行分离，以针对每一个对象的语音信息进行准确的语音识别。

2、在相关技术中，语音分离模型在应用时，需要提前确定好待分离的语音信息中所包括的说话对象数量，语音分离模型才能够得到较为准确的语音分离结果。因此，在相关技术中，向语音分离模型输入待分离的语音信息之前需要先判断语音信息所对应的对象数量。

3、由此可见，相关技术中的语音分离过程较为繁琐，对信息输入侧的要求较高，难以实现高效、简洁的语音信息分离。

技术实现思路

1、为了解决上述技术问题，本技术提供了一种模型确定方法，通过该方法训练得到的模型具有自动识别待分离的语音信息所对应发音对象数量的能力，并可以基于该发音对象数量自动分离待分离的语音信息所对应的多个子语音信息，无需对待分离语音信息进行前期处理，提高了语音分离的效率和便捷度。

2、本技术实施例公开了如下技术方案：

3、第一方面，本技术实施例公开了一种模型确定方法，所述方法包括：

4、获取样本信息集合，所述样本信息集合包括多个样本语音信息，所述多个样本语音信息分别具有对应的多个样本子语音信息，目标样本语音信息是由所对应的多个目标样本子语音信息组合构成的，所述样本子语音信息与发音对象一一对应；

5、将所述多个样本语音信息分别作为所述目标样本语音信息，通过初始语音分离模型中的初始数量确定模块确定所述目标样本语音信息对应的待定发音对象数量信息，以及通过所述初始语音分离模型中的初始语音分离模块，基于所述待定发音对象数量信息确定所述目标样本语音信息对应的多个第一语音信息；

6、根据所述多个目标样本子语音信息确定所述目标样本语音信息对应的实际发音对象数量信息；

7、根据所述待定发音对象数量信息和所述实际发音对象数量信息之间的差异，以及根据所述多个目标样本子语音信息与所述多个第一语音信息之间的差异，调节所述初始语音分离模型对应的模型参数，得到语音分离模型，所述语音分离模型用于确定待分离语音信息对应的多个子语音信息，所述子语音信息与发音对象一一对应。

8、第二方面，本技术实施例公开了一种模型应用方法，所述方法包括：

9、获取待分离语音信息，所述待分离语音信息是由多个发音对象对应的子语音信息构成的；

10、根据所述待分离语音信息，通过所述语音分离模型中的数量确定模块确定所述待分离语音信息对应的发音对象数量信息，以及通过所述语音分离模型中的语音分离模块，根据所述发音对象数量信息确定所述待分离语音信息对应的发音对象数量个子语音信息，所述发音对象数量个子语音信息与发音对象一一对应，所述发音对象数量信息用于标识所述待分离语音信息对应的所述发音对象数量。

11、第三方面，本技术实施例公开了一种模型确定装置，所述装置包括第一获取单元、第一确定单元、第二确定单元和调节单元：

12、所述第一获取单元，用于获取样本信息集合，所述样本信息集合包括多个样本语音信息，所述多个样本语音信息分别具有对应的多个样本子语音信息，目标样本语音信息是由所对应的多个目标样本子语音信息组合构成的，所述样本子语音信息与发音对象一一对应；

13、所述第一确定单元，用于将所述多个样本语音信息分别作为所述目标样本语音信息，通过初始语音分离模型中的初始数量确定模块确定所述目标样本语音信息对应的待定发音对象数量信息，以及通过所述初始语音分离模型中的初始语音分离模块，基于所述待定发音对象数量信息确定所述目标样本语音信息对应的多个第一语音信息；

14、所述第二确定单元，用于根据所述多个目标样本子语音信息确定所述目标样本语音信息对应的实际发音对象数量信息；

15、所述调节单元，用于根据所述待定发音对象数量信息和所述实际发音对象数量信息之间的差异，以及根据所述多个目标样本子语音信息与所述多个第一语音信息之间的差异，调节所述初始语音分离模型对应的模型参数，得到语音分离模型，所述语音分离模型用于确定待分离语音信息对应的多个子语音信息，所述子语音信息与发音对象一一对应。

16、在一种可能的实现方式中，所述第一确定单元具体用于：

17、确定所述目标样本语音信息对应的多个第二子语音特征；

18、根据所述多个第二子语音特征，确定所述多个第二子语音特征分别对应的待定计数信息，计数信息用于标识所对应子语音特征对应单一发音对象的概率；

19、将所述多个第二子语音特征分别对应的待定计数信息确定为所述待定发音对象数量信息，发音对象数量信息用于标识对应单一发音对象的子语音特征数量；

20、所述第二确定单元具体用于：

21、确定所述多个第二子语音特征分别对应的第二子语音信息；

22、将多个所述第二子语音信息分别确定为目标第二子语音信息，将所述目标第二子语音信息与所述多个目标样本子语音信息之间分别对应的相似度中的最大值确定为所述目标第二子语音信息对应的实际计数信息；

23、将所述多个第二子语音特征分别对应的实际计数信息确定为所述实际发音对象数量信息；

24、所述调节单元具体用于：

25、将所述多个第二子语音特征分别确定为目标第二子语音特征，基于所述目标第二子语音特征对应的待定计数信息与实际计数信息之间的差异，调节所述初始数量确定模块对应的模型参数；

26、根据所述多个目标样本子语音信息与所述多个第一语音信息之间的差异，调节所述初始语音分离模型对应的模型参数。

27、在一种可能的实现方式中，所述第一确定单元具体用于：

28、将所述多个第二子语音特征中，所对应待定计数信息标识的概率大于第一阈值的第二子语音特征数量确定为待定发音对象数量；

29、基于所述待定发音对象数量确定所述目标样本语音信息对应的所述待定发音对象数量个第一语音信息。

30、在一种可能的实现方式中，所述调节单元具体用于：

31、基于所述目标第二子语音特征对应的第二子语音信息与目标子语音信息之间的差异，以及所述目标第二子语音特征对应的待定计数信息与实际计数信息之间的差异，调节所述初始数量确定模块对应的模型参数，所述目标子语音信息为所述多个目标样本子语音信息中与所述目标第二子语音特征对应的第二子语音信息之间相似度最大的目标样本子语音信息。

32、在一种可能的实现方式中，所述第一确定单元具体用于：

33、确定所述目标语音信息对应的多个第二子语音特征；

34、根据所述多个第二子语音特征，确定所述目标样本语音信息对应的待定发音对象数量信息，所述待定发音对象数量信息用于标识所述多个第二子语音特征中对应单一发音对象的多个标准特征，目标标准特征用于标识所述目标标准特征所对应发音对象的发音特征；

35、将所述多个标准特征分别作为所述目标标准特征，根据所述目标标准特征和所述目标样本语音信息确定所述目标标准特征对应的第一语音信息，所述目标标准特征对应的第一语音信息为所述目标标准特征所对应发音对象对应的语音信息。

36、在一种可能的实现方式中，所述第一确定单元具体用于：

37、确定所述目标样本语音信息对应的目标语音特征；

38、根据所述目标标准特征从所述目标语音特征中提取所述目标标准特征对应的第一子语音特征，所述第一子语音特征与所述目标标准特征之间的相似度大于第二阈值；

39、根据所述目标标准特征对应的第一子语音特征确定所述目标标准特征对应的第一语音信息。

40、在一种可能的实现方式中，所述第一确定单元具体用于：

41、将所述多个标准特征中除所述目标标准特征外的标准特征分别对应的第一子语音特征作为多个对比子语音特征，根据所述多个对比子语音特征从所述目标标准特征所对应第一子语音特征中提取所述目标标准特征对应的第一语音特征，所述第一语音特征与所述多个对比子语音特征之间的相似度均小于第三阈值；

42、根据所述目标标准特征对应的第一语音特征确定所述目标标准特征对应的第一语音信息。

43、在一种可能的实现方式中，所述初始语音分离模块还用于：

44、根据所述目标标准特征，从所述目标标准特征对应的第一子语音特征中提取所述目标标准特征对应的第二语音特征，所述第二语音特征与所述目标标准特征之间的相似度大于第四阈值，所述第四阈值大于所述第二阈值；

45、所述第一确定单元具体用于：

46、融合所述目标标准特征对应的第一语音特征和所述目标标准特征对应的第二语音特征，生成所述目标标准特征对应的语音特征；

47、根据所述目标标准特征对应的语音特征确定所述目标标准特征对应的第一语音信息。

48、在一种可能的实现方式中，所述初始语音分离模型还包括初始特征提取模块，所述初始特征提取模块用于提取所述目标样本语音信息对应的目标语音特征，所述第一确定单元具体用于：

49、通过初始语音分离模型中的初始数量确定模块，根据所述目标语音特征确定所述目标样本语音信息对应的待定发音对象数量信息，以及通过所述初始语音分离模型中的初始语音分离模块，基于所述待定发音对象数量信息和所述目标语音特征确定所述目标样本语音信息对应的多个第一语音信息。

50、在一种可能的实现方式中，所述提取所述目标样本语音信息对应的目标语音特征，包括：

51、基于所述目标样本语音信息对应的时域信息提取所述目标样本语音信息对应的第一特征，以及基于所述目标样本语音信息对应的频域信息提取所述目标样本语音信息对应的第二特征；

52、根据所述第一特征和所述第二特征确定所述目标语音特征。

53、在一种可能的实现方式中，所述基于所述目标样本语音信息对应的时域信息提取所述目标样本语音信息对应的第一特征，包括：

54、通过n次特征提取确定所述目标样本语音信息对应的第一特征，其中，第i次特征提取的输出信息为第i+1次特征提取的输入信息，前m次特征提取是基于所述目标样本语音信息对应的时域信息进行特征提取，后n减m次特征提取是基于所述目标样本语音信息对应的频域信息进行特征提取；

55、所述基于所述目标样本语音信息对应的频域信息提取所述目标样本语音信息对应的第二特征，包括：

56、通过p次特征提取确定所述目标样本语音信息对应的第二特征，其中，第k次特征提取的输出信息为第k+1次特征提取的输入信息，前q次特征提取是基于所述目标样本语音信息对应的频域信息进行特征提取，后p-q次特征提取是基于所述目标样本语音信息对应的时域信息进行特征提取。

57、在一种可能的实现方式中，所述初始特征提取模块还用于：

58、基于所述目标样本语音信息对应的时域信息和频域信息，经过1次特征提取所述目标样本语音信息对应的直接映射特征；

59、所述通过n次特征提取确定所述目标样本语音信息对应的第一特征，包括：

60、通过所述n次特征提取确定所述目标样本语音信息对应的第一待定特征，所述第一待定特征为第n次特征提取的输出；

61、合并所述第一待定特征和所述直接映射特征，得到所述目标样本语音信息对应的第一特征；

62、所述通过p次特征提取确定所述目标样本语音信息对应的第二特征，包括：

63、通过所述p次特征提取确定所述目标样本语音信息对应的第二待定特征，所述第二待定特征为第p次特征提取的输出；

64、合并所述第二待定特征和所述直接映射特征，得到所述目标样本语音信息对应的第二特征。

65、在一种可能的实现方式中，所述初始特征提取模块还用于：

66、通过t次特征提取确定所述目标样本语音信息对应的第三特征，其中，第w次特征提取用于基于所述目标样本语音信息对应的时域信息和频域信息进行特征提取；

67、所述根据所述第一特征和所述第二特征确定所述目标语音特征，包括：

68、根据所述第一特征、所述第二特征和所述第三特征，确定所述目标语音特征。

69、第四方面，本技术实施例公开了一种模型应用装置，所述装置包括第二获取单元和第三确定单元：

70、所述第二获取单元，用于获取待分离语音信息，所述待分离语音信息是由多个发音对象对应的子语音信息构成的；

71、所述第三确定单元，用于根据所述待分离语音信息，通过所述语音分离模型中的数量确定模块确定所述待分离语音信息对应的发音对象数量信息，以及通过所述语音分离模型中的语音分离模块，根据所述发音对象数量信息确定所述待分离语音信息对应的发音对象数量个子语音信息，所述发音对象数量个子语音信息与发音对象一一对应，所述发音对象数量信息用于标识所述待分离语音信息对应的所述发音对象数量。

72、在一种可能的实现方式中，所述第三确定单元具体用于：

73、确定所述待分离语音信息对应的所述发音对象数量个子语音特征，所述发音对象数量个子语音特征与发音对象一一对应，所述子语音特征用于表征所对应发音对象的语音特征；

74、根据所述发音对象数量信息和所述发音对象数量个子语音特征，确定所述待分离语音信息对应的发音对象数量个子语音信息。

75、在一种可能的实现方式中，所述第三确定单元具体用于：

76、根据所述语音分离模块对应的模型参数和所述发音对象数量信息，构成所述发音对象数量个分离子模块，所述发音对象数量个分离子模块对应的模型参数相同，所述发音对象数量个分离子模块与所述发音对象数量个子语音特征一一对应；

77、将所述发音对象数量个分离子模块分别作为目标子模块，通过所述目标子模块，根据所述目标子模块对应的目标子语音特征和所述目标样本语音信息，从所述目标样本语音信息中分离得到目标发音对象对应的子语音信息，所述目标发音对象为所述目标子语音特征所表征的发音对象。

78、第五方面，本技术实施例公开了一种计算机设备，所述计算机设备包括处理器以及存储器：

79、所述存储器用于存储计算机程序，并将所述计算机程序传输给所述处理器；

80、所述处理器用于根据所述计算机程序中的指令执行第一方面中任意一项所述的模型确定方法，或执行第二方面中任意一项所述的模型应用方法；

81、第六方面，本技术实施例公开了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行第一方面中任意一项所述的模型确定方法，或执行第二方面中任意一项所述的模型应用方法；

82、第七方面，本技术实施例公开了一种包括计算机程序的计算机程序产品，当其在计算机设备上运行时，使得所述计算机设备执行第一方面中任意一项所述的模型确定方法，或执行第二方面中任意一项所述的模型应用方法。

83、由上述技术方案可以看出，为了使模型能够具有自行分析语音信息中发音对象数量的能力，在本技术中的初始语音分离模型中可以包括初始数量确定模块和初始语音分离模块，其中，通过该初始数量确定模块能够确定样本语音信息对应的待定发音对象数量信息，该待定发音对象数量信息用于标识通过该初始数量确定模块所分析出的该样本语音信息对应的发音对象数量；通过该初始语音分离模块，可以基于该待定发音对象数量信息所标识的发音对象数量对该样本语音信息进行分离，得到多个第一语音信息。通过该样本语音信息所对应的多个样本子语音信息，能够体现出在对样本语音信息在被准确的进行语音分离时，该样本语音信息所对应的发音对象数量以及分离得到的多个子语音信息。因此，通过多个样本子语音信息可以确定该样本语音信息对应的实际发音对象数量信息，通过实际发音对象数量信息与样本发音对象数量之间的差异，能够体现出该初始数量确定模块对于发音对象数量分析的准确度，通过多个样本子语音信息与多个第一语音信息之间的差异，能够体现出该初始语音分离模块在进行语音信息分离时的准确度，从而，通过结合这两个维度的差异对初始语音分离模型进行参数调节，一方面能够使初始数量确定模块学习到如何准确分析语音信息中所包括的发音对象数量，另一方面能够使初始语音模型学习到如何基于发音对象数量信息对语音信息进行准确的语音分离，得到能够与发音对象之间形成准确的一一对应关系的语音信息。由此可见，通过本技术的模型确定方式可以生成可以自主进行发音对象数量分析，且基于分析得到的发音对象数量进行准确语音分离的语音分离模型，在应用时只需要输入待分离的语音信息即可得到语音分离结果，无需在输入前对语音信息进行发音对象识别，在保障语音分离准确度的同时，提高了语音分离的便捷性和语音分离效率。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：冯鑫
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人