本技术涉及语音解析的领域,具体而言,涉及一种解析语音的方法、装置、设备和可读存储介质。
背景技术:
1、目前,在对语音进行识别时,通常是将全部的语音进行识别,并没有考虑到语音中存在多个人交流的情况。
2、上述直接进行语音识别的方法存在很多问题,对于多人交流场景下的语音很难区分识别出的文字归属于谁,导致最终识别的结果没有起到用户想要的作用。
3、因此,如何准确的根据音色对语音的语音片段进行分类,是一个需要解决的技术问题。
技术实现思路
1、本技术实施例的目的在于提供一种解析语音的方法,通过本技术的实施例的技术方案可以达到准确的根据音色对语音的语音片段进行分类的效果。
2、第一方面,本技术实施例提供了一种解析语音的方法,包括,通过语音切分工具将待解析语音切分成多个语音片段,其中,每一语音片段中的语音为同一个人的语音;通过预设的语音归属解析模型对多个语音片段进行解析,得到语音归属结果,其中,语音归属结果包括一个或多个语音片段集合,每一语音片段集合中的语音片段的音色相同,语音归属解析模型是通过多个语音片段样本对基础分类模型进行训练得到的,语音片段样本包括多个语音片段样本和多个语音片段样本对应的语音片段样本集合,每一语音片段样本集合中的语音片段的音色相同。
3、本技术在上述实施例中,对语音进行切分之后,对得到的多个语音片段进行解析,可以将音色相同的语音片段分类到同一集合之中,可以达到准确的根据音色对语音的语音片段进行分类的效果。
4、在一些实施例中,在通过语音切分工具将待解析语音切分成多个语音片段之前,还包括:
5、通过语音切分工具将多个语音切分成多个语音片段,得到多个语音片段样本;
6、通过多个语音片段样本对基础分类模型进行训练,得到语音归属解析模型。
7、本技术在上述实施例中,通过语音片段样本对基础模型的训练,可以使得到的语音归属解析模型学会根据语音的音色对语音片段进行分类,达到准确的对语音片段进行分类的效果。
8、在一些实施例中,通过多个语音片段样本对基础分类模型进行训练,得到语音归属解析模型,包括:
9、获取多个语音片段样本中的一个语音片段集合,得到第一语音片段集合;
10、获取多个语音片段样本中除第一语音片段集合之外的语音片段集合中的部分语音片段,得到第二语音片段集合,其中,第一语音片段集合和第二语音片段集合中的语音片段数据相同;
11、将第一语音片段集合和第二语音片段集合混合得到第三语音片段集合;
12、将第三语音片段集合输入基础分类模型,得到分类结果;
13、通过分类结果和第一语音片段集合以及第二语音片段集合的差异调整基础分类模型的参数,得到语音归属解析模型。
14、本技术在上述实施例中,通过相同数量的第一语音片段集合和第二语音片段集合混合输入基础分类模型并将输出的分类结果和第一语音片段集合以及第二语音片段集合混合进行比较,可以根据对比差异不断调整模型,使模型对语音片段进行分类时更加准确。
15、在一些实施例中,通过多个语音片段样本对基础分类模型进行训练,得到语音归属解析模型,包括:
16、将多个语音片段样本中的语音切分成相同时间的语音片段,得到多个切分后的语音片段;
17、将多个切分后的语音片段嵌入特征矩阵,得到语音特征矩阵;
18、将多个切分后的语音片段中每一语音片段的语速特征和音量特征嵌入语音特征矩阵,得到特征矩阵;
19、通过特征矩阵对基础分类模型进行训练,得到语音归属解析模型。
20、本技术在上述实施例中,通过语速特征和音量特征嵌入语音特征矩阵,可以使模型学会根据语速和音量对语音片段进行分类,可以使语音归属的分类结果更加准确。
21、在一些实施例中,在通过预设的语音归属解析模型对多个语音片段的归属进行解析,得到语音归属结果之后,还包括:
22、将语音归属结果中每一语音片段集合中的语音片段拼接成一个语音,得到多个语音;
23、将多个语音转换成文字,得到多个文本。
24、本技术在上述实施例中,通过语音的拼接和文本的转换,可以帮助用户能够直接从复杂的语音中直接获取想要的目标人物的语音以及对应的翻译文本。
25、在一些实施例中,在通过语音切分工具将待解析语音切分成多个语音片段之前,还包括:
26、确定待解析语音是否存在不同音色的语音;
27、在确定待解析语音不存在不同音色的语音的情况下,对待解析语音进行语音识别,得到待解析语音对应的文本。
28、本技术在上述实施例中,在确定待解析语音中不存在其它音色的语音时,则可以直接对语音进行识别,可以直接准确的得到待解析语音对应的文本。
29、在一些实施例中,语音归属解析模型包括两层卷积层、一层池化层和一层全连接层;
30、两层卷积层中的第一卷积层用于局部语音特征的提取,第二卷积层用于深度语音特征的提取;
31、池化层用于降低语音特征的维度;
32、全连接层用于计算语音分类结果的误差,训练基础分类模型,得到语音归属解析模型。
33、本技术在上述实施例中,通过这种结构的语音归属解析模型,可以对语音特征提取的更准确,最终对语音片段的分类也更加准确。
34、第二方面,本技术实施例提供了一种解析语音的装置,包括:
35、切分模块,用于通过语音切分工具将待解析语音切分成多个语音片段,其中,每一语音片段中的语音为同一个人的语音;
36、解析模块,用于通过预设的语音归属解析模型对多个语音片段进行解析,得到语音归属结果,其中,语音归属结果包括一个或多个语音片段集合,每一语音片段集合中的语音片段的音色相同,语音归属解析模型是通过多个语音片段样本对基础分类模型进行训练得到的,语音片段样本包括多个语音片段样本和多个语音片段样本对应的语音片段样本集合,每一语音片段样本集合中的语音片段的音色相同。
37、可选的,所述装置还包括:
38、训练模块,用于所述切分模块在通过语音切分工具将待解析语音切分成多个语音片段之前,通过语音切分工具将多个语音切分成多个语音片段,得到多个语音片段样本;
39、通过多个语音片段样本对基础分类模型进行训练,得到语音归属解析模型。
40、可选的,训练模块具体用于:
41、获取多个语音片段样本中的一个语音片段集合,得到第一语音片段集合;
42、获取多个语音片段样本中除第一语音片段集合之外的语音片段集合中的部分语音片段,得到第二语音片段集合,其中,第一语音片段集合和第二语音片段集合中的语音片段数据相同;
43、将第一语音片段集合和第二语音片段集合混合得到第三语音片段集合;
44、将第三语音片段集合输入基础分类模型,得到分类结果;
45、通过分类结果和第一语音片段集合以及第二语音片段集合的差异调整基础分类模型的参数,得到语音归属解析模型。
46、可选的,训练模块具体用于:
47、将多个语音片段样本中的语音切分成相同时间的语音片段,得到多个切分后的语音片段;
48、将多个切分后的语音片段嵌入特征矩阵,得到语音特征矩阵;
49、将多个切分后的语音片段中每一语音片段的语速特征和音量特征嵌入语音特征矩阵,得到特征矩阵;
50、通过特征矩阵对基础分类模型进行训练,得到语音归属解析模型。
51、可选的,所述装置还包括:
52、拼接模块,用于所述解析模块在通过预设的语音归属解析模型对多个语音片段的归属进行解析,得到语音归属结果之后,将语音归属结果中每一语音片段集合中的语音片段拼接成一个语音,得到多个语音;
53、将多个语音转换成文字,得到多个文本。
54、可选的,所述装置还包括:
55、语音识别模块,用于所述切分模块在通过语音切分工具将待解析语音切分成多个语音片段之前,确定待解析语音是否存在不同音色的语音;
56、在确定待解析语音不存在不同音色的语音的情况下,对待解析语音进行语音识别,得到待解析语音对应的文本。
57、可选的,语音归属解析模型包括两层卷积层、一层池化层和一层全连接层;
58、两层卷积层中的第一卷积层用于局部语音特征的提取,第二卷积层用于深度语音特征的提取;
59、池化层用于降低语音特征的维度;
60、全连接层用于计算语音分类结果的误差,训练基础分类模型,得到语音归属解析模型。
61、第三方面,本技术实施例提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面提供的所述方法中的步骤。
62、第四方面,本技术实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。
63、本技术的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本技术实施例了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。