本申请涉及语音处理,尤其涉及一种语音文件的标注方法、装置、服务器及存储介质。
背景技术:
1、随着智能手机和其他便携式设备的普及,人们对于语音交互的需求逐渐增加,语音识别技术能够满足人们在移动设备上进行快速输入和操作的需求。语音识别依赖于标注数据进行模型训练,并通过对比标注结果进行评估和改进。因此,对语音文件进行标注尤为重要。
2、现有技术中,主要标注人员通过抽帧的方式,获取目标帧的音频和字幕信息,根据字幕信息对音频进行标注。
3、然而,现有技术这种方法会增加标注的工作量,从而增加标注成本。
技术实现思路
1、本申请提供一种语音文件的标注方法、装置、服务器及存储介质,用以解决标注工作量大和标注成本高的技术问题。
2、第一方面,本申请提供一种语音文件的标注方法,应用于服务器,包括:
3、采集待标注的语音文件。
4、对所述语音文件进行格式转换处理,得到目标格式的语音文件。
5、将所述目标格式的语音文件转换为文本数据。
6、对所述文本数据进行标注,得到所述语音文件的标注结果。
7、可选地,如上所述的方法,所述对所述语音文件进行格式转换处理,得到目标格式的语音文件,包括:对所述语音文件进行解码,得到无损格式的语音文件;对所述无损格式的语音文件添加隐含参数,得到带有隐藏信息的语音文件;对所述带有隐藏信息的语音文件进行目标格式的编码,得到所述目标格式的语音文件。
8、可选地,如上所述的方法,所述将所述目标格式的语音文件转换为文本数据,包括:根据预设时长条件,对所述目标格式的语音文件进行筛选,得到第一语音文件;根据损失函数,在所述第一语音文件中删除包含噪音的所述语音文件,得到第二语音文件;对所述第二语音文件进行文本识别,得到所述文本数据。
9、可选地,如上所述的方法,所述损失函数如下:
10、l=-w×y×log(y′)-(1-w)×(1-y)×log(1-y′)-w×log(y′)+r
11、式中,l表示损失值,y表示所述第一语音文件的真实标签,y′表示预测概率,w表示权重,r表示正则化项。
12、可选地,如上所述的方法,所述对所述文本数据进行标注,得到所述语音文件的标注结果,包括:采用第一模型,对所述文本数据进行拼音标注,得到第一拼音标注数据;采用第二模型,对所述文本数据进行拼音标注,得到第二拼音标注数据;采用音频文本对齐模型,获取所述第一拼音标注数据中每个拼音对应的时间段,得到所述第一拼音标注数据中各拼音与时间段的一一对应关系,确定为第一对应关系;采用音频文本对齐模型,获取所述第二拼音标注数据中每个拼音对应的时间段,得到所述第二拼音标注数据中各拼音与时间段的一一对应关系,确定为第二对应关系;根据所述第一对应关系和所述第二对应关系,得到所述语音文件的标注结果。
13、可选地,如上所述的方法,所述根据所述第一对应关系和所述第二对应关系,得到所述语音文件的标注结果,包括:删除所述第一对应关系和所述第二对应关系中对应关系不同的拼音与时间段,得到第三拼音标注数据;将所述第三拼音标注数据,确定为所述语音文件的标注结果。
14、第二方面,本申请提供一种语音文件的标注装置,应用于服务器,包括:
15、采集模块,用于采集待标注的语音文件。
16、处理模块,用于对所述语音文件进行格式转换处理,得到目标格式的语音文件。
17、转换模块,用于将所述目标格式的语音文件转换为文本数据。
18、标注模块,用于对所述文本数据进行标注,得到所述语音文件的标注结果。
19、第三方面,本申请提供一种服务器,包括:至少一个处理器和存储器;
20、所述存储器存储计算机执行指令;
21、所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的语音文件的标注方法。
22、第四方面,本申请提供一种计算机存储介质,所述计算机存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的语音文件的标注方法。
23、本申请提供的语音文件的标注方法、装置、服务器及存储介质,通过将采集的语音文件进行格式转换处理,并转换为文本数据,对文本数据进行标注,得到标注结果;实现了只需要提供语音文件,就能够完成语音文件的标注工作,减少标注的工作量,从而降低标注成本。
1.一种语音文件的标注方法,其特征在于,应用于服务器,包括:
2.根据权利要求1所述的方法,其特征在于,所述对所述语音文件进行格式转换处理,得到目标格式的语音文件,包括:
3.根据权利要求1所述的方法,其特征在于,所述将所述目标格式的语音文件转换为文本数据,包括:
4.根据权利要求3所述的方法,其特征在于,所述损失函数如下:
5.根据权利要求1至4任一项所述的方法,其特征在于,所述对所述文本数据进行标注,得到所述语音文件的标注结果,包括:
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一对应关系和所述第二对应关系,得到所述语音文件的标注结果,包括:
7.一种语音文件的标注装置,其特征在于,应用于服务器,包括:
8.根据权利要求7所述的装置,其特征在于,所述处理模块,具体用于:对所述语音文件进行解码,得到无损格式的语音文件;对所述无损格式的语音文件添加隐含参数,得到带有隐藏信息的语音文件;对所述带有隐藏信息的语音文件进行目标格式的编码,得到所述目标格式的语音文件。
9.一种服务器,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至6任一项所述的语音文件的标注方法。