本申请涉及智能语音,具体涉及一种文本对齐信息获取方法、装置及计算机设备。
背景技术:
1、智能语音技术是实现人机语言的通信,包括语音识别技术(automatic speechrecognition,asr)、语音合成技术(text to speech,tts)等,目前已广泛应用于日常生活中,如家用语音助手、智能语音客服等,不仅提高了人们生活的便利性,也帮助企业节约了成本、提高了工作效率,拥有广大应用场景。
2、然而,上述应用场景离不开语音模型的训练,且模型训练过程中,数据是影响模型效果的关键因素,所需数据通常是一条音频对应一条文本,但对于部分模型而言,除音频及其对应的文本之外,还需要更细颗粒度的对齐信息。一般来说,普通人语速平均每分钟160-260个汉字,若需标注对齐信息,则平均每秒音频需要标注5-9个音素的边界,对于几十到几百小时的数据集来说,完全采用人工进行对齐标注,在时间和资源上都耗费巨大,并不可取。
3、因此,常见的对齐信息获取方式有两种,一是采用机器学习对齐工具直接获取对齐信息;二是使用机器学习工具预标注,再利用人工检查修改,但是两种方式的对齐结果相对来说都不是很可靠,或是受对齐工具的影响,或是受人工经验影响。所以,如何获取可靠性较高的对齐信息成为目前亟待解决的问题。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种文本对齐信息获取方法、装置及计算机设备,用以通过完善对齐信息获取流程、改进对齐预标注工具,提高对齐结果的可靠性,获取更高精度的文本对齐信息。
2、第一方面,本申请提供一种文本对齐信息获取方法,包括:
3、获取目标文本的音素序列信息,以及与目标文本关联的音频信息;
4、基于音素序列信息和音频信息,确定音素序列信息中的各个音素的音素边界信息,以及音频信息中的静音段信息;其中,静音段信息包括已知标点的第一静音边界信息、未知标点的第二静音边界信息;
5、分析静音段信息,以对音素边界信息和静音段信息进行边界修正,得到各音素的第一发音时长,以及各已知标点的第二发音时长;
6、基于第一发音时长和第二发音时长,对第一静音边界信息、第二静音边界信息添加预设的韵律标签,得到目标文本的对齐信息。
7、第二方面,本申请提供一种文本对齐信息获取装置,包括:
8、信息获取模块,用于获取目标文本的音素序列信息,以及与目标文本关联的音频信息;
9、边界确定模块,用于基于音素序列信息和音频信息,确定音素序列信息中的各个音素的音素边界信息,以及音频信息中的静音段信息;其中,静音段信息包括已知标点的第一静音边界信息、未知标点的第二静音边界信息;
10、边界修正模块,用于分析静音段信息,以对音素边界信息和静音段信息进行边界修正,得到各音素的第一发音时长,以及各已知标点的第二发音时长;
11、对齐获取模块,用于基于第一发音时长和第二发音时长,对第一静音边界信息、第二静音边界信息添加预设的韵律标签,得到目标文本的对齐信息。
12、第三方面,本申请还提供一种计算机设备,包括:
13、一个或多个处理器;
14、存储器;以及一个或多个应用程序,其中的一个或多个应用程序被存储于存储器中,并配置为由处理器执行以实现上述的文本对齐信息获取方法。
15、第四方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器进行加载,以执行上述文本对齐信息获取方法。
16、第五方面,本申请实施例提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面提供的文本对齐信息获取方法。
17、上述文本对齐信息获取方法、装置及计算机设备,通过获取目标文本的音素序列信息,以及与目标文本关联的音频信息,并基于音素序列信息和音频信息,确定音素序列信息中的各个音素的音素边界信息,以及音频信息中的静音段信息,即可分析静音段信息,对音素边界信息和静音段信息进行边界修正,得到各音素的第一发音时长,以及各已知标点的第二发音时长,进而基于第一发音时长和第二发音时长,对静音段信息包括已知标点的第一静音边界信息、未知标点的第二静音边界信息添加预设的韵律标签,最终得到更高精度的对齐信息。而从分析文本和音频改为分析音素序列和音频,不仅可避免文本转音素过程带来的错误,还可避免后续关联性错误,此外通过静音检测还解决了静音边界易出现错误的问题,增加了对齐结果的可靠性,提高了对齐标注的准确率。
1.一种文本对齐信息获取方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述获取目标文本的音素序列信息,包括:
3.如权利要求2所述的方法,其特征在于,所述基于预设的编辑距离算法,分析所述语音识别文本和所述待处理文本,以在判定所述待处理文本存在错误时,对所述待处理文本进行修正,得到所述目标文本,包括:
4.如权利要求3所述的方法,其特征在于,所述基于所述字错误率,判断所述待处理文本是否存在文本错误,以在判定所述待处理文本存在错误时,对所述待处理文本进行修正,得到所述目标文本,包括:
5.如权利要求1所述的方法,其特征在于,所述基于所述音素序列信息和所述音频信息,确定所述音素序列信息中的各个音素的音素边界信息,以及所述音频信息中的静音段信息,包括:
6.如权利要求1或5所述的方法,其特征在于,所述分析所述静音段信息,以对所述音素边界信息和所述静音段信息进行边界修正,得到各所述音素的第一发音时长,以及各所述已知标点的第二发音时长,包括:
7.如权利要求6所述的方法,其特征在于,所述若所述待识别静音段信息与所述静音段信息的时间边界不一致,则对所述音素边界信息和所述静音段信息进行边界修正,得到所述第一发音时长和所述第二发音时长,包括:
8.如权利要求7所述的方法,其特征在于,所述对所述音素边界信息和所述静音段信息进行边界修正,得到所述第一发音时长和所述第二发音时长,包括:
9.如权利要求1所述的方法,其特征在于,所述基于所述第一发音时长和所述第二发音时长,对所述第一静音边界信息、所述第二静音边界信息添加预设的韵律标签,得到所述目标文本的对齐信息,包括:
10.如权利要求9所述的方法,其特征在于,所述确定并根据所述已知标点的标点类型,对所述第一静音边界信息添加预设的第二韵律标签或第三韵律标签,得到所述目标文本的对齐信息,包括:
11.一种文本对齐信息获取装置,其特征在于,包括:
12.一种计算机设备,其特征在于,包括:
13.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行权利要求1至10中任一项所述文本对齐信息获取方法中的步骤。