文本对齐信息获取方法、装置及计算机设备与流程

文档序号:34393847发布日期:2023-06-08 11:24阅读:47来源:国知局
文本对齐信息获取方法、装置及计算机设备与流程

本申请涉及智能语音,具体涉及一种文本对齐信息获取方法、装置及计算机设备。


背景技术:

1、智能语音技术是实现人机语言的通信,包括语音识别技术(automatic speechrecognition,asr)、语音合成技术(text to speech,tts)等,目前已广泛应用于日常生活中,如家用语音助手、智能语音客服等,不仅提高了人们生活的便利性,也帮助企业节约了成本、提高了工作效率,拥有广大应用场景。

2、然而,上述应用场景离不开语音模型的训练,且模型训练过程中,数据是影响模型效果的关键因素,所需数据通常是一条音频对应一条文本,但对于部分模型而言,除音频及其对应的文本之外,还需要更细颗粒度的对齐信息。一般来说,普通人语速平均每分钟160-260个汉字,若需标注对齐信息,则平均每秒音频需要标注5-9个音素的边界,对于几十到几百小时的数据集来说,完全采用人工进行对齐标注,在时间和资源上都耗费巨大,并不可取。

3、因此,常见的对齐信息获取方式有两种,一是采用机器学习对齐工具直接获取对齐信息;二是使用机器学习工具预标注,再利用人工检查修改,但是两种方式的对齐结果相对来说都不是很可靠,或是受对齐工具的影响,或是受人工经验影响。所以,如何获取可靠性较高的对齐信息成为目前亟待解决的问题。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种文本对齐信息获取方法、装置及计算机设备,用以通过完善对齐信息获取流程、改进对齐预标注工具,提高对齐结果的可靠性,获取更高精度的文本对齐信息。

2、第一方面,本申请提供一种文本对齐信息获取方法,包括:

3、获取目标文本的音素序列信息,以及与目标文本关联的音频信息;

4、基于音素序列信息和音频信息,确定音素序列信息中的各个音素的音素边界信息,以及音频信息中的静音段信息;其中,静音段信息包括已知标点的第一静音边界信息、未知标点的第二静音边界信息;

5、分析静音段信息,以对音素边界信息和静音段信息进行边界修正,得到各音素的第一发音时长,以及各已知标点的第二发音时长;

6、基于第一发音时长和第二发音时长,对第一静音边界信息、第二静音边界信息添加预设的韵律标签,得到目标文本的对齐信息。

7、第二方面,本申请提供一种文本对齐信息获取装置,包括:

8、信息获取模块,用于获取目标文本的音素序列信息,以及与目标文本关联的音频信息;

9、边界确定模块,用于基于音素序列信息和音频信息,确定音素序列信息中的各个音素的音素边界信息,以及音频信息中的静音段信息;其中,静音段信息包括已知标点的第一静音边界信息、未知标点的第二静音边界信息;

10、边界修正模块,用于分析静音段信息,以对音素边界信息和静音段信息进行边界修正,得到各音素的第一发音时长,以及各已知标点的第二发音时长;

11、对齐获取模块,用于基于第一发音时长和第二发音时长,对第一静音边界信息、第二静音边界信息添加预设的韵律标签,得到目标文本的对齐信息。

12、第三方面,本申请还提供一种计算机设备,包括:

13、一个或多个处理器;

14、存储器;以及一个或多个应用程序,其中的一个或多个应用程序被存储于存储器中,并配置为由处理器执行以实现上述的文本对齐信息获取方法。

15、第四方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器进行加载,以执行上述文本对齐信息获取方法。

16、第五方面,本申请实施例提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面提供的文本对齐信息获取方法。

17、上述文本对齐信息获取方法、装置及计算机设备,通过获取目标文本的音素序列信息,以及与目标文本关联的音频信息,并基于音素序列信息和音频信息,确定音素序列信息中的各个音素的音素边界信息,以及音频信息中的静音段信息,即可分析静音段信息,对音素边界信息和静音段信息进行边界修正,得到各音素的第一发音时长,以及各已知标点的第二发音时长,进而基于第一发音时长和第二发音时长,对静音段信息包括已知标点的第一静音边界信息、未知标点的第二静音边界信息添加预设的韵律标签,最终得到更高精度的对齐信息。而从分析文本和音频改为分析音素序列和音频,不仅可避免文本转音素过程带来的错误,还可避免后续关联性错误,此外通过静音检测还解决了静音边界易出现错误的问题,增加了对齐结果的可靠性,提高了对齐标注的准确率。



技术特征:

1.一种文本对齐信息获取方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述获取目标文本的音素序列信息,包括:

3.如权利要求2所述的方法,其特征在于,所述基于预设的编辑距离算法,分析所述语音识别文本和所述待处理文本,以在判定所述待处理文本存在错误时,对所述待处理文本进行修正,得到所述目标文本,包括:

4.如权利要求3所述的方法,其特征在于,所述基于所述字错误率,判断所述待处理文本是否存在文本错误,以在判定所述待处理文本存在错误时,对所述待处理文本进行修正,得到所述目标文本,包括:

5.如权利要求1所述的方法,其特征在于,所述基于所述音素序列信息和所述音频信息,确定所述音素序列信息中的各个音素的音素边界信息,以及所述音频信息中的静音段信息,包括:

6.如权利要求1或5所述的方法,其特征在于,所述分析所述静音段信息,以对所述音素边界信息和所述静音段信息进行边界修正,得到各所述音素的第一发音时长,以及各所述已知标点的第二发音时长,包括:

7.如权利要求6所述的方法,其特征在于,所述若所述待识别静音段信息与所述静音段信息的时间边界不一致,则对所述音素边界信息和所述静音段信息进行边界修正,得到所述第一发音时长和所述第二发音时长,包括:

8.如权利要求7所述的方法,其特征在于,所述对所述音素边界信息和所述静音段信息进行边界修正,得到所述第一发音时长和所述第二发音时长,包括:

9.如权利要求1所述的方法,其特征在于,所述基于所述第一发音时长和所述第二发音时长,对所述第一静音边界信息、所述第二静音边界信息添加预设的韵律标签,得到所述目标文本的对齐信息,包括:

10.如权利要求9所述的方法,其特征在于,所述确定并根据所述已知标点的标点类型,对所述第一静音边界信息添加预设的第二韵律标签或第三韵律标签,得到所述目标文本的对齐信息,包括:

11.一种文本对齐信息获取装置,其特征在于,包括:

12.一种计算机设备,其特征在于,包括:

13.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行权利要求1至10中任一项所述文本对齐信息获取方法中的步骤。


技术总结
本申请提供一种文本对齐信息获取方法、装置及计算机设备,方法包括:获取目标文本的音素序列信息,以及与目标文本关联的音频信息;基于音素序列信息和音频信息,确定音素序列信息中的各个音素的音素边界信息,以及音频信息中的静音段信息;其中,静音段信息包括已知标点的第一静音边界信息、未知标点的第二静音边界信息;分析静音段信息,以对音素边界信息和静音段信息进行边界修正,得到各音素的第一发音时长,以及各已知标点的第二发音时长;基于第一发音时长和第二发音时长,对第一静音边界信息、第二静音边界信息添加预设的韵律标签,得到目标文本的对齐信息。采用本方法,能够有效改善对齐效果的可靠性,得到准确率较高的文本对齐信息。

技术研发人员:张晴,朱鹏程,毕梦霄,许璐,胡志伟,吕唐杰,范长杰,胡志鹏
受保护的技术使用者:网易(杭州)网络有限公司
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1