文本对齐信息获取方法、装置及计算机设备与流程

文档序号：34393847发布日期：2023-06-08 11:24阅读：47来源：国知局

本申请涉及智能语音，具体涉及一种文本对齐信息获取方法、装置及计算机设备。

背景技术：

1、智能语音技术是实现人机语言的通信，包括语音识别技术(automatic speechrecognition，asr)、语音合成技术(text to speech，tts)等，目前已广泛应用于日常生活中，如家用语音助手、智能语音客服等，不仅提高了人们生活的便利性，也帮助企业节约了成本、提高了工作效率，拥有广大应用场景。

2、然而，上述应用场景离不开语音模型的训练，且模型训练过程中，数据是影响模型效果的关键因素，所需数据通常是一条音频对应一条文本，但对于部分模型而言，除音频及其对应的文本之外，还需要更细颗粒度的对齐信息。一般来说，普通人语速平均每分钟160-260个汉字，若需标注对齐信息，则平均每秒音频需要标注5-9个音素的边界，对于几十到几百小时的数据集来说，完全采用人工进行对齐标注，在时间和资源上都耗费巨大，并不可取。

3、因此，常见的对齐信息获取方式有两种，一是采用机器学习对齐工具直接获取对齐信息；二是使用机器学习工具预标注，再利用人工检查修改，但是两种方式的对齐结果相对来说都不是很可靠，或是受对齐工具的影响，或是受人工经验影响。所以，如何获取可靠性较高的对齐信息成为目前亟待解决的问题。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种文本对齐信息获取方法、装置及计算机设备，用以通过完善对齐信息获取流程、改进对齐预标注工具，提高对齐结果的可靠性，获取更高精度的文本对齐信息。

2、第一方面，本申请提供一种文本对齐信息获取方法，包括：

3、获取目标文本的音素序列信息，以及与目标文本关联的音频信息；

4、基于音素序列信息和音频信息，确定音素序列信息中的各个音素的音素边界信息，以及音频信息中的静音段信息；其中，静音段信息包括已知标点的第一静音边界信息、未知标点的第二静音边界信息；

5、分析静音段信息，以对音素边界信息和静音段信息进行边界修正，得到各音素的第一发音时长，以及各已知标点的第二发音时长；

6、基于第一发音时长和第二发音时长，对第一静音边界信息、第二静音边界信息添加预设的韵律标签，得到目标文本的对齐信息。

7、第二方面，本申请提供一种文本对齐信息获取装置，包括：

8、信息获取模块，用于获取目标文本的音素序列信息，以及与目标文本关联的音频信息；

9、边界确定模块，用于基于音素序列信息和音频信息，确定音素序列信息中的各个音素的音素边界信息，以及音频信息中的静音段信息；其中，静音段信息包括已知标点的第一静音边界信息、未知标点的第二静音边界信息；

10、边界修正模块，用于分析静音段信息，以对音素边界信息和静音段信息进行边界修正，得到各音素的第一发音时长，以及各已知标点的第二发音时长；

11、对齐获取模块，用于基于第一发音时长和第二发音时长，对第一静音边界信息、第二静音边界信息添加预设的韵律标签，得到目标文本的对齐信息。

12、第三方面，本申请还提供一种计算机设备，包括：

13、一个或多个处理器；

14、存储器；以及一个或多个应用程序，其中的一个或多个应用程序被存储于存储器中，并配置为由处理器执行以实现上述的文本对齐信息获取方法。

15、第四方面，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器进行加载，以执行上述文本对齐信息获取方法。

16、第五方面，本申请实施例提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面提供的文本对齐信息获取方法。

17、上述文本对齐信息获取方法、装置及计算机设备，通过获取目标文本的音素序列信息，以及与目标文本关联的音频信息，并基于音素序列信息和音频信息，确定音素序列信息中的各个音素的音素边界信息，以及音频信息中的静音段信息，即可分析静音段信息，对音素边界信息和静音段信息进行边界修正，得到各音素的第一发音时长，以及各已知标点的第二发音时长，进而基于第一发音时长和第二发音时长，对静音段信息包括已知标点的第一静音边界信息、未知标点的第二静音边界信息添加预设的韵律标签，最终得到更高精度的对齐信息。而从分析文本和音频改为分析音素序列和音频，不仅可避免文本转音素过程带来的错误，还可避免后续关联性错误，此外通过静音检测还解决了静音边界易出现错误的问题，增加了对齐结果的可靠性，提高了对齐标注的准确率。

技术特征：

1.一种文本对齐信息获取方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述获取目标文本的音素序列信息，包括：

3.如权利要求2所述的方法，其特征在于，所述基于预设的编辑距离算法，分析所述语音识别文本和所述待处理文本，以在判定所述待处理文本存在错误时，对所述待处理文本进行修正，得到所述目标文本，包括：

4.如权利要求3所述的方法，其特征在于，所述基于所述字错误率，判断所述待处理文本是否存在文本错误，以在判定所述待处理文本存在错误时，对所述待处理文本进行修正，得到所述目标文本，包括：

5.如权利要求1所述的方法，其特征在于，所述基于所述音素序列信息和所述音频信息，确定所述音素序列信息中的各个音素的音素边界信息，以及所述音频信息中的静音段信息，包括：

6.如权利要求1或5所述的方法，其特征在于，所述分析所述静音段信息，以对所述音素边界信息和所述静音段信息进行边界修正，得到各所述音素的第一发音时长，以及各所述已知标点的第二发音时长，包括：

7.如权利要求6所述的方法，其特征在于，所述若所述待识别静音段信息与所述静音段信息的时间边界不一致，则对所述音素边界信息和所述静音段信息进行边界修正，得到所述第一发音时长和所述第二发音时长，包括：

8.如权利要求7所述的方法，其特征在于，所述对所述音素边界信息和所述静音段信息进行边界修正，得到所述第一发音时长和所述第二发音时长，包括：

9.如权利要求1所述的方法，其特征在于，所述基于所述第一发音时长和所述第二发音时长，对所述第一静音边界信息、所述第二静音边界信息添加预设的韵律标签，得到所述目标文本的对齐信息，包括：

10.如权利要求9所述的方法，其特征在于，所述确定并根据所述已知标点的标点类型，对所述第一静音边界信息添加预设的第二韵律标签或第三韵律标签，得到所述目标文本的对齐信息，包括：

11.一种文本对齐信息获取装置，其特征在于，包括：

12.一种计算机设备，其特征在于，包括：

13.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行权利要求1至10中任一项所述文本对齐信息获取方法中的步骤。

技术总结
本申请提供一种文本对齐信息获取方法、装置及计算机设备，方法包括：获取目标文本的音素序列信息，以及与目标文本关联的音频信息；基于音素序列信息和音频信息，确定音素序列信息中的各个音素的音素边界信息，以及音频信息中的静音段信息；其中，静音段信息包括已知标点的第一静音边界信息、未知标点的第二静音边界信息；分析静音段信息，以对音素边界信息和静音段信息进行边界修正，得到各音素的第一发音时长，以及各已知标点的第二发音时长；基于第一发音时长和第二发音时长，对第一静音边界信息、第二静音边界信息添加预设的韵律标签，得到目标文本的对齐信息。采用本方法，能够有效改善对齐效果的可靠性，得到准确率较高的文本对齐信息。

技术研发人员：张晴,朱鹏程,毕梦霄,许璐,胡志伟,吕唐杰,范长杰,胡志鹏
受保护的技术使用者：网易（杭州）网络有限公司
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张晴朱鹏程毕梦霄许璐胡志伟吕唐杰范长杰胡志鹏
技术所有人：网易（杭州）网络有限公司
我是此专利的发明人