语音音素识别方法、介质、装置和计算设备与流程

文档序号：34863602发布日期：2023-07-23 15:09阅读：68来源：国知局

本公开的实施方式涉及互联网，更具体地，本公开的实施方式涉及一种语音音素识别方法、介质、装置和计算设备。

背景技术：

1、本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

2、现有技术中，随着人工智能技术和人机交互技术的发展，通过虚拟人物、ai或虚拟主播来实现直播、旅游信息介绍等功能，得到越来越广泛的应用。通过预先制作需要播报的内容，然后由虚拟人物形象或ai来自动播送，能够显著节省人力成本。为保证观众用户体验，这类虚拟人物形象在播送时，其唇部动作与预先制作的内容语音需要保证较好的同步，即唇语驱动的场景。因此，需要ai对应的语音识别算法能够确定每个字或者更细的单位所出现的时间，以保证唇语驱动场景下虚拟人物形象的唇部动作能够与语音直接同步。

3、现有语音识别算法，通常只能确定整句的语音，粒度不足，导致无法有效匹配虚拟人物形象的唇部动作和语音，观众体验也较差。

技术实现思路

1、本公开提供一种语音音素识别方法、介质、装置和计算设备，以解决相关技术中语音识别无法有效匹配虚拟人物形象的唇部动作和语音的问题。

2、在本公开实施方式的第一方面中，提供了一种语音音素识别方法，包括：

3、将待识别的语音数据输入到预先训练的音素识别模型中，输出语音数据对应的音素序列，音素序列包括语音数据中每个音素的出现顺序。

4、在本公开实施方式的第二方面中，提供了一种语音音素识别模型训练方法，包括：

5、采集用于训练的样本语音数据和样本语音数据对应的样本音素序列；

6、将样本语音数据输入到音素识别模型中，基于输出的预测音素序列与样本音素序列，对音素识别模型进行训练。

7、在本公开实施方式的第三方面中，提供了一种计算机可读存储介质，包括：

8、计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现如本公开第一方面中的指标数据存储方法，和/或，计算机执行指令被处理器执行时用于实现如本公开第二方面中的语音音素识别模型训练方法。

9、在本公开实施方式的第四方面中，提供了一种语音音素识别装置，包括：

10、识别模块，用于将待识别的语音数据输入到预先训练的音素识别模型中，输出语音数据对应的音素序列，音素序列包括语音数据中每个音素的出现顺序

11、在本公开实施方式的第五方面中，提供了一种语音音素识别模型训练装置，包括：

12、样本模块，用于采集用于训练的样本语音数据和样本语音数据对应的样本音素序列；

13、训练模块，用于将样本语音数据输入到音素识别模型中，基于输出的预测音素序列与样本音素序列，对音素识别模型进行训练。

14、在本公开实施方式的第六方面中，提供了一种计算设备，包括：至少一个处理器；

15、以及与至少一个处理器通信连接的存储器；

16、其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使计算设备执行如本公开第一方面中的语音音素识别方法；和/或，以使计算设备执行如本公开第二方面中的语音音素识别模型训练方法。

17、根据本公开实施方式的语音音素识别方法、介质、装置和计算设备，通过将待识别的语音数据输入到预先训练的音素识别模型中，输出语音数据对应的音素序列。由此，可以将语音数据拆解为可以由ai的唇部动作对应表现的音素的集合，且以序列形式表现，使得ai通过读取音素序列，可以按每个音素的持续时间依次通过唇部动作进行表现，从而实现唇部动作与语音的准确匹配，进而显著提高观众的体验。

技术特征：

1.一种语音音素识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的语音音素识别方法，其特征在于，所述语音数据为中文语音，所述音素序列包括：每个中文汉字之间存在至少一个间隔字符。

3.根据权利要求1或2中任一项所述的语音音素识别方法，其特征在于，所述音素识别模型通过如下方式训练得到：

4.根据权利要求3所述的语音音素识别方法，其特征在于，所述采集用于训练的样本语音数据和所述样本语音数据对应的样本音素序列，包括：

5.根据权利要求3所述的语音音素识别方法，其特征在于，所述将所述样本语音数据输入到音素识别模型中，基于输出的预测音素序列与所述样本音素序列，对所述音素识别模型进行训练，包括：

6.一种语音音素识别模型训练方法，其特征在于，包括：

7.一种计算机可读存储介质，其特征在于，包括：所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1至5中任一项所述的语音音素识别方法；和/或，所述计算机执行指令被处理器执行时用于实现如权利要求6所述的语音音素识别模型训练方法。

8.一种语音音素识别装置，其特征在于，所述装置包括：

9.一种语音音素识别模型训练装置，其特征在于，包括：

10.一种计算设备，其特征在于，包括：至少一个处理器；

技术总结
本公开的实施方式提供了一种语音音素识别方法、介质、装置和计算设备。该方法包括：将待识别的语音数据输入到预先训练的音素识别模型中，输出语音数据对应的音素序列，音素序列包括语音数据中每个音素的出现顺序。本公开解决了相关技术中语音识别无法有效匹配虚拟人物形象的唇部动作和语音的问题，将语音数据拆解为可以由AI的唇部动作对应表现的音素的集合，且以序列形式表现，使得AI通过读取音素序列，可以按每个音素的持续时间依次通过唇部动作进行表现，从而实现唇部动作与语音的准确匹配，进而显著提高观众的体验。

技术研发人员：王树栋,许盛辉,潘照明
受保护的技术使用者：杭州网之易创新科技有限公司
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王树栋许盛辉潘照明
技术所有人：杭州网之易创新科技有限公司
我是此专利的发明人

上一篇：一种便于清洗剂投放的洗碗机的制作方法
上一篇：基于改进鲸鱼算法的胶囊神经网络的手写签名识别方法与流程