一种文本对齐语音的方法、装置、设备及介质与流程

文档序号：28805202发布日期：2022-02-09 01:51阅读：来源：国知局

技术特征：
1.一种文本对齐语音的方法，其特征在于，所述方法包括：对视频的视觉分量进行识别，获得第一识别结果，对所述视频的语音分量进行识别，获得第二识别结果，所述第一识别结果包括所述视频中文本所在的空间位置、所述文本出现和消失的时间以及所述文本的内容，所述第二识别结果包括所述视频中的语音对应的至少一个单词以及所述至少一个单词出现的时间；根据所述第一识别结果进行编码，获得第一特征，根据所述第二识别结果进行编码，获得第二特征，根据所述第一特征和所述第二特征获得融合特征；将所述融合特征输入分类器，获得所述文本的属性，所述文本的属性用于描述所述文本是否对齐所述语音。2.根据权利要求1所述的方法，其特征在于，所述根据所述第一识别结果进行编码，获得第一特征，包括：采用词嵌入将所述第一识别结果中所述文本的内容表示为第一向量；将所述第一识别结果中所述文本所在的空间位置以及所述文本出现和消失的时间嵌入所述第一向量，获得第一特征。3.根据权利要求1所述的方法，其特征在于，所述根据所述第二识别结果进行编码，获得第二特征，包括：采用词嵌入将所述第二识别结果中所述语音对应的至少一个单词表示为第二向量；将所述第二识别结果中所述至少一个单词出现的时间嵌入所述第二向量；对嵌入后的所述第二向量进行编码，获得第二特征。4.根据权利要求1至3任一项所述的方法，其特征在于，所述根据所述第一特征和所述第二特征获得融合特征，包括：以所述第一特征为查询输入，对所述第二特征进行基于注意力的解码，获得融合特征。5.根据权利要求1至3任一项所述的方法，其特征在于，所述分类器采用多层全连接网络。6.根据权利要求1至3任一项所述的方法，其特征在于，所述方法还包括：确定所述第一识别结果中所述文本的内容与所述第二识别结果中所述至少一个单词的相似度，或者确定所述第一识别结果中所述文本出现的时间与所述第二识别结果中对应单词出现的时间之间的时间差；根据所述相似度或者所述时间差，纠正所述分类器的输出。7.一种文本对齐语音的装置，其特征在于，所述装置包括：识别模块，用于对视频的视觉分量进行识别，获得第一识别结果，对所述视频的语音分量进行识别，获得第二识别结果，所述第一识别结果包括所述视频中文本所在的空间位置、所述文本出现和消失的时间以及所述文本的内容，所述第二识别结果包括所述视频中的语音对应的至少一个单词以及所述至少一个单词出现的时间；编码模块，用于根据所述第一识别结果进行编码，获得第一特征，根据所述第二识别结果进行编码，获得第二特征，根据所述第一特征和所述第二特征获得融合特征；分类模块，用于将所述融合特征输入分类器，获得所述文本的属性，所述文本的属性用于描述所述文本是否对齐所述语音。8.根据权利要求7所述的装置，其特征在于，所述编码模块用于：
采用词嵌入将所述第一识别结果中所述文本的内容表示为第一向量；将所述第一识别结果中所述文本所在的空间位置以及所述文本出现和消失的时间嵌入所述第一向量，获得第一特征。9.根据权利要求7所述的装置，其特征在于，所述编码模块用于：采用词嵌入将所述第二识别结果中所述语音对应的至少一个单词表示为第二向量；将所述第二识别结果中所述至少一个单词出现的时间嵌入所述第二向量；对嵌入后的所述第二向量进行编码，获得第二特征。10.根据权利要求7至9任一项所述的装置，其特征在于，所述编码模块用于：以所述第一特征为查询输入，对所述第二特征进行基于注意力的解码，获得融合特征。11.根据权利要求7至9任一项所述的装置，其特征在于，所述分类器采用多层全连接网络。12.根据权利要求7至9任一项所述的装置，其特征在于，所述装置还包括纠正模块，所述纠正模块用于：确定所述第一识别结果中所述文本的内容与所述第二识别结果中所述至少一个单词的相似度，或者确定所述第一识别结果中所述文本出现的时间与所述第二识别结果中对应单词出现的时间之间的时间差；根据所述相似度或者所述时间差，纠正所述分类器的输出。13.一种设备，其特征在于，所述设备包括处理器和存储器；所述处理器用于执行所述存储器中存储的指令，以使得所述设备执行如权利要求1至6中任一项所述的方法。14.一种计算机可读存储介质，其特征在于，包括指令，所述指令指示设备执行如权利要求1至6中任一项所述的方法。15.一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得计算机执行如权利要求1至6中任一项所述的方法。

技术总结
本申请提供了一种文本对齐语音的方法、装置、设备及介质，该方法包括：电子设备对视频的视觉分量进行识别，获得包括视频中文本所在的空间位置、文本出现和消失的时间以及文本的内容的第一识别结果，对视频的语音分量进行识别，获得包括视频中语音对应的至少一个单词以及至少一个单词出现的时间的第二识别结果，根据第一识别结果进行编码获得第一特征，对第二识别结果进行编码获得第二特征，然后根据第一特征和第二特征获得融合特征，通过分类器获得融合特征对应的文本是否对齐语音的属性，以实现文本对齐。如此，能够从语义层面对齐文本与语音，具有较高的准确度。具有较高的准确度。具有较高的准确度。

技术研发人员：邹应王彦杰黄灿王长虎
受保护的技术使用者：北京有竹居网络技术有限公司
技术研发日：2021.10.29
技术公布日：2022/2/8

完整全部详细技术资料下载

当前第2页1 2