音频的字幕对齐方法、装置、介质和电子设备与流程

文档序号：35010901发布日期：2023-08-04 05:08阅读：76来源：国知局

本公开涉及音频识别，具体地，涉及一种音频的字幕对齐方法、装置、介质和电子设备。

背景技术：

1、在视频字幕应用场景中，用户会有自动打轴的功能需求。自动打轴又叫自动对齐字幕，就是把准备好的字幕文本自动匹配到音频上并生成时间轴。该功能适用于同时具有音频文件和字幕文本的情况，在匹配过程中，越长的音频所需要的机器资源也就越多，长音频的自动打轴的实现成为了一个难点。

技术实现思路

1、提供该部分内容以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该部分内容并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

2、第一方面，本公开提供一种音频的字幕对齐方法，包括：

3、获取目标音频和所述目标音频的目标字幕文本；

4、若所述目标音频的时长大于第一预设时长，则根据切片时长，对所述目标音频进行切片处理，得到多个第一目标音频；

5、确定每一所述第一目标音频的第一音频特征信息；

6、若所述目标音频的时长小于或等于第二预设时长，则对全部所述第一音频特征信息进行拼接，得到所述目标音频的目标音频特征信息，其中，所述第二预设时长大于所述第一预设时长；

7、根据所述目标字幕文本和所述目标音频特征信息，生成所述目标音频对应的字幕信息。

8、第二方面，本公开提供一种音频的字幕对齐装置，包括：

9、获取模块，用于获取目标音频和所述目标音频的目标字幕文本；

10、第一处理模块，用于若所述目标音频的时长大于第一预设时长，则根据切片时长，对所述目标音频进行切片处理，得到多个第一目标音频；

11、第一确定模块，用于确定每一所述第一目标音频的第一片段音频特征信息；

12、第二处理模块，用于若所述目标音频的时长小于或等于第二预设时长，则对全部所述第一音频特征信息进行拼接，得到所述目标音频的目标音频特征信息，其中，所述第二预设时长大于所述第一预设时长；

13、第一生成模块，用于根据所述目标字幕文本和所述目标音频特征信息，生成所述目标音频对应的字幕信息。

14、第三方面，本公开提供一种计算机可读介质，其上存储有计算机程序，该程序被处理装置执行时实现上述的音频的字幕对齐方法的步骤。

15、第四方面，本公开提供一种电子设备，包括：

16、存储装置，其上存储有计算机程序；

17、处理装置，用于执行所述存储装置中的所述计算机程序，以实现上述的音频的字幕对齐方法的步骤。

18、通过上述技术方案，对时长大于第一预设时长的目标音频进行切片处理，以得到多个第一目标音频，进而确定每一第一目标音频的第一音频特征信息；若目标音频的时长小于或等于第二预设时长，则对全部第一音频特征信息进行拼接，得到目标音频的目标音频特征信息，并根据目标字幕文本和目标音频特征信息，生成目标音频对应的字幕信息。如此，将长音频切分为多个短音频，以针对每一短音频进行特征提取，以避免占据过多的机器资源；而在提取出相应的音频特征信息之后，若目标音频的时长小于或等于第二预设时长，则在进行字幕对齐时则可以将各个音频特征信息形成为一个综合的目标音频特征信息，而通过一次对齐实现目标字幕文本和目标音频特征信息的匹配。由此，可以有效提高字幕文本中的特征提取的效率和准确性，同时也可以在一定程度上提高字幕对齐的效率，结合目标字幕文本，能够生成目标音频对应的准确度较高的字幕信息，实现目标音频和目标字幕文本在时间轴上的匹配，提高对齐结果的准确性。

19、本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

技术特征：

1.一种音频的字幕对齐方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，在所述对每一所述第二目标音频的所述对齐信息进行拼接，生成所述目标音频对应的字幕信息之后，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，所述在所述对每一所述第二目标音频的所述对齐信息进行拼接，生成所述目标音频对应的字幕信息之后，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述分别确定所述重复文本在相邻的所述第二目标音频中的置信度，包括：

6.根据权利要求1所述的方法，其特征在于，所述确定每一所述第一目标音频的第一片段音频特征信息，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述目标字幕文本和所述目标音频特征信息，生成所述目标音频对应的字幕信息，包括：

8.一种音频的字幕对齐装置，其特征在于，包括：

9.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理装置执行时实现权利要求1-7中任一项所述方法的步骤。

10.一种电子设备，其特征在于，包括：

技术总结
本公开涉及音频识别技术领域，具体地，涉及一种音频的字幕对齐方法、装置、介质和电子设备。该方法包括：获取目标音频和目标音频的目标字幕文本；若目标音频的时长大于第一预设时长，则根据切片时长，对目标音频进行切片处理，得到多个第一目标音频；确定每一第一目标音频的第一音频特征信息；若目标音频的时长小于或等于第二预设时长，则对全部第一音频特征信息进行拼接，得到目标音频的目标音频特征信息，其中，第二预设时长大于第一预设时长；根据目标字幕文本和目标音频特征信息，生成目标音频对应的字幕信息。如此，能够避免占据过多的机器资源，通过一次对齐实现目标字幕文本和目标音频特征信息的匹配，提高对齐结果的准确性。

技术研发人员：孙修松,马泽君
受保护的技术使用者：北京有竹居网络技术有限公司
技术研发日：
技术公布日：2024/1/14

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙修松马泽君
技术所有人：北京有竹居网络技术有限公司
我是此专利的发明人

上一篇：被动地震信号的时频阈值去噪方法与流程
上一篇：一种城市用污水处理设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。