语音字幕的生成和装置、播放方法和装置的制造方法

文档序号：9263786阅读：720来源：国知局

语音字幕的生成和装置、播放方法和装置的制造方法
【技术领域】
[0001]本发明涉及数据处理技术领域，特别是涉及一种语音字幕的生成方法、一种语音字幕的生成装置、一种播放方法和一种播放装置。
【背景技术】
[0002]随着人们生活质量的提高，观赏视频已经成为了人们日常的一种消遣方式，但是对于盲人群体来说，他们由于在视力上存在缺陷，无法正常观看视频，因此需要为他们提供可观看的“无障碍视频”。
[0003]目前，上述为盲人提供的“无障碍视频”都是由讲解员对视频的过场场景、片头片尾、形体动作等非人物对话的场景进行现场解说，或者将这些解说合成到视频中一同对外发售。这种纯人工的做法需要专门的解说员创作解说词并录音，因此存在制作成本高、生产效率低和制作量低的问题。

【发明内容】

[0004]本发明实施例所要解决的技术问题是提供一种语音字幕的生成方法、一种播放方法，能够节约成本，并且提高生产效率和产量。
[0005]相应的，本发明实施例还提供了一种语音字幕的生成装置、一种播放装置，用以保证上述方法的实现及应用。
[0006]为了解决上述问题，本发明公开了一种语音字幕的生成方法，包括:
[0007]提取目标视频片段的视频特征；
[0008]将与所述视频特征最匹配的评论信息确定为所述目标视频片段的文本描述信息;
[0009]依据所述文本描述信息，生成所述目标视频片段的语音字幕。
[0010]优选的，通过如下步骤确定目标视频片段:
[0011]识别视频对应音频信息的类别；其中，所述音频信息的类别包括人物对话类别和非人物对话类别；
[0012]在所述音频信息的类别为非人物对话类别时，将当前视频片段作为目标视频片段。
[0013]优选的，所述识别视频对应音频信息的类别的步骤，包括:使用语音活性检测技术识别所述视频对应音频信息的类别。
[0014]优选的，所述将与所述视频特征最匹配的评论信息确定为所述目标视频片段的文本描述信息的步骤，包括:
[0015]计算所述目标视频片段的评论信息与所述视频特征的相似度；
[0016]确定所述相似度最大的所述评论信息为所述目标视频片段的文本信息。
[0017]优选的，所述方法还包括:将所述语音字幕合成到所述目标视频片段对应的音频中。
[0018]另一方面，本发明还提供了一种播放方法，包括:
[0019]接收视频加载请求；
[0020]依据所述视频加载请求，确定对应视频的音频信息；其中，所述音频中包括:普通音频和语音字幕；其中，所述语音字幕为利用前述的语音字幕的生成方法得到；
[0021]播放所述音频。
[0022]再一方面，本发明还提供了一种语音字幕的生成装置，包括:
[0023]提取模块，用于提取目标视频片段的视频特征；
[0024]第一确定模块，用于将与所述视频特征最匹配的评论信息确定为所述目标视频片段的文本描述信息；及
[0025]生成模块，用于依据所述文本描述信息，生成所述目标视频片段的语音字幕。
[0026]优选的，所述装置还包括:
[0027]识别模块，用于识别视频对应音频信息的类别；其中，所述音频信息的类别包括人物对话类别和非人物对话类别；
[0028]第二确定模块，用于在所述音频信息的类别为非人物对话类别时，将当前视频片段作为目标视频片段。
[0029]优选的，所述识别模块包括:
[0030]识别单元，用于使用语音活性检测技术识别所述视频对应音频信息的类别。
[0031]优选的，所述第一确定模块包括:
[0032]计算单元，用于计算所述目标视频片段的评论信息与所述视频特征的相似度；及
[0033]确定单元，用于确定所述相似度最大的所述评论信息为所述目标视频片段的文本信息。
[0034]优选的，所述装置还包括:
[0035]合成模块，用于将所述语音字幕合成到所述目标视频片段对应的音频中。
[0036]又一方面，本发明还提供了一种播放装置，包括:
[0037]接收模块，用于接收视频加载请求；
[0038]确定模块，用于依据所述视频加载请求，确定对应视频的音频信息；其中，所述音频中包括:普通音频和语音字幕；其中，所述语音字幕为利用前述的语音字幕的生成装置得到；
[0039]播放模块，用于播放所述音频。
[0040]与现有技术相比，本发明实施例包括以下优点:
[0041]本发明实施例提供的一种语音字幕的生成方案，将目标视频片段的视频特征与评论信息相结合，确定与上述视频特征最匹配的评论信息为上述目标视频片段的文本描述信息，并依据上述文本描述信息生成语音字幕。采用本发明实施例提供的一种语音字幕的生成方法，可以自动化的为视频生成语音字幕，由于生成的语音字幕在内容上是在将视频片段中的前后场景关联基础上对当前视频片段提交的描述性的文字信息，因此对目标视频片段的描述较为精准；相对于人工的做法，本发明实施例不仅节约了成本，而且提高了生产效率和产量。
【附图说明】
[0042]图1是本发明的一种语音字幕的生成方法实施例一的步骤流程图；
[0043]图2是本发明的一种语音字幕的生成方法实施例二的步骤流程图；
[0044]图3是本发明的一种语音字幕的生成方法实施例三的步骤流程图；
[0045]图4是本发明的一种语音字幕的生成方法实施例四的步骤流程图；
[0046]图5是本发明的一种语音字幕的生成方法实施例五的步骤流程图；
[0047]图6是本发明的一种播放方法实施例的步骤流程图；
[0048]图7是本发明的一种语音字幕的生成装置实施例一的结构示意图；
[0049]图8是本发明的一种语音字幕的生成装置实施例二的结构示意图；
[0050]图9是本发明的一种语音字幕的生成装置实施例三的结构示意图；
[0051]图10是本发明的一种语音字幕的生成装置实施例四的结构示意图；
[0052]图11是本发明的一种语音字幕的生成装置实施例五的结构示意图；以及
[0053]图12是本发明的一种播放装置实施例的结构示意图。
【具体实施方式】
[0054]为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和【具体实施方式】对本发明作进一步详细的说明。
[0055]参照图1，示出了本发明的一种语音字幕的生成方法实施例一的步骤流程图，具体可以包括如下步骤:
[0056]步骤101、提取目标视频片段的视频特征；
[0057]本发明实施例可应用于各类视频播放应用程序的场景中；这里的视频播放应用程序具体可以包括:客户端程序、或者浏览器上运行的视频网站程序等，本发明实施例对具体的应用场景不加以限制。
[0058]本发明实施例中，目标视频片段可用于表示需要插入语音字幕的视频片段，通常一个视频具体可以包括多个视频片段，其中的需要插入语音字幕的视频片段即为目标视频片段。
[0059]上述视频特征可用于表示目标视频片段中包含的信息(如图像的纹理特征等)、或者涉及的信息(如元数据信息等)。在此提供一种提取视频特征的一种示例:可以采用视频分割技术，将连续的视频流划分成多个视频片段，提取视频片段的代表帧和动态特征，其中，代表帧可以是视频片段中所有视频帧中的部分视频帧，上述提取视频片段的动态特征具体过程可以包括:提取视频片段中图像的颜色特征、纹理特征、形状特征等，将这些特征与图像知识库进行映射来得到图像的实际含义，其中图像知识库可用于存储图像特征以及其对应的图像的实际意义。例如，对于一段描述“霜叶红于二月花”的视频片段，可以采用上述视频分割技术提取到该视频片段的颜色(如红和灰)、树叶形状、以及树叶慢慢飘落的动态特征等特征，这些特征就可以作为该视频片段的视频特征。

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郭磊涛;
技术所有人：北京奇艺世纪科技有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。