成到上述目标视频片段对应的音频中。
[0146]参照图12,示出了本发明一种播放装置实施例的结构示意图,具体可以包括:接收模块1201、确定模块1202及播放模块1203 ;其中,
[0147]接收模块1201,用于接收视频加载请求;
[0148]确定模块1202,用于依据上述视频加载请求,确定对应视频的音频信息;其中,上述音频中具体可以包括:普通音频和语音字幕;其中,上述语音字幕为利用前述的语音字幕的生成装置得到;及
[0149]播放模块1203,用于播放上述音频。
[0150]综上,由于本发明实施例提供的一种播放装置,可以对视频中非人物对话的视频片段进行人物语音的描述,方便了无法正常观看视频的人进行观赏视频,如:盲人,做跑步等运动的人等等。
[0151]对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0152]本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
[0153]本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0154]本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0155]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0156]这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0157]尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
[0158]最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
[0159] 以上对本发明所提供的一种语音字幕的生成方法、一种语音字幕的生成装置、一种播放方法和一种播放装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在【具体实施方式】及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
【主权项】
1.一种语音字幕的生成方法,其特征在于,包括: 提取目标视频片段的视频特征; 将与所述视频特征最匹配的评论信息确定为所述目标视频片段的文本描述信息; 依据所述文本描述信息,生成所述目标视频片段的语音字幕。2.根据权利要I所述的方法,其特征在于,通过如下步骤确定目标视频片段: 识别视频对应音频信息的类别;其中,所述音频信息的类别包括人物对话类别和非人物对话类别; 在所述音频信息的类别为非人物对话类别时,将当前视频片段作为目标视频片段。3.根据权利要求2所述的方法,其特征在于,所述识别视频对应音频信息的类别的步骤,包括:使用语音活性检测技术识别所述视频对应音频信息的类别。4.根据权利要求1所述的方法,其特征在于,所述将与所述视频特征最匹配的评论信息确定为所述目标视频片段的文本描述信息的步骤,包括: 计算所述目标视频片段的评论信息与所述视频特征的相似度; 确定所述相似度最大的所述评论信息为所述目标视频片段的文本信息。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述语音字幕合成到所述目标视频片段对应的音频中。6.一种播放方法,其特征在于,包括: 接收视频加载请求; 依据所述视频加载请求,确定对应视频的音频信息;其中,所述音频中包括:普通音频和语音字幕;其中,所述语音字幕为利用前述权利要求1至5中任一所述的语音字幕的生成方法得到; 播放所述音频。7.一种语音字幕的生成装置,其特征在于,包括: 提取模块,用于提取目标视频片段的视频特征; 第一确定模块,用于将与所述视频特征最匹配的评论信息确定为所述目标视频片段的文本描述信息?’及 生成模块,用于依据所述文本描述信息,生成所述目标视频片段的语音字幕。8.根据权利要求7所述的装置,其特征在于,所述装置还包括: 识别模块,用于识别视频对应音频信息的类别;其中,所述音频信息的类别包括人物对话类别和非人物对话类别; 第二确定模块,用于在所述音频信息的类别为非人物对话类别时,将当前视频片段作为目标视频片段。9.根据权利要求8所述的装置,其特征在于,所述识别模块包括: 识别单元,用于使用语音活性检测技术识别所述视频对应音频信息的类别。10.根据权利要求7所述的装置,其特征在于,所述第一确定模块包括: 计算单元,用于计算所述目标视频片段的评论信息与所述视频特征的相似度;及 确定单元,用于确定所述相似度最大的所述评论信息为所述目标视频片段的文本信息。11.根据权利要求7所述的装置,其特征在于,所述装置还包括: 合成模块,用于将所述语音字幕合成到所述目标视频片段对应的音频中。12.—种播放装置,其特征在于,包括: 接收模块,用于接收视频加载请求; 确定模块,用于依据所述视频加载请求,确定对应视频的音频信息;其中,所述音频中包括:普通音频和语音字幕;其中,所述语音字幕为利用前述权利要求7至11中任一所述的语音字幕的生成装置得到; 播放模块,用于播放所述音频。
【专利摘要】本发明实施例提供了一种语音字幕的生成和装置、播放方法和装置,其中的生成方法具体包括:提取目标视频片段的视频特征;将与所述视频特征最匹配的评论信息确定为所述目标视频片段的文本描述信息;依据所述文本描述信息,生成所述目标视频片段的语音字幕。本申请实施例能够节约成本,并且提高生产效率和产量。
【IPC分类】H04N5/445, H04N21/4402, H04N21/485, H04N21/845, H04N21/439
【公开号】CN104980790
【申请号】CN201510377074
【发明人】郭磊涛
【申请人】北京奇艺世纪科技有限公司
【公开日】2015年10月14日
【申请日】2015年6月30日