一种生成字幕的方法及终端的制作方法
【专利摘要】本发明实施例公开了一种生成字幕的方法,包括:获取待处理的多媒体文件中的音频信息;对所述音频信息进行语音识别,获得对应的文本信息;对所述文本信息进行处理,生成所述多媒体文件的字幕信息。本发明实施例还公开了一种终端。采用本发明,可以实现对待处理的多媒体文件中的音频信息进行语音识别以生成多媒体文件的字幕信息,这种方式效率高,操作方便,流程简单。
【专利说明】一种生成字幕的方法及终端
【技术领域】
[0001]本发明涉及电子【技术领域】,尤其涉及一种生成字幕的方法及终端。
【背景技术】
[0002]字幕指以文字形式显示影视作品里面的对话等非影像内容,也泛指影视作品后期加工的文字,对于影视作品来说,字幕是不可缺少的,所以字幕的制作也成为一个热门的技术。现有的制作字幕的方法主要是由字幕制作人员进行人工的字幕翻译和制作,一般采用多人分工的方式,其流程主要包括听写、翻译、校对、润色、时间轴和后期等,最后制作出符合特定规范的字幕文件,供用户使用,此种生成字幕的方式效率低下,工序复杂,且需要大量的人力物力。
【发明内容】
[0003]本发明实施例提供一种生成字幕的方法及终端,可实现对待处理的多媒体文件中的音频信息进行语音识别以生成多媒体文件的字幕信息,这种方式效率高,操作方便,流程简单。
[0004]本发明实施例提供了一种生成字幕的方法,包括:
[0005]获取待处理的多媒体文件中的音频信息;
[0006]对所述音频信息进行语音识别,获得对应的文本信息;
[0007]对所述文本信息进行处理,生成所述多媒体文件的字幕信息。
[0008]相应地,本发明实施例还提供了一种终端,包括:
[0009]第一获取模块,用于获取待处理的多媒体文件中的音频信息;
[0010]语音识别模块,用于对所述音频信息进行语音识别,获得对应的文本信息;
[0011]生成模块,用于对所述文本信息进行处理,生成所述多媒体文件的字幕信息。
[0012]本发明实施例中,通过对待处理的多媒体文件中的音频信息进行语音识别,获得对应的文本信息,并将文本信息进行处理生成多媒体文件的字幕信息,这种字幕生成方法效率高,操作方便,流程简单。
【专利附图】
【附图说明】
[0013]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0014]图1是本发明提供的一种生成字幕的方法的第一实施例流程示意图;
[0015]图2是本发明提供的一种生成字幕的方法的第二实施例流程示意图;
[0016]图3是本发明提供的一种生成字幕的方法的第三实施例流程示意图;
[0017]图4是本发明实施例提供的一种终端的结构示意图;[0018]图5是本发明实施例提供的另一种终端的结构示意图;
[0019]图6是本发明实施例提供的一种确认翻译模块的结构示意图;
[0020]图7是本发明实施例提供的一种第一获取模块的结构示意图;
[0021]图8是本发明实施例提供的一种生成模块的结构示意图。
【具体实施方式】
[0022]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0023]本发明实施例所述终端可以为手机、平板电脑、笔记本电脑、数字电视终端等具有播放多媒体文件功能的终端。
[0024]请参照图1,为本发明提供的一种生成字幕的方法的第一实施例流程示意图;如图1所述,本实施例所述的一种生成字幕的方法包括步骤:
[0025]S100,获取待处理的多媒体文件中的音频信息;
[0026]具体实施例中,待处理的多媒体文件可以是视频文件或者视频流,该视频文件或者视频流的来源包括但不限于:(I)检测到的下载文件;(2)对存储设备进行搜索,发现的视频文件;(3)检测到的视频流,例如直播视频流、http视频流等等,获取待处理的多媒体文件中的音频信息可以是获取待处理的多媒体文件中的音频,该音频信息可以是不经切分处理的音频,也可以是经过切分处理后的音频。
[0027]S101,对所述音频信息进行语音识别,获得对应的文本信息;
[0028]具体实施例中,对音频信息进行语音识别的方式可以是利用语音库,对音频信息进行语音识别,获得音频信息所对应的文本信息,需要说明的是,语音库可以位于终端设备,也可以位于云端服务器,语音库中存储了海量的音频信息与文本信息的对应关系,音频信息与文本信息的对应关系为,文本信息是音频信息的文字表达形式。
[0029]S102,对所述文本信息进行处理,生成所述多媒体文件的字幕信息。
[0030]具体实施例中,对文本信息的处理,可以是根据每段音频信息的开始时间和结束时间将文本信息进行分割和换行,形成多媒体文件的字幕信息,具体的,将文本信息进行分割的标准主要依据视频中字幕信息与音频信息的配合。需要说明的是,生成多媒体文件的字幕信息后,可以根据实际情况选择字幕信息的输出方式,字幕信息的输出方式包括但不限于:(1)生成特定格式、符合字幕格式标准的字幕文件;(2)在播放视频时,将字幕信息整合到视频输出流中,让播放器去做字幕显示工作。
[0031]本发明实施例中,通过对待处理的多媒体文件中的音频信息进行语音识别,获得对应的文本信息,并将文本信息进行处理生成多媒体文件的字幕信息,这种字幕生成方法效率高,操作方便,流程简单。
[0032]请参照图2,为本发明提供的一种生成字幕的方法的第二实施例流程示意图;如图2所述,本实施例所述的一种生成字幕的方法包括步骤:
[0033]S200,判断所述多媒体文件中是否包含源字幕信息;如果判断结果为是,则转入步骤S201,否则转入步骤S202 ;[0034]具体实施例中,多媒体文件中可能包含源字幕信息,也可能不包含源字幕信息,具体的,需要终端设备判断多媒体文件中是否包含源字幕信息,具体的判断方式可以是,读取多媒体文件源字幕信息标识,例如,在多媒体文件中可以预设源字幕标识,当源字幕标识为‘I’时,则标识该多媒体文件中包含源字幕信息,当源字幕标识为‘0’时,则标识该多媒体文件中不包含源字幕信息,需要对该多媒体文件生成字幕信息。
[0035]S201,根据语言设置,确认所述源字幕信息是否需要进行翻译,并在确认所述源字幕信息需要进行翻译时,对所述源字幕信息进行翻译以生成所述多媒体文件的字幕信息。
[0036]具体实施例中,当多媒体文件包含源字幕信息时,但是源字幕信息的语种可能不符合语言设置的语种,需要根据语言设置所设置的目标语种,确认源字幕信息是否需要进行翻译,如果源字幕信息的语种不符合语言设置的目标语种,则确认源字幕信息需要进行翻译,利用字典库对源字幕信息进行翻译,以生成多媒体文件的字幕信息,需要说明的是,字典库可以位于本地设备或者云端服务器。
[0037]S202,获取待处理的多媒体文件中的音频信息;
[0038]本发明实施例步骤S202,请参照图1所示的实施例步骤S100,在此不进行赘述。
[0039]S203,对所述音频信息进行语音识别,获得对应的文本信息;
[0040]本发明实施例步骤S203,请参照图1所示的实施例步骤S101,在此不进行赘述。
[0041]S204,对所述文本信息进行处理,生成所述多媒体文件的字幕信息。
[0042]本发明实施例步骤S204,请参照图1所示的实施例步骤S102,在此不进行赘述。
[0043]本发明实施例中,通过对待处理的多媒体文件中的音频信息进行语音识别,获得对应的文本信息,并将文本信息进行处理生成多媒体文件的字幕信息,这种字幕生成方法效率高,操作方便,流程简单。
[0044]请参照图3,为本发明提供的一种生成字幕的方法的第三实施例流程示意图;如图3所述,本实施例所述的一种生成字幕的方法包括步骤:
[0045]S300,判断所述多媒体文件中是否包含源字幕信息;如果判断结果为是,则转入步骤S301,否则转入步骤S303 ;
[0046]本发明实施例步骤S300,请参照图2所示的实施例步骤S200,在此不进行赘述。
[0047]S301,根据语言设置,确认所述源字幕信息是否需要进行翻译,
[0048]具体实施例中,当多媒体文件包含源字幕信息时,但是源字幕信息的语种可能不符合语音设置的语种,需要根据语言设置所设置的目标语种,确认源字幕信息是否需要进行翻译,如果源字幕信息的语种不符合语言设置的目标语种,则确认源字幕信息需要进行翻译,如果源字幕信息的语种符合语言设置的目标语种,则确认源字幕信息不需要进行翻译。
[0049]S302,并在确认所述源字幕信息需要进行翻译时,调用本地字典库,对所述源字幕信息进行翻译以生成字幕信息;或者,将所述源字幕信息上传至云端服务器,以使所述云端服务器利用云端字典库对所述源字幕信息进行翻译,接收所述云端服务器返回的翻译生成
字幕信息。
[0050]具体实施例中,若源字幕信息需要进行翻译时,可以调用本地的字典库,对源字幕信息进行翻译,也可以利用云端服务器的云端字典库对源字幕信息进行翻译,具体的,当需要利用云端字典库进行翻译时,将源字幕信息上传至云端服务器,云端服务器利用云端字典库进行翻译,再将翻译生成字幕信息返回至本地设备,本地设备接收云端服务器返回的翻译生成字幕信息,需要说明的是本地的字典库和云端字典库存储了海量的各种语种之间的对应关系。
[0051]S303,对所述多媒体文件进行解码,获得所述多媒体文件的音频流信息;
[0052]具体实施例中,对多媒体文件进行解码的具体方式可以是将多媒体文件转换为数据文件,再从数据文件中提取多媒体文件的音频流信息。
[0053]S304,按照预设的时间信息对所述音频流信息进行切分,生成至少一段音频信息,每段音频信息包含开始时间信息和结束时间信息。
[0054]具体实施例中,预设的时间信息可以根据用户的需求进行设定,将音频流信息进行切分的目的在于便于后续将每一段音频信息对应的文本信息进行切割生成多条字幕信息,在对音频流信息进行切分时,生成的每一段音频信息都包含该音频信息的开始时间信息和结束时间信息。
[0055]S305,调用本地语音库,对所述至少一段音频信息中各段音频信息进行语音识别,获得与所述至少一段音频信息中各段音频信息对应的文本信息;或者,
[0056]将所述至少一段音频信息中各段音频信息上传至云端服务器,以使所述云端服务器利用云端语音库,对所述至少一段音频信息中各段音频信息进行语音识别,获得与所述至少一段音频信息中各段音频信息对应的文本信息,接收所述云端服务器返回的文本信肩、O
[0057]具体实施例中,对所切分形成的多段音频信息中的各段音频信息进行语音识别时,可以调用本地语音库对音频信息进行识别,获得与音频信息对应的文本信息,也可以将音频信息上传至云端服务器,利用云端语音库对音频信息进行语音识别,获得与音频信息对应的文本信息,并将所获得的文本信息返回至本地设备,本地设备接收云端服务器返回的文本信息。需要说明的是,本地语音库与云端语音库存储了海量的音频信息与该音频信息对应的文本信息,其对应关系为文本信息是音频信息的文字表达形式。
[0058]S306,获取所述至少一段音频信息中各段音频信息对应的文本信息;
[0059]具体实施例中,获取所形成的各段音频信息对应的文本信息,其具体的获取方式可以是,按照各段音频信息的顺序,逐一获取各段音频信息对应的文本信息。
[0060]S307,根据所述至少一段音频信息中各段音频信息的开始时间和结束时间,将所述文本信息分割成至少一条字幕信息。
[0061]具体实施例中,根据各段音频信息的开始时间和结束时间,计算出该段音频信息的持续时间,根据多媒体文件中音频信息与字幕信息的同步,将每一段音频信息对应的文本信息分割成多条字幕信息,并根据用户需要,将形成的字幕信息进行输出,具体的输出方式包括但不限于:(1)生成特定格式、符合字幕格式标准的字幕文件;(2)在播放视频时,将字幕信息整合到视频输出流中,让播放器去做字幕显示工作。
[0062]本发明实施例中,通过对待处理的多媒体文件中的音频信息进行语音识别,获得对应的文本信息,并将文本信息进行处理生成多媒体文件的字幕信息,这种字幕生成方法效率高,操作方便,流程简单。
[0063]下面阐述本发明实施例提供的一种终端的具体实现。
[0064]请参照图4,为本发明实施例提供的一种终端的结构示意图。如图4所示,本实施例所述的一种终端包括:第一获取模块100、语音识别模块101和生成模块102。
[0065]第一获取模块100,用于获取待处理的多媒体文件中的音频信息;
[0066]具体实施例中,待处理的多媒体文件可以是视频文件或者视频流,该视频文件或者视频流的来源包括但不限于:(I)检测到的下载文件;(2)对存储设备进行搜索,发现的视频文件;(3)检测到的视频流,例如直播视频流、http视频流等等,第一获取模块100获取待处理的多媒体文件中的音频信息可以是获取待处理的多媒体文件中的音频,该音频信息可以是不经切分处理的音频,也可以是经过切分处理后的音频。
[0067]语音识别模块101,用于对所述音频信息进行语音识别,获得对应的文本信息;
[0068]具体实施例中,语音识别模块101对音频信息进行语音识别的方式可以是利用语音库,对音频信息进行语音识别,获得音频信息所对应的文本信息,需要说明的是,语音库可以位于终端设备,也可以位于云端服务器,语音库中存储了海量的音频信息与文本信息的对应关系,音频信息与文本信息的对应关系为,文本信息是音频信息的文字表达形式。
[0069]生成模块102,用于对所述文本信息进行处理,生成所述多媒体文件的字幕信息。
[0070]具体实施例中,生成模块102对文本信息的处理,可以是根据每段音频信息的开始时间和结束时间将文本信息进行分割和换行,形成多媒体文件的字幕信息,具体的,生成模块102将文本信息进行分割的标准主要依据视频中字幕信息与音频信息的配合。需要说明的是,生成多媒体文件的字幕信息后,可以根据实际情况选择字幕信息的输出方式,字幕信息的输出方式包括但不限于:(I)生成特定格式、符合字幕格式标准的字幕文件;(2)在播放视频时,将字幕信息整合到视频输出流中,让播放器去做字幕显示工作。
[0071]本发明实施例中,通过对待处理的多媒体文件中的音频信息进行语音识别,获得对应的文本信息,并将文本信息进行处理生成多媒体文件的字幕信息,这种字幕生成方法效率高,操作方便,流程简单。
[0072]请参照图5,为本发明实施例提供的另一种终端的结构示意图。如图5所示,本实施例所述的另一种终端包括:第一获取模块100、语音识别模块101、生成模块102、判断模块103和确认翻译模块104,其中第一获取模块100、语音识别模块101和生成模块102请参照图4的描述,在此不再赘述。
[0073]判断模块103,用于判断所述多媒体文件中是否包含源字幕信息,若判断结果为否,则由所述第一获取模块获取所述多媒体文件中的音频信息;
[0074]具体实施例中,多媒体文件中可能包含源字幕信息,也可能不包含源字幕信息,具体的,需要终端设备判断模块103判断多媒体文件中是否包含源字幕信息,具体的判断方式可以是,读取多媒体文件源字幕信息标识,例如,在多媒体文件中可以预设源字幕标识,当源字幕标识为‘I’时,则标识该多媒体文件中包含源字幕信息,当源字幕标识为‘0’时,则标识该多媒体文件中不包含源字幕信息,需要对该多媒体文件生成字幕信息。
[0075]进一步的,若判断模块103的判断结果为否时,则由第一获取模块100获取多媒体文件中的音频信息。
[0076]确认翻译模块104,用于当判断结果为是时,根据语言设置,确认所述源字幕信息是否需要进行翻译,并在确认所述源字幕信息需要进行翻译时,对所述源字幕信息进行翻译以生成所述多媒体文件的字幕信息。
[0077]具体实施例中,判断模块103如果判断出多媒体文件中包含源字幕信息,但该源字幕信息的语种可能不符合语言设置的语种,确认翻译模块104需要根据语言设置所设置的目标语种,确认源字幕信息是否需要进行翻译,如果源字幕信息的语种不符合语言设置的目标语种,则确认翻译模块104确认源字幕信息需要进行翻译,利用字典库对源字幕信息进行翻译,以生成多媒体文件的字幕信息,需要说明的是,字典库可以位于本地设备或者云端服务器。
[0078]本发明实施例中,通过对待处理的多媒体文件中的音频信息进行语音识别,获得对应的文本信息,并将文本信息进行处理生成多媒体文件的字幕信息,这种字幕生成方法效率高,操作方便,流程简单。
[0079]请参照图6,为本发明一种确认翻译模块的结构示意图,如图6所示,本实施例所述的一种确认翻译模块104包括确认模块1040和翻译模块1041。
[0080]确认模块1040,用于当判断结果为是时,根据语言设置,确认所述字幕信息是否需要进行翻译;
[0081]具体实施例中,当判断出多媒体文件是包含源字幕信息时,但是源字幕信息的语种可能不符合语言设置的语种,确认模块1040需要根据语言设置所设置的目标语种,确认源字幕信息是否需要进行翻译,如果源字幕信息的语种不符合语言设置的目标语种,则确认源字幕信息需要进行翻译,如果源字幕信息的语种符合语言设置的目标语种,则确认源字幕信息不需要进行翻译。
[0082]翻译模块1041,用于在确认所述源字幕信息需要进行翻译时,调用本地字典库,对所述源字幕信息进行翻译以生成字幕信息;或者,
[0083]将所述源字幕信息上传至云端服务器,以使所述云端服务器利用云端字典库对所述源字幕信息进行翻译,接收所述云端服务器返回的翻译生成字幕信息。
[0084]具体实施例中,若确认模块1040确认源字幕信息需要进行翻译时,翻译模块1041可以调用本地的字典库,对源字幕信息进行翻译,也可以利用云端服务器的云端字典库对源字幕信息进行翻译,具体的,当翻译模块1041需要利用云端字典库进行翻译时,将源字幕信息上传至云端服务器,云端服务器利用云端字典库进行翻译,再将翻译生成字幕信息返回至本地设备,本地设备翻译模块1041接收云端服务器返回的翻译生成字幕信息,需要说明的是本地的字典库和云端字典库存储了海量的各种语种之间的对应关系。
[0085]本发明实施例中,通过对待处理的多媒体文件中的音频信息进行语音识别,获得对应的文本信息,并将文本信息进行处理生成多媒体文件的字幕信息,这种字幕生成方法效率高,操作方便,流程简单。
[0086]请参照图7,为本发明一种第一获取模块的结构示意图,如图7所示,本实施例所述的一种第一获取模块100包括解码模块1000和切分模块1001。
[0087]解码模块1000,用于对所述多媒体文件进行解码,获得所述多媒体文件的音频流
信息;
[0088]具体实施例中,解码模块1000对多媒体文件进行解码的具体方式可以是将多媒体文件转换为数据文件,再从数据文件中提取多媒体文件的音频流信息。
[0089]切分模块1001,用于按照预设的时间信息对所述音频流信息进行切分,生成至少一段音频信息,每段音频信息包含开始时间信息和结束时间信息。
[0090]具体实施例中,预设的时间信息可以根据用户的需求进行设定,将音频流信息进行切分的目的在于便于后续将每一段音频信息对应的文本信息进行切割生成多条字幕信息,切分模块1001在对音频流信息进行切分时,生成的每一段音频信息都包含该音频信息的开始时间信息和结束时间信息。
[0091]本发明实施例中,通过对待处理的多媒体文件中的音频信息进行语音识别,获得对应的文本信息,并将文本信息进行处理生成多媒体文件的字幕信息,这种字幕生成方法效率高,操作方便,流程简单。
[0092]请参照图8,为本发明一种生成模块的结构示意图,如图8所示,本实施例所述的一种生成模块102包括第二获取模块1020和分割模块1021。
[0093]第二获取模块1020,用于获取所述至少一段音频信息中各段音频信息对应的文本信息;
[0094]具体实施例中,第二获取模块1020获取所形成的各段音频信息对应的文本信息,其具体的获取方式可以是,按照各段音频信息的顺序,逐一获取各段音频信息对应的文本信息。
[0095]分割模块1021,用于根据所述至少一段音频信息中各段音频信息的开始时间和结束时间,将所述文本信息分割成至少一条字幕信息。
[0096]具体实施例中,分割模块1021根据各段音频信息的开始时间和结束时间,计算出该段音频信息的持续时间,根据多媒体文件中音频信息与字幕信息的同步,将每一段音频信息对应的文本信息分割成多条字幕信息,并根据用户需要,将形成的字幕信息进行输出,具体的输出方式包括但不限于:(I)生成特定格式、符合字幕格式标准的字幕文件;(2)在播放视频时,将字幕信息整合到视频输出流中,让播放器去做字幕显示工作。
[0097]本发明实施例中,通过对待处理的多媒体文件中的音频信息进行语音识别,获得对应的文本信息,并将文本信息进行处理生成多媒体文件的字幕信息,这种字幕生成方法效率高,操作方便,流程简单。
[0098]本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory, ROM)或随机存储记忆体(Random AccessMemory, RAM)等。
[0099]本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
[0100]本发明实施例终端中的模块或单元可以根据实际需要进行合并、划分和删减。
[0101]本发明实施例的微控制器等部件,可以以通用集成电路(如中央处理器CPU),或以专用集成电路(ASIC)来实现。
[0102]以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
【权利要求】
1.一种生成字幕的方法,其特征在于,所述方法包括: 获取待处理的多媒体文件中的音频信息; 对所述音频信息进行语音识别,获得对应的文本信息; 对所述文本信息进行处理,生成所述多媒体文件的字幕信息。
2.如权利要求1所述的方法,其特征在于,所述获取待处理的多媒体文件中的音频信息之前,还包括: 判断所述多媒体文件中是否包含源字幕信息,若否,则执行所述获取所述多媒体文件中的音频信息的步骤; 若是,则根据语言设置,确认所述源字幕信息是否需要进行翻译,并在确认所述源字幕信息需要进行翻译时,对所述源字幕信息进行翻译以生成所述多媒体文件的字幕信息。
3.如权利要求2所述的方法,其特征在于,所述对所述源字幕信息进行翻译以生成所述多媒体文件的字幕信息,包括: 调用本地字典库,对所述源字幕信息进行翻译以生成字幕信息;或者, 将所述源字幕信息上传至云端服务器,以使所述云端服务器利用云端字典库对所述源字幕信息进行翻译,接收所述云端服务器返回的翻译生成字幕信息。
4.如权利要求3所述的方法,其特征在于,所述获取待处理的多媒体文件中的音频信息,包括: 对所述多媒体文件进行解码,获得所述多媒体文件的音频流信息; 按照预设的时间信息对所述音频流信息进行切分,生成至少一段音频信息,每段音频信息包含开始时间信息和结束时间信息。
5.如权利要求4所述的方法,其特征在于,所述对所述音频信息进行语音识别,获得对应的文本信息,包括: 调用本地语音库,对所述至少一段音频信息中各段音频信息进行语音识别,获得与所述至少一段音频信息中各段音频信息对应的文本信息;或者, 将所述至少一段音频信息中各段音频信息上传至云端服务器,以使所述云端服务器利用云端语音库,对所述至少一段音频信息中各段音频信息进行语音识别,获得与所述至少一段音频信息中各段音频信息对应的文本信息,接收所述云端服务器返回的文本信息。
6.如权利要求5所述的方法,其特征在于,所述对所述文本信息进行处理,生成所述多媒体文件的字幕信息,包括: 获取所述至少一段音频信息中各段音频信息对应的文本信息; 根据所述至少一段音频信息中各段音频信息的开始时间和结束时间,将所述文本信息分割成至少一条字幕信息。
7.—种终端,其特征在于,所述终端包括: 第一获取模块,用于获取待处理的多媒体文件中的音频信息; 语音识别模块,用于对所述音频信息进行语音识别,获得对应的文本信息; 生成模块,用于对所述文本信息进行处理,生成所述多媒体文件的字幕信息。
8.如权利要求7所述的终端,其特征在于,所述终端还包括: 判断模块,用于判断所述多媒体文件中是否包含源字幕信息,若判断结果为否,则由所述第一获取模块获取所述多媒体文件中的音频信息;确认翻译模块,用于当判断结果为是时,根据语言设置,确认所述源字幕信息是否需要进行翻译,并在确认所述源字幕信息需要进行翻译时,对所述源字幕信息进行翻译以生成所述多媒体文件的字幕信息。
9.如权利要求8所述的终端,其特征在于,所述确认翻译模块包括: 确认模块,用于当判断结果为是时,根据语言设置,确认所述字幕信息是否需要进行翻译; 翻译模块,用于在确认所述源字幕信息需要进行翻译时,调用本地字典库,对所述源字幕信息进行翻译以生成字幕信息;或者, 将所述源字幕信息上传至云端服务器,以使所述云端服务器利用云端字典库对所述源字幕信息进行翻译,接收所述云端服务器返回的翻译生成字幕信息。
10.如权利要求9所述的终端,其特征在于,所述第一获取模块包括: 解码模块,用于对所述多媒体文件进行解码,获得所述多媒体文件的音频流信息; 切分模块,用于按照预设的时间信息对所述音频流信息进行切分,生成至少一段音频信息,每段音频信息包含开始时间信息和结束时间信息。
11.如权利要求10所述的终端,其特征在于,所述语音识别模块具体用于,调用本地语音库,对所述至少一段音频信息中各段音频信息进行语音识别,获得与所述至少一段音频信息中各段音频信息对应的文本信息;或者, 将所述至少一段音频信息中各 段音频信息上传至云端服务器,以使所述云端服务器利用云端语音库,对所述至少一段音频信息中各段音频信息进行语音识别,获得与所述至少一段音频信息中各段音频信息对应的文本信息,接收所述云端服务器返回的文本信息。
12.如权利要求11所述的终端,其特征在于,所述生成模块包括: 第二获取模块,用于获取所述至少一段音频信息中各段音频信息对应的文本信息; 分割模块,用于根据所述至少一段音频信息中各段音频信息的开始时间和结束时间,将所述文本信息分割成至少一条字幕信息。
【文档编号】H04N5/278GK103561217SQ201310478942
【公开日】2014年2月5日 申请日期:2013年10月14日 优先权日:2013年10月14日
【发明者】文立夫, 赵天涯, 王晓晖 申请人:深圳创维数字技术股份有限公司, 深圳市创维软件有限公司