台词同步字幕的制作方法

文档序号:8283491阅读:431来源:国知局
台词同步字幕的制作方法
【技术领域】
[0001] 本发明涉及自然语言处理技术领域,尤其涉及一种台词同步字幕的制作方法。
【背景技术】
[0002] 台词同步字幕的制作过程中,主要存在两种情况:一是只有音视频文件,没有既定 的台词剧本,需要通过人工听记音视频中的人物对话或背景台词得到台词剧本;二是有音 视频文件和台词剧本。在这两种情况下,都需要在制作同步字幕。制作同步字幕的关键环节 是为台词剧本中的每句台词字幕播放确定准确的开始和结束时间。目前,确定字幕播放的 开始和结束时间需要通过人工逐一标记的方式,处理效率低,特别是浪费时间和人力资源。 因此,希望能够设计一种自动的方法和环境,产生比较准确的字幕文件,以尽可能的减少人 工干预和审校的工作量。

【发明内容】

[0003] 本发明所要解决的技术问题是提供一种台词同步字幕的制作方法,快速地生成台 词同步字幕文件,克服现有技术的效率低缺陷。
[0004] 为解决上述技术问题,本发明提供一种台词同步字幕的制作方法,包括如下步 骤:
[0005] I、截取台词的音频信息,通过自动语音识别产生初始字幕文件,所述初始字幕文 件包括若干字幕段,以及字幕段的开始和结束时间;所述字幕段对应一句台词音频,所述字 幕段的开始和结束时间即为对应台词句音频的起始和结束时间;
[0006] II、将台词剧本与所述初始字幕文件进行对照,建立台词剧本中每句台词与初始 字幕文件中字幕段的对应关系;
[0007] III、根据台词剧本中的台词句与初始字幕文件中字幕段的对应关系,用台词剧本 中的台词句生成新的字幕段,并在所述新字幕段上添加该字幕段的开始和结束时间,生成 中间字幕文件。
[0008] 更进一步的,对中间字幕文件中不准确或没有的对应关系的台词,进行标记。以便 后续有针对性的进行人工处理和审校,得到最终字幕文件。
[0009] 更优化的方案是,在所述步骤i之前,包括以下步骤:
[0010] 将台词剧本中的词进行规范化表示,规则包括如下:
[0011] 对数字用发音词替换原词;
[0012] 对复数词增加原词作为候选;
[0013] 具有形态的词增加原词作为候选;
[0014] 具有连接关系的词增加各种合并或分离词作为候选;
[0015] 得到规范化台词剧本。
[0016] 用规范化台词剧本替代步骤i中的台词剧本与所述初始字幕文件进行对照。
[0017] 对于大多数音视频来说,语音识别的结果错误率相对而言比较高,因此很难有相 同的句子出现。句子之间的对应关系,主要根据两个句子中包含的相同词和连续相同词来 确定。所述将台词剧本与所述初始字幕文件进行对照,建立台词剧本中每句台词与初始字 幕文件中字幕段的对应关系;包括以下步骤:
[0018] i、逐句读取台词剧本中的台词句,在所述初始字幕文件中查找与该台词句包含 词汇相同的相同词,每个所述相同词标记有字幕段的序号;建立每个台词句与所述相同词 及其字幕段序号的映射表;
[0019] ii、根据连续相同词的数量大小进行第一次排序;得到具有先后顺序的相同词与 台词句的对应关系表;
[0020] iii、设置所述相同词与台词句的初始的对应关系集合为空,即:Q,从对应关系表的 第一个对应关系开始,取第一个对应关系放入对应关系集合中,然后,循环进行下列操作:
[0021] ①顺序取一个对应关系,判断该对应关系是否与对应关系集合中的已有的确认对 应关系冲突,判断方法为:
[0022] 对应关系(a)与已有的确认对应关系冲突,是指、满足如下条件:
【主权项】
1. 一种台词同步字幕的制作方法,其特征在于,包括如下步骤:
1. 截取台词的音频信息,通过自动语音识别产生初始字幕文件,所述初始字幕文件包 括若干字幕段,W及字幕段的开始和结束时间;所述字幕段对应一句台词音频,所述字幕段 的开始和结束时间即为对应台词句音频的起始和结束时间; II、 将台词剧本与所述初始字幕文件进行对照,建立台词剧本中每句台词与初始字幕 文件中字幕段的对应关系; III、 根据台词剧本中的台词句与初始字幕文件中字幕段的对应关系,用台词剧本中的 台词句生成新的字幕段,并在所述新字幕段上添加该字幕段的开始和结束时间,生成中间 字幕文件。
2. 根据权利要求1所述的台词同步字幕的制作方法,其特征在于,所述将台词剧本与 所述初始字幕文件进行对照,建立台词剧本中每句台词与初始字幕文件中字幕段的对应关 系,包括W下步骤: i、 逐句读取台词剧本中的台词句,在所述初始字幕文件中查找与该台词句包含词汇 相同的相同词,每个所述相同词标记有字幕段的序号;建立每个台词句与所述相同词及其 字幕段序号的映射表; ii、 根据连续相同词的数量大小进行第一次排序,得到具有先后顺序的相同词与台词 句的对应关系表; iii、 设置所述相同词与台词句的初始的对应关系集合为空,即;Q,从对应关系表的第一 个对应关系开始,取第一个对应关系放入对应关系集合中,然后,循环进行下列操作: ① 顺序取一个对应关系,判断该对应关系是否与对应关系集合中的已有的确认对应关 系冲突,判断方法为: 对应关系(a)与已有的确认对应关系冲突,是指、满足如下条件:
其中表不台词剧本的台词句序号,表不初始字幕文件的字幕段序号; ② 如果不存在冲突,则确认该对应关系,将该对应关系加入对应关系集合中;并在所述 对应关系表中删除包含该台词句序号的其它对应关系; ⑨如果存在冲突,则直接删除该对应关系。
3. 根据权利要求2所述的台词同步字幕的制作方法,其特征在于,在所述步骤i之前, 包括W下步骤: 将台词剧本中的词汇进行规范化表示,规则包括如下: 对数字用发音词替换原词; 对复数词增加原词作为候选; 具有形态的词增加原词作为候选; 具有连接关系的词增加各种合并或分离词作为候选; 得到规范化台词剧本; 用规范化台词剧本替代步骤i中的台词剧本。
4. 根据权利要求2所述的台词同步字幕的制作方法,其特征在于,在步骤ii中,如果连 续相同部分单词数量相同,则按长度进行二次排序。
5. 根据权利要求2所述的台词同步字幕的制作方法,其特征在于,所述生成中间字幕 文件,包括W下步骤: 根据得到的对应关系集合,检查台词剧本中的相邻序号的台词句是否对应到同一个初 始字幕段序号,如果相同,则将该相邻序号的台词句合并,然后将该初始字幕段的起止时间 设置合并后的字幕段的起止时间;否则,直接取该初始字幕段序号的开始和结束时间作为 新字幕段的开始和结束时间; 对每个设置开始和结束时间的新字幕段进行序号设置,得到中间字幕文件。
6. 根据权利要求1至5之一所述的台词同步字幕的制作方法,其特征在于,所述对中间 字幕文件中不准确或没有的对应关系的台词,进行标记;经后续有针对性的人工处理和审 校,得到最终字幕文件。
【专利摘要】本发明涉及自然语言处理技术领域,公开了一种台词同步字幕的制作方法,包括步骤:I、截取台词的音频信息,通过自动语音识别产生初始字幕文件,所述初始字幕文件包括若干字幕段,以及字幕段的开始和结束时间;Ⅱ、将台词剧本与所述初始字幕文件进行对照,建立台词剧本中每句台词与初始字幕文件中字幕段的对应关系;Ⅲ、用台词剧本中的台词句生成新的字幕段,并在所述新字幕段上添加该字幕段的开始和结束时间,生成中间字幕文件。本发明能自动确定绝大部分台词字幕段的开始和结束时间,减少了人力资源代价,台词字母的准确度高,极大提高了视频字幕制作的效率。
【IPC分类】G11B27-10
【公开号】CN104599693
【申请号】CN201510046064
【发明人】杜南山, 江潮
【申请人】语联网(武汉)信息技术有限公司
【公开日】2015年5月6日
【申请日】2015年1月29日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1