专利名称:用于对失聪者将口语转译成手语的系统的制作方法
技术领域:
本发明涉及一种用于对失聪者将口语转译成手语(sign language)的系统。
背景技术:
手语是被赋予能以视觉感知的手势的名称,其主要是使用手结合脸部表情、嘴部表情、以及姿势而形成的。手语具有其本身的文法结构,因为手语无法被逐字地转换成口语。尤其是使用手语可以同时传送多重片段的信息,而口语则是由连续片段的信息所组成,即声音和语句。口语到手语的转译是通过手语翻译员执行的,与外语翻译员相当,其是在全日制的学习计划中接受训练。对于视听媒体而言(特别是电影和电视),存在来自失聪者人群的 对将电影和电视声音转译成手语的大量需求,然而,由于欠缺足够数量的手语翻译员,这可能仅不充分地得到满足。
发明内容
本发明的技术问题在于将口语到手语的转译自动化,以便在没有真人翻译员服务的情况下设法完成。依据本发明,通过专利权利要求I的表征部分中的特征部分来解决此技术问题。从从属权利要求得出依据本发明的系统的有利实施例和发展。本发明基于一方面将例如德语标准语言的口语的语句和语法的文本数据存储于数据库中,并且另一方面将手语中对应意义的视频数据序列存储于数据库中的构想。因此,该数据库包含视听语言词典,其中,针对口语的语句和/或用词,可获得对应的手语影像或视频序列。针对口语到手语的转译,计算机与该数据库通信,其中文本信息(其特别是还可以由被转换成文本的视听信号语音成分组成)被馈入该计算机中。针对口语文本,上述语音成分的声调(音韵)和音量被尽可能地加以分析以满足语义侦测的所需。对应于馈入的文本数据的视频序列由该计算机从该数据库读出并被连接至完整的视频序列。这可以被独立地重制(例如针对无线电节目、播客(podcast)等),或者例如被馈入影像迭覆装置(image overlay)中,其将该等视频序列以〃画中画(picture in picture) 〃的形式迭覆在原始的视听信号中。借助于播放速度的动态调整,可以使该两个影像信号彼此同步。因此,口语和手语之间的较大时间延迟在〃在线(on-line)"模式下可以被缩减而在〃离线(off-line)"模式下可以很大程度上被避免。由于个别文法结构间的初始手部状态必须是可辨认的以便理解手语,所以初始手部状态的视频序列被进一步地以元数据(metadata)的形式存储于数据库中,其中,初始手部状态的视频序列在转译期间被插入到手语的文法结构之间。除了初始手部状态之外,个别语段间的转变在获得流畅的〃视觉〃言语效果上扮演一个重要的角色。出于此目的,其可以借助于所存储的有关初始手部状态和转变时的手部状态的元数据来计算对应的交叉衰落(crossfade),从而使得手的位置在从一个语段到下一个语段的转变时能够无间隙地跟随。
借助于附图中的实施例来更详细地描述本发明。图I示出用于对失聪者将口语转译成以视频序列形式的手语的系统的示意性方块 图2示出第一实施例的示意性方块图,其用于处理使用依据图I的系统所产生的视频序列,以及
图3示出第二实施例的示意性方块图,其用于处理使用依据图I的系统所产生的视频序列。
具体实施方式
在图I中,附图标记10指定数据库,其被构建成视听语言词典,其中,针对口语的语句和/或用词,以视频序列(剪辑)的形式存储手语的对应影像。经由数据总线11,数据库10与计算机20通信,计算机20以口语的语句和/或用词的文本数据来寻址数据库10,并将存储于其中的相应的手语的视频序列读出至其输出线21上。此外且优选地,在数据库10中,可以存储用于手语的初始手部状态的元数据(其定义个别手势的转变位置,并且以转变序列的形式)被插入于个别手势的连续视频序列之间。在以下内容中,将所产生的视频和转变序列只称为"视频序列"。在图2中所示的第一实施例中,为了处理所产生的视频序列,由计算机20读出至输出线21上的视频序列经由其输出131被直接地或在视频内存(“序列内存”)130中的中间存储已发生之后馈入影像迭覆装置120中。此外,存储于视频内存130中的视频序列可经由内存130的输出132显示于显示器180上。存储的视频序列通往输出131和132的输出受控制器140所控制,该控制器140经由输出141被连接至内存130。另外,来自将视听信号在其输出111处转换成标准模拟电视信号的电视信号转换器110的模拟电视信号被馈入影像迭覆装置120中。影像迭覆装置120将读出的视频序列插入该模拟电视信号中,例如以“画中画”“画中画”缩写为“PIP”)的形式。如此产生于影像迭覆装置120的输出121处的“PIP”电视信号依据图2而从电视信号传送器150经由模拟传输路径151被传送至接收器160。在接收的电视信号50在重制装置170 (显示器)上的重制期间,可以同时地观看该视听信号的影像成分和由此与其分离的的手语翻译员的手势。在图3中所示第二实施例中,为了处理所产生的视频序列,由计算机20读出至输出线21上的视频序列经由其输出131被直接地或在视频内存(“序列内存”)130中的中间存储已发生之后馈入多路复用器220中。此外,包含分离数据通道的数字电视信号(多路复用器220于其中插入视频序列)从电视信号转换器110从其输出112被馈入多路复用器220中。在多路复用器240的输出221处,经过如此处理的数字电视信号转而经由电视传送器150经由数字传输路径151被传送至接收器160。接收的数字电视信号50在重制装置170(显示器)上的重制期间,可以同时地观看该视听信号的影像成分和由此与其分离的手语翻译员的手势。如图3中所示,视频序列21可以从内存130 (或者是直接从计算机20)经由独立的第二传输路径190(例如经由因特网)被进一步传送至使用者。在这种情况下,并未发生由多路复用器220将视频序列插入数字电视信号中。更确切地说,由使用者经由该独立的第二传输路径190所接收到的视频序列和转变序列是可以应使用者的需求并经由影像迭覆装置200被插入由接收器160所接收的数字电视信号中,并且手势可以被以画中画的形式重制于显示器170上。图3中所示的另一替代是所产生的视频序列21经由该第二传输路径190而被个别地播放(广播或串流)或者经由视频内存130的输出133而被提供用于撷取(例如针对有声书(audio book ) 210 ) 取决于生成或导出哪种形式的视听信号,作为示例,图I示出了用于将文本数据馈入计算机20中的离线形式和在线形式。于在线形式中,视听信号借助于摄影机61和语音麦克风62产生于电视或电影工作室中。经由语音麦克风60的声音输出64,视听信号的语音成分被馈入文本转换器70中,其将口语转换成包含该口语的语句和/或用词的文本数 据并从而产生中间格式。接着,该文本数据经由文本数据线71被传送至计算机20,在那里,其用于寻址该手语在该数据库10中的对应数据。在使用工作室60中被称为〃提词机(tel印romter) 〃 90的东西的情况下,在工作室60处讲演者从监视器读取待说出的文本,提词机90的文本数据经由线路91被馈入文本转换器70中或者经由线路91被直接地馈入(未示出)计算机20中。在离线形式中,例如,视听信号的语音成分在影片扫描仪80的音频输出81处被扫描,该影片扫描仪80将影片转换成电视声音信号。不使用影片扫描仪80,也可以针对视听信号提供盘片存储媒体(例如DVD)。被扫描的视听信号的语音成分从而被馈入文本转换器70中(或是另一个未明确示出的文本转换器),其配合计算机20而将口语转换成包含该口语的语句及/或用词的文本数据。来自工作室60或影片扫描仪80的视听信号可进一步优选地经由其输出65或82而被存储于信号内存50上。经由其输出51,信号内存50将所存储的视听信号馈入电视转换器Il0中,其根据馈入的视听信号产生模拟或数字电视信号。理所当然地,其也有可能将视听信号从工作室60或影片扫描仪80直接地馈入电视信号转换器110中。在无线电信号的情况下,上述说明均以类似方式适用,除了视频信号与音频信号无并行存在之外。于在线模式中,音频信号经由麦克风60被直接地记录并经由64被馈入文本转换器70中。在离线模式中,音频文件(其可以任何格式存在)的音频信号被馈入文本转换器中。为了使具有手势的视频序列与并行视频序列间的同步最佳化,可以可选择性地连接逻辑100 (例如帧速率转换器),其借助于来自原始音频信号和视频信号的时间信息(位于摄影机输出63处的摄影机61的时间戳),以动态地改变(加速或减速)来自计算机20的手势视频序列和来自信号内存50的原始视听信号二者的播放速度。出于此目的,逻辑100的控制输出101与计算机20和与信号内存50 二者相连接。借助于此同步,口语和手语之间的较大时间延迟在"在线"模式中可以被缩减而在"离线"模式中可以很大程度上被避免。
权利要求
1.用于对失聪者将口语转译成手语的系统,其特征在于以下特征 数据库(I),其中储存了该口语的语句和语法的文本数据以及在该手语中具有对应意义的视频数据序列,以及 计算机(20),其与数据库(10)通信以便将口语的馈入文本数据转译成该手语的对应的视频序列, 其中,用于定义在该手语的个别文法结构之间的转变位置的初始手部状态的视频序列被进一步地以元数据的形式储存于该数据库(10)中,该元数据在该转译期间被该计算机(20)插入到该手语的文法结构的视频序列之间。
2.依据权利要求I所述的系统,其特征在于用于将由该计算机(20)所转译的视频序列插入视听信号中的装置(120 ;220)。
3.依据权利要求I或2所述的系统,其特征在于用于将视听信号的声音信号成分转换成文本数据并用于将该文本数据馈入该计算机(20)中的转换器(70)。
4.依据权利要求I至3中的一项所述的系统,其特征在于提供有逻辑装置(100),其将从该视听信号所导出的时间信息馈入该计算机(20)中,其中该馈入的时间信息动态地改变来自该计算机(20)的视频序列和该原始视听信号二者的播放速度。
5.依据权利要求I至4中的一项所述的系统,其中该视听信号经由电视信号传送器(150)以数字信号的形式被传送至接收器(160),其特征在于独立的第二传输路径(190)(例如经由因特网)被提供给该视频序列(21),该视频序列(21)经由该独立的第二传输路径(190)而从视频内存(130)或直接地从该计算机(20)被传送至使用者,并且影像迭覆装置(200)与该接收器(160)相连接以便将所传送至该使用者的视频序列(21)经由该独立的第二传输路径(190)以画中画的形式插入由该接收器(160)所接收的数字电视信号中。
6.依据权利要求I至4中的一项所述的系统,其特征在于独立的第二传输路径(190)(例如经由因特网)被提供给该视频序列(21),该视频序列(21)经由该独立的第二传输路径(190)针对广播或串流应用而从视频内存(130)或直接地从计算机(20)被播放或被提供用于撷取(例如针对有声书210)。
7.用于数字视听信号的接收器,其特征在于影像迭覆装置(200)与该接收器(160)相连接,以便将经由独立的第二传输路径(190)所传送的该视频序列(21)以画中画的形式插入由该接收器(160)所接收的数字电视信号中。
全文摘要
针对将口语翻成手语的转译的自动化以及在没有真人翻译员服务的情况下设法完成而提出一种系统,其包含以下特征数据库(1),其中储存了口语的语句和语法的文本数据以及具有在手语中对应意义的视频数据序列,以及计算机(20),其与该数据库(10)通信以便将口语的馈入文本数据转译成手语的对应的视频序列,其中,用于定义在该手语的个别文法结构之间的转变位置的初始手部状态的视频序列被进一步以元数据的形式储存于该数据库(10)中,该元数据在转译期间被该计算机(20)插入该手语的文法结构的视频序列之间。
文档编号G09B21/00GK102893313SQ201180011796
公开日2013年1月23日 申请日期2011年2月28日 优先权日2010年3月1日
发明者K·伊尔格纳-费恩斯 申请人:无线电广播技术研究所有限公司