专利名称:处理两个音频输入信号的方法
技术领域:
本发明涉及一种用于处理至少两个包含音频信息、还可能包含视频信息的输入信号的方法,在该方法中处理第一输入信号的音频信息和可能还有的视频信息,用于声音和可能的视听再现。
本发明还涉及一种用于处理至少两个包含音频信息、还可能包含视频信息的输入信号的装置,该装置包括用于再现第一输入信号的再现装置。
除了电视节目的音频和视频信息外,已知还可提供带文本的电视信号,这种文本包括例如标题、证券交易数据或其它最新消息。在显示屏的一个小区域内光学再现第二电视信号也是已知的。在所谓的PIP(画中画)方法中这个另外的电视信号的音频信号是不被再现的。光学再现所述被再现电视信号的音频信号的插入文本至少在一定程度上对那些耳聋或听力有障碍的人是有益的,这也是已知的。
美国专利5557338A公开了一种电视系统,其中图像包括主图像和辅助图像,并且其中在主图像中还再现了小标题形式的文本信息,该文本信息涉及辅助图像中再现的广播。发射机则必须与辅助图像的信息一起发送该文本信息。这个系统构成所谓的PIP(画中画)方法的扩展,其中除了辅助图像外,还再现文本信息。
本发明的一个目的是提供一种前述类型的方法和装置,由此除了被再现的输入信号外,还可再现至少一个另外的输入信号。这样,无论是否已接收声音或视听输入信号,都可能接收至少一个另外的声音或视听输入信号。应当也能够在由于过量环境噪声而无法进行输入信号的声音接收的位置使用该方法。
关于本方法,根据本发明的目的是通过一种用于处理至少两个包含音频信息并且可能还包含视频信息的输入信号的方法来实现的,在该方法中,一个输入信号的音频信息和可能还有的视频信息被处理,以便声音和可能还有的视听再现,至少一个第二输入信号被加至语音识别装置,包含在至少第二输入信号中的关于音频信息的文本信息通过语音识别装置来确定,并且所确定的文本信息被光学地再现。
因此根据本发明的方法使不同的输入信号能够以这种方式处理,即,识别出现在其中的语音并将其转换成光学再现的文本。例如,在接收电视广播期间,这使不同电视广播的文本能够插入图像中。这样,在接收电视广播期间,用户可以获知关于其它主题的信息。其语音被识别的输入信号也可以来自不同的外部源,例如来源于收音机、录像机或者也可能来源于电话线。在电视广播的再现过程中,接收到的来自广播站的音频信号形式的信息能够由此再现为文本。也可能光学上再现发送到电话答录机的呼入电话,以便用户能够获得有关电话的信息,并且例如决定是否接听。语音识别使实际处理包含音频信息和可能还包含视频信息的任何输入信号并再现除第一输入信号外的这类输入信号成为可能。
根据本发明的目的还通过用于处理至少两个包含音频信息、还可能包含视频信息的输入信号的装置来实现,该装置包括用于再现输入信号的再现装置、用于确定包含在至少一个第二输入信号的音频信息中的文本信息的语音识别装置以及用于再现已确定的文本信息的光学再现装置。
语音识别装置可以与一个输入信号的再现装置和用于再现已确定文本信息的光学再现装置分开,或者集成在所述装置之一中。将根据本发明的装置的所有组件集成在一个设备、例如电视接收机中,这也是可能的。这种外部的或集成的语音识别装置使得能够处理至少一个第二输入信号的音频信息,并且除了第一输入信号之外,还光学上再现从中确定的文本信息。
文本信息被有利地再现为流动文本,流动文本的速度自动地适应再现。缓存文本信息并以延迟方式再现也是可能的。例如,可在预定时刻通过语音识别装置处理无线电广播,并且已确定的文本信息、例如标题可缓存起来,并在输入信号再现期间在预定时刻或在用户选择的时刻被光学再现。
在共用监视器上有利地再现一个输入信号的视频信息和至少一个另外的输入信号的文本信息。如果被再现的第一输入信号不是视频信号,则可在专门为此目的设置或现有的适当显示器上再现至少一个另外的输入信号的文本信息。例如,第一输入信号可以是电话的声音信号,第二个呼入电话可以光学地再现在电话的显示屏上。
第二输入信号可有利地由用户选择。这样用户可以决定在再现输入信号期间还把哪个文本信息以光学方式再现。
第二输入信号的选择可以根据存储的信息来进行。这个信息可以包括由用户选择的给定标准或者还可涉及自动检测的用户习惯。
语音识别装置的参数有利地根据第二输入信号的文本信息来修改。结果,例如,语音识别装置可以最优地适应第二输入信号,因为例如通过给定文本的识别来选择适应第二输入信号的适当库或者语言。
当确定的文本信息与存储的文本相比较时,并且当获得给定的比较结果时采取给定的步骤,这也是有利的。例如,文本信息的光学再现可以根据与存储文本的对应关系来实施。作为此特征的结果,插入仅满足给定条件的文本是可能的。在这方面,例如,给定的关键字可以用作标准。
另外,它可被设置成在文本信息与给定的存储文本之间对应的情况下,再现第二输入信号的音频信息和可能还有的视频信息,取代第一输入信号的音频信息和可能还有的视频信息。例如,这样可监测至少一个另外的输入信号,使得例如在新闻广播开始时或体育广播开始时,可以自动切换到此输入信号。
要再现的输入信号有利地为电视信号。然而,各种其它输入信号,例如无线电信号、电话信号等都是可行的。
用于再现输入信号的再现装置和用于再现所确定的文本信息的再现装置有利地由共用的监视器构成。
当提供用于存储所确定的文本信息的存储装置时,可以存储包含在至少一个另外的输入信号的音频信息中的文本信息,以便稍后或重复再现。
为了使用户能够从多个可获得的输入信号中选择,根据本发明的另外特征,提供了控制装置。这种控制装置可连接到信息存储器,以便可以根据存储器中存储的信息来选择至少一个第二输入信号。
当提供用于切换语音识别装置的参数的切换装置时,语音识别装置的最优适配可以根据第二输入信号的文本信息来完成。例如,在识别第二输入信号的语言后,语音识别装置可以适应这种语言并且可以启动相关的库。
有利地提供了用于将文本信息与存储文本相比较的比较单元。这提供了一系列其它选择,例如文本信息等的文本相关再现。
为了实现第二输入信号的文本信息的文本特定再现,所述比较单元可以与光学再现单元相连。
此外,可提供用于切换输入信号再现的切换单元;这种切换单元与比较单元相连。切换单元可以由用于选择输入信号的所述控制装置来构成。
用于再现输入信号的再现装置可由电视接收机构成。
下面参照附图详细地描述本发明的实施例,然而这不是以任何方式限制本发明。
图1示出用于处理至少两个包含音频信息且还可能包含视频信息的输入信号的装置的实施例的框图。
图2示出用于输入信号和所确定文本信息的再现装置的例子。
图3示出根据本发明的装置的扩展框图。
图4示出主控室形式的应用的例子。
图5示出有关电话机的另一个应用。
图1示出一个用于处理至少两个包含音频信息Ai和可能还包含视频信息Vi的输入信号Si的装置的框图。所示装置用于处理两个输入信号S1,S2,但可以随意地扩展到任意数目的输入信号Si。该装置包括用于再现输入信号S1的再现装置10,例如电视接收机,它处理和再现输入信号S1的音频信息A1和可能还有的视频信息V1。至少一个第二输入信号S2施加至语音识别装置11,其中确定包含在输入信号S2的音频信息A2中的文本信息T2。这个文本信息T2由光学再现装置12来再现。因此,除了输入信号S1以外,还可以再现包含在另外的输入信号S2中的文本信息T2,也就是说,同时或时间上有偏移地再现。为了实现时间偏移地再现,可提供用于存储所确定的文本信息T2的存储装置14。根据输入信号S1、S2的类型,可以有利地将用于再现输入信号S1的再现装置10和用于再现所确定的文本信息T2的再现装置12集成在一个共用的监视器13或类似装置中。
图2示出包括用于再现第一输入信号S1、例如电视广播的再现装置10和用于所确定文本信息T2的光学再现装置12的这种共用监视器13的一个例子。这样,文本信息T2以字幕的形式插入到输入信号S1的电视图像中。
图3示出与图1所示的相比扩展了的用于处理多个输入信号S1的装置的框图。多个包含音频信息Ai和还可能包含视频信息Vi的输入信号Si施加到用于选择输入信号Si的控制装置15。第一输入信号S1则被适当地处理并在再现装置10中再现。至少一个另外的输入信号S2施加到语音识别装置11,包含在输入信号S2的音频信息A2中的文本信息T2在这里被确定。文本信息T2可施加到用于切换语音识别装置11的参数Pi的切换装置17,这样使语音识别装置11最优地适应被处理的文本信息T2。此外,文本信息T2在光学再现之前可施加到比较单元18,然后文本信息T2与存储在所述比较单元中的存储器19中的文本TS相比较。作为比较单元18中这种比较的结果,例如,在光学再现装置12中可进行文本信息T2的文本特定再现。此外,比较单元18可连接到控制装置15或其他切换单元(未示出),使得当在文本信息T2中识别出给定的存储文本TS时,可切换到不同的输入信号Si。存储器16可用于存储可能涉及例如给定用户习惯的信息Ii。存储器16有利地连接到控制装置15,使得可根据存储在存储器16中的信息Ii来进行输入信号Si的选择。用于再现输入信号S1的再现装置10和用于再现所确定文本信息T2的光学再现装置12可以集成在共用的监视器13中。此外,根据本发明的所有装置可集成在一个设备中,例如一个电视接收机20中。
图4示出本发明用于主控室的一个应用,其中例如提供了多个监视器21,用于再现八个输入信号S1到S8的视频信息V1到V8和音频信号A1到A8。每次只可接收一个音频信号Ai。输入信号Si的其它音频信号Ai或来自其它源的音频信号、例如摄像师或伴音技师发出的音频信号,可以文本信息Ti到T8的形式显示在监视器21上,从而为导演提供进一步信息以便选择要广播的信号Si。
图5示出本发明在电话机22中的另一个应用,其中,在接收电话呼叫期间,另一个电话呼叫的文本信息T2可另外地显示在电话机中通常设置的显示屏形式的光学显示装置12上。因而本发明使电话机22的用户能够同时接收被转到例如电话答录设备的另一电话呼叫。例如,用户则可决定中断第一个电话呼叫而转成接听第二个电话呼叫。
本发明决不局限于所描述的实例,并且也可应用于其它各种输入信号。
权利要求
1.一种用于处理至少两个包含音频信息(Ai)并且可能还包含视频信息(Vi)的输入信号(Si)的方法,在所述方法中,第一输入信号(S1)的音频信息(A1)和可能还有的视频信息(V1)经过处理,以便声音再现和可能还视听再现,至少一个第二输入信号(S2)被施加到语音识别装置(11),通过所述语音识别装置(11)确定关于包含在至少所述第二输入信号(S2)中的音频信息(A2)的文本信息(T2),所确定的文本信息(T2)被光学地再现。
2.如权利要求1所述的方法,其中所述文本信息(T2)被再现为流动文本。
3.如权利要求1所述的方法,其中所述文本信息(T2)被缓存并以延迟方式再现。
4.如权利要求1所述的方法,其中所述一个输入信号(S1)的所述视频信息(V1)和所述文本信息(T2)被再现在共用的监视器(13)上。
5.如权利要求1所述的方法,其中所述第二输入信号(S2)是选取的。
6.如权利要求5所述的方法,其中所述第二输入信号(S2)是根据所存储的信息(I2)来选取的。
7.如权利要求1所述的方法,其中根据所述第二输入信号(S2)的所述文本信息(T2)来修改所述语音识别装置(11)的参数。
8.如权利要求1所述的方法,其中所述文本信息(T2)与所存储的文本(TS)相比较。
9.如权利要求8所述的方法,其中如果所述文本信息(T2)与所存储的文本(TS)对应,则再现所述文本信息(T2)。
10.如权利要求8所述的方法,其中在所述文本信息(T2)与所存储的文本(TS)之间对应的情况下,再现所述第二输入信号(S2)的音频信息(A2)和可能还有的视频信息(V2),而不是所述第一输入信号(S1)的音频信息(A1)和可能还有的视频信息(V1)。
11.如权利要求1所述的方法,其中所述输入信号(S1,S2)是电视信号。
12.一种用于处理至少两个包含音频信息(Ai)并且可能还包含视频信息(Vi)的输入信号(Si)的装置,所述装置包括用于再现第一输入信号(S1)的再现装置(10)、用于确定包含在至少一个第二输入信号(S2)的音频信息(A2)中的文本信息(T2)的语音识别装置(11)以及用于再现所确定的文本信息(T2)的光学再现装置(12)。
13.如权利要求12所述的装置,其中用于再现输入信号(S1)的所述再现装置(10)和用于再现所确定的文本信息(T2)的所述再现装置(12)由共用的监视器(13)构成。
14.如权利要求12所述的装置,其中提供了存储装置(14),用于存储所确定的文本信息(T2)。
15.如权利要求12所述的装置,其中提供了控制装置(15),用于选择所述输入信号(Si)。
16.如权利要求15所述的装置,其中为信息(Ii)提供了存储器(16),所述存储器(16)与所述控制装置(15)以这样的方式相连,以便根据存储在所述存储器(16)中的所述信息(Ii)来选择所述输入信号(Si)。
17.如权利要求12所述的装置,其中提供了用于根据所述第二输入信号(S2)的文本信息(T2)切换所述语音识别装置(11)的参数(Pi)的切换装置(17)。
18.如权利要求12所述的装置,其中提供了用于将所述文本信息(T2)与所存储的文本(TS)相比较的比较单元(18)。
19.如权利要求18所述的装置,其中所述比较单元(18)与所述光学再现单元(12)相连。
20.如权利要求18所述的装置,其中提供了用于切换所述输入信号(S1,S2)的再现的切换单元,所述切换单元与所述比较单元(18)相连。
21.如权利要求12所述的装置,其中用于再现输入信号(S1)的所述再现单元(10)由电视接收器(20)构成。
全文摘要
为了提供一种用于处理至少两个包含音频信息(Ai)并且可能也包含视频信息(Vi)的输入信号(Si)的方法和装置,除了再现输入信号(S1)之外还能再现至少一个另外的输入信号(S2)的文本信息(T2),本发明提供用于再现输入信号(S1)的再现装置(10)、用于确定包含在至少一个第二输入信号(S2)的音频信息(A2)中的文本信息(T2)的语音识别装置(11)以及用于再现所确定的文本信息(T2)的光学再现装置(12)。再现装置(10,12)可例如由共用的监视器(13)构成。
文档编号H04N5/45GK1675924SQ03819443
公开日2005年9月28日 申请日期2003年8月5日 优先权日2002年8月12日
发明者L·米拉诺维 申请人:皇家飞利浦电子股份有限公司