基于话音和手势控制而进行的画中画重定位和/或尺寸调整的制作方法

文档序号：6423628阅读：375来源：国知局

专利名称：基于话音和手势控制而进行的画中画重定位和/或尺寸调整的制作方法
技术领域：
本发明涉及一种改善家庭电视的使用的方法和装置。特别地，本发明涉及一种可被重定位和/或调整尺寸的画中画(PIP)显示。
背景技术：
在电视显示器上同时显示多于一个视频画面的性能对于电视来说是很常见的。通常该显示器被分为两个或多个部分，其中该显示器的一个主要部分被用于显示第一视频数据流(例如一个给定的电视频道)。第二视频数据流被同时地显示在一个显示框中，该显示框像插图一样被显示在第一数据流的显示画面之上。该插入框通常被表示为画中画显示(“PIP”)。此PIP具有使电视观众可同时观看两个或多个视频数据流的功能。该功能在这种情况下是很有用的，当一个给定电视频道上开始一个商业片断时，观众希望在此商业片断期间“搜索”其它的选择电视频道，然而又不希望错过返回商业片断的观看。在其它时候，观众可能希望搜索其它的视频内容，或是仅仅观看其它内容而不错过另一个选择频道的内容。
在任何情况下，PIP的问题在于PIP通常都是在覆盖在一个主要画面之上的一个插入框中显示。覆盖的PIP由于主画面的一部分被遮盖，因而效果不理想。
在现有的系统中，PIP可利用遥控输入来实现，从而用户可决定PIP的尺寸以避免使下面的视频图像部分被遮盖。在其它系统中，用户可利用遥控来移动PIP至视频屏幕的预定或可选择的部分上。然而，这些系统很不方便或很难于被用户所操作。
在某些系统中，电视机可以响应于声音控制来控制电视机的功能，例如频道选择和音量控制。
然而，这些系统的问题在于用户并不熟悉声音控制，而且声音识别系统在辨别不同的控制特性上是个难题。此外，常常有可能声音信号并不希望被作为控制命令。
在计算机视觉技术中，已知有的系统可响应于用户的手势来控制给定系统的特性，但这些系统也是难以操作的，并且有可能用户的不正确检测手势并不希望被作为控制手势。
因此，本发明的目的是克服现有技术中的缺点。
发明概述本发明的系统具有一个视频显示装置，例如电视机，其具有一画中画(PIP)显示和一个处理器。该系统还具有例如麦克风这样的音频输入装置，和例如摄像机这样的视频输入装置，用于进行根据本发明的操作。
该系统利用用户的音频指令和相关手势的结合来控制PIP显示特性，例如PIP在显示屏中的位置以及PIP的尺寸。麦克风用于捕获音频指令，处理器执行一个识别操作来确定用户希望执行PIP控制命令。然后，摄像机捕获用户的一个图像或一系列图像，该图像包含用户带有一个手势的至少某一部分。然后该处理器识别该手势并响应于音频指令和手势的结合来执行一个PIP显示特性。
附图的简要说明以下是对本发明实施例的说明，结合附图可阐明上述的特征和优点。应当明白所包含的附图是为了举例说明而不能代表本发明的保护范围，本发明的保护范围由随后的权利要求来定义。本发明最好结合相应的附图来理解，其中

图1示出了根据本发明一个实施例的示例性系统；图2示出了说明本发明一个实施例的操作的流程图；图3示出了根据本发明一个实施例，用于训练该系统来识别音频指令和/或手势的准备步骤的流程图。
发明详述在以下的论述中，将根据特定的实施例或系统而举例性的使用一定的术语以便于论述。对于本发明的普通技术人员来说显而易见，这些术语应当被理解为还包含易于实现本发明的其它类似的已知方式。
图1示出了根据本发明一个实施例的示例性系统100，包括一个显示器110，可操作地与处理器120相耦合，和一个遥控装置130。处理器120和遥控装置130通过一个红外(IR)接收器125如已知技术那样被可操作地耦合，红外接收器125可操作地与处理器120相耦合，IR发射器131可操作地与遥控装置130相耦合。
显示器110可以是电视接收机或者其它可再生用户能够观看或收听的音视频内容的装置。处理器120可在显示器110上产生一个画中画(PIP)显示，如本领域的普通技术人员所知的那样。根据本发明的处理器120还可对PIP进行定位和尺寸调整。
遥控装置130包括多个按钮，可进行如现有技术所知的操作。特别的，遥控装置130还包含一个PIP按钮134，一个对换按钮132，和PIP位置控制按钮137A，137B，137C，137D。PIP按钮134可用于启动PIP功能，在显示器110上显示一个PIP。对换按钮132将显示在显示器110上的一个PIP图像和一个主显示图像相对换。PIP位置控制按钮137A，137B，137C，137D使用户可手动地在显示器110的可选择位置上重定位PIP。遥控130还可包含其它控制按钮，如现有技术所知，例如频道选择键139A，139B和138A，138B用于分别为PIP图像和主显示图像选择视频数据流。
对本领域的技术人员来说显而易见，虽然按钮138A，138B，139A，139B被作为频道选择按钮示出，但按钮138A，138B，139A，139B也可用于在一个或多个其它视频源中的多个视频数据流中进行选择。例如，任何一个视频数据流源(例如PIP和主要显示图像)可以为广播视频图像流，而其他源可以为存储装置。该存储装置(例如VHS模拟磁带)，数字存储装置例如硬盘驱动器，光盘存储装置等，以及其他任何已知的用于存储视频数据流的装置。事实上，PIP和主显示图像中的任意一个的视频数据流的任何源都可在不脱离本发明范围的情况下根据本发明而被使用。
但是如上所述，遥控装置很难用于PIP的操作。另外，经常需要根据主显示图像的变化来操作PIP，例如缩放和移动。例如，随着主显示图像的场景的转换主显示图像中的目标区域也将改变。
根据本发明，为了便于PIP，特别是该PIP的显示特性(例如尺寸，位置等)的操作，处理器可操作的与麦克风122这样的音频输入装置和摄像机124这样的图像输入装置连接。该麦克风122与摄像机124分别用于从用户140处捕获音频指令和相关的手势，以便于PIP的控制。
特别的根据本发明，系统100利用相关手势144之后紧接着的一个音频指令142来控制PIP。该手势144之后紧跟着的一系列音频指令142也可用于启动(例如打开)PIP。该音频指令142和手势144彼此相关，从而系统100可以区分用户不用于PIP控制的指令和手势。特别的，手势144之后紧随着的音频指令142这样的结合，可防止系统100根据错误的背景音频以及由于用户在系统100或其附近的动作引起的手势指令而错误的启动PIP。
另外，该音频指令142和手势144彼此相关，从而使系统100可以区别与PIP尺寸和位置相关的指令。特别的，一个特定的手势可以与两个或更多个音频指令相关联。例如在“大拇指向上”的手势之后紧跟着“PIP尺寸”的指令可用于增加PIP的尺寸。但是在“大拇指向上”的手势之后紧跟着“PIP位置”的指令可用于在向上方向上重新定位PIP。本发明其他的操作将参照图2和图3进行说明。图2示出了本发明一个实施例的流程图200。如图2中流程图所示，在处理205期间，用户140向系统100，特别是麦克风输入122提供一音频指令142。该音频指令向系统100指令用户发出一个PIP相关指令，并指令需要进行PIP操作。该系统100将继续接收和翻译音频输入直到接收到一个被识别的音频指令。术语被识别的意思是，系统100必须接收一个音频指令，该指令可由系统100来识别并与PIP的显示特性相关。
该音频指令142可以为一个简单的单个词汇，例如用户140说出“PIP”，从而简单的指令应当紧接着出现一个PIP相关手势144。如上所述，音频指令和手势的结合是相关的，从而对于一个给定的音频指令系统100只期待一个或多个相随着的手势。在发出一简单的音频指令，例如“PIP”时，一紧随的手势将指令系统需要的PIP相关操作。例如手指(例如大拇指)向上，向下，向左，向右，斜向等指令，可指令PIP希望的位置。
一个音频指令之后紧随着一个相关的手势这样的结合还可以启动PIP，该PIP之前没有被一个分离的音频指令和相关手势，或遥控器130启动。其他手势可用于指令与PIP尺寸相关的命令，例如两个手指靠在一起表示希望减少PIP的尺寸等。用户还可将两个手指彼此远离来指令希望增加PIP的尺寸。
应当理解上述音频指令和手势的例子仅是为了说明本发明的操作，并不能对其进行限定。本领域的普通技术人员很容易实现多种音频指令和对应手势的组合。因此，上述实施例并不能限制本发明的范围。
音频指令还可以为比较复杂的多单词句子，例如“PIP尺寸”，用于指令系统100下面的相关手势作为改变PIP尺寸的命令。在任何情况下，在处理210中，处理器120都将音频指令的识别作为一个与PIP相关的音频指令。下面将进一步说明除了手势识别处理以外的该识别处理。当音频指令没有被识别作为与PIP相关的音频指令时，则如图2所示，处理器120转到处理205，继续监视音频指令直到识别一个与PIP相关的音频指令。
当系统100识别到一个音频指令时，则在处理230期间，处理器120将通过摄像机124获取用户140的一个或一系列图像。目前已经存在用于获取和识别用户手势的系统。例如，根据国际手势工作组1999年对基于手势的人机交互通讯的会议记录，Ying Wu和Thomas S.Huang所作的题目为“可视手势识别评论”中描述了具有控制功能的手势的应用。这里参考引用该文章。
通常，存在两种识别手势的系统。在一个系统中，通常用于手势识别，摄像机124可获取一个或一系列图像以判断用户希望的手势。这种系统通常对用户的手势进行静态评估。在另一种已知系统中，摄像机124可获取一系列图像，从而动态的判断一个手势。这种识别系统通常作为动态/临时手势识别。在一些系统中，动态手势识别可通过分析手的运动轨迹并将该轨迹与对应特殊手势的轨迹模式进行比较来执行。下面将参照图3说明手势和音频指令的处理。
如本领域技术人员所知，有很多种方法来使系统识别语音。还有很多种方法使系统识别静态和动态手势。下面的说明仅用于示意性目的。因此，本发明可被理解为包含这些其他已知系统。
在任何情况下，当摄像机124获得一个或一系列图像后，在处理240中，处理器120开始识别手势。当处理器120没有该手势时，该处理器转到处理230以获取用户140的一个或一系列其他图像。在对该图像或该系列图像中的一手势进行预定次数的判断努力后而没有识别该手势时，处理器120可在处理250期间向用户提供一个指令，说明该手势没有被识别。该指令可以采用从扬声器128输出的音频信号或显示器110的可视信号的形式。在本实施例或其他实施例中，当进行多次尝试后，该系统可返回到处理205以等待其他音频指令。
当处理器120识别该手势时，在处理260期间，该处理器120通过访问存储器126对获取的PIP操作进行判断。该存储器126的结构可以为查询表形式，存储系统100可根据对应的PIP操作识别的手势。在处理270中，当从存储器126中得到要求的PIP操作后，处理器120执行该要求的PIP操作。系统转到处理205以等待用户140的进一步语音指令。
图3示出在识别语音和手势输入的系统100中执行的处理的流程图。虽然用于识别语音和声音的特殊系统、算法等非常不同，但其通常的操作仍然有相似之处。特殊的，在处理310中，语音或手势训练系统提出并捕捉各希望的语音指令或可使别的手势的一个或多个输入样本。词汇“提出”的意思是系统使用户提供一特定的输入样本。
这样，在处理320中，系统将所需的音频指令或可识别手势的一个或多个捕捉的输入样本与一识别该一个或多个输入样本的标号相联系。在处理330中，将该一个或多个被标号的输入样本提供给一分类器(例如处理器120)，从而获取然后可用于识别用户指令的模型。
在一个实施例中，该训练可直接由系统100执行，该系统与用户在设定过程期间进行交互。在另一实施例中，一组系统只执行一次该训练，训练产生的结果(例如所得的模型)将存储在存储器126中。在另一实施例中，可利用存储在存储器126中的结构只训练一次该组系统，然后，各系统可从用户处进行进一步的输入/训练，从而改进这些模型。
最后，上面的描述只用于示意性的说明本发明。本领域技术人员在不脱离本发明精神和范围的情况下，可实现多种替换实施例。例如，虽然所示处理器120与显示器110分离，但很明显他们也可结合在一个单独显示装置，如电视中。另外，处理器可为一专用于执行本发明的处理器或一通用处理器，该通用处理器的功能中只有一个用于执行本发明。另外，处理器可利用一个程序部分、多哥程序部分执行操作，或可为利用一专用或多用途集成电路的硬盘装置。
而且，虽然上述本发明参照电视显示上的PIP进行说明，但本发明还可用于任何可显示一主图像和一PIP的显示装置或其他已知显示装置。
本领域技术人员在不脱离权利要求所属的精神和范围的情况下可实现多种实施例。在说明权利要求时，应当理解a)词汇“包括”并不排除权利要求中所列元件之外的其他元件；b)元件前的词汇“一个”并不排除出现多个该元件的可能性；c)权利要求中的任何附图标记都不限定范围；和d)多个“装置”可使用相同结构或功能的部件或硬件或软件来表示。
权利要求
1.一种视频显示装置，包括一显示器(110)，可显示一主图像和一覆盖在该主图像上的画中画图像(PIP)；一处理器(120)，可操作的与该显示器(110)连接，用于接收主图像的第一视频数据流，接收该PIP的第二视频数据流，并响应于接收的用户的音频指令和相关手势来改变PIP的显示特性。
2.如权利要求1所述的视频显示装置，其中该PIP显示特性为该PIP在显示器上的至少一个位置和该PIP的显示尺寸。
3.如权利要求1所述的视频显示装置，包括一用于接收用户的音频指令的麦克风(122)；一用于获取包括相关手势的用户图像的摄像机(124)。
4.如权利要求1所述的视频显示装置，其中该处理器(120)用于分析从用户处接收的音频信息以识别用户与PIP相关的音频指令何时发出。
5.如权利要求1所述的视频显示装置，其中处理器(120)用于在接收到音频指令后，分析从用户处接收的图像信息，以识别由接收的手势表示的PIP显示特性中的变化。
6.如权利要求5所述的视频显示装置，其中该图像信息包括在一系列图像中，其中该处理器(120)用于分析该图像序列从而判断接收的手势。
7.如权利要求6所述的视频显示装置，其中该处理器(120)用于判断用户的手的运动轨迹和/或姿势。
8.如权利要求1所述的视频显示装置，其中该视频显示装置(110)为一电视机。
9.一种控制覆盖在主图像上的画中画显示(PIP)的显示特性的方法，该方法包括从用户处接收一音频指令；判断该接收的音频指令是否为多个需要的音频指令中的一个；如果接收的音频指令为需要的多个音频指令中的一个，则分析用户的手势；和如果该手势为与该接收的音频指令相关的手势，则控制显示特性。
10.如权利要求9所述的方法，其中分析该手势包括接收一图像序列；分析该图像序列以判断该手势。
11.如权利要求10所述的方法，其中分析该图像序列包括判断用户一个手的运动轨迹和/或姿势；和通过判断该运动轨迹和/或姿势来判断该手势。
12.一种计算机程序产品，当执行该计算机程序产品时，可使一可编程装置作为前面权利要求1-8中任何一个所限定的一视频显示装置来工作。
全文摘要
一视频显示装置，具有一画中画(PIP)显示器，一音频输入装置，一图像输入装置和一处理器。该装置利用用户的音频指令和相关手势的组合来控制PIP显示特性，如显示其中PIP的位置，PIP的尺寸。一麦克风可捕捉音频指令，处理器执行一识别处理以判断该PIP控制命令是否为用户希望的。然后摄像机捕捉包括至少用户的包括手势的一些部分的用户的一个或一系列图像。该处理然后识别该手势，并根据音频指令和手势的组合调整PIP显示特性。
文档编号G06T3/00GK1520685SQ02812915
公开日2004年8月11日申请日期2002年6月20日优先权日2001年6月29日
发明者E·科亨-索拉尔, E 科亨-索拉尔申请人:皇家菲利浦电子有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：E.科亨-索拉尔
技术所有人：皇家菲利浦电子有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。