专利名称:视频播放装置及其操作方法
技术领域:
本发明涉及一种视频装置,尤其涉及一种视频播放装置及其操作方法。
背景技术:
在观赏电视节目时,常发现观众讨论节目中的对话、场景、人物、商品。对于“谁是谁”的关联性以及对应关系,即使现有节目后制都很贴心地为观众上字幕、上图片,观众还是会有疑问“他是谁? ”这个问号除了来自于对声音、影像的疑问之外,更想得知再进一步的了解。
发明内容
本发明提供一种视频播放装置及其操作方法,基于影像识别与声音识别的交集结果进行多媒体操作。本发明实施例提出一种视频播放装置,包括影音识别单元以及物件选择单元。影音识别单元对一影像信号进行影像识别以获得一影像识别结果,对一声音信号进行声音识别以获得一声音识别结果,以及获得该影像识别结果与该声音识别结果的一交集结果。物件选择单元耦接至该影音识别单元。该物件选择单元从该交集结果选择至少一物件,以及依据所述至少一物件进行一多媒体操作。本发明实施例提出一种视频播放装置的操作方法,包括:对影像信号进行影像识另O,以获得影像识别结果;对声音信号进行声音识别,以获得声音识别结果;交集该影像识别结果与该声音识别结果,以获得交集结果;从该交集结果选择至少一物件;以及依据所述至少一物件进行多媒体操作。在本发明的一实施例中,上述的影音识别单元包括声音分析器、影像识别器以及比较器。声音分析器接收声音信号并进行所述声音识别,以获得声音识别结果。影像识别器接收影像信号并进行所述影像识别,以获得影像识别结果。比较器耦接至该声音分析器与该影像识别器。比较器比较该声音识别结果与该影像识别结果,以获得该交集结果,以及将该交集结果输出给该物件选择单元。在本发明的一实施例中,上述的影音识别单元包括声音分析器以及影像识别器。声音分析器接收声音信号并进行所述声音识别,以获得声音识别结果。影像识别器接收影像信号并进行所述影像识别,以获得影像识别结果。影像识别器耦接至该声音分析器,以接收该声音识别结果。该影像识别器依据该声音识别结果过滤该影像识别结果,以获得该交集结果,以及将该交集结果输出给物件选择单元。在本发明的一实施例中,上述的影音识别单元包括声音分析器以及影像识别器。影像识别器接收影像信号并进行所述影像识别,以获得影像识别结果。声音分析器接收声音信号并进行所述声音识别,以获得声音识别结果。声音分析器耦接至该影像识别器,以接收该影像识别结果。该声音分析器依据该影像识别结果过滤该声音识别结果,以获得该交集结果,以及将该交集结果输出给物件选择单元。
在本发明的一实施例中,上述的多媒体操作包括存储影像或存储所述至少一物件。在本发明的一实施例中,上述的视频播放装置还包括网络介面。此网络介面耦接至物件选择单元。其中,该物件选择单元依据所述至少一物件通过网络介面对通信网络进行多媒体操作。例如,该多媒体操作包括上传、下载、搜寻、链接或订阅。在本发明的一实施例中,上述的视频播放装置还包括影音同步单元。影音同步单元耦接至影音识别单元。影音同步单元依据该交集结果使影像信号与声音信号二者同步。在本发明的一实施例中,上述的影音同步单元包括同步控制器、影像延迟器以及声音延迟器。同步控制器耦接至影音识别单元。同步控制器依据该交集结果检查影像信号与声音信号二者的时间误差,以及对应输出第一控制信号与第二控制信号。影像延迟器受控于第一控制信号而决定影像信号的延迟量。声音延迟器受控于第二控制信号而决定声音信号的延迟量。基于上述,本发明实施例揭示一种视频播放装置及其操作方法,基于影像识别与声音识别的交集结果进行物件选取与多媒体操作。例如,帮助观众了解谁是谁的关联性,或做更深入的探讨、认识与数据检索。为让本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合附图作详细说明如下。
图1是依照本发明实施例说明一种视频播放装置的功能方块示意图。图2是依照本发明实施例说明图1所示视频播放装置的操作方法流程示意图。图3是依照本发明另一实施例说明一种视频播放装置的功能方块示意图。图4是依照本发明实施例说明影音识别单元的功能方块示意图。图5是依照本发明另一实施例说明影音识别单元的功能方块示意图。图6是依照本发明又一实施例说明影音识别单元的功能方块示意图。图7是依照本发明又一实施例说明一种视频播放装置的功能方块示意图。图8是依照本发明实施例说明一种影音同步单元的功能方块示意图。主要元件符号说明:30:通信网络100、300、700:视频播放装置110:影音识别单元120:物件选择单元130:显示单元140:声音单元350:网络介面410、610:声音分析器420、520:影像识别器430:比较器760:影音同步单元
810:同步控制器820:影像延迟器830:声音延迟器Cl:第一控制信号C2:第二控制信号S210 S240:步骤Sa、Sa’:声首信号Sv、Sv’:影像信号
具体实施例方式图1是依照本发明实施例说明一种视频播放装置100的功能方块示意图。视频播放装置100包括影音识别单元110、物件选择单元120、显示单元130以及声音单元140。显示单元130接收影像信号Sv,以及依据影像信号Sv显示对应的影像画面。声音单元140接收声音信号Sa,以及依据声音信号Sa驱动扬声器(speaker)发出对应的声音。上述影像信号Sv与声音信号Sa可以是电视、影音光盘(video compact disk, VO))、数码多功能光盘(digital versatile disc, DVD)、蓝光光盘(Blue-Ray disk)、网际网络(internet)等影音来源的影音串流。例如,使用者可以通过显示单元130以及声音单元140观赏电视节目。图2是依照本发明实施例说明图1所示视频播放装置100的操作方法流程示意图。请参照图1与图2。影音识别单元110对影像信号Sv进行影像识别,以获得影像识别结果(步骤S210)。此影像识别可以是任何一种识别技术。例如利用模板配对技术进行影像识别,意指利用标准样本(模板)数据库进行影像识别。于此数据库中具有多个物件样本,例如标准脸部样本。此脸部样本往往是以预先定义或参数化的函数来描述。在输入影像信号Sv与标准模版之间的比对方式,大多采用脸部轮廓、眼、鼻或嘴唇等部位分别给分的方式为之,而这些给分的加总称为“关联值(correction values)”。例如,对影像信号Sv的某一个帧(frame)进行影像识别后获得的影像识别结果包含“小虎队”与“小猪”等多个物件影像。影音识别单元110亦可对声音信号Sa进行声音识别,以获得声音识别结果(步骤S210)。当声音藉由模拟到数码的转换装置输入影音识别单元110内部,并以数值方式存储后,影音识别单兀110便开始比对事先存储的声音样本与输入的声音信号Sa,并对声音识别结果给予相似度最高的“声音样本序号”。例如,假设声音信号Sa中有一段语音为..有在学小虎队的货柜车...”,则识别此段语音可以得到两组有效声音样本序号A1011(小虎队)与B2022 (货柜车)。影音识别单元110交集该影像识别结果与该声音识别结果,以获得一交集结果(步骤S220)。例如上述的举例,对影像信号Sv进行影像识别而获得的影像识别结果包含“小虎队”与“小猪”等,而对声音信号Sa进行声音识别所获得声音识别结果包含“小虎队”与“货柜车”等,则所述交集结果包含“小虎队”。声音信号Sa可以是任何声音、语音的信息源,例如包括多媒体内容、网络影片、模拟电视(Analog Television,ATV)、数码电视(Digital Television,DTV)串流(stream)、字幕(Subtitle)、个人录影机(Personal Video!^(^!■(^!^乂尺^音乐曲名^于动下载的音乐歌词...等。经由声音撷取分析结果、解析数据的音义,加上影像识别出的画面,过滤后即为交集的重点(Filter & Intersection)。物件选择单元120耦接至影音识别单元110。物件选择单元120从影音识别单元110所输出的交集结果选择至少一物件(步骤S230),以及依据所述至少一物件进行多媒体操作(步骤S240)。例如,此多媒体操作包括存储所述至少一物件,或是存储所述物件所对应的影像。物件选择单元120可以依据使用者的操作而从影音识别单元110所输出的交集结果中选择至少一物件(例如“小虎队”),然后将此物件、所对应的影像以及此次播放的相关信息记录于数据库中。日后当使用者欲查询感兴趣的物件(例如“小虎队”)时,物件选择单元120可以从数据库中检索出此物件的相关画面、声音及/或相关播放历史记录。上述实施例的物件选择单元120是依据使用者的操作而从所述交集结果中选择物件,然而实施方式不限于此。在其他实施例中,物件选择单元120可以依据预设类别(例如歌星、电子产品等类别),而自动地从所述交集结果中选择出符合所述预设类别的物件。图3是依照本发明另一实施例说明一种视频播放装置300的功能方块示意图。视频播放装置300包括影音识别单元110、物件选择单元120、显示单元130、声音单元140以及网络介面350。视频播放装置300的实施细节可以参照图1所示视频播放装置100的相关说明。请参照图3,网络介面350耦接至物件选择单元120。通过网络介面350,物件选择单元120依据被选择的所述物件对通信网络30进行多媒体操作。上述的通信网络30可以是WiFi无线网络、非对称性数码用户回路(Asymmetric Digital Subscriber Line, ADSL)网络、电缆数据机(Cable MODEM)网络、全球微波互通(Worldwide Interoperability forMicrowave Access,WiMAX)网络或长期进化(Long Term Evolution,LTE)网络或是其他通信网络。上述多媒体操作包括上传、下载、搜寻、链接或订阅等操作。例如上述的举例,物件选择单元120所选择的物件是“小虎队”,则物件选择单元120可以通过网络介面350将目前所 播放的“小虎队”影像上传至通信网络30(相簿、社群网站...等)。或者,将影像画面或单一图类似快照(snapshot)方式,于显示单元130的显示画面开启。或是,将目前所播放的“小虎队”影像藉由网络介面350与通信网络30传送显示至其他装置。或是,物件选择单元120将“小虎队”图片或影像位置加入对应网址,供使用者点选后即可超链接至对应网站,然后将对应网站的网页显示于显示单元130的显示画面。或是,将目前所播放的“小虎队”影像加入最爱清单或同步分享、推荐给指定使用者观赏、为节目内容做排版、幻灯片等线上互动功能。或是,以“小虎队”图片做影像搜索,利用通信网络30找出此图的相关信息,然后将相关信息显示于显示单元130的显示画面。或是,以影像得到的信息(影像、文字...等)展开此信息可获得内容搜集,或通过通信网络30订阅与“小虎队”图片有关的文章、影片,然后将订阅内容显示于显示单元130的显示画面。图1与图3所示影音识别单元110可以任何方式实现之。例如,图4是依照本发明实施例说明影音识别单元Iio的功能方块示意图。影音识别单元Iio包括声音分析器410、影像识别器420以及比较器430。声音分析器410接收声音信号Sa并进行所述声音识别,以获得声音识别结果。影像识别器420接收影像信号Sv并进行所述影像识别,以获得影像识别结果。比较器430耦接至声音分析器410与影像识别器420。比较器430比较声音分析器410的声音识别结果与影像识别器420的影像识别结果,以获得二者的交集结果,以及将该交集结果输出给物件选择单元120。例如,藉由标准模板数据库的比对后,影像识别器420识别出影像的关联值备用,同时声音分析器410对语音分析出声音识别结果。当比较器430判断声音样本序号与影像关联值吻合,即于交集结果传送给物件选择单元120。图5是依照本发明另一实施例说明影音识别单元110的功能方块示意图。影音识别单元110包括声音分析器410以及影像识别器520。声音分析器410接收声音信号Sa并进行所述声音识别,以获得声音识别结果。影像识别器520耦接至声音分析器410。影像识别器520接收影像信号Sv与声音分析器410的声音识别结果。影像识别器520对影像信号Sv进行所述影像识别,以获得影像识别结果。依据声音分析器410的声音识别结果,影像识别器520过滤该影像识别结果以获得该交集结果,以及将该交集结果输出给物件选择单元120。也就是说,语音数据进来后,声音分析器410先进行语音的分析,影像识别器520再以声音序号(声音识别结果)去捞取影像数据识别出来的已确认影像,即可于交集结果传送给物件选择单元120。图6是依照本发明又一实施例说明影音识别单元110的功能方块示意图。影音识别单元110包括影像识别器420以及声音分析器610。影像识别器420接收影像信号Sv并进行所述影像识别,以获得影像识别结果。声音分析器610耦接至影像识别器420。声音分析器610接收声音信号Sa与影像识别器420的影像识别结果。声音分析器610对该声音信号Sa进行所述声音识别以获得声音识别结果。依据影像识别器420的影像识别结果,声音分析器610过滤该声音识别结果以获得该交集结果,以及将该交集结果输出给物件选择单元120。也就是说,影像数据进来后,影像识别器420进行影像识别,可能影像识别结果会含有多个物件,因此声音分析器610再以声音分析序号找寻影像结果,确认配对,即可于交集结果传送给物件选择单元120。图7是依照本发明又一实施例说明一种视频播放装置700的功能方块示意图。视频播放装置700包括影音识别单元110、物件选择单元120、显示单元130、声音单元140、网络介面350以及影音同步单元760。视频播放装置700的实施细节可以参照图1所示视频播放装置100与图3所示视频播放装置300的相关说明。请参照图7,影音同步单元760耦接至影音识别单元110。影音同步单元760依据影音识别单元110的交集结果而使影像信号Sv与声音信号Sa 二者同步。例如,若影音同步单元760依据影音识别单元110的交集结果而判断影像信号Sv比声音信号Sa慢,则影音同步单元760输出不延迟的影像信号Sv(即图7所示影像信号Sv’ )给显示单元130,以及输出被延迟的声音信号Sa(即图7所示声音信号Sa’)给声音单元140。因此,显示单元130所显示的影像与声音单元140发出的声音可以同步化。图8是依照本发明实施例说明一种影音同步单元760的功能方块示意图。影音同步单元760包括同步控制器810、影像延迟器820以及声音延迟器830。同步控制器810耦接至影音识别单元110。同步控制器810依据影音识别单元110的交集结果检查影像信号Sv与声音信号Sa 二者的时间误差,以及对应输出第一控制信号Cl与第二控制信号C2。影像延迟器820受控于第一控制信号Cl而决定影像信号Sv的延迟量。影像延迟器820延迟影像信号Sv而输出影像信号Sv’给显示单元130。声音延迟器830受控于第二控制信号C2而决定声音信号Sa的延迟量。声音延迟器830延迟声音信号Sa而输出声音信号Sa’给声音单元140。
例如,请参照图7与图8,影音识别单元110在声音信号Sa中识别出“有在学小虎队的货柜车”此段语音,进而得到两组有效声音样本序号A1011(小虎队)与B2022(货柜车)。影音识别单元110在对影像信号Sv进行影像识别同时撷取画面的所有人脸,至模板数据库进行比对,找到“小虎队”与“小猪”等影像。影音识别单元110再将声音样本序号与影像交集迭合得到声音样本序号AlOll与“小虎队”影像的关联值较吻合。假设此时影音讯号不同步,例如声音信号Sa正常,影像信号Sv却比声音信号Sa迟了 5秒,则同步控制器810即可控制声音延迟器830使声音信号Sa延迟5秒缓冲后再同步呈现。综上所述,本发明实施例基于影像识别与声音识别的交集结果进行物件选取与多媒体操作,例如自动上网查找画面中被选择物件的相关数据。随着网际网络数据量大幅激增,所提供的多媒体影音图文皆可成为信息源,同一画面(不论网页或连网电视)拥有过多的外部链接或链接后爆增新视窗,造成使用者困扰及系统不堪负荷。当来源数据经由过滤、整理再提供有效率的结果并应用,即为上述实施例的最大效用。虽然本发明已以实施例揭示如上,但其并非用以限定本发明,任何所属技术领域的技术人员,在不脱离本发明的精神和范围内,当可作适当的改动和同等替换,故本发明的保护范围应当以本申请权利要求所界定的范围为准。
权利要求
1.一种视频播放装置,其特征在于,包括: 一影音识别单元,对一影像信号进行一影像识别以获得一影像识别结果,对一声音信号进行一声音识别以获得一声音识别结果,以及获得该影像识别结果与该声音识别结果的一交集结果;以及 一物件选择单元,耦接至该影音识别单元,该物件选择单元从该交集结果选择至少一物件,以及依据所述至少一物件进行一多媒体操作。
2.根据权利要求1所述的视频播放装置,其中该影音识别单元包括: 一声音分析器,接收该声音信号并进行所述声音识别,以获得该声音识别结果; 一影像识别器,接收该影像信号并进行所述影像识别,以获得该影像识别结果;以及 一比较器,耦接至该声音分析器与该影像识别器,该比较器比较该声音识别结果与该影像识别结果以获得该交集结果,以及将该交集结果输出给该物件选择单元。
3.根据权利要求1所述的视频播放装置,其中该影音识别单元包括: 一声音分析器,接收该声音信号并进行所述声音识别,以获得该声音识别结果;以及一影像识别器,耦接至该声音分析器,其中该影像识别器接收该影像信号与该声音识别结果,对该影像信号进行所述影像识别以获得该影像识别结果,依据该声音识别结果过滤该影像识别结果以获得该交集结果,以及将该交集结果输出给该物件选择单元。
4.根据权利要求1所述的视频播放装置,其中该影音识别单元包括: 一影像识别器,接收该影像信号并进行所述影像识别,以获得该影像识别结果;以及一声音分析器,耦接至该影像识别器,其中该声音分析器接收该声音信号与该影像识别结果,对该声音信号进行所述声音识别以获得该声音识别结果,依据该影像识别结果过滤该声音识别结果以获得该交集结果,以及将该交集结果输出给该物件选择单元。
5.根据权利要求1所述的视频播放装置,其中该多媒体操作包括存储影像或存储所述至少一物件。
6.根据权利要求1所述的视频播放装置,还包括: 一网络介面,耦接至该物件选择单元; 其中该物件选择单元依据所述至少一物件通过该网络介面对一通信网络进行该多媒体操作。
7.根据权利要求6所述的视频播放装置,其中该多媒体操作包括上传、下载、搜寻、链接或订阅。
8.根据权利要求1所述的视频播放装置,还包括: 一影音同步单元,耦接至该影音识别单元,该影音同步单元依据该交集结果使该影像信号与该声音信号二者同步。
9.根据权利要求8所述的视频播放装置,其中该影音同步单元包括: 一同步控制器,耦接至该影音识别单元,该同步控制器依据该交集结果检查该影像信号与该声音信号二者的时间误差,以及对应输出一第一控制信号与一第二控制信号; 一影像延迟器,受控于该第一控制信号而决定该影像信号的延迟量;以及 一声音延迟器,受控于该第二控制信号而决定该声音信号的延迟量。
10.一种视频播放装置的操作方法,其特征在于,包括: 对一影像信号进行一影像识别,以获得一影像识别结果;对一声音信号进行一声音识别,以获得一声音识别结果; 交集该影像识别结果与该声音识别结果,以获得一交集结果; 从该交集结果选择至少一物件;以及 依据所述至少一物件进行一多媒体操作。
11.根据权利要求10所述视频播放装置的操作方法,其中所述交集该影像识别结果与该声音识别结果的步骤包括: 比较该声音识别结果与该影像识别结果,以获得该交集结果。
12.根据权利要求10所述视频播放装置的操作方法,其中所述交集该影像识别结果与该声音识别结果的步骤包括: 依据该声音识别结果过滤该影像识别结果,以获得该交集结果。
13.根据权利要求10所述视频播放装置的操作方法,其中所述交集该影像识别结果与该声音识别结果的步骤包括: 依据该影像识别结果过滤该声音识别结果,以获得该交集结果。
14.根据权利要求10所述视频播放装置的操作方法,其中该多媒体操作包括存储影像或存储所述至少一物件。
15.根据权利要求10所述视频播放装置的操作方法,还包括: 依据所述至少一物件通 过一网络介面对一通信网络进行该多媒体操作。
16.根据权利要求15所述视频播放装置的操作方法,其中该多媒体操作包括上传、下载、搜寻、链接或订阅。
17.根据权利要求10所述视频播放装置的操作方法,还包括: 依据该交集结果,同步该影像信号与该声音信号。
18.根据权利要求17所述视频播放装置的操作方法,其中所述同步该影像信号与该声音信号的步骤包括: 依据该交集结果检查该影像信号与该声音信号二者的时间误差,对应产生一第一控制信号与一第二控制信号; 依据该第一控制信号,决定该影像信号的延迟量;以及 依据该第二控制信号,决定该声音信号的延迟量。
全文摘要
本发明涉及一种视频播放装置及其操作方法,此视频播放装置包括影音识别单元以及物件选择单元。影音识别单元对影像信号进行识别以获得影像识别结果,对声音信号进行识别以获得声音识别结果,以及获得该影像识别结果与该声音识别结果的交集结果。物件选择单元耦接至该影音识别单元。该物件选择单元从该交集结果选择至少一物件,以及依据所述至少一物件进行多媒体操作。
文档编号H04N21/435GK103188549SQ20111044650
公开日2013年7月3日 申请日期2011年12月28日 优先权日2011年12月28日
发明者庄雅淇, 柯杰斌 申请人:宏碁股份有限公司