用于搜索多媒体内容的用户界面方法和设备的制造方法

文档序号：9713567阅读：604来源：国知局

用于搜索多媒体内容的用户界面方法和设备的制造方法
【技术领域】
[0001]本公开涉及用于支持查询输入和查询结果输出以检测多媒体内容中的所需帧、场景或镜头并向用户提供检测到的帧、场景或镜头的用户界面技术。
【背景技术】
[0002]随着计算技术的发展，例如音乐、视频、图像等的多媒体内容的创建以及多媒体内容的传输和购买已经变得简单，并且因此内容的数量和质量已经非常迅速地提高。例如，可以在例如智能电话、便携式多媒体播放器(PMP)、平板计算机、控制台游戏机、台式计算机等的电子设备中存储人拍摄的许多图像、记录的图像、购买的音乐文件和下载的电影文件等，并且可以在每个电子设备中搜索内容，或者还可以搜索/共享通过有线/无线通信装置连接的另一电子设备的内容。此外，可以通过视频点播(VoD)服务实时地搜索视频或通过经由互联网访问例如Youtube的视频共享网站来搜索视频并可以显示找到的视频。
[0003]同时，视频内容技术向具有高压缩率的编码/解码技术应用高分辨率和高音质的多媒体内容。
[0004]结果，对于无论何时何地只要用户喜欢就搜索电子设备中的大量内容并对用户想要的场景进行划分和搜索的用户愿望增加，并且要处理的数据量和复杂度也增加。

【发明内容】

[0005]技术问题
[0006]因此，运动图像专家组(MPEG)_7标准被提出作为能够分析多媒体内容并基于分析的内容有效地显示多媒体内容的整体或一部分的代表性描述技术。
[0007]MPEG-7被正式称为多媒体内容描述接口，并与国际标准化组织(ISO)和国际电工委员会(IEC)联合技术委员会下的MPEG中的多媒体数据的基于内容的搜索的内容表达方案的国际标准相对应。
[0008]MPEG-7定义能够表达视听(AV)数据的内容的描述符的标准、定义用于系统地描述AV数据和语义信息的结构的计划的描述方案(DS)以及作为用于定义描述符和描述方案的语言的描述定义语言(DDL)。
[0009]MPEG-7处理多媒体数据的内容的表达方法，并可以被主要划分为针对包括语音或声音信息的音频数据的基于内容的搜索、针对包括图片或图表的静止图像数据的基于内容的搜索、以及针对包括视频的视频数据的基于内容的搜索。
[0010]例如，可以使用作为MPEG(运动图像专家组)-7内的一类「概述DS」(描述方案)的「序列概述DS」来描述与图像或音频数据同步的样本(sample)视频帧序列。当用户请求样本视频时，MPEG-7文档可以生成，通过可扩展样式表语言(XSL)转换为超文本标记语言(HTML)，并在网络中示出。
[0011]通过例如MPEG-7的技术，定义用于表达关于例如视频、音频数据、图像等的多媒体内容的信息的元数据结构，因此可以使用根据标准生成的MPEG-7文档来提供根据用户的各种查询找到的结果。
[0012]MPEG-7是通过基于可扩展标记语言(XML)的文档做出的并用于描述内容中的内容的属性。因此，未提供提取或搜索内容中的内容的方法，使得正在发展执行查询并搜索搜索结果的各种方法。
[0013]当应用这种技术时，可以基于相应多媒体内容的样本提供电影预告片服务，或可以提供包括短视频的索引服务或搜索所需场景的服务。MPEG-7与代表性内容内容描述方法相对应，但是可以使用其他描述方法。
[0014]视频是使用压缩方案编码的，并具有例如MPEG、WindowS媒体视频(WMV)、RealMedia可变比特率(RMVB)、M0V、H.263、H.264等的编解码器类型。可以使用例如包括在压缩数据中的运动矢量、残余信号(离散余弦变换(DCT))、整数系数和宏块类型的各种信息来处理用于识别和跟踪压缩数据中的对象的技术。这种算法可以包括基于马尔可夫随机场(MRF)的模型、相异性最小化算法、概率数据关联滤波(PDAF)算法、概率空时宏块滤波(PSMF)算法等。
[0015]图像的分析元素可以包括轮廓、颜色、对象形状、质地、形式、面积、静止/运动图像、音量、空间关系、变形、对象的来源和特征、颜色的改变、亮度、模式、字符、记号、上色、符号、手势、时间等，并且音频数据的分析元素可以包括频率形状、音频对象、音色、和声、频率分布、声压、分贝、语音的节奏内容、声源的距离、空间结构、音色、声音的长度、音乐信息、声音效果、混合信息、持续时间等。文本包括字符、用户输入、语言的类型、时间信息、内容相关信息(出品人、导演、标题、演员名字等)、注释等。
[0016]可能单独找到或考虑各种信息与适合于该情况的信息一起找到这种信息。例如，可以仅基于男演员的名字来搜索视频中的场景。然而，除此以外，如果搜索“男演员在下雨天拿着雨伞跳舞同时演唱“雨中唱歌”的歌曲的场景”，则必须考虑复杂的情况以通过视频图像分析和音频分析找到相应场景。在这种情况下，可以将男性图像、下雨场景、雨伞和动作检测应用为要在视频磁轨中找到的描述符，可以在音频磁轨中搜索男性语音模式、歌曲和语音的内容，并且可以在字幕磁轨的文本中搜索短语“雨中唱歌”。因此，可以分析要在每个磁轨中找到的查询内容，以根据一个或更多个磁轨中的每一个来合适地应用查询内容。
[0017]通常，视频分析使用分析通过连续收集基本关键帧生成的镜头和通过多个收集的镜头而具有语义关系的场景的方法。镜头指的是不停地拍摄或记录直至一个摄像机结束从头开始的拍摄。镜头集合在一起以形成场景，并且一系列场景集合在一起以形成序列。基于图像解析，可以分析图像内的对象之间的关系、图像之间的对象、运动和图像改变，并可以提取关于图像的信息。在音频数据的情况下，可以使用扬声器识别、语义语音识别、基于声音的感情识别、空间印象等分析相应情况和时间戳。在字幕的情况下，可以根据图像中存在字幕并且单独地存在字幕文件的情况通过图像分析或文本分析来分析并提取信息，并可以在MPEG7或类似场景中对提取出的信息结构化。
[0018]可以在各种方法中找到提取出的信息。可以基于例如实例查询(QBE)、草图(sketch)查询(QBS)或语音识别的方案来输入文本或可以输入要搜索的信息，并且搜索所需场景、声音或字符，以确定与情境相匹配的位置。在QBE中，用户搜索所需图像并对所需图像和类似图像进行比较。在QBS中，用户绘制所需的整个图像，以找到类似图像。
[0019]作为对图像进行分析、查询和搜索的方法，已经引入了各种技术。所述方法包括IBM的QB 1C、卡内基梅隆大学的Informedia、MIT的照片簿(photobook)、哥伦比亚大学的VisualSeek、伯克利大学的Chabot、索尼的US注册专利n0.US7284188、LG的韩国注册专利n0.KR10-0493635、ETRI的韩国注册专利n0.KR10-0941971、KBS技术研究机构的自动元数据发生器(OMEGA)系统、Blinkx的视频搜索引擎131;[111?(111^口://www.blinkx.com)、Riya.com的Like.com等，并且还包括除上述以外的其他方法。
[0020]本发明的各实施例提供了关于输入查询并搜索查询结果以基于例如视频的多媒体内容找到所需场景的方法的用户界面方法和装置。
[0021]本发明的各实施例提供了用于在视频的进度条上显示与一个或更多个查询结果相对应的缩略图或样本场景视频(视频章节功能)，以允许用户容易地并且直观地掌握查询结果在视频中的时间位置和长度，并在一个屏幕上搜索查询结果中的所需场景的方法和装置。
[0022]本发明的各实施例提供了通过以下方法执行容易搜索的方法和装置:提供在查询结果的数量很大并且因此查询结果在屏幕上被显示得非常小或一些查询结果被隐藏时使用的放大镜功能和针对聚焦到的查询结果的导航功能，以及提供例如预览和控制搜索屏幕的尺寸的功能。
[0023]本发明的各实施例提供了用于评估查询的匹配程度并根据匹配程度区别地提供显示查询结果的位置、尺寸、图形效果以及声音效果的方法和装置。
[0024]本发明的各实施例提供了用于通过经由各种方案(图像、音乐、屏幕捕获、草图、手势识别、语音识别、面部识别、运动识别等)执行查询来向用户提供方便的用户界面的方法和装置。
[0025]本发明的各实施例提供了用于存储查询结果并当用户请求相同的查询结果时再次显示查询结果的方法和装置。
[0026]本发明的各实施例提供了用于根据视频磁轨、音频磁轨和文本磁轨中的每一个分析内容中的内容的方法和装置。
[0027]技术解决方案
[0028]根据本发明的各实施例，一种搜索内容的方法包括:通过用户界面接收用于搜索所述内容中的内容的查询的输入;通过使用与所述内容相关的描述来检测与所述查询相对应的所述内容的至少一部分内容，作为所述查询的结果;确定显示查询结果的位置;考虑到所述内容的所述部分内容的长度和所述查询结果之间的相对距离中的至少一个，确定与所述查询结果相对应的场景标记的尺寸或显示所述查询结果的区域的尺寸；以及根据所确定的所述查询结果的位置和相关尺寸至少部分地显示一个或更多个查询结果。
[0029]根据本发明的各实施例，一种输入针对在内容中基于内容的查询的用户查询的方法，包括:通过用户输入界面设置要搜索的内容;设置针对搜索要搜索的内容中的内容的查询;通过使用关于要搜索的内容的描述信息来搜索与查询相对应的内容的部分内容，作为查询结果；以及基于查询匹配程度来显示一个或更多个检测到的查询结果。
[0030]根据本发明的各实施例，一种电子设备包括:一个或更多个处理器;存储器；以及存储在存储器中并配置为由所述一个或更多个处理器执行的一个或更多个程序。所述程序包括以下命令:通过使用用户输入界面输入针对搜索所述内容中的内容的查询;通过使用与所述内容相关的描述信息来检测与所述查询相对应的所述内容的至少一部分内容，作为所述查询结果;基于与所述内容中的至少一个内容中的每一个相对应的回放时段来确定显示所述查询结果的位置;考虑所述内容的部分内容的长度和所述查询结果之间的相对距离中的至少一个，确定与查询结果相对应的场景标记的尺寸或显示所述查询结果的窗口的尺寸；以及根据所确定的所述查询结果的位置和所确定的相关尺寸至少部分地显示一个或更多个查询结果。
[0031]根据本发明的各实施例，一种电子设备包括:一个或更多个处理器;存储器；以及存储在存储器中并配置为由所述一个或更多个处理器执行的一个或更多个程序。程序包括以下命令:通过用户输入界面设置要搜索的内容;设置针对搜索要搜索的内容中的内容的查询;通过使用关于要搜索的内容的描述信息来检测与查询相对应的内容的部分内容；以及基于查询匹配程度来显示一个或更多个检测到的查询结果。
[0032]有益效果
[0033]根据本发明的各实施例，关于例如视频、音乐等的多媒体内容，概述了场景或将主场景形成为要以预览形式或全视图提供的缩略图或样本场景文件。
【附图说明】
[0034]图1示出了根据本发明的各实施例的视频内容搜索查询的结果屏幕；
[0035]图2示出了根据本发明的各实施例的视频内容搜索查询结果；
[0036]图3示出了根据本发明的各实施例在视频内容搜索查询结果中搜索特定场景的方法的示例；
[0037]图4示出了根据本发明的各实施例的在视频内容搜索查询的结果屏幕中使用放大镜功能的搜索方法；
[0038]图5示出了根据本发明的各实施例当搜索视频内容时根据每个磁轨寻找视频内容的方法；
[0039]图6示出了根据本发明的各实施例的用于搜索视频内容的查询界面屏幕；
[0040]图7示出了根据本发明的各实施例的通过图像识别的查询方法的界面屏幕；
[0041]图8示出了根据本发明的各实施例的用于搜索视频内容的各种查询界面屏幕；
[0042]图9示出了根据本公开的各实施例的用于搜索查询结果的屏幕；
[0043]图10是示出了根据本发明的各实施例的电子设备显示查询结果的过程的流程图；
[0044]图11是示出了根据本发明的各实施例的电子设备显示查询结果的过程的流程图；
[0045]图12是示出了根据本发明的各实施例的电子设备显示查询结果的过程的流程图；以及
[0046]图13是根据本发明的各实施例的电子设备的框图。
【具体实施方式】
[0047]在下文中，将参照附图详细地描述本发明的各实施例。此外，在本发明的以下描述中，当在此结合的公知功能或结构可能使本发明的主题不清楚时，将省略对这些公知功能和结构的详细描述。以下将描述的术语是考虑本发明中的功能所定义的术语，并且可以根据用户、用户的意图或顾客而异。因此，应基于整个说明书的内容，来定义这些术语。
[0048]本发明的各实施例将描述关于执行查询并搜索查询结果以基于例如视频的多媒体内容找到所需场景的方法的用户界面方法和装置。
[0049]图l(a)_l(d)示出了显示根据本发明的各实施例的视频内容搜索查询的结果的屏蒂。
[0050]图1(a)示出了在执行查询之前的一般视频用户界面。在视频的回放期间，可能出现播放/停止按钮102、快进按钮104、回退按钮100和进度条(或进程条)105或滚动条。在图1
(a)中，当在回放期间暂停视频时，屏幕停止。这时，可以在进度条105上与停止的屏幕相对应的位置处显示进度状态标记110。
[0051]这里，尽管以条形式示出了进度条105，但是进度条105可以具有圆周地旋转的旋转球(spinner)形式。此外，根据本发明的各实施例，进度条105不限于条形式或旋转球形式，并且可以具有各种形状或尺寸的形式。进度条105是用于显示视频回放的进度状态的图形用户界面(GUI)组件之一。根据各实施例，可以与百分比一起显示进度条105。
[0052]当在停止状态中或当播放视频时通过预定接口方法(例如文本输入、语音识别、查询图像选择等)执行查询输入时，图1(b)-1(d)中所示的示例之一可以被显示为查询结果的实施例。稍后将更详细描述用于输入查询的用户界面和方法。
[0053]如图1(b)中所示，可以通过使用一个或更多个场景标记在进度条上显示与查询相对应的搜索结果(例如与查询相对应的关键帧、镜头或场景的位置)。可以使用与查询相对应的关键帧、镜头或场景的开始位置来显示场景标记。根据另一实施例，可以根据与查询相对应的关键帧、镜头或场景的长度来各种各样地显示场景标记。即，可以根据与查询相对应的关键帧、镜头或场景的位置或长度来确定场景标记的长度、尺寸和形状中的多个之一。例如，如图l(b)-l(d)中所示，标记的长度可以根据与查询相对应的关键帧、镜头或场景的长度而不同。这里，多个场景标记120与同查询相对应的关键帧、镜头或场景相对应，并且可以用预定的长度或尺寸在进度条105上的相应位置处显示与查询相对应的关键帧、镜头或场景中的每一个。例如，可以通过标记显示与查询相对应的镜头和场景中的每一个从开始位置到结束位置的区域。在另一示例中，标记的长度或尺寸可以不同于与查询相对应的关键帧、镜头或场景的长度。当与查询相对应的关键帧、镜头或场景的长度非常短因此很难在进度条105上显示关键帧、镜头或场景时，可以通过具有大于等于1个像素的预定尺寸的标记来显示关键帧、镜头或场景，以实现容易的显示或用户界面输入。例如，当使用触控笔时，可以使用与用手指触摸进行输入的情况相比具有更少数量像素的标记。
[0054]根据另一实施例，当在进度条上布置的与查询相对应的多个关键帧、镜头或场景之间的间隔比预定长度短时，一个标记可以显示连续布置的多个查询结果的位置。
[0055]根据另一实施例，当与多个查询相对应的关键帧、镜头或场景中与一个查询结果B相对应的标记的长度或尺寸非常短或小时，可以将标记的长度或尺寸放

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑哲虎;新承爀;柳辅铉;朱宰石;
技术所有人：三星电子株式会社;
我是此专利的发明人

上一篇：使用层面信息的基于文档的搜索的制作方法
上一篇：支持按需数据传输的虚拟同步的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。