本公开涉及电子装置上的图像,更具体地,涉及用于搜索图像的方法和装置。
背景技术:
随着时间的推移,更多的电子装置被引入给公众。这些电子装置中的许多电子装置允许用户拍摄视频和静止图像(统称为图像),以及允许用户下载图像并还允许用户将图像复制到电子装置。在与这些电子装置相关联的存储器容易达到多个千兆字节,以及针对许多台式个人计算机(pc)的多个千兆字节的情况下,当用户寻找特定的图片或视频时可能需要搜索的图像的绝对数量可能是巨大的。
技术实现要素:
技术问题
用户可碰到多种类型的图像,但是用户喜欢的图像可能与这些图像不同。此外,用户可能对图像的特定部分感兴趣。
解决方案
提供了用于在图像数据库中搜索图像的方法和装置。将在下面的描述中部分地阐述各个方面,并且从描述中这些方面将变得明显,并/或可通过提出的示例性实施例的实践被了解。
根据示例性实施例的一方面,搜索图像的方法包括接收用于在显示的图像中选择感兴趣区域的用户输入,并显示用于示出感兴趣区域的指示符。随后,可确定搜索词,其中,搜索词包括针对感兴趣区域的至少一条识别信息。搜索词可被用于在图像数据库中搜索至少一个目标图像。当搜索词与目标图像中的任何一个的识别信息适当地匹配时,目标图像被称作发现的图像,并显示发现的图像。
指示符可通过突出显示感兴趣区域的边界线、改变感兴趣区域的大小和改变感兴趣区域的深度信息中的至少一个被显示。
第一用户输入是在显示的图像的一部分上的用户触摸。
感兴趣区域的大小可根据用户触摸的持续时间被改变。
感兴趣区域的大小可根据持续时间的增加而增加。
感兴趣区域可以是图像中包括的对象、背景和文本中的至少一个。
所述方法还包括显示针对感兴趣区域的识别信息。
搜索词可由用于选择显示的识别信息中的至少一条的用户输入确定。
当搜索词是正搜索词时,发现的图像是至少一个目标图像中的具有作为一条识别信息的所述搜索词的任何一个目标图像。
当搜索词是负搜索词时,发现的图像是至少一个目标图像中的不具有作为一条识别信息的所述搜索词的任何一个目标图像。
发现的图像可基于感兴趣区域的属性信息和图像的图像分析信息中的至少一个被获得。
图像可包括第一图像和第二图像,其中,感兴趣区域包括第一图像的第一部分图像和第二图像的第二部分图像。
所述方法还可包括:接收文本并将文本确定为搜索词。
图像数据库可被存储在网络服务器、云服务器、社交网络服务(sns)服务器和便携式装置中的任何一个中。
显示的图像可以是实时取景图像、静止图像和运动图像帧中的至少一个。
发现的图像可以是运动图像帧,当存在多个发现的图像时,显示发现的图像的步骤包括顺序地显示运动图像帧。
根据另一示例性实施例的一方面,一种装置,包括:显示单元,被配置为显示显示的图像,用户输入单元,被配置为接收用于选择感兴趣区域的用户输入,控制单元,被配置为控制显示单元显示关于感兴趣区域的指示符。
装置还包括:数据库,被配置为存储图像,其中,控制单元还被配置为基于从用户输入单元接收到的结果确定针对感兴趣区域的至少一条识别信息,并被配置为使用与搜索词相应的识别信息搜索目标图像。
识别信息可以是感兴趣区域中包括的人的姿势。
当搜索词是正搜索词时,发现的图像是具有与搜索词相应的识别信息的目标图像,当搜索词是负搜索词时,发现的图像是具有不与搜索词相应的识别信息的目标图像。
附图说明
从以下结合附图的示例性实施例的描述,这些和/或其他方面将变得明显并容易理解,其中:
图1a到图1e是根据示例性实施例的装置的框图。
图1f是根据示例性实施例的搜索图像的方法的流程图;
图2是用于说明根据示例性实施例的向对象提供指示符的方法的参考图;
图3是用于说明根据示例性实施例的通过改变对象的大小提供针对对象的指示符的方法的参考图;
图4是用于说明根据示例性实施例的通过改变感兴趣区域的深度信息来提供针对对象的指示符的方法的参考图;
图5是用于说明根据示例性实施例的在单个图像上选择多个对象作为感兴趣区域的方法的参考图;
图6是用于说明根据另一个示例性实施例的在单个图像上选择多个对象作为感兴趣区域的方法的参考图;
图7是用于说明根据示例性实施例的选择背景作为感兴趣区域的方法的参考图;
图8是用于说明根据示例性实施例的使用多个图像选择感兴趣区域的方法的参考图;
图9是根据示例性实施例的由装置使用的从识别信息确定搜索词的方法的流程图;
图10是根据示例性实施例的由装置使用的产生识别信息的方法的流程图;
图11示出根据示例性实施例的图像的属性信息;
图12是用于说明装置基于图像的属性信息产生图像的识别信息的示例的参考图;
图13是用于说明装置通过使用图像分析信息产生识别信息的示例的参考图;
图14示出根据示例性实施例的装置显示识别信息列表的示例;
图15是用于说明根据示例性实施例的从识别信息确定搜索词的方法的参考图;
图16是用于说明根据示例性实施例的从多个图像中确定搜索词的方法的参考图;
图17是用于说明根据示例性实施例的由装置使用的包括诸如搜索词的文本的方法的参考图;
图18a到图18d是用于说明根据示例性实施例的提供搜索结果的方法的参考图。
具体实施方式
现在将详细参考实施例,实施例的示例在附图中被示出,在附图中,相同的标号始终指示相同的元件。在这方面,本实施例可具有不同的形式并不应被理解为限制这里阐述的描述。因此,下面仅通过参考附图来描述实施例以解释本描述的一些方面。
尽管目前广泛使用的一般术语是考虑到本公开的功能而被选择用于描述本公开的,但是这些一般术语可根据本领域的普通技术人员的意图、案件先例、新技术的出现等而改变。一些具有特定含义的特定术语也被用于本公开。当一个术语的含义有疑问时,应当首先基于陈述的定义,或如果没有定义则基于术语在上下文中的使用,在包括权利要求和附图的本公开中寻找定义。其后,术语的定义应是本领域的普通技术人员在本公开的上下文中将理解的定义。
术语“包括”、“包含”指定存在所陈述的元件,但不排除存在其他元件,无论它们是否与所陈述的元件具有相同类型。术语“单元”和“模块”在本公开中使用时是指执行至少一个功能或操作的单元,并且“单元”和“模块”可被实现为硬件、软件或硬件和软件的组合。软件可包括任何可执行代码,无论是编译的还是可判读的,例如,任何可被执行以执行期望的操作的可执行代码。
贯穿本公开,“图像”可包括对象和背景。对象是可通过图像处理等与具有轮廓线的背景区分的部分图像。对象可以是图像的一部分,诸如,例如,人类、动物、建筑物、车辆等。图像减去对象可被认为是背景。
因此,对象或背景可以是部分图像,并且它们可能不是固定的,而是相对的。例如,在具有人类、车辆、天空的图像中,人类和车辆的可以是对象,并且天空可以是背景。在包括人类和车辆的图像中,人类可以是对象,并且车辆可以是背景。人类的面部和人类的全部身体可以是对象。然而,针对对象的部分图像的大小通常小于针对背景的部分图像的大小,尽管这可能有例外。每个装置可使用它们自己先前定义的用于区分对象和背景的标准。
贯穿本公开,图像可以是静止图像(例如,图片或图画)、运动图像(例如,tv程序图像、视频点播(vod)、用户创建内容(ucc))、音乐视频或youtube图像)、实时取景图像、菜单图像等。图像中的感兴趣区域可以是诸如图像的对象或背景的部分图像。
现在将描述能够搜索图像的图像系统。图像系统可包括能够再现并存储图像的装置,并还可包括存储图像的外部装置(例如,服务器)。当图像系统包括外部装置时,装置和外部装置可相互作用以搜索一个或更多个图像。
根据示例性实施例的装置可以是目前可用的各种类型之一,但也可包括将在未来开发的装置。目前可用的装置可以是,例如,台式计算机、移动电话、智能电话、膝上型计算机、平板个人计算机(pc)、电子书终端、数字广播终端、个人数字助理(pda)、便携式多媒体播放器(pmp)、导航、mp3播放器、数码相机、摄像机、互联网协议电视(iptv)、数字电视(dtv)、消费电子(ce)设备(例如,均包括显示器的电冰箱和空调)等,但实施例不限于此。装置也可以是用户可穿戴装置。例如,装置可以是手表、眼镜、戒指、手镯、项链等。
图1a到图1e是根据各种实施例的装置100的框图。
如图1a所示,根据示例性实施例的装置100可包括用户输入单元110、控制单元120、显示单元130和存储器140。装置100可向在存储器140中存储的静止图像和运动图像提供效果。装置100可使用在显示单元130上显示的图像的感兴趣区域来搜索在存储器140中存储的图像。
可选地,如图1b所示,根据示例性实施例的装置100可包括用户输入单元110、控制单元120、显示单元130和通信单元150。装置100可使用在显示单元130上显示的图像的感兴趣区域来搜索在外部电子装置中存储的图像。也可从外部装置接收在显示单元130上显示的图像。
可选地,如图1c和1d所示,根据示例性实施例的装置100还可包括相机160。装置100可使用由相机160捕捉的实时取景图像来选择感兴趣区域。所有示出的组件都是非必须的。装置100可包括比图1a到图1d中示出的组件更多或更少的组件。
如图1e所示,根据示例性实施例的电子装置100除了可包括图1a到图1d中的每一个装置100的组件以外,还可包括输出单元170、感测单元180和麦克风190。现在将详细描述上述组件。
用户输入单元110是指用户输入用于控制装置100的数据所通过的单元。例如,用户输入单元110可以是,但不限于,键盘、圆顶开关、触摸板(例如,电容覆盖型、电阻覆盖型、红外线型、积分应变计(integralstraingauge)型、表面声波型、压电型等)、滚轮或滚轮开关。
用户输入单元110可接收在图像上选择感兴趣区域的用户输入。根据本公开的示例性实施例,选择感兴趣区域的用户输入可不同。例如,用户输入可以是键输入、触摸输入、动作输入、弯曲输入、语音输入或多点输入。
根据本公开的示例性实施例,用户输入单元110可从图像接收感兴趣区域。
用户输入单元110可接收从识别信息列表选择至少一条识别信息的输入。
控制单元120通常控制装置100的所有操作。例如,控制单元120可通过执行存储器140中存储的程序来控制用户输入单元110、输出单元170、通信单元150、感测单元180和麦克风190。
控制单元120可获得识别选择的感兴趣区域的至少一条识别信息。例如,控制单元120可通过检查选择的感兴趣区域的属性信息并概括属性信息来产生识别信息。控制单元120可通过使用关于选择的感兴趣区域的图像分析信息来检测识别信息。控制单元120除了可获得感兴趣区域的识别信息之外,还可获得第二图像的识别信息。
控制单元120可显示用于示出感兴趣区域的指示符。指示符可包括突出显示感兴趣区域的边界线、改变感兴趣区域的大小、改变感兴趣区域的深度信息等。
显示单元130可显示由装置100处理过的信息。例如,显示单元130可显示静止图像、运动图像或实时取景图像。显示单元130也可显示识别感兴趣区域的识别信息。显示单元130也可显示通过搜索处理发现的图像。
当显示单元130与触摸板一起形成层结构以构建触摸屏时,显示单元130不仅可被用作输入装置还可被用作输出装置。显示单元130可包括从液晶显示器(lcd)、薄膜晶体管液晶显示器(tft-lcd)、有源发光二极管(oled)、柔性显示器、3d显示器和电泳显示器中选择的至少一个。根据本公开的一些实施例,装置100可包括两个或更多个显示单元130。
存储器140可存储可由控制单元120运行以执行处理和控制的程序,还可存储输入/输出数据(例如,多个图像、多个文件夹和首选文件夹列表)。
存储器140可包括例如,闪存类型、硬盘类型、多媒体卡类型、卡类型存储器(例如,安全数字(sd)或极限数字(xd)存储器)、随机存取存储器(ram)、静态随机存取存储器(sram)、只读存储器(rom)、电可擦除可编程rom(eeprom)、可编程rom(prom)、磁存储器、磁盘和光学磁盘之中的至少一个类型的存储介质。装置100可在互联网上操作执行存储器140的存储功能的网络存储器。
在存储器140中存储的程序可根据它们的功能被分类到多个模块,例如,用户接口(ui)模块141、通知模块142和图像处理模块143。
ui模块141可提供专用于每个应用并与装置100互相操作的ui、图像ui(gui)等。通知模块142可产生用于通知在装置100中已产生事件的信号。通知模块142可通过显示单元130可以以视频信号的形式输出通知信号、通过音频输出单元172以音频信号形式输出通知信号或通过振动电机173以振动信号形式输出通知信号。
图像处理模块143可通过分析捕捉到的图像获得捕捉到的图像中包括的对象信息、边缘信息、氛围信息、颜色信息等。
根据本公开的示例性实施例,图像处理模块143可检测捕捉到的图像中的对象的边界线。根据本公开的示例性实施例,图像处理模块143可通过将图像中包括的对象的轮廓线与预先定义的模板进行比较来获得对象的类型、名字等。例如,当对象的轮廓线与车辆的模板相似时,图像处理模块143可将图像中包括的对象识别为车辆。
根据本公开的示例性实施例,图像处理模块143对图像中包括的对象执行面部识别。例如,图像处理模块143可从图像检测人的面部区域。面部区域检测方法的示例可包括基于知识的方法、基于特征的方法、模板匹配方法和基于外观的方法,但实施例不限于此。
图像处理模块143也可从检测到的面部区域中提取面部特征(例如,作为面部的主要部分的眼睛、鼻子和嘴的形状)。为了从面部区域提取面部特征,可使用gabor滤波器、局部二值模式(lbp)等,但实施例不限于此。
图像处理模块143可将从图像内的面部区域中提取的面部特征与预注册用户的面部特征进行比较。例如,当提取的面部特征与预注册的第一注册人(例如,tom)的面部特征相似时,图像处理模块143可确定第一用户的图像被包括在图像中。
根据本公开的示例性实施例,图像处理模块143可将图像的某一区域与颜色图(颜色直方图)进行比较并提取视觉特征(诸如颜色分布、图案和图像氛围)作为图像分析信息。
通信单元150可包括使装置100能够与云服务器、外部装置、社交网络服务(sns)服务器或外部可穿戴装置执行数据通信的至少一个组件。例如,通知单元150可包括短距离无线通信单元151、移动通信单元152和广播接收单元153。
短距离无线通信单元151可包括,但不限于,蓝牙通信单元、低功耗蓝牙(ble)通信器、近场通信(nfc)单元、无线局域网(wlan)(例如,wi-fi)通信单元、zigbee通信单元、红外线数据协会(irda)通信单元、wi-fi直连(wfd)通信单元、超宽带(uwb)通信单元、ant+通信单元等。
移动通信单元152可在移动通信网络上与基站、外部终端和服务器中的至少一个交换无线信号。无线信号的示例可包括语音呼叫信号、视频呼叫信号和在短消息服务(sms)/多媒体消息服务(mms)期间产生的各种数据。
广播接收单元153可通过广播信道从外部资源接收广播信号和/或广播相关信息。广播通道可以是卫星信道、地面电波信道等。[最后一句已经被移到另一端以使该句更为普通]
通信单元150可与外部装置共享第一和第二图像、效果图像、效果图像的效果文件夹和识别信息中的至少一个。外部装置可以是与装置100连接的云服务器、sns服务器、同一用户的另一装置100、另一用户的装置100中的至少一个,但实施例不限于此。
例如,通信单元150可接收在外部装置中存储的静止图像或运动图像或可从外部装置接收由外部装置捕捉的实时取景图像。通信单元150可发送用于搜索与搜索词相应的图像的命令并接收发送结果。
由相机160获得的图像帧可被存储在存储器140中或可通过通信单元150被发送到外部。装置100的一些实施例可包括两个或更多个相机160。
输出单元170输出音频信号、视频信号或振动信号,并可包括音频输出单元172和振动电机173。
音频输出单元172可输出从通信单元150接收到的或在存储器140中存储的音频数据。音频输出单元172也可输出与装置100的功能有关的音频信号(例如,呼叫信号接收声音、消息接收声音、通知声音)。音频输出单元172可包括扬声器、蜂鸣器等。
振动电机173可输出振动信号。例如,振动电机173可输出与音频数据或视频数据的输出(例如,呼叫信号接收声音或消息接收声音)相应的振动信号。当触摸屏被触摸时振动电机173也可输出振动信号。
感测单元180可感测装置100的状态、装置100的周围的状态或穿戴装置100的用户的状态,并可将与感测到的状态相应的信息发送到控制单元120。
感测单元180可包括,但不限于,从磁性传感器181、加速度传感器182、倾斜传感器183、红外传感器184、陀螺仪传感器185、位置传感器(例如,gps)186、大气压传感器187、接近传感器188和光学传感器189中选择的至少一个。感测单元180可包括,例如,温度传感器、照度传感器、压力传感器和虹膜识别传感器。本领域的普通技术人员将根据大部分传感器的名称而直观地理解它们的功能,因此在这里将省略对大部分传感器的详细描述。
麦克风190可被包括作为音频/视频(a/v)输入单元。麦克风190接收外部音频信号并将外部音频信号转换为电音频信号。例如,麦克风190可从外部装置或正在讲话的人接收音频信号。麦克风190可使用各种去噪算法以便去除在接收外部音频信号时产生的噪声。
如上所述,不仅可对装置100中存储的图像,还可对外部装置中存储的图像提供效果。外部电子装置可以是,例如,社交网络服务(sns)服务器、云服务器或另一用户使用的装置100。装置100的一些实施例可不包括描述的元件(例如,广播接收单元153)中的一部分元件,然而其他实施例可包括其他类型的元件。
图1f是根据示例性实施例的搜索图像的方法的流程图。
在操作s110中,装置100可显示图像。图像可包括对象和背景,并可以是静止图像、运动图像、实时取景图像、菜单图像等。根据本公开的示例性实施例,在装置100上显示的图像可以是在嵌入在装置100中的存储器中存储的静止图像或运动图像、由嵌入在装置100中的相机160捕捉的实时取景图像、在外部装置(例如,由另一用户使用的便携式终端、社交网络服务(sns)服务器、云服务器或网络服务器)中存储的静止图像或运动图像,或可以是由外部装置捕捉的实时取景图像。
在操作s120中,装置100可选择感兴趣区域。感兴趣区域是显示的图像的部分图像,并可以是对象或背景。例如,装置100可从多个对象中选择一个对象作为感兴趣区域,或可从多个对象中选择至少两个对象作为感兴趣区域。可选地,装置100可选择图像的背景作为感兴趣区域。
用于也可选择感兴趣区域。例如,装置100可接收在图像上选择部分区域的用户输入,并使用进一步的用户输入确定选择的感兴趣区域应该是对象还是背景。
根据本公开的示例性实施例,用于选择感兴趣区域的用户输入可不同。在本说明书中,用户输入可以是键输入、触摸输入、动作输入、弯曲输入、语音输入、多点输入等。
“触摸输入”是指用户在触摸屏上作出的控制装置100的手势等。触摸输入的示例可包括轻击、触摸并保持、双击、拖拽、平移、轻弹和拖放。
“轻击”是指用户使用指尖或触摸工具(例如,电子笔)触摸屏幕并随后在没有移动的情况下非常快速地从屏幕抬起指尖或触摸工具的动作。
“触摸并保持”是指用户在使用指尖或触摸工具(例如,电子笔)触摸屏幕之后保持触摸输入超过临界时间段(例如,两秒)。例如,这个动作指示在触摸接触时间和触摸释放时间之间的时间差大于临界时间段(例如,两秒)的情况。为了允许用户确定触摸输入是轻击还是触摸并保持,当触摸输入保持了超过临界时间段时,可是视觉地、可听见地或触觉地提供反馈信号。临界时间段可根据实施例而不同。
“双击”是指用户使用指尖或触摸工具(例如,电子笔)快速地触摸屏幕两次的动作。
“拖拽”是指用户使用指尖或触摸工具触摸屏幕并在触摸屏幕的同时在屏幕上将指尖或触摸工具移动到其他位置的动作。当使用这个动作使用拖拽动作移动对象时,这可被称为“拖放”。当对象没有被拖拽时,这个动作可被称作“平移”。
“平移”是指用户在没有选择任何对象的情况下执行拖拽动作的动作。由于平移动作不选择特定的对象,在页面中没有对象移动。替代地,整个页面在屏幕上移动,或一组对象在页面中移动。
“轻弹”是指用户以临界速度(例如,100像素/秒)使用指尖或触摸工具执行拖拽动作的动作。基于指尖或触摸工具的移动的速度是否大于临界速度(例如,100像素/秒),可区分轻弹动作和拖拽(或平移)动作。
“拖放”是指用户使用指尖或触摸工具将对象拖放到屏幕内的预定位置的动作。
“捏”是指用户使用多个指尖或触摸工具触摸屏幕并在触摸屏幕的同时拉大或缩小多个指尖或触摸工具之间的距离的动作。“捏放”是指用户使用两个手指(诸如大拇指和食指)触摸屏幕并在触摸屏幕的同时拉大两个手指之间的距离的动作,并且“捏合”是指用户使用两个手指触摸屏幕并在触摸屏幕的同时缩小两个手指直接的距离的动作。拉大值或缩小值可根据两个手指之间的距离被确定。
“滑动”是指用户在使用指尖或触摸工具在屏幕上触摸对象的同时,将指尖或触摸工具在屏幕上移动特定的距离的动作。
“动作输入”是指用户施加到装置100的控制装置100的动作。例如,动作输入可以是用户旋转装置100、倾斜装置100或水平或垂直地移动装置100的输入。装置100可通过使用加速度传感器、倾斜传感器、陀螺仪传感器、3轴磁性传感器等来感测由用户预先设置的动作输入。
“弯曲输入”是指当装置100是柔性显示装置时用户弯曲装置100的一部分或弯曲整个装置100以控制装置100的输入。根据本公开的示例性实施例,装置100可通过使用弯曲传感器来感测,例如,弯曲位置(坐标值)、弯曲方向、弯曲角度、弯曲速度、被弯曲的次数、发生弯曲时的时间点和保持弯曲的时间段。
“键输入”是指通过使用附接于装置100的物理键或在屏幕上显示的虚拟键盘来控制装置100的用户输入。
“多点输入”是指至少两种输入方法的组合。例如,装置100可从用户接收触摸输入和动作输入,或可从用户接收触摸输入和语音输入。可选地,装置100可从用户接收触摸输入和眼球输入。眼球输入就指用户由于眼睛眨动、凝视一个位置、眼球移动速度等以控制装置100的输入。
为了方便说明,现在将描述用户输入是键输入或触摸输入的情况。
根据示例性实施例,装置100可接收选择预设按钮的用户输入。预设按钮可以是附接于装置100的物理按钮或具有图形用户界面(gui)形式的虚拟按钮。例如,当用户选择第一按钮(例如,主页按钮)和第二按钮(例如,音量控制按钮)时,装置100可在屏幕上选择部分区域。
装置100可接收触摸在屏幕上显示的图像的部分区域的用户输入。例如,装置100可接收触摸显示的图像的一部分区域达预定时间段(例如,两秒)或更长的时间段的输入,或可接收触摸部分区域达预定次数或更多次数(例如,双击)的输入。随后,装置100可将包括被触摸的部分区域的背景或对象确定为感兴趣区域。
装置100可通过使用图像分析信息确定图像中的感兴趣区域。例如,装置100可使用图像分析信息检测图像的各部分的边界线。装置100可确定包括被触摸区域的边界线,并将被触摸区域确定为感兴趣区域。
可选地,装置100可通过将图像的某一区域与颜色图(颜色直方图)进行比较来使用视觉特征(诸如颜色布置或图案)来提取边界线。
在操作s130中,装置100可将感兴趣区域的至少一条识别信息确定为搜索词。装置100可在确定搜索词之前获得感兴趣区域的识别信息。例如,由装置100使用的面部识别软件可确定感兴趣区域是人脸,并因此可将识别信息“面部”与感兴趣区域关联。将在后面描述获得识别信息的方法。
装置100可通过用户输入显示获得的识别信息并将至少一条识别信息确定为搜索词。搜索词可包括正搜索词和负搜索词。正搜索词可以是需要被包括在找到的图像中作为识别信息的搜索词。负搜索词可以是不需要被包括在找到的图像中作为识别信息的搜索词。
在操作s140中,装置100可搜索与搜索词相应的图像。存储图像(在下文中称为“目标图像”)的数据库(在下文中称为“图像数据库”)可由用户输入确定。例如,图像数据库可被包括在装置100、网络服务器、云服务器、sns服务器等中。
图像数据库可以预先定义目标图像的识别信息或者也可以不预先定义目标图像的识别信息。当目标图像的识别信息被预先定义时,装置100可通过将目标图像的识别信息与搜索词进行比较来搜索图像。当目标图像的识别信息没有被预先定义时,装置100可产生目标图像的识别信息。装置100可将产生的目标图像的识别信息与搜索词进行比较。
当搜索词是正搜索词时,装置100可从图像数据库中选择具有相同的正搜索词的目标图像。当搜索词是负搜索词时,装置100可从图像数据库中选择不具有负搜索词的目标图像。
在操作s1510,装置100可显示选择的图像。当发现了多个图像时,装置100可在单个屏幕上显示多个图像,或可顺序地显示多个图像。装置100可产生与选择的图像相应的文件夹并在文件夹中存储图像。装置100也可接收用户输入以显示文件夹中存储的图像。
装置100可搜索图像,但本公开不仅仅限于此。例如,装置100和外部装置可协作搜索图像。例如,装置100可显示图像(操作s110)、选择感兴趣区域(操作s120),并将感兴趣区域的识别信息确定为搜索词(操作s130)。随后,外部装置可搜索与搜索词相应的图像(操作s140),并且装置100可显示由外部装置发现的图像(操作s150)。
可选地,外部装置可产生针对感兴趣区域的识别信息,并且装置100可在识别信息中确定搜索词。装置100和外部装置可使用其他方法分离并执行搜索图像的功能。为了方便说明,下面将描述仅装置100搜索图像的方法。
下面将描述在感兴趣区域上显示指示符的方法。
图2是用于说明根据示例性实施例的提供针对对象210的指示符220的方法的参考图。如图2的200-1所示,当执行特定的应用(例如,图像相册应用)时,装置100可显示至少一个图像。装置100可接收用户输入以选择对象210作为感兴趣区域。用户可通过,例如,使用手指或触摸工具触摸显示了对象210的区域并随后在不移动手指的情况下快速地抬起手指或触摸工具的轻击动作来选择显示了对象210的部分区域。装置100可通过使用图像分割方法、级别设置方法等将在触摸区域上显示的对象与图像的其余部分区分。
如图2的200-2所示,装置100可显示指示对象210是感兴趣区域的指示符220,其中指示符220突出显示对象210的边界。可使用各种其它类型的指示符来标识感兴趣区域。
图3是用于说明根据示例性实施例的通过改变对象310的大小提供针对对象310的指示符的方法的参考图。
参照图3的300-1,装置100可接收用于选择对象310作为感兴趣区域的用户输入。例如,用户可触摸对象310的区域。响应于用户输入,如图3的300-2所示,装置100可选择对象310作为感兴趣区域,并显示放大的对象320。对象310的放大可以是指示感兴趣区域的指示符。选择的对象310被放大,然而图像的剩余部分保持原样。
图4是用于说明根据示例性实施例的通过改变感兴趣区域的深度信息来提供针对对象410的指示符420的方法的参考图。参照图4的400-1,装置100可接收选择对象410作为感兴趣区域的用户输入。随后,装置100可将对象410的边界确定为感兴趣区域,并且,如图4的400-2所示,装置100可提供改变对象410的深度的指示符420,使得对象410在被选择之前被显示。存在各种方法指示感兴趣区域,然而这里仅提及了一些方法作为示例。因此,本公开的各种实施例可通过与使用到目前为止讨论的方法不同地指示感兴趣区域。
多个对象可被选择作为感兴趣区域。图5是用于说明根据示例性实施例的在单个图像上选择多个对象511和512作为感兴趣区域的方法的参考图。参照图5的500-1,装置100可接收在图像上选择对象511作为感兴趣区域的用户输入。例如,用户可触摸显示了对象511的图像的一个区域。随后,如图5的500-2所示,装置100可显示指示对象511是感兴趣区域的第一指示符521。用户可选择添加图标531并随后图像中的触摸显示对象512的区域。装置100随后可将用户的这种动作确定为用于将对象512添加为感兴趣区域的用户输入,并且如图5的500-3所示,装置100可显示指示对象512也是感兴趣区域的第二指示符522。
感兴趣区域也可被改变。在图5的500-2中,用户可触摸删除图标532,并且随后选择对象511,在对象511上显示了第一指示框521。用户的这种动作可提示装置100删除作为感兴趣区域的对象511,并移除第一指示符521。装置100随后可确定仅对象512是感兴趣区域。
一次用户操作可被用于选择多个对象作为感兴趣区域。
图6是用于说明根据另一个示例性实施例的在单个图像上选择多个对象作为感兴趣区域的方法的参考图。参照图6的600-1,用户可触摸显示了面部612的区域。装置100可使用图像分析信息检测边界线并将面部612确定为感兴趣区域。装置100可显示指示感兴趣区域的指示符622,如图6的600-1所示。
装置100可与触摸时间成比例地增加感兴趣区域的区域。例如,用户持续触摸显示了面部612的区域,如图6的600-2所示,则装置100可确定面部612与人614相关联。因此,装置100可指定人614是感兴趣区域,并显示指示整个人614是感兴趣区域的指示符624。
上面描述了通过触摸选择感兴趣区域的方法,但本公开的各种实施例不限于此。例如,可通过拖拽动作选择感兴趣区域。面部612的区域可被触摸并随后被拖拽到显示了人614的身体的区域。装置100可使用这种输入以选择人614作为感兴趣区域并显示指示人614是感兴趣区域的指示符624。
感兴趣区域不仅可被应用于图像的对象,还可被应用于图像的背景。图7是用于说明根据示例性实施例的选择背景作为感兴趣区域的参考图。如图7的700-1所示,用户可触摸天空712的区域,并且装置100可使用图像分析信息等确定与用户触摸的区域有关的边界线。如图7的700-2所示,可显示指示天空712是感兴趣区域的指示符722。如果用户触摸时间增加,装置100可确定山和天空712是感兴趣区域。
当背景被选作感兴趣区域时,感兴趣区域的扩展可被限制于背景。当对象是感兴趣区域时,感兴趣区域的扩展可被限制对象。然而,示例性实施例不限于此。感兴趣区域可由与用户选择的区域有关的边界线定义,并因此感兴趣区域可被扩大到包括对象或背景。
也可使用多个图像选择感兴趣区域。图8是用于说明根据示例性实施例的使用第一图像810和第二图像820选择感兴趣区域的方法的参考图。参照图8,装置100可显示多个图像。装置100可接收选择第一图像810的第一部分图像812作为感兴趣区域的用户输入和选择第二图像820的第二部分图像822作为感兴趣区域的用户输入。随后,装置100可显示指示第一部分图像812是感兴趣区域的第一指示符832和指示第二部分图像822是感兴趣区域的第二指示符834。
尽管第一部分图像812作为第一图像810的对象被示出,第二部分图像822作为第二图像820的背景被示出,但这仅是为了方便描述,并且第一部分图像812和第二部分图像822不限于此。选择的第一部分图像812和第二部分图像822中的任何一个均可是对象或背景。第一图像810和第二图像820可以是相同的图像。如上所示,由于感兴趣区域可在对象或背景之间扩大,当一个图像的对象和背景都被选作感兴趣区域时,装置100可显示两个第一图像并根据用户输入在一个图像中选择对象在另一个图像中选择背景。
当选择了感兴趣区域时,装置100可获得感兴趣区域的识别信息。
在本说明书中,“识别信息”是指识别图像的关键词、关键短语等,并且识别信息可针对每个对象和每个背景被定义。例如,对象和背景均可具有至少一条识别信息。根据本公开的示例性实施例,可使用图像的属性信息或图像的图像分析信息来获得识别信息。
图9是根据示例性实施例的装置100从识别信息确定搜索词的方法的流程图。
在操作s910中,装置100可从图像选择感兴趣区域。例如,如上所述,装置100可显示图像并响应于用户输入选择图像内的对象或背景作为感兴趣区域。装置100可提供指示感兴趣区域的指示符。图像可以是静止图像、作为运动图像的一部分的运动图像帧(即,运动图像的静止图像)或实时取景图像。当图像是静止图像或运动图像帧时,静止图像或运动图像可以是在装置100中预存储的图像,或可以是在外部装置存储并从外部装置发送的图像。当图像是实时取景图像时,实时取景图像可以是由嵌入在装置100中的相机捕捉的图像,或由作为外部装置的相机捕捉并发送的图像。
在操作s920中,装置100可确定在选择的感兴趣区域中是否定义了识别信息。例如,当图像被存储时,分别描述图像中包括的对象和背景的若干条识别信息可与图像匹配并被存储。在这种情况下,装置100可确定在选择的感兴趣区域中定义了识别信息。根据本公开的示例性实施例,分别与对象和背景相应的若干条识别信息可以以针对每个图像的元数据的形式被存储。
在操作s930,如果在选择的感兴趣区域中没有定义识别信息,则装置100可产生识别信息。例如,装置100可通过使用以元数据的形式存储的属性信息或通过使用通过对图像执行图像处理而获得的图像分析信息来产生识别信息。随后操作s930将参照图10进行更详细的描述。
在操作s940中,装置100可根据用户输入将识别信息中的至少一条确定为搜索词。搜索词可包括需要作为目标图像的识别信息被包括的正搜索词和不需要作为目标图像的识别信息被包括的负搜索词。可根据用户输入确定搜索词是正搜索词还是负搜索词。
图10是根据示例性实施例的装置100产生识别信息的方法的流程图。图10示出图像中的感兴趣区域的识别信息没有被预定义的情况。图10的识别信息产生方法也可适用于产生了目标图像的识别信息的情况。
在操作s1010中,装置100可确定是否存在与感兴趣区域相应的属性信息。例如,装置100可检测与感兴趣区域相应的元数据。装置100可从元数据中提取感兴趣区域的属性信息。
根据示例性实施例,属性信息表示图像的属性,并可包括关于图像的格式的信息、关于图像的大小的信息、关于图像中包括的对象的信息(例如,对象的类型、名字、状态等)、图像的源信息、由用户添加的注释信息、与图像产生相关联的情境信息(天气、温度等)等中的至少一个。
在操作s1020和s1040中,装置100可概括图像的属性信息并产生识别信息。在一个实施例中,概括属性信息可表示基于wordnet(分层术语参考系统)在上层语言中表达属性信息。其他实施例可使用其他方法或数据库表达并存储信息。
‘wordnet’是提供词语的定义或使用模式并建立词语之间的关系的数据库。wordnet的基本结构包括具有语义相当的词语的列表的逻辑组(被称为同义词集)和这些同义词集之间的语义关系。同义词关系包括上位词、下位词、部分关系和整体词。wordnet中包括的名词具有作为最上层的词语的实体,并通过根据意思扩展实体形成下位词。因此,通过对概念词汇进行分类和定义,wordnet也可被称作具有层次结构的本体(ontology)。
‘本体’是指共同概念化的正式和明确的规范。本体可被认为是一种由词语和关系组成的词典。在本体中,与特定域相关联的词语被分层次地表达,并且包括用于扩展词语的推理规则。
例如,当感兴趣区域是背景时,装置100可将属性信息中包括的位置信息分类为上级信息并产生识别信息。例如,装置100可将全球定位系统(gps)坐标值(纬度:37.4872222,经度:127.0530792)表达为上位概念(诸如,区域、建筑物、地址、地区名字、城市名字或国家名字)。在这种情况下,建筑物、地区名字、城市名字、国家名字等可作为背景的识别信息被产生。
在操作s1030和s1040中,如果与感兴趣区域相应的属性信息不存在时,装置100可获得感兴趣区域的图像分析信息,并可通过使用图像信息产生感兴趣区域的识别信息。
根据本公开的示例性实施例,图像分析信息是与分析通过图像处理获得的数据的结果相应的信息。例如,图像分析信息可包括关于在图像上显示的对象的信息(例如,对象的类型、状态和名字)、关于图像上示出的位置的信息、关于图像上示出的季节或时间的信息和关于图像上示出的氛围或情绪的信息,但实施例不限于此。
例如,当感兴趣区域是对象时,装置100可检测图像中的对象的边界线。根据本公开的示例性实施例,装置100可将图像中包括的对象的边界线与预定义的模板进行比较并获得可用于对象的类型、名字和任何其他信息。例如,当对象的边界线与车辆的模板相似时,装置100可将图像中包括的对象识别为车辆。在这种情况下,装置100可通过使用关于图像中包括的对象的信息显示识别信息‘汽车’。
可选地,装置100可对图像中包括的对象执行面部识别。例如,装置100可从图像中检测人的面部区域。面部区域检测方法的示例可包括基于知识的方法、基于特征的方法、模板匹配方法和基于外观的方法,但实施例不限于此。
装置100可从检测到的面部区域中提取面部特征(例如,作为面部主要部分的眼睛、鼻子和嘴的形状)。为了从面部区域提取面部特征,可使用gabor滤波器、局部二值模式(lbp)等,但实施例不限于此。
装置100可将从图像内的面部区域提取出的面部特征与预注册的用户的面部特征进行比较。例如,当提取出的面部特征与预注册的第一用户的面部特征相似时,装置100可确定第一用户作为选择的图像中的部分图像被包括。在这种情况下,装置100可基于面部识别的结果产生识别信息‘第一用户’。
可选地,当选择的对象是人时,装置100可识别人的姿势。例如,装置100可基于身体部位模型,确定对象的身体部位,组合确定的身体部位,并确定对象的姿势。
身体部位模型可以是,例如,边缘模型和部位模型中的至少一个。边缘模型可以是包括普通人的轮廓信息的模型。部位模型可以是包括普通人的体积或部位信息的模型。
作为示例性实施例,身体部位可被划分为十个部位。即,身体部位可被划分为面部、躯干、左上手臂、左下手臂、右上手臂、右下手臂、左上腿部、左下腿部、右上腿部和右下腿部。
装置100可使用确定的身体部位和基本身体部位位置信息确定对象的姿势。例如,装置100可使用基本身体部位位置信息(诸如面部位于躯干的上侧的信息或面部和腿部位于人身体的相对的两端的信息)确定对象的姿势。
根据本公开的示例性实施例,装置100可将图像的某一区域与颜色图(颜色直方图)进行比较并提取视觉特征(诸如图像的颜色分布、图案和氛围)作为图像分析信息。装置100可通过使用图像的视觉特征来产生识别信息。例如,当图像包括天空背景时,装置100可通过使用天空背景的视觉特征来产生识别信息‘天空’。
根据本公开的示例性实施例,装置100可以以区域为单位划分图像,搜索与每个区域最相似的群集,并产生与发现的群集相关联的识别信息。
如果不存在与图像相应的属性信息,则装置100可获得图像的图像分析信息并通过使用图像分析信息产生图像的识别信息。
同时,图10示出当图像的属性信息不存在时(但不限于此)装置100获得图像的图像分析信息的示例性实施例。
例如,装置100可通过仅使用图像分析信息或仅使用属性信息来产生识别信息。可选地,即使当存在属性信息时,装置100还可获得图像分析信息。在这种情况下,装置100可通过使用属性信息和图像分析信息两者来产生识别信息。
根据本公开的示例性实施例,装置100可将基于属性信息产生的若干条识别信息与基于图像分析信息产生的若干条识别信息进行比较,并将相同的识别信息作为最终的识别信息。相同的识别信息可比不相同的识别信息具有更高的可靠性。可靠性是指从图像中提取出的若干条识别信息被确认是合适的识别信息的程度。
图11示出根据示例性实施例的图像的属性信息。如图11所示,图像的属性信息可以以元数据的形式被存储。例如,诸如类型1110、时间1111、gps1112、分辨率1113、大小1114和收集装置1117的数据可作为针对每个图像的属性信息被存储。
根据本公开的示例性实施例,在图像产生期间使用的情境信息也可以以元数据的形式被存储。例如,当装置100产生第一图像1101时,装置109可天气应用收集在产生第一图像1101时的天气信息(例如,多云)、温度信息(例如,20摄氏度)等。装置100可将天气信息1115和温度信息1116存储作为属性信息of01。装置100可从日程应用收集在产生第一图像1101时的事件信息(未示出)。在这种情况下,装置100可将事件信息作为第一图像1101的属性信息存储。
根据本公开的示例性实施例,由用户输入的用户附加信息1118也可以以元数据的形式被存储。例如,用户附加信息1118可包括由用户输入的用于说明图像的注释信息和关于由用户说明的对象的信息。
根据本公开的示例性实施例,作为关于图像的图像处理的结果而获得的图像分析信息(例如,对象信息1119等)可以以元数据的形式被存储。例如,装置100可将关于第一图像110中包括的对象(例如,用户1、用户2、我和椅子)的信息作为关于第一图像1101的属性信息存储。
图12是用于说明装置100基于图像的属性信息产生图像的识别信息的示例的参考图。
根据本公开的示例性实施例,装置100可基于用户输入选择图像1210的背景1212作为感兴趣区域。在这种情况下,装置100可在图像1210的属性信息1220内的选择的背景1212的属性信息。装置100可通过使用选择的背景1212的属性信息来检测识别信息1230。
例如,当选择作为感兴趣区域的区域是背景时,装置100可从属性信息1220中检测与背景相关联的信息。装置100可通过使用时间信息(例如,2012.5.3.15:13)产生关于季节‘春天’的识别信息,通过使用属性信息1220内的位置信息(例如,纬度:37;25;26.928,经度:126;35;31.235)来产生识别信息‘公园’,并通过使用属性信息1220内的天气信息(例如,多云)来产生识别信息‘多云’。
图13是用于说明装置100通过使用图像分析信息产生识别信息的示例的参考图。根据本公开的示例性实施例,装置100可基于用户输入选择图像1310的第一对象1312作为感兴趣区域。在这种情况下,装置100可通过对第一对象1312执行图像分析来产生描述第一对象1312的识别信息(例如,人和笑脸)。
例如,装置100可从感兴趣区域中检测人的面部区域。装置100可从检测到的面部区域中提取面部特征。装置100可将提取出的面部特征与预注册用户的面部特征进行比较,并产生表示选择的第一对象1312是用户1的识别信息。装置100也可基于检测到的面部区域中的嘴唇形状来产生识别信息‘微笑’。随后,装置100可从识别信息1320中获得‘用户1’和‘微笑’。
装置100可显示感兴趣区域的识别信息。可省略显示识别信息。当存在多条感兴趣区域的识别信息时,装置100可选择识别信息的至少一部分作为搜索词。图14示出根据示例性实施例的装置100显示识别信息列表1432的示例。用户可触摸显示了面部1412的区域。装置100可使用图像分析信息检测边界线,确定面部1412是感兴趣区域,并显示指示感兴趣区域的指示符1422。此外,装置100可使用面部识别算法、图像分析信息等获得面部1412的识别信息,并且,如图14的1400-1所示,显示识别信息列表1432。
如果用户持续触摸面部1412,则装置100可确定整个人1414是感兴趣区域。在获得整个人1414的识别信息之后,装置100可显示识别信息列表1432,如图14的1400-2所示。此外,如果用户持续触摸,则装置100可尝试确定图像中除了人1414之外是否还存在任何对象。如果没有其他对象存在,则,如图14的1400-3所示,装置100获得指示图像是小孩1的图片的识别信息并显示识别信息列表1432。
装置100可将获得的识别信息中的至少一条信息确定为搜索词。图15是用于说明根据示例性实施例的从识别信息确定搜索词的方法的参考图。参照图15的1500-1,装置100可基于用户输入选择图像中的第一对象1512作为感兴趣区域。装置100可显示指示第一对象1512是感兴趣区域的指示符1522,获得第一对象1512的识别信息,并显示识别信息列表1530。例如,装置100可获得诸如词语微笑、母亲和眨眼的识别信息。
装置100可从识别信息列表1530接收选择至少一条信息的用户输入。如果用户选择正(+)图标1542并且从识别信息中选择词语“母亲”,则装置100可确定词语“母亲”为正搜索词,并且如图15的1500-2所示,装置100可显示确定结果1532。如果用户选择负(-)图标1544并且从识别信息中选择词语“长头发”,则装置100可使用词语“长头发”作为负搜索词,并且,如图15的1500-2所示,装置100可显示确定结果1534。
如上所述,可从多个图像中确定搜索词。图16是用于说明根据示例性实施例的从多个图像中确定搜索词的方法的参考图。
参照图16的1600-1,装置100可基于用户输入选择第一图像1610中的第一对象1612作为感兴趣区域,获得针对感兴趣区域的识别信息,并显示获得结果1620。同样地,装置100可基于用户输入选择第二图像1630中的第二对象1630作为感兴趣区域,获得感兴趣区域的识别信息,并显示获得结果1640。
装置100可将第一对象1612的识别信息中的“天空”确定为负搜索词,并且如图1600-2所示,显示确定结果1622。例如,如果用户触摸负图标并随后触摸“天空”,则装置100可将“天空”确定为负搜索词。此外,装置100可将第二对象1632的识别信息中的“母亲”和“站姿”确定为正搜索词并显示确定结果1642。
当搜索图像时,除了图像的识别信息之外,装置100可将直接由用户输入的文本添加为搜索词。图17是用于说明根据示例性实施例的装置100将文本作为搜索词包括的方法的参考图。
参照图17的1700-1,装置100可基于用户输入选择图像1710中的第一对象1712作为感兴趣区域,并显示关于感兴趣区域的识别信息列表1720。同时,当识别信息列表1720不包括将被搜索的搜索词的识别信息时,用户可选择输入窗口图标1730。随后,如图17的1700-2所示,输入窗口1740可被显示为弹出窗口。用户可在输入窗口1740中描述识别信息。在图17的1700-2中,用户输入文本1724“坐姿”。如图17的1700-3所示,装置100可显示识别信息列表1720中包括的文本1724。识别信息在图17中被描述为文本,但不限于此。用户可画画,并且装置100可从在输入窗口1740上显示的画中获得识别信息。
当确定了搜索词时,装置100可从图像数据库中搜索与搜索词相应的图像。图18a到图18d是用于说明根据示例性实施例的提供搜索结果的方法的参考图。
如图18a所示,装置100可显示关于图像中的感兴趣区域的识别信息列表1810,并通过用户输入确定至少一条识别信息。用户可选择确认按钮(ok)1820。
随后,如图18b所示,装置100可显示图像数据库列表1830。装置100可通过选择图像数据库列表1830的至少一部分的用户输入来确定图像数据库。
装置100可将确定的图像数据库的目标图像的识别信息与搜索词进行比较,并搜索与搜索词相应的图像。当目标图像是静止图像时,装置100可在静止图像单元中搜索图像。当目标图像是运动图像时,装置100可在运动图像帧单元中搜索图像。当搜索词是正搜索词时,装置100可从图像数据库中搜索具有作为识别信息的正搜索词的图像。当搜索词是负搜索词时,装置100可从图像数据库中搜索不具有作为识别信息的负搜索词的图像。
识别信息可以在图像数据库中包括的目标图像中被预定义,或者也可在图像数据库中包括的目标图像中不被预定义。如果识别信息在目标图像中被预定义,则装置100可基于目标图像的识别信息是否适当地与搜索词正匹配或负匹配来搜索图像。如果在目标图像中没有预定义识别信息,则装置100可产生目标图像的识别信息。装置100可基于搜索词是否适当地与目标图像的识别信息匹配来搜索图像。然而,即使如上所述,识别信息被预定义,但本公开的各种实施例可添加附加的词语作为识别信息。
如图18c所示,装置100可显示发现的图像1840。当存在多个发现的图像1840时,装置100可基于图像产生时间信息、图像产生位置信息、图像的容量信息、图像的分辨率信息和搜索顺序中的至少一个来布置多个发现的图像1840。可选地,装置100可按时间顺序显示多个发现的图像1840。可选地,当目标图像是运动图像时,与搜索词相应的图像可以是运动图像帧。因此,装置100可使用运动图像再现方法仅显示与搜索词相应的图像。
可选地,如图18d所示,装置100可产生并显示包括与搜索词相应的图像的第一文件夹1852和包括其他图像的第二文件夹1854。图像和图像的链接信息可被存储在第一文件夹1852和第二文件夹1854中。
应理解的是,这里描述的示例性实施例应被视为仅是描述性意义,而不是为了限制的目的。每个示例性实施例中对特征或方面的描述应通常应被视为可用于其它示例性实施例中的其他相似特征或方面。
虽然已经参照附图描述了一个或更多个示例性实施例,但本领域的普通技术人员将理解,在不脱离权利要求定义的精神和范围的情况下,可在形式和细节上做出各种改变。