共享注意的协同视觉搜索系统及方法

文档序号:10539274阅读:338来源:国知局
共享注意的协同视觉搜索系统及方法
【专利摘要】一种共享注意的协同视觉搜索系统及方法,包括:视觉采样与编码模块、视觉搜索模块、团体合作模块、眼动产生模块、眼动共享模块和团体决策模块,视觉采样与编码模块分别与视觉搜索模块和眼动产生模块相连,在采样时接收视觉搜索模块的目标编码信息,利用视觉搜索模块提供的目标搜索、匹配及排除法生成自顶向下显著性图,通过眼动产生模块的眼动信息在眼动共享平台产生自顶向下和自底向上两种显著性图;团体合作模块与眼动共享模块相连,通过协调行为体现在眼动共享平台上,并利用多种媒体介质进行互动交流;团体决策模块通过多种媒体介质与眼动共享相连,通过搜索策略及任务的分配,分析当前的状态信息确定最终的决策。本发明以消除沟通不畅及指示错误产生的搜索失败,同时利用多通道可以有效提高合作效率。
【专利说明】
共享注意的协同视觉搜索系统及方法
技术领域
[0001] 本发明涉及的是一种图像处理领域的技术,具体是一种共享注意的协同视觉搜索 系统及方法。
【背景技术】
[0002] 人类的大部分成就都是建立在合作的基础上的。面对面的交流对良好的合作是必 不可少的。随着计算机科学和网络的发展,目前的一个热点问题是如何能够让远在异地的 人们通过各种通讯网络实现合作,比如让分散在世界各地的专家能够合作完成某一个项 目,就像面对面的合作一样。表面看起来面对面的交谈是如此的简单自然,但实际上面对面 的交谈使用了多种通讯渠道,比如单词句子,语气,手势,面部表情,肢体姿态,眼睛注视方 向等。大脑对意识隐藏了如何控制和协调肌肉和器官来完成这些任务的细节。而当通过计 算机进行远程交流时,信息必须通过一个中间层:键盘,麦克风,或者摄像头等等来传递。这 时如果想通过这些中间层来实现跟面对面交谈一样的无缝交流,就必须重建所有的以前没 有意识到的通讯细节。这些重建难以想象的复杂并牵扯到认知心理学,计算机科学,通讯 学,语言学,视觉科学,以及人机交互等多种学科。
[0003] 目前主流的视觉搜索以视频和眼动交流为基础,其中交流各方的注视位置交换成 为合作系统的最大问题。
[0004] Clearboard是一个以视频为基础的合作系统。这个系统虽然只支持两个人合作, 但它能够支持合作双方无缝交换眼动和注视信息(Ishii&Kobayashi,1992; Ishii, Kobayashi,&Grudin,1993).如果两个人围着一张桌子合作,他们将无法同时看到对方的眼 动和桌面上的材料。他们必须在看桌面上的材料和观察对方的眼动之间切换自己的注意。 Clearboard就解决了这个注意切换的问题。假设这两个合作者分别在一张半透明玻璃的两 侦L材料可以呈现在半透明的玻璃上,这样双方再看材料的同时还可以透过玻璃用眼动交 流,同时知道对方的注意点在哪里。以视频为主的Clearboard系统用两个视屏代替了半透 明的玻璃。另一个系统解决了眼动交流中的一个主要问题。如果通过视屏进行眼动交流,由 于显示器和摄像头不在一条线上,交流的双方必须要看着摄像头才能给对方眼神交流的印 象,同时又必须看显示器才能知道对方是不是在看自己。"Video Tunnel"(Acker&Levitt, 1987;Buxton&Moran,1990)的技术解决了这个问题。这个系统使用了一系列反光镜使显示 器和摄像头显得在同一个点上(Monk&Gale,2002)。
[0005] 在国内,基于眼动追踪的人机交互技术及其相关应用的研究工作起步稍晚,已有 众多的学者提出眼动追踪实现方案以及在成型的眼动追踪产品基础上面向交互所做的大 量工作。例如黄莹等开发出一个基于视线追踪及有意眼动命令的识别方法,提出了人机双 方均通过视觉方式来与对方互动的仿真原型。
[0006] 但是以上这些方法往往使用各自显示系统,很难从单通道扩展到更多通道进行注 视位置交流及互动处理。因此,从整体上解决多通道包括声音的人机交互已成为本领域技 术人员亟待解决的技术课题。
[0007] 目前,国内还没有一套完整意义上既满足实时交互,又能进行复杂视觉搜索的实 验平台,关键在于人类对客观世界的视觉认知还没完全解析,唯有通过客观世界的眼动测 量,来验证搜索模型的结果。以此推动视觉系统的认知研究。

【发明内容】

[0008] 本发明针对现有技术存在的上述不足,提出一种共享注意的协同视觉搜索系统及 方法,以消除沟通不畅及指示错误产生的搜索失败,同时利用多通道可以有效提高合作效 率。
[0009] 本发明是通过以下技术方案实现的:
[0010] 本发明涉及一种共享注意的协同视觉搜索系统,包括:视觉采样与编码模块、视觉 搜索模块、团体合作模块、眼动产生模块、眼动共享模块和团体决策模块,其中:视觉采样与 编码模块分别与视觉搜索模块和眼动产生模块相连,在采样时接收视觉搜索模块的目标编 码信息,利用视觉搜索模块提供的目标搜索、匹配及排除法生成自顶向下显著性图,通过眼 动产生模块的眼动信息在眼动共享平台产生自顶向下和自底向上两种显著性图;团体合作 模块与眼动共享模块相连,通过协调行为体现在眼动共享平台上,并利用多种媒体介质进 行互动交流;团体决策模块通过多种媒体介质与眼动共享相连,通过搜索策略及任务的分 配,分析当前的状态信息确定最终的决策。
[0011] 本发明涉及上述系统的协同视觉搜索方法,通过对视网膜变换后的图像进行自顶 而下和自底而上分析后得到显著性图(SM);再通过对显著性图中的中心凹进行识别后得到 基于动态轮廓的眼球移动信息,所述方法具体包括以下步骤:
[0012] 第一步、采集基于注视点的视网膜变换版的图像,并基于该图像生成显著性图,并 从显著性图中得到基于动态轮廓的眼球移动信息;
[0013] 1.1根据目标的编码信息进行视觉采样,包括随机、马尔科夫及自顶向下等采样方 法;
[0014] 1.2对样本进行基于特征的线性滤波,包含颜色、强度和方向等特征滤波;
[0015] 1.3由采样和滤波得到自底向上的显著性图,利用眼动产生的信息生成自顶向下 的显著性图,经线性组合得到综合显著性图。
[0016] 1.4通过高斯平滑模型的差来抑制综合显著性图中的奇异点并得到抑制图。
[0017] 1.5结合抑制图,在综合显著性图的非抑制区域中寻找热点;
[0018] 1.6通过热点的显著值判断目标是否出现;
[0019] 1.7对综合显著性图采用特征整合方式,先根据中心位置距离生成一张由中心发 散的区域,逐渐向四周减弱其显著值得到其中心凹,并判断热点是否在中心凹中得出基于 动态轮廓的眼球移动信息。
[0020]第二步、构建眼动共享平台,并在共享平台上显示眼球移动信息,由团队决策模块 确定团队合作协调以及任务进展。
[0021 ]所述的团队合作协调,包括但不限于视野的划分等。
[0022] 第三步、个人视觉搜索的策略及团队搜索的推广;
[0023] 3.1对确定目标进行信息编码和存储,作为视觉搜索的终结标准;
[0024] 3.2利用干扰物排除和目标匹配算法,实现场景和目标的分离;
[0025] 3.3根据搜索的区域和状态,通过搜索与记忆的关联,实现眼动的目标引导;
[0026] 3.4利用概率模型把个人视觉搜索推广到团队的视觉搜索,具体如下:对一个人进 行视觉搜索来说,当g为一次注视就发现目标的概率,那么η次注视发现目标的的概率p n = l_(l_g)n〇
[0027] 所述的概率模型假定每次注视的取样是完全独立不相关的,也就是说,前一次的 注视对下一次的注视没有任何影响。这意味着这个模型是一个无记忆的视觉搜索模型。这 个基于注视数量的模型可以很容易的扩展到基于需要多少时间发现目标的模型,即:P(t) = l-eit,其中:p(t)是在t时间内发现目标的概率,γ是发现目标的即时概率。
[0028]当发现一个目标的概率为Pr,则该概率分解成PR = Pi XΡ2 ΧΡ3,其中:Pi为某个注视 点落在目标所在区域的概率,p2为目标一旦被注视就能被觉察的概率,p3为目标一旦被觉察 就能被识别的概率,?!是依赖视觉搜索时间的,而P#PP 3不受视觉搜索时间长短的影响。
[0029] 在时间t之内某次注视正好落在目标所在区域的概率丹⑴,即为:Poisson过程的第 一次抵达时间:PKt) = l-ertAFC)V,其中:TF0V代表目标被注视的平均获取时间,可以简单的用 来代替,即的意思是如果可以无限期的视觉搜索,有多少正常的搜索者可以最终发现目标:
7则发现目标的概率作为时间的函数为Λ0 =及[1 ,.
[0030] 将上述单人视觉搜索模型扩展到多人视觉搜索的情况,当一群搜索者每个人都独 自搜索一个共同领域而且互相之间没有任何影响,同时一旦某个用户最快发现目标任务时 协同视觉搜索即告完成。对于两个搜索者的情况,至少有一个人在时间t内发现目标的概率 为Cd'O二2Λ [! -,]-乾[1 -]}2,变量定义与上面一致;该公式可以很直接从两个 人的情况扩展到N个人,从而可以得到一个多人协同搜索模型。 技术效果
[0031] 与现有技术相比,本发明的技术效果包括:
[0032] 目标的检测率方面:相比一般目标的检测,对于大视野中多个目标的检测;多个不 同目标的检测,通过不同目标的预览,进行视野分配,实现多个目标的并行处理;对于目标 的构成相对复杂,认知程度低,需要专业背景,利用搜索引导,边搜索边学习,提高搜索效 率。
[0033] 人力方面:利用网络平台,整合有限的资源,实现专家级的效率,在不同的时间和 空间实现最优配置。
[0034] 眼动参数实时控制方面:通过眼动的共享注意,实现搜索目标引导的控制,达到实 时的合作交流,将内部认知外在化。
[0035] 其他:空间信息的眼动解析,由眼动信息实现空间的索引关系,达到空间理解和感 知。
【附图说明】
[0036]图1为实施例中合作交流示意图;
[0037]图2为本发明多人合作平台系统框图;
[0038]图3为发明的整体框架图;
[0039]图4为视觉搜索模型框图;
[0040]图5为平滑后的模型显著性图及真实人眼显著性图;
[0041]图中:从左至右依次为:原图,平滑后显著性图,显著性图在原图上的叠加,人眼注 视的真实显著性图;
[0042]图6为图像的显著性WTA结果;
[0043] 图7为被试者在搜索任务中的视觉注意点;
[0044] 图8为实施例合作视觉搜索的时间和空间相关性示意图;
[0045] 图9为实施例多人合作的搜索路径示意图。
【具体实施方式】
[0046] 如图1所示,本实施例合作交流的通道包括网络互联、话筒交流及对方眼动的实时 显示,以此为基本信息通道构建眼动注意的共享平台,可以保证搜索状态的及时更新。
[0047] 如图2所示,本实施例涉及到本地多人合作的平台,可以进行搜索范围广泛或者多 目标的视野划分,提高搜索效率。一个显示终端只展现自己负责的区域或目标。一旦锁定目 标就停止搜索,返回一个任务完成信息。
[0048] 如图3所示,本实施例涉及的共享注意的协同视觉搜索系统,包括:视觉采样与编 码模块、视觉搜索模块、团体合作模块、眼动产生模块、眼动共享模块和团体决策模块,其 中:视觉采样与编码模块分别与视觉搜索模块和眼动产生模块相连,在采样时接收视觉搜 索模块的目标编码信息,利用视觉搜索模块提供的目标搜索、匹配及排除法生成自顶向下 显著性图,通过眼动产生模块的眼动信息在眼动共享平台产生自顶向下和自底向上两种显 著性图;团体合作模块与眼动共享模块相连,通过协调行为体现在眼动共享平台上,并利用 多种媒体介质进行互动交流;团体决策模块通过多种媒体介质与眼动共享相连,通过搜索 策略及任务的分配,分析当前的状态信息确定最终的决策。
[0049] 所述的视觉采样与编码模块包括:采样单元、滤波单元和显著性图单元,其中:采 样单元包括随机、马尔科夫和自顶向下三种方式之一进行采样处理,滤波单元采用颜色、强 度和方向三种特征滤波方式进行叠加,显著性图单元根据滤波得到的结果以及眼动信息生 成自顶向下和自底向上两种显著性图。
[0050] 所述的视觉搜索模块包括:目标编码和存储单元、干扰排除单元、目标匹配单元及 搜索状态单元,其中:目标编码和存储单元生成自顶向下的采样的同时为显著性图的产生 提供了上层依据,干扰排除单元、目标匹配单元和搜索状态单元产生的结果对于显著性图 的生成提供了视觉"热点"的帮助。
[0051] 所述的团体合作模块包括:协调合作单元和非协调合作单元,其中:协调单元分别 对多人任务或视野的初始分配进行元协调、脚本协调和微观行为协调;非协调合作单元具 有合力优势、大样本优势和团队激励效应三个特点,非协调合作单元分别对进行中的任务 进行难易评估,及时调整任务或视野的划分。
[0052] 所述的眼动产生模块包括:眼动解析单元、DirectX图形单元和实时控制单元,其 中:眼动解析单元对常规眼动进行分析并过滤平滑追踪、震颤和眨眼信息后,将注视和跳动 信息传输至DirectX图形单元,图形单元利用与实时控制单元的信息双向交流,调整参数, 把注视和跳动信息投射到共享显示系统上。
[0053]所述的眼动共享模块包括:共享显示单元和多种媒体介质单元,其中:共享显示单 元接收来自眼动产生和团队合作的信息,并实时反馈到视觉采样、眼动产生及团队合作模 块,构成了信息交流的枢纽;多种媒质单元依据冗余度的高低与团队合作及团队决策模块 产生互动交流。
[0054]所述的团体决策模块包括:任务终结单元和死锁解除单元,其中:任务终结单元分 别对个体目标搜索状态采用正确胜出、多数胜出和2/3多数胜出三种策略进行逻辑判断,得 到任务完成与否的结论,死锁解除单元对某些个体进行搜索陷入无序状态的恢复和重置, 采用任务转移或视野缩小的方式,保证搜索状态的实时跟进。
[0055]本实施例系统可以支持多人同时进行视觉搜索。图3中为四个人的布局并通过屏 风把他们彼此之间隔开,所以他们无法交流任何视觉信息。四个显示器通过一个视频分流 器联接在一起。实际上都连着同一个计算机,所以它们显示的内容在任何时候都完全一样。 同样还有四个互动接口连在计算机上,用来采集被试的反应。通过实验比较研究自然语言 和眼动语言是如何传递空间信息的。设计了一系列的实验要求被试通过自然语言,或者眼 动,"告诉"另一个被试去注意空间中的某一点。计划通过这些实验来确认眼动相对自然语 言在传递空间信息方面的优势,并分解出哪些眼动的参数可以被用来传递空间信息,同时 哪些眼动的参数可以被接受者所理解。
[0056]本实施例涉及上述眼动共享平台及协同视觉搜索系统的具体工作过程如下:
[0057] 步骤1)输入图像:该系统可以接受一个高分辨率的图像作为搜索场景,也可以接 受一个更小的图像来搜索目标。在目标图像中有一点必须指定;滤波器响应从围绕该点的 区域收集。在目前的研究里,这一点对应于目标图像的中心。
[0058] 步骤2)视网膜变换:搜索图像通过一个变换来反映施加于人视网膜的敏锐度限 制。为了实现这个神经解剖学的限制,需要一个图像和一个注视点作为输入,并输出基于该 注视点的视网膜变换版的图像(使其成为模型的一个好前端)。最初的视网膜变换是基于在 一个图像中心的注视点,与行为实验一致。新的视网膜变换在每次凝视变化后进行。
[0059] 步骤3)生成显著性图:自上而下(Top Down,TD)和自下而上(Bottom Up,BU)的显 著性图都是基于不同方向,尺度,色彩,以及阶数的高斯滤波器的特征反应。然后将这两个 图结合创建最终SM用于指导搜索,具体步骤如下:
[0060] 3.1创建TD和BU显著性图的第一步就是把视网膜转换图像分离成强度通道和两个 对立的颜色通道(R-G和B-Y)。对于每个通道,然后通过应用一组2D可变高斯过滤器提取视 觉特征,G(t,0, s),其中t是高斯内核的阶数,Θ为方向,s是空间尺度。目前的模型采用一阶 和二阶高斯,4个方向(0,45,90和135度),和3级尺度(7,15和31),总共24个过滤器。因此,得 到每信道滤波器响应的24个特征图,M(t,0, s),或表示为,对于视网膜变换图像中每个像素 的一个72维的特征向量F,。
[0061] TD显著性图是由相互关联的视网膜变换搜索图像利用目标特征向量Ft来创建。
[0062] 3.2为了保持两个显著性图表示的一致性,在TD显著性图中使用的同样通道和特 征也被用于创建BU显著性图。此图中特征对比信号直接从高斯导数滤波器的响应中得到。 对于每个通道,根据如下公式24个特征图组合成一个信号图其中:N( ·) ? 是归一化函数。最终BU显著性图是通过三结合特征图的平均值来创建。要注意的是这个方 法创建的BU显著性图不同于其他的方法在于的过滤器组成是一阶和二阶高斯导数而不是 中心环绕的DoG滤波器。同时两个计算特征对比的方法是不等价的,在实践中,他们产生非 常相似BU显著性图。
[0063] 3.3最后,基于TD和BU显著性图进行线性组合得到综合显著性图,线性组合中的加 权系数由用户指定。
[0064]步骤4)抑制图:在上述综合显著性图的基础上,采用视觉空间竞争机制来平滑显 著图,主要是通过一个高斯平滑模型的差来抑制奇异点,不仅能降低噪声点影响,同时能够 突显出显著区域,保留有效信息,最终得到抑制图。抑制图保持每个非目标位置的空间记录 在案,这些位置通过应用负高斯被锁定,并被排除掉,这个过程称为"跳过"。由行为证据支 持的抑制图表明在一个搜索任务中高容量的空间记忆可用来排斥非目标。如果目标获取模 型(ΤΑΜ)已经聚焦在热点(HS),即在显著性图上具有最大显著值的点的中央凹阈值(FT)之 内,但是目标仍未被检测到,那么注意力就会被引导到错误的目标上。如果发生这种情况, 应该抑制错误目标的定位,来允许模型选择新的候选目标,具体为:首先在目标图像中使用 以热点所在位置为中心的负高斯滤波器来抑制热点,并采用同样的方法在抑制图(IM)中的 对应位置进行热点抑制。
[0065] 所述的负尚斯滤波器I为:i_fXi y丨=.KX e. z.i/ ,其中:K在是[_1,0]范围之内的一个 负数,本实施例中取值为-〇. 5。指数函数的σ参数由滤波器的宽度W决定:σ = |/2.354,在所 有实验中,宽度的值为63像素(约1°)。抑制过程的净效应是在目标图像中把HS的关联性减 少0.5〇
[0066] 步骤5)寻找热点:结合抑制图,在显著性图的非抑制区域中,采用一个标准的赢者 通吃(WTA)算法寻找热点,具体包括:
[0067] 5.1利用WTA算法预测人眼的关注点以及视觉扫描的顺序:
[0068]
冲:均为用于控制平滑范 围的常数。
[0069] 5.2对原显著性图与D0G模型进行卷积,然后再用下式求得此次WTA中胜出的区域:
[0070] M= |M+M*D0G-Cinh|;?),其中:Cinh为常数,| · 1?)操作符是为了使得最终显著值均为 正,利用求得的结果可以得到每次WTA胜出的区域。
[0071] 5.3分解输入图像,通过几个预先注意的特征检测机制(敏感的颜色,强度等),它 们在整个视觉场景并行操作。然后这些特征通道的每一个用特征映射神经元编码空间对比 度。此外,每个特征映射的神经元在空间竞争显著性,通过远程连接,远远超出了经典的每 个神经元的感受野的空间范围。竞争后,特征图组合成一个唯一的显著性图,显著性编码为 地形性,不考虑特征通道出现的显著刺激。显著性图被注视顺序扫描,通过Win Take All (WTA)赢家通吃网络(在任何给定的时间内检测到显著性最高的点)和返回抑制映射(抑制 来自显著性图的最后一个注视位置,使注意力可以集中到下一个最显著的位置)之间的相 互作用。而自顶向下的注意偏向和训练可以调节。
[0072]步骤6)识别阈值:识别通过热点的显著值与两个阈值的比较来实现,具体为:当热 点的显著值超过目标出现阈值(目前的研究定为0.995)时,终止于目标出现的判断;当热点 的显著值下降到小于最低目标缺席阈值则认为目标缺席;当这两个终止条件都不满足时, 进入步骤7并对显著性图进行眼动判断。
[0073] 步骤7)中心凹视觉的阈值:当被试者在观察一幅图像的时候,通常会有先注视图 像中心的视觉习惯,这种现象被称为中心偏好(center bias)。无论图像的内容如何,被试 者起始的视觉点大都落在图像中间,而且在接下来得视觉移动过程中,人们会把更多的视 觉点聚焦在图像的中心附近区域。中心偏好本身就是我们视觉特性上的一个机制,因为当 我们将视觉注意点固定在图像中心时,能够最大面积的获取图像信息。中心偏好一般采用 特征整合方式,我们先根据中心位置距离生成一张由中心发散的区域,逐渐向四周减弱其 (x_x,):+(y_yc): 显著值,生成方法如下:。^^其中C。和〇。为调节中心区域面积大小和强弱 ^center , 的参数,(Xc,yc)表示图像中心坐标。眼动阶段的处理取决于模型的模拟中心凹注视是否锁 定于SM的热点。这可通过计算中心凹中心的当前位置和热点之间的欧几里德距离来确定, 然后把这个距离和中心凹阈值(FT)比较,FT定为0.5度的可视角度,由视网膜变换和视角与 对应的中心凹窗口大小的半径来确定。
[0074] 所述的中心凹窗口是图像中不被视网膜变换弄模糊的区域,很像人类视觉系统的 高分辨率的中心凹。
[0075] 7.1热点超出中心凹:当热点不在FT内,意味着引致到热点的对象目前还没锁定, 那么模型将作出眼球移动,使模拟的中心凹靠近热点的位置。在作出这样的运动,该模型将 有效地抵消视网膜变换的影响,由此能够判断热点模式。眼球移动终点的计算是采用活动 于阈值显著性图(TSM)上的加权质心。对建议的注视点(SF)的质心计算的其他详细信息,其 与距离阈值的关系,用于产生眼球运动(EMT),而动态变化的阈值用于去除那些对目标提供 最少证据SM点。
[0076] 7.2热点在中央凹:当模拟中心凹到达热点并且目标仍然检测不到(HS〈目标存在 阈值),该模型很可能已经锁定一个非目标。当发生这种情况(一种常见的发生在搜索的过 程中),希望抑制这种假目标的位置,以便不让它重新吸引注意力或视线。要做到这一点,通 过施加一个中心在热点位置(设定为63个像素)抑制高斯滤波器来抑制或跳过热点。随着抑 制注入显著性图(SM),一个新的基于动态轮廓的眼球移动就产生了。
[0077] 步骤8)利用概率模型把个人视觉搜索推广到团队的视觉搜索,当每个用户分别独 自搜索一个共同领域而且互相之间没有任何影响,一旦某个用户最快发现目标任务时协同 视觉搜索即告完成。
[0078] 实施效果演示:上述实施例在使用北约ΤΝ0人类因素实验室的高清自然场景数据 库来研究人们的合作视觉搜索行为。如图8所示,多个被试者被要求搜索一辆坦克。图8中顶 端序列:行为过程包括目标预览,然后搜索显示,它保留可见,直到手动触发响应(另加700 毫秒,这样才能更好地评估定位精度)。请注意,目标预览是放大显示相对于搜索图像,以便 更好地说明目标图像,在实际的实验中,预览小插图在搜索显示中和目标在规模和外观是 相同的。底部序列:目标获取模型接受相同的目标和搜索图像作为输入,然后在这些图像执 行操作来生成一个模拟眼球运动序列。图9所示,为整个过程中产生的两个中间表示图,视 网膜转化的搜索图像和目标图像,其中具有代表性的场景的人和模型扫描路径。A:扫描路 径(细箭头),由6名观察员和目标获取模型(粗箭头)叠加在搜索现场。需要注意的是所有都 快速收敛到坦克目标,位于靠近底部中间的图像。B:针对同一场景的自底向上的模型的行 为。这个模型使用了相同的高斯导数滤波器响应作为特征仅对选择扫视的目标计算这些特 征间的局部反差值。
[0079] 与现有技术相比,本发明的技术效果包括:
[0080] 1)突破传统的通讯渠道,以眼动作为通讯渠道建立和测试合作系统;
[0081] 眼动作为一种通讯渠道在理论上是完全成立的。计划研究两种通讯渠道对视觉搜 索合作和协调的影响。一种是自然语言的通讯渠道。用传统的双向对讲机来实现这种通讯 渠道。另一种是眼动交流(共享注意)的通讯渠道。相信合作者们可以用眼动实现一定程度 的交流。比如某个人通过长时间盯着空间中某一点来告诉对方在空间中的这一点肯能有重 要事情发生。又如眼睛快速扫描某一区域可能是告诉别人这块是自己负责的地盘。破译眼 动所能传递的信息有重要的理论和实际意义。认为对合作视觉搜索来说,眼动交流将更有 效率。将研究眼动交流的两个优势。第一个优势是眼动交流,相对于自然语言交流,能够直 接传递空间信息,更适合视觉搜索这样的视觉任务。第二个优势是通过观察对方的眼动模 式能够知道对方现在正在注意什么,从而推算出对方当前的认知状态,并因此调节自己认 知状态,从而实现微观层次的协调。而自然语言交流无法帮助视觉搜索实现微观层次的协 调。
[0082] 2)从个人视觉搜索出发,探索团队视觉搜索的合作方式和方法;
[0083] 相比较对个体视觉搜索行为的研究,对团体视觉搜索行为的研究很少。到目前为 止,对团体视觉搜索的研究主要还是由自己做出来的。主要结论是视觉搜索这样一种这么 短暂的认知行为也是可以合成的,而且合作主要是通过从空间上分割搜索任务来达成的。 这使相信当两个或两个以上的人进行视觉搜索时,他们可以通过在空间和时间上协调他们 的行为来提高团体视觉搜索的效率。
[0084] 3)研究空间信息通过眼动来表达;
[0085] 另外通过对视觉搜索合作的研究,认识到空间指代在合作中的重要意义。知道自 然语言并不适合传递视觉和空间信息。这也是为什么人们在交流视觉和空间信息的时候, 倾向于用手指点来弥补自然语言的不足。同时提出了可以用眼动"语言"来更好的传递空间 信息。研究者们也早就认识到眼动和注视也可以用来传递空间信息。但是苦于在自然条件 眼动只能在近距离内传递空间信息,随着距离的增加,眼动能传递的空间信息急剧衰减。而 的远程合作系统对这个问题提出了一个崭新的解决方案,就是通过眼动仪来捕捉眼动并传 递任意远的距离。从而再不需要近距离观察人们的眼动和头动来进行眼动交流。
[0086] 4)探讨将内部认知过程外在化的可能和方法。
[0087] 个人的执行任务的认知过程外界是不可知的。最多只能本人通过语言表述出来。 但有的过程,比如空间操作的过程,语言也无法及时表征。比如视觉搜索任务就并不显式地 改变环境,这就使得难以监测它的进展情况。小组成员可能因此不得不依赖语音来交流任 务进展,从而严重影响合作的效率。建立这个系统的一个考虑就是要把个人的内在认知过 程,比如个人的注意力分布,外在化,并用于相互交流。眼动因为可以揭示出当前的注意分 布情况,可以让以前不可知的内部认知过程外在化。这样一来,的研究成果以及开发出的研 究方法将在以后的各种认知研究中发挥重要的作用。
[0088] 上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同 的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所 限,在其范围内的各个实现方案均受本发明之约束。
【主权项】
1. 一种共享注意的协同视觉搜索系统,其特征在于,包括:视觉采样与编码模块、视觉 搜索模块、团体合作模块、眼动产生模块、眼动共享模块和团体决策模块,其中:视觉采样与 编码模块分别与视觉搜索模块和眼动产生模块相连,在采样时接收视觉搜索模块的目标编 码信息,利用视觉搜索模块提供的目标搜索、匹配及排除法生成自顶向下显著性图,通过眼 动产生模块的眼动信息在眼动共享平台产生自顶向下和自底向上两种显著性图;团体合作 模块与眼动共享模块相连,通过协调行为体现在眼动共享平台上,并利用多种媒体介质进 行互动交流;团体决策模块通过多种媒体介质与眼动共享相连,通过搜索策略及任务的分 配,分析当前的状态信息确定最终的决策。2. -种根据上述任一权利要求所述系统的协同视觉搜索方法,其特征在于,通过对视 网膜变换后的图像进行自顶而下和自底而上分析后得到显著性图;再通过对显著性图中的 中心凹进行识别后得到基于动态轮廓的眼球移动信息。3. 根据权利要求2所述的协同视觉搜索方法,其特征是,具体包括以下步骤: 1.1) 根据目标的编码信息进行视觉采样; 1.2) 对样本进行基于特征的线性滤波; 1.3) 由采样和滤波得到自底向上的显著性图,利用眼动产生的信息生成自顶向下的显 著性图,经线性组合得到综合显著性图; 1.4) 通过高斯平滑模型的差来抑制综合显著性图中的奇异点并得到抑制图; 1.5) 结合抑制图,在综合显著性图的非抑制区域中寻找热点; 1.6) 通过热点的显著值判断目标是否出现; 1.7) 对综合显著性图采用特征整合方式,先根据中心位置距离生成一张由中心发散的 区域,逐渐向四周减弱其显著值得到其中心凹,并判断热点是否在中心凹中得出基于动态 轮廓的眼球移动信息。4. 根据权利要求2或3所述的协同视觉搜索方法,其特征是,在获得基于动态轮廓的眼 球移动信息后,进一步构建眼动共享平台,并在共享平台上显示眼球移动信息,由团队决策 模块确定团队合作协调以及任务进展,然后进行个人视觉搜索的策略及团队搜索的推广。5. 根据权利要求4所述的协同视觉搜索方法,其特征是,所述的个人视觉搜索的策略及 团队搜索的推广,具体包括: 3.1) 对确定目标进行信息编码和存储,作为视觉搜索的终结标准; 3.2) 利用干扰物排除和目标匹配算法,实现场景和目标的分离; 3.3) 根据搜索的区域和状态,通过搜索与记忆的关联,实现眼动的目标引导; 3.4) 利用概率模型把个人视觉搜索推广到团队的视觉搜索。6. 根据权利要求5所述的协同视觉搜索方法,其特征是,所述的概率模型是指:当g为一 次注视就发现目标的概率,那么η次注视发现目标的的概率p n= 1-( l-g)n; 所述的概率模型为无记忆的视觉搜索模型,即:P(t) = l-eit,其中:p(t)是在t时间内 发现目标的概率,γ是发现目标的即时概率; 当发现一个目标的概率为Pr,则该概率分解成Pr=P1 X P2 X P3,其中:P1S某个注视点落 在目标所在区域的概率,P2为目标一旦被注视就能被觉察的概率,P3为目标一旦被觉察就能 被识别的概率,?!是依赖视觉搜索时间的,而PdPP 3不受视觉搜索时间长短的影响。7. 根据权利要求6所述的协同视觉搜索方法,其特征是,所述的个人视觉搜索推广到团 队的视觉搜索是指:在时间t之内某次注视正好落在目标所在区域的概率?:^),即为: Poisson过程的第一次抵达时间=P1U) = l-eTtAFC)V,其中:TFOV代表目标被注视的平均获取 时间,可以简单的用Ρ?来代替,即Ρ?的意思是如果可以无限期的视觉搜索,有多少正常的搜 索者可以最终发现目彳 则发现目标的概率作为时间的函数.,: ; ,将单人视觉搜索模型扩展到多人视觉搜索的情况,对于两个搜索者的 情况,至少有一个人在时间t内发现目标的概率为该公式可以很直接从两个人的情况扩展到N个人,当一群搜索者每个人都独自搜索一个共 同领域而且互相之间没有任何影响,一旦某个用户最快发现目标任务时协同视觉搜索即告 完成,从而可以得到一个多人协同搜索模型。
【文档编号】H04N13/04GK105898288SQ201610368349
【公开日】2016年8月24日
【申请日】2016年5月30日
【发明人】万卫兵
【申请人】上海交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1