基于可视搜索的媒体交互方法及系统与流程

文档序号:12039668阅读:210来源:国知局
本发明属于信息检索领域,具体涉及一种基于可视搜索的媒体交互方法及系统。
背景技术
:伴随着科学技术的发展,人类社会在20世纪90年代进入了一个崭新的时代——新媒体时代,而这一时期的一个显著标志就是互联网媒体的兴起。随着互联网的迅猛崛起,以门户网站为首的互联网媒体成为了“新媒体”的代表,报纸、广播和电视等传统媒体形成了巨大的冲击。其中,报业集团首当其冲地面临着最大的挑战。进入新世纪之后,西方报业的发行量和广告收益整体上呈现逐年下滑趋势,而我国报业的整体状况也不容乐观,发行量和广告的萎缩使报业做大、做强的目标被搁浅,报业集团的逆势发展和影响力的蜕变形成鲜明对比。2003年前后,报业领域出现的“拐点论”、“寒冬论”、“消亡论”等论调层出不穷。2008年,席卷全球的金融风暴使大量的报社倒闭或进行破产清算。2010年之后,移动互联网进入了一个快速发展的时期。这让我们看到了一个不争的事实,移动互联网引起的第五信息技术革命给传统报业带来了前所未有的冲击。随着新的传播技术和媒介的出现,普通的大众读者在阅读习惯和趋势上发生了质变以苹果iphone、ipad为代表的智能移动终端的普及,以及各种与新闻相关移动应用的层出不穷,这对传统报业而言是巨大的挑战。那么面对这场终端战役,传统报业如何在这夹缝中求生。在移动通信飞速发展的今天,移动通信技术也在悄然改变着信息传播的生态面临挑战,传统报业纷纷进军移动互联网,试图在新一轮的媒体竞争中占得先机。早期主要是通过手机报的形式用移动终端用户传播新闻。手机报是将传统媒体的新闻内容通过无线技术平台发送到彩信手机上,从而在手机上开发发送短信新闻、彩图、漫画和WAP(上网浏览)等功能。手机报,已经成为传统报业继创办网络版、兴办网站之后,跻身电子媒体的又一举措,是报业开发新媒体的一种特殊方式。虽然手机报的推出一定程度上缓解了传统报业所面对的紧张局势,但是手机报自身的缺点限制了它的发展。首先是手机终端的限制。虽然2005年手机用户已经超过两亿,但是支持彩信和WAP浏览的手机在手机用户中并不普及,拥有彩信手机的用户只占20%左右。其次是订阅价格相对来说比较贵,没有价格优势。最后是用户的阅读习惯。据了解,能够收发多媒体短信的手机,一般一个屏幕只能显示100个左右的汉字,而一个版面的报纸通常都在5000多字,要想看完一张报纸,读者需要翻阅50页左右,阅读起来十分麻烦。随着近几年移动互联网的快速发展和高配置智能手机的普及,手机终端和用户阅读习惯的影响已显得无足轻重,但是并没有带来手机报的蓬勃发展。大屏幕的高智能机的出现和手机资费的降低,消费者更愿意通过手机浏览器浏览新闻,或者通过人人网、微博等社交网站等获取新闻。虽然移动互联网的发展给传统报业带了巨大的挑战,但是机遇从来都是与挑战并存的。各传统报业集团已经意识到“从传媒竞争的角度来讲,从内容向终端,是必然的趋势”。中国报业“十二五”信息化建设发展规划建议书中提到,“十二五”时期(2011年至2015年),是中国报业信息化建设全面推进的关键时期,是跨媒体融合创新的攻坚时期,也是中国报业妥善应对媒体竞争而变化的重要时期。未来报业的发展趋势和巨大的用户资源,及智能手机等智能终端的普及,促使传统报业利用移动终端向报业电子化的方向发展。目前,在大众眼中,最得宠的移动终端当属微博,它凭借着形式精简、支持多媒体功能等特点迅速崛起,成为了一支影响力不断增强的新媒体主力军。截至目前,在中国最大的微博门户新浪微博上,约有5500家报纸、杂志、电台、电视台及通讯社等传统媒体开设了账户。微博都是将新闻推送给用户,用户的自主选择性很小。而对于媒体集团来说,选择的道路除了在新浪微博上开通属于自己的官方微博,同时马不停蹄地开发自己专属新闻客户端。基本上国内每个报业集团旗下的各大报纸、杂志都拥有了相应的电子版,为了方便人们阅读,同时抓住一部分网民受众,报纸电子版的出现似乎是必不可少的,但是,这些电子版在一定程度上是方便了人们阅读,但是从便携性、操作过程等方面,还需要更大发展。在一些情况下,用户感兴趣的可能并不是报纸中的新闻,而是一些产品、广告等。传统的方法无法与用户进行交互,提供最符合用户需求的信息,并且形式单一,不能以视频、声音地方式呈现给用户。技术实现要素:针对现有技术的以上缺陷或改进需求,本发明提供了一种基于可视搜索的交互式媒体方法及系统,根据用户拍摄的报纸图片,为用户搜索其它感兴趣的电子版报刊、杂志及相关链接,使得用户能更自主地选择自己喜欢的新闻或报纸,并且可以获得更为丰富的相关信息。一种媒体交互方法,具体为:服务端预存有报纸和杂志图片集及其相关链接信息,并以图片的特征建立索引;客户端对报纸或杂志上拍摄得到感兴趣图片,提取感兴趣图片的特征,依据该属性在服务端中检索得到与其内容相关的图片及相关链接信息。进一步地,该方法具体为:服务端预存报纸和杂志图片集及相关链接信息,并提取预存的图片的文本特征和视觉特征;服务端以提取的文本特征为索引,对图片搜集模块中的图片建立倒排索引,还为提取的视觉特征构建哈希码和训练哈希函数;客户端对报纸或杂志上感兴趣的内容拍摄得到感兴趣图片,并提取感兴趣图片的文本特征和视觉特征;客户端向服务端发送查询请求,查询请求含有感兴趣图片的视觉特征、感兴趣图片的文本特征和用户的兴趣点信息;服务端使用训练得到的哈希函数为查询请求携带的视觉特征计算哈希码,依据哈希码初步检索到客户端可能感兴趣的图片,并依据视觉特征在初步检索到的图片中进行定位;进一步利用查询请求中的文本特征在初步检索到的图片中筛选得到更精准的图片;最后从筛选得到的图片中选取与用户的兴趣点匹配的内容及相关链接反馈给用户端。进一步地,所述服务端按照如下方式对提取的视觉特征构建哈希码和训练哈希函数:令X=[x1,x2...,xn],其对应的哈希码Y=[y1,y2...,yn],其中,xi为对第i张图像提取视觉特征得到的视觉特征单词包,yi为xi对应的哈希码,i=1,2...,n,n为图片总数;求取满足的哈希码Y和变换矩阵A,其中,近邻矩阵W的第i行第j列元素N(x)表示对象x的近邻集,‖‖2表示求二维范数,exp表示指数函数,t∈(0,1],‖‖1表示求一维范数,上标T表示转置;依据变换矩阵A确定哈希函数进一步地,使用如下的迭代更新公式求解哈希码Y和变换矩阵A:n×n维的对角矩阵D的第i行第i列元素Dii=ΣjWij,平衡参数λ∈(0,1],Ed×n是d×n维元素全为1的矩阵,d为哈希码yi的维度。进一步地,所述文本特征为标题和关键词,所述视觉特征为全局特征或\和局部特征;所述全局特征为颜色直方图或图像纹理或GIST特征,所述局部特征为SIFT特征或SURF特征或HoG特征或CHoG特征。一种媒体交互系统,包括客户端,用于对报纸或杂志上感兴趣的内容拍摄得到感兴趣图片,提取感兴趣图片的特征,将携带有特征信息的查询请求发送给服务端,接收并显示服务端反馈的查询结果;服务端,用于预存报纸和杂志图片集及相关链接信息,并以图片的特征建立索引;接收客户端的查询请求,依据查询请求携带的特征信息检索客户端感兴趣图片及相关链接信息,并将检索结果反馈给客户端;进一步地,所述客户端包括图片拍摄模块、客户端特征提取模块和查询模块;图片拍摄模块,用于对报纸或杂志上感兴趣的内容拍摄得到感兴趣图片;客户端特征提取模块,用于与服务端特征提取模块相同的方式提取感兴趣图片的文本特征和视觉特征;查询模块,用于向服务端发送查询请求,查询请求含有感兴趣图片的视觉特征、感兴趣图片的文本特征和用户兴趣点信息;显示模块,用于接收和显示服务端反馈的图片及相关链接;所述服务端包括图片搜集模块、服务端特征提取模块、索引构建模块、粗选模块和精选模块;图片搜集模块,用于搜集各种报纸和杂志图片以及与其相关的链接信息;服务端特征提取模块,用于提取预存图片的文本特征和视觉特征;索引构建模块,用于以预存图片的文本特征为索引,对图片搜集模块中的图片建立倒排索引;还用于为预存图片的视觉特征构建哈希码和训练哈希函数;粗选模块,用于接收客户端的查询请求,使用训练得到的哈希函数为查询请求携带的视觉特征计算哈希码,依据哈希码初步检索到客户端可能感兴趣的图片,并依据视觉特征在初步检索到的图片中进行定位;精选模块,用于利用查询请求中的文本特征在初步检索到的图片中筛选得到更精准的图片,从筛选得到的图片中选取与查询请求携带的用户兴趣点匹配的内容及相关链接反馈给用户端。进一步地,所述索引构建模块包括哈希码构建模块和哈希函数训练模块:令X=[x1,x2...,xn],其对应的哈希码Y=[y1,y2...,yn],其中xi为对第i张图像提取视觉特征得到的视觉特征单词包,yi为xi对应的哈希码,i=1,2...,n,n为图片总数;所述哈希码构建模块,用于求取满足的哈希码Y和变换矩阵A,其中,近邻矩阵W的第i行第j列元素N(x)表示对象x的近邻集,‖‖2表示求二维范数,exp表示指数函数,t∈(0,1],‖‖1表示求一维范数,上标T表示转置;所述哈希函数训练模块,用于依据变换矩阵A确定哈希函数进一步地,所述哈希码构建模块使用如下的迭代更新公式求解哈希码Y和变换矩阵A:n×n维的对角矩阵D的第i行第i列元素Dii=ΣjWij,平衡参数λ∈(0,1],Ed×n是d×n维元素全为1的矩阵,d为哈希码yi的维度。总体而言,通过本发明所构思的以上技术方案与现有技术相比,本发明提供了一种新的基于可视搜索的交互式媒体技术。该发明结合了图像搜索和文本搜索,允许用户使用智能手机、平板电脑或者个人电脑拍摄报纸图片,然后利用拍摄的图片检索以获得用户想阅读的报纸的电子版。本发明可以方便不想阅读纸质报纸的用户很便捷地在终端上进行阅读,用户的自主性更强。相比于传统的手机报,本发明能够提供给用户的内容更加丰富多彩。进一步地,本发明中的哈希方法采用了自主研究的非负稀疏局部保持哈希方法,可以使可视搜索更加快捷准确。附图说明图1为本发明的系统结构图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。如图1所示,本发明的构成分成两部分,服务端和客户端。客户端的载体可以是带摄像头的个人电脑、笔记本电脑、平板电脑、智能手机以及其它带有摄像头并可以连接互联网的设备。客户端的主要用途是拍摄报纸图片,对图片进行初步处理,将检索请求发送到服务端,并显示检索返回的结果。服务端的载体可以是第三方机构的服务器,也可以是各报业集团的网站。它的主要作用是搜索报纸和杂志图片集,对图片集进行处理,建立索引表,并处理检索请求,向客户端发送检索结果。按照图1所示的示意图,本发明交互式媒体系统按客户端和服务端来描述。因为服务端的流程是必须预先在后台处理的,所以首先描述服务端的各模块的功能及其流程。本发明的服务端包括图片搜集模块100、服务端特征提取模块200、索引构建模块300、粗选模块400和精选模块500。图片搜集模块100,用于搜集各种报纸和杂志图片,建立报纸和杂志各区域内容相关的链接信息。图片可以使用扫描仪扫描获得,也可以通过格式转换直接转换成图片的形式,例如Word格式转化为图片格式。另外,根据报纸内容,将图片划分区域。对于图片不同区域的内容,为其建立一个链接。如果该区域是新闻,链接内容为与其相关文本、视频、音频新闻的链接。如果该区域为产品广告,则链接内容为该产品的信息以及产品的购买链接。服务端特征提取模块200,用于提取图片的文本特征和视觉特征。特征的优劣决定着检索的准确性。它主要是对搜集图片模块中搜集的图片进行特征提取的过程。因为报纸图片的特殊性,它即有文本又含有图片。传统的基于文本和图片搜索的方法,都不能很精确地搜索到用户所需要的报纸。本发明结合报纸图片的特征,提出了结合图像搜索和文本搜索的方法,将特征提取模块划分为文本特征提取模块201和视觉特征提取模块202。文本特征提取模块201,用于提取搜集到的图片集中的每幅报纸图片中的标题和关键词。用于示例的一种具体实施方式为,首先采用文本检测进行文本定位,例如采用最大的稳定未端区域(MaximallyStableExtremalRegions,MSER)方法从侯选字符的连接集中得到直的文本和单词线,然后用边界盒子标记这些单词和文本。通过检测到的盒子,可以分辨出对应的标题。因为标题包含了报纸新闻中最关键的信息。只要使用光学字符识别(OCR)识别标题对应的片就可以获得标题和关键词。视觉特征提取模块202,用于提取图像的视觉特征。图像的视觉特征分为全局特征和局部特征。全局特征如颜色直方图、图像纹理、GIST特征等。局部特征如SIFT特征、SURF特征、HoG特征、CHoG特征等,这些特征都可以应用在本发明的框架中,也可以进行多特征融合后使用,全局特征或其融合结果视为一个独立的视觉特征单词包。由于每幅图像的局部特征点的个数不同,还对局部特征点进行词频统计,根据词频统计结果将图像用视觉特征单词包BoVF来表示。对于文本图片这一类特殊图像,还可以使用砖墙编码特征(BrickWallCodingFeatures,BWC)。BWC特征利用了单词的空间分布特征,然而对于中文、日文这一类单词之间没有间隔的文本,该方法并不奏效。SIFT特征在这种情况下比较有效。如果主要面向于国内的报业集团,优选采用SIFT特征来描述文本图片。在后续的哈希码训练时,可采用提取全局特征或局部特征得到的视觉特征单词包,也可将两者融合使用。索引构建模块300,用于在特征提取模块200将特征提取完成后,对提取的特征建立索引。索引的优劣决定着检索的效率。该模块包含对标题和关键词进行处理的倒排索引模块301和对图像视觉特征进行处理的哈希模块302。倒排索引模块301,用于以提取的标题和关键词为索引,对搜集的图片建立倒排索引。用于示例的一种具体实施方式为,首先用词频统计方法(TF-IDF)对标题和关键词进行处理,删除无用的关键词,然后分别用标题和关键词作索引,对图像搜集模块100中的文本图片建立倒排索引。哈希模块302通过机器学习的方法,为视觉特征提取模块202提取的特征构建哈希码和训练哈希函数。该模块在索引构中模块300中起着举足轻重的地位,决定整个发明的性能优劣。作为优化,本发明提出了一种非负稀疏局部保持哈希方法(NonnegativeSparseLocalityPreservingHashing,NSLPH),具体如下:假定图片搜集模块100搜集了n张报纸图片,图片视觉特征提取模块202为每幅图片提取特征后形成的视觉特征单词包BoVF的维度为m。通常情况下,BoVF的维度会非常高,即m的值很大,这会导致“维度灾难”的问题,这将会使基于图片视觉特征的快速检索变得非常困难。因此需要采用一种有效的哈希方法来折衷,牺牲部分准确性换取较快的速度。哈希方法可以迅速地检索到查询样本的近似集。用X=[x1,x2...,xn]∈Rm×n表示图像集,通过哈希得到与其对应的哈希码用Y=[y1,y2...,yn]∈{0,1}d×n,其中xi为第i张图像的视觉特征单词包BoVF,d为哈希后的维度,yi为xi对应的哈希码。首先构造近邻矩阵W,第i行第j列元素其中N(x)表示对象x的近邻集,‖‖2表示求二维范数,exp表示指数函数。为了保证相似的对象得到相近的哈希码,构造如下的最优化函数:通过一些简单的数学变换,可以使用如下的迭代更新方法求解哈希码Y和变换矩阵A:其中,n×n维的对角矩阵D的第i行第i列元素Dij=∑jWij,平衡参数λ∈(0,1],Ed×n是d×n圳维元素全为1的矩阵,J为哈希码yi的维度,上标厂表示转置。该方法的优点是能够保证相似的特征获得相近的哈希码,并且它的映射矩阵A可以为其它的特征快速生成哈希码。依据变换矩阵A确定哈希函数粗选模块400,用于接收客户端的查询请求,使用训练得到的哈希函数为查询请求携带的视觉特征计算哈希码,依据哈希码初步检索得到客户端可能感兴趣的图片,并依据视觉特征在查询得到的图片中进行定位。本发明通过查找哈希码可以快速地查询到与其相近的哈希码,进而得到相似的图片。本发明采用哈希方法的目的主要是加快搜索速度。因为服务端的视觉特征提取模块202和客户端的视觉特征提取模块702提取的特征维度非常高,会带来“维度灾难”的问题,导致查询的速度非常慢。采用哈希的方法,可能将获得的特征映射较低维度的汉明空间(Hamming),能过简单的异或操作就可以判断它们对应的哈希码是否相近。精选模块500,用于依据查询请求携带的感兴趣图片的文本特征在倒排索引表中检索有相同文本特征的图片,并从中找出同时被粗选模块检索得到的图片,作为最终检索结果,进而根据精选得到的图片定位区域得到与其相关新闻、视频、音频或产品信息链接。根据用户的兴趣点,向客户端反馈相应的查询结果,如果用户感兴趣的是拍摄内容所属报纸或杂志,则反馈精选得到的图片所属报纸或杂志;如果用户感兴趣的只是某一篇报道,则反馈精选得到的图片定位区域内容及其相关新闻连接;如果用户感兴趣的是广告,则反馈图片定位区域所示产品的相关信息和链接。一般的搜索算法在显示近似结果之后就结束。本发明新增了精选模块对搜索得到的近似结果进行精炼以显示精确结果。该模块利用了客户端和服务端提取的标题和关键词,对粗选结果进行筛选得到最终的准确结果。进而从图片搜集模块100中图片对应的区域的链接获得用户感兴趣内容的链接。接下来描述本发明的客户端的流程和功能。本发明的客户端也包括三个模块:图片拍摄模块600、客户端特征提取模块700、查询模块800和显示模块900。图片拍摄模块600的功能是拍摄报纸图片。拍照设备可以是智能手机、平板电脑及笔记本电脑内置的摄像头,也可以个人电脑连接的外置摄像头。与服务端的图片搜集模块100搜索的图片不同,该模块获得的图片分辨率可能不高,但这并不影响后面的基于拍摄图片的检索效果。图片的拍摄最好是在光照较充足的条件下,并且垂直拍摄。其目的是尽量与图片搜集模块100获得的图片相似。客户端特征提取模块700与服务端的特征提取模块200的功能相同,是用来提取拍摄模块600拍摄的图片的特征。为了保持客户端与服务端的一致性,它们所包含的子模块和所采用的特征提取方法也完全一致。它包含的标题关键词提取模块701和视觉特征提取模块702分别对应于服务端的标题、关键词提取模块201和视觉特征提取模块202。查询模块800的主要功能是向服务端发送查询请求。查询请求主要包含感兴趣图片的视觉特征、文本特征信息以及用户的兴趣点信息。用户的兴趣点主要是指用户感兴趣的是整个报纸,还是只是某篇报道本身,还是广告涉及产品介绍和购买渠道。显示模块900接收和显示服务端反馈的查询结果。这样用户只需要拍摄一图片,就可获取自己想要的所有信息,对用户来讲,方便、灵活。本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1