一种城市信息的智能搜索方法

文档序号:6521611阅读:380来源:国知局
一种城市信息的智能搜索方法
【专利摘要】本发明公开了一种城市信息的智能搜索方法。本方法为:1)将物联网中的各实体要素与互联网中对应含义相同的实体要素之间建立映射,得到一跨网络信息融合数据库;2)当输入查询条件进行搜索时,根据从查询条件中提取的实体要素信息和跨网络信息融合数据库从互联网中进行搜索查找匹配的网页,从物联网中进行搜索查找匹配的记录;3)将所查找的网页和记录及其之间的关联关系返回输出;进一步的,建立了一业务流程库和一业务资源库,根据提取的实体要素查找所述业务流程库,得到查询条件所属的业务流程节点P。本发明实现了两种网络的信息的融合,对一个城市事件的前因后果所涉及的信息和所动用的资源进行自动搜索,从而有效服务于城市管理。
【专利说明】一种城市信息的智能搜索方法
【技术领域】
[0001]本发明涉及一种信息搜索方法,尤其涉及一种面向城市动态运行环境信息的智能搜索方法,属于智慧城市领域。
【背景技术】
[0002]信息搜索服务是信息社会的一项重要的基础设施。搜索引擎和数字图书馆就是两种代表性的信息搜索系统。以搜索引擎为例,传统信息搜索系统所收集的信息主要来自互联网,如网页、BBS、博客、微博、电商等等,服务对象遍及几乎所有使用互联网的人。随着世界范围内物联网等技术的兴起和我国城市化建设的推进,对面向城市运行的信息搜索产生了迫切的需求。物联网技术的核心功能是利用各类传感器对物理世界进行感知,生成反映物理世界的丰富的数据、信息以及知识,供人们使用。城市化建设是社会发展的必经过程,涉及的方方面面非常庞杂,是一个很复杂的系统工程,而信息技术是决定城市化水平的重要因素之一。智慧城市是物联网等信息技术和城市化建设的有机结合。
[0003]智慧城市的核心是海量城市信息和智能城市服务,而信息搜索是架通二者的桥梁,所以说面向城市信息的智能搜索是智慧城市的一项关键的基础设施。

【发明内容】

[0004]针对现有技术中存在的技术问题,本发明的目的是提供一种城市信息的智能搜索方法,实现对海量的城市信息进行智能化的搜索,内容包括:一,跨网络信息融合方法;二,多层级信息关联方法。跨网络信息融合方法将来自物联网的信息和互联网的信息融合在一起,实现了客观的传感器信息和主观的人为生成信息(和传感器数据生成方式对比而言,网页是人用自然语言写作的)的综合,为搜索任务提供全面的信息。多层级信息关联搜索方法将分散的信息对象关联起来,实现了搜索范围的自动扩展。通过以上技术的支持,提供面向城市信息的智能搜索服务。
[0005]本发明的技术方案为:
[0006]一种城市信息的智能搜索方法,其步骤为:
[0007]I)将物联网中的各实体要素与互联网中对应含义相同的实体要素之间建立映射,得到一跨网络信息融合数据库;
[0008]2)当从互联网输入查询条件进行搜索时,根据从查询条件中提取的实体要素信息从互联网中进行搜索查找匹配的网页,然后从所述跨网络信息融合数据库查找所提取实体要素对应的物联网实体要素,从物联网中进行搜索查找匹配的记录;当从物联网输入查询条件进行搜索时,根据从查询条件中提取的实体要素信息从物联网中进行搜索查找匹配的记录,然后从所述跨网络信息融合数据库查找所提取实体要素对应的互联网实体要素,从互联网中进行搜索查找匹配的网页;
[0009]3)将所查找的网页和记录及其之间的关联关系返回输出。
[0010]进一步的,建立所述映射的方法为:[0011]21)将物联网中的实体要素的编码进行词汇化,为每一编码选取一对应的自然语言词汇,得到要素编码-实体要素词汇映射表Vt ;
[0012]22)构建互联网信息的实体要素表Vw ;
[0013]23)构建Vw中每个互联网实体要素Wj的使用环境Cwj ;
[0014]24)计算使用环境Cwj与使用环境Cvi相似度Sim(Wj,Vi),Cvi为Vt中的物联网实体要素词汇Vi的使用环境;如果相似度Sim(Wj, Vi)大于设定阈值c,则在Wj与Vi之间建立映射。
[0015]进一步的,计算所述相似度Sim(W」,Vi)的公式为:Sim(Wj, Vi) = α * (Cwj和Cvi的相同词汇数量)+ β * (Cwj和Cvi的向量余弦夹角)+ Y *扩展相似度量,α为词汇重叠相似度权值、β为余弦夹角相似度权值,Y为扩展相似度的权值。
[0016]进一步的,从互联网输入的查询条件中提取实体要素时,根据所述跨网络信息融合数据库查找与该实体要素对应同一的物联网实体要素的其他互联网实体要素,并从互联网中查找与之匹配的网页。
[0017]进一步的,建立所述使用环境的方法为:对于任一实体要素\,搜集互联网语料中所有包含%的文本,将这些文本进行合并形成%的使用环境。
[0018]进一步的,建立一描述城市管理过程的业务流程库和一描述城市管理所需调用各种业务资源的业务资源库,并设置所述业务流程库中每一业务流程的每一业务环节所需使用的业务资源(或者将所述业务流程库中每一业务流程的每一业务环节与其所需使用的业务资源之间建立关联);每一流程节点具有一实体要素名称;步骤2)中,根据提取的实体要素查找所述业务流程库,得到查询条件所属的业务流程节点P。
[0019]进一步的,搜索业务流程节点P所需使用的业务资源R,将搜索得到的记录和网页记为目标信息I,建立一三元组〈I,P, R>返回输出。
[0020]进一步的,根据业务流程节点P所属的业务流程,获取业务流程节点P的前驱节点,并针对每一前驱节点P+根据所述跨网络信息融合数据库搜索该前驱节点P+的目标信息1+和业务资源R+。
[0021]进一步的,根据业务流程节点P所属的业务流程,获取业务流程节点P的后继节点,并针对每一后继节点P-根据所述跨网络信息融合数据库搜索该前驱节点P-的目标信息1-和业务资源R-。
[0022]进一步的,所述关联关系的建立方法为:根据跨网络信息融合数据库中的映射关系,将物联网中一实体要素的查找记录与该实体要素对应的一个或多个互联网实体要素匹配的网页之间建立关联关系。
[0023]本发明的技术方案包括两项内容,如下所述:
[0024]1.跨网络信息融合
[0025]面向智慧城市信息搜索的“物联网-互联网”信息关联融合的核心是跨网络的实体映射。面向智慧城市的原始物联网数据主要是采集的城市音视频数据及其所依附的时空属性数据,从原始数据可以提取出各种要素,如对象(人员、物品等)、事件(爆炸、拥堵等)等丰富的客观描述信息,要素会以规范的编码存储;面向智慧城市的原始互联网数据主要是以自然语言文本,从原始文本数据可以提取出对象(人、物等)、事件(爆炸、拥堵等)、时空各种要素。但是关于同一对象两种网络表述不一致,物联网中的信息表述是有规范的(多种规范之间也可以映射),但互联网是开放的,表述非常多样。例如,“公交车辆”这种物品要素在物联网中可以表示为规范编码“T99”,而在互联网上除了用“公交车”外,还可以用“bus、巴士、公共汽车、公汽…”;再有交通“拥堵事件”要素在物联网中可以表示为编码“E01”,而在互联网上除了“拥堵”外,还可以用“阻塞、拥塞、堵了、车走不动了…”。物联网要素的规范编码要利用数据库结构化查询来搜索,互联网要素的多样性文本需要文本方式搜索,二者无法相互搜索。
[0026]我们提出一种基于词汇的跨网络要素映射方法,将两种网络信息中的相同要素连接起来,具体方法如下:
[0027]第I步:将物联网信息中的要素的编码进行词汇化,即为每一个编码选取一个对应的自然语言词汇(例如:“T99”对应“公共汽车”,“E01”对应“拥堵”),得到要素编码-词汇映射表Vt
[0028]V1=It1, tf,\,…I i>0},表 Vt 由项 & 构成
[0029]ti=<ci, Vi), Ci是要素编码,Vi是词汇
[0030]这步实现了物联网信息的文本化表示,下面解决多样性问题。
[0031]第2步:构建互联网信息的词表Vw (只需扫描分词后的互联网语料即可)
[0032]Vff= (W1, W2...,Wj,…I i>0},表 Vw 由词汇 Wj 构成,
[0033]{"’.1PO’ii,物联网词汇表是互联网词汇表的子集。
[0034]第3步:构建每个互联网词汇Wj的使用环境Cwj,即:搜集互联网语料中所有包含Wj的文本(例如取Wi左右各n个词汇),将这些文本进行合并形成Wi的使用环境Cwjt5
[0035]第4步:如果一个互联网词汇Wj和一个物联网词汇Vi(表示某个物联网信息要素)的使用环境非常相似Sim(%,Vi) >c (c是一个可设置的阈值),则将它们连接,相似度计算如下:Sim(Wj, Vi) = a *(Cwj和Cvi的相同词汇数量)+ @ *(Cwj和Cvi的向量余弦夹角)+其他相似度量,a,(6, Y >0,分别对应词汇重叠相似度、余弦夹角相似度和可扩展相似度的权值;物联网词汇Vi的使用场景与建立方法相同。
[0036]通过以上方法,就可以实现跨网络信息的搜索(情形如图1所示),由于互联网和物联网之间通过信息要素的词汇被连接起来,所以从一种网络出发可以检索到本网络和另一种网络的全部相关信息。
[0037]2.多层级信息关联
[0038]智慧城市管理应用中对关联信息的搜索有很强的需求,但是目前的物联网信息搜索只是返回信息是记录的集合(记录由字段组成),类似的互联网搜索只是返回网页的列表,所以,记录之间、网页之间、记录和网页之间的信息未能建立起联系。
[0039]为此,我们在传统搜索模式的基础上引入多级信息关联的新特征。核心的方法是引入业务流程库和业务资源库,如图2所示:业务流程库描述城市管理的过程,业务资源描述城市管理所需调用的各种资源,业务`流程的特定环节会使用特定业务资源,借助这两种库将城市管理业务中的大量信息有机管理起来;流程节点具有实体要素标签,每一流程节点的实体要素标签命名可以从物联网数据采集时提取,比如从摄像头拍摄的道路交通视频中自动实时识别出事故,所以可以将视频信息打上“交通事故”标签,相当于给视频数据定性,也可以在制订业务流程时设定,比如交通事故处理流程时,用视频定性标签“交通事故”来设定这个处理流程环节。反过来,从一个流程环节根据其名字也可以找到被标了相应标签的那些信息,比如“医疗救治”,这个是在设计物联网信息时就设计好的。如要对一起电梯伤人事故进行检索,借助于电梯事故管理流程,搜索系统可以自动向前追溯电梯维护的信息,更前的电梯安装调试信息,向后跟踪伤员就医的信息,再向后跟踪理赔的信息;在每个环节都可以搜索到相应的资源,如向前安装阶段的安装人员、辅助设备等和救助阶段的救护人员、急救车辆、救治医院等。关联搜索的具体方法如下:
[0040]输入:收到一个搜索的查询Q//如“**时间**地点的电梯事故”
[0041]第1步:从Q中提取出搜索的信息要素//如{**时间;**地点;电梯;事故” }。
[0042]第2步:根据多个信息要素搜索到目标信息I和所属的业务流程节点,记为P,搜索P所指的业务资源R,形成三元组〈I,P, R>
[0043]P+=P
[0044]P_=P
[0045]第3步:向前追溯
[0046]3.1:获取P+的前驱环节P++ (可有多个);
[0047]3.2:用P++搜索前驱环节的信息1++和前驱环节的业务资源R++,形成三元组〈1++,P++,R++>并和P+环节的三元组链接起来;
[0048]3.3:令P+=P++,回到3.1步(直到不再有前驱环节)
[0049]第4步:向后跟踪
[0050]4.1:获取P_的后继环节P__ (可有多个);
[0051]4.2:用P__搜索后继环节的信息1__和后继环节的业务资源R__,形成三元组〈1__,P__,R__>,并和P_环节的三元组链接起来;
[0052]4.3:令P_=P__,回到4.1步(直到不再有后继节点)
[0053]输出:
[0054]查询Q对应的多层级信息图谱。
[0055]与现有技术相比,本发明的积极效果为:
[0056]第一,跨网络信息融合
[0057]物联网信息的要素是规范编码的形式,要利用数据库结构化查询来搜索,而互联网信息的要素是文本,需要文本方式搜索,针对物联网的查询不能搜索互联网信息,反之亦然,所以二者无法相互搜索。
[0058]本发明通过物联网信息要素的词汇化,以及进一步的将互联网词汇映射到物联网词汇,从而实现了两种网络的信息的融合。这样,就以用物联网结构化查询搜到相关的互联网上信息,也可以用互联网的文本搜索发现互联网的规范编码信息。
[0059]第二,多层级信息关联
[0060]城市物联网信息搜索只是返回信息是记录的集合,互联网搜索只是返回网页的列表,所以,记录之间、网页之间、记录和网页之间的信息未能建立起联系,而城市管理应用非常需要调查和分析关联的信息和动用的资源,但目前的搜索方法还不能提供这方面的支持。
[0061]本发明一方面通过城市业务流程来建立分散的城市信息的过程性关联,另一方面还将业务流程各个环节上的城市业务资源关联进来。这样就可以对一个城市事件的前因后果所涉及的信息和所动用的资源进行自动搜索,从而有效服务于城市管理。【专利附图】

【附图说明】
[0062]图1为本发明的跨网络信息融合方法示意图;
[0063]图2为本发明的多层级信息关联方法示意图。
【具体实施方式】
[0064]以城市垃圾处理的监管应用为例来说明本发明的实施方式;
[0065]场景:
[0066]大型城市垃圾处理是有相对完善的规章制度和基础设施,但是,由于地理范围广、社区密度大、以及经济利益等方面的因素,在具体执行和监管方面单靠环卫等政府职能部门采取传统监管措施受限于人力物力等因素难以做到全面、细致,存在很多漏洞,特别是垃圾运输车辆违规倾倒垃圾对市民生活造成恶劣影响。随着物联网技术的兴起和移动互联网的发展,为此类城市运行的难点问题提供了有效的解决途径。
[0067]实施:
[0068](一)跨网络信息融合
[0069]对于一个违规倾倒垃圾的事件,物联网智能设备会监测到并识别出来,互联网上市民也会进行反映,我们发明的方法可以将这两种异构的信息融合成一体,具体过程如下:
[0070]第I步:将城市垃圾管理业务的信息要素的规范编码进行词汇化,即为每一个编码选取一个对应的自然语言词汇,此处可将对象“T11”词汇化为“垃圾运输车”,将事件“E11 ”词汇化为“违规倾倒”。对于一个监控到的违规倾倒垃圾事件,可以表示为一些词汇化的信息要素Itpt2,…},其中情形如下:
[0071]t^Tll, “垃圾运输车”〉,
[0072]t2=〈Ell,“违规倾倒”〉
[0073]…
[0074]这步实现了物联网信息的文本化表示,下面解决融合多样性互联网信息的问题:
[0075]第2步:构建互联网信息的词表Vw (只需扫描分词后的互联网语料即可)
[0076]Vff= (W1, W2...,Wj,…I i>0},表 Vw 由词汇 Wj 构成,
[0077]!WPkK物联网词汇表是互联网词汇表的子集。
[0078]第3步:构建每个互联网词汇Wj的使用环境Cwj,即:搜集互联网语料中所有包含Wj的文本(例如取Wi左右各η个词汇),将这些文本进行合并形成Wi的使用环境Cwjtl
[0079]第4步:对于物联网信息中的词汇Vi(如“垃圾运输车”),利用相似度Sim(Wj,Vi) >c计算来取定选择含有与Vi相似的词汇(如“垃圾车”)的网页进行连接,从而实现跨网络信息的融合。
[0080]第5步:用含有“垃圾车乱倒”文本的查询就可以在互联网上搜索到一些网页,而这些网页关联的物联网信息,就可以获得城市物联网上对“违规倾倒”垃圾的监控信息,这是取证过程。反之, 影响评估过程是由物联网报送的“违规倾倒”垃圾的监控信息来收集互联网上的举报信息。
[0081](二)然后,实施多层级信息关联:在搜索到违规倾倒垃圾事件本身的信息后,我们根据市卫生的政垃圾管理流程和各环节所需资源自动进行一些非常有用的扩展搜索:向前搜索垃圾运输承包环节(涉及设备资源一垃圾运输车)的信息,向后搜索违规处理环节(涉及人力资源一调查处置人员)的信息。
[0082]输入:收到一个搜索的查询Q//如“**时间**地点的乱倒垃圾”
[0083]第I步:从Q中提取出搜索的信息要素//如{**时间;**地点;垃圾;乱倒” }
[0084]第2步:根据多个信息要素搜索到目标信息I和所属的业务流程节点(即“违规倾倒”),记为P,搜索P所指的业务资源R (即“垃圾运输车”),形成三元组〈I,P,R>
[0085]P+=P
[0086]P_=P
[0087]第3步:向前追溯
[0088]3.1:获取P+的前驱环节P++卿“运输承包”);
[0089]3.2:用P++搜索前驱环节的信息1++和前驱环节的业务资源R++(即“垃圾运输车”),形成三元组〈1++,P++,R++>并和P+环节的三元组链接起来;
[0090]3.3:令P+=P++,回到3.1步(直到不再有前驱环节)
[0091]第4步:向后跟踪
[0092]4.1:获取P_的后继环节P__卿“违规处理”);
[0093]4.2:用P__搜索后继环节的`信息I—和后继环节的业务资源R__ (即“调查处置人员,,)’形成三元组〈I—,P-, R->,并和P-环节的三元组链接起来;
[0094]4.3:令P_=P__,回到4.1步(直到不再有后继节点)输出:
[0095]查询Q对应的多层级信息图谱。
【权利要求】
1.一种城市信息的智能搜索方法,其步骤为: 1)将物联网中的各实体要素与互联网中对应含义相同的实体要素之间建立映射,得到一跨网络信息融合数据库; 2)当从互联网输入查询条件进行搜索时,根据从查询条件中提取的实体要素信息从互联网中进行搜索查找匹配的网页,然后从所述跨网络信息融合数据库查找所提取实体要素对应的物联网实体要素,从物联网中进行搜索查找匹配的记录;当从物联网输入查询条件进行搜索时,根据从查询条件中提取的实体要素信息从物联网中进行搜索查找匹配的记录,然后从所述跨网络信息融合数据库查找所提取实体要素对应的互联网实体要素,从互联网中进行搜索查找匹配的网页; 3)将所查找的网页和记录及其之间的关联关系返回输出。
2.如权利要求1所述的方法,其特征在于建立所述映射的方法为: 21)将物联网中的实体要素的编码进行词汇化,为每一编码选取一对应的自然语言词汇,得到要素编码-实体要素词汇映射表Vt ; 22)构建互联网信息的实体要素表Vw; 23)构建Vw中每个互联网实体要素' 的使用环境Cwj ; 24)计算使用环境Cwj与使用环境Cvi相似度Sim(Wj, Vi), Cvi为Vt中的物联网实体要素词汇Vi的使用环境;如 果相似度Sim(Wj, Vi)大于设定阈值c,则在Wj与Vi之间建立映射。
3.如权利要求1所述的方法,其特征在于计算所述相似度Sim(Wj,Vi)的公式为: Sim(Wj, Vi) = α *(Cwj和Cvi的相同词汇数量)+ β *(Cwj和Cvi的向量余弦夹角)+ Y*扩展相似度量,α为词汇重叠相似度权值、β为余弦夹角相似度权值,Y为扩展相似度的权值。
4.如权利要求1或2或3所述的方法,其特征在于从互联网输入的查询条件中提取实体要素时,根据所述跨网络信息融合数据库查找与该实体要素对应同一的物联网实体要素的其他互联网实体要素,并从互联网中查找与之匹配的网页。
5.如权利要求1或2或3所述的方法,其特征在于建立所述使用环境的方法为:对于任一实体要素Wj,搜集互联网语料中所有包含Wj的文本,将这些文本进行合并形成Wj的使用环境。
6.如权利要求1或2或3所述的方法,其特征在于建立一描述城市管理过程的业务流程库和一描述城市管理所需调用各种业务资源的业务资源库,并设置所述业务流程库中每一业务流程的每一业务环节所需使用的业务资源、或者将所述业务流程库中每一业务流程的每一业务环节与其所需使用的业务资源之间建立关联;每一流程节点具有一实体要素名称;步骤2)中,根据提取的实体要素查找所述业务流程库,得到查询条件所属的业务流程节点P。
7.如权利要求6所述的方法,其特征在于搜索业务流程节点P所需使用的业务资源R,将搜索得到的记录和网页记为目标信息I,建立一三元组〈I,P, R>返回输出。
8.如权利要求7所述的方法,其特征在于根据业务流程节点P所属的业务流程,获取业务流程节点P的前驱节点,并针对每一前驱节点P+根据所述跨网络信息融合数据库搜索该前驱节点P+的目标信息1+和业务资源R+。
9.如权利要求7所述的方法,其特征在于根据业务流程节点P所属的业务流程,获取业务流程节点P的后继节点,并针对每一后继节点P-根据所述跨网络信息融合数据库搜索该前驱节点P-的目标信息1-和业务资源R—。
10.如权利要求1所述的方法,其特征在于所述关联关系的建立方法为:根据跨网络信息融合数据库中的映射关系,将物联网中一实体要素的查找记录与该实体要素对应的一个或多个互联网实 体要素匹配的网页之间建立关联关系。
【文档编号】G06F17/30GK103593482SQ201310632070
【公开日】2014年2月19日 申请日期:2013年12月2日 优先权日:2013年12月2日
【发明者】李文波, 孙乐, 许佳捷, 丁治明 申请人:中国科学院软件研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1