本发明涉及城市管理,特别涉及一种城市兴趣点同位模式挖掘方法及装置。
背景技术:
::1、随着计算机技术的发展,地理空间大数据高速膨胀,超出了人们的解译能力。人们为了从海量数据中识别隐含着的信息,一门全新的研究领域——空间数据挖掘应运而生,完成了数据挖掘、空间数据库、统计学、3s、机器学习等多个学科及技术的交叉融合。2、其中同位模式挖掘是空间数据挖掘的一个新兴研究热点,同位模式挖掘的概念来自于生态学领域:同位模式是空间特征的子集,其实例经常位于空间邻域内。例如,生态学家识别尼罗河鳄鱼和埃及鸻经常共存,根据该同位规则可以预测埃及鸻存在于尼罗河鳄鱼的区域。空间同位模式可以为许多应用提供重要的见解。例如犯罪学家可能对风险设施(对于一组设施,例如酒吧、停车场、超市来说,其中小部分设施涵盖了大部分犯罪的发生)感兴趣,根据犯罪发生的位置与各类设施的空间邻接关系获得同位模式来对城市犯罪防控进行决策支持。其他应用领域包括地球科学、公共卫生、生物学、交通运输等。3、现有的同位模式挖掘方法的改进主要是在算法效率及研究内容两方面进行研究。在算法效率上,减少其运算量,增加候选示例生成效率,包括部分连接、无连接的方法,基于团和树的方法等;在研究内容上,将同位模式挖掘可外接的对象拓展到一维及二维上,将基于空间位置的同位模式挖掘拓展到时空维度上等。但这些研究都默认了一个重要的前提:研究区域是具有同质性的。4、综上所述,现有技术存在明显的缺陷与不足,以城市设施作为空间特征而言,在不考虑设施大小、管理方式、营业时间、面向对象等诸多其他因素下,不同区域的同一类设施中的实例不存在差异性,这可能会导致“可变面元”和“生态谬误”等问题。技术实现思路1、针对上述问题,本发明提供一种城市兴趣点同位模式挖掘方法及装置,本发明考虑到现有同位模式挖掘的不足,提出了在城市功能区尺度进行同位模式挖掘,顾及了城市功能分布特征。2、一种城市兴趣点同位模式挖掘方法,所述方法包括:3、基于城市居民的移动轨迹,使用主题模型识别得到城市功能区;4、在给定城市路网的情况下,将每一个poi投影到与路网上,通过寻找一条最短连接路径计算poi之间的距离,并存放如距离矩阵之中,以建立城市poi之间的网络距离矩阵;5、基于城市路网中poi之间的网络距离矩阵,在各种功能区范围内进行poi的同位模式挖掘,以识别同位模式。6、进一步的,所述基于城市居民的移动轨迹,使用主题模型识别得到城市功能区,具体包括:7、根据移动轨迹对各分析单元生成单元分析文档,根据单元分析文档中各类poi设施数量生成文档的元数据;8、采用dmr主题模型进行城市功能区识别,主题模型数量由困惑度及主题一致性指标综合确定;困惑度为在文本分析中训练出来的模型识别某些文档是否包含哪些主题所具有的不确定性;9、结合各主题代表词汇、频率密度、内部排名和poi进行功能区标识。10、进一步的,所述根据移动轨迹对各分析单元生成单元分析文档,具体包括:11、基于城市居民的移动轨迹数据,建立数据集,移动轨迹数据包括出发时间、到达时间、出发地和目的地;12、根据数据集对各个区域进行文档的构建,文档中单词的形式为:symbol_date_moment,其中symbol表示到达或离开轨迹,date表示工作日或节假日,moment表示到达或离开时间段。13、进一步的,所述根据单元分析文档中各类poi设施数量生成文档的元数据,具体包括:14、区域rr对应文档的元数据为poi的频率密度,poi的频率密度表示为vr=(v1,v2,…,vf),其中f为poi的类别数,且对于rr中第i个poi类别的频率密度vi通过以下公式计算:15、16、其中ni,r为区域rr中第i类设施数量,sr为区域rr的面积。17、进一步的,所述采用dmr主题模型进行城市功能区识别,具体包括:18、基于dmr主题模型输入各区域文档及元数据,根据困惑度和主题一致性指标进行主题数量的选择;19、对dmr主题模型进行训练,得到各个主题下的代表词汇以及对应的概率,对各个区域的poi及面积进行统计,计算频率密度,并得到内部排名;20、在各个区域下,分别计算不同poi的频率密度,即区域中poi设施数量与该区域面积的比值,并根据频率密度在各个区域内计算区域内排名。21、进一步的,所述结合各主题代表词汇、频率密度、内部排名和poi进行功能区标识,具体包括:22、通过频率密度和内部排名在poi角度对区域进行描述;通过出租车轨迹数据在动态角度对区域功能进行反映;通过区域的各类型设施占比从静态角度对区域功能进行反映;结合每个城市功能区从poi角度、动态角度和静态角度完成功能标识。23、进一步的,所述基于城市功能区和城市poi之间的网络距离矩阵,在不同功能区范围内进行城市poi同位模式挖掘,具体包括:24、基于城市poi之间的网络距离矩阵,在不同功能区范围内构建空间要素实例的空间邻域关系,生成候选空间同位模式实例;25、基于候选空间同位模式实例,计算候选空间同位模式的参与度,并提取参与度超过给定阈值的空间同位模式。26、进一步的,所述计算候选空间同位模式的参与度,具体包括:27、对于空间中的n个对象,每一个对象在候选模式中有出现与没有出现两种情况,候选模式的数量有2n个;使用参与度对候选模式进行判断是否形成频繁模式;参与度公式为:28、29、式中,fi为具体的空间对象,c为k个空间对象组成的空间同位模式,π为关系投影,table_instance为表实例;如果一组不重复空间实例相互接近,且包含了c中的实例,则称其为行实例,c的所有行实例为c的表实例。30、进一步的,所述基于城市poi之间的网络距离矩阵,在不同功能区范围内构建空间要素实例的空间邻域关系,生成候选空间同位模式实例,具体包括:31、将空间数据集物化成星型邻居物化模型:对于每一个实例,指定阈值范围内的实例与其具有星型邻近关系,将各实例作为中心实例,与具有星型邻近关系的邻居实例组成集合,并要求邻居实例的特征类型在字典序中比中心实例的大;32、根据生成的k阶频繁空间同位模式生成k+1阶候选空间同位模式;33、从星型邻居物化模型中产生候选空间同位模式的星型实例;34、利用空间同位模式的星型实例产生粗糙的频繁空间同位模式,即计算空间同位模式中的各个空间对象是否到达参与度阈值;35、对于三阶或者更高阶,检查星型实例是否为团实例,不成团的实例删除;二阶星型实例是团实例,无需检查是否成团;36、满足上述过滤条件的即是频繁的同位模式,生成k+1阶所有的空间同位模式;37、进行迭代直至不产生新的候选同位模式。38、一种城市兴趣点同位模式挖掘装置,包括:依次连接的功能区识别单元、网络距离矩阵建立单元和同位模式识别单元;39、功能区识别单元,用于基于城市居民的移动轨迹,使用主题模型识别得到城市功能区;40、网络距离矩阵建立单元,用于在给定城市路网的情况下,将每一个poi投影到与路网上,通过寻找一条最短连接路径计算poi之间的距离,并存放如距离矩阵之中,以建立城市poi之间的网络距离矩阵;41、同位模式识别单元,用于基于城市路网中poi之间的网络距离矩阵,在各种功能区范围内进行poi的同位模式挖掘,以识别同位模式。42、一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;43、存储器,用于存放计算机程序;44、处理器,用于执行存储器上所存放的程序时,实现上述的一种城市兴趣点同位模式挖掘方法。45、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的一种城市兴趣点同位模式挖掘方法。46、本发明至少具有以下有益效果:47、本发明相比于传统的同位模式挖掘,本发明考虑到了空间异质性的存在,在进行功能区识别的前提下进行同位模式挖掘,更全面更准确的反映实际情况。48、本发明在构建空间邻域关系的过程,采用网络距离代替欧式距离衡量实例之间的空间接近度,这是更具实际意义且有效的措施。49、本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书以及附图中所指出的结构来实现和获得。当前第1页12当前第1页12