一种基于多源异构空间规划数据的融合方法与流程

文档序号:26755407发布日期:2021-09-25 03:54阅读:365来源:国知局
一种基于多源异构空间规划数据的融合方法与流程

1.本发明涉及资源规划技术领域,具体涉及针对国土资源的基于多源异构国土空间规划数据的融合方法。


背景技术:

2.国土空间规划是引导国家空间发展的科学指南,是统筹各类空间性规划,推进“多规合一”的战略部署,是推动各级政府进行空间治理、用途管制的核心手段,是落实生态文明建设的重要举措。由于国土空间规划数据是国土规划成果资料的汇总和集成,是国土规划信息化管理的重要体现,经过多年的累积,这些数据呈现出多源、异构、多时空、多尺度、不同坐标系等特点,这导致了国土规划多源数据问题的产生,例如数据重复,由于时序数据的规律性,使得产生的具有很大的冗余性,另外,当前存在大量以国土空间规划数据为代表的空间信息以文本形式贮存,无法对应到相应的空间地理单元,难以实现文本类地理数据空间落点以及落点精度较差的问题,阻碍了相关研究和工作的开展。
3.目前存在的几项问题汇总如下:1、国土空间规划中的gis数据资源丰富,数量众多,但是各种来源的国土空间规划成果各成体系,且各渠道国土空间信息完善和丰富程度差异,位置和属性冲突。2、目前空间数据转换处理系统的能力、效率及数据处理流程还需系统化完善。3、在国土空间规划中,有许多地名的规范化角度还存在着很多问题,虽然在镇区或街道办及以上的行政等级的命名中都已基本规范统一,但是国土空间规划建设中各种业务数据对地名地址匹配准确度和效率不高的问题。4、国土空间规划中存在业务复杂、多源异构数据集成、模型规则流程复杂、阀值参数不一、指标计算耗时过长等难点。
4.本发明是为了实现对不同数据来源、不同存储格式、不同时空、不同尺度和不同坐标系下的数据进行无损的数据共享,实现在开放的统一标准下进行平台式数据管理,通过开发能够简便操作、实现地理类文本数据与空间坐标批量化、自动化精准对应的工具,从而提高对数据的利用效率,提高国土空间规划数据管理水平。


技术实现要素:

5.本发明针对不同来源的国土空间规划数据在格式、坐标参考、属性结构等方面存在差异的问题,提出了一种多源异构空间规划数据的融合方法,主要应用于国土空间规划。
6.该方法首先将经过现有国土空间规划库、公开poi数据、基础测绘等自有数据为基础,形成国土空间规划母库。
7.其次,将其他来源的cad、gis、poi数据经过坐标统一后与国土空间规划母库进行空间位置和地名地址等属性信息的比对,将母库中没有的国土空间规划数据去重、融合进去,形成内容规整、信息量丰富的国土空间规划融合库。
8.最后进行基于空间约束关系的地点地址挂接,即使每一个poi点与对应的地点地址建立关联关系,提升国土空间规划库的应用途径。试验结果表明,该方法能够实现多源国土空间规划数据的高效融合,与地点地址进行挂接后,有效解决了国土空间规划数据采集
工作中数据成本高、工作量大、效率和实效性低等问题,对于改善国土空间规划公共服务平台数据时效性、现势性、专题丰富程度等具有重要数据支撑与技术支撑作用。
9.一种基于多源异构空间规划数据的融合方法,包括如下步骤:s1、gis数据处理与融合;s2、autocad数据处理与转换;s3、地名地址匹配挂接;s4、批处理。
10.进一步地,所述步骤s1具体包括:s11、清洗处理,对获取的大量空间规划数据用etl技术进行清洗处理;s12、提取代码,根据资源信息的特点,设计分词算法,提取国土资源信息元素关键词及相应代码;s13、初步融合,采用基于加权的多属性相似度实现多源数据融合与更新,在初步融合集的基础上,利用poi数据都有高度相似的非空间数据特征属性,采用字符串相似的算法,通过使用低阈值的名称特征属性相似度方法排除由相应国土资源信息找出的错误对应对象,最后再使用高阈值的名称特征属性相似度方法找出国土资源信息未能找出的对应对象,再进行poi更新;s14、网络数据抓取、融合与更新。
11.进一步地,所述步骤s11的清洗处理包括如下步骤:s111、统一数据格式,将收集到的相关数据进行格式转换以便后续对其进行操作,部分表格、文本数据需对其进行相关矢量化或空间差值处理;s112、统一坐标和精度,采用2000国家大地坐标系(cgcs2000),“高斯

克吕格”投影,陆域部分采用1985国家高程基准,海域部分采用理论深度基准面高程基准,另一方面,根据区域大小和可获取数据的精度,确定栅格单元,保证同一栅格中数据精度的一致性,包括地形因子、降水因子、土壤属性因子的栅格大小相同;s113、添加属性结构,进行数据标准化输入和输出,基于gis构建集成模型,通过构建多元要素体系、指标体系,建立流程框架,规范组织和管理各渠道收集而来的数据,支持图表、文档和空间矢量、栅格数据的动态加载与展现,成果数据制定和内嵌命名规则,从而保存结果进完成相应的标准化工作;s114、优化数据质量,其一,通过采样和掩膜保证各栅格图层具有相同栅格单元大小和行列数,并完成对数据进行裁剪保证数据空间范围一致性,其二,规范数据库表格和字段的设计,字典表含有主键,确保并字段名和类型的一致性,避免可为空的列,分别完成对特殊字符进行删除处理、形成标准数据属性结构、优化数据质量和统一属性字段名称工作。
12.进一步地,所述步骤s12的提取代码包括如下步骤:s121、数据预处理;s122、其他源pol去重;s123、莱文斯丁算法分析其他源与母库pol;s124、文本字符串相似度赋值与距离属性赋值;s125、判断其他源pol是否需要融合;s126、对oracle母库进行更新,元数据生成。在步骤s12流程运行过程中,建立索引字段,对key_id字段建立索引,同时增加对数据库是否已存在同名表进行判断。
13.进一步地,所述步骤s13的进行poi更新包括如下步骤:s131、数据分析与整理;s132、进行去重处理;s133、赋予权重;s134、建立pol编码;s135、形成新的母库。
14.进一步地,所述步骤s2具体包括:s21、寻找数据图框;s22、按照图框数据量复制相同数据量的cad文件;s23、利用autolisp代码确定转换数据范围;s24、生成scr文件,执行对应操作。
15.进一步地,所述步骤s3具体包括:s31、进行空间关系计算;s32、建立空间约束模型;s33、完成匹配验证。
16.进一步地,所述步骤s4具体包括:s41、制作数据处理模板;s42、将制作好的模块通过etl工具的可视工作流编辑器发布到数据集成平台上,形成数据处理服务;s43、模板更新
维护。
17.本发明的基于多源异构空间规划数据的融合方法,采用一种针对数据源的处理方法,能够高效、快速的读取、并处理不同来源的国土空间规划数据;另一方面,采用基于动态时间规整的数据去重方法,该方法通过计算数据之间的相似性,从而消除数据冗余、达到数据去重的目的。
18.有时为了最大限度的提高数据处理的能力、提高效率,本发明研发调用外部的一些工具和方法,完善我们的数据处理流程,将不同源国土空间数据归并融合使其信息量更为丰富完整,实现国土空间信息的复用与更新。
19.cad数据是国土空间规划重要组成部分,但由于autocad中的需要转换数据中可能存在ole(objectlinkingandembedding,对象连接与嵌入,简称ole技术)等特殊格式cad数据,这种特殊数据在数据读取的过程中可能就已经造成丢失,造成转换前后数据成果与原始不一致。本发明利用空间数据转换处理系统调用autolisp代码的方法完成cad数据的转换操作,将数据按照需要转换的数据量复制多个,在复制的数据上进行转换操作,再自动保存转换后的数据,删除多余数据,保证数据的100%正确。
20.本发明方法在基于中文分词的地名地址匹配技术框架下,综合利用精细化地名地址库构建、地名地址特征分词库构建和基于用户搜索行为大数据分析3种关键技术提高地址匹配度和匹配精度。
21.本发明通过智能数据处理与分析工具科学认识国土空间格局分异的自然规律和社会经济规律,使国土空间功能区域进行高效划分,有利于国土空间规划的关键基础性工作。
附图说明
22.图1为本发明的实现方案示意图;
23.图2为本发明的数据处理系统图;
24.图3为本发明的步骤s1及s2的主要流程示意图;
25.图4为本发明的步骤s1中的s12提取代码的流程示意图;
26.图5为本发明的步骤s1中的s12提取代码中建立索引字段的流程示意图;
27.图6为本发明的步骤s13的进行poi更新过程的流程示意图;
28.图7为本发明的步骤s2的主要流程示意图;
29.图8为本发明的步骤s3的主要流程示意图;
具体实施方式
30.为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明作进一步说明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
31.本发明针对不同来源的国土空间数据在格式、坐标参考、属性结构等方面存在差异的问题,提供了一种基于多源异构空间的规划数据的融合方法,主要应用于国土空间规划数据,该方法主要在数据接入之后,数据应用之前,首先以现有国土资源库、公开地图库、基础测绘库等自有数据为基础,进行数据清理、融合,形成国土空间规划母库,该空间规划
母库按属性包括土地资源类、水资源类、环境类、生态类、灾害类、气候气象类、基础设施类、基础底图和海洋数据,来源于自然资源、统计、林业、水利、生态环境、住建、交通等相关权威政府部门的基础数据(非公开),具有权威性、准确性、时效性和可获得性等特点。
32.在此基础之上,结合第三方(如研究机构)提供的专业数据、政府公开数据(包括消防,气象,文物等)、影像数据(网络获取)、开源数据(如百度、高德等)与及在生产过程中产生的autocad数据等数据作为有效补充。
33.数据格式一般图形数据采用gis软件支持的矢量数据,其精度根据工作需要与经素属性确定,统考数据采用access或excel软件支持的表格数据。通过与母库数据比对,补充完善国土空间规划母库数据;并结合互联网poi数据,定期进行互联网数据抓取和收集,通过数据比对、融合,进一步完善国土空间规划母库信息;最后通过地点地址的匹配技术进行连接,从而建立信息丰富、统一的国土空间规划数据库,最终产出优质数据存入国土空间信息资源母库,逐步形成一套有效数据比对、融合、更新机制,使国土空间规划库能实时、准确的反应真实的国土空间规划情况。
34.实现方案如附图1所示,一般情况下国土空间规划数据母库的数据的精细度、精确度都要高于第三方、互联网和政务内网等其它方来源的数据,以上其它方的数据与国土空间规划数据母库融合采用如下基本规则:
35.⑴
相同的空间位置,规划库重复,保留规划母库数据,删除其它中重复数据;
36.⑵
规划母库、其它方数据的空间位置有矛盾,以规划母库为空间基准。
37.⑶
规划母库有,其它方数据库没有,保留规划母库数据。
38.⑷
第三方有,规划母库没有,保留其它方数据库数据。
39.⑸
解决规划母库与其它方数据库的一对多,多对多关系。
40.在本发明中,整个系统的数据处理系统图如图2所示,这也是整个发明的数据处理构思设计,从数据源出发,进行数据采集与预处理,再进行数据存储,随后进行数据分析与挖掘及进一步数据可视化处理。本发明方法具体包括如下步骤:s1、gis数据处理与融合;s2、autocad数据处理与转换;s3、地名地址匹配挂接;s4、批处理。
41.gis技术是在计算机系统支持下,对制定区域空间地理分布数据进行计算、采集、存储、分析以及管理的技术,gis可以实现对国土空间数据的有效分类和管理,并通过特征数据和属性特征数据的全面连接,实现对空间数据的有效查询和分析。由于国土空间数据来源丰富,致使数据格式各异,包含autocad、esrishape、excel、esrigeodatabase数据库等,无统一数据表示方法,空间要素可以表达gis几何数据类型,也可以采用文本坐标形式存放到excel、csv等数据文件中。并且随着例如poi等数据生产技术和数据采集手段的发展,将使得国土空间规划数据来源更加的广泛和多样化。
42.autocad数据主要是描述地理实体的空间位置和几何形状,以点、线、符号块的方式表达,带有图层、颜色、线型等地图信息,包括ole(对象连接与嵌入)、图片、表格等特殊格式数据,需要按照给定的图框分离数据,形成一幅一幅的autocad成果数据,且输出文件以图框左上角文字为文件名进行输出,保证分离的唯一性。
43.目前国土空间规划技术底图的编制主要采用autocad中dwg格式数据,一般按照1:1000进行绘制,具有较高的精度,而gis一般按照1:10000进行绘制,为统一技术底图,本发明通过etl中的空间数据转换处理系统调用autolisp代码方法完成cad数据处理与转换操
作,再利用扩展字典方式存贮属性数据,属性录入的载体按点状要素属性、线状要素属性和面状要素属性进行来分离,将数据按照需要分离的数据量复制多个,在复制数据上进行转换操作,再自动保存,保障转换后数据的统一,保证数据的100%正确。
44.步骤s1及s2的主要流程示意图参阅图3,主要涉及数据处理的流程示意,包括数据预处理、数据处理数据转换与数据检查,其具体步骤s1、s2分别包括:步骤s1:s11、清洗处理,对获取的大量空间规划数据用etl技术进行清洗处理;s12、提取代码,根据资源信息的特点,设计分词算法,提取国土资源信息元素关键词及相应代码;s13、初步融合,采用基于加权的多属性相似度实现多源数据融合与更新,在初步融合集(如poi直接的距离)的基础上,利用poi数据都有高度相似的非空间数据特征属性,采用字符串相似的算法(如levenshteindistance算法、jarodistance算法等),通过使用低阈值的名称特征属性相似度方法排除由相应国土资源信息找出的错误对应对象,最后再使用高阈值的名称特征属性相似度方法找出国土资源信息未能找出的对应对象,再进行poi更新;s14、网络数据抓取、融合与更新。步骤s2:s21、寻找数据图框;s22、按照图框数据量复制相同数据量的cad文件;s23、利用autolisp代码确定转换数据范围;s24、生成scr文件,执行对应操作。
45.本发明的步骤s11的清洗处理是对获取的大量的国土空间规划数据用etl技术进行清洗处理,etl是一个数据仓库工具,主要包括去除重复、信息缺失数据,坐标转换等工作,s11清洗处理包括如下步骤:s111、统一数据格式,将收集到的相关数据进行格式转换以便后续对其进行操作,部分表格、文本数据需对其进行相关矢量化或空间差值处理;s112、统一坐标和精度,一方面采用2000国家大地坐标系(cgcs2000),“高斯

克吕格”投影,陆域部分采用1985国家高程基准,海域部分采用理论深度基准面高程基准,另一方面,根据区域大小和可获取数据的精度,确定栅格单元,保证同一栅格中数据精度的一致性,包括地形因子、降水因子、土壤属性因子的栅格大小相同;s113、添加属性结构,主要用于进行数据标准化输入和输出,基于gis构建集成模型,通过构建多元要素体系、指标体系,建立流程框架,规范组织和管理各渠道收集而来的数据,支持图表、文档和空间矢量、栅格数据的动态加载与展现,成果数据制定和内嵌命名规则,从而保存结果进完成相应的标准化工作;s114、优化数据质量,其一,通过采样和掩膜保证各栅格图层具有相同栅格单元大小和行列数,并完成对数据进行裁剪保证数据空间范围一致性,其二,规范数据库表格和字段的设计,字典表必须含有主键,一般以“dictionary结尾”,确保并字段名和类型的一致性,字段名整型可以用含有“num”表示,避免可为空的列,分别完成对特殊字符进行删除处理、形成标准数据属性结构、优化数据质量和统一属性字段名称等工作。数据标签包括id、名称、类型、地址、经纬度坐标、电话、所属城市和所属行政区等内容。
46.结合参阅附图4,步骤s12为提取代码,将待融合的poi库地址字段按照国土资源信息模型中的国土资源要素进行拆分,通过比较拆分之后的关键国土资源要素确认poi数据之间的相关性,并以此作为poi数据融合的依据,s12包括如下步骤:s121、数据预处理;s122、其他源pol去重;s123、莱文斯丁算法分析其他源与母库pol;s124、文本字符串相似度赋值与距离属性赋值;s125、判断其他源pol是否需要融合;s126、对oracle母库进行更新,元数据生成。结合参阅附图5,在步骤s12流程运行过程中,建立索引字段,能够提高更新效率,故对key_id字段建立索引,同时增加对数据库是否已存在同名表进行判断。
47.本发明步骤s13的初步融合中,进行poi更新包括如下步骤:s131、数据分析与整
理;s132、进行去重处理;s133、赋予权重;s134、建立pol编码;s135、形成新的母库。
48.s131、数据分析与整理,本发明采用同名地物的判别进行数据分析和整理,即同名poi点的识别,包括第三方数据相似度、互联网数据相似度、网络poi数据相似度3个指标进行同名poi点的判别,利用etl技术对多源数据读写能力,和数据模型变换。读取不同来源的poi数据;构建数据处理流程。如非空间数据空间化,数据字段结合整理,线、面、注记的几何要素点状化,图属挂接、属性处理等数据处理流程。所见即所得,快速完成数据分析和整理工作。
49.s132、进行去重处理,采用基于空间与属性信息融合方法,与poi母库中信息进行比对。根据比对结果,使用数据模型对poi母库进行增、删、改操作。
50.s133、赋予权重,在本发明的判别过程中,分别赋予0.6、0.2、0.2的权重。对于两个poi对象,如果总体相似度大于阈值(本文设定为0.9),则认为是同名poi点,进行过滤,不更新,否则认定为新的poi点。
51.s134、建立pol编码,按照统一编码规则对poi进行重新编码建立数据模型。
52.s135、形成新的母库,根据数据库中poi编码最大序号继续编号,分别生成更新日期、图层信息、扩展属性三张元数据表,将以上成果数据进行数据清洗,写入到数据库中,形成poi母库。具体流程如图6所示。
53.本发明充分利用gis软件的各种功能,使用python脚本形成gis软件插件,该插件根据指标变化、区域变化和其他因素变化对计算模型中的参数、处理流程等进行修改,快速实现权重赋值和阀值设置,在追踪过程中,除通过传统的“栅格计算”方式记录更新结果外,还引入“矢量计算”方式,通过该方式不仅可以实现结果的高精度计算,还将记录各要素对更新结果的影响大小,并保存在最终文件中,这样不仅能得到每个结果单元网络的综合权重赋值,还可以获得影响阀值设置的关键要素是哪些,从而实现更新全过程的追踪。
54.最后,进行步骤s14、网络数据抓取、融合与更新。
55.对多源数据进行初步融合处理后,对数据质量进行检查,抓取各级政府公开数据、高德、百度等互联网开放数据,转换为标准的poi数据结构,与poi母库进行比对、融合。研究互联网数据的坐标系与wgs84、本地坐标系的转换方法,保证抓取poi数据和母库数据空间坐标上统一,并进行分区配色方案,以增强结果的信息传递和可读性,对通过的数据进行数据库入库,根据数据类型进行数据管理,建立基础数据库数据资源目录。
56.由于国土资源具有海量性和异构成的特点,因此本发明采用“一键化”应用工具进行处理,它利用了arcgis软件的模型构建器,将不同格式、来源、性质和特点的空间数据与属性数据进行逻辑上有机集成,实现以上数据全部或者部分转换、调整、分解、合并等操作,使其形成充分兼容的无缝空间数据集,然后对各类进行批处理,根据每项数据涉及指标(如高程、坡度、地形起伏、降水量、地震动峰值加速度等)组合以及阀值选取的不同,通过构建模块将指标链接起来进行组合计算,实现一键化工作流,从而实现对多种数据快速、精准和无缝的整合,最终建立gis数据库。
57.前文已经介绍,步骤s2、autocad数据处理与转换包括s21、寻找数据图框;s22、按照图框数据量复制相同数据量的cad文件;s23、利用autolisp代码确定转换数据范围;s24、生成scr文件,执行对应操作。参阅附图7,首先,寻找数据图框,找到数据图框,如果数据标准,那么图框放在统一标准的cad图层中,如果数据不标准,可以按照空间关系判定找出图
框。其次,按照图框数据量复制相同数据量的cad文件,并按照输出名称命名,根据数据图框的查找成果可知,提取出来的图框数据量实际上就是需要分离的cad数据量n,那么我们需要用源数据进行置换操作,首先就需要将原始数据复制n份,按照不同的图框对不同的数据进行转换,然后用etl技术的读模块和写模块读写数据集的名称、要素类、要素数量,最后将要素类列表根据需要传递到另一个etl模块中进行处理,转换操作过程保证了读写出数据的可靠性,文件名为最终的成果cad文件名称,文件内容与源数据内容一致。再次,利用autolisp代码确定转换数据范围。autolisp语言是开发autocad的重要工具,是lisp语言和autocad有机结合的产物,在autocad的程序开发过程中起到了巨大的作用,在本发明使用autolisp语言设计了两个自定义函数实现重复数据转换,一是最小外框函数,该函数通过实体外围框九点坐标表进行进行重复比对工作,提高大型图形程序处理速度;二是顶点座标表函数,该函数通过顶点坐标联合列表的读取,传递不同的参数,确定处理与转换数据的范围。最后,生成scr文件,执行相应操作。scr文件(在autocad中,scr文件又称为脚本文件,是一种ascⅱ码文本文件,它允许不同的autocad命令组合起来,并按照预先确定的顺序执行)。
58.步骤s2的主要流程如下图7,在本发明中,scr文件记录gis在autocad环境插入图形块的坐标值与方向,处理座标数据存放在在excel中,而不是在autocad中,利用excel强大的函数处理和计算功能实现gis点、线和面的数据向二维图像转换,生成待转换地块的坐标值,然后逐层分析gis文件内的模型结构,索引信息数据库坐标信息,转换为与autocad所兼容的scr脚本命令文件,最后导入到autocad中完成地块的转换工作,这种方法减轻了生成scr脚本命令文件的复杂程度,从而使得整个地块转换过程得到简化。
59.scr文件自动对每一个cad数据进行不同范围的处理实体图元,删除重复实体,使图形中实体具有唯一性和合理性,为基础地形数据库奠定坚实的基础。
60.s3、地名地址匹配挂接,在gis数据清洗及autocad数据转换的工作后,需要对国土空间规划的地名地址进行匹配挂接工作,地名地址匹配定位是将文字性的描述地址与其空间的地理位置坐标建立起对应关系的过程,它利用地址解析功能将文本类的地址数据空间化,是国土空间规划的重要过程。
61.本发明利用地理编码与poi点状地物存在空间约束关系进行地名地址匹配挂接,在充分考虑其与参考地物(包括街道数据、小区数据和建筑面数据)的逻辑关系基础上,对百度、高德以及腾讯地图的地址解析结果进行比对和验证,选择出相对精准的空间落点,从而提升地址解析功能的准确性。
62.步骤s3具体包括:s31、进行空间关系计算;s32、建立空间约束模型;s33、完成匹配验证。
63.结合参阅附图8步骤s3的主要流程示意图,首先,进行空间关系计算,gis中地理对象间的空间关系分析在空间数据建模、空间查询与分析,形式化表达与推理等过程中起着重要作用,本发明以经纬度网格划分技术为基础,利用自适应四叉树进行空间编码计算空间数据的网格拓扑、方向及距离关系建立空间数据与对应编码间的关联,后续利用编码内在关联关系,通过参考地物实体库进行poi数据、地名地址点poi与参考地物之间的面向空间关联的空间关系计算方法进行相关空间关系计算,判断出与参考地物逻辑关系一致的poi点和地名地址点,再按照相对最近原则进行挂接。
64.其次,建立空间约束模型,本发明以地址要素之间的空间关系为切入点,提出了顾及空间关系的空间约束地址模型,模型采用结构化和非结构化相结合的方式进行存储,通过结构化的层次结构存储基于空间约束模型表达的中文地址及其空间坐标,通过非结构化的地址要素实体属性表达地址要素类型及地址要素间空间约束关系,两种地址模型通过地址的唯一编码进行关联。
65.为提高关联效率及准确性,可以利用百度地图、高德地图、腾讯地图三家地图服务提供商提供的webserviceapi(网络服务应用程序接口)进行配置,它是https/http协议的数据接口,开发者可以使用任何客户端、服务器和开发语言,按照webservice api规范,按需构建https请求,并获取包括城市编码、地址所在的区、街道、门牌、区域编码、坐标点和匹配级别等结果数据,并根据各地图服务api的返回信息和“按空间信息准确性”的选择原则建立参考实体库,甄别有助于检验、计算、提高地址解析空间落点结果准确性。
66.最后,完成匹配验证,如果发现地名地址数据所挂接的匹配数据与原始地址有较大出入,可以采用基于“距离比对+置信度”进行交叉验证,即“距离比对”利用百度、高德和腾讯三个地理编码接口返回的空间落点,分别计算三个落点间的距离,选取距离较近的点对作为候选空间落点将明显偏离的数据剔除掉,从而提升地址解析结果的准确性;“置信度”以地址数据库为基础,是筛选数据的依据,依托规范化地址编码,利用分词算法和置信度筛选的方法匹配数据,对经距离比对后得到的候选空间数据的置信度得分进行比较,选取置信度得分较高的结果作为最终有效的空间数据进行匹配挂接,实现了地址的自动匹配定位,提高了匹配的正确性。
67.为提高地名地址匹配的准确性与智能性,本发明运用了运用中文自然语言处理技术,它是人工智能中深度学习功能,能够合理的推断用户输入意图,记录用户行为习惯和个人认知,不断地加入分词库,让分词库不断完善和专业化;同时将用户从匹配候选结果中选择的结果与搜索关键词进行关联,建立样本和标签的对应关系,生成深度学习样本数据,不断进行训练和学习,当下次进行相同关键词进行地名地址检索时,深度学习优先选择与之关联的地名地址作为结果词条。通过深度学习的地名地址匹配方法能预先自我纠错,提高匹配精度和效率。
68.在步骤s3地名地址匹配挂接之后,还需要进行基于加权的多属性相似度的pol融合。
69.s4、批处理,批处理指针对以上相关功能提供的批量执行完成地址解析、坐标解析和坐标转换等任务,涵盖编辑录入、数据比对、融合处理、导入参数、地址匹配等内容。步骤s4具体包括:s41、制作数据处理模板,主要将poi处理流程中的各阶段数据处理分步制作成系统模板。具体包括以下模板:数据清洗模块、poi母库建立模块、poi融合模块、poi与地址挂接模块、poi维护更新模块。
70.s42、将制作好的模块通过etl工具的可视工作流编辑器发布到数据集成平台上,形成数据处理服务。在这过程中,etl系统根据匹配算法从地址库中选择置信度最高的地址数据作为自动匹配结,并读取其地理坐标信息进行定位。当置信度最高数值小于0.95时,同时提供置信度值前三的地址数据以供选择,对于需要获取地理坐标的大量地址数据,通过批量处理的方法逐个进行匹配写入地理坐标并记录其匹配置信度值。批量匹配完成后,再对置信度底的数据进行检核,并将错误数据归化至正确坐标值。
71.s43、模板更新维护,通过etl工具的可视工作流编辑器从数据集成平台中下载工作空间进行维护,进行需要的升级,并重新发布到数据集成平台。
72.地址更新维护在地址匹配过程中置信度不高时进行,其方法有:对于新增空间数据,标记其是否为标准地址并追加入地址库;对于变更空间数据,则分为标准地址和普通地址,前者将地址库中对应的标准地址标记为普通地址,追加该标准地址,后者是直接追加入地址库;对于删除空间数据,将地址库中该数据标记为普通空间数据。
73.本发明的基于多源异构空间规划数据的融合方法,采用一种针对数据源的处理方法,能够高效、快速的读取、并处理不同来源的国土空间规划数据;另一方面,采用基于动态时间规整的数据去重方法,该方法通过计算数据之间的相似性,从而消除数据冗余、达到数据去重的目的。
74.有时为了最大限度的提高数据处理的能力、提高效率,本发明研发调用外部的一些工具和方法,完善我们的数据处理流程,将不同源国土空间数据归并融合使其信息量更为丰富完整,实现国土空间信息的复用与更新。
75.cad数据是国土空间规划重要组成部分,但由于autocad中的需要转换数据中可能存在ole(objectlinkingandembedding,对象连接与嵌入,简称ole技术)等特殊格式cad数据,这种特殊数据在数据读取的过程中可能就已经造成丢失,造成转换前后数据成果与原始不一致。本发明利用空间数据转换处理系统调用autolisp代码的方法完成cad数据的转换操作,将数据按照需要转换的数据量复制多个,在复制的数据上进行转换操作,再自动保存转换后的数据,删除多余数据,保证数据的100%正确。
76.本发明方法在基于中文分词的地名地址匹配技术框架下,综合利用精细化地名地址库构建、地名地址特征分词库构建和基于用户搜索行为大数据分析3种关键技术提高地址匹配度和匹配精度。
77.本发明通过智能数据处理与分析工具科学认识国土空间格局分异的自然规律和社会经济规律,使国土空间功能区域进行高效划分,有利于国土空间规划的关键基础性工作。
78.尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1