本发明涉及地址文本解析技术领域,具体为一种基于地点poi的大数据解析地址文本的方法。
背景技术:
对于某些用户量庞大的邮政、物流公司或者电商企业等,存在大量的用户包裹地址,往往需要根据这些地址文本,统计和分析用户的分布情况。其中的难点就是如何精确定位这些地址文本。由于这些地址可能来自于第三方电商平台或由于用户输入错误,导致文本数据难以解析,这些地址文本的特点是:没有固定的格式,包含了随机的错字,地点的别名,甚至是不存在的地点。对这些地址直接使用第三方地图公司接口解析定位,会造成大量的偏差,无法达到统计分析的目的,使用其他常规的方法均难以准确分析处理。鉴于此,我们提出一种基于地点poi的大数据解析地址文本的方法。
技术实现要素:
本发明的目的在于提供一种基于地点poi的大数据解析地址文本的方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于地点poi的大数据解析地址文本的方法,包括如下步骤:
s1、城市poi基础数据处理;
s2、匹配地址文本解析;
s3、数据分析及可视化展示。
作为本发明优选的技术方案,s1中城市poi基础数据处理具体包括如下步骤:
s11:poi数据爬取;
s12:poi名称优化;
s13:poi别名自动处理;
s14:poi人工调优。
作为本发明优选的技术方案,s11中poi数据爬取的具体操作为:
a.对百度,高德地图,以多次、不同范围的矩形扫描方式爬取地点poi,同时可继续探索其他数据获取方式,包括其他网站,政府统计数据;
b.将爬取的poi数据分类存储到数据库。
作为本发明优选的技术方案,s12中poi名称优化的具体操作为:
a.去除明显无效及重复的数据;
b.poi名有包含关系,判断距离,如小于200米则合并且处理;
c.名称含“安徽省”、“合肥市”的,优化为“省”及“市”;针对地产类:如有且只有含有“一期”、“一栋”、“a座”,则去除“一期”、“一栋”、“a座”;
d.针对地产类写字楼:自动合并“a座”、“a栋”并重命名,去掉“b座”、“c座”等。
作为本发明优选的技术方案,s13中poi别名自动处理的具体操作为:
1)针对地产类:
a.智能提取“-”及“·”中的前缀,如“万科-金色名郡”,提取“万科”并保存到tag_poi;
b.遇到类似“万科-金色名郡”、“万科金色名郡”,智能添加备注“金色名郡”;
2)针对政府单位类:
a.xx村村民员会,可简称为xx村委;
b.xx镇委员会,可简称为xx镇委、xx市委;
c.xx镇纪律检查委员会,可简称为xx镇纪委、xx市纪委;
d.xx镇人民政府,可简称为xx镇政府、xx市政府。
作为本发明优选的技术方案,s14中poi管理界面的具体操作为:web端给管理员,用于人工补充poi、修正poi别名和备注。
作为本发明优选的技术方案,s2中匹配地址文本解析具体包括如下步骤:
s21:处理流程;
s22:地址最终定位处理。
作为本发明优选的技术方案,s21中处理流程的具体操作为:
1)数据预处理,抛弃明显错误的地址,如空白、只有省市区道路名的地址等分类单独存储;
2)路口、交叉口、路号全称匹配,以实际路口、交叉口、道路名+路号基础数据,统一格式化处理,匹配地址对应的道路信息;
3)道路尾部路号补齐,处理包含如“长江西路339”的地址,补齐为“长江西路339号”;
4)道路拼音匹配,地址中文拼音匹配道路名+路号;
5)道路智能匹配,地址模糊匹配道路名+路号、或路口,ai文本相似度匹配,处理错字,多字,少字的模糊匹配;
6)poi全称别名匹配,其中房产类型优先匹配,poi名称长度优先匹配,特殊符号别名自动处理,获取地址对应的poi;
7)poi全称、别名拼音匹配,住宅区、学校类型poi,参与拼音匹配;
8)poi智能匹配,ai文本相似度匹配,模糊匹配,参与智能匹配的poi类型为住宅区、高校、综合医院。
作为本发明优选的技术方案,s22中地址最终定位处理的具体操作为:
1)poi全称匹配地址处理:
地址当前匹配的poi,是否与匹配的道路信息对应,如果正确对应,则以poi定位,若不对应,以全称/补齐匹配的街道信息为准,其中住宅区类型以poi名称定位,无道路信息,以poi定位;
2)poi别名匹配地址处理:
存在全称匹配道路信息,以道路信息定位,否则,当存在多个别名匹配到的poi,以长度最大的定位,无道路信息,以poi定位;
3)poi模糊匹配地址处理:
存在道路全称匹配以道路信息定位,不存在道路信息,多个poi名称最长定位,道路模糊和poi模糊匹配名称最长定位;
4)poi未匹配地址处理:
道路全称匹配定位,道路模糊匹配定位,最终剩余未处理;
5)poi重名处理:
地址匹配到的poi,存在多个重名时,需要根据区域道路信息确定,若无法区分,则丢弃,地址与poi所属区域不同,丢弃。
与现有技术相比,本发明的有益效果是:
本发明通过城市poi基础数据处理加匹配地址文本解析的方法,可实现对用户包裹地址的统计和分析,并可以精确定位地址文本,实现对用户包裹地址的精确分析统计,为邮政、物流公司或者电商企业等提供了有效的用户分布数据及画像,进而可为快递揽投部选址及人员配备提供决策依据。
附图说明
图1为本发明的流程图。
具体实施方式
下面将结合本发明实施例对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供如下技术方案:
一种基于地点poi的大数据解析地址文本的方法,包括如下步骤:
s1、城市poi基础数据处理;
s2、匹配地址文本解析;
s3、数据分析及可视化展示。
作为本实施例优选的技术方案,s1中城市poi基础数据处理具体包括如下步骤:
s11:poi数据爬取;
s12:poi名称优化;
s13:poi别名自动处理;
s14:poi人工调优。
作为本实施例优选的技术方案,s11中poi数据爬取的具体操作为:
a.对百度,高德地图,以多次、不同范围的矩形扫描方式爬取地点poi,同时可继续探索其他数据获取方式,包括其他网站,政府统计数据;
b.将爬取的poi数据分类存储到数据库。
作为本实施例优选的技术方案,s12中poi名称优化的具体操作为:
a.去除明显无效及重复的数据;
b.poi名有包含关系,判断距离,如小于200米则合并且处理;
c.名称含“安徽省”、“合肥市”的,优化为“省”及“市”;针对地产类:如有且只有含有“一期”、“一栋”、“a座”,则去除“一期”、“一栋”、“a座”;
d.针对地产类写字楼:自动合并“a座”、“a栋”并重命名,去掉“b座”、“c座”等。
作为本实施例优选的技术方案,s13中poi别名自动处理的具体操作为:
1)针对地产类:
a.智能提取“-”及“·”中的前缀,如“万科-金色名郡”,提取“万科”并保存到tag_poi;
b.遇到类似“万科-金色名郡”、“万科金色名郡”,智能添加备注“金色名郡”;
2)针对政府单位类:
a.xx村村民员会,可简称为xx村委;
b.xx镇委员会,可简称为xx镇委、xx市委;
c.xx镇纪律检查委员会,可简称为xx镇纪委、xx市纪委;
d.xx镇人民政府,可简称为xx镇政府、xx市政府。
作为本实施例优选的技术方案,s14中poi管理界面的具体操作为:web端给管理员,用于人工补充poi、修正poi别名和备注。
作为本实施例优选的技术方案,s2中匹配地址文本解析具体包括如下步骤:
s21:处理流程;
s22:地址最终定位处理。
作为本实施例优选的技术方案,s21中处理流程的具体操作为:
1)数据预处理,抛弃明显错误的地址,如空白、只有省市区道路名的地址等分类单独存储;
2)路口、交叉口、路号全称匹配,以实际路口、交叉口、道路名+路号基础数据,统一格式化处理,匹配地址对应的道路信息;
3)道路尾部路号补齐,处理包含如“长江西路339”的地址,补齐为“长江西路339号”;
4)道路拼音匹配,地址中文拼音匹配道路名+路号;
5)道路智能匹配,地址模糊匹配道路名+路号、或路口,ai文本相似度匹配,处理错字,多字,少字的模糊匹配;
6)poi全称别名匹配,其中房产类型优先匹配,poi名称长度优先匹配,特殊符号别名自动处理,获取地址对应的poi;
7)poi全称、别名拼音匹配,住宅区、学校类型poi,参与拼音匹配;
8)poi智能匹配,ai文本相似度匹配,模糊匹配,参与智能匹配的poi类型为住宅区、高校、综合医院。
作为本实施例优选的技术方案,s22中地址最终定位处理的具体操作为:
1)poi全称匹配地址处理:
地址当前匹配的poi,是否与匹配的道路信息对应,如果正确对应,则以poi定位,若不对应,以全称/补齐匹配的街道信息为准,其中住宅区类型以poi名称定位,无道路信息,以poi定位;
2)poi别名匹配地址处理:
存在全称匹配道路信息,以道路信息定位,否则,当存在多个别名匹配到的poi,以长度最大的定位,无道路信息,以poi定位;
3)poi模糊匹配地址处理:
存在道路全称匹配以道路信息定位,不存在道路信息,多个poi名称最长定位,道路模糊和poi模糊匹配名称最长定位;
4)poi未匹配地址处理:
道路全称匹配定位,道路模糊匹配定位,最终剩余未处理;
5)poi重名处理:
地址匹配到的poi,存在多个重名时,需要根据区域道路信息确定,若无法区分,则丢弃,地址与poi所属区域不同,丢弃。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。