本发明涉及大数据分析领域,具体为基于大数据分析的交通线路到站归属地自动判定方法。
背景技术:
1、在交通线路中,特别是大巴车的到站名,是由车站运营方人员人工自行录入。手动录入的名称有可能是某个市名,也可能是具体的某个街道、镇、县、村或者地名等。由于地名存在极大程度的重名性,特别在四级乡级行政区内尤为常见。录入的到站名格式不一,有可能出现括号进行详细地名描述,也可能是需进行中途需要换乘的路线。为此,在大数据分析过程中,无法直接根据到站名进行人员迁徙分析。急需通过一个方法,对到站名进行统一格式化,并自动判定交通线路到站名的省市归属地。
技术实现思路
1、鉴于以上所述现有技术的缺点,本发明提供一种基于大数据分析的交通线路到站归属地自动判定方法,以解决上述技术问题。
2、本发明提供的基于大数据分析的交通线路到站归属地自动判定方法,所述方法包括以下步骤:
3、s1:获取交通线路的到站名,并对所述到站名进行文本特殊分割处理,获取到站名分割后的地名列表;
4、s2:根据所述地名列表与全国行政区划代码数据库进行全字匹配和多字最左匹配,得到匹配后的行政区划代码前四位市级列表及其对应的市级行政区划名称列表、行政区划代码前六位区县级列表及其对应的区县级行政区划名称列表;
5、s3:获取出行大数据内乘坐所述交通线路所有人员的地址码前四位和前六位,并进行按地址码前四位和前六位进行分组计数,得到前四位列表及前四位人数列表、前六位列表及前六位人数列表;
6、s4:若所述行政区划代码前六位区县级列表不为空,将所述行政区划代码前六位区县级列表与前六位列表进行匹配判断,得到所述到站名的归属地;
7、s5:若所述行政区划代码前六位区县级列表为空,将所述地名列表进行地名特殊过滤,得到过滤地名列表;
8、s6:若过滤地名列表不为空,根据前四位列表和地图地名搜索进行条件判断,得到所述到站名的归属地,若所述过滤地名列表为空,输出所述到站名的归属地判定结果为失败。
9、于本发明中,所述获取交通线路的到站名,并对所述到站名进行文本特殊分割处理,具体包括:
10、s11:根据所述到站名进行小括号、中括号匹配,若成功匹配,则将括号内外的文字都作为单独地名,并添加到所述地名列表内;若匹配不到,将所述到站名添加到所述地名列表内;
11、s12:根据所述地名列表内的所述到站名,进行预设的关键词匹配,若成功匹配,则取出所述到站名,并将关键词前后的文字作为单独地名添加回所述地名列表内。
12、于本发明中,多字最左匹配的具体逻辑为:
13、所述到站名的字符数大于或等于二,将匹配到的地名与所述到站名左侧对齐,且从左至右的字符依次相等。
14、于本发明中,所述地址码根据全国行政区划代码数据库生成,所述地址码的前六位为对应居住地的行政区划编码,其中,所述地址码第一、二位是居住地所在省、自治区或直辖市的编码;所述地址码第三、四位是居住地所在市的编码;所述地址码第五、六位是居住地所在区或县的编码。
15、于本发明中,所述将所述行政区划代码前六位区县级列表与前六位列表进行匹配判断,具体包括:
16、s41:获取所述前六位列表与所述行政区划代码前六位区县级列表中元素值相等的所有元素,记为第一元素值,根据所述第一元素值,获取在前六位人数列表对应的值,记为第一元素数量,根据所述第一元素值和所述第一元素数量组成前六位新列表;
17、s42:若所述前六位新列表为空,将所述前四位列表与所述行政区划代码前四位市级列表进行匹配判断;
18、s43:若所述前六位新列表不为空,获取所述前六位新列表内中第一元素数量最多的第一元素值,并将所述第一元素值对应的行政区划名设置为所述到站名的归属地。
19、于本发明中,所述将所述前四位列表与所述行政区划代码前四位市级列表进行匹配判断,具体包括:
20、s421:获取所述前四位列表与所述行政区划代码前四位市级列表中元素值相等的所有元素,记为第二元素值,根据所述第二元素值,获取在前四位人数列表对应的值,记为第二元素数量,根据所述第二元素值和所述第二元素数量组成前四位新列表;
21、s422:若所述前四位新列表为空,输出所述到站名的归属地判定结果为失败;
22、s423:若所述前四位新列表不为空,获取所述前四位新列表中第二元素数量最多的第二元素值,并将所述第二元素值对应的行政区划名设置为所述到站名的归属地。
23、于本发明中,所述将所述地名列表进行地名特殊过滤,具体包括:对所述地名列表内的每个地名进行现代汉语常用词数据库全字匹配,若存在某个地名,其整个地名为常用词,则进行过滤去除。
24、于本发明中,所述根据前四位列表和地图地名搜索进行条件判断,具体包括:
25、s61:分别对所述前四位列表内每个编号对应的市级行政区划,根据地图地名搜索,在市级行政区划内进行地名全字段匹配搜索,搜索的关键字内容为地名列表内的所有地名,并对列表内每个编号的所有地名搜索结果进行汇总计数;
26、s62:获取所述前四位列表在地图地名搜索进行地名全字段匹配搜索后得到的汇总计数中计数最多对应的编号,将所述编号对应的行政区划名作为该到站名的归属地。
27、本发明提供基于大数据分析的交通线路到站归属地自动判定方法,所述方法通过获取交通线路的到站名,并对所述到站名进行文本特殊分割处理,获取到站名分割后的地名列表;根据所述地名列表与全国行政区划代码数据库进行全字匹配和多字最左匹配,得到匹配后的行政区划代码前四位市级列表及其对应的市级行政区划名称列表、行政区划代码前六位区县级列表及其对应的区县级行政区划名称列表;获取出行大数据内乘坐所述交通线路所有人员的地址码前四位和前六位,并进行按地址码前四位和前六位进行分组计数,得到前四位列表及前四位人数列表、前六位列表及前六位人数列表;若所述行政区划代码前六位区县级列表不为空,将所述行政区划代码前六位区县级列表与前六位列表进行匹配判断,得到所述到站名的归属地;若所述行政区划代码前六位区县级列表为空,将所述地名列表进行地名特殊过滤,得到过滤地名列表;若过滤地名列表不为空,根据前四位列表和地图地名搜索进行条件判断,得到所述到站名的归属地,若所述过滤地名列表为空,输出所述到站名的归属地判定结果为失败,产生的有益效果包括:
28、1、由于采用大数据分析乘车人员所属的行政区划编码并结合地名的特殊处理和搜索,可以自动判定出交通路线到站名的归属地;
29、2、由于采用全国行政区划代码数据库,可先根据文本特殊分割处理后的到站名进行市级或区县级归属地的离线匹配,无需经过网络请求进行在线匹配,提高匹配速度;
30、3、由于采用现代汉语常用词数据库,在地图地名搜索进行地名搜索前,可过滤掉一些太过常用的地名,可减少地图地名搜索接口调用次数,减少接口费用,并提高地名判定准确率;
31、4、由于采用地图地名搜索,可进一步进行地名搜索,可搜索到四级乡级行政区,如街道、镇、乡、民族乡、苏木、民族苏木、县辖区等,进一步判定出区县级以下乡级的到站名对应归属地。
32、上述说明仅是本技术技术方案的概述,为了能够更清楚了解本技术的技术手段,而可依照说明书的内容予以实施,并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本技术的具体实施方式。