地址规范化处理方法、装置、设备及存储介质与流程

文档序号:21848362发布日期:2020-08-14 17:17阅读:217来源:国知局
地址规范化处理方法、装置、设备及存储介质与流程

本发明涉及大数据技术领域,尤其涉及一种地址规范化处理方法、装置、设备及存储介质。



背景技术:

服务行业通常需要服务大量客户,而服务方的服务效率与质量将直接关系服务型企业的发展。比如向客户安排专属客服对接,或者全程提供各种售后服务等,以此来提升客户粘性与满意度。现有的客户服务通常都是由机器基于客户住址或工作地信息自动分配专属客服或自动发起各种售后服务。

然而现实中,通常都会有些客户提供较规范的地址信息,而有些客户提供的地址信息则不会很规范,因而需要对客户提供的原始地址进行进行规范化处理,比如将简写或省略的地址补全、将错误的地址改正或者将建筑物、小区名称等地址改为基于道路编码的常规地址。这都需要预先设置各种地址规范化转换规则,同时还需要预先存储海量的文字地址信息以便于进行地址转换,因而现有实现方式需要占用大量的磁盘存储空间,间接增加了服务方的硬件成本开支。



技术实现要素:

本发明的主要目的在于提供一种地址规范化处理方法、装置、设备及存储介质,旨在解决现有地址规范化处理时需要使用海量文字地址信息而占用磁盘存储空间的技术问题。

为实现上述目的,本发明提供一种地址规范化处理方法,所述地址规范化处理方法包括以下步骤:

获取待录入的文本格式客户地址;

通过预置中文分词器对所述客户地址进行分词操作,得到组成所述客户地址的多个分词地址;

依次以各分词地址中的单个字为查询关键字,查询预置文字编码库,得到查询结果,若所述查询结果非空,则输出所述各分词地址中所有单个字分别对应的单字编码;

参照所述各分词地址,将各单个字对应的单字编码拼接为分词地址编码;

依次以各分词地址编码为检索关键字,检索预置标准地址库,得到检索结果,若所述检索结果非空,则输出与所述分词地址编码匹配的标准分词地址编码;

基于所述文字编码库,将与所述各分词地址编码匹配的标准分词地址编码转换为对应的文本格式地址,得到所述各分词地址对应的标准分词地址;

参照所述客户地址,将所述各标准分词地址拼接为规范的行政标准地址,并以所述行政标准地址替换所述客户地址。

可选地,在所述获取待录入的文本格式客户地址的步骤之前,还包括:

收集样本地址,其中,所述样本地址中包含有多个行政标准地址和所述行政标准地址对应的同义地址;

通过所述中文分词器对所述样本地址进行分词操作,得到组成所述样本地址的多个标准分词地址和多个同义分词地址;

参照所述文字编码库,依次对所述各标准分词地址和所述各同义分词地址中的单个字进行二进制编码,输出所述各标准分词地址和所述各同义分词地址中所有单个字分别对应的单字编码;

参照所述各标准分词地址,将所述各标准分词地址中各单个字对应的单字编码拼接为标准分词地址编码并存入所述标准地址库;以及参照所述各同义分词地址,将所述各同义分词地址中各单个字对应的单字编码拼接为标准同义地址编码并与对应的标准分词地址编码关联存入所述标准地址库。

可选地,所述依次以各分词地址编码为检索关键字,检索预置标准地址库,得到检索结果包括:

依次以各分词地址编码为检索关键字,将所述检索关键字分别与所述标准地址库中的各标准分词地址编码进行比对,得到检索结果;

所述若所述检索结果非空,则输出与所述分词地址编码匹配的标准分词地址编码包括:

若所述检索结果为所述标准地址库中存在与所述检索关键字完全比对一致的标准分词地址编码,则输出所述标准分词地址编码;

若所述检索结果为所述标准地址库中存在与所述检索关键字部分比对一致的标准分词地址编码,则判断所述检索关键字是否满足预置的地址规范转换规则;

若满足所述地址规范转换规则,则输出所述标准分词地址编码。

可选地,所述地址规范转换规则包括以下任一种:

a、若所述标准分词地址编码包含有所述检索关键字,则判定所述检索关键字对应的分词地址为所述标准分词地址编码对应的标准分词地址的简写并确定满足所述地址规范转换规则;

b、若所述检索关键字对应的分词地址编码与所述标准分词地址编码关联,则判定所述分词地址为同义地址并确定满足所述地址规范转换规则。

可选地,所述地址规范化处理方法还包括:

在查询所述文字编码库时,若所述查询结果为空,则提交所述查询关键字,以供后台人工将所述查询关键字录入所述文字编码库;

在检索所述标准地址库时,若所述检索结果为空,则提交所述检索关键字,以供后台人工使用行政标准地址中的字替换所述检索关键字对应的所述客户地址中的字。

可选地,在所述通过预置中文分词器对所述客户地址进行分词操作,得到组成所述客户地址的多个分词地址的步骤之前,还包括:

通过预置正则表达式,判断所述客户地址中是否包含有地址别名信息,所述地址别名信息包括建筑物名称、住宅小区名称、产业园区名称或机构名称;

若是,则基于所述地址别名信息,查询预置地图数据库,获取所述地址别名信息对应行的详细地址信息,并将所述客户地址替换为所述详细地址信息。

可选地,在所述参照所述客户地址,将所述各标准分词地址拼接为规范的行政标准地址,并以所述行政标准地址替换所述客户地址的步骤之后,还包括:

获取所述客户地址对应的行政标准地址;

通过预置地图数据库,对所述行政标准地址进行地理定位,得到所述客户地址对应的经纬度坐标信息;

将所述经纬度坐标信息与所述行政标准地址关联。

进一步地,为实现上述目的,本发明还提供一种地址规范化处理装置,所述地址规范化处理装置包括:

获取模块,用于获取待录入的文本格式客户地址;

分词模块,用于通过预置中文分词器对所述客户地址进行分词操作,得到组成所述客户地址的多个分词地址;

查询模块,用于依次以各分词地址中的单个字为查询关键字,查询预置文字编码库,得到查询结果,若所述查询结果非空,则输出所述各分词地址中所有单个字分别对应的单字编码;

第一拼接模块,用于参照所述各分词地址,将各单个字对应的单字编码拼接为分词地址编码;

检索模块,用于依次以各分词地址编码为检索关键字,检索预置标准地址库,得到检索结果,若所述检索结果非空,则输出与所述分词地址编码匹配的标准分词地址编码;

转换模块,用于基于所述文字编码库,将与所述各分词地址编码匹配的标准分词地址编码转换为对应的文本格式地址,得到所述各分词地址对应的标准分词地址;

第二拼接模块,用于参照所述客户地址,将所述各标准分词地址拼接为规范的行政标准地址,并以所述行政标准地址替换所述客户地址。

可选地,所述地址规范化处理装置还包括:

收集模块,用于收集样本地址,其中,所述样本地址中包含有多个行政标准地址和所述行政标准地址对应的同义地址;

所述分词模块还用于:通过所述中文分词器对所述样本地址进行分词操作,得到组成所述样本地址的多个标准分词地址和多个同义分词地址;

编码模块,用于参照所述文字编码库,依次对所述各标准分词地址和所述各同义分词地址中的单个字进行二进制编码,输出所述各标准分词地址和所述各同义分词地址中所有单个字分别对应的单字编码;

第三拼接模块,用于参照所述各标准分词地址,将所述各标准分词地址中各单个字对应的单字编码拼接为标准分词地址编码并存入所述标准地址库;以及参照所述各同义分词地址,将所述各同义分词地址中各单个字对应的单字编码拼接为标准同义地址编码并与对应的标准分词地址编码关联存入所述标准地址库。

可选地,所述检索模块具体用于:

依次以各分词地址编码为检索关键字,将所述检索关键字分别与所述标准地址库中的各标准分词地址编码进行比对,得到检索结果;

若所述检索结果为所述标准地址库中存在与所述检索关键字完全比对一致的标准分词地址编码,则输出所述标准分词地址编码;

若所述检索结果为所述标准地址库中存在与所述检索关键字部分比对一致的标准分词地址编码,则判断所述检索关键字是否满足预置的地址规范转换规则;

若满足所述地址规范转换规则,则输出所述标准分词地址编码。

可选地,所述地址规范转换规则包括以下任一种:

a、若所述标准分词地址编码包含有所述检索关键字,则判定所述检索关键字对应的分词地址为所述标准分词地址编码对应的标准分词地址的简写并确定满足所述地址规范转换规则;

b、若所述检索关键字对应的分词地址编码与所述标准分词地址编码关联,则判定所述分词地址为同义地址并确定满足所述地址规范转换规则。

可选地,所述地址规范化处理装置还包括:

提交模块,用于在查询所述文字编码库时,若所述查询结果为空,则提交所述查询关键字,以供后台人工将所述查询关键字录入所述文字编码库;在检索所述标准地址库时,若所述检索结果为空,则提交所述检索关键字,以供后台人工使用行政标准地址中的字替换所述检索关键字对应的所述客户地址中的字。

可选地,所述地址规范化处理装置还包括:

正则判断模块,用于通过预置正则表达式,判断所述客户地址中是否包含有地址别名信息,所述地址别名信息包括建筑物名称、住宅小区名称、产业园区名称或机构名称;

替换模块,用于若所述客户地址中包含有地址别名信息,则基于所述地址别名信息,查询预置地图数据库,获取所述地址别名信息对应行的详细地址信息,并将所述客户地址替换为所述详细地址信息。

可选地,所述地址规范化处理装置还包括:

坐标关联模块,用于获取所述客户地址对应的行政标准地址;通过预置地图数据库,对所述行政标准地址进行地理定位,得到所述客户地址对应的经纬度坐标信息;将所述经纬度坐标信息与所述行政标准地址关联。

进一步地,为实现上述目的,本发明还提供一种地址规范化处理设备,所述地址规范化处理设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的地址规范化处理程序,所述地址规范化处理程序被所述处理器执行时实现如上述任一项所述的地址规范化处理方法的步骤。

进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有地址规范化处理程序,所述地址规范化处理程序被处理器执行时实现如上述任一项所述的地址规范化处理方法的步骤。

本发明预先建立了符合企业业务场景需求的标准地址库以及文字编码库,并利用文字编码规则先将客户地址中的文字转换为地址编码,然后将客户地址对应的地址编码与标准地址库中的标准地址编码进行匹配,若匹配成功,则利用文字解码规则将匹配到的标准地址编码转换成文本格式的地址,也即得到客户地址对应的标准地址,最后以标准地址替换客户地址并录入系统,从而实现对非规范的客户地址的规范化处理。本发明建立了符合公司业务场景的标准地址库,并利用汉字和文字编码之间的转换,实现海量文本地址词汇的存储,节约了存储空间,同时也提升了地址的规范性与精确性,进而方便客服对接客户,提升企业服务质量。

附图说明

图1为本申请实施例方案涉及的地址规范化处理设备运行环境的结构示意图;

图2为本发明地址规范化处理方法第一实施例的流程示意图;

图3为本发明地址规范化处理方法第二实施例的流程示意图;

图4为图2中步骤s150一实施例的细化流程示意图;

图5为本发明地址规范化处理方法第三实施例的流程示意图;

图6为本发明地址规范化处理方法第四实施例的流程示意图;

图7为本发明地址规范化处理装置一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

本发明提供一种地址规范化处理设备。

参照图1,图1为本申请实施例方案涉及的地址规范化处理设备运行环境的结构示意图。

如图1所示,该地址规范化处理设备包括:处理器1001,例如cpu,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解,图1中示出的地址规范化处理设备的硬件结构并不构成对地址规范化处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及计算机程序。其中,操作系统是管理和控制地址规范化处理设备和软件资源的程序,支持地址规范化处理程序以及其它软件和/或程序的运行。

在图1所示的地址规范化处理设备的硬件结构中,网络接口1004主要用于接入网络;用户接口1003主要用于侦测确认指令和编辑指令等。而处理器1001可以用于调用存储器1005中存储的地址规范化处理程序,并执行以下地址规范化处理方法的各实施例的操作。

基于上述地址规范化处理设备硬件结构,提出本申请地址规范化处理方法的各个实施例。

参照图2,图2为本发明地址规范化处理方法第一实施例的流程示意图。本实施例中,所述地址规范化处理方法包括以下步骤:

步骤s110,获取待录入的文本格式客户地址;

本实施例中,客户与企业建立某项服务关系时,通常需要提供自己的基本信息,包括客户的地址信息,该地址信息可以是家庭住址信息,也可以是办公地址信息。对于客户提供自身地址信息的方式不限,比如,通过app或网页录入,或者由企业客服手动录入系统中。

本实施例中,由于客户自身原因,导致某些客户提供的地址信息比较规范,而有些客户提供的地址信息则不是很规范。比如某些客户对地址信息不熟悉,进而可能提供错误的地址,或者某些客户习惯使用建筑物名称或者传统地名作为地址,进而导致地址信息不规范。

因此,为能准确定位客户地址,进而更好地开展客服工作,本实施例中需要对每一新增的待录入的客户地址进行规范化处理。

步骤s120,通过预置中文分词器对所述客户地址进行分词操作,得到组成所述客户地址的多个分词地址;

本实施例中,需要先使用中文分词器对文本格式的客户地址进行分词操作,从而得到组成该客户地址的所有分词地址。对于具体采用的中文分词器不限,比如smartcn、ikananlyzer等。通过中文分词器可以将一个中文句子划分为多个词或词组。

例如,将“广东省深圳市”输入中文分词器中进行分词,输出“广东省”、“深圳市”,也即客户地址“广东省深圳市”对应的分词地址为“广东省”和“深圳市”。

步骤s130,依次以各分词地址中的单个字为查询关键字,查询预置文字编码库,得到查询结果,若所述查询结果非空,则输出所述各分词地址中所有单个字分别对应的单字编码;

本实施例中,为便于存储海量地址,因此使用编码技术存储地址,优选采用二进制对汉字地址进行编码,并形成文字编码库,也即汉字与二进制之间的映射关系,相当于编码规则(编码字典)与解码规则(解码字典)。

虽然汉字数量高达几万,但常用的汉字约3500。因此可建立一定规则,将这些汉字对应上数字编号,然后再转换成二进制进行数据库保存,得到文字编码库。比如(李,编号2,二进制对应为10;王,编号3,二进制对应为11),第3500字的二进制为110110101100。这样就可以确定这3500常用汉字的二进制值范围是10~110110101100。

本实施例中,文字编码库既可以是由开发人员手动编码生成,也可以是根据预先设定的编码规则而由机器自动编码生成。例如,先选出常用的3500个常用汉字,然后,对这3500个字按顺序进行编号,比如第一字编号为1,第二字编号为2,第三个字编号为3,。。。。,第3500个字编号为3500,然后依次将各编号转换为二进制。比如第一个字对应的二进制编码为01,第二个字对应的二进制编码为10,第三个字对应的二进制编码为11,。。。。,第3500个字对应的二进制编码为110110101100。

需要进一步说明的是,基于本实施例的文字编码库可生成本发明的标准地址库,进而可存储海量编码格式的标准地址。

本实施例中,由于文字编码库中是采用的单个字编码,而分词地址既有可能是单个字,也有可能是多个字,因此,需要依次以分词地址中的单个字为查询关键字,查询文字编码库,如果文字编码库中存在与查询关键字匹配的文字编码则输出,从而获得分词地址中单个字对应的单字编码,否则提示检索结果为空并继续对下一分词地址为检索关键字进行检索。

例如,查找分词地址“深圳市”对应的单字编码,通过单个字查询文字编码库中各单个字对应的二进制编码,假设“深”对应的单字编码是000010,“圳”对应的单字编码是000011,“市”对应的单字编码是000110。

步骤s140,参照所述各分词地址,将各单个字对应的单字编码拼接为分词地址编码;

本实施例中,在获得各分词地址中每一单个字对应的单字编码后,进一步参照分词地址中各单个字的表述位置,将各单个字对应的单字编码拼接为一个完整的分词地址编码。

例如,分词地址“深圳市”对应的单字编码分别为:“深”对应的单字编码是000010,“圳”对应的单字编码是000011,“市”对应的单字编码是000110.那么“深圳市”对应的二进制编码为000010+000011+000110,该二进制编码即为分词地址对应的分词地址编码。

步骤s150,依次以各分词地址编码为检索关键字,检索预置标准地址库,得到检索结果,若所述检索结果非空,则输出与所述分词地址编码匹配的标准分词地址编码;

本实施例中,在完成客户地址分词处理获得分词地址,以及将分词地址转换成分词地址编码等各种预处理后,需要对客户地址进行规范化处理,具体参照预置标准地址库中存储的各标准地址,实现对客户地址的规范化转换。

本实施例中,标准地址库中存储有海量的编码格式的标准地址。为体现地址信息的标准性,优选采用国家公布的行政地址信息作为标准地址。比如省、市、区(县)、街道(乡镇)、村、巷(路、街)等行政划分方式。

本实施例中,依次以各分词地址编码作为检索关键字,检索标准地址库,如果标准地址库中存在与检索关键字匹配的地址编码则输出,从而得到分词地址编码对应的标准分词地址编码,否则提示检索结果为空并继续对下一分词地址为检索关键字进行检索。

例如,当新增一条待录入的客户地址时,比如:广东深圳市,通过预置的中文分词器,可将这条地址分词为:广东、深圳市;然后分别查找文字编码库,进而获得“广东”、“深圳市”对应的二进制编码,比如“广东”使用的二进制编码为000010+000011;然后使用查询到的分词地址编码检索标准地址库,假设标准地址库中使用“广东省”作为标准地址,则标准地址对应的标准分词地址编码为000010+000011+000110,通过比特位比对可知,“广东”的二进制编码与“广东省”的前两单字编码一致,则可认为广东与广东省的地址相同,进而输出“广东省”的二进制编码(也即标准分词地址编码)。

步骤s160,基于所述文字编码库,将与所述各分词地址编码匹配的标准分词地址编码转换为对应的文本格式地址,得到所述各分词地址对应的标准分词地址;

本实施例中,在获得各分词地址编码各自对应的标准分词地址编码后,参照文字编码库的解码规则,将各标准分词地址编码对应转换为文本格式地址,从而得到各分词地址对应的标准分词地址。

例如,客户在提供自身地址信息时所输入的地址为“广东”,而“广东”所对应的地址编码为000010+000011,其与标准地址库中的地址编码000010+000011+000110匹配,也即找到了与“广东”匹配的标准地址,因此需要将标准地址库中地址编码000010+000011+000110转换成文本格式地址,从而得到“广东”对应的标准地址“广东省”。

步骤s170,参照所述客户地址,将所述各标准分词地址拼接为规范的行政标准地址,并以所述行政标准地址替换所述客户地址。

本实施例中,在获得客户地址中每一分词地址对应的标准分词地址后,进一步参照客户地址中各分词的表述位置,将所有标准分词地址拼接为规范的行政标准地址,并以拼接后所形成的行政标准地址替换待录入的客户地址,也即将该行政标准地址作为规范的客户地址录入系统中。

例如,客户输入的地址信息为“广东深圳”,则对应进行规范化处理后的标准地址为“广东省”与“深圳市”,而最后录入的规范化的客户地址为“广东省深圳市”。

可选的,在一具体实施例中,在查询所述文字编码库时,若所述查询结果为空,则提交所述查询关键字,以供后台人工将所述查询关键字录入所述文字编码库。在检索所述标准地址库时,若所述检索结果为空,则提交所述检索关键字,以供后台人工使用行政标准地址中的字替换所述检索关键字对应的所述客户地址中的字。

本可选实施例中,如果待录入的客户地址中有不在常用3500汉字中的汉字,则运用特殊处理方案。处理逻辑相同,比如某地址中存在“鳜”字,该字未收录文字编码库中,因此先提交人工查询这个字对应的意义,通过人工判断这个字是否是在应该在该地址中出现。如果该地址确实使用这个字,则将该字编码后加入文字编码库以及标准地址库中,同时建立同义地址以便后续使用。若该字不应该出现在地址中,而应该是另一个字,使用行政标准地址中的正确字替换该字。

本实施例预先建立了符合企业业务场景需求的标准地址库以及文字编码库,并利用文字编码规则先将客户地址中的文字转换为地址编码,然后将客户地址对应的地址编码与标准地址库中的标准地址编码进行匹配,若匹配成功,则利用文字解码规则将匹配到的标准地址编码转换成文本格式的地址,也即得到客户地址对应的标准地址,最后以标准地址替换客户地址并录入系统,从而实现对非规范的客户地址的规范化处理。本实施例建立了符合公司业务场景的标准地址库,并利用汉字和文字编码之间的转换,实现海量文本地址词汇的存储,节约了存储空间,同时也提升了地址的规范性与精确性,进而方便客服对接客户,提升企业服务质量。

参照图3,图3为本发明地址规范化处理方法第二实施例的流程示意图。基于上述第一实施例,本实施例中,在上述步骤s110之前,还包括:

步骤s210,收集样本地址,其中,所述样本地址中包含有多个行政标准地址和所述行政标准地址对应的同义地址;

为建立标准地址库,需要收集样本地址。本实施例中优选以国家行政网上公布的地理名称所组成的地址作为样本地址,比如按省、市、区、街道等地理名称建立行政标准地址并生成行政标准地址库,并将该行政标准地址库中的所有地址作为样本地址。

此外,考虑到客户提供的地址信息中可能存在不规范的字,比如使用之前的旧地址或者同义词,例如,福华三路有可能写成:福华3路,富华三路,富华3路。因此,在收集样本地址的同时,还收集行政标准地址对应的同义地址,比如旧地址、具有相同同义词的地址。

步骤s220,通过所述中文分词器对所述样本地址进行分词操作,得到组成所述样本地址的多个标准分词地址和多个同义分词地址;

本实施例中,标准地址库中的各地址采用编码方式存储,因此需要先使用中文分词器对文本格式的样本地址(也即行政标准地址,或者行政标准地址与同义地址)进行分词操作,从而得到组成该样本地址的所有分词地址。对于具体采用的中文分词器不限,比如smartcn、ikananlyzer等。通过中文分词器可以将一个中文句子划分为多个词或词组。

例如,将“广东省深圳市”输入中文分词器中进行分词,输出“广东省”、“深圳市”,也即样本地址“广东省深圳市”对应的分词地址为“广东省”和“深圳市”。

步骤s230,参照所述文字编码库,依次对所述各标准分词地址和所述各同义分词地址中的单个字进行二进制编码,输出所述各标准分词地址和所述各同义分词地址中所有单个字分别对应的单字编码;

本实施例中,在获得样本地址对应的分词地址后,使用预置的文字编码库对各文字格式的分词地址进行二进制编码。

本实施例中,文字编码库中存储的是汉字与二进制之间的映射关系,相当于编码规则(将汉字转换为二进制编码)与解码规则(将二进制编码转换为汉字)。因此,通过文字编码库中的编码规则,将分词地址中各单个字编码为对应的二进制,从而得到所有分词地址中各单个字对应的单字编码。

步骤s240,参照所述各标准分词地址,将所述各标准分词地址中各单个字对应的单字编码拼接为标准分词地址编码并存入所述标准地址库;以及参照所述各同义分词地址,将所述各同义分词地址中各单个字对应的单字编码拼接为标准同义地址编码并与对应的标准分词地址编码关联存入所述标准地址库。

本实施例中,在通过二进制编码而获得分词地址中各单个字对应的单字编码后,参照标准分词地址中各单个字的表述位置(也即表述顺序),将各单个字对应的单字编码拼接为标准分词地址编码并存入标准地址库中。同时,参照各同义分词地址,将各同义分词地址中各单个字对应的单字编码拼接为标准同义地址编码并与对应的标准分词地址编码关联存入所述标准地址库。

例如,“福华三路”的同义地址包括:福华3路,富华三路,富华3路,因此,在保存“福华三路”以及“福华3路、富华三路、富华3路”的二进制编码时进行关联保存。当客户提供的地址为“福华3路、富华三路、富华3路”中的任意一个时,都会匹配成“福华三路”的二进制编码,然后再转换成“福华三路”并替换原地址。

可选的,在一具体实施例中,上述步骤s210还包括:

在收集样本地址时,标记各样本地址之间的父子关系,并将所有样本地址的二进制编码按照所述父子关系分片存储至所述标准地址库中。

本可选实施例中,将大量地址按父子关系进行分片存储操作,提升查询和统计性能。比如福华三路下有1路、2路、3路这3个地址,那么这三个地址与福华三路存储关系为父子关系。当需要知道福华三路下所有地址时,能根据福华三路为索引查询到所有子地址。

参照图4,图4为图2中步骤s150一实施例的细化流程示意图。基于上述第一实施例,本实施例中,上述步骤s150进一步包括:

步骤s1501,依次以各分词地址编码为检索关键字,将所述检索关键字分别与所述标准地址库中的各标准分词地址编码进行比对,得到检索结果;

本实施例中,标准地址库中存储有海量标准地址的地址编码,而一个标准地址的地址编码由多个标准分词地址编码组合而成。例如,“广东省”的地址编码为“000010+000011+000110”,而“深圳市”的地址编码为“001010+001111+010100”,则“广东省深圳市”的地址编码为两者组合,也即“000010+000011+000110+001010+001111+010100”。

本实施例中依次以各分词地址编码为检索关键字,通过编码位比对实现检索。

步骤s1502,若所述检索结果为所述标准地址库中存在与所述检索关键字完全比对一致的标准分词地址编码,则输出所述标准分词地址编码;

步骤s1503,若所述检索结果为所述标准地址库中存在与所述检索关键字部分比对一致的标准分词地址编码,则判断所述检索关键字是否满足预置的地址规范转换规则;

步骤s1504,若满足所述地址规范转换规则,则输出所述标准分词地址编码。

本实施例中,如果通过比对检索发现标准地址库中存在与当前检索关键字完全比对一致的标准分词地址编码,则输出该标准分词地址编码,比如,检索关键字为“000010+000011+000110”,而标准地址库中存储有该地址编码,则输出标准地址库中的该地址编码。

而若标准地址库中存在与检索关键字部分比对一致的标准分词地址编码,则此时不能直接判定是否有对应的标准分词地址,因此进一步判断该检索关键字是否满足预置的地址规范转换规则,如果满足,则输出比对时对应的标准分词地址编码。

本实施例中对于地址规范转换规则不限。

可选的,在一具体实施例中,所述地址规范转换规则包括以下任一种:

a、若所述标准分词地址编码包含有所述检索关键字,则判定所述检索关键字对应的分词地址为所述标准分词地址编码对应的标准分词地址的简写并确定满足所述地址规范转换规则;

b、若所述检索关键字对应的分词地址编码与所述标准分词地址编码关联,则判定所述分词地址为同义地址并确定满足所述地址规范转换规则。

客户提供的地址除了提供错了以外,通常存在两类不规范:

第一类:简写,比如把“广东省”写为“广东”。

第二类:旧地址或地址中存在同义字词,比如“福华三路”的旧地址为“富华三路”,同时某些人习惯使用汉字的“三”,有些人喜欢用阿拉伯数字“3”,这类写法都是正确的,但不是很规范,因此需要调整。

参照图5,图5为本发明地址规范化处理方法第三实施例的流程示意图。基于上述第一实施例,本实施例中,在上述步骤s120之前,还包括:

步骤s310,通过预置正则表达式,判断所述客户地址中是否包含有地址别名信息,所述地址别名信息包括建筑物名称、住宅小区名称、产业园区名称或机构名称;

步骤s320,若是,则基于所述地址别名信息,查询预置地图数据库,获取所述地址别名信息对应行的详细地址信息,并将所述客户地址替换为所述详细地址信息。

本实施例中优选采用国家规定的行政地理名称构建标准地址,而有些时候,用户提供的地址信息会使用建筑物名称、住宅小区名称、产业园区名称或机构名称,比如“xx大厦”、“xx小区”“xx产业园”、“xx小学”,而这些名称是不规范的,因此需要获得对应的详细地址信息。

本实施例中优选通过正则表达式的方式识别出地址别名信息,例如,使用正则表达式“/\b(大厦)\1\b/ig”匹配包含有“大厦”二字的地址;使用正则表达式“/\b(小区)\1\b/ig”匹配包含有“小区”二字的地址。

当然也可以通过反向匹配的方式识别出地址别名信息,例如,使用正则表达式“/(\路):/([^/:]+)(:\号)?/”匹配出不包含有“路”和“号”二字的地址,也即筛选出地址别名信息。

本实施例中预先设置有地图数据库,该地图数据库中包含有建筑物名称、小区名称或者产业园名称及其对应的详细地址信息,通过查询比对即可获得。最后再将客户地址替换为查询到的详细地址信息。需要说明的是,该详细地址信息并不一定与本发明的标注地址一致,因此需要进一步对该地址信息进行规范化处理。

参照图6,图6为本发明地址规范化处理方法第四实施例的流程示意图。基于上述任一实施例,本实施例中,在上述步骤s170之后,还包括:

步骤s410,获取所述客户地址对应的行政标准地址;

步骤s420,通过预置地图数据库,对所述行政标准地址进行地理定位,得到所述客户地址对应的经纬度坐标信息;

步骤s430,将所述经纬度坐标信息与所述行政标准地址关联。

本实施例中,在对客户地址进行规范化处理后,也即将客户地址转换为行政标准地址后,可进一步对客户地址对应的行政标准地址(也即规范的客户地址)进行地理定位,从而获得客户地址对应的经纬度坐标信息,以供企业方在相关业务场景中使用该经纬度坐标信息。

通常,在实际客户服务场景中,业务员通常都会对应固定的服务区域,比如由多个经纬度坐标围绕而成的某个地理区域,如果增加了某位新客户,且该新客户的地址对应的经纬度坐标刚好在某业务员的服务区域内,则可将该新客户分配给该业务员进行对接服务。

参照图7,图7为本发明地址规范化处理装置一实施例的功能模块示意图。本实施例中,所述地址规范化处理装置包括:

获取模块10,用于获取待录入的文本格式客户地址;

分词模块20,用于通过预置中文分词器对所述客户地址进行分词操作,得到组成所述客户地址的多个分词地址;

查询模块30,用于依次以各分词地址中的单个字为查询关键字,查询预置文字编码库,得到查询结果,若所述查询结果非空,则输出所述各分词地址中所有单个字分别对应的单字编码;

第一拼接模块40,用于参照所述各分词地址,将各单个字对应的单字编码拼接为分词地址编码;

检索模块50,用于依次以各分词地址编码为检索关键字,检索预置标准地址库,得到检索结果,若所述检索结果非空,则输出与所述分词地址编码匹配的标准分词地址编码;

转换模块60,用于基于所述文字编码库,将与所述各分词地址编码匹配的标准分词地址编码转换为对应的文本格式地址,得到所述各分词地址对应的标准分词地址;

第二拼接模块70,用于参照所述客户地址,将所述各标准分词地址拼接为规范的行政标准地址,并以所述行政标准地址替换所述客户地址。

基于与上述本发明地址规范化处理方法相同的实施例说明内容,因此本实施例对地址规范化处理装置的实施例内容不做过多赘述。

可选的,在一具体实施例中,所述地址规范化处理装置还包括:

收集模块,用于收集样本地址,其中,所述样本地址中包含有多个行政标准地址和所述行政标准地址对应的同义地址;

所述分词模块还用于:通过所述中文分词器对所述样本地址进行分词操作,得到组成所述样本地址的多个标准分词地址和多个同义分词地址;

编码模块,用于参照所述文字编码库,依次对所述各标准分词地址和所述各同义分词地址中的单个字进行二进制编码,输出所述各标准分词地址和所述各同义分词地址中所有单个字分别对应的单字编码;

第三拼接模块,用于参照所述各标准分词地址,将所述各标准分词地址中各单个字对应的单字编码拼接为标准分词地址编码并存入所述标准地址库;以及参照所述各同义分词地址,将所述各同义分词地址中各单个字对应的单字编码拼接为标准同义地址编码并与对应的标准分词地址编码关联存入所述标准地址库。

可选的,在一具体实施例中,所述检索模块具体用于:

依次以各分词地址编码为检索关键字,将所述检索关键字分别与所述标准地址库中的各标准分词地址编码进行比对,得到检索结果;

若所述检索结果为所述标准地址库中存在与所述检索关键字完全比对一致的标准分词地址编码,则输出所述标准分词地址编码;

若所述检索结果为所述标准地址库中存在与所述检索关键字部分比对一致的标准分词地址编码,则判断所述检索关键字是否满足预置的地址规范转换规则;

若满足所述地址规范转换规则,则输出所述标准分词地址编码。

可选的,在一具体实施例中,所述地址规范转换规则包括以下任一种:

a、若所述标准分词地址编码包含有所述检索关键字,则判定所述检索关键字对应的分词地址为所述标准分词地址编码对应的标准分词地址的简写并确定满足所述地址规范转换规则;

b、若所述检索关键字对应的分词地址编码与所述标准分词地址编码关联,则判定所述分词地址为同义地址并确定满足所述地址规范转换规则。

可选的,在一具体实施例中,所述地址规范化处理装置还包括:

提交模块,用于在查询所述文字编码库时,若所述查询结果为空,则提交所述查询关键字,以供后台人工将所述查询关键字录入所述文字编码库;在检索所述标准地址库时,若所述检索结果为空,则提交所述检索关键字,以供后台人工使用行政标准地址中的字替换所述检索关键字对应的所述客户地址中的字。

可选的,在一具体实施例中,所述地址规范化处理装置还包括:

正则判断模块,用于通过预置正则表达式,判断所述客户地址中是否包含有地址别名信息,所述地址别名信息包括建筑物名称、住宅小区名称、产业园区名称或机构名称;

替换模块,用于若所述客户地址中包含有地址别名信息,则基于所述地址别名信息,查询预置地图数据库,获取所述地址别名信息对应行的详细地址信息,并将所述客户地址替换为所述详细地址信息。

可选的,在一具体实施例中,所述地址规范化处理装置还包括:

坐标关联模块,用于获取所述客户地址对应的行政标准地址;通过预置地图数据库,对所述行政标准地址进行地理定位,得到所述客户地址对应的经纬度坐标信息;将所述经纬度坐标信息与所述行政标准地址关联。

本发明还提供一种计算机可读存储介质。

本实施例中,所述计算机可读存储介质上存储有地址规范化处理程序,所述地址规范化处理程序被处理器执行时实现如上述任一项实施例中所述的地址规范化处理方法的步骤。其中,地址规范化处理程序被处理器执行时所实现的方法可参照本发明地址规范化处理方法的各个实施例,因此不再过多赘述。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,这些均属于本发明的保护之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1