识别层级地址的方法和装置与流程

文档序号:21202390发布日期:2020-06-23 19:28阅读:503来源:国知局
识别层级地址的方法和装置与流程

本发明涉及计算机技术领域,尤其涉及一种识别层级地址的方法和装置。



背景技术:

随着社会经济的快速发展,越来越多的企业或个人采用快递配送的方式将物品寄送到目的地,具体的目的地的地址包括层级地址信息和详细地址信息。其中,层级地址信息是指地址中的行政区划(即行政区域划分的简称,是为了进行分级管理而实行的区域划分)表示部分,用于表示地址中的地址层级关系,例如,山东省济南市历下区、北京市海淀区三环到四环之间;详细地址信息包含道路、小区、门址等详细信息。

不同的物流企业都有自己的地址层级库,且企业划分的地址层级和国家的行政区划往往不一致,其与具体的业务形态有关,比如,成都二环路以内区域和武侯、成都锦江行政区绕城以内的部分区域和高新行政区的部分区域。为了提高物流行业在运费、库存判断、履约时效计算等不同业务环节的准确率,起到降本增效的目的,准确识别目的地的层级地址信息有重要意义。

现有技术没有一种有效的识别层级地址的方法,导致层级地址错误只能依赖于人工检查修正,使得很多业务错误而无法修正。



技术实现要素:

有鉴于此,本发明实施例提供一种识别层级地址的方法和装置,能够提高物流行业在不同业务环节的准确率,降低物流成本,加强用户体验。

为实现上述目的,根据本发明实施例的第一方面,提供了一种识别层级地址的方法。

本发明实施例的一种识别层级地址的方法,包括:获取目标地址对应的目标城市和所述目标地址的详细地址信息;根据所述目标城市,确定与所述目标地址对应的城市地址模型;利用所述城市地址模型对所述详细地址信息进行处理,识别所述目标地址的层级地址信息。

可选地,在确定与所述目标地址对应的城市地址模型之前,所述方法还包括:从历史地址库中,提取目标城市的历史地址和样本地址;根据所述历史地址,生成所述目标城市的地址词典和向量词汇表;根据所述地址词典、所述向量词汇表和所述样本地址,构建所述目标城市的模型样本;基于卷积神经网络算法对所述模型样本进行分类训练,生成城市地址模型,所述城市地址模型的分类参数为末级行政区划编号。

可选地,所述根据所述历史地址,生成所述目标城市的地址词典和向量词汇表,包括:根据自定义分词规则对所述历史地址进行分词处理,生成所述目标城市的地址词典;结合所述地址词典和所述自定义分词规则,对所述历史地址进行分词处理,获取第三分词地址;利用词语向量转换模型,对所述第三分词地址中的文本词语进行向量转换,以生成所述目标城市的向量词汇表。

可选地,所述根据所述地址词典、所述向量词汇表和所述样本地址,构建所述目标城市的模型样本,包括:结合所述地址词典和自定义分词规则,对所述样本地址进行分词处理,获取第四分词地址;按照预设比例删除所述第四分词地址中的地址层级,得到第五分词地址;利用所述向量词汇表对所述第五分词地址进行词语向量转换,生成所述样本地址对应的词语向量地址;根据所述第五分词地址和所述第五分词地址的末级行政区划编号,构建所述目标城市的模型样本。

可选地,所述自定义分词规则包括:利用正则规则进行初次分词,然后基于有向无环图和隐马尔可夫模型,对初次分词结果进行再次分词。

可选地,在提取目标城市的历史地址和样本地址之后,所述方法还包括:根据地址层级关系树,生成所述目标城市的末级行政区划列表;针对所述样本地址中的任意一条样本地址,判断该条样本地址的末级行政区划编号是否在所述末级行政区划列表中,若否,则将该条样本地址过滤掉。

可选地,在识别所述目标地址的层级地址信息之后,所述方法还包括:获取所述目标地址的原有层级地址信息;判断所述原有层级地址信息与所述层级地址信息是否一致,若否,则发送变更原有层级地址信息的请求。

可选地,在识别所述目标地址的层级地址信息之后,所述方法还包括:将所述目标地址转换成特定格式的地址,所述特定格式与所述层级地址信息相关。

为实现上述目的,根据本发明实施例的第二方面,提供了一种识别层级地址的装置。

本发明实施例的一种识别层级地址的装置,其特征在于,包括:获取模块,用于获取目标地址对应的目标城市和所述目标地址的详细地址信息;确定模块,用于根据所述目标城市,确定与所述目标地址对应的城市地址模型;识别模块,用于利用所述城市地址模型对所述详细地址信息进行处理,识别所述目标地址的层级地址信息。

可选地,所述确定模块还用于:从历史地址库中,提取目标城市的历史地址和样本地址;根据所述历史地址,生成所述目标城市的地址词典和向量词汇表;根据所述地址词典、所述向量词汇表和所述样本地址,构建所述目标城市的模型样本;基于卷积神经网络算法对所述模型样本进行分类训练,生成城市地址模型,所述城市地址模型的分类参数为末级行政区划编号。

可选地,所述确定模块还用于:根据自定义分词规则对所述历史地址进行分词处理,生成所述目标城市的地址词典;结合所述地址词典和所述自定义分词规则,对所述历史地址进行分词处理,获取第三分词地址;利用词语向量转换模型,对所述第三分词地址中的文本词语进行向量转换,以生成所述目标城市的向量词汇表。

可选地,所述确定模块还用于:结合所述地址词典和自定义分词规则,对所述样本地址进行分词处理,获取第四分词地址;按照预设比例删除所述第四分词地址中的地址层级,得到第五分词地址;利用所述向量词汇表对所述第五分词地址进行词语向量转换,生成所述样本地址对应的词语向量地址;根据所述第五分词地址和所述第五分词地址的末级行政区划编号,构建所述目标城市的模型样本。

可选地,所述自定义分词规则包括:利用正则规则进行初次分词,然后基于有向无环图和隐马尔可夫模型,对初次分词结果进行再次分词。

可选地,所述确定模块还用于:根据地址层级关系树,生成所述目标城市的末级行政区划列表;针对所述样本地址中的任意一条样本地址,判断该条样本地址的末级行政区划编号是否在所述末级行政区划列表中,若否,则将该条样本地址过滤掉。

可选地,所述识别模块还用于:获取所述目标地址的原有层级地址信息;判断所述原有层级地址信息与所述层级地址信息是否一致,若否,则发送变更原有层级地址信息的请求。

可选地,所述识别模块还用于:将所述目标地址转换成特定格式的地址,所述特定格式与所述层级地址信息相关。

为实现上述目的,根据本发明实施例的第三方面,提供了一种电子设备。

本发明实施例的一种电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现本发明实施例的识别层级地址的方法。

为实现上述目的,根据本发明实施例的第四方面,提供了一种计算机可读介质。

本发明实施例的一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现本发明实施例的识别层级地址的方法。

上述发明中的一个实施例具有如下优点或有益效果:因为在确定目标地址对应的城市地址模型之后,然后利用该模型对目标地址中的详细地址信息进行分析,得到层级地址信息,所以可以利用得到的层级地址信息对目标地址进行层级地址校验或者格式转换,提高物流行业在运费、库存判断、履约时效计算等不同业务环节的准确率,起到降本增效的目的,降低物流成本,加强用户体验。本发明在确定目标城市的城市地址模型之前,利用历史地址库中的历史地址和样本地址生成目标城市的地址词典、向量词汇表,然后基于卷积神经网络算法生成目标城市的专属城市地址模型,从而可以满足生成的模型更加符合实际情况,提高城市地址模型的准确度。本发明实施例中生成地址词典、向量词汇表和模型样本的过程中,均采用自定义分词规则,从而可以提高分词的准确性,更进一步地提高层级地址识别的准确度。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明,不构成对本发明的不当限定。其中:

图1是根据本发明实施例的识别层级地址的方法的主要步骤的示意图;

图2是根据本发明一个可参考实施例的生成与目标地址对应的城市地址模型的方法的主要流程示意图;

图3是根据本发明再一个可参考实施例的识别目标地址的层级地址信息的方法的主要流程示意图;

图4是根据本发明又一个可参考实施例的生成目标地址对应的城市地址模型的方法的主要流程示意图;

图5是根据本发明实施例的识别层级地址的装置的主要模块的示意图;

图6是本发明实施例可以应用于其中的示例性系统架构图;

图7是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施例的识别层级地址的方法的主要步骤的示意图。作为本发明的一个可参考实施例,如图1所示,本发明的识别层级地址的方法的主要步骤可以包括:

步骤s101:获取目标地址对应的目标城市和目标地址的详细地址信息;

步骤s102:根据目标城市,确定与目标地址对应的城市地址模型;

步骤s103:利用城市地址模型对详细地址信息进行处理,识别目标地址的层级地址信息。

本发明的识别层级地址的方法主要包括上述步骤s101、步骤s102和步骤s103。在步骤s101中,目标地址是指待识别的地址,可以是用户的下单地址(即,用户购买物品或者用户寄送物品时,填写的配送地址),也可以是外单地址(即,对于企业p1来说,直接选取企业p2的地址库中的地址使用,则该地址属于外单地址),也可以是其他形式的地址,本发明对此不作限定。此外,目标地址对应的目标城市是指目标地址所属的省份或者市区,具体是省份还是市区需要根据实际情况选择。本发明中对于配送量较多的市区,例如,杭州、济南等,可以直接将该市区确定为目标城市;对于配送数量较少的省份,例如,新疆、西藏等,可以将该省份确定为目标城市。

本发明中,在步骤s101中获取到目标城市之后,可以直接确定该目标城市的城市地址模型为目标地址对应的城市地址模型。由于不同城市的行政区划不相同,很难制定对全国各个城市进行校验的统一标准,因此需要针对不同城市构建其专属模型。从上述目标城市的定义中可以看出,本发明可以根据配送量构建地址模型,对于配送量较大的市区,会单独构建以市区为单位的地址模型,如果配送量较少,会以省份为单位构建地址模型。本技术方案是利用城市地址模型识别层级地址信息的,考虑到不同城市具有不同的地址模型,因此在步骤s101中,需要首先确定目标地址对应的目标城市,这样可以确定需要选择哪一个城市地址模型,然后执行步骤s103,即借助该城市地址模型对目标地址的详细地址信息进行处理,得到层级地址信息。此步骤s103依靠的技术手段是,不管是用户的下单地址还是其他企业的外单地址,它们的层级地址信息可能不相同,但是详细地址信息是准确的,因此可以对详细地址信息进行分析,得到层级地址信息。

本发明是依靠城市地址模型识别目标地址的层级地址信息的,因此构建城市地址模型是本发明的重要技术点。作为本发明的又一个可参考实施例,在确定与目标地址对应的城市地址模型之前,识别层级地址的方法还可以包括:生成与目标地址对应的城市地址模型。图2是根据本发明一个可参考实施例的生成与目标地址对应的城市地址模型的方法的主要流程示意图。本发明利用历史地址库中的历史地址和样本地址生成目标城市的地址词典和向量词汇表,然后基于卷积神经网络算法生成目标城市的专属城市地址模型,从而可以满足生成的模型更加符合实际情况,提高城市地址模型的准确度。如图2所示,本发明实施例的生成与目标地址对应的城市地址模型的方法可以包括:

步骤s201:从历史地址库中,提取目标城市的历史地址和样本地址;

步骤s202:根据历史地址,生成目标城市的地址词典和向量词汇表;

步骤s203:根据地址词典、向量词汇表和样本地址,构建目标城市的模型样本;

步骤s204:基于卷积神经网络算法对模型样本进行分类训练,生成城市地址模型,其中,生成的城市地址模型的分类参数为末级行政区划编号。

在上述步骤s201中,以目标城市的名称为参数,从历史地址库(例如,妥投订单库)中将该目标城市的地址提取出来。其中,提取出来的地址包括历史地址和样本地址,本发明中历史地址和样本地址均包括多条地址,另外历史地址和样本地址可以是相同的,也可以是不同的,具体可以根据实际情况确定。一般情况下,历史地址包含的地址条数多于样本地址包括的地址条数。本发明提取的历史地址和样本地址中的地址信息均包括:每条地址的层级地址信息、每条地址的详细地址信息和每条地址的末级行政区划编号。其中,末级行政区划编号代表地址层级关系,比如说,对于一个物流企业p1,末级行政区划编号2205代表的是北京市海淀区二环到三环之间(仅为实例参考)。实际应用时,可以根据物流企业设置的末级配送站点确定末级行政区划编号。

本发明中,在提取到历史地址和样本地址之后,利用正则规则对历史地址和样本地址进行处理,例如,将地址中与企业标识相关的内容删除,例如对于地址“北京市海淀区二环到三环之间xx街道xx小区”,利用它生成城市词典的时候,会将“二环到三环之间”这种带有企业标识的词语去掉,然后得到“北京市海淀区xx街道xx小区”;将地址中的特殊字符删除,例如将逗号、破折号之类无用的字符过滤掉,或者是“到货后给我打电话13xxxxx”之类的;或者是将地址中的大小写统一。

本发明在上述步骤s201获取到历史地址之后,利用历史地址构建目标城市的向量词汇表,作为本发明的再一个可参考实施例,步骤s202构建目标城市的地址词典和向量词汇表的方法具体可以解释为:

步骤s2021:根据自定义分词规则对历史地址进行分词处理,生成目标城市的地址词典;

步骤s2022:结合地址词典和自定义分词规则,对历史地址进行分词处理,获取第三分词地址;

步骤s2023:利用词语向量转换模型,对第三分词地址中的文本词语进行向量转换,以生成目标城市的向量词汇表。

本发明实施例中,自定义分词规则可以包括:利用正则规则进行初次分词,然后基于有向无环图和隐马尔可夫模型,对初次分词结果进行再次分词。本发明在生成地址词典、向量词汇表以及模型样本的过程中,均采用了自定义分词规则,从而可以提高分词的准确性,更进一步地提高层级地址识别的准确度。下面具体解释上述步骤s2021结合自定义分词规则,生成目标城市的地址词典的过程:

(1)利用正则规则对历史地址中的每条地址进行分词处理,将分词后的结果存放至小词库中,需要注意的是此处分词后还是以一条地址为单位的,因此,小词库中存储的是一条条地址;

(2)对小词库中的一条条地址进行基于有向无环图和隐马尔可夫模型的分词处理。其中,有向无环图是一个无环的有向图,例如图中有a、b和c,如果有一个非有向无环图,且a点出发向b经c可回到a,形成一个环,将从c到a的边方向改为从a到c,则变成有向无环图。隐马尔可夫模型是一种统计模型,用来描述一个含有隐含未知参数的马尔可夫过程;

(3)对历史地址中的一条地址进行上述两步分词处理之后,将得到的词语放到大词库中,然后对下一条地址进行上述两步的处理,处理之后的词语如果在大词库中出现了,那么舍弃,如果没有出现,则存放在大词库中,最终得到该目标城市的大词库,也就是该目标城市的地址词典。

本发明中,在步骤s2021得到目标城市的地址词典之后,执行步骤s2022利用地址词典和自定义分词规则,对该目标城市的历史地址进行分词处理,得到历史地址对应的第三分词地址。此处分词处理的过程与生成地址词典过程中的分词过程类似,因此不再重复累述,需要注意的是此处的分词处理还需要结合已经生成的地址词典。另外,此处分词的目的是为了将地址中省、市、县、乡的层级关系显露出来,同时为了接下来步骤s2023中的将词语向量化的工作做铺垫。

考虑到地址是文本类型的数据,仅通过分析文本信息,很难比较地址之间的相似性,同时也无法校验地址层级关系是否正确。在自然语言处理领域,将文本词语转换成词向量,达到将语义相近的词语被映射到相近的向量空间中的效果。步骤s2022中获取到的第三分词地址为文本词语,因此在步骤s2023中,利用词语向量转换模型,对第三分词地址中的文本词语进行词语向量转换,以生成目标城市的向量词汇表。本发明中,得到向量词汇表的具体的技术手段可以为:对于步骤s2022得到的第三分词地址,利用word2vec中的skip-gram模型,根据实际处理问题调整模型参数,将第三分词地址中所有出现的词语用固定长度的向量表示出来迭代更新过程,保存在向量词汇表,进而可以得到目标城市的向量词汇表。

word2vec是从大量文本语料中以无监督的方式学习语义知识的一种模型,它被大量地用在自然语言处理领域中,也就是说通过学习文本来用词向量的方式表征词的语义信息,还可以解释为通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。skip-gram模型的输入为特定的一个词的词向量,而输出是特定词对应的上下文词向量。本发明的文本词语到向量的转换过程中,会考虑到每个地址,因此会出现文本相似的词语被映射到相近的向量空间中的情况,也会出现语义相近的词义被映射到相近的向量空间的情况。本发明利用word2vec中的skip-gram模型生成目标城市的向量词汇表,从而可以方便地比较地址之间的相似性。

本发明在通过步骤s201提取到样本地址和步骤s202获取到目标城市的向量词汇表之后,执行步骤s203基于自定义分词规则,利用生成的目标城市的地址词典对该目标城市的样本地址进行分词处理,并且提取末级行政区划编号作为城市地址模型的参数,从而可以得到目标城市的模型样本。作为本发明的又一个可参考实施例,本发明的构建目标城市的模型样本的技术方法可以包括:

步骤s2031:结合地址词典和自定义分词规则,对样本地址进行分词处理,并将分词处理的结果命名为第四分词地址,此处分词处理的过程与生成地址词典过程中的分词过程类似,因此不再重复累述,需要注意的是此处的分词处理的对象是样本地址;

步骤s2032:按照预设比例删除第四分词地址中的地址层级,得到第五分词地址,由于本发明是对目标地址的详细地址信息进行分析,得到层级地址信息,因此分析的对象为详细地址信息,不包含层级地址信息,对于模型样本,需要将样本地址的层级地址信息全部去掉,考虑到有些情况下,用户可能在详细地址栏重新填写层级地址信息,所以在构建模型样本时,保留一定比例数据的地址层级,对于这些数据,随机保留层级,目的是为了更好地模拟实际应用场景;

步骤s2033:利用向量词汇表对第五分词地址进行词语向量转换,生成样本地址对应的词语向量地址;

步骤s2034:根据第五分词地址和第五分词地址的末级行政区划编号,构建目标城市的模型样本。其中,第五分词地址的末级行政区划编号也就是样本地址的末级行政区划编号,在步骤s201中获取。此外,本发明中的模型样本包括训练集、验证集和测试集。

例如,对于某条样本地址“北京市海淀区xx街道xx小区”,该条样本地址的层级地址信息为“北京市海淀区”,详细地址信息为“xx街道xx小区”,首先利用地址词典和自定义分词规则将该样本地址进行分词处理,得到分词地址“北京市海淀区xx街道xx小区”;接着根据预设比例将层级地址信息中的地址层级“北京市”删除,得到分词地址“海淀区xx街道xx小区”;然后利用向量词汇表对“海淀区xx街道xx小区”进行词语向量转换,得到其对应的词语向量地址;最后将词语向量地址和其对应的末级行政区划编号加入到模型样本中。

在步骤s203得到目标城市的模型样本之后,利用卷积神经网络算法对模型样本进行分类训练,得到以末级行政区划编号为参数的城市地址模型。需要注意的是,本发明构建的城市地址模型是以末级行政区划编号为参数的,需要保证模型样本中的末级行政区划编号的准确性。因此作为本发明的再一个可参考实施例,在提取目标城市的历史地址和样本地址之后,识别层级地址的方法还可以包括:根据地址层级关系树,生成目标城市的末级行政区划列表;针对样本地址中的一个样本地址,判断一个样本地址的末级行政区划编号是否在末级行政区划列表中,若否,则将一个样本地址过滤掉。实际应用中,用户可能不清楚或者填错目标地址的层级地址信息,因此历史地址库中的样本地址的末级行政区划编号可能错误或者空白,所以本发明中利用目标城市的末级行政区划列表对样本地址进行过滤。

其中,本发明中可以直接获取目标城市的成熟的地址层级关系树,然后利用该地址层级关系树生成末级行政区划列表;也可以是利用目标城市的历史地址库中的地址训练生成一个成熟的地址层级关系树,地址层级关系树的初期是国家行政区划的省市县乡,然后利用历史地址库中的地址不断迭代训练,形成一个最终的相对成熟的地址层级关系树,接着生成该城市的末级行政区划列表。

本发明实施例中在识别层级地址信息之后,可以利用层级地址信息对目标地址进行层级地址校验或者格式转换,从而可以结合实际应用场景,合理利用层级地址信息。具体的应用场景可以包括:

(1)地址校验,即在识别目标地址的层级地址信息之后,利用识别的层级地址信息对目标地址进行层级校验,具体实现方法可以包括:获取目标地址的原有层级地址信息;判断原有层级地址信息与层级地址信息是否一致,若否,则发送变更原有层级地址信息的请求。此处的原有层级地址信息是指用户填写的层级地址信息,将用户填写的层级地址信息与利用城市地址模型分析得到的层级地址信息进行校验,若不一致,则会向用户发送填写的层级地址信息有误,是否需要更改。比如,目标地址为“北京市海淀区四环以内清华园1号清华大学”,该目标地址的原有层级地址信息为“北京市海淀区四环以内”,利用本发明识别的层级地址信息为“北京市海淀区四环以内五环以外”,因此可以发送是否将变更层级地址信息的请求。

(2)格式转换,即在识别目标地址的层级地址信息之后,利用识别的层级地址信息对目标地址进行地址转换,具体实现方法可以包括:将目标地址转换成特定格式的地址,其中特定格式与层级地址信息相关。本发明中特定格式与层级地址信息相关是指将目标地址中原有层级地址信息转换为识别的层级地址信息,比如,目标地址为“北京市海淀区清华园1号清华大学”,该目标地址的原有层级地址信息为“北京市海淀区”,利用本发明识别的层级地址信息为“北京市海淀区四环以内五环以外”,因此可以将该地址转换为“北京市海淀区四环以内五环以外清华园1号清华大学”。

本发明的识别层级地址的方法具体可以包括识别目标地址的层级地址信息和生成目标地址对应的城市地址模型两部分。图3是根据本发明再一个可参考实施例的识别目标地址的层级地址信息的方法的主要流程示意图。如图3所示,本发明实施例的识别目标地址的层级地址信息的方法可以包括:

步骤s301:获取目标地址对应的目标城市和目标地址的详细地址信息;

步骤s302:根据目标城市,确定与目标地址对应的城市地址模型;

步骤s303:利用城市地址模型对详细地址信息进行处理,识别目标地址的层级地址信息;

步骤s304:获取目标地址的原有层级地址信息;

步骤s305:判断原有层级地址信息与识别的层级地址信息是否一致,若否,则执行步骤s306;

步骤s306:发送变更原有层级地址信息的请求;

步骤s307:将目标地址转换成特定格式的地址,其中特定格式与层级地址信息相关。

其中,步骤s304至步骤s306是利用层级地址信息对目标地址进行层级校验的应用场景,步骤s307是利用层级地址信息对目标地址进行格式转换的应用场景。

图4是根据本发明又一个可参考实施例的生成目标地址对应的城市地址模型的方法的主要流程示意图。如图4所示,本发明实施例的生成目标地址对应的城市地址模型的方法可以包括:

步骤s401:从历史地址库中,提取目标城市的历史地址和样本地址,提取的历史地址和样本地址中的地址信息包括:每条地址的层级地址信息、每条地址的详细地址信息和每条地址的末级行政区划编号;

步骤s402:利用正则规则对历史地址和样本地址进行处理,例如,将地址中与企业标识相关的内容删除、将地址中的特殊字符删除以及将地址中的大小写统一;

步骤s403:根据自定义分词规则对历史地址进行分词处理,生成目标城市的地址词典;

步骤s404:结合地址词典和自定义分词规则,对历史地址进行分词处理,获取第三分词地址;

步骤s405:利用词语向量转换模型,对第三分词地址中的文本词语进行向量转换,以生成目标城市的向量词汇表;

步骤s406:根据目标城市的地址层级关系树,生成目标城市的末级行政区划列表,并利用末级行政区划列表对样本地址中的地址进行过滤处理,将样本地址中末级行政区划编号错误或者空白的地址过滤掉;

步骤s407:结合地址词典和自定义分词规则,对样本地址进行分词处理,获取第四分词地址;

步骤s408:按照预设比例删除第四分词地址中的地址层级,得到第五分词地址;

步骤s409:利用向量词汇表对第五分词地址进行词语向量转换,生成样本地址对应的词语向量地址;

步骤s410:根据第五分词地址和第五分词地址的末级行政区划编号,构建目标城市的模型样本;

步骤s411:基于卷积神经网络算法对模型样本进行分类训练,生成城市地址模型,其中,城市地址模型的分类参数为末级行政区划编号。

值得注意的是,上述步骤s406的执行顺序可以根据实际情况调整,可以在步骤s402之后执行,也可以按照其他顺序执行,但是,需要保证的是步骤s406在步骤s407之前执行。

根据本发明实施例的识别层级地址的技术方案,在确定目标地址对应的城市地址模型之后,然后利用该模型对目标地址中的详细地址信息进行分析,得到层级地址信息,所以可以利用得到的层级地址信息对目标地址进行层级地址校验或者格式转换,提高物流行业在运费、库存判断、履约时效计算等不同业务环节的准确率,起到降本增效的目的,降低物流成本,加强用户体验。本发明在确定目标城市的城市地址模型之前,利用历史地址库中的历史地址和样本地址生成目标城市的地址词典、向量词汇表,然后基于卷积神经网络算法生成目标城市的专属城市地址模型,从而可以满足生成的模型更加符合实际情况,提高城市地址模型的准确度。本发明实施例中生成地址词典、向量词汇表和模型样本的过程中,均采用自定义分词规则,从而可以提高分词的准确性,更进一步地提高层级地址识别的准确度。

图5是根据本发明实施例的识别层级地址的装置的主要模块的示意图。如图5所示,本发明实施例的识别层级地址的装置500主要包括以下模块:获取模块501、确定模块502和识别模块503。其中,

获取模块501可用于:获取目标地址对应的目标城市和目标地址的详细地址信息;

确定模块502可用于:根据目标城市,确定与目标地址对应的城市地址模型;

识别模块503可用于:利用城市地址模型对详细地址信息进行处理,识别目标地址的层级地址信息。

本发明实施例中,确定模块502还可用于:从历史地址库中,提取目标城市的历史地址和样本地址;根据历史地址,生成目标城市的地址词典和向量词汇表;根据地址词典、向量词汇表和样本地址,构建目标城市的模型样本;基于卷积神经网络算法对模型样本进行分类训练,生成城市地址模型,城市地址模型的分类参数为末级行政区划编号。

本发明实施例中,确定模块502还可用于:根据自定义分词规则对历史地址进行分词处理,生成目标城市的地址词典;结合地址词典和自定义分词规则,对历史地址进行分词处理,获取第三分词地址;利用词语向量转换模型,对第三分词地址中的文本词语进行向量转换,以生成目标城市的向量词汇表。

本发明实施例中,确定模块502还可用于:结合地址词典和自定义分词规则,对样本地址进行分词处理,获取第四分词地址;按照预设比例删除第四分词地址中的地址层级,得到第五分词地址;利用向量词汇表对第五分词地址进行词语向量转换,生成样本地址对应的词语向量地址;根据第五分词地址和第五分词地址的末级行政区划编号,构建目标城市的模型样本。

本发明实施例中,自定义分词规则可以包括:利用正则规则进行初次分词,然后基于有向无环图和隐马尔可夫模型,对初次分词结果进行再次分词。

本发明实施例中,确定模块502还可用于:根据地址层级关系树,生成目标城市的末级行政区划列表;针对样本地址中的任意一条样本地址,判断该条样本地址的末级行政区划编号是否在末级行政区划列表中,若否,则将该条样本地址过滤掉。

本发明实施例中,识别模块503还可用于:获取目标地址的原有层级地址信息;判断原有层级地址信息与层级地址信息是否一致,若否,则发送变更原有层级地址信息的请求。

本发明实施例中,识别模块503还可用于:将目标地址转换成特定格式的地址。其中,特定格式与层级地址信息相关。

从以上描述可以看出,本发明的识别层级地址的装置能够在确定目标地址对应的城市地址模型之后,然后利用该模型对目标地址中的详细地址信息进行分析,得到层级地址信息,所以可以利用得到的层级地址信息对目标地址进行层级地址校验或者格式转换,提高物流行业在运费、库存判断、履约时效计算等不同业务环节的准确率,起到降本增效的目的,降低物流成本,加强用户体验。本发明在确定目标城市的城市地址模型之前,利用历史地址库中的历史地址和样本地址生成目标城市的地址词典、向量词汇表,然后基于卷积神经网络算法生成目标城市的专属城市地址模型,从而可以满足生成的模型更加符合实际情况,提高城市地址模型的准确度。本发明实施例中生成地址词典、向量词汇表和模型样本的过程中,均采用自定义分词规则,从而可以提高分词的准确性,更进一步地提高层级地址识别的准确度。

需要说明的是,本发明识别层级地址的装置的具体实施内容,在上面识别层级地址的方法中已经详细说明了,故在此重复内容不再说明。

图6示出了可以应用本发明实施例的识别层级地址的方法或识别层级地址的装置的示例性系统架构600。

如图6所示,系统架构600可以包括终端设备601、602、603,网络604和服务器605(此架构仅仅是示例,具体架构中包含的组件可以根据申请具体情况调整)。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备601、602、603通过网络604与服务器605交互,以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器605可以是提供各种服务的服务器,例如对用户利用终端设备601、602、603所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是,本发明实施例所提供的识别层级地址的方法一般由服务器605执行,相应地,识别层级地址的装置一般设置于服务器605中。

应该理解,图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

下面参考图7,其示出了适于用来实现本发明实施例的终端设备的计算机系统700的结构示意图。图7示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示,计算机系统700包括中央处理单元(cpu)701,其可以根据存储在只读存储器(rom)702中的程序或者从存储部分708加载到随机访问存储器(ram)703中的程序而执行各种适当的动作和处理。在ram703中,还存储有系统700操作所需的各种程序和数据。cpu701、rom702以及ram703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。

以下部件连接至i/o接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至i/o接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(cpu)701执行时,执行本发明的系统中限定的上述功能。

需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括获取模块、确定模块和识别模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,获取模块还可以被描述为“获取目标地址对应的目标城市和目标地址的详细地址信息的模块”。

作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:获取目标地址对应的目标城市和目标地址的详细地址信息;根据目标城市,确定与目标地址对应的城市地址模型;利用城市地址模型对详细地址信息进行处理,识别目标地址的层级地址信息。

根据本发明实施例的技术方案,在确定目标地址对应的城市地址模型之后,然后利用该模型对目标地址中的详细地址信息进行分析,得到层级地址信息,所以可以利用得到的层级地址信息对目标地址进行层级地址校验或者格式转换,提高物流行业在运费、库存判断、履约时效计算等不同业务环节的准确率,起到降本增效的目的,降低物流成本,加强用户体验。本发明在确定目标城市的城市地址模型之前,利用历史地址库中的历史地址和样本地址生成目标城市的地址词典、向量词汇表,然后基于卷积神经网络算法生成目标城市的专属城市地址模型,从而可以满足生成的模型更加符合实际情况,提高城市地址模型的准确度。本发明实施例中生成地址词典、向量词汇表和模型样本的过程中,均采用自定义分词规则,从而可以提高分词的准确性,更进一步地提高层级地址识别的准确度。

上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1