本技术涉及计算机,特别是涉及一种地址信息匹配方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术:
1、随着计算机技术的发展,出现了一种对地址信息进行匹配的技术,例如针对于某一个用户的地址,在不同的用于存储地址信息的数据库中,存储的地址文本信息有所差异,那么对于这种情况,则可以将不同数据库中的地址文本信息进行匹配,有利于提高用户地址信息挖掘管理的准确性。
2、传统技术中,对于地址信息的匹配,通常是将某个数据库中记载的地址信息,和另一个数据库中的每个地址信息分别进行匹配,通过找到另一个数据库中与该地址信息相似度最大的地址,来实现地址信息的匹配。
3、然而,上述匹配方式中,由于需要通过文本匹配的方式来匹配某一个地址与另一个数据库中的各个地址,如果需要匹配的地址数量较大时,则需要使用大量的文本匹配计算,因此,目前的地址信息匹配效率较低。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够提高地址信息匹配效率的地址信息匹配方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
2、第一方面,本技术提供了一种地址信息匹配方法,所述方法包括:
3、针对第一数据库中的待匹配地址信息,获取所述待匹配地址信息与第二数据库中存储的各参照地址信息之间的经纬度相似程度;
4、从所述第二数据库中筛选出所述经纬度相似程度最大的前预设数量的参照地址信息,作为候选参照地址信息;
5、获取所述待匹配地址信息与各所述候选参照地址信息之间的地址文本相似度;
6、从所述候选参照地址信息中筛选出所述地址文本相似度最大的候选参照地址信息,作为与所述待匹配地址信息匹配的地址信息。
7、在其中一个实施例中,所述第一数据库中预先存储有多个待匹配地址信息,各待匹配地址信息对应有地址文本信息,但其中部分待匹配地址信息未关联有经纬度信息;所述获取所述待匹配地址信息与第二数据库中存储的各参照地址信息之间的经纬度相似程度之前,还包括:从所述第一数据库中确定出未关联有经纬度信息的待匹配地址信息,作为待补全地址信息;针对每个待补全地址信息,从所述第一数据库中确定出与所述待补全地址信息对应的目标地址信息;所述目标地址信息对应的地址文本信息与所述待补全地址信息对应的地址文本信息之间满足预设条件,且所述目标地址信息关联有经纬度信息;根据所述目标地址信息关联的经纬度信息,得到每个所述待补全地址信息关联的经纬度信息,使得所述第一数据库中的每个待匹配地址信息均关联有经纬度信息。
8、在其中一个实施例中,所述针对每个待补全地址信息,从所述第一数据库中确定出与所述待补全地址信息对应的目标地址信息,包括:基于各所述待匹配地址信息对应的地址文本信息,对各所述待匹配地址信息进行聚类处理,得到多个地址信息聚类集合;针对每个待补全地址信息,获取所述待补全地址信息对应的地址信息聚类集合,并将所述地址信息聚类集合中关联有经纬度信息的待匹配地址信息,作为所述目标地址信息。
9、在其中一个实施例中,所述基于各所述待匹配地址信息对应的地址文本信息,对各所述待匹配地址信息进行聚类处理,包括:获取各所述待匹配地址信息对应的地址文本信息的分词向量;根据各所述分词向量之间的余弦相似度,对余弦相似度满足预先设定的相似度阈值的各所述待匹配地址信息进行聚类处理。
10、在其中一个实施例中,针对每个待补全地址信息,在所述目标地址信息的数量为多个的情况下,所述根据所述目标地址信息关联的经纬度信息,得到每个所述待补全地址信息关联的经纬度信息,包括:将各所述目标地址信息关联的经纬度信息的平均值,作为所述待补全地址信息关联的经纬度信息。
11、在其中一个实施例中,所述经纬度信息包括:经度信息与纬度信息;所述获取所述待匹配地址信息与第二数据库中存储的各参照地址信息之间的经纬度相似程度,包括:根据所述待匹配地址信息关联的经度信息与纬度信息,以及各所述参照地址信息关联的经度信息与纬度信息,获取所述待匹配地址信息关联的经纬度信息,与各所述参照地址信息关联的经纬度信息之间的欧式距离;将所述欧式距离作为所述待匹配地址信息,与各所述参照地址信息之间的经纬度相似程度。
12、在其中一个实施例中,所述获取所述待匹配地址信息与各所述候选参照地址信息之间的地址文本相似度,包括:获取所述待匹配地址信息对应的地址文本信息的分词向量,以及各所述候选参照地址信息对应的地址文本信息的分词向量;获取所述待匹配地址信息对应的地址文本信息的分词向量,与及各所述候选参照地址信息对应的地址文本信息的分词向量之间的余弦相似度,将所述余弦相似度作为所述待匹配地址信息与各所述候选参照地址信息之间的地址文本相似度
13、第二方面,本技术还提供了一种地址信息匹配装置,所述装置包括:
14、经纬度相似获取模块,用于针对第一数据库中的待匹配地址信息,获取所述待匹配地址信息与第二数据库中存储的各参照地址信息之间的经纬度相似程度;
15、候选地址筛选模块,用于从所述第二数据库中筛选出所述经纬度相似程度最大的前预设数量的参照地址信息,作为候选参照地址信息;
16、文本相似获取模块,用于获取所述待匹配地址信息与各所述候选参照地址信息之间的地址文本相似度;
17、地址信息匹配模块,用于从所述候选参照地址信息中筛选出所述地址文本相似度最大的候选参照地址信息,作为与所述待匹配地址信息匹配的地址信息。
18、第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
19、针对第一数据库中的待匹配地址信息,获取所述待匹配地址信息与第二数据库中存储的各参照地址信息之间的经纬度相似程度;
20、从所述第二数据库中筛选出所述经纬度相似程度最大的前预设数量的参照地址信息,作为候选参照地址信息;
21、获取所述待匹配地址信息与各所述候选参照地址信息之间的地址文本相似度;
22、从所述候选参照地址信息中筛选出所述地址文本相似度最大的候选参照地址信息,作为与所述待匹配地址信息匹配的地址信息。
23、第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
24、针对第一数据库中的待匹配地址信息,获取所述待匹配地址信息与第二数据库中存储的各参照地址信息之间的经纬度相似程度;
25、从所述第二数据库中筛选出所述经纬度相似程度最大的前预设数量的参照地址信息,作为候选参照地址信息;
26、获取所述待匹配地址信息与各所述候选参照地址信息之间的地址文本相似度;
27、从所述候选参照地址信息中筛选出所述地址文本相似度最大的候选参照地址信息,作为与所述待匹配地址信息匹配的地址信息。
28、第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
29、针对第一数据库中的待匹配地址信息,获取所述待匹配地址信息与第二数据库中存储的各参照地址信息之间的经纬度相似程度;
30、从所述第二数据库中筛选出所述经纬度相似程度最大的前预设数量的参照地址信息,作为候选参照地址信息;
31、获取所述待匹配地址信息与各所述候选参照地址信息之间的地址文本相似度;
32、从所述候选参照地址信息中筛选出所述地址文本相似度最大的候选参照地址信息,作为与所述待匹配地址信息匹配的地址信息。
33、上述地址信息匹配方法、装置、计算机设备、存储介质和计算机程序产品,通过针对第一数据库中的待匹配地址信息,获取所述待匹配地址信息与第二数据库中存储的各参照地址信息之间的经纬度相似程度;从所述第二数据库中筛选出所述经纬度相似程度最大的前预设数量的参照地址信息,作为候选参照地址信息;获取所述待匹配地址信息与各所述候选参照地址信息之间的地址文本相似度;从所述候选参照地址信息中筛选出所述地址文本相似度最大的候选参照地址信息,作为与所述待匹配地址信息匹配的地址信息。本技术通过从第二数据库中存储的各参照地址信息中筛选出,与第一数据库中的待匹配地址信息经纬度相似程度最大的前预设数量的候选参照地址信息,从而只需要基于待匹配地址信息与各候选参照地址信息之间的地址文本相似度,来从中确定待匹配地址信息匹配的地址信息,相比于现有技术需要获取待匹配地址信息与第二数据库中各参照地址信息之间的地址文本相似度,本技术可以先筛选出候选参照地址信息,从而只需要获取待匹配地址信息与候选参照地址信息之间的地址文本相似度即可实现地址信息匹配,可以有效减少文本匹配的计算量,并且由于经纬度相似程度计算的计算量要远小于文本匹配的计算量,因此本方式可以有效减少地址信息匹配的计算量,从而提高地址信息的匹配效率。