一种地址标准化的方法及装置与流程

文档序号:36013073发布日期:2023-11-17 07:48阅读:78来源:国知局
一种地址标准化的方法及装置与流程

本发明涉及信息处理,尤其涉及一种地址标准化的方法及装置。


背景技术:

1、经过近十年的城市信息化发展,我国已经形成数字城市的雏形,在数字城市地理空间框架的建设下,各行各业如城市工商、税务、银行、出租车运营、物流配送等已经实现电子地图智能导航、智能配送等服务,而取得这一进展的关键技术是地址匹配技术,地址匹配技术将地址标准库中以文字形式存储的标准化地址信息与地图上相对应的实体位置进行映射,给每个文本形式的标准化地址信息赋予经纬度信息从而确定其在地图上的具体位置,实现文本地址信息到空间位置的转换,而在这一实现过程中,地址匹配的效果很大程度上依赖于地址标准库中地址信息的质量。

2、目前研究人员在对地址进行标准化建立地址标准库时,往往是直接对中文文本的地址进行分词,以分词后的地址作为标准地址建立地址标准库,而中文文本地址中往往包含一些符号如数字、外文文字等,且同一中文文本地址存在不同写法,中文文本地址具有很强的顺序性,顺序的错乱会直接影响分词的效果,且中文文本地址中存在口语化数据,因此简单的对中文文本地址进行分词以此建立地址标准库,无法保证地址标准库的质量,从而限制地址匹配的效果。


技术实现思路

1、本发明所要解决的技术问题是:本发明提供一种地址标准化的方法及装置,提高地址标准化质量的同时提高地址匹配的效果。

2、为了解决上述技术问题,本发明采用的技术方案为:

3、第一方面,本发明提供一种地址标准化的方法,包括:

4、获取原始地址数据,根据行政区划原则对原始地址数据进行分级处理,得到已分级地址数据,所述已分级地址数据包括路级和标志物级;

5、根据所述路级和标志物级对所述已分级地址数据进行地址融合,得到标准化地址数据,基于所述标准化地址数据构建地址标准库;

6、基于所述地址标准库中的标准化地址数据采用albert-bilstm-crf模型构建和训练地址要素识别模型,得到测试结果达到预期效果的地址要素识别模型;

7、获取待匹配地址数据,将所述待匹配地址数据输入所述地址要素识别模型进行地址要素识别,输出地址要素识别结果,通过地址匹配算法将所述地址要素识别结果与所述地址标准库进行地址匹配,得到地址匹配结果。

8、本发明的有益效果在于,以行政区划原则对原始地址数据进行分级处理,确保分级后地址数据的顺序性,且已分级地址数据包括路级和标志物级,考虑到路级和标志物级地址数据存在较多不同写法,以此为依据对已分级地址数据进行地址融合,实现不同写法地址数据的标准化的以此构建标准地址库,减轻标准地址库臃肿问题的同时,保证了后续地址匹配的准确性,采用albert-bilstm-crf模型构建训练地址要素识别模型,将地址数据上下文语义关联充分考虑其中,提高地址要素识别的准确性,进一步提高地址匹配的效果。

9、可选地,所述已分级地址数据还包括市级、区级和村级,所述根据所述路级和标志物级对所述已分级地址数据进行地址融合包括:

10、对所述已分级地址数据进行数据清理,若所述已分级地址数据中市级和区级的地址数据为空值,则将所述已分级地址数据删除,若所述已分级地址数据中村级、路级、标志物级的地址数据为单字数据,则将所述已分级地址数据删除,若所述已分级地址数据中存在重复级,则将所述重复级删除,完成数据清洗,得到已清理地址数据,根据所述路级和标志物级对所述已清理地址数据进行地址融合。

11、根据上述描述可知,由于缺少市级的地址数据无法进行精准定位,区级的地址数据是进行地址融合的重要因素,因此缺少市级和区级的地址数据质量较差,同时考虑到路级和标志物级为单字数据的地址数据多为无效数据,因此将其删除,提高已分级地址数据的质量,且对于重复书写行政区划级的数据进行删除重复级处理,保证了已清理地址数据的质量,从而提高地址融合的准确性。

12、可选地,所述根据所述路级和标志物级对所述已清理地址数据进行地址融合包括:

13、根据区级和路级组合的方式对所述已清理地址数据进行分组,得到第一分组集,若所述第一分组集中分组的地址数量小于第一阈值,则将所述分组从第一分组集中删除,得到最终的第一分组集;

14、根据区级和标志物级组合的方式对所述第一分组集进行分组,得到第二分组集,当所述第二分组集中分组的路级和标志物级的地址数据均有值时,判断所述标志物级是否相同,若是,则将标志物级相同的分组中地址数据写法出现最多的地址数据作为该分组集的标准数据对该分组集进行地址融合,否则,判断所述标志物级的地址数据拼音是否相同,若是,则将地址数据拼音相同的分组中地址数据写法出现最多的地址数据作为该分组集的标准数据对该分组集进行地址融合,否则,将所述标志物级的地址数据除去公共后缀值,判断除去公共后缀值后的地址数据拼音是否相同,若是,则将对应分组中地址数据写法出现最多的地址数据作为该分组集的标准数据对该分组集进行地址融合;

15、当所述第二分组集中分组的路级的地址数据有值,标志物级的地址数据为空值时,从所述路级的地址数据中获取路号,根据所述区级、路级和路号对所述第二分组集进行分组,得到第三分组集,将所述第三分组集中分组中地址数据写法出现最多的地址数据作为该分组集的标准数据对该分组集进行地址融合;

16、当所述第二分组集中分组的路级的地址数据为空值,标志物级的地址数据有值时,根据所述区级和标志物级对所述第二分组集进行分组,得到第四分组集,将所述第四分组集中分组中地址数据写法出现最多的地址数据作为该分组集的标准数据对该分组集进行地址融合

17、当所述第二分组集中分组的路级和标志物级的地址数据均为空值时,获取村级的地址数据,根据所述区级和村级对所述第二分组进行进行分组,得到第五分组集,将所述第五分组集中分组中地址数据写法出现最多的地址数据作为该分组集的标准数据对该分组集进行地址融合。

18、根据上述描述可知,以区级和路级组合的方式进行分组将其中地址数量小于第一阈值的分组删除,减少后续计算量提高计算效率,在进行地址融合时根据路级和标志物级的地址数据不同情况进行不同融合处理,但均采用在其对应情况下地址写法出现最多的地址数据作为标准数据进行地址融合,减轻地址数据臃肿的问题同时实现不同地址写法的统一标准化。

19、可选地,基于所述地址标准库中的标准化地址数据采用albert-bilstm-crf模型构建和训练地址要素识别模型包括:

20、按照预设比例从所述地址标准库中随机选取标准化地址数据作为训练数据;

21、根据分级标注原则对所述训练数据进行标注,得到标注后的训练数据,将所述训练数据输入采用albert-bilstm-crf模型构建的地址要素识别模型进行训练,得到训练后的地址要素识别模型;

22、将所述原始地址数据输入训练后的地址要素识别模型进行测试,得到测试结果达到预期效果的地址要素识别模型。

23、根据上述描述可知,输入地址要素识别模型中进行训练的训练数据是从地址标准库中随机选取的标准化地址数据,且根据分级标注原则对其进行标注后再输入地址要素识别模型进行训练,提高地址要素识别模型的识别准确性,并以原始地址数据对训练后的地址要素识别模型进行测试,保证测试结果的客观性。

24、可选地,所述根据分级标注原则对所述训练数据进行标注,得到标注后的训练数据包括:

25、按照遮挡比例对所述训练数据进行随机遮挡,得到随机遮挡后的训练数据;

26、根据分级标注原则对所述训练数据进行标注,得到标注后的训练数据。

27、根据上述描述可知,对训练数据进行随机遮挡,模拟数据缺失情况对地址要素识别模型进行训练,提高地址要素识别模型的精确度。

28、可选地,所述将所述原始地址数据输入训练后的地址要素识别模型进行测试,得到测试结果达到预期效果的地址要素识别模型包括:

29、将所述原始地址数据输入训练后的地址要素识别模型进行测试,输出测试结果;

30、根据精确度指标、召回率指标和f-measure指标对所述测试结果进行评估,当所述精确度指标、召回率指标和f-measure指标均达到对应阈值时,则得到所述测试结果达到预期效果的地址要素识别模型。

31、根据上述描述可知,评估测试结果是否达到预期效果,是以精确度、召回率和f-measure指标进行综合评估,将f-measure指标纳入其中,充分考虑到精确度与召回率存在矛盾的情况,使得最终对测试结果的评估更加全面客观,进而保证最终得到的地址要素识别模型的准确性。

32、可选地,所述通过地址匹配算法将所述地址识别结果与所述地址标准库进行地址匹配包括:

33、当所述地址识别结果中路级的地址数据中包含完整的路名和路号时,则满足精准检索条件,通过直接检索将所述地址识别结果与所述地址标准库进行地址匹配,否则,通过地址匹配算法将所述地址识别结果与所述地址标准库进行地址匹配,得到地址匹配结果。

34、根据上述描述可知,地址数据中包含完整的路名和路号即满足精准检索条件,能使用直接检索进行地址匹配,而不满足精准检索条件时,通过地址匹配算法进行地址匹配,从而满足不同情况下的地址匹配,提高地址匹配的灵活性。

35、可选地,所述通过地址匹配算法将所述地址识别结果与所述地址标准库进行地址匹配,得到地址匹配结果包括:

36、根据所述地址标准库中的标准化地址数据的各级建立树结构;

37、基于改进编辑距离算法根据所述地址识别结果计算所述树结构中各个地址层中各个节点的字频编辑距离,将同一地址层中最小的字频编辑距离作为该地址层阈值,将超过所述地址层阈值的节点删除,得到删除后的节点,对删除后的节点进行循环遍历,直至所述节点遍历完成,得到所述树结构中字频编辑距离最小的节点,根据所述节点获取标准化地址数据作为地址匹配结果。

38、根据上述描述可知,地址匹配算法将改进编辑距离算法和树结构进行结合,提高地址匹配成功率的同时提高运算效率。

39、可选地,还包括:

40、根据预设周期对所述地址要素识别模型进行更新。

41、根据上述描述可知,定期对地址要素识别模型进行更新即定期对地址要素识别模型进行训练,进一步提高地址要素识别模型的精确度。

42、第二方面,本发明提供一种地址标准化的装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的一种地址标准化的方法。

43、其中,第二方面所提供的一种地址标准化的装置所对应的技术效果参照第一方面所提供的一种地址标准化的方法的相关描述。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1