基于关键词的地址查询方法

文档序号:9750800阅读:300来源:国知局
基于关键词的地址查询方法
【技术领域】
[0001]本发明涉及一种地址查询方法,尤其涉及一种基于关键词的地址查询方法。
【背景技术】
[0002]现有的地址坐标匹配技术大部分采用的是利用词典,词表,后缀关键词列表对地址进行按等级分词,模糊匹配,或者插值匹配的的技术进行的。例如:北京灵图软件技术有限公司论文:《基于分词的地址匹配技术》采用利用词典后缀表,反向查找父节点的地址分词技术。百度专利:百度地址数据库的构建方法及装置发明专利(申请号:201010540090.5)采用补充范式地址的分词方法进行。百度专利:百度地址查询方法及系统(申请号:201010540118.5),采用的方法为先对地址进行模糊查询,然后对得到的近似地址进行线插值得到坐标。浙江工业大学专利:一种基于模糊匹配的中文地理编码确定方法(专利申请号200910156650.4),采用的是对地址分词后数组进行模糊匹配的方式进行。以上地址匹配技术,缺点在于对分词算法精度要求高,模糊匹配过程准确度差,且对于地址解析提前预处理的能力差。

【发明内容】

[0003]本发明的目的在于提供一种提高预处理对地址解析的帮助、提高地址解析精度、避免地址解析对分词算法依赖的基于关键词的地址查询方法。
[0004]本发明基于关键词的地址查询方法,包括以下步骤:
a)获取原始地址数据;
b)通过关键词提取算法提取所述原始地址数据中的关键词和行政区域;
c)用步骤b)中提取的关键词和行政区域,与所述原始地址数据对应的坐标构建关键词与坐标匹配数据库,并为所述关键词建立索引;
d)利用关键词提取算法对待查询地址提取关键词和行政区域,将提取的关键词和行政区域在步骤c)构建的关键词与坐标匹配数据库中进行匹配,若匹配成功,则得到匹配的坐标;若匹配失败,则把待查询地址输入到传统地址匹配数据库中继续查询,若查询到匹配的坐标,将该坐标与对所述查询地址提取的关键词和行政区域添加到所述关键词语坐标匹配数据库中。
[0005]本发明基于关键词的地址查询方法,所述关键词提取算法为条件随机场抽取关键字模型、或互信息和最大熵模型、或隐马尔科夫模型。
[0006]本发明基于关键词的地址查询方法,通过构建关键词与坐标匹配数据库完成的地址解析预处理,当待查询地址到来时,使用关键词提取算法提取待查询地址中的关键词,并使用该关键词在数据库中查询,如果匹配到一致的则直接得到该地址对应的坐标,完成地址解析。传统的地址由于写法多样,比如数据库中存储了“北京市农大南路I号院硅谷亮城2A605”,但是待查询地址是“北京市上地硅谷亮城汇通天下”,它们实质上是同一地址,但是匹配不上,本发明在地址解析预处理时,通过关键词提取算法提取“硅谷亮城”作为关键词、“北京市”作为行政区域,数据库中只存储关键词“硅谷亮城”、行政区域“北京市”及其匹配的坐标就可以解决这个问题,所以提高了预处理对地址解析的帮助、同时提高了地址解析精度,也避免了了传统地址解析对分词算法的依赖。
[0007]下面结合附图对本发明的基于关键词的地址查询方法作进一步详细说明。
【附图说明】
[0008]图1为本发明的基于关键词的地址查询方法的示意图。
【具体实施方式】
[0009]本发明基于关键词的地址查询方法,包括以下步骤:
a)获取原始地址数据,其中,该原始地址数据包括地址的文本信息和坐标信息,获取的途径有多种,例如通过互联网数据收集途径;
b)通过关键词提取算法提取原始地址数据中的关键词和行政区域;
c)用步骤b)中提取的关键词和行政区域,与原始地址数据对应的坐标构建关键词与坐标匹配数据库,并为关键词建立索引;
d)利用关键词提取算法对待查询地址“北京市海淀区上地农大南路I号院硅谷亮城2A605”提取关键词和行政区域,提取的关键词为“硅谷亮城”,提取的行政区域为“北京市海淀区”,将提取的关键词和行政区域在步骤c)构建的关键词与坐标匹配数据库中进行匹配,若匹配成功,则得到匹配的坐标;若匹配失败,则把待查询地址输入到传统地址匹配数据库中继续查询,若查询到匹配的坐标,将该坐标与对查询地址提取的关键词和行政区域添加到关键词语坐标匹配数据库中。
[0010]关键词提取算法使用条件随机场抽取关键字模型、或互信息和最大熵模型、或隐马尔科夫模型。
【主权项】
1.基于关键词的地址查询方法,其特征在于该方法包括以下步骤: a)获取原始地址数据; b)通过关键词提取算法提取所述原始地址数据中的关键词和行政区域; c)用步骤b)中提取的关键词和行政区域,与所述原始地址数据对应的坐标构建关键词与坐标匹配数据库,并为所述关键词建立索引; d)利用关键词提取算法对待查询地址提取关键词和行政区域,将提取的关键词和行政区域在步骤c)构建的关键词与坐标匹配数据库中进行匹配,若匹配成功,则得到匹配的坐标;若匹配失败,则把待查询地址输入到传统地址匹配数据库中继续查询,若查询到匹配的坐标,将该坐标与对所述查询地址提取的关键词和行政区域添加到所述关键词语坐标匹配数据库中。2.根据权利要求1所述的基于关键词的地址查询方法,其特征在于:所述关键词提取算法为条件随机场抽取关键字模型、或互信息和最大熵模型、或隐马尔科夫模型。
【专利摘要】一种基于关键词的地址查询方法,该方法包括以下步骤:a)获取原始地址数据;b)通过关键词提取算法提取所述原始地址数据中的关键词和行政区域;c)用步骤b)中提取的关键词和行政区域,与所述原始地址数据对应的坐标构建关键词与坐标匹配数据库,并为所述关键词建立索引;d)利用关键词提取算法对待查询地址提取关键词和行政区域,将提取的关键词和行政区域在步骤c)构建的关键词与坐标匹配数据库中进行匹配,若匹配成功,则得到匹配的坐标;若匹配失败,则把待查询地址输入到传统地址匹配数据库中继续查询。其目的在于提供一种提高预处理对地址解析的帮助、提高地址解析精度、避免地址解析对分词算法依赖的基于关键词的地址查询方法。
【IPC分类】G06F17/30
【公开号】CN105512121
【申请号】CN201410489016
【发明人】张伸正, 关赢, 唐乾斌, 韩建成, 闵早华
【申请人】北京汇通天下物联科技有限公司
【公开日】2016年4月20日
【申请日】2014年9月23日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1