专利名称:一种地址模型的构建方法,以及地址匹配的方法和系统的制作方法
技术领域:
本发明涉及一种地理信息表述领域,特别是指一种地址模型的构建方法,以及地址匹配的方法和系统。
背景技术:
地址信息在社会活动中无处不在,如同人类生活不可缺少的空气和水一样。据统计,80%的信息与空间有关系,而关系的主要纽带就是地址信息。这些信息几乎涉及到了所有政府部门、企事业单位和社会公众,如公安户籍、民政地名、国土地籍、工商税务法人单位、综合部门统计信息等等,无不包含着地址信息。目前,尽管这些地址描述信息已经实现了数字化,但由于缺少空间定位,故而影响了管理的效率,制约了专题信息之间的沟通和集成使用。只有将这些地址信息转换成空间坐标,专题信息才能与地理信息叠加,才能利用GIS软件的可视化和空间分析功能辅助用户应用。目前已有一些实现地址匹配的方法,如中国专利申请号为200710119220. 6的“一种地址匹配的方法和系统”就公开了这样一种技术针对符合标准描述的地址信息,例如 “北京市海淀区北太平路16号”采用城市名+区名+道路名+门牌号码的表述方式。而实际情况是,在地址描述中存在着各种各样的表达方式,例如“北京市五棵松中国人民解放军总医院”、“北京市石景山区国际雕塑公园”、“北京市石景山区永乐小区”、“北京市丰台区总部基地11区19号楼”等,在很多的地址信息中人们更习惯于采用单位名、标志地物名称等来进行描述。同时在国内大多数城市的实际情况中,存在大量的地址没有标准门牌号码的情况。由此,对于表述不规范、一致性差的地址信息,采用上述发明的方法很难对地址信息进行有效地匹配和空间定位。
发明内容
有鉴于此,本发明的主要目的在于提供一种地址模型的构建方法,以及地址匹配的方法和系统,以实现各种表达方式中地址信息的有效匹配和空间定位。本发明提供了一种地址模型构建方法,包括以下步骤A、定义地址的具有不同层次的描述粒度;B、根据所述不同层次描述粒度进行组合构建地址模型。由上可以看出,通过所述方法构建出的地址模型是可伸缩的,并以此实现了地址的分段描述。在上述方法中,步骤A所述不同层次的描述粒度包括行政区域地名、街巷名/小区名/标志地名和门楼址/单位名;步骤B所述组合包括利用所述描述粒度层次地名的非必选的有序组合。由上可以看出,可以动态组合描述粒度层次地名,从而实现灵活、有效地匹配及空间定位。
本发明提供了一种所述的地址模型的地址匹配方法,根据所述地址模型建立地址元素库;还包括以下步骤M、获取待匹配地址;N、对所述待匹配地址进行分词处理,生成不同的地址元素;0、将所述不同的地址元素通过逻辑运算到所述地址元素库进行匹配。由上可以看出,利用根据上述可伸缩的地址模型建立的地址元素库,可以对地址进行分段描述和动态组合,由此可以实现快速、有效地地址匹配。在上述方法中,所述步骤N包括子步骤Ni、将所述待匹配地址切分为不同的地址元素和非规范标志物名称;
N2、对所述非规范标志物名称标准化处理为地址元素。由上可以看出,所述地址匹配方法通过对非规范标志物名称标准化处理,实现了对于具有不规范名称的地址的准确匹配。在上述方法中,所述步骤N2包括子步骤N21、预先建立存储有非规范标志物名称与对应的地址元素的对照表数据库;N22、根据查询所述对照表数据库将所述非规范标志物名称标准化处理为地址元
ο由上可以看出,通过容易操作的对照表数据库查询,即可以实现便捷的非规范标志物名称标准化处理。在上述方法中,所述步骤N21所述的对照表数据库包括公共数据库,存储有使用频率高于设定值的非规范标志物名称与对应的地址元素的对应关系;补充数据库,存储有使用频率不高于所述设定值的非规范标志物名称与对应的地址元素的对应关系。由上可以看出,根据使用频率将非规范标志物名称分别存储,只需检索相应非规范标志物名称,而不必检索所有的非规范标志物名称,从而有利于减少冗余检索,提高数据库的检索速度。在上述方法中,还包括判断补充数据库中的非规范标志物名称被查询频率高于所述设定值时,对应转移存储至公共数据库。由上可以看出,对照表数据库的如上设置可以实现对照表数据库的自学习功能, 即可以自动补充经常出现的、已可被当作是标准名称的非规范标志物名称,从而节省了手动录入该部分数据的劳动强度。本发明还提供了一种地址匹配系统,包括终端,用于获取待匹配地址;地址元素库,存储有地址元素;对照表数据库,存储有非规范标志物名称与对应的地址元素;运行服务器,用于对所述待匹配地址进行分词处理,生成不同的地址元素和非规范标志物名称;根据查询所述对照表数据库将所述非规范标志物名称标准化处理为地址元素;将所述不同的地址元素通过逻辑运算到所述地址元素库进行匹配。
由上可以看出,上述系统利用根据上述可伸缩的地址模型建立的地址元素库,可以对地址进行分段描述和动态组合,由此可以实现快速、有效地地址匹配。在上述系统中,所述对照表数据库包括公共数据库,存储有使用频率高于设定值的非规范标志物名称与对应的地址元素的对应关系;补充数据库,存储有使用频率不高于所述设定值的非规范标志物名称与对应的地址元素的对应关系。由上可以看出,通过设置的两种数据库分别存储使用频率在设定值上下的非规范标志物名称,可以实现在检索时只需检索相应非规范标志物名称,而不必检索所有的非规范标志物名称,从而有利于减少冗余检索,提高数据库的检索速度。
图1为本发明提供的一种地址模型构建方法的流程图;图2为本发明提供的一种地址模型构建方法中城市行政区划组合的示意图;图3为本发明提供的一种地址模型构建方法中地址表达方式与地址元素的对照图;图4为本发明提供的一种地址模型匹配方法的流程图;图5为利用本发明提供的一种地址模型匹配方法进行地址匹配的操作界面示意图其中,(A)为操作界面上待匹配地址数据的示意图,(B)为操作界面上地址数据的匹配结果示意图;图6为利用本发明提供的一种地址模型匹配方法进行地址匹配的结果统计图。
具体实施例方式下面结合附图,详细介绍本发明提供的一种地址模型的构建方法,以及地址匹配的方法和系统。如图1所示,本发明提供的一种地址模型的构建方法包括以下步骤步骤101 定义地址的描述粒度。在本实施例中,可将地址的描述粒度分为三个层次,即行政区域地名、街巷名/小区名/标志地名、门楼址(门楼牌号码)/单位名。通常,所述的行政区域地名是指行政区域(行政管辖范围,对于一个城市而言,包括城市级、县区级、乡镇街道级行政区划范围)规范名称的文字描述。例如“北京市”、“海淀区”、“万寿路街道”等等。所述的街巷名是指街巷(街是明确划分出车道和人行便道的通行区域;巷是较窄的街道,如胡同、条、弄等)规范名称的文字描述。例如“复兴路”、“校场三条”等。所述小区名是指小区(居住相对集中在一起的生活聚集地,如自然村落、居民小区等)规范名称的文字描述。例如“永乐小区”、“五芳园小区”等。所述标志地名是指有地理指示意义的标志性称呼或名称。例如“公主坟”、“五棵松”等。所述单位名是指单位的规范名称。例如“中国测绘科学研究院”等。
所述门楼址是指门牌号码和楼牌号码。例如“16号院”、“8号楼”等。
步骤102根据所述描述粒度构建地址模型。
地址模型(地址组合)以地址的描述粒度为核心,通过定义不同描述粒度层次地址的描述规则(地名),实现地址表达的自动伸缩。利用上述三个描述粒度层次地名的非必选的有序组合,构成所述地址模型以精确定位地址。例如,在一个城市内,如果道路名/小区名是唯一的,则利用道路名/小区名+门楼址便可精确定位一个地址。按照上述三种地址描述粒度层次的划分,结合我国通常的地址表达习惯,可能存在的地址表达伸缩组合共有以下9种
1)行政区域地名 街巷名,如“北京市海淀区北太平路”;
2)行政区域地名 小区名,如“北京市石景山区永乐小区”;
3)行政区域地名 标志地名,如“北京市丰台区总部基地”;
4)行政区域地名 单位名,如“北京市海淀区中国测绘科学研究院”;
5)行政区域地名 街巷名 门楼址,如“北京市海淀区北太平路16号”;
6)行政区域地名 街巷名 单位名,如“北京市海淀区北太平路中国测绘科学研究院”;
7)行政区域地名 小区名 门楼址,如“北京市石景山区永乐小区6号楼”;
8)行政区域地名 小区名 单位名,如“北京市石景山区永乐小区社区服务中心”;
9)行政区域地名 标志地名 单位名,如“北京市五棵松名仕医院”。
其中,在行政区域地名的表达中,对于城市而言,又分为三个描述粒度层次,即城市级、县区级、乡镇街道级。如图2所示,这三级行政区划的组合具有唯一性。
如图4所示,本发明提供的地址匹配方法包括以下步骤
步骤20l构建地址元素库。
在本实施例中,如图3所示,按照上述三个描述粒度层次(行政区域地名、街巷名/小区名/标志地名、门楼址/单位名)划分,共有8种地址元素,包括城市级行政区划地名(包括城市名、城市别名)、县区级行政区划地名(包括区县名、区县别名)、乡镇街道级行政区划地名(乡、镇、街道办名)、街巷名(包括道路名)、小区名(包括小区名、小区别名)、标志地名、门楼址以及单位名。根据所述地址模型对地名/地址描述的规则,采用三个数据表(各数据表的结构和样例详见下列表l、表2和表3)进行关联表达。
表l
权利要求
1.一种地址模型构建方法,其特征在于,包括以下步骤A、定义地址的具有不同层次的描述粒度;B、根据所述不同层次描述粒度进行组合构建地址模型。
2.根据权利要求1所述的方法,其特征在于,步骤A所述不同层次的描述粒度包括行政区域地名、街巷名/小区名/标志地名和门楼址/单位名;步骤B所述组合包括利用所述描述粒度层次地名的非必选的有序组合。
3.—种如权利要求1所述的地址模型的地址匹配方法,其特征在于,根据所述地址模型建立地址元素库;还包括以下步骤M、获取待匹配地址;N、对所述待匹配地址进行分词处理,生成不同的地址元素;0、将所述不同的地址元素通过逻辑运算到所述地址元素库进行匹配。
4.根据权利要求3所述的方法,其特征在于,所述步骤N包括子步骤 Ni、将所述待匹配地址切分为不同的地址元素和非规范标志物名称; N2、对所述非规范标志物名称标准化处理为地址元素。
5.根据权利要求4所述的方法,其特征在于,所述步骤N2包括子步骤 N21、预先建立存储有非规范标志物名称与对应的地址元素的对照表数据库;N22、根据查询所述对照表数据库将所述非规范标志物名称标准化处理为地址元素。
6.根据权利要求5所述的方法,其特征在于,所述步骤N21所述的对照表数据库包括 公共数据库,存储有使用频率高于设定值的非规范标志物名称与对应的地址元素的对应关系;补充数据库,存储有使用频率不高于所述设定值的非规范标志物名称与对应的地址元素的对应关系。
7.根据权利要求6所述的方法,其特征在于,还包括判断补充数据库中的非规范标志物名称被查询频率高于所述设定值时,对应转移存储至公共数据库。
8.一种地址匹配系统,其特征在于,包括 终端,用于获取待匹配地址;地址元素库,存储有地址元素;对照表数据库,存储有非规范标志物名称与对应的地址元素;运行服务器,用于对所述待匹配地址进行分词处理,生成不同的地址元素和非规范标志物名称;根据查询所述对照表数据库将所述非规范标志物名称标准化处理为地址元素; 将所述不同的地址元素通过逻辑运算到所述地址元素库进行匹配。
9.根据权利要求8所述的方法,其特征在于,所述对照表数据库包括公共数据库,存储有使用频率高于设定值的非规范标志物名称与对应的地址元素的对应关系;补充数据库,存储有使用频率不高于所述设定值的非规范标志物名称与对应的地址元素的对应关系。
全文摘要
本发明提供了一种地址模型构建方法,包括步骤A、定义地址的具有不同层次的描述粒度;B、根据所述不同层次描述粒度进行组合构建地址模型。一种所述地址模型的地址匹配方法,根据所述地址模型建立地址元素库;还包括步骤M、获取待匹配地址;N、对所述待匹配地址进行分词处理,生成不同的地址元素;O、将所述不同的地址元素通过逻辑运算到所述地址元素库进行匹配。以及一种地址匹配系统,包括终端,地址元素库,对照表数据库和运行服务器。从而实现各种表达方式中地址信息的有效匹配和空间定位。
文档编号G06F17/30GK102169498SQ20111009382
公开日2011年8月31日 申请日期2011年4月14日 优先权日2011年4月14日
发明者刘勇, 印洁, 孙隆祥, 张成成, 方驰宇, 李成名, 殷勇, 焦孟凯, 王继周, 赵占杰, 赵园春, 路文娟, 金志国, 马照亭 申请人:中国测绘科学研究院