本发明涉及数据清洗领域,具体提供一种数据清洗匹配的处理方法。
背景技术:
在目前的省级政务机构数据整合工作通过整合汇集各行业内部、社会单位、公开渠道取得的共享各类信息资源,并根据数据标准对数据资源进行标准化、规范化加工,配合信息资源平台形成扩展数据资源库。
如何解决政府部门大数据共享之间企业主体互相匹配的问题是本领域技术人员亟待解决的问题。
技术实现要素:
本发明是针对上述现有技术的不足,提供一种实用性强的数据清洗匹配的处理方法。
本发明解决其技术问题所采用的技术方案是:
一种数据清洗匹配的处理方法,采用层进匹配法,将主体信息分为几个部分,分别匹配,所述主体信息以市场局企业登记信息为准,数据源为大数据局共享交换平台申请库表数据。
进一步的,进行清洗数据库需依据市场监管局的企业登记数据为主。
进一步的,采用五层匹配处理的模式,五层匹配的顺序不发生变化,任意符合使用三项达到匹配度即可。
进一步的,依照匹配顺序,完成四层匹配即可筛除基本准确的数据,补充完善后将数据推送至数仓标准库使用。
进一步的,补充完善的比对数据为市场监管局登记信息表,从所述大数据共享交换平台获取。
进一步的,采用五层匹配处理模式中第一层匹配为使用统一社会信用代码,第一层为完全匹配符合的统一赋码。
进一步的,五层匹配处理模式中的第二层使用注册号,从剩余未匹配数据中进行匹配,符合的统一赋码。
进一步的,五层匹配处理模式中第三层使用企业名称加法定代表人,从剩余未匹配数据中进行匹配,符合的统一赋码。
进一步的,五层匹配处理模式中第四层使用企业名称加行政区划,从剩余未匹配数据中匹配,符合的统一赋码。
进一步的,五层匹配处理模式中第五层使用企业名称,从剩余未匹配数据中进行匹配,符合的统一赋码。
本发明的一种数据清洗匹配的处理方法和现有技术相比,具有以下突出的有益效果:
本发明能够根据现行政策及法规根据目前政府各个单位的系统现状进行企业主体数据的匹配和清洗。通过数据匹配之后企业登记数据,企业投资数据、企业社保、年报、税务、抽查等不同厅局单位的数据结合在一起,实现了政府部门大数据共享之间企业主体互相匹配。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1是一种数据清洗匹配的处理方法的流程示意图(一);
附图2是一种数据清洗匹配的处理方法的流程示意图(二)。
具体实施方式
为了使本技术领域的人员更好的理解本发明的方案,下面结合具体的实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
下面给出一个最佳实施例:
如图1-2所示,本实施例中的一种数据清洗匹配的处理方法,采用层进匹配法,将主体信息分为几个部分,分别匹配,所述主体信息以市场局企业登记信息为准,数据源为大数据局共享交换平台申请库表数据。
进行清洗数据库需依据市场监管局的企业登记数据为主,其中,采用五层匹配处理的模式,五层匹配的顺序不发生变化,任意符合使用三项达到匹配度即可。依照匹配顺序,完成四层匹配即可筛除基本准确的数据,补充完善后将数据推送至数仓标准库使用。补充完善的比对数据为市场监管局登记信息表,从大数据共享交换平台获取。
采用五层匹配处理模式中第一层匹配为使用统一社会信用代码,第一层为完全匹配符合的统一赋码。
五层匹配处理模式中的第二层使用注册号,从剩余未匹配数据中进行匹配,符合的统一赋码。
五层匹配处理模式中第三层使用企业名称加法定代表人,从剩余未匹配数据中进行匹配,符合的统一赋码。
五层匹配处理模式中第四层使用企业名称加行政区划,从剩余未匹配数据中匹配,符合的统一赋码。
五层匹配处理模式中第五层使用企业名称,从剩余未匹配数据中进行匹配,符合的统一赋码。
其中,第一次匹配主要针对17年统一社会信用代码在全国开展后,各个业务系统及时整改在企业信息及时完成补充的系统,此类系统如果增加了数据校验,数据匹配度精确度更高。
第二轮匹配主要针对17年前三证合一未实施,注册号在各个业务系统具备的数据,此类系统如果增加了数据校验,数据匹配度也会更加精准。
第三轮匹配主要针对无注册号也无统一社会信用代码的企业数据,企业名称和法人信息可以基本确认至某一家,由于汉字匹配存在一定失误率。
第四轮匹配主要针对只有企业简单信息的,通过企业名称和六位区划代码,可以刨除掉跨市同名企业的问题,如果名称填写准确,根据现行的企业名称命名办法基本可以定位至具体企业。
第五轮匹配主要针对已经经过多次筛选剩余不多数据的情况下,可以用企业名称兜底匹配,但是个体存在跨市同名问题,名称填写不准确,导致分店之间名称不准确问题,只能将第五条作为最后的备用。
上述具体的实施方式仅是本发明具体的个案,本发明的专利保护范围包括但不限于上述具体的实施方式,任何符合本发明的一种数据清洗匹配的处理方法的权利要求书的且任何所述技术领域普通技术人员对其做出的适当变化或者替换,皆应落入本发明的专利保护范围。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
1.一种数据清洗匹配的处理方法,其特征在于,采用层进匹配法,将主体信息分为几个部分,分别匹配,所述主体信息以市场局企业登记信息为准,数据源为大数据局共享交换平台申请库表数据。
2.根据权利要求1所述的一种数据清洗匹配的处理方法,其特征在于,进行清洗数据库需依据市场监管局的企业登记数据为主。
3.根据权利要求2所述的一种数据清洗匹配的处理方法,其特征在于,采用五层匹配处理的模式,五层匹配的顺序不发生变化,任意符合使用三项达到匹配度即可。
4.根据权利要求3所述的一种数据清洗匹配的处理方法,其特征在于,依照匹配顺序,完成四层匹配即可筛除基本准确的数据,补充完善后将数据推送至数仓标准库使用。
5.根据权利要求4所述的一种数据清洗匹配的处理方法,其特征在于,补充完善的比对数据为市场监管局登记信息表,从所述大数据共享交换平台获取。
6.根据权利要求2所述的一种数据清洗匹配的处理方法,其特征在于,采用五层匹配处理模式中第一层匹配为使用统一社会信用代码,第一层为完全匹配符合的统一赋码。
7.根据权利要求6所述的一种数据清洗匹配的处理方法,其特征在于,五层匹配处理模式中的第二层使用注册号,从剩余未匹配数据中进行匹配,符合的统一赋码。
8.根据权利要求7所述的一种数据清洗匹配的处理方法,其特征在于,五层匹配处理模式中第三层使用企业名称加法定代表人,从剩余未匹配数据中进行匹配,符合的统一赋码。
9.根据权利要求8所述的一种数据清洗匹配的处理方法,其特征在于,五层匹配处理模式中第四层使用企业名称加行政区划,从剩余未匹配数据中匹配,符合的统一赋码。
10.根据权利要求9所述的一种数据清洗匹配的处理方法,其特征在于,五层匹配处理模式中第五层使用企业名称,从剩余未匹配数据中进行匹配,符合的统一赋码。