
1.本发明涉及大数据应用技术领域,尤其涉及一种工商主体唯一性的识别方法。
背景技术:2.现有对于海量企业唯一性识别大多通过企业名称与企业代码,对于企业迁入迁出,注销企业重新营业或者企业更名等情况的识别会存在误差,对于企业代码等数据缺失情况也无法进行精准识别,本发明通过加入其他要素经过严谨的逻辑计算能够更好更精准的识别海量企业的唯一性。
技术实现要素:3.针对上述现有企业唯一性识别在特殊情况下会存在误差问题,本发明提供复用性高,分配精准,对于数据来源复杂的适用性高的一种工商主体唯一性的识别方法。
4.一种工商主体唯一性的识别方法,包括以下步骤:
5.s1、收集待识别工商主体的四要素信息;
6.s2、根据待识别工商主体的类型,对四要素选择相应的主函数进行处理,得到处理结果;
7.s3、基于所述s2步骤的处理结果,输出待识别工商主体的唯一工商主体id。
8.本发明通过收集待识别工商主体的企业名称、企业代码、工商注册号及注册日期四个要素,通过企业函数与个体户函数两个主函数,对于某一工商主体的四要素进行处理,如能确定四要素来源是企业或者个体,则可以单独运行其中一个函数;如不能确定,则需先后经过企业函数后经过个体户函数处理,判断企业类型是企业还是个体户并返回唯一工商主体id。
9.进一步的,所述待识别工商主体的四要素包括企业名称、企业代码、工商注册号及注册日期中的一种或任意组合。
10.进一步的,所述待识别工商主体的类型包括企业、个体户及未知类型。
11.进一步的,主函数包括企业函数及个体户函数,所述企业函数包括存量匹配、更新企业字典表及企业唯一id返回;所述个体户函数包括个存量匹配、更新个体户字典表及个体户唯一id返回。
12.进一步的,所述存量匹配包括企业存量匹配、个体户存量匹配及匹配失败重新分配,存量匹配的结果进行更新企业字典表或更新个体户字典表。
13.进一步的,所述存量匹配结果包括唯一非零企业id、企业id为零、唯一非零个体户id及个体户id为零,所述唯一非零企业id及唯一非零个体户id的存量匹配的结果进行更新企业字典表或更新个体户字典表;所述企业id为零及个体户id的存量匹配结果为零并舍弃。
14.进一步的,所述匹配失败重新分配为对四要素进行是否符合要素规则进行判断,若符合,分配新的唯一非零企业id或唯一非零个体户id返回;若不符合,返回零。
15.进一步的,所述步骤s2还包括:
16.s201、待识别工商主体类型为企业,选择企业函数进行处理;
17.s202、待识别工商主体类型为个体户,选择个体户函数进行处理;
18.s203、待识别工商主体类型为未知类型,选择企业函数进行处理。
19.进一步的,所述步骤s203中,若企业函数无法待识别工商主体类型,则继续采用个体户函数进行识别。
20.相比于现有技术,本发明的优点及有益效果在于:本发明可通过将代码封装成函数,直接调度,复用性高;通过复杂的逻辑判断及字典表特殊结构分配自增的id,保证分配的精准;对于不同数据来源,四要素具体数据情况复杂多样,通过不断迭代更新字典表内的数据,更好的适用多种数据来源;精确完成对工商主体的唯一性识别。
附图说明
21.图1为本发明的流程示意简图;
22.图2为本发明企业函数的企业存量匹配逻辑图;
23.图3为本发明企业函数的个体户存量匹配逻辑图
24.图4为本发明企业函数的匹配失败重新分配逻辑图
25.图5为本发明企业函数的更新企业字典表逻辑图
26.图6为本发明个体户函数的个体户存量匹配逻辑图
27.图7为本发明个体户函数的企业存量匹配逻辑图
28.图8为本发明个体户函数的匹配失败重新分配逻辑图;
29.图9为本发明个体户的更新个体户字典表逻辑图
30.图10为本发明实施例中工商主体的字典表实际落地图;
31.图11为本发明实施例中工商主体的数据来源四要素情况图;
32.图12为本发明实施例中工商主体的字典表生成情况。
具体实施方式
33.为了使本发明的目的、技术方案及优点更加清楚明白,下面通过具体实施方式结合附图对本发明做进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
34.如图1所示,一种工商主体唯一性的识别方法,包括以下步骤:
35.s1、收集待识别工商主体的四要素信息;
36.s2、根据待识别工商主体的类型,对四要素选择相应的主函数进行处理,得到处理结果;
37.s3、基于s2步骤的处理结果,输出待识别工商主体的唯一工商主体id。
38.本发明通过收集待识别工商主体的企业名称、企业代码、工商注册号及注册日期四个要素,通过企业函数与个体户函数两个主函数,对于某一工商主体的四要素进行处理,如能确定四要素来源是企业或者个体,则可以单独运行其中一个函数;如不能确定,则需先后经过企业函数后经过个体户函数处理,判断企业类型是企业还是个体户并返回唯一工商主体id。
39.具体的,待识别工商主体的四要素包括企业名称、企业代码、工商注册号及注册日期中的一种或任意组合。
40.如图2所示,以企业函数中的企业存量匹配逻辑图为例,四要素首先需要经过清洗函数处理为统一格式,具体处理逻辑如图中所示,从上至下依次判断每个条件,依次对每个条件进行存量匹配,若匹配成功,则进行该条件后面的处理流程。
41.具体的,待识别工商主体的类型包括企业、个体户及未知类型。
42.具体的,主函数包括企业函数及个体户函数,企业函数包括存量匹配、更新企业字典表及企业唯一id返回;个体户函数包括个体户存量匹配、更新个体户字典表及个体户唯一id返回。
43.具体的,如图2-4及图6-8所示,存量匹配包括企业存量匹配、个体户存量匹配及匹配失败重新分配,存量匹配的结果进行更新企业字典表或更新个体户字典表。
44.其中,匹配失败重新分配处理逻辑如图2及图8所示,如果待识别工商主体的存量没有匹配到,则进行工商主体id重新分配,具体分配方式如图所示,重新分配成功后,根据返回的工商主体id的类型对相应的字典表进行更新。
45.如图5及图9所示,企业函数的更新企业字典表及个体户的个体户更新字典表处理逻辑,字典表中设置企业名称,企业代码,工商注册号,注册日期联合唯一,企业id自增);再经过个体存量匹配部分。
46.企业函数的更新企业字典表及个体户的个体户更新字典表具体为:四要素及企业id落地到对应字典表内,落地条件为length(企业名称)》3or length(企业代码)》3or length(注册号)》3,字典表更新落地后将最终的存量匹配结果返回。
47.具体的,存量匹配结果包括唯一非零企业id、企业id为零、唯一非零个体户id及个体户id为零,唯一非零企业id及唯一非零个体户id的存量匹配的结果进行更新企业字典表或更新个体户字典表;企业id为零及个体户id的存量匹配结果为零并舍弃。
48.当已知待识别工商主体类型时,企业id为零及个体户id为零的存量匹配结果为工商主体的四要素错误;当待识别工商类型为未知类型时,存量匹配结果为零,其原因是可能为个体户,所以企业函数最终返回结果为零,对于这种情况需要继续使用个体户函数,如果存量匹配仍然为零,最终才会被断定为异常数据。
49.企业函数在匹配存量的时候会先进行企业存量匹配,也就是匹配企业字典表,而后继续匹配个体户字典表,如图2及图3,个体户函数也是同理,先进行个体户存量匹配,再进行企业存量匹配,也就是匹配个体户字典表,而后继续匹配企业字典表,如图6及图7,企业函数及个体户函数之所以要两种类型都匹配,是因为存在企业转个体,个体转企业的情况,经过存量匹配后,更新字典表等相关操作都是在对应企业函数与个体户函数内独立的,企业函数与个体户函数互不干预。
50.具体的,匹配失败重新分配为对四要素进行是否符合要素规则进行判断,若符合,分配新的唯一非零企业id或唯一非零个体户id返回;若不符合,返回零。
51.具体的,步骤s2还包括:
52.s201、待识别工商主体类型为企业,选择企业函数进行处理;
53.s202、待识别工商主体类型为个体户,选择个体户函数进行处理;
54.s203、待识别工商主体类型为未知类型,选择企业函数进行处理。
55.具体的,步骤s203中,若企业函数无法待识别工商主体类型,则继续采用个体户函数进行识别。
56.通过对未知类型的工商主体先后使用企业函数与个体户函数处理,能够知道该工商主体的类型,并返回该工商主体的唯一工商主体id。
57.具体实施例如图10-12所示,以阿里巴巴(中国)网络技术有限公司为例,数据库真实字典表落地情况如图10,因商业机密企业的唯一工商主体id不做展示,但每条数据对应相同唯一工商主体id,因多渠道来源四要素来源会有差异,四要素在字典表内联合唯一,经过主函数补全重新落地字典表会形成多条记录,但都对应同一个唯一工商主体id。为方便理解本发明,我们尽可能多的还原数据来源情况,假设数据来源及数据情况如图11,为避免歧义,公示系统数据最后过主函数,最终生成的字典表如图12,因字典表落地数据成立日期都不为空,每次从字典表内取数都以最新更新时间为准,所以对于除成立日期外其他要素因来源有所不同时,仍能准确定位,成立日期不同,其他要素相同,可能因迁入迁出或注吊销原因,本发明判定为两家企业。
58.以上内容是结合具体的实施方式对本发明所做的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。