1.本技术涉及数据处理技术领域,特别涉及一种企业信用数据处理方法及装置。
背景技术:2.征信本质上属于信用信息服务,在实践中表现为专业化的机构依法采集、调查、保存、整理、提供企业和个人的信用信息,并对其资信状况进行评价,以此满足从事信用活动的机构在信用交易中对信用信息的需要,解决信息不对称的问题。
3.征信的核心离不开数据的支撑,目前工商注册企业有上亿个,基数非常庞大。企业信用数据涉及到的维度多种多样,例如工商信息、司法涉诉信息、知识产权信息、产品信息等。企业信用数据的获取方式也非常丰富,可以通过用户填报、通过技术手段抓取、数据采购、数据交换等,不同渠道获取到的数据的维度和数据质量不同,面对海量数据,针对多种来源的企业信用数据如何进行融合存储是急需解决的基础核心关键问题。
技术实现要素:4.本技术提供了一种企业信用数据处理方法及装置,用以解决现有技术中存在的无法对多源企业信用数据进行融合存储的问题。
5.第一方面,本技术提供了一种企业信用数据处理方法,所述方法包括:
6.创建用于识别企业的企业唯一标识集合;
7.获取多源企业信用数据,并基于目标企业的企业唯一标识集合,从所述多源企业信用数据中确定出与所述目标企业的企业唯一标识相匹配的目标企业信用数据;
8.将所述目标企业信用数据转换成预设数据格式的企业信用数据;
9.基于预设的各数据源的各维度数据的权重值,对转换成预设数据格式的企业信用数据进行数据融合处理。
10.可选地,一个企业的企业唯一标识集合至少包括:
11.所述一个企业的企业名称;和/或,
12.所述一个企业的统一社会信用代码;和/或,
13.所述一个企业的工商注册号。
14.可选地,将所述目标企业信用数据转换成预设数据格式的企业信用数据后,所述方法还包括:
15.基于预设的数据存储方式将所述转换成预设数据格式的企业信用数据存储至hbase分布式存储系统中。
16.可选地,基于预设的各数据源的各维度数据的权重值,对转换成预设数据格式的企业信用数据进行数据融合处理的步骤包括:
17.判断所述转换成预设数据格式的企业信用数据中是否存在维度相同的多条企业信用数据;
18.若判定所述转换成预设数据格式的企业信用数据中不存在维度相同的多条企业
信用数据,则将所述转换成预设数据格式的企业信用数据作为所述目标企业的企业信用数据。
19.可选地,所述方法还包括:
20.若判定所述转换成预设数据格式的企业信用数据中存在数据维度相同的多条企业信用数据,则将所述数据维度下权重值最高的数据源的企业信用数据作为所述目标企业在所述数据维度下的企业信用数据。
21.第二方面,本技术提供了一种企业信用数据处理装置,所述装置包括:
22.创建单元,用于创建用于识别企业的企业唯一标识集合;
23.获取单元,用于获取多源企业信用数据,并基于目标企业的企业唯一标识集合,从所述多源企业信用数据中确定出与所述目标企业的企业唯一标识相匹配的目标企业信用数据;
24.转换单元,用于将所述目标企业信用数据转换成预设数据格式的企业信用数据;
25.融合单元,用于基于预设的各数据源的各维度数据的权重值,对转换成预设数据格式的企业信用数据进行数据融合处理。
26.可选地,一个企业的企业唯一标识集合至少包括:
27.所述一个企业的企业名称;和/或,
28.所述一个企业的统一社会信用代码;和/或,
29.所述一个企业的工商注册号。
30.可选地,将所述目标企业信用数据转换成预设数据格式的企业信用数据后,所述装置还包括:
31.存储单元,用于基于预设的数据存储方式将所述转换成预设数据格式的企业信用数据存储至hbase分布式存储系统中
32.可选地,基于预设的各数据源的各维度数据的权重值,对转换成预设数据格式的企业信用数据进行数据融合处理时,所述融合单元具体用于:
33.判断所述转换成预设数据格式的企业信用数据中是否存在维度相同的多条企业信用数据;
34.若判定所述转换成预设数据格式的企业信用数据中不存在维度相同的多条企业信用数据,则将所述转换成预设数据格式的企业信用数据作为所述目标企业的企业信用数据。
35.可选地,所述融合单元还用于:
36.若判定所述转换成预设数据格式的企业信用数据中存在数据维度相同的多条企业信用数据,则将所述数据维度下权重值最高的数据源的企业信用数据作为所述目标企业在所述数据维度下的企业信用数据。
37.第三方面,本技术提供了一种企业信用数据处理装置,该装置包括:
38.存储器,用于存储程序指令;
39.处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行如上述第一方面中任一项所述的方法的步骤。
40.第四方面,本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使所述计算机执行如上述第
一方面中任一项所述方法的步骤。
41.综上可知,本技术实施例提供的企业信用数据处理方法,创建用于识别企业的企业唯一标识集合;获取多源企业信用数据,并基于目标企业的企业唯一标识集合,从所述多源企业信用数据中确定出与所述目标企业的企业唯一标识相匹配的目标企业信用数据;将所述目标企业信用数据转换成预设数据格式的企业信用数据;基于预设的各数据源的各维度数据的权重值,对转换成预设数据格式的企业信用数据进行数据融合处理。
42.采用本技术实施例提供的企业信用数据处理方法,通过将数据标准化和数据融合分离,可以最大限度的保存原始数据,通过将数据融合后置,根据数据融合权重因子进行动态数据融合,可以满足多场景下不同的融合要求,可以更好的适应业务场景的需要。
附图说明
43.为了更加清楚地说明本技术实施例或者现有技术中的技术方案,下面将对本技术实施例或者现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据本技术实施例的这些附图获得其他的附图。
44.图1为本技术实施例提供的一种企业信用数据处理方法的详细流程图;
45.图2为本技术实施例提供的另一种企业信用数据处理方法的详细流程图;
46.图3为本技术实施例提供的一种企业信用数据处理装置的结构示意图;
47.图4为本技术实施例提供的另一种企业信用数据处理装置的结构示意图。
具体实施方式
48.在本技术实施例使用的术语仅仅是出于描述特定实施例的目的,而非限制本技术。本技术和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其它含义。还应当理解,本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。
49.应当理解,尽管在本技术实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本技术范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,此外,所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
50.示例性的,参阅图1所示,为本技术实施例提供的一种企业信用数据处理方法的详细流程图,该方法包括以下步骤:
51.步骤100:创建用于识别企业的企业唯一标识集合。
52.具体地,本技术实施例中,一个企业的企业唯一标识集合至少包括:
53.所述一个企业的企业名称;和/或,所述一个企业的统一社会信用代码;和/或,所述一个企业的工商注册号。
54.也就是说,可以根据一个企业的企业名称,统一社会信用代码和工商注册号,来识别一个企业。
55.本技术实施例中,从多个数据源获取到的企业信用数据中,包括多个企业的企业
信用数据,一个企业的企业信用数据又包括多个维度的企业信用数据,那么,在对企业信用数据进行处理前,需要将从多个数据源获取到的企业信用数据进行数据归属企业划分。
56.实际应用中,进行数据融合的第一步,就是要能够根据企业信用数据关键信息对应到相应的企业上,因此企业识别的方法是数据融合的基础。
57.具体地,本技术实施例中,可以通过创建《企业唯一标识,企业名称,统一社会信用代码,工商注册号》的四元映射表来识别企业。
58.一种构建四元组映射表步骤如下:
59.1、如果企业数据信息有统一社会信用代码,则企业唯一标识为统一社会信用代码,不满足则进入2;
60.2、如果企业数据信息有工商注册号,则企业唯一标识为工商注册号,不满足则进入3;
61.3、根据企业名称生成企业唯一标识。
62.步骤110:获取多源企业信用数据,并基于目标企业的企业唯一标识集合,从所述多源企业信用数据中确定出与所述目标企业的企业唯一标识相匹配的目标企业信用数据。
63.本技术实施例中,上述目标企业为任一企业。针对每一企业均可执行本技术实施例提供的企业信用数据处理方式。
64.实际应用中,企业信用数据的获取方式也非常丰富,例如,可以通过用户填报、通过技术手段抓取、数据采购、数据交换等方式获取到多数据源的企业信用数据。
65.在获取到多源企业信用数据之后,需要对多源企业信用数据进行预处理,将多源企业信用数据进行企业归属划分处理。即,从进行数据处理,从多源企业信用数据中分别找到各企业的企业信用数据。
66.例如,假设企业信用数据1中包括目标企业的企业名称,则该企业信用数据1归属于目标企业;企业信用数据2中包括目标企业的统一社会信用代码,则该企业信用数据2归属于目标企业;企业信用数据3中包括目标企业的工商注册号,则该企业信用数据3归属于目标企业。
67.步骤120:将所述目标企业信用数据转换成预设数据格式的企业信用数据。
68.实际应用中,一个企业的企业信用数据也是多维度的数据,如,涉及工商信息、司法涉诉信息、知识产权信息、产品信息等多个维度。且每个数据源其定义的数据格式是不完全相同的。那么,在对数据进行融合处理之前,需要按照预设要求将各维度企业信用数据转换成预设数据格式的企业信用数据。
69.例如,企业信用数据维度多,即使对于维度相同的数据模块,每个数据源的定义和格式可能都不相同,因此数据融合的基础是要定义标准模块字典表,定义每个模块的数据唯一性的区分办法,在标准模块字典表的基础之上,结合数据源的名称,来定义不同数据源的各数据模块,并定义数据源数据模块与标准模块字典表的映射表,使用该映射表作为数据标准化的参考依据。
70.进一步地,本技术实施例中,将所述目标企业信用数据转换成预设数据格式的企业信用数据后,上述企业信用数据处理方法还可以包括以下步骤:
71.基于预设的数据存储方式将所述转换成预设数据格式的企业信用数据存储至hbase分布式存储系统中。
72.实际应用中,企业信用数据维度多,不同企业之间的数据维度差异大,因此,企业信用数据是一个稀疏矩阵,本技术实施例中,采用hbase作为数据存储平台。hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,它是一个适合于非结构化数据存储的数据库。数据存储的方法步骤如下:
73.1、hbase存储的关键是rowkey的设计,本技术实施例中,使用企业唯一标识识别办法中企业唯一标识作为rowkey的计算因子,对企业唯一标识进行hash计算,得到hash结果,然后对hash的结果的绝对值进行模n(n指的是hbase表预分区的个数)运行,得到余数r,以r为前缀+企业唯一标识作为rowkey。
74.2、使用数据模块定义与命名办法定义的数据源数据模块与标准模块字典表的映射表,将数据源的数据按照映射表要求,完成数据格式标准化转换,并以数据源名称+标准模块名为hbase存储的列名进行存储。
75.步骤130:基于预设的各数据源的各维度数据的权重值,对转换成预设数据格式的企业信用数据进行数据融合处理。
76.本技术实施例中,在基于预设的各数据源的各维度数据的权重值,对转换成预设数据格式的企业信用数据进行数据融合处理时,一种较佳的实现方式为:
77.判断所述转换成预设数据格式的企业信用数据中是否存在维度相同的多条企业信用数据;若判定所述转换成预设数据格式的企业信用数据中不存在维度相同的多条企业信用数据,则将所述转换成预设数据格式的企业信用数据作为所述目标企业的企业信用数据。
78.也就是说,各数据源提供的目标企业的企业信用数据的数据维度不重合,如,数据源1提供的目标企业的企业信用数据包括数据维度1,数据维度2,数据源2提供的目标企业的企业信用数据包括数据维度3,数据维度4,即不存在数据维度重合的情况,此时,就可以将数据维度1,数据维度2,数据维度3和数据维度4对应的企业信用数据作为目标企业的企业信用数据。
79.进一步地,若判定所述转换成预设数据格式的企业信用数据中存在数据维度相同的多条企业信用数据,则将所述数据维度下权重值最高的数据源的企业信用数据作为所述目标企业在所述数据维度下的企业信用数据。
80.也就是说,针对目标企业来说,多个数据源中存在数据维度相同的多条企业信用数据,那么,就需要对这多条数据维度相同的多条企业信用数据进行取舍操作。
81.例如,数据源1提供的目标企业的企业信用数据包括数据维度1,数据维度2,数据源2提供的目标企业的企业信用数据包括数据维度1,数据维度3,即数据维度(数据维度1)重合的情况,此时,就需要确定哪个数据源提供的数据维度1的企业信用数据的可靠性高,并将可靠性高的数据源提供的数据维度1对应的企业信用数据作为目标企业在数据维度1上的企业信用数据。当然,数据维度2和数据维度3不存在重合的情况,可以将数据维度2,数据维度3对应的企业信用数据作为目标企业的企业信用数据。
82.具体地,不同的业务场景对数据质量要求不同,为了能够灵活的满足数据使用的要求,这里把数据融合的权重因子作为参数,让业务来决定,具体融合步骤如下:
83.1、输入企业唯一标识,要查询的数据模块,以及该模块对于不同数据源的权重因子;
84.2、查询出该企业的指定模块的多个数据源的数据;
85.3、如果多个数据源之间的数据没有重合,则直接进行合并处理,如果多个数据数据源之间的数据有重合,则根据权重因子高低进行合并;
86.4、然后返回融合之后的数据。
87.下面结合具体场景对本技术实施例提供的企业信用数据处理方法进行详细说明,示例性的,参阅图2所示,为本技术实施例提供的一种企业信用数据处理方法的详细流程图,该方法包括以下步骤:
88.步骤1:构建企业唯一标识映射四元组。
89.步骤2:定义标准数据模块,定义多数据数据模块与标准数据模块的映射表。
90.步骤3:根据相关映射表将多数据源的企业信用数据关联到企业唯一标识。
91.步骤4:根据数据融合权重因子,动态进行数据融合,满足多场景下不同数据融合要求。
92.基于与上述方法实施例同样的发明构思,示例性的,参阅3所示,为本技术实施例提供的一种企业信用数据处理装置的结构示意图,该装置包括:
93.创建单元30,用于创建用于识别企业的企业唯一标识集合;
94.获取单元31,用于获取多源企业信用数据,并基于目标企业的企业唯一标识集合,从所述多源企业信用数据中确定出与所述目标企业的企业唯一标识相匹配的目标企业信用数据;
95.转换单元32,用于将所述目标企业信用数据转换成预设数据格式的企业信用数据;
96.融合单元33,用于基于预设的各数据源的各维度数据的权重值,对转换成预设数据格式的企业信用数据进行数据融合处理。
97.可选地,一个企业的企业唯一标识集合至少包括:
98.所述一个企业的企业名称;和/或,
99.所述一个企业的统一社会信用代码;和/或,
100.所述一个企业的工商注册号。
101.可选地,将所述目标企业信用数据转换成预设数据格式的企业信用数据后,所述装置还包括:
102.存储单元,用于基于预设的数据存储方式将所述转换成预设数据格式的企业信用数据存储至hbase分布式存储系统中
103.可选地,基于预设的各数据源的各维度数据的权重值,对转换成预设数据格式的企业信用数据进行数据融合处理时,所述融合单元33具体用于:
104.判断所述转换成预设数据格式的企业信用数据中是否存在维度相同的多条企业信用数据;
105.若判定所述转换成预设数据格式的企业信用数据中不存在维度相同的多条企业信用数据,则将所述转换成预设数据格式的企业信用数据作为所述目标企业的企业信用数据。
106.可选地,所述融合单元33还用于:
107.若判定所述转换成预设数据格式的企业信用数据中存在数据维度相同的多条企
业信用数据,则将所述数据维度下权重值最高的数据源的企业信用数据作为所述目标企业在所述数据维度下的企业信用数据。
108.以上这些单元可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(application specific integrated circuit,简称asic),或,一个或多个微处理器(digital singnal processor,简称dsp),或,一个或者多个现场可编程门阵列(field programmable gate array,简称fpga)等。再如,当以上某个单元通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(central processing unit,简称cpu)或其它可以调用程序代码的处理器。再如,这些单元可以集成在一起,以片上系统(system-on-a-chip,简称soc)的形式实现。
109.进一步地,本技术实施例提供的企业信用数据处理装置,从硬件层面而言,所述企业信用数据处理装置的硬件架构示意图可以参见图4所示,所述牲畜信息管理装置可以包括:存储器40和处理器41,
110.存储器40用于存储程序指令;处理器41调用存储器40中存储的程序指令,按照获得的程序指令执行上述方法实施例。具体实现方式和技术效果类似,这里不再赘述。
111.可选地,本技术还提供一种企业信用数据处理设备,包括用于执行上述方法实施例的至少一个处理元件(或芯片)。
112.可选地,本技术还提供一种程序产品,例如计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令用于使该计算机执行上述方法实施例。
113.这里,机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:ram(radom access memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
114.上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
115.为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本技术时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
116.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
117.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程
序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
118.而且,这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。
119.这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
120.以上所述仅为本技术的较佳实施例而已,并不用以限制本技术,凡在本技术的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本技术保护的范围之内。