本发明属于数据分析,具体涉及一种基于信任度算法归集人员资金数据的方法和装置。
背景技术:
1、当前社会正在进行数字化转型,各行各业每时每刻都产生着各种数据,这些数据中蕴含着丰富的潜在知识,各行各业的决策者也意识到了这些大量数据的价值,利用云计算、数据挖掘、数据治理等新兴技术从这些大数据中挖掘知识,支持决策以及进行犯罪证据查询。但由于数据来源的多样性,真实数据的复杂性,采集来的大数据有相当一部分信息量不足或缺少人员属性,造成数据的不完整,例如银行数据,不同的银行的调单数据就是不一样的。
2、分析中人员是重点,所有的分析都是针对人员来做的,分析人员时,需要把同一个人员的资金数据归集到一起。数据越多,数据格式也就越多,多份数据就可能会造成数据冲突问题,例如同一个卡号在不同的平台有不同的姓名,同一个身份证有不同的姓名,在分析时会造成很大的误导,所以需要统一处理数据,保证数据的准确性,保证同一个人员的属性都是唯一的。
3、传统的人员属性更新方法在导入不同的数据来源数据时,需要带上人员属性字段,这样在数据中会存在人员属性,该方法需要对应数据源特别匹配,能够解决导入某一个数据源的数据问题,但不能解决不同数据源的数据,不能保证数据的准确性,并且影响性能。
4、以上方法无法将缺失人员或人员信息不一致的资金数据归集到同一人员下,在以人为维度进行资金数据分析时,就不能准确的分析此人名下的完整资金数据,给挖掘出有效线索带来很大困难。
5、有鉴于此,提出一种基于信任度算法归集人员资金数据的方法和装置是非常具有意义的。
技术实现思路
1、为了解决现有传统的人员属性更新方法能够解决导入某一个数据源的数据问题,但不能解决不同数据源的数据,不能保证数据的准确性,并且影响性能的问题,本发明提供一种基于信任度算法归集人员资金数据的方法和装置,在实时入库时,对多数据来源的人员信息根据人员信息信任度算法进行整合,使缺失人员或人员信息不一致的资金数据归集到正确人员下,以解决上述存在的技术缺陷问题。
2、第一方面,本发明提出了一种基于信任度算法归集人员资金数据的方法,该方法包括如下步骤:
3、响应于导入一批文件的资金数据;
4、基于预设的人员信息信任度计算公式,依次计算该批所述文件中的每一文件中每个卡号的人员信息权重值,其中所述卡号的人员信息权重的系数按照预设规则进行确定;
5、处理完所有所述文件后,对每个卡号的所述人员信息权重值进行求和,然后除以该卡号的人员信息数据的总条数,得到每个卡号最终确认的人员信息信任度t;以及
6、基于获得的每个卡号最终确认的所述人员信息信任度t,归集人员资金数据,归集人员资金数据包括使用每个卡号的最高信任度的人员信息,建立人、卡、流水的关联关系;使用每个卡号的最高信任度的人员信息id更新已存在卡的人卡关系信息表。
7、优选的,预设的人员信息信任度计算公式如下:
8、
9、其中,t表示每个卡号最终计算的人员信息信任度;f表示该卡号的人员信息权重的系数;p表示一个文件中该卡号的人员信息数据的条数;n表示该卡号的人员信息数据的总条数;k表示该卡号的人员信息数据的序号。
10、进一步优选的,所述卡号的人员信息权重的系数按照预设规则进行确定,包括pk为该卡号的人员信息数据的条数,fk为该卡号的人员信息权重的系数,fk由基于实际调研的上千家银行的账单数据,每家银行选取五种以上格式的账单文件统计规律得出;该卡号的人员信息权重的系数fk确定规则如下:
11、来源于开户,人员信息权重的系数fk为0.8;
12、来源于流水,有姓名有身份证,人员信息权重的系数fk为0.6;
13、来源于流水,有姓名无身份证,人员信息权重的系数fk为0.4;
14、来源于流水,无姓名无身份证,人员信息权重的系数fk为0.1。
15、进一步优选的,归集人员资金数据包括使用每个卡号的最高信任度的人员信息,建立人、卡、流水的关联关系,具体包括:
16、将资金流水导入数据库的交易记录表中;
17、将每个卡的最高信任度的人员信息导入到数据库的人员信息表中;
18、将每个卡号导入到数据库的人卡关系信息表中,使用每个卡的最高信任度的人员信息id回填所述人卡关系信息表;
19、用每个卡号人卡关系id回填交易记录表中的本方人卡关系id、对方人卡关系id。
20、进一步优选的,还包括:
21、交易记录表,存储资金账户的所有交易记录,主要的账单字段包括:记录id、本方卡号、本方开户人、对方卡号、对方开户人、交易金额、交易方向、交易方式、交易流水号、交易时间、交易发生地、摘要、备注、本方证件号码、对方证件号码、本方证件类型、对方证件类型、本方人卡关系id和对方人卡关系id;
22、人卡关系表,存储所有资金账户与持有人的关系,主要的字段包括:人卡关系id、卡号、人员信息id、交易起始时间、交易结束时间和交易类型。
23、人员信息表,存储所有资金账户持有人的信息,主要的字段包括:人员信息id、人员姓名、人员证件号码和人员证件类型。
24、第二方面,本发明实施例提供了一种基于信任度算法归集人员资金数据的装置,包括:
25、文件导入模块,配置用于导入一批文件的资金数据;
26、权重计算模块,配置用于基于预设的人员信息信任度计算公式,依次计算该批所述文件中的每一文件中每个卡号的人员信息权重值,其中所述卡号的人员信息权重的系数按照预设规则进行确定;
27、信任度计算模块,配置用于处理完所有所述文件后,对每个卡号的所述人员信息权重值进行求和,然后除以该卡号的人员信息数据的总条数,得到每个卡号最终确认的人员信息信任度t;
28、数据归集模块,配置用于基于获得的每个卡号最终确认的所述人员信息信任度t,归集人员资金数据,归集人员资金数据包括使用每个卡号的最高信任度的人员信息,建立人、卡、流水的关联关系;使用每个卡号的最高信任度的人员信息id更新已存在卡的人卡关系信息表。
29、进一步优选的,还包括:所述卡号的人员信息权重的系数按照预设规则进行确定,包括pk为该卡号的人员信息数据的条数,fk为该卡号的人员信息权重的系数,fk由基于实际调研的上千家银行的账单数据,每家银行选取五种以上格式的账单文件统计规律得出;该卡号的人员信息权重的系数fk确定规则如下:
30、来源于开户,人员信息权重的系数fk为0.8;
31、来源于流水,有姓名有身份证,人员信息权重的系数fk为0.6;
32、来源于流水,有姓名无身份证,人员信息权重的系数fk为0.4;
33、来源于流水,无姓名无身份证,人员信息权重的系数fk为0.1。
34、进一步优选的,还包括:
35、交易记录表模块,配置用于存储资金账户的所有交易记录,主要的账单字段包括:记录id、本方卡号、本方开户人、对方卡号、对方开户人、交易金额、交易方向、交易方式、交易流水号、交易时间、交易发生地、摘要、备注、本方证件号码、对方证件号码、本方证件类型、对方证件类型、本方人卡关系id和对方人卡关系id;
36、人卡关系表模块,配置用于存储所有资金账户与持有人的关系,主要的字段包括:人卡关系id、卡号、人员信息id、交易起始时间、交易结束时间和交易类型。
37、人员信息表模块,配置用于存储所有资金账户持有人的信息,主要的字段包括:人员信息id、人员姓名、人员证件号码和人员证件类型。
38、第三方面,本发明实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
39、第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
40、与现有技术相比,本发明的有益成果在于:
41、(1)本方案在实时入库时,对多数据来源的人员信息根据人员信息信任度算法进行整合,使缺失人员或人员信息不一致的资金数据归集到正确人员下,从而可以以人为维度进行资金数据分析;人员信息信任度算法符合实际应用场景,是基于实际调研的上千家银行的账单数据,每家银行选取5种以上格式的账单文件统计规律得出的;提高了人员信息的准确性,从而可以使分析出的线索更准确;更新时采用多线程的方式,保证了更新的效率。
42、(2)本发明的方案可有效指导解决大数据中心、数据仓库、数据可视化、数据智能分析等场景下的不同的数据来源中人员属性缺失或人员信息不一致问题,能够确保更新的数据的准确性,提高更新速度和减少资源的占用。