人员信息数据整合方法、系统和计算机可读存储介质与流程

文档序号:34896208发布日期:2023-07-26 00:18阅读:37来源:国知局
人员信息数据整合方法、系统和计算机可读存储介质与流程

本技术涉及人员信息分析,尤其是涉及一种人员信息数据整合方法、系统和计算机可读存储介质。


背景技术:

1、当前互联网背景下,每时每刻都产生着各种数据,这些数据中蕴含着丰富的潜在知识,各行各业的决策者也意识到了这些大量数据的价值,利用云计算、数据挖掘等新型技术从这些大数据中挖掘知识,支持决策以及进行犯罪证据查询。

2、在这些大数据分析中,人员属性的分析是一个重点,所有的分析都是针对“人员”来进行的,因此需要对采集人员信息数据进行整合得到以人员为中心的人员信息表。然而,由于数据来源的多样性,真实数据的复杂性,采集来的人员信息数据很可能存在数据冲突,例如同一个卡号在不同的平台有不同的姓名,同一个身份证有不同的姓名,在分析时会造成很大的误解,因此需要对人员信息数据进行整合,以保证人员信息数据的准确性。此外,随着分析维度(公安数据,人员基础数据,社会数据等)的增加以及数据量的增加,数据的更新和处理速度会大幅度降低。

3、综上,需要一种准确度较高且更新处理速度较快的人员信息数据整合方法。


技术实现思路

1、为了解决现有技术中存在的上述技术问题,本技术提供了一种人员信息数据整合方法、系统和计算机可读存储介质,以解决上述问题。

2、根据本技术的一个方面,提出了一种人员信息数据整合方法,包括如下步骤:

3、s101、创建人员基础库,人员基础库用于导入人员信息数据并形成人员信息表,人员基础库具有多个分库表;

4、s102、确定数据记录的排重键,基于排重键对人员信息数据进行去重;

5、s103、将去重后的人员信息数据均分至不同的分库表中;

6、s104、将人员信息数据与人员信息表进行匹配,其中,响应于人员信息数据为异常数据,根据可信度权值选取异常数据中可信度最高的一条作为人员属性所对应的人员信息数据与人员信息表进行匹配,异常数据为针对同一人员属性的多条内容不一致的人员信息数据。

7、在上述技术方案中,通过对人员信息数据去重,减少了数据量,提高了之后更新入库的速度;之后将数据均分至多个分库表中,便于管理,能够更好地进行负载均衡,从而保证以较快的速度进行查询和更新处理;通过对异常数据进行基于可信度权值的选取,提高了数据选取和匹配的准确度。

8、在一些具体的实施例中,s102中确定数据记录的排重键的操作包括:

9、将人员信息数据表示为s={d1,d2,…,dm}的形式,其中,s表示人员信息数据,d为人员信息数据中的一个字段,m为人员信息数据中的字段数量;

10、对m个字段进行连接操作,连接操作为,使用&作为字符串拼接符号将m个字段连接,使人员信息数据转化成s={d1&d2&…&dm}的形式;

11、对s={d1&d2&…&dm}进行散列映射,得到排重键的取值t。

12、在一些具体的实施例中,散列映射的算法为md5算法。

13、md5算法具有压缩性高、容易计算、抗修改性高和抗碰撞性高的特点,在上述技术方案中,通过使用md5算法,使去重具有较高的效率和准确性。

14、在一些具体的实施例中,将去重后的人员信息数据均分至不同的分库表中的具体操作为:

15、s201、响应于检测到人员基础库的链表链不为空,设置一个取值范围为[0,i)的随机函数,i的初始值为1;

16、s202、对随机函数进行一次取值,若随机函数取值为0,则向第i个结点对应的分库表插入一条人员信息数据且i的取值增加1,否则i的取值增加1且不向第i个结点对应的分库表插入人员信息数据;

17、s203、判断i的取值是否大于链表链中的结点个数n,若是,则令i=1并重复s202,否则直接进入s202,直至人员信息数据全部被插入分库表。通过上述技术方案,能够保证人员信息数据平均入库。

18、在一些具体的实施例中,根据可信度权值选取异常数据中可信度最高的一条人员信息数据的方法为通过二叉树进行遍历查询,其中,二叉树的左侧的人员信息数据的可信度权值较高低的数据,右侧的人员信息数据的可信度权值较高,遍历查询为后序算法遍历查询。

19、二叉树(或称二叉排序树)在处理大批量动态数据时具有相对均衡高效的删除、插入和查找速度,上述技术方案通过使用二叉树遍历查询选取可信度最高的人员信息数据,效率较高,此处采用后序算法遍历查询,

20、在一些具体的实施例中,可信度权值的设置依据包括信息来源、获取手段和置信度中的至少一种。

21、在一些具体的实施例中,人员基础库使用postgres数据库创建。通过上述技术方案,能够以较快的速度进行查询和更新处理。

22、根据本技术的第二方面,提出了一种计算机可读存储介质,其上存储有一或多个计算机程序,该一或多个计算机程序被计算机处理器执行时实施上述任一项的方法。

23、根据本技术的第三方面,提出了一种人员信息数据整合系统,包括:

24、建库单元,配置用于创建人员基础库,人员基础库用于导入人员信息数据并形成人员信息表,人员基础库具有多个分库表;

25、去重单元,配置用于基于哈希算法对人员信息数据进行去重;

26、分配单元,配置用于确定数据记录的排重键,之后基于排重键对人员信息数据进行去重;

27、匹配单元,配置用于将将人员信息数据与人员信息表进行匹配,其中,响应于人员信息数据为异常数据,根据可信度权值选取异常数据中可信度最高的一条作为人员属性所对应的人员信息数据与人员信息表进行匹配,异常数据为针对同一人员属性的多条内容不一致的人员信息数据。

28、在一些具体的实施例中,分配单元确定数据记录的排重键的操作包括:

29、将人员信息数据表示为s={d1,d2,…,dm}的形式,其中,s表示人员信息数据,d为人员信息数据中的一个字段,m为人员信息数据中的字段数量;

30、对m个字段进行连接操作,连接操作为,使用&作为字符串拼接符号将m个字段连接,使人员信息数据转化成s={d1&d2&…&dm}的形式;

31、对s={d1&d2&…&dm}进行散列映射,得到排重键的取值t。

32、在一些具体的实施例中,散列映射的算法为md5算法。

33、在一些具体的实施例中,分配单元包括:

34、链表链检测子单元,响应于检测到人员基础库的链表链不为空,设置一个取值范围为[0,i)的随机函数,i的初始值为1;

35、随机函数取值子单元,对随机函数进行一次取值,若随机函数取值为0,则向第i个结点对应的分库表插入一条人员信息数据且i的取值增加1,否则i的取值增加1且不向第i个结点对应的分库表插入人员信息数据;

36、判断子单元,配置用于判断i的取值是否大于链表链中的结点个数n,若是,则令i=1并接入随机函数子单元,否则直接接入随机函数子单元,直至人员信息数据全部被插入分库表。

37、在一些具体的实施例中,异常数据处理单元通过二叉树进行遍历查询选取异常数据中可信度最高的一条人员信息数据,其中,二叉树的左侧的人员信息数据的可信度权值较高低的数据,右侧的人员信息数据的可信度权值较高,遍历查询为后序算法遍历查询。

38、在一些具体的实施例中,可信度权值的设置依据包括信息来源、获取手段和置信度中的至少一种。

39、在一些具体的实施例中,人员基础库使用postgres数据库创建。

40、本技术通过通过对人员信息数据去重,减少了数据量,提高了之后更新入库的速度;之后将数据均分至多个分库表中,便于管理,能够更好地进行负载均衡,从而保证以较快的速度进行查询和更新处理;通过对异常数据进行基于可信度权值的选取,提高了数据选取的准确度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1