一种数据处理方法、装置、电子设备及存储介质与流程

文档序号:29255372发布日期:2022-03-16 11:01阅读:73来源:国知局
一种数据处理方法、装置、电子设备及存储介质与流程

1.本技术涉及数据验证技术领域,尤其涉及一种数据处理方法、装置、电子设备及存储介质。


背景技术:

2.已有技术下,在金融领域,通常通过配置黑名单实现对某部分信息的筛查,即将待处理事件的属性标识信息与黑名单中进行筛查,再由人工判断送检信息和命中名单是否指向同一物项,以辨别是否为真命中。
3.然而,由于同一个物项通常包含多种描述形式,因此,黑名单中并不能配置到全部的信息,即黑名单的容错空间较小,这样就存在大量的漏检,降低了筛查准确率;相应的,由于黑名单的容错空间较小,也造成较高的误报率,而较高的误报率又势必使现有的筛查系统频繁出现告警,这样也进一步导致筛查系统流程的卡顿,从而也影响着筛查效率。
4.综上,需要设计一种新的方法,以解决上述问题。


技术实现要素:

5.本技术实施例提供一种数据处理方法、装置、电子设备及存储介质,用以解决已有技术下基于黑名单进行筛查存在筛查效率、筛查准确率低下的问题。
6.本技术实施例提供的具体技术方案如下:
7.第一方面,本技术实施例提供一种数据处理方法,包括:
8.在确定待处理事件的属性标识信息包含在黑名单集合中时,将所述属性标识信息映射至布隆过滤器的位数组的数据位中,其中,所述位数组的各个数据位的数值是基于所述布隆过滤器的规则集合进行设置的,所述规则集合包含与每个属性标识信息相匹配的至少一条规则;
9.基于所述数据位的数值判断所述待处理事件的属性标识信息关联的规则是否包含在所述规则集合中;
10.若判定所述待处理事件的属性标识信息关联的规则未包含在所述规则集合中,则过滤放行所述待处理事件。
11.上述方法,通过将待处理事件的属性标识信息映射至相应的布隆过滤器的位数组的数据位中,然后,将数据位的数值与预先设置的布隆过滤器的规则集合包含的各个数值进行比对,以判断该待处理事件的属性标识信息是否包含在该规则集合中,因此,基于布隆过滤器的两个完全随机的数字冲突的概率极小的数学原理,借助简单易行的数学工具,可以准确判定待处理事件的属性标识信息是否在相应的布隆过滤器的规则集合中,从而提高筛查准确率,提升筛查效率。
12.在一些实施例中,通过执行如下操作,判定所述待处理事件的属性标识信息是否包含在黑名单集合中:
13.获取所述待处理事件,并对所述待处理事件进行预处理,得到所述待处理事件的
属性标识信息集合,其中,所述预处理包括分词处理、过滤处理、字符映射处理中的任意一种或任意组合,所述属性标识信息集合包含所述待处理事件的不同维度的属性标识信息;
14.调用预设的文本搜索引擎,基于所述黑名单集合,对所述待处理事件的属性标识信息集合包含的每个属性标识信息进行文本搜索,得到搜索结果;
15.若所述搜索结果表征属性标识信息与所述黑名单集合包含的任意一个分组类别相匹配,则确定所述待处理事件的属性标识信息包含在所述黑名单集合中,其中,所述属性标识信息是所述属性标识信息集合中的任意一个属性标识信息。
16.上述方法,基于构建的黑名单集合,通过预设的文本搜索引擎,对待处理事件进行文本搜索,首先过滤掉一部分待处理事件的属性标识信息集合不包含在黑名单集合中的事件,即过滤掉一部分不具有一定特征的规则的待处理事件,从而减小筛查系统的筛查负荷,同时,也为后续布隆过滤器子系统进行的筛查做铺垫,通过文本搜索,确定待处理事件对应的规则标识信息,进而更大限定地降低筛查系统的误报率,以提高筛查准确率。
17.在一些实施例中,所述文本搜索引擎配置的文本搜索算法包括模糊查询规则集合、向量空间模型、词频逆文本频率指数算法、词频饱和度算法、长度归一化算法和相关度权重算法中的任意一种或任意组合。
18.上述方法,采用多种文本搜索算法,使文本搜索的搜素结果更为准确,从而提高筛查准确率和筛查效率。
19.在一些实施例中,在确定待处理事件的属性标识信息包含在黑名单集合中之后,在所述将所述属性标识信息映射至布隆过滤器的位数组的数据位中之前,还包括:
20.从所述待处理事件的属性标识信息集合中,获取与所述属性标识信息关联的其他属性标识信息;
21.基于所述其他属性标识信息,确定所述待处理事件的业务类型,并基于所述业务类型,确定相应的哈希函数集合,其中,所述哈希函数集合包含的哈希函数的个数是基于报文的业务类型预先确定的;
22.所述将所述属性标识信息映射至布隆过滤器的位数组的数据位中,包括:
23.基于所述哈希函数集合包含的各个哈希函数和预设映射规则,分别将所述属性标识信息和所述其他属性标识信息,映射至相应的布隆过滤器的位数组的数据位中。
24.上述方法,基于业务类型配置相应的布隆过滤器,其中,该业务类型表征待处理事件对应的最小粒度的业务类型,然后,基于不同的业务类型,获取相应的哈希函数集合,并采用预设映射规则,将待处理事件的属性标识信息和其他属性标识信息映射至相应的布隆过滤器中,从而采用布隆过滤器的两个完全随机的数字冲突的概率极小的数学原理,更大限度地降低布隆过滤器的误报率,提升了筛查的准确率和筛查效率。
25.在一些实施例中,在确定待处理事件的属性标识信息包含在黑名单集合中之后,在所述将所述属性标识信息映射至布隆过滤器的位数组的数据位中之前,还包括:
26.基于所述属性标识信息关联的规则标识信息,获取所述规则标识信息的规则内容,并基于所述规则内容,判断所述规则标识信息是否包含许可豁免例外规则;
27.所述将所述属性标识信息映射至布隆过滤器的位数组的数据位中,包括:
28.若判定所述规则标识信息不包含许可豁免例外规则,则将所述属性标识信息映射至所述不包含许可豁免例外规则对应的布隆过滤器的位数组的数据位中;
29.或者,
30.若判定所述规则标识信息包含许可豁免例外规则,将所述属性标识信息映射至所述许可豁免例外规则对应的布隆过滤器的位数组的数据位中。
31.上述方法,由于不同的规则标识信息对应的规则内容存在不同,因此,为包含许可豁免例外规则和/或不包含许可豁免例外规则的定制相应的布隆过滤器,可以大大提高筛查的准确率,减少由于误报带给后续进一步筛查的筛查负荷。
32.在一些实施例中,通过执行如下操作,确定所述属性标识信息关联的规则标识信息:
33.基于所述搜索结果,获取匹配到的分组类别的规则标识信息,并将所述分组类别的规则标识信息作为所述属性标识信息关联的规则标识信息。
34.上述方法,为每个分组类别配置相应的规则标识信息,可以在对待处理事件的属性标识信息集合进行文本搜索,判定待处理事件的属性标识信息包含的黑名单集合中时,确定待处理事件相匹配的大概规则,从而为后续布隆过滤器的筛查过程做铺垫。
35.在一些实施例中,所述基于所述数据位的数值判断所述待处理事件的属性标识信息关联的规则是否包含在所述规则集合中,包括:
36.将所述属性标识信息的数据位的各个数值,与预设的与所述属性标识信息对应的布隆过滤器的规则集合包含的各个数值进行比对,得到第一比对结果,并基于所述第一比对结果判断所述待处理事件的属性标识信息关联的规则是否包含在所述对应的规则集合中;
37.以及,将所述其他属性标识信息的数据位的各个数值,与预设的与所述其他属性标识信息对应的布隆过滤器的数据集合包含的各个数值进行比对,得到第二比对结果,并基于所述第二比对结果判断所述待处理事件的其他属性标识信息关联的规则是否包含在所述对应的规则集合中。
38.上述方法,基于布隆过滤器的误报率低的特性,借助简单易行的数学工具,实现降低误报率的目的,从而提升筛查准确率和筛查效率。
39.在一些实施例中,所述方法还包括:
40.若判定所述待处理事件的所述属性标识信息和所述其他属性标识信息关联的规则均包含在对应的规则集合中,则将所述待处理事件转交至下一个数据处理装置进行数据定向处理,或者,将所述待处理事件推送至显示装置,以使相关人员通过所述数据处理装置对所述待处理事件进行人工审核。
41.上述方法,在确定待处理事件关联的规则包含在规则集合中时,将该待处理事件推送至下一个环节,从而减轻下一个环节的筛查负荷,进而提高筛查效率。
42.在一些实施例中,在将所述待处理事件推送至显示装置之后,还包括:
43.在确定所述待处理事件的业务类型满足优化条件时,执行如下操作,得到更新后的所述待处理事件的业务类型对应的布隆过滤器的规则集合:
44.获取所述优化条件对应的优化配置信息,并基于所述优化配置信息,确定所述待处理事件的业务类型对应的布隆过滤器的目标特征值数组;
45.按照预设拼接规则,将所述目标特征值数组与所述待处理事件的属性标识信息对应的布隆过滤器的位数组进行拼接,得到新的位数组,并基于所述新的位数组,更新所述布
隆过滤器的规则集合中与所述其他属性标识信息对应的数值;
46.和/或,
47.按照预设拼接规则,将所述目标特征值数组与所述待处理事件的其他属性标识信息对应的布隆过滤器的位数组进行拼接,得到新的位数组,并基于所述新的位数组,更新所述布隆过滤器的规则集合中与所述其他属性标识信息对应的数值。
48.上述方法,配置相应的优化条件,当确定筛查系统满足优化条件时,通过更加目标特征值数组的方式,增加筛查特征,从而进一步提高筛查系统的筛查准确率,进而提高筛查效率,随之也进一步降低下一个环节的筛查负荷。
49.在一些实施例中,所述优化条件包括下列中的部分或全部:
50.接收到人工触发的优化指令,其中,所述优化指令包含所述待处理事件的业务类型,所述优化指令是确定所述待处理事件的业务类型对应的已处理事件的误判率大于误判率阈值时发出的;
51.判定所述待处理事件的属性标识信息和其他属性标识信息中任意一个信息关联的规则包含在对应的布隆过滤器的规则集合中。
52.上述方法,为筛查系统配置更新布隆过滤器的规则集合的优化方式,通过增加筛查特征,实现对筛查系统的优化操作,从而采用简单易行的数学工具,降低筛查误报率,进而提高筛查准确率和筛查效率。
53.在一些实施例中,基于所述优化配置信息,确定所述待处理事件的业务类型对应的布隆过滤器的目标特征值数组,包括:
54.获取候选事件集合,其中,所述候选事件集合包含多个已处理事件,每个已处理事件的属性标识信息和其他属性标识信息关联的规则均包含在对应的规则集合中;
55.针对所述候选事件集合中的每个已处理事件执行如下操作:
56.从所述已处理事件的属性标识信息集合中获取预设第一数量的属性标识信息,并按照所述优化配置信息包含的预设第二数量的维度信息,得到每个属性标识信息和所述已处理事件对应的规则的匹配度,并分别基于得到的各个匹配度,确定获取到的各个属性标识信息各自对应的子特征值,其中,每个维度信息表征所述已处理事件对应维度的特征信息;
57.基于每个属性标识信息对应的子特征值,确定每个维度信息对应的特征值,并按照预设排序规则,对确定的各个特征值进行排序,得到排序后的候选特征值数组。
58.对得到的各个候选特征值数组进行去重处理,并按照预设运算方式,对去重处理后的各个候选特征值数组包含的各个特征值进行运算,得到所述待处理事件的业务类型对应的布隆过滤器的目标特征值数组。
59.上述方法,通过信息指纹子系统辅助更新布隆过滤器的规则集合,由于信息指纹子系统确定的多维度的特征值是针对业务类型提取出的共性特征,因此,将目标特征值数组与预先构建的布隆过滤器的位数组进行拼接,重构了布隆过滤器的位数值,实现了对筛查系统的优化,进一步提高了筛查系统的筛查准确率。
60.第二方面,本技术实施例提供一种数据处理装置,包括:
61.确定模块,用于在确定待处理事件的属性标识信息包含在黑名单集合中时,将所述属性标识信息映射至布隆过滤器的位数组的数据位中,其中,所述位数组的各个数据位
的数值是基于所述布隆过滤器的规则集合进行设置的,所述规则集合包含与每个属性标识信息相匹配的至少一条规则;
62.判断模块,用于基于所述数据位的数值判断所述待处理事件的属性标识信息关联的规则是否包含在所述规则集合中;
63.推送模块,用于若判定所述待处理事件的属性标识信息关联的规则未包含在所述规则集合中,则过滤放行所述待处理事件。
64.在一些实施例中,通过执行如下操作,判定所述待处理事件的属性标识信息是否包含在黑名单集合中:
65.获取所述待处理事件,并对所述待处理事件进行预处理,得到所述待处理事件的属性标识信息集合,其中,所述预处理包括分词处理、过滤处理、字符映射处理中的任意一种或任意组合,所述属性标识信息集合包含所述待处理事件的不同维度的属性标识信息;
66.调用预设的文本搜索引擎,基于所述黑名单集合,对所述待处理事件的属性标识信息集合包含的每个属性标识信息进行文本搜索,得到搜索结果;
67.若所述搜索结果表征属性标识信息与所述黑名单集合包含的任意一个分组类别相匹配,则确定所述待处理事件的属性标识信息包含在所述黑名单集合中,其中,所述属性标识信息是所述属性标识信息集合中的任意一个属性标识信息。
68.在一些实施例中,所述文本搜索引擎配置的文本搜索算法包括模糊查询规则集合、向量空间模型、词频逆文本频率指数算法、词频饱和度算法、长度归一化算法和相关度权重算法中的任意一种或任意组合。
69.在一些实施例中,在确定待处理事件的属性标识信息包含在黑名单集合中之后,在所述将所述属性标识信息映射至布隆过滤器的位数组的数据位中之前,所述确定模块还用于:
70.从所述待处理事件的属性标识信息集合中,获取与所述属性标识信息关联的其他属性标识信息;
71.基于所述其他属性标识信息,确定所述待处理事件的业务类型,并基于所述业务类型,确定相应的哈希函数集合,其中,所述哈希函数集合包含的哈希函数的个数是基于报文的业务类型预先确定的;
72.所述将所述属性标识信息映射至布隆过滤器的位数组的数据位中,包括:
73.基于所述哈希函数集合包含的各个哈希函数和预设映射规则,分别将所述属性标识信息和所述其他属性标识信息,映射至相应的布隆过滤器的位数组的数据位中。
74.在一些实施例中,在确定待处理事件的属性标识信息包含在黑名单集合中之后,在所述将所述属性标识信息映射至布隆过滤器的位数组的数据位中之前,所述确定模块还用于:
75.基于所述属性标识信息关联的规则标识信息,获取所述规则标识信息的规则内容,并基于所述规则内容,判断所述规则标识信息是否包含许可豁免例外规则;
76.所述将所述属性标识信息映射至布隆过滤器的位数组的数据位中,包括:
77.若判定所述规则标识信息不包含许可豁免例外规则,则将所述属性标识信息映射至所述不包含许可豁免例外规则对应的布隆过滤器的位数组的数据位中;
78.或者,
79.若判定所述规则标识信息包含许可豁免例外规则,将所述属性标识信息映射至所述许可豁免例外规则对应的布隆过滤器的位数组的数据位中。
80.在一些实施例中,通过执行如下操作,确定所述属性标识信息关联的规则标识信息:
81.基于所述搜索结果,获取匹配到的分组类别的规则标识信息,并将所述分组类别的规则标识信息作为所述属性标识信息关联的规则标识信息。
82.在一些实施例中,所述基于所述数据位的数值判断所述待处理事件的属性标识信息关联的规则是否包含在所述规则集合中,所述判断模块用于:
83.将所述属性标识信息的数据位的各个数值,与预设的与所述属性标识信息对应的布隆过滤器的规则集合包含的各个数值进行比对,得到第一比对结果,并基于所述第一比对结果判断所述待处理事件的属性标识信息关联的规则是否包含在所述对应的规则集合中;
84.以及,将所述其他属性标识信息的数据位的各个数值,与预设的与所述其他属性标识信息对应的布隆过滤器的数据集合包含的各个数值进行比对,得到第二比对结果,并基于所述第二比对结果判断所述待处理事件的其他属性标识信息关联的规则是否包含在所述对应的规则集合中。
85.在一些实施例中,所述推送模块还用于:
86.若判定所述待处理事件的所述属性标识信息和所述其他属性标识信息关联的规则均包含在对应的规则集合中,则将所述待处理事件转交至下一个数据处理装置进行数据定向处理,或者,将所述待处理事件推送至显示装置,以使相关人员通过所述数据处理装置对所述待处理事件进行人工审核。
87.在一些实施例中,在将所述待处理事件推送至显示装置之后,所述推送模块还用于:
88.在确定所述待处理事件的业务类型满足优化条件时,执行如下操作,得到更新后的所述待处理事件的业务类型对应的布隆过滤器的规则集合:
89.获取所述优化条件对应的优化配置信息,并基于所述优化配置信息,确定所述待处理事件的业务类型对应的布隆过滤器的目标特征值数组;
90.按照预设拼接规则,将所述目标特征值数组与所述待处理事件的属性标识信息对应的布隆过滤器的位数组进行拼接,得到新的位数组,并基于所述新的位数组,更新所述布隆过滤器的规则集合中与所述其他属性标识信息对应的数值;
91.和/或,
92.按照预设拼接规则,将所述目标特征值数组与所述待处理事件的其他属性标识信息对应的布隆过滤器的位数组进行拼接,得到新的位数组,并基于所述新的位数组,更新所述布隆过滤器的规则集合中与所述其他属性标识信息对应的数值。
93.在一些实施例中,所述优化条件包括下列中的部分或全部:
94.接收到人工触发的优化指令,其中,所述优化指令包含所述待处理事件的业务类型,所述优化指令是确定所述待处理事件的业务类型对应的已处理事件的误判率大于误判率阈值时发出的;
95.判定所述待处理事件的属性标识信息和其他属性标识信息中任意一个信息关联
的规则包含在对应的布隆过滤器的规则集合中。
96.在一些实施例中,基于所述优化配置信息,确定所述待处理事件的业务类型对应的布隆过滤器的目标特征值数组,所述推送模块用于:
97.获取候选事件集合,其中,所述候选事件集合包含多个已处理事件,每个已处理事件的属性标识信息和其他属性标识信息关联的规则均包含在对应的规则集合中;
98.针对所述候选事件集合中的每个已处理事件执行如下操作:
99.从所述已处理事件的属性标识信息集合中获取预设第一数量的属性标识信息,并按照所述优化配置信息包含的预设第二数量的维度信息,得到每个属性标识信息和所述已处理事件对应的规则的匹配度,并分别基于得到的各个匹配度,确定获取到的各个属性标识信息各自对应的子特征值,其中,每个维度信息表征所述已处理事件对应维度的特征信息;
100.基于每个属性标识信息对应的子特征值,确定每个维度信息对应的特征值,并按照预设排序规则,对确定的各个特征值进行排序,得到排序后的候选特征值数组。
101.对得到的各个候选特征值数组进行去重处理,并按照预设运算方式,对去重处理后的各个候选特征值数组包含的各个特征值进行运算,得到所述待处理事件的业务类型对应的布隆过滤器的目标特征值数组。
102.第三方面,本技术实施例提供一种电子设备,包括:
103.存储器,用于存储程序指令;
104.处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行如上述第一方面中任一项所述的方法。
105.第四方面,本技术实施例提供一种计算机可读存储介质,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如上述第一方面中任一项所述的方法。
106.第五方面,本技术实施例提供一种计算机程序产品,包含有计算机可执行指令,所述计算机可执行指令用于使计算机执行如上述第一方面中任一项所述的方法。
107.另外,第二方面至第五方面中任一一种实现方式所带来的技术效果可参见第一方面中不同实现方式所带来的技术效果,此处不再赘述。
附图说明
108.图1为本技术实施例中一种筛查系统的系统架构示意图;
109.图2为本技术实施例中一种数据处理方法的部分流程示意图;
110.图3为本技术实施例中一种数据处理方法的部分流程示意图;
111.图4为本技术实施例中一种获取待处理事件的规则标识信息的示意图;
112.图5为本技术实施例中一种布隆过滤器的原理示意图;
113.图6为本技术实施例中一种判定是否包含许可豁免例外规则的流程示意图;
114.图7a、图7b、图7c为本技术实施例中应用场景的示意图;
115.图8为本技术实施例中一种优化方式的流程示意图;
116.图9为本技术实施例中一种得到目标特征值数组的流程示意图;
117.图10为本技术实施例中一种数据处理方式的流程示意图;
118.图11为本技术实施例中一种数据处理装置的逻辑架构示意图;
119.图12为本技术实施例中一种电子设备的实体架构示意图。
具体实施方式
120.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,并不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
121.为了方便理解,下面对本技术实施例中涉及的名词进行解释:
122.附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
123.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够在除了这里图示或描述的那些以外的顺序实施。
124.为了解决已有技术下基于黑名单进行筛查存在筛查效率、筛查准确率低下的问题,本技术实施例中,在确定待处理事件的属性标识信息包含在黑名单集合中时,将属性标识信息映射至布隆过滤器的位数组的数据位中,并基于数据位的数值判断待处理事件的属性标识信息关联的规则是否包含在规则集合中,其中,位数组的各个数据位的数值是基于布隆过滤器的规则集合进行设置的,规则集合包含与每个属性标识信息相匹配的至少一条规则;若判定待处理事件的属性标识信息关联的规则未包含在规则集合中,则过滤放行待处理事件;这样,通过将待处理事件的属性标识信息映射至相应的布隆过滤器的位数组的数据位中,然后,将数据位的数值与预先设置的布隆过滤器的规则集合包含的各个数值进行比对,以判断该待处理事件的属性标识信息是否包含在该规则集合中,因此,基于布隆过滤器的两个完全随机的数字冲突的概率极小的数学原理,可以准确判定待处理事件的属性标识信息是否在相应的布隆过滤器的规则集合中,从而提高筛查准确率,提升筛查效率。
125.下面结合附图对本技术优选的实施方式做出进一步详细说明,应当理解,此处所描述的优选实施例仅用于说明和解释本技术,并不用于限定本技术,并且在不冲突的情况下,本技术实施例及实施例中的特征可以相互组合。
126.图1示出了一种筛查系统的系统架构示意图。参阅图1所示,该筛查系统 100包括文本搜索引擎110、布隆过滤器子系统120和信息指纹子系统130;
127.其中,文本搜索引擎110,用于对待处理事件进行文本搜索,判断待处理事件的属性标识信息是否包含在黑名单集合中,并在确定待处理事件的属性标识信息包含在黑名单集合中时,将待处理事件推送至布隆过滤器子系统120;
128.布隆过滤器子系统120,用于对待处理事件进行进一步筛查,以确定待处理事件的属性标识信息是否包含在相应的布隆过滤器的规则集合中;
129.信息指纹子系统130,用于辅助完成对布隆过滤器子系统120的优化操作。
130.本技术实施例中,布隆过滤器子系统120包括第一子系统和第二子系统,其中,第一子系统用于筛查待处理事件的属性标识信息是否包含在布隆过滤器的规则集合中,该规
则集合对应针对特定行业的规则;第二子系统用于筛查待处理事件的属性标识信息关联的规则是否存在豁免许可规则,以及待处理事件的属性标识信息包含在哪个豁免许可规则中。
131.需要说明的是,在上述筛查系统100中,文本搜索引擎110对待处理事件进行文本搜索的目的是确定待处理事件是否与具有一定特征的规则相匹配,在确定待处理事件与具有一定特征的规则相匹配时,可以获得该具有一定特征的规则的规则标识信息,然后,基于该规则标识信息,确定布隆过滤器子系统120 中的进一步规则内容,并通过将待处理事件的属性标识信息映射至相应的布隆过滤器(即第一子系统和第二子系统)中,从而进一步筛查该待处理事件是否与对应的布隆过滤器的规则集合中的某一条规则相匹配,从而确定最后的筛查结果。
132.仍需要说明的是,筛查系统100中的信息指纹子系统130用于布隆过滤器子系统120确定待处理事件包含在布隆过滤器的规则集合中时,辅助布隆过滤器子系统120进行优化操作。
133.本技术实施例中,在介绍完上述筛查系统之后,在进行数据处理流程之前,需先进行黑名单集合的收集工作。
134.本技术实施例中,构建黑名单集合的具体流程如下:分别基于每个预设获取路径,获取每个获取路径对应的子集合,其中,每个子集合包含不同机构或不同组织发布针对不同领域的名单和/或黑名单,以及名单和/或黑名单关联的规则;然后,获取每个子集合包含的每个物项的描述信息,并把获取到的各个描述信息与对应的物项进行关联。
135.本技术实施例中,基于每个子集合,匹配相关联的关联信息,并将匹配到的关联信息组成词料集合,其中,关联信息包含但不限于如下信息:
136.1、国别码,其中,国别码包含但不限于母语全称、简称、主流语言名称、 iso国别码等。
137.2、同义词,其中,同义词包含但不限于每个物项等相关专业术语、兼容特定名词的不同拼音法,如邮政式拼音、威妥玛拼音、粤语拼音等。
138.3、停用词,其中,停用词包含但不限于上述每个物项在指定语言体系下的关键分词、专用名简写等。
139.4、噪音词,其中,噪音词包含但不限于“co.,ltd.”、“有限公司”、“股份责任有限公司”等。
140.需要说明的是,本技术实施例中,上述关联信息在收集时,需对其进行分词、过滤和自然语言处理等,以保证在文本搜索时准确匹配到。
141.最后,将上述各个子名单、各个子名单包含的每个物项的描述信息、以及上述词料集合,按照国别进行分组,并为每个分组配置相应的规则标识信息,以及将配置有规则标识信息的各个分组,组成黑名单集合。
142.例如,以子集合为xx公告公布的《xx目录》为例。
143.假设xx公告公布的《xx目录》中化学品氰化钠的中文定义如表1所示:
144.序号商品名称描述xx商品编号单位52
…………
53氰化钠第三类:可作为生产xx的化学品2837111000千克
54
…………
145.而m国的《yy清单》中,氰化钠赋予了特定的出口管制分类号(eccn, export control classification number,eccn)码,如sodium cyanide—— 1c350.d.44。
146.那么,在构建上述黑名单集合时,首先,按照预设获取路径,获取上述两个子集合(即,《xx目录》和美国ear的ccl)中各个商品名称,然后,获取上述两个子集合包含的每个物项的描述信息。
147.即收集氰化钠的描述信息包括但不限于收集氰化钠的科学属性(如,化学品cas登记号及其他科学特征属性),氰化钠的专用定义属性(如中文定义的 2837111000、eccn码),管制类别码和许可类别码等。
148.然后,将获取到的描述信息与氰化钠进行关联。
149.本技术实施例中,在收集好氰化钠的描述信息之后,设置与《xx目录》相匹配的词料集合,如以氰化钠为例,词料集合包括《xx目录》的归属国家的国别码、氰化钠这一物项关联的氰化钠的同义词、停用词等,以及与氰化钠相关联的噪音词,如公司实体名称中的“有限公司”等。
150.然后,将上述子集合与其他获取到的子集合、词料集合,按照国别进行分组,并将为每个分组配置相应的规则标识信息,以及将配置有规则标识信息的各个分组,组成黑名单集合。
151.本技术实施例中,上述针对同一个物项收录的数据文件采用xml数据格式,以schema group元素进行存储。
152.参阅图2所示,本技术实施例中,提供的一种数据处理方法中的文本搜索引擎部分的具体流程如下:
153.s100、获取待处理事件,并对待处理事件进行预处理,得到待处理事件的属性标识信息集合,其中,预处理包括分词处理、过滤处理、字符映射处理中的任意一种或任意组合,属性标识信息集合包含所述待处理事件的不同维度的属性标识信息。
154.本技术实施例中,在黑名单集合收集完成之后,可以基于该黑名单集合,对待处理事件进行初步筛查。
155.具体实施中,在执行s100时,获取待处理事件,并对待处理事件进行分析处理、过滤处理和字符映射处理中的任意一种或任意组合的预处理过程,以得到待处理事件的属性标识信息集合。
156.本技术实施例中,优选对待处理事件进行上述分析处理、过滤处理和字符映射处理,从而得到更为准确、更为精准的各个属性标识信息,进而使执行s101 时,可以降低误判率。
157.s101、调用预设的文本搜索引擎,基于黑名单集合,对待处理事件的属性标识信息集合包含的每个属性标识信息进行文本搜索,得到搜索结果。
158.本技术实施例中,调用预设的文本搜索引擎,通过文本搜索引擎配置的文本搜索算法,对待处理事件进行文本搜索,从而得到相应的搜索结果。其中,文本搜索引擎配置的文本搜索算法包括模糊查询规则集合、向量空间模型、词频逆文本频率指数算法、词频饱和度算法、长度归一化算法和相关度权重算法中的任意一种或任意组合。
159.s102、基于搜索结果,判断待处理事件的属性标识信息集合包含的属性标识信息
是否包含在黑名单集合中,若是,则执行s103;反之,则执行s104。
160.s103、若搜索结果表征属性标识信息与黑名单集合包含的任意一个分组类别相匹配,则确定待处理事件的属性标识信息包含在黑名单集合中,以及将待处理事件推送至布隆过滤器子系统;其中,属性标识信息是属性标识信息集合中的任意一个属性标识信息。
161.本技术实施例中,若执行s102得到的搜索结果表征待处理事件的属性标识信息集合中的任意一个属性标识信息,与黑名单集合包含的任意一个分组类别相匹配,则确定待处理事件的属性标识信息包含在黑名单集合中,即表征待处理事件匹配到具有一定特征的规则,那么,将该待处理事件推送至布隆过滤器子系统进行进一步的筛查。
162.s104、若搜索结果表征属性标识信息与黑名单集合包含的任意一个分组类别均不匹配,则确定待处理事件的属性标识信息不包含在黑名单集合中,以及过滤放行待处理事件,其中,属性标识信息是属性标识信息集合中的任意一个属性标识信息。
163.本技术实施例中,若执行s102得到的搜索结果表征待处理事件的属性标识信息集合中的没有一个属性标识信息,与黑名单集合包含的任意一个分组类别相匹配,则确定待处理事件的属性标识信息不包含在黑名单集合中,即表征待处理事件未匹配到具有一定特征的规则,那么,将该待处理事件过滤放行。
164.参阅图3所示,本技术实施例中,提供的一种数据处理方法中的布隆过滤器子系统的筛查方法的具体流程如下:
165.s105、在确定待处理事件的属性标识信息包含在黑名单集合中时,基于搜索结果,获取匹配到的分组类别的规则标识信息,并将分组类别的规则标识信息作为属性标识信息关联的规则标识信息。
166.本技术实施例中,在执行s103时,已确定待处理事件的属性标识信息集合包含的任意一个属性标识信息包含在黑名单集合中,那么,在执行s105时,首先,基于搜索结果,获取匹配到的黑名单集合包含的该分组类别的规则标识信息,那么,将该分组类别的规则标识信息作为待处理事件的属性标识信息关联的规则标识信息。
167.例如,参阅图4所示,以待处理事件为以x国的a公司和y国的b公司出口cc,cc的出口量为dd千克,以及待处理事件的业务编号为20202627893 为例。
168.假设获取到的待处理事件的属性标识信息集合如下:
169.业务编号20202627893:{xy,a公司、b公司、出口、cc、出口量dd 千克}。
170.则筛查系统获取到的待处理事件的属性标识信息集合为业务编号 20202627893:{xy,a公司、b公司、出口、cc、出口量dd千克}。
171.然后,调用文本搜索引擎,对上述待处理事件进行文本搜索,得到上述待处理事件的搜索结果。
172.假设搜索结果表征待处理事件的属性标识信息集合的属性标识信息{xy、 cc}与{x国和y国之间的zz交易规则}相匹配,以及该{x国和y国之间的 zz交易规则}的分组类别的规则标识信息为07167x。
173.则将该分组类别的规则标识信息作为该待处理事件的属性标识信息关联的规则标识信息,即待处理事件的属性标识信息关联的规则标识信息为07167x。
174.s106、从待处理事件的属性标识信息集合中,获取与属性标识信息关联的其他属性标识信息。
175.本技术实施例中,通过对待处理事件的属性标识信息集合进行文本搜索,确定待处理事件的属性标识信息包含的黑名单集合中,从而确定待处理事件的属性标识信息关联的规则标识信息,即待处理事件关联的规则标识信息。
176.那么,在执行s106时,从待处理事件的属性标识信息集合中,获取与属性标识信息关联的其他属性标识信息。
177.s107、基于其他属性标识信息,确定待处理事件的业务类型,并基于业务类型,确定相应的哈希函数集合,其中,哈希函数集合包含的哈希函数的个数是基于报文的业务类型预先确定的。
178.本技术实施例中,由于后续布隆过滤器的筛查过程,是基于各个业务类型进行配置的,因此,在确定待处理事件的属性标识信息关联的规则标识信息之后,需先确定待处理事件的业务类型。
179.然而,由于文本搜索引擎仅用于搜索待处理事件是否存在关联的具有一定特征的规则,而待处理事件具体关联哪一个规则,需通过其他属性标识信息,确定待处理事件的业务类型,从而确定待处理事件关联的具体规则,然后,再基于业务类型,确定布隆过滤器的哈希函数集合,以便于后续基于确定的布隆过滤器的哈希函数,对待处理事件的属性标识信息和其他属性标识信息进行进一步的筛查,从而降低单纯进行文本搜索存在的误判率,提高系统筛查准确率。
180.s108、基于哈希函数集合包含的各个哈希函数和预设映射规则,将属性标识信息和其他属性标识信息,映射至相应的布隆过滤器的位数组的数据位中。
181.本技术实施例中,预先初始化多个布隆过滤器,每个布隆过滤器是一种空间效率很高的随机数据结构,其基本思想为当一个属性标识信息(或其他属性标识信息)加入规则集合中时,通过多个散列函数(哈希函数)将该属性标识信息(或其他属性标识信息)映射成一个位数组中的多个数据位,然后,将该多个数据位设置为1。之后将在筛查时,只需要检测待处理事件的属性标识信息(或其他属性标识信息)基于该多个散列函数(哈希函数)进行映射,得到的该多个数据位的数值是否都为1即可判断该规则集合中是否包含该属性标识信息(或其他属性标识信息)。若该多个数据位的数值有一个以上为0,则表示属性标识信息(或其他属性标识信息)一定不包含在该规则集合中;若该多个数据位的数值都为1,则表示属性标识信息(或其他属性标识信息)大概率包含在该规则集合中。
182.参阅图5所示,为布隆过滤器的原理示意图。在图5中,规则集合s包含 a、b和c三个元素,下方的位数组是一个包含大量数据位的数列,该数列初始化后全部的数值为0;每个元素都分别通过3个哈希函数映射至位数组中的3 个数据位,并将这些数据位的数值置1。之后,若需要筛查元素a是否处于规则集合s中,只需要检测元素a映射得到的3个数据位的数值是否都为1即可。
183.本技术实施例中,将属性标识信息作为规则集合中的元素。当布隆过滤器初始化时,将位数组各个数据位的数值全部置0,并将筛查系统包含的每个规则的属性标识信息写入该布隆过滤器的规则集合中,这些属性标识信息映射到该布隆过滤器的位数组的各个数据位,并将该各个数据位的数值置1。也即,该位数组的各个数据位的数值是根据布隆过滤器的规则集合设置的,而该规则集合包含已存在的每个规则。
184.因此,本技术实施例中,在执行s108时,基于哈希函数集合包含的各个哈希函数,
按照预设映射规则,将属性标识信息和其他属性标识信息,映射至相应的布隆过滤器的位数组的数据位中,从而完成对待处理事件进行布隆过滤器筛查,其中,预设映射规则包含但不限于与或哈希函数,这样,可以准确地判断待处理事件的属性标识信息关联的规则是否包含在规则集合中。
185.例如,仍以待处理事件为以x国的a公司和y国的b公司出口cc,cc 的出口量为dd千克,以及待处理事件的业务编号为20202627893为例。
186.仍假设通过上述文本搜索引擎,确定待处理事件关联的规则标识信息为07167x。
187.则布隆过滤器子系统可以基于该规则标识信息,获知该待处理事件所属类型包含在布隆过滤器的规则集合中。
188.然后,基于从属性标识信息集合中获取到的其他属性标识信息,确定待处理事件的业务类型。
189.假设其他属性标识信息是{a公司、b公司、出口},以及出口为询价环节。
190.那么,基于其他属性标识信息{a公司、b公司、出口},确定待处理事件的业务类型是进出口业务中的询价环节。
191.则基于上述业务类型,确定与进出口业务中的询价环节相对应的哈希函数集合。
192.然后,基于确定的哈希函数集合,按照预设映射规则,将待处理事件的属性标识信息和其他属性标识信息映射至相应的布隆过滤器的位数组的数据位中。
193.s109、基于属性标识信息的数据位的各个数值,判断待处理事件的属性标识信息关联的规则是否包含在对应规则集合中;以及,基于其他属性标识信息的数据位的各个数值,判断待处理事件的其他属性标识信息关联的规则是否包含在对应规则集合中,若均为是,则执行s110;否则,执行s111。
194.具体实施例中,将属性标识信息的数据位的各个数值,与预设的与属性标识信息对应的布隆过滤器的规则集合包含的各个数值进行比对,得到第一比对结果,并基于第一比对结果判断所述待处理事件的属性标识信息关联的规则是否包含在对应的规则集合中;以及,将其他属性标识信息的数据位的各个数值,与预设的与其他属性标识信息对应的布隆过滤器的数据集合包含的各个数值进行比对,得到第二比对结果,并基于第二比对结果判断待处理事件的其他属性标识信息关联的规则是否包含在对应的规则集合中。
195.s110、若判定待处理事件的属性标识信息和其他属性标识信息关联的规则均包含在对应的规则集合中,则将待处理事件转交至下一个数据处理装置进行数据定向处理,或者,将待处理事件推送至显示装置,以使相关人员通过数据处理装置对待处理事件进行人工审核。
196.s111、若判定待处理事件的属性标识信息和其他属性标识信息中至少存在一种信息关联的规则不包含在规则集合中,则过滤放行待处理事件。
197.本技术实施例中,为了提高筛查准确率,降低误判率,在布隆过滤器子系统中配置有第一子系统和第二子系统,分别用于对上述待处理事件的各个属性标识信息进行二次重检,其中,第一子系统用于筛查待处理事件的属性标识信息是否包含在布隆过滤器的规则集合中,该规则集合对应针对特定行业的规则;第二子系统用于筛查待处理事件的属性标识信息关联的规则是否存在豁免许可规则,以及待处理事件的属性标识信息包含在哪个豁免许可规则中。
198.需要说明的是,本技术实施例中,参阅图6所示,在布隆过滤器子系统的第二子系统中,在执行s107之后,在执行s108之前,还需执行如下步骤:
199.s107-1、基于属性标识信息关联的规则标识信息,获取规则标识信息的规则内容。
200.s107-2、基于规则内容,判断规则标识信息是否包含许可豁免例外规则,若是,则执行s108-1,否则,则执行s108-2。
201.本技术实施例中,在执行s107-2之后,执行s108时,通过执行s108-1 或s108-2来实现上述功能:
202.s108-1、若判定规则标识信息包含许可豁免例外规则,将属性标识信息映射至许可豁免例外规则对应的布隆过滤器的位数组的数据位中。
203.具体实施中,若判定规则标识信息包含许可豁免例外规则,基于哈希函数集合包含的各个哈希函数和预设映射规则,将属性标识信息映射至许可豁免例外规则对应的布隆过滤器的位数组的数据位中。
204.s108-2、若判定规则标识信息不包含许可豁免例外规则,则将属性标识信息映射至不包含许可豁免例外规则对应的布隆过滤器的位数组的数据位中。
205.具体实施中,若判定规则标识信息不包含许可豁免例外规则,基于哈希函数集合包含的各个哈希函数和预设映射规则,将属性标识信息映射至不包含许可豁免例外规则对应的布隆过滤器的位数组的数据位中。
206.例如,仍以待处理事件为以x国的a公司和y国的b公司出口cc,cc 的出口量为dd千克,以及待处理事件的业务编号为20202627893为例。
207.假设基于确定的规则标识信息,获取到的规则内容存在许可豁免例外规则。
208.由于规则中通常各个许可申请条例内容不重叠,那么,假设获取到的规则内容包含如下信息:
209.1、属于ab章节及c章节描述可申请许可证的物项;
210.2、属于d默认许可证申请豁免物项(“except”描述部分);
211.3、属于m国的《yy清单》中涉及高危的、无法申请许可证的物项 (“except”描述部分);
212.4、属于eef章节描述需发布给标准组织的、许可证申请豁免的物项 (“except”描述部分)。
213.则整理后的许可豁免例外规则情况如下:
214.1)ab章节物项(可申请许可证)
215.2)c章节物项(可申请许可证)
216.3)d默认许可证申请豁免物项(无需申请许可证)
217.4)m国的《yy清单》中涉及高危物项(不可申请许可证)
218.5)eef章节物项(无需申请许可证)
219.那么,本技术实施例中,将上述5种类型整合分为两个大类和三个子类,即无许可豁免例外规则(即,不包含许可豁免例外规则)——可申请许可证;有许可豁免例外规则(即,包含许可豁免例外规则)——无需申请许可证和不可申请许可证。
220.本技术实施例中,将待处理事件的属性标识信息,通过与或哈希函数,映射至上述三个子类申请许可证情况中,得到相应的布隆过滤器的位数组的数据位的数值,并与预设
的布隆过滤器的规则集合包含的各个数值进行比对,当确定比对结果表征待处理事件的属性标识信息关联的规则包含在对应的规则集合中时,判定待处理事件满足许可豁免例外规则,或,不满足许可豁免例外规则。
221.参阅图7a所示,假设待处理事件涉及“1)ab章节物项(可申请许可证)”这一应用场景。
222.由于存在的许可豁免例外规则为“1、属于ab章节及c章节描述可申请许可证的物项”。
223.而该待处理事件涉及“1)ab章节物项(可申请许可证)”,但不涉及“2) c章节物项(可申请许可证)”和“4)m国的《yy清单》中涉及高危物项(不可申请许可证)”。
224.那么,若通过简单哈希函数进行映射,则仅能获得数据位的第一个数值为 1,而后续两个数据位将获得不到对应的数值,因此,本技术实施例中,为了避免出现上述情况,针对这一场景,配置预设的哈希函数集合和预设映射规则 (如,与或哈希函数),将这一场景下的布隆过滤器的规则集合包含的位数组的各个数据位的数值配置为1、1、1。
225.这样,由于该待处理事件不满足许可豁免例外规则(即,不包含许可豁免例外规则)——可申请许可证,因此,该待处理事件的属性标识信息可以通过上述哈希函数集合和预设映射规则,映射得到的布隆过滤器的位数组的各个数据位的数值为1、1、1。
226.由于获取到的与属性标识信息对应的布隆过滤器的规则集合包含的各个数值为1、1、1。
227.因此,待处理事件的属性标识信息,通过确定的哈希函数集合和预设映射规则,得到的各个数据位的数值,与相应的布隆过滤器的规则集合包含的数据位的数值相同,则判定该待处理事件关联的规则包含在上述与属性标识信息对应的布隆过滤器的规则集合中,即准确判定了该待处理事件满足“1)ab章节物项(可申请许可证)”这一场景,那么,将待处理事件推送至显示装置,以使人工通过该显示装置对待处理事件进行人工审核,或者,将待处理事件推送至下一个数据处理装置进行数据定向处理。
228.参阅图7b所示,假设待处理事件涉及“3)d默认许可证申请豁免物项(无需申请许可证)”这一应用场景。
229.由于存在的许可豁免例外规则为“2、属于d默认许可证申请豁免物项 (“except”描述部分)”,与该待处理事件涉及“3)d默认许可证申请豁免物项(无需申请许可证)”相对应。
230.那么,将待处理事件的属性标识信息,采用预设的哈希函数集合进行映射,得到该待处理事件对应的布隆过滤器的位数组的各个数据位的数值均为1,此时,由于“3)d默认许可证申请豁免物项(无需申请许可证)”对应无需申请许可证场景,即不需后续人工审核,或者,下一个数据处理装置进行定向数据处理,因此,本技术实施例中,将这一场景下的布隆过滤器的位数组的各个数据位的数值配置为0、0、0。
231.这样,该待处理事件的属性标识信息通过预设的哈希函数集合和预设映射规则,得到的布隆过滤器的位数组的各个数据位的数值为1、1、1。
232.由于获取到的与属性标识信息对应的布隆过滤器的规则集合包含的各个数值为0、0、0。
233.因此,待处理事件的属性标识信息,通过确定的哈希函数集合和预设映射规则,得
到的各个数据位的数值,与相应的布隆过滤器的规则集合包含的数据位的数值不相同,则判定该待处理事件关联的规则不包含在上述与属性标识信息对应的布隆过滤器的规则集合中,即判定待处理事件关联的规则不包含在布隆过滤器的规则集合中,那么,将该待处理事件直接过滤放行。
234.这样,由于这一场景中不需要对待处理事件进行进一步的处理,即不需将该待处理事件推送至显示装置,以使人工通过该显示装置对待处理事件进行人工审核,也无需将待处理事件推送至下一个数据处理装置进行数据定向处理,通过上述对布隆过滤器的筛查,可以准确确定该待处理事件符合“无需申请许可证”的场景,从而提高了筛查准确率,避免了传统筛查方式下,在确定该待处理事件命中“2、属于d默认许可证申请豁免物项(“except”描述部分)”时,将待处理事件推送至显示装置,或下一个数据处理装置进行进一步处理而增加的时间成本和人力成本。
235.参阅图7c所示,假设待处理事件涉及“4)m国的《yy清单》中涉及高危物项(不可申请许可证)”这一应用场景。
236.由于存在的许可豁免例外规则为“3、属于m国的《yy清单》中涉及高危的、无法申请许可证的物项(“except”描述部分)”,与该待处理事件涉及“4)m国的《yy清单》中涉及高危物项(不可申请许可证)”相对应。
237.那么,本技术实施例中,将这一场景下的布隆过滤器的位数组的各个数据位的数值配置为1、1、1。
238.即,将待处理事件的属性标识信息,采用预设的哈希函数集合进行映射,得到该待处理事件对应的布隆过滤器的位数组的各个数据位的数值均为1。
239.由于获取到的与属性标识信息对应的布隆过滤器的规则集合包含的各个数值为1、1、1。
240.因此,待处理事件的属性标识信息,通过确定的哈希函数集合和预设映射规则,得到的各个数据位的数值,与相应的布隆过滤器的规则集合包含的数据位的数值相同,则判定该待处理事件关联的规则包含在上述与属性标识信息对应的布隆过滤器的规则集合中,即判定待处理事件关联的规则包含在布隆过滤器的规则集合中,则将待处理事件推送至显示装置,以使人工通过该显示装置对待处理事件进行人工审核,或者,将待处理事件推送至下一个数据处理装置进行数据定向处理。
241.需要说明的是,本技术实施例中,上述输入布隆过滤器的属性标识信息和其他属性标识信息,可以根据应用场景的需要预先定制,并不仅限于本技术实施例中提到的将命中黑名单集合的属性标识信息输入包含许可豁免例外规则对应的布隆过滤器,本技术实施例中提及的属性标识信息均取自待处理事件的属性标识信息集合中,具体将哪一个属性标识信息输入到相应的布隆过滤器中,均可基于具体应用场景而定,在此不作具体限定。
242.进一步地,本技术实施例中,参阅图8所示,还提供了一种对筛查系统包含的布隆过滤器子系统进行优化的方法,上述优化方法的具体流程如下:
243.s800、在确定待处理事件的业务类型满足优化条件时,执行如下操作,得到更新后的待处理事件的业务类型对应的布隆过滤器的规则集合:
244.s800-1、获取优化条件对应的优化配置信息,并基于优化配置信息,确定待处理事件的业务类型对应的布隆过滤器的目标特征值数组。
245.s800-2、按照预设拼接规则,将目标特征值数组与待处理事件的属性标识信息对应的布隆过滤器的位数组进行拼接,得到新的位数组,并基于上述新的位数组,更新布隆过滤器的规则集合中与属性标识信息对应的数值;
246.和/或,
247.按照预设拼接规则,将目标特征值数组与待处理事件的其他属性标识信息对应的布隆过滤器的位数组进行拼接,得到新的位数组,并基于上述新的位数组,更新布隆过滤器的规则集合中与上述其他属性标识信息对应的数值。
248.本技术实施例中,上述优化条件包括下列条件中的部分或全部:
249.条件一,接收到人工触发的优化指令,其中,优化指令包含待处理事件的业务类型,该优化指令是人工确定该待处理事件的业务类型对应的已处理事件的误判率大于误判率阈值时发出的。
250.条件二,判定待处理事件的属性标识信息和其他属性标识信息中任意一个信息关联的规则包含在对应的布隆过滤器的规则集合中。
251.本技术实施例中,参阅图9所示,在执行s800-1时,可以通过执行如下步骤来实现上述功能:
252.s900、获取候选事件集合,其中,候选事件集合包含多个已处理事件,每个已处理事件的属性标识信息和其他属性标识信息关联的规则均包含在对应的规则集合中。
253.s910、针对候选事件集合中的每个已处理事件执行如下操作:
254.从已处理事件的属性标识信息集合中获取预设第一数量的属性标识信息,并按照优化配置信息包含的预设第二数量的维度信息,得到每个属性标识信息和已处理事件对应的规则的匹配度,并分别基于计算得到的各个匹配度,确定获取到的各个属性标识信息各自对应的子特征值,其中,每个维度信息表征已处理事件对应维度的特征信息;基于每个属性标识信息对应的子特征值,确定每个维度信息对应的特征值,并按照预设排序规则,对确定的各个特征值进行排序,得到排序后的候选特征值数组。
255.s920、对得到的各个候选特征值数组进行去重处理,并按照预设运算方式,对去重处理后的各个候选特征值数组包含的各个特征值进行运算,得到待处理事件的业务类型对应的布隆过滤器的目标特征值数组,其中,预设运算方式是逻辑或运算方式。
256.这样,本技术实施例中,可以通过信息指纹子系统辅助更新布隆过滤器的规则集合,由于信息指纹子系统确定的多维度的特征值是针对业务类型提取出的共性特征,因此,将目标特征值数组与预先构建的布隆过滤器的位数组进行拼接,重构了布隆过滤器的位数值,实现了对筛查系统的优化,进一步提高了筛查系统的筛查准确率。
257.例如,仍以待处理事件为以x国的a公司和y国的b公司出口cc,cc 的出口量为dd千克,以及待处理事件的业务编号为20202627893为例。
258.假设筛查系统确定待处理事件的业务类型满足优化条件。
259.则获取优化条件对应的优化配置信息,以及候选事件集合,其中,候选事件集合包含多个已处理事件,每个已处理事件的属性标识信息和其他属性标识信息关联的规则均包含在对应的规则集合中。
260.假设候选事件集合中包含5个已处理事件,分别记为已处理事件1、已处理事件2、已处理事件3、已处理事件4、已处理事件5。
261.又假设从每个已处理事件的属性标识信息集合中获取2个属性标识信息,以及上述优化配置信息包含8个维度的维度信息,如r1、r2、r3、r4、r5、r6、 r7、r8。
262.那么,分别得到候选事件集合中的每个已处理事件的候选特征值数组,具体实施中:
263.1、已处理事件1:
264.从已处理事件1的属性标识信息集合中获取2个属性标识信息,并分别按照优化配置信息包含的8个维度信息,得到每个属性标识信息和已处理事件对应的规则的匹配度。
265.然后,分别基于得到的各个匹配度,确定上述8个维度各自对应的子特征值1,其中,若确定第一个属性标识信息与已处理事件对应的规则相关联,则对应的子特征值1为w1,反之,则对应的子特征值1为-w1;第二个属性标识信息与已处理时间对应的规则相关联,则对应的子特征值1’为w2,反之,则对应的子特征值1’为-w2。
266.假设得到的匹配结果如下表:
267.表2
[0268][0269]
然后,将相同维度的子特征值1和子特征值1’进行累加,得到最终的特征值1,如下表:
[0270]
表3
[0271][0272]
则按照预设排序规则,对确定的各个特征值1进行排序,得到排序后的候选特征值数组1,如得到的候选特征值数组1为11000101。
[0273]
2、已处理事件2:
[0274]
从已处理事件2的属性标识信息集合中获取2个属性标识信息,并分别按照优化配置信息包含的8个维度信息,得到各个属性标识信息和已处理事件对应的规则的匹配度。
[0275]
然后,基于得到的各个匹配度,确定上述8个维度各自对应的子特征值2、子特征值2’,并将相同维度的子特征值2和子特征值2’进行累加,得到最终的特征值2,再按照预设排序规则,对确定的各个特征值2进行排序,得到排序后的候选特征值数组2,如得到的候选特征值数组2为11000101。
[0276]
3、已处理事件3、已处理事件4和已处理事件5:
[0277]
对已处理事件3、已处理事件4和已处理事件5进行上述相同的操作,假设得到的候选特征值数组3为01101100、候选特征值数组4为10101100、候选特征值数组5为01101100。
[0278]
然后,对得到的上述5个候选特征值数组进行去重处理,得到的去重处理后的各个候选特征组数组如表4所示:
[0279]
表4
[0280]
类别数值去重后的候选特征值数组候选特征值数组11100010111000101候选特征值数组211000101/候选特征值数组30110110001101100候选特征值数组41010110010101100候选特征值数组501101100/
[0281]
再按照预设运算方式,对去重处理后的各个候选特征值数组包含的各个特征值进行运算,得到的待处理事件的业务类型对应的布隆过滤器的目标特征值数组如表5所示:
[0282]
表5
[0283][0284]
最后,按照预设拼接规则,将目标特征值数组与待处理事件的属性标识信息对应的布隆过滤器的位数组进行拼接,得到新的位数组,如11101101+位数组1(原构建的位数值);并基于新的位数组(即,11101101+位数组),更新布隆过滤器的规则集合中与属性标识信息对应的数值;
[0285]
和/或,
[0286]
再按照预设拼接规则,将目标特征值数组与待处理事件的其他属性标识信息对应的布隆过滤器的位数组进行拼接,得到新的位数组,如11101101+位数组2(原构建的位数值);并基于新的位数组(即,11101101+位数组),更新布隆过滤器的规则集合中与其他属性标识信息对应的数值。
[0287]
需要说明的是,本技术实施例中,可以采用上述s800、s800-1、s800-2 对筛查系统包含的布隆过滤器进行多次优化操作,其中,在一次优化操作中,从不同的已处理事件中选取的属性标识信息均是相同;这样,通过上述优化操作,可以提高筛查系统的筛查准确率,
也可以提升筛查系统的筛查效率。
[0288]
仍需要说明的是,本技术实施例中,在采用上述优化方法,完成对待处理事件的业务类型对应的布隆过滤器的规则集合更新后,后续通过该筛查系统进行筛查的待处理事件,均采用更新后的布隆过滤器的规则集合进行筛查,相应的,在进行优化操作后,需对应调整相应的哈希函数集合,以使后续筛查可以顺利进行。本技术实施例中,由于布隆过滤器的规则集合中仅更新了一种业务类型的数值,因此,其他业务类型在筛查过程中,仍采用预先构建的对应的布隆过滤器包含的规则集合中的数值进行比对即可。
[0289]
本技术实施例中,参阅图10所示,提供了一种数据处理方法的具体流程如下:
[0290]
s1000、在确定待处理事件的属性标识信息包含在黑名单集合中时,将属性标识信息映射至布隆过滤器的位数组的数据位中,其中,位数组的各个数据位的数值是基于布隆过滤器的规则集合进行设置的,规则集合包含与每个属性标识信息相匹配的至少一条规则。
[0291]
s1010、基于数据位的数值判断待处理事件的属性标识信息关联的规则是否包含在规则集合中。
[0292]
s1020、若判定待处理事件的属性标识信息关联的规则未包含在规则集合中,则过滤放行待处理事件。
[0293]
本技术实施例中,上述数据处理方法,采用了布隆过滤器的两个完全随机的数字冲突的概率极小的数学原理,通过将待处理事件的属性标识信息映射至相应的布隆过滤器的位数组的数据位中,然后,将数据位的数值与预先设置的布隆过滤器的规则集合包含的各个数值进行比对,以判断该待处理事件的属性标识信息是否包含在该规则集合中,这样,可以准确判定待处理事件的属性标识信息是否在相应的布隆过滤器的规则集合中,从而提高筛查准确率,提升筛查效率。
[0294]
本技术实施例中,对上述待处理事件进行的文本搜索、哈希函数映射等,均是基于获取到的待处理事件关联的数据进行的,需要着重说明的是,上述待处理事件关联的数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
[0295]
基于同一发明构思,参阅图11所示,本技术实施例中提供一种数据处理装置,包括:
[0296]
确定模块111,用于在确定待处理事件的属性标识信息包含在黑名单集合中时,将所述属性标识信息映射至布隆过滤器的位数组的数据位中,其中,所述位数组的各个数据位的数值是基于所述布隆过滤器的规则集合进行设置的,所述规则集合包含与每个属性标识信息相匹配的至少一条规则;
[0297]
判断模块112,用于基于所述数据位的数值判断所述待处理事件的属性标识信息关联的规则是否包含在所述规则集合中;
[0298]
推送模块113,用于若判定所述待处理事件的属性标识信息关联的规则未包含在所述规则集合中,则过滤放行所述待处理事件。
[0299]
在一些实施例中,通过执行如下操作,判定所述待处理事件的属性标识信息是否包含在黑名单集合中:
[0300]
获取所述待处理事件,并对所述待处理事件进行预处理,得到所述待处理事件的属性标识信息集合,其中,所述预处理包括分词处理、过滤处理、字符映射处理中的任意一
种或任意组合,所述属性标识信息集合包含所述待处理事件的不同维度的属性标识信息;
[0301]
调用预设的文本搜索引擎,基于所述黑名单集合,对所述待处理事件的属性标识信息集合包含的每个属性标识信息进行文本搜索,得到搜索结果;
[0302]
若所述搜索结果表征属性标识信息与所述黑名单集合包含的任意一个分组类别相匹配,则确定所述待处理事件的属性标识信息包含在所述黑名单集合中,其中,所述属性标识信息是所述属性标识信息集合中的任意一个属性标识信息。
[0303]
在一些实施例中,所述文本搜索引擎配置的文本搜索算法包括模糊查询规则集合、向量空间模型、词频逆文本频率指数算法、词频饱和度算法、长度归一化算法和相关度权重算法中的任意一种或任意组合。
[0304]
在一些实施例中,在确定待处理事件的属性标识信息包含在黑名单集合中之后,在所述将所述属性标识信息映射至布隆过滤器的位数组的数据位中之前,所述确定模块111还用于:
[0305]
从所述待处理事件的属性标识信息集合中,获取与所述属性标识信息关联的其他属性标识信息;
[0306]
基于所述其他属性标识信息,确定所述待处理事件的业务类型,并基于所述业务类型,确定相应的哈希函数集合,其中,所述哈希函数集合包含的哈希函数的个数是基于报文的业务类型预先确定的;
[0307]
所述将所述属性标识信息映射至布隆过滤器的位数组的数据位中,包括:
[0308]
基于所述哈希函数集合包含的各个哈希函数和预设映射规则,分别将所述属性标识信息和所述其他属性标识信息,映射至相应的布隆过滤器的位数组的数据位中。
[0309]
在一些实施例中,在确定待处理事件的属性标识信息包含在黑名单集合中之后,在所述将所述属性标识信息映射至布隆过滤器的位数组的数据位中之前,所述确定模块111还用于:
[0310]
基于所述属性标识信息关联的规则标识信息,获取所述规则标识信息的规则内容,并基于所述规则内容,判断所述规则标识信息是否包含许可豁免例外规则;
[0311]
所述将所述属性标识信息映射至布隆过滤器的位数组的数据位中,包括:
[0312]
若判定所述规则标识信息不包含许可豁免例外规则,则将所述属性标识信息映射至所述不包含许可豁免例外规则对应的布隆过滤器的位数组的数据位中;
[0313]
或者,
[0314]
若判定所述规则标识信息包含许可豁免例外规则,将所述属性标识信息映射至所述许可豁免例外规则对应的布隆过滤器的位数组的数据位中。
[0315]
在一些实施例中,通过执行如下操作,确定所述属性标识信息关联的规则标识信息:
[0316]
基于所述搜索结果,获取匹配到的分组类别的规则标识信息,并将所述分组类别的规则标识信息作为所述属性标识信息关联的规则标识信息。
[0317]
在一些实施例中,所述基于所述数据位的数值判断所述待处理事件的属性标识信息关联的规则是否包含在所述规则集合中,所述判断模块112用于:
[0318]
将所述属性标识信息的数据位的各个数值,与预设的与所述属性标识信息对应的布隆过滤器的规则集合包含的各个数值进行比对,得到第一比对结果,并基于所述第一比
对结果判断所述待处理事件的属性标识信息关联的规则是否包含在所述对应的规则集合中;
[0319]
以及,将所述其他属性标识信息的数据位的各个数值,与预设的与所述其他属性标识信息对应的布隆过滤器的数据集合包含的各个数值进行比对,得到第二比对结果,并基于所述第二比对结果判断所述待处理事件的其他属性标识信息关联的规则是否包含在所述对应的规则集合中。
[0320]
在一些实施例中,所述推送模块113还用于:
[0321]
若判定所述待处理事件的所述属性标识信息和所述其他属性标识信息关联的规则均包含在对应的规则集合中,则将所述待处理事件转交至下一个数据处理装置进行数据定向处理,或者,将所述待处理事件推送至显示装置,以使相关人员通过所述数据处理装置对所述待处理事件进行人工审核。
[0322]
在一些实施例中,在将所述待处理事件推送至显示装置之后,所述推送模块113还用于:
[0323]
在确定所述待处理事件的业务类型满足优化条件时,执行如下操作,得到更新后的所述待处理事件的业务类型对应的布隆过滤器的规则集合:
[0324]
获取所述优化条件对应的优化配置信息,并基于所述优化配置信息,确定所述待处理事件的业务类型对应的布隆过滤器的目标特征值数组;
[0325]
按照预设拼接规则,将所述目标特征值数组与所述待处理事件的属性标识信息对应的布隆过滤器的位数组进行拼接,得到新的位数组,并基于所述新的位数组,更新所述布隆过滤器的规则集合中与所述其他属性标识信息对应的数值;
[0326]
和/或,
[0327]
按照预设拼接规则,将所述目标特征值数组与所述待处理事件的其他属性标识信息对应的布隆过滤器的位数组进行拼接,得到新的位数组,并基于所述新的位数组,更新所述布隆过滤器的规则集合中与所述其他属性标识信息对应的数值。
[0328]
在一些实施例中,所述优化条件包括下列中的部分或全部:
[0329]
接收到人工触发的优化指令,其中,所述优化指令包含所述待处理事件的业务类型,所述优化指令是确定所述待处理事件的业务类型对应的已处理事件的误判率大于误判率阈值时发出的;
[0330]
判定所述待处理事件的属性标识信息和其他属性标识信息中任意一个信息关联的规则包含在对应的布隆过滤器的规则集合中。
[0331]
在一些实施例中,基于所述优化配置信息,确定所述待处理事件的业务类型对应的布隆过滤器的目标特征值数组,所述推送模块113用于:
[0332]
获取候选事件集合,其中,所述候选事件集合包含多个已处理事件,每个已处理事件的属性标识信息和其他属性标识信息关联的规则均包含在对应的规则集合中;
[0333]
针对所述候选事件集合中的每个已处理事件执行如下操作:
[0334]
从所述已处理事件的属性标识信息集合中获取预设第一数量的属性标识信息,并按照所述优化配置信息包含的预设第二数量的维度信息,得到每个属性标识信息和所述已处理事件对应的规则的匹配度,并分别基于得到的各个匹配度,确定获取到的各个属性标识信息各自对应的子特征值,其中,每个维度信息表征所述已处理事件对应维度的特征信
息;
[0335]
基于每个属性标识信息对应的子特征值,确定每个维度信息对应的特征值,并按照预设排序规则,对确定的各个特征值进行排序,得到排序后的候选特征值数组。
[0336]
对得到的各个候选特征值数组进行去重处理,并按照预设运算方式,对去重处理后的各个候选特征值数组包含的各个特征值进行运算,得到所述待处理事件的业务类型对应的布隆过滤器的目标特征值数组。
[0337]
基于与上述数据处理方法相同的发明构思,本技术实施例还提供了一种电子设备,该电子设备具体(可以为智能设备内部的控制设备或控制系统,也可以是与智能设备通信的外部设备,如)可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(personal digital assistant,pda)、服务器等。如图12所示,该电子设备可以包括处理器1201和存储器1202。
[0338]
处理器1201可以是通用处理器,例如中央处理器(cpu)、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integratedcircuit,asic)、现场可编程门阵列(field programmable gate array,fpga) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本技术实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
[0339]
存储器1202作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(random access memory,ram)、静态随机访问存储器(static randomaccess memory,sram)、可编程只读存储器(programmable read only memory, prom)、只读存储器(read only memory,rom)、带电可擦除可编程只读存储器(electrically erasable programmable read-only memory,eeprom)、磁性存储器、磁盘、光盘等等。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本技术实施例中的存储器1202还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
[0340]
基于同一发明构思,本技术实施例提供一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序用于使计算机执行上述各种示例性实施方式中任一项所述的方法。
[0341]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0342]
本技术是参照根据本技术的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到
通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图中的一个流程或多个流程和/或方框图中的一个方框或多个方框中指定的功能的装置。
[0343]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图中的一个流程或多个流程和/或方框图中的一个方框或多个方框中指定的功能。
[0344]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图中的一个流程或多个流程和/或方框图中的一个方框或多个方框中指定的功能的步骤。
[0345]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1