一种数据筛查系统及电子设备的制作方法

文档序号:34814432发布日期:2023-07-19 16:32阅读:71来源:国知局
一种数据筛查系统及电子设备的制作方法

本技术涉及数据处理,可用于金融领域,特别涉及一种数据筛查系统及电子设备。


背景技术:

1、不合规数据筛查是一项重要任务,尤其对于金融机构而言。现有的数据筛查系统通常是先将全量业务数据进行模糊匹配,将模糊匹配结果得到的大量数据发送至人机交互设备,由业务人员对大量匹配结果进行逐条审核。由于模糊匹配结果的数量较大,其中包括了大量的误报警数据,因此人工审核的工作量极大。

2、目前一些机构开始尝试在原系统中集成智能筛查模型。具体方法为:业务人员对全量历史数据进行标记,算法工程师采用带有人工标记的全量历史数据进行单独的模型训练和参数调优,生成模型文件(例如模型文件可以为pmml文件);业务人员下载模糊匹配得到的目标数据集,并离线推送给算法工程师;算法工程师采用训练好的模型对目标数据集进行预测额,并将预测结果发送至业务人员;业务人员以预测结果为参考,对预测结果进行审核;最后将人工审核结果作为数据筛查的最终结果;算法工程师根据业务人员的审核结果更新模型。

3、由此可见,现有方案中业务人员需要对全量历史数据进行标记、对全量模型预测结果进行社会,标记及审核的工作量较大、容易出错;需要算法工程师与业务人员长期参与,沟通和协调成本较高、模型开发和部署的周期较长。


技术实现思路

1、本说明书提供一种数据筛查方法及电子设备,以解决现有技术的人工标记数据量较大、沟通协调成本高的问题。

2、为解决上述技术问题,本说明书第一方面提供一种数据筛查系统,包括:模型服务模块,用于自动部署训练好的筛查模型;中心处理模块,用于接收待筛查的目标数据集合,并将所述目标数据集合输入所述模型服务模块上所部署的筛查模型;接收所述筛查模型输出的预测结果,并从所述预测结果中筛选出待人工标记的数据;将筛选结果呈现给业务人员,并接收业务人员对数据的标记结果;采用带有人工标记的数据调用自动化建模模块的接口;所述自动化建模模块,用于采用带有人工标记的数据自动训练所述筛查模型;中心处理模块还用于在所述筛查模型训练结束后,调用所述自动化建模模块的接口获取训练好的筛查模型;并调用所述模型服务模块的接口重新部署训练好的筛查模型。

3、在一些实施例中,所述中心处理模块还用于重复执行以下步骤,直至筛选不出待人工标记的数据:在调用所述模型服务模块的接口重新部署训练好的筛查模型之后,将所述目标数据集合中没有人工标记的数据重新输入筛查模型;接收所述筛查模型输出的预测结果,并从所述预测结果中筛选出待人工标记的数据;将筛选结果呈现给业务人员,并接收业务人员对数据的标记结果;采用带有人工标记的数据调用自动化建模模块的接口;在所述自动化建模模块重新训练筛查模型结束后,调用所述自动化建模模块的接口重新获取训练好的筛查模型;并调用所述模型服务模块的接口再次重新部署训练好的筛查模型。

4、在一些实施例中,在筛选不出待人工标记的数据之后,所述中心处理模块将所述目标数据集合中的第一数据子集和第二数据子集的并集作为所述数据筛查系统的筛查结果;其中,所述第一数据子集为历次人工标记的数据,所述第二数据子集为所述第一数据子集在所述目标数据集合中的补集。

5、在一些实施例中,所述模型服务模块、所述中心处理模块、所述自动化建模模块分别采用pod实现。

6、在一些实施例中,所述模型服务模块包括至少两个模型服务子模块,各模型服务子模块分别用于部署不同的筛查模型;每个模型服务子模块分别采用一个容器镜像实现。

7、在一些实施例中,所述自动化建模模块包括至少两个建模子模块,各建模子模块分别用于自动训练不同的筛查模型;每个建模子模块分别采用一个容器镜像实现。

8、在一些实施例中,所述系统还包括:报告生成模块,用于根据所述目标数据集合的最终筛查结果自动生成分析报告。

9、在一些实施例中,所述报告生成模块通过以下方法自动生成分析报告:获取目标数据集合的最终筛查结果中的正样本;通过模型解释算法确定数据中各特征对于最终筛查结果的贡献程度;选取贡献程度最大的预定数量个特征;根据所述预定数量个特征的名称和贡献程度的取值,形成样本归因说明,将样本归因说明作为分析报告的一部分。

10、在一些实施例中,所述分析报告包括以下至少一者:目标数据集合中的数据总量、正样本的数量、正样本比例、正样本的归因说明、总体模型的精确率及召回率。

11、在一些实施例中,所述中心处理模块通过以下方法从所述预测结果中筛选出待人工标记的数据:计算各数据的预测结果的置信度;所述置信度为第一概率与第二概率之间的差值,所述第一概率为数据属于正样本的概率,所述第二概率为数据属于负样本的概率。筛选出置信度大于或等于预定阈值的数据作为待人工标记的数据。

12、在一些实施例中,将筛选结果呈现给业务人员,并接收业务人员对数据的标记结果,包括:确定筛选结果中的各数据分别对应的重要度级别;将筛选结果中的各数据分别呈现给对应重要度级别所匹配的业务人员;接收各业务人员对数据的标记结果。

13、在一些实施例中,所述系统还包括:模糊匹配模块,用于获取全量业务数据,并从所述全量业务数据中确定与预定筛选规则所匹配的数据;输出匹配结果;所述匹配结果作为所述目标数据集合。

14、本说明书第二方面提供一种电子设备,包括:存储器和处理器,所述处理器和所述存储器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而实现第一方面任一项所述的系统。

15、本说明书第三方面提供一种计算机存储介质,所述计算机存储介质存储有计算机程序指令,所述计算机程序指令被执行时实现第一方面任一项所述的系统。

16、本说明书第四方面提供一种计算机程序产品,包含有计算机程序,所述计算机程序被处理器执行时实现第一方面任一项所述方法的步骤。

17、本说明书所提供的数据模型筛查系统,使得业务专家在没有算法工程师深度协助的情况下,在一个系统中独立完成数据标注、模型训练和模型部署的一体化操作,降低了沟通协调成本、模型开发和部署的周期。中心处理模块通过模型服务模块上所部署的筛查模型进行数据的预筛查,根据筛查模型的输出结果进一步筛选需要待人工标记的数据,而不是将所有数据交由人工进行标记,大大减少了人工标记的数据量、能够降低数据标记出错的概率。

18、进一步地,本说明书所提供的数据筛查系统,先根据筛查模型的预测结果筛选待人工标记的数据交由人工进行标记,然后基于人工标记结果训练筛查模型,并重新更新部署筛查模型,然后再次将未经人工标记的数据输入新部署的筛查模型,根据筛查模型的预测结果筛选待人工标记的数据交由人工进行标记……如此循环往复,直至中心处理模块根据预定的筛选规则无法筛选出待人工标记的数据。通过这一循环设计,能够足量筛选出筛选模型容易预测出错的数据交由人工标记,防止由于筛查模型不准确而导致预测结果不可靠;同时基于人工标记数据不断重新训练更新筛查模型,能够提高最终的筛查模型的准确率。因此,本说明书所提供的数据筛查系统能够在保证数据标记结果可靠性的同时尽量减少人工标记数据量。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1