本发明属于大数据领域,涉及一种基于规则引擎的的数据监管方法和系统。
背景技术:
1、大型集团公司旗下包括众多子公司,子公司存在各种类型的业务,这些业务是否符合集团相关的规章制度、以及业务种类和数据量繁多,如何进行统一处理实时监管是个难题。
2、由于各公司在数据管理方面的信息化程度不同,使用的管理系统不统一,数据格式不统一,还存在一些使用纸质化的台账记录,对这些数据难以统一处理;且目前的监管方式属于纯人工对账,工作量大、错误率高、效率低,并且监管人员对于规章制度的版本变化做不到及时更新,导致监管执行尺度不准。
技术实现思路
1、本发明为了克服现有技术的不足,提供一种基于规则引擎的的数据监管方法和系统。
2、为了实现上述目的,本发明采用以下技术方案:
3、一种基于规则引擎的的数据监管方法,包括以下步骤:
4、s1、根据业务种类,从业务数据库中提取关键数据,从规章制度数据库中提取关键字段和逻辑条件,生成监管数据表;
5、s2、提取监管数据表中的关键字段和逻辑条件,生成规则表达式;
6、s3、对于任一项业务,提取对应的规则表达式,提取监管数据表中对应的关键数据并输入规则表达式,使用规则引擎执行规则表达式,判定该业务违规情况。
7、进一步的,步骤s1中,所述监管数据表包括多份,每份监管数据表对应于一项业务。
8、进一步的,步骤s1中,对于纸质文件形式的规章制度,在进行关键字段和逻辑条件的提取前,先采取以下的步骤:
9、s1.2.1、前端扫描规章制度纸质文件,将文档转化为图像;
10、s1.2.2、使用tesseract ocr引擎对采集的图像进行识别;ocr引擎将图像中的文本区域识别为字符和单词,并将其转化为文本数据;
11、s1.2.3、将文本数据保存在规章制度数据库中。
12、进一步的,步骤s1中,对规章制度中的关键字段和逻辑条件的提取,采用关键词匹配,包括以下步骤:
13、s1.2.4、通过前端管理界面将常用规则关键词导入规章制度数据库中;
14、s1.2.5、使用spacy对规章制度数据库中的文本数据进行分词、以及词性标注,并提取出候选关键词;
15、s1.2.6、使用模糊匹配算法将候选关键词与常用规则关键词进行比较,执行规则匹配,将匹配度高于一个设定值的候选关键词提取出,即关键字段和逻辑条件。
16、进一步的,步骤s2中,还包括规则模板库,将规则表达式生成代码形式并写入规则模板库,代码形式的规则表达式的生成包括以下步骤:
17、s2.1、将匹配得出的关键字段和逻辑条件按照顺序进行表达式构建,形成表达式描述;
18、s2.2、定义用于生成代码的模板,包括表达式描述中的变量占位符;
19、s2.3、将表达式描述中的变量占位符替换为实际数据字段的值;
20、s2.4、使用代码模板和替换后的变量生成可执行代码。
21、进一步的,当规章制度更新时,重新提取关键字段和逻辑条件以替换监管数据表中的原内容,重新生成规则表达式并替换规则模板库中的内容。
22、进一步的,步骤s3中,若规则表达式执行不成立,则判定该业务存在违规。
23、进一步的,步骤s3之后,当任一业务判定为违规时,将该业务的对应信息上传至区块链。
24、进一步的,上传至区块链的信息包括违规业务的数据内容、规则表达式、对应的规章制度、所属的子公司信息、违规数据的产生时间、违规检测的时间。
25、一种基于规则引擎的的数据监管系统,用于执行上述的数据监管方法,包括:业务数据获取模块,用于汇集业务数据并提取关键数据;规则获取模块,用于提取规章制度中的关键字段和逻辑条件;监管数据表,用于存储关键数据和对应的关键字段以及逻辑条件;表达式生成模块,用于根据关键字段和逻辑条件生成规则表达式;表达式执行模块,用于基于规则引擎执行规则表达式并输出执行结果;规则模板库,用于存储规则表达式;违规上报模块,用于将违规业务数据上传至区块链。
26、综上所述,本发明的有益之处在于:
27、1.本发明将各子公司的数据汇聚到数据中心,数据中心的数据内容、格式对应于相关的规章制度中需要监管的点,进而统一了监管数据源,避免了无效数据的干扰,提高效率。
28、2.本发明根据规章制度提取监管规则计算表达式,并将表达式存储于规则模板库中,当规章制度发生改变时,升级对应的规则模板库即可,实现监管规则实时跟随规章制度的同步,避免因规则宣贯不及时,监管人员领会程度不同导致的人力监管纰漏。
29、3.本发明采用规则引擎执行规则表达式,对业务数据进行规则判定,根据表达式输出的结果来判定是否违规,实现了数据违规自动监管,避免人为判定工作量大、错误率高、效率低的问题。
1.一种基于规则引擎的数据监管方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于规则引擎的数据监管方法,其特征在于,步骤s1中,所述监管数据表包括多份,每份监管数据表对应于一项业务。
3.根据权利要求1所述的一种基于规则引擎的数据监管方法,其特征在于,步骤s1中,对于纸质文件形式的规章制度,在进行关键字段和逻辑条件的提取前,先采取以下的步骤:
4.根据权利要求3所述的一种基于规则引擎的数据监管方法,其特征在于,步骤s1中,对规章制度中的关键字段和逻辑条件的提取,采用关键词匹配,包括以下步骤:
5.根据权利要求4所述的一种基于规则引擎的数据监管方法,其特征在于,步骤s2中,还包括规则模板库,将规则表达式生成代码形式并写入规则模板库,代码形式的规则表达式的生成包括以下步骤:
6.根据权利要求5所述的一种基于规则引擎的数据监管方法,其特征在于,当规章制度更新时,重新提取关键字段和逻辑条件以替换监管数据表中的原内容,重新生成规则表达式并替换规则模板库中的内容。
7.根据权利要求1所述的一种基于规则引擎的数据监管方法,其特征在于,步骤s3中,若规则表达式执行不成立,则判定该业务存在违规。
8.根据权利要求6所述的一种基于规则引擎的数据监管方法,其特征在于,步骤s3之后,当任一业务判定为违规时,将该业务的对应信息上传至区块链。
9.根据权利要求7所述的一种基于规则引擎的数据监管方法,其特征在于,上传至区块链的信息包括违规业务的数据内容、规则表达式、对应的规章制度、所属的子公司信息、违规数据的产生时间、违规检测的时间。
10.一种基于规则引擎的的数据监管系统,其特征在于,用于执行如权利要求1-9中任一项所述的数据监管方法,包括:业务数据获取模块,用于汇集业务数据并提取关键数据;规则获取模块,用于提取规章制度中的关键字段和逻辑条件;监管数据表,用于存储关键数据和对应的关键字段以及逻辑条件;表达式生成模块,用于根据关键字段和逻辑条件生成规则表达式;表达式执行模块,用于基于规则引擎执行规则表达式并输出执行结果;规则模板库,用于存储规则表达式;违规上报模块,用于将违规业务数据上传至区块链。