基于机器学习的审批工作流数据智能筛查方法与系统

文档序号:38639289发布日期:2024-07-12 11:42阅读:14来源:国知局
基于机器学习的审批工作流数据智能筛查方法与系统

本发明涉及大数据处理领域,具体涉及基于机器学习的审批工作流数据智能筛查方法与系统。


背景技术:

1、传统的审批流程通常需要大量的人工操作和人工决策,效率较低且容易出现错误。同时,随着数据量的不断增加和复杂的业务环境,传统方法已经难以应对快速和准确的审批需求。

2、审批工作流数据的处理通常依赖于人工操作,特别是当数据量增加时更容易导致出现错误,故可以通过dbscan算法对数据进行聚类,来筛查其中的异常和风险事件,来提高业务操作人员的工作效率。但是由于传统dbscan算法中邻域半径大小是不变的,无法做到自适应调整大小,针对不均匀密度的数据集效果不佳,无法捕捉对数据集中的不同尺度的聚类模式。如此,将影响最终的聚类结果,即影响筛查审批工作流数据的异常和风险事件。


技术实现思路

1、本发明实施例针对上述情况,提出了一种基于机器学习的审批工作流数据智能筛查方法与系统,以克服或者至少部分克服现有技术的不足之处。

2、第一方面,本技术实施例提供了一种基于机器学习的审批工作流数据智能筛查方法,所述方法包括:

3、s10将从审批工作流数据中筛选的审批工作表作为样本;

4、s20根据获取到的所有样本之间的余弦距离选取预设邻域;

5、s30基于预设邻域ε()、最小邻域样本数阈值minpts,利用dbscan算法来获取所述样本的核心对象以及所述核心对象在预设邻域ε()范围下的样本数量m;

6、s40基于所述核心对象获取其在预设邻域中的密度分布表现,所述密度分布表现包括:样本密集程度、核心对象分布倾向特征程度、样本周期性分布程度;

7、s50基于所述密度分布表现获取核心对象的扩展判断值,根据所述扩展判断值与判断值阈值的大小适应性调整所述预设邻域,得到调整后的预设邻域;

8、s60基于所述调整后的预设邻域、步骤s30获取的样本数量m,继续利用dbscan算法来获取所述样本的核心对象以及所述核心对象在调整后的预设邻域下的样本数量m,基于所述样本数量m的大小判断样本是否异常。

9、于一些实施例中,所述s20进一步包括:

10、s210,获取任意两样本之间的同类别数据,计算两同类别数据之间的余弦距离;

11、s220,获取所述两样本的所有类别数据的余弦相似度,从而获取所述两样本的余弦相似度;

12、s230,获取所有样本之间的余弦距离;

13、s240,基于所有样本之间的余弦距离确定预设邻域ε()。

14、于一些实施例中,所述s210进一步包括:

15、s2100,获取每一样本的多种类别数据,将每一样本的多种类别数据转化为对应的文本向量;

16、s2110,计算选取的两样本的同种类别数据各自转化的文本向量的余弦距离,获取所述两样本的同种类别数据的余弦距离;

17、s2120,计算所述两样本的所有类别数据的余弦相似度,获取该两样本的余弦相似度。

18、于一些实施例中,所述s220进一步包括:

19、s2200根据余弦相似度算法获取的同种类别数据的余弦相似度,从中选取余弦距离值最大的类别,记作标记类别;

20、s2210计算两样本所有的同类别数据的余弦距离的和与获取到的标记类别的权重的比值,得到两审批工作表之间的余弦距离。

21、于一些实施例中,所述s40进一步包括s410,基于表征预设邻域ε()内样本数量的权重系数、任意两个样本之间的平均余弦距离以及任意样本之间最大余弦距离获取核心对象在所述预设邻域ε()内的样本密集程度,其中,所述权重系数为所述核心对象预设邻域ε()内的样本所占的面积与所述核心对象预设邻域ε()的整体面积的比值。

22、于一些实施例中,所述s40进一步包括s420,基于各样本到核心对象的余弦距离、样本到核心对象的余弦距离的标准差、倾向系数获取核心对象分布倾向特征程度,所述倾向系数为所述核心对象的预设邻域内的一半面积范围内样本所占的面积与所述核心对象预设邻域内的一半面积的比值。

23、于一些实施例中,所述s40进一步包括s430:通过八邻域各方向上的相邻样本的周期权重和周期表现来确定各方向上的周期性分布程度,对各方向上的周期性分布程度筛选最大值,从而获取核心对象的样本周期性分布程度,所述相邻样本的周期权重为相邻样本的余弦距离差异以及两所述相邻样本与样本平均距离的差异确定的;

24、所述周期表现为两所述相邻样本在以当前方向的样本平均余弦距离为时所包含的样本点数量的比值。

25、于一些实施例中,所述基于所述密度分布表现获取核心对象的扩展判断值,进一步包括:

26、所述核心对象的扩展判断值公式如下:

27、;表示第i个核心对象的扩展判断值;表示第i个核心对象分布倾向特征程度;表示第i个核心对象的样本密集程度;表示第i个核心对象的样本周期性分布程度,为归一化函数。

28、于一些实施例中,所述根据所述扩展判断值与判断值阈值的大小适应性调整所述预设邻域ε(eps),得到调整后的预设邻域,包括:

29、若扩展判断值大于判断值阈值,则比较核心对象分布倾向特征程度与预设核心对象倾向特征阈值,若核心对象分布倾向特征程度大于预设核心对象倾向特征阈值,则调整后的预设邻域的公式如下:

30、 ;

31、若核心对象分布倾向特征程度小于或者等于预设核心对象倾向特征阈值,则调整后的预设邻域的公式如下:

32、;

33、表示第i个核心对象的扩展判断值。

34、第二方面,本技术实施例还提供了基于机器学习的审批工作流数据智能筛查系统,包括:

35、第一预处理单元300,将从审批工作流数据中筛选的审批工作表作为样本;

36、第二预处理单元310,根据获取到的所有样本之间的余弦距离选取预设邻域;

37、筛选单元320,基于预设邻域ε()、最小邻域样本数阈值minpts,利用dbscan算法来获取所述样本的核心对象以及所述核心对象在预设邻域ε()范围下的样本数量m;

38、分析单元330,基于所述核心对象获取其在预设邻域中的密度分布表现,所述密度分布表现包括:样本密集程度、核心对象分布倾向特征程度、样本周期性分布程度;

39、调整单元340,基于所述密度分布表现获取核心对象的扩展判断值,根据所述扩展判断值与判断值阈值的大小适应性调整所述预设邻域,获取调整后的预设邻域;

40、计算单元350,基于所述调整后的预设邻域、样本数量m,继续利用dbscan算法来获取所述样本的核心对象以及所述核心对象在调整后的预设邻域下的样本数量m,基于样本数量m的大小判断样本是否异常。

41、本技术实施例采用的上述至少一个技术方案能够达到以下有益效果:

42、dbscan算法确定聚类前,聚类前先确定不同审批工作表的余弦距离,先通过确定审批工作表之间余弦距离的度量方式,然后通过dbscan算法的预设参数,即预设邻域和最小邻域样本数阈值为minpts确定核心对象以及核心对象在预设邻域范围内的样本的分布状况(簇类内样本点),通过核心对象的扩展判断值对预设邻域进行自适应调整,基于调整后的预设邻域进而完成调整后的预设邻域的聚类,即获得调整后的预设邻域的内样本点,获得调整后的预设邻域的内样本点这一聚类结果;簇类内样本点数量越多说明当前簇类对应的数据表现越异常,如此以簇类样本点数量来体现对其数据的智能筛查。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1