一种基于历史模型多样性的数据流概念漂移检测方法与流程

文档序号:23865191发布日期:2021-02-05 16:49阅读:235来源:国知局
一种基于历史模型多样性的数据流概念漂移检测方法与流程

[0001]
本发明涉及一种基于历史模型多样性的数据流概念漂移检测方法,属于大数据与机器学习技术领域。


背景技术:

[0002]
传统概念漂移检测方法中,处理大量新训练数据时更新学习机(模型),其中模型均在不访问先前数据的情况下进行更新,无需存储或重新处理先前的数据。在数据流处理中,尽管可以独立的以不同数据块作为训练数据,但也可以利用在一个子任务中获得的知识来帮助解决未来的子任务。尤其在工业物联网环境中,底层分布在实际应用中可能是不稳定的,因为生成数据的环境可能会随时间变化。因此,本发明针对工业物联网环境,对应保留那些历史模型以供未来使用,以及如何利用这些模型来促进概念漂移检测进行研究,提出一种基于历史模型多样性的数据流概念漂移检测方法,适应多种类型的概念漂移,旨在提高工业物联网数据挖掘、数据分析的可靠性和实时性,便于对概念漂移表示的设备工况变化原因进行深入分析。


技术实现要素:

[0003]
针对现有技术的不足,本发明提供基于历史模型多样性的数据流概念漂移检测方法。
[0004]
本发明中主要采用的技术方案为:
[0005]
一种基于历史模型多样性的数据流概念漂移检测方法,包括如下步骤:
[0006]
步骤a.使用在线装袋方法处理数据流;
[0007]
步骤b.构建保留历史多样性的基础树,用于构建随机森林;
[0008]
步骤c.随着数据流的不断到达,通过对数据特征空间的变化检测,用来警告可能出现的概念漂移,并识别发生概念漂移的区域,若发生概念漂移,并且处于概念漂移出现区域,则被认定为噪声而去除,反之则会被保留,进行概念漂移检测;
[0009]
步骤d.通过对随机森林使用集成方法对概念漂移进行检测;判断是否发生概念漂移;
[0010]
步骤e.保持随机森林在线更新;内存达到限制后,移除与历史数据中差异最大的模型,并替换为最新的模型,继续维持检测系统运行。
[0011]
上述步骤a中:用在线装袋方法对数据流进行处理,并采用启发式方法进行特征选择,训练基础模型,构建随机森林的基础树包括但不限于vfdt树。
[0012]
上述步骤a中所述的在线装袋方法,其公式为:
[0013]
给定训练数据集d=(x,y),对每个基准模型,会选择实例k次,其中k服从期望方差为λ的泊松分布ρoisson(λ),并可通过变化的λ使得集合更具有多样性。
[0014]
上述步骤b的具体步骤为:
[0015]
b1.在数据流持续到达时,采用基于多样性的原则,保留历史基础树,保证随机森
林中树木的多样性;
[0016]
b2.当随机森林预设树木达到最大值的时候,去掉导致与其他模型差异度最高的树木。
[0017]
上述步骤c的具体步骤为:
[0018]
c1.使用变化检测技术,监控数据流特征空间中发生的概念漂移,用来进行概念漂移预警,以及识别概念漂移区域;
[0019]
c2.若已经存在概念漂移警告,并且新数据构建的基础树处于概念漂移区域的话,由其生成的基础树会被认定为噪声而去除。
[0020]
上述步骤b1中所述的多样性判别方法,其公式为:
[0021][0022]
其中是f
i
和f
j
之间的统计值,其计算公式为
[0023][0024]
其中n
ab
的a表示f
i
的示例数,b表示f
j
的示例数,1表示正确的分类,0表示错误的分类。
[0025]
上述步骤c1中所述的噪声判别方法,可以使用变化检测方法识别噪声以及漂移区域,具体来说:数据的特征空间由一组重叠的超球体划分,基于能力模型的经验距离定义了两个数据集之间的距离,漂移区域是由相应的超球体确定的,这些超球体在最高的p能力水平上具有较大的经验距离,概念漂移会在这些最高的p能力水平区域发生;通过将能力空间转换回特征空间并识别发生实际概念漂移的区域,监视该区域能够进行概念漂移的预警以及确定概念漂移区域,以识别噪声。
[0026]
上述步骤d包括:使用集成方法对概念漂移进行检测,包括但不仅限于adwin、pht方法,对多种概念漂移进行检测。
[0027]
有益效果:本发明提供基于历史模型多样性的数据流概念漂移检测方法,对各种概念漂移现象进行检测,并能对工业物联网中噪音进行识别去除。及时监控环境中的数据流信息,实现工业物联网状态的实时监控和应对。
附图说明
[0028]
图1为本发明的方法流程图。
具体实施方式
[0029]
为了使本技术领域的人员更好地理解本申请中的技术方案,下面对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0030]
基于历史模型多样性的数据流概念漂移检测方法,包括如下步骤:
[0031]
步骤a.使用在线装袋方法处理数据流;
[0032]
步骤b.构建保留历史多样性的基础树,用于构建随机森林;
[0033]
步骤c.随着数据流的不断到达,通过对数据特征空间的变化检测,用来警告可能出现的概念漂移,并识别发生概念漂移的区域,若发生概念漂移,并且处于概念漂移出现区域,则被认定为噪声而去除,反之则会被保留,进行概念漂移检测;
[0034]
步骤d.通过对随机森林使用集成方法对概念漂移进行检测;判断是否发生概念漂移;
[0035]
步骤e.保持随机森林在线更新;内存达到限制后,移除与历史数据中差异最大的模型,并替换为最新的模型,继续维持检测系统运行。
[0036]
实施例1:
[0037]
基于工业大数据的智能产线数据流抽取的在线学习模型,实现故障诊断的动态响应机制,以及对渐变性故障和突发性故障的实时监控和检测。
[0038]
本实施例中的基于历史模型多样性的数据流概念漂移检测方法,流程图如图1所示,该方法包括下述步骤:
[0039]
s1使用在线装袋方法在线处理数据流;
[0040]
s2构建保留历史多样性的基础树用于构建随机森林;
[0041]
s3识别概念漂移区域并进行降噪处理;
[0042]
s4使用集成方法进行概念漂移检测;
[0043]
s5移除最大差异模型并维持检测系统更新。
[0044]
在步骤s1中,采用的在线装袋算法如下,给定训练数据集d=(x,y),对每个基础模型,会选择实例k次,其中k服从期望方差为λ的泊松分布ρoisson(λ)。其中可通过变化的λ使得集合更具有多样性。构建随机森林的基础树包括但不限于vfdt树。基于特征创建新的节点时,采用启发式方法进行特征选择。并倾向于生成更深的树,原因是在随机森林中,需要更深的树是可以接受的,即使单个树木过度拟合,对多棵树的平均值减小了方差,防止了随机森林的过度拟合。同时也保证了基于当前实例的独有性,使得决策树之间的差异更大,保证了决策树的多样性。
[0045]
在步骤s2中,基于多样性的原则,保留数据流的历史树模型,采用的多样性度量包括但不仅限于yules q统计量,保证随机森林中基础树的多样性,直到达到随机森林预设的最大树木值。达到最大值后,会在下一个新树构建完成时,丢弃导致与其他模型差异最高的树。
[0046]
在步骤s3中,采用对数据特征空间的变化检测技术来识别发生概念漂移的区域,用来警告可能出现的概念漂移以及识别能力区域以确定概念漂移的区域。若发生概念漂移,并且处于概念漂移出现区域,则被认定为噪声而去除;反之则会被保留,进行概念漂移检测。
[0047]
在步骤s4中,本方法不受特定检测器的限制,可通过对随机森林使用集成方法对概念漂移进行检测,判断是否发生概念漂移。使用加权方法对概念漂移进行检测,确定随机森林中树木的权重,包括但不仅限于adwin、pht方法,对多种概念漂移进行检测。
[0048]
在步骤s5中,当预设的随机森林树木达到最大值之后,系统会移除导致差异性最大的基础树,并用新的树木进行替换,完成模型的更新,维持检测系统的正常运行。
[0049]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1