本发明提供一种不规则的工业时序数据生成方法,属于工业时序数据生成。
背景技术:
1、工业时序数据指在工业生产过程中连续记录的一系列随时间变化的数据,反映了工业设备或系统在特定时间点的运行状态。工业时序数据可以用于设备故障诊断、预测性维护、工艺优化等众多应用场景,是实现智能制造、提高生产效率和产品质量的关键数据源。然而,获取足够的工业时序数据存在诸多问题:首先由于隐私限制和安全考虑,工业数据的采集和共享受到一定限制,其次由于生产过程的不确定性和动态变化,单一场景下的数据样本可能不足以覆盖全部可能情况,因此对工业时序数据进行建模和生成显得尤为重要;此外,由于设备维护或生产调度变动带来的数据间断,将导致工业时序数据呈现出采样不规则性,虽增加了分析的复杂性,但也反映了生产活动的实际波动。在此背景下,工业时序数据的生成需要精确处理并模拟这种内在不规则性,以生成符合现实场景的数据。
2、目前主流的数据生成技术大体可分为:基于统计模型的生成技术、基于浅层机器学习以及基于深度学习模型的生成;基于统计模型的数据生成技术采用经典的统计模型和概率模型来生成数据,该类技术常使用期望最大算法(expectation maximization,em)等方法拟合出真实数据的近似统计分布模型,然后从该统计模型中抽取样本作为合成数据,代表性的模型包括高斯混合模型(gaussian mixture model,gmm)和贝叶斯网络(bayesiannetworks,bn);随着处理的数据维度增加,模型的复杂性和需要估计的参数数量也会相应增加,增加了这类技术的处理难度;基于浅层机器学习的数据生成技术是建立在统计学框架之上的,利用函数近似的方法,在不完全知道数据的实际分布函数的情况下,通过训练大量的真实数据来做出准确的预测,从而得到数据的近似分布;然而传统的机器学习模型结构相对简单,处理数据的能力有限,大多数算法所需的特征仍需要领域专家来定义,在提高合成数据质量方面仍有很大的提升空间;深度学习模型是机器学习的一个子集,但深度学习模型比传统机器学习模型的数据学习能力更强;由于模型结构的深度,深度学习模型的数据学习和理解能力远超传统机器学习模型。
3、用于数据生成的主要深度学习模型包括变分自编码器(variationalautoencoder,vae)和生成对抗网络(generative adversarial network,gan)。其中vae作为一种流行的生成模型,其核心机制依赖于编码器输出均值和方差,从而在潜在空间中定义一个分布。vrnn是首次探索vae和rnn的组合用于序列建模,其将潜在随机变量融入循环神经网络,结合vae和rnn对时间序列进行建模。vrnn的每个时间步长包含一个vae,这些vaes以rnn的状态变量为条件。timevae使用变分自动编码器的新结构来生成时间序列数据。解码器通过注入自定义时间结构函数(如水平、趋势和季节性)来生成可解释的信号,以实现用户定义和可解释的分布。hyvae遵循变分推理的方法,共同学习时间序列的局部模式和时间动态。为了实现这一目标,模型将时间子序列编码划分为具有层次依赖关系的多个组,使用这种潜在表示来捕获局部模式,并通过不同时间序列子序列的潜在表示之间的时间依赖性来学习时间动态,最后通过变分推理将这两个目标整合在一起。通常,vae对连续型数据的合成表现良好,但对类别型数据或不规则数据的合成则能力相对有限。与vae不同,gan通过对抗性训练过程生成数据,其中生成器致力于生成逼真的数据样本,而判别器则区分真实数据和生成数据,本质上是一个动态博弈的过程。在进行时序数据生成时,通常在gan基础上引进cnn、rnn、lstm和tranformer等一些基础网络,以捕获时间序列数据的时态依赖性及其它内在复杂特征。c-rnn-gan使用lstm网络作为生成器和判别器,并将噪声向量和上一时间步生成的数据作为输入,循环生成数据。timegan由四个网络组件构成:嵌入函数、恢复函数、序列生成器和序列鉴别器。前两个组件为自动编码组件,提供特征和隐含空间之间的映射,允许对抗网络通过低维表示学习数据的潜在时间动态;后两个组件为对抗组件,生成器不是直接在特征空间中生成合成输出,而是首先输出到嵌入空间中。timegan将无监督的gan网络与监督的自回归模型相结合,生成保留时态依赖关系的时间序列。psa-gan则针对rnn生成对抗网络无法建模长期依赖关系问题,引入注意机制,设计了一种基于cnn的渐进增长gan网络,生成长时序数据。tts-gan利用transformer捕获长时态依赖关系的能力,将gan网络中的生成器和鉴别器都设计为transformer的编码器架构,可以生成与原始数据相同的任意长度的数据,但在理论上它不能有效地捕捉序列中的周期性或递归属性。rtsgan-m在生成规则时间序列数据的基础上,为了处理不规则时间序列,在模块中引入了观测嵌入来增强每个时间步的信息,其中观察嵌入由特征值、缺失模式和时间点构建而成。生成过程首先确定下一步的时间点和缺失模式,然后基于局部和全局依赖性生成相应的特征值。gt-gan基于各种先进的深度学习技术,从gan到node和ncde,用来处理不规则时间序列数据,生成连续路径之后,进行不均匀的采样生成不规则时间序列数据。
4、尽管上述现有的时序数据生成技术在多个领域已经得到成熟应用,但它们在实际应用中仍面临许多显著的局限性,特别是在生成符合现实状态的数据方面,这些缺陷限制了生成数据在下游任务中的实用性及效果,主要包括:
5、(1)现有的大多数时序数据生成方法基于一个重要的假设:时间序列的采样间隔是规则的。然而,在现实世界的许多场景中,时序数据常常是不规则采样的,可能由于各种不可预测的环境因素或操作条件的变化而发生。传统的生成模型未能适应这种不规则性,导致它们生成的数据无法真实反映现实世界的动态变化,从而限制了模型在实际应用中的有效性和准确性;
6、(2)针对不规则时序数据,当前的处理策略多采用神经常微分方程(neuralordinary differential equations,ndoe)来对数据进行连续化处理。虽然可以在某种程度上简化数据处理过程,但也会导致原始数据中关键的不规则信息的丢失,而这些不规则信息往往含有重要的业务逻辑和环境变化信息;
7、(3)尽管生成模型在技术上发展越来越成熟,但如何确保这些生成的数据在实际的下游任务中如预测、分类或异常检测等方面也具有良好表现,仍是一个待解决的问题。当前的生成模型往往注重于重现训练数据的统计特性,而不是优化于提高下游任务的表现。可能导致生成的数据在视觉和统计上与真实数据相似,但在具体任务中的实用价值和可操作性并不理想。
技术实现思路
1、本发明为了克服现有技术中存在的不足,所要解决的技术问题为:提供一种不规则的工业时序数据生成方法的改进。
2、为了解决上述技术问题,本发明采用的技术方案为:一种不规则的工业时序数据生成方法,包括如下的数据生成步骤:
3、步骤一:进行数据预处理:
4、步骤1-1:提取不规则时序数据中的缺失指标,识别并量化数据中的缺失模式,针对缺失指标的计算公式为:
5、
6、其中:x代表观测数据,t表示时间步,d表示维度,代表x中第t步的第d维变量,表示是否缺失,缺失则为0,否则为1;
7、步骤1-2:提取不规则时序数据中的时间间隔指标,通过计算相邻时间戳之间的时间差,获得时间间隔序列,处理采用的计算公式为:
8、
9、其中:tj代表第j个时间点,代表第j-1个时间点在d维变量上的缺失指标,表示在第j个时间点的d维变量上的时间间隔,同理,表示在前一个时间点j-1在d维变量上的时间间隔;
10、步骤二:构建编解码器与生成对抗集成的不规则时序生成网络模型:
11、步骤2-1:训练编解码器,构建能够编码并重构数据的网络,处理并重构不规则多变量时间序列数据:
12、编码器部分通过接收原始数据x,并将其映射到含有缺失信息的隐含表征h,捕捉数据的缺失模式和时间间隔影响;解码器部分利用该隐含表征来重构数据包括观察值、缺失指标、时间间隔;
13、步骤2-2:进入生成对抗网络的训练阶段,利用已训练好的编码器和生成对抗网络生成与原始数据相似的表征:
14、生成器g负责基于随机噪声向量z生成新表征其目标是生成判别器无法区分的数据表征;
15、判别器d区分生成的表征与真实表征h,目标是尽可能地将生成数据识别出来;通过这种对抗性训练直到达到纳什均衡,指导生成器生成与真实数据相似的数据表征;
16、步骤2-3:利用步骤2-1和2-2中训练好的生成器与解码器生成数据,并借助下游任务反馈机制进行迭代优化:通过生成器从噪声向量生成包含缺失信息的隐含表征,通过解码器将这些表征转换回数据空间,以重构出类似不规则的时序数据,并基于下游任务反馈信号优化生成过程;
17、步骤三:进行模型训练与测试:
18、首先训练编解码器模块,通过观察值、缺失指标与时间间隔的重构缺失作为损失函数不断进行优化训练;
19、接着训练生成对抗网络模块,最小化真实数据分布与合成数据分布之间的1-wasserstein距离优化训练;
20、最后通过训练好的生成器与解码器生成数据,并将原始数据与生成数据的分类结果作为监督信号反馈回解码器中对生成进行优化。
21、所述步骤2-1中处理并重构不规则多变量时间序列数据的具体方法为:
22、步骤2-1-1:在编码器中分别对观察值、时间间隔指标、缺失指标进行自注意力运算,计算公式为:
23、
24、其中:σ是softmax激活函数,dk是向量的维度,t表示向量转置;x、m、△分别代表观察值、缺失指标、时间间隔指标;w是一组可学习的权重矩阵,其中上标q、k、v分别表示注意力机制中的查询、键与值,例如,表示将观察值作为注意力机制中的查询时的权重矩阵,其它参数以此类推;hx、hm、hδ分别为观察值、缺失指标、时间间隔指标经过注意力计算后得到的注意力向量;
25、步骤2-1-2:将缺失指标的表征与时间间隔的表征利用自注意块进行整合,得到缺失模式的表征hmiss,计算公式为:
26、
27、步骤2-1-3:通过自注意块将观察结果的表征与缺失模式的表征hmiss结合起来,将缺失模式的信息纳入变量的信息中,计算公式为:
28、
29、其中,hobs-miss表示包含缺失模式的多变量时序信息,表示将缺失模式作为注意力机制中的查询时的权重矩阵;
30、步骤2-1-4:解码器根据最终隐含表示hobs-miss重构时间序列,利用时间注意力以及通道注意力机制,分别从时间和空间上还原数据的观察值,缺失指标、时间间隔指标,计算公式为:
31、q=hobs-misswq,k=hobs-misswk,v=hobs-misswv;
32、
33、z=av
34、其中:q、k、v分别表示注意力机制中的查询、键和值,wq、wk、wv是可学习的权重矩阵,dk是键的维度,a代表注意力权重矩阵,用于确定各输入序列元素对输出的贡献程度,z是加权的特征表示,t表示向量转置。
35、所述步骤2-2中采用已训练好的编码器来创建与原始数据相似的表征的具体方法为:
36、步骤2-2-1:构建包含层归一化多层感知机的生成器g,该结构包含多个全连接层,每个层后都紧跟一个层归一化步骤,生成器g处理的表达式为:
37、
38、其中:和分别是第i层的权重和偏置,leakyrelu是非线性激活函数,layernorm是层归一化操作,是生成器的输出,即合成的隐含表征,z为随机噪声;g(z)表示生成器接受输入z,g(2)(z)则表示生成器第二层的输出;
39、步骤2-2-2:构建包含三个全连接层的判别器d,表达式为:
40、
41、其中:和分别是第i层的权重和偏置,leakyrelu是非线性激活函数,表示判别器在第一层神经网络的输出,同理,表示判别器第二层输出;doutput是判别器的输出,表示隐含表征来自真实数据的可能性评分。
42、所述步骤2-3中重构不规则的时序数据,并基于下游任务反馈信号优化生成过程的具体方法为:
43、步骤2-3-1:隐含表征的生成:训练好的生成器g从先验噪声分布p(z)中抽取噪声向量z,并将其转换为与真实数据的隐含表征相似的输出,生成器g操作过程的表达式为:
44、
45、其中:z是从先验分布p(z)中采样得到的随机噪声向量,表示生成器生成的表征;
46、步骤2-3-2:数据的解码生成:利用训练好的解码器dc对生成的隐含表征进行解码,得到时间序列数据同时生成相关的缺失数据指标和时间间隔指标可表示为:
47、
48、其中,表示步骤2-3-1中生成的隐含表征;
49、步骤2-3-3:优化生成:添加反馈阶段,先利用原始数据和生成数据训练分类器,接着利用分类结果作为监督信号反馈回解码器中进行生成优化,再利用新生成的数据与原始数据进行分类,如此循环优化;
50、利用解码器生成时添加以下附加损失函数:
51、
52、其中:pθ为原始分类器参数,x和y分别表示数据和标签,为新生成的数据,为分类器训练好之后新生成数据的标签,表示生成的新数据在已训练的分类器pθ上预测得到标签正确的对数概率;表示基于数据分布pdata的样本对(x,y)的期望值,表示损失函数。
53、本发明相对于现有技术具备的有益效果为:本发明通过提供一种不规则的工业时序数据生成方法,突破性地解决了现有生成模型无法直接应用于不规则时序数据生成的问题,实现了针对不规则工业时序数据的高质量生成,为工业智能化和数字化转型提供关键数据支持;本发明采用编解码器与生成对抗网络相结合的框架,充分发挥了两者在时序建模和样本生成方面的优势,生成质量有了大幅提升,并引入下游任务反馈机制,将生成过程与异常检测、故障预测等实际应用目标联合优化,确保生成数据不仅在统计特征上逼真,而且在关键任务上也能取得优异效果,有效解决了生成数据缺乏可用性的长期痛点;本发明为工业领域提供了生成大量高质量不规则时序数据的方法,支撑设备健康监控、预测性维护等智能应用,帮助企业降低运维成本、提高运营效率、减少非计划停车时间,且该模型并非仅限于工业场景,其核心思路可应用于金融、医疗、气象等多个行业领域,为这些领域提供高质量不规则时序数据,推动人工智能在更多实际场景中的落地应用。