一种数据处理方法、装置、电子设备及存储介质与流程

文档序号:35911696发布日期:2023-10-29 15:43阅读:49来源:国知局
一种数据处理方法、装置、电子设备及存储介质与流程

本技术涉及计算机,特别涉及一种数据处理方法、装置、电子设备及存储介质。


背景技术:

1、不规则采样多元时间序列(irregularly sampled multivariate time series)指包含多个不规则的一元时间序列,每个一元时间序列用于按照时间先后顺序记录一个维度的特征数据,序列内各特征数据的记录时间戳不规则的间隔,且同一记录时间戳下可能仅记录了部分维度的特征数据。以医学场景数据为例,常见的电子健康档案(electronichealth records,ehr)包含大量不规则的实验室生化数据(如血常规数据)、生命体征数据(如心率数据)和统计数据(如年龄数据)。

2、为了应用不规则采样多元时间序列,通常需要采用数据插补处理来填补时间序列中的缺失数据。然而,相关技术中对于不规则采样多元时间序列的数据插补处理不够灵活,无法应对高度稀疏的时间序列,且无法在满足处理准确性的同时确保处理效率。


技术实现思路

1、为了解决现有技术的问题,本技术实施例提供了一种数据处理方法、装置、电子设备及存储介质。所述技术方案如下:

2、一方面,提供了一种数据处理方法,所述方法包括:

3、获取待插补时间戳序列和不规则采样多元时间序列;所述不规则采样多元时间序列包括多个维度的特征记录信息序列,每个特征记录信息包括记录时间戳和特征数据;

4、对于每个所述维度的特征记录信息序列,确定所述待插补时间戳序列中每个待插补时间戳与所述特征记录信息序列中各记录时间戳之间的相似程度,得到每个所述待插补时间戳对所述特征记录信息序列中各记录时间戳的注意力权重;

5、基于每个所述待插补时间戳对所述特征记录信息序列中各记录时间戳的注意力权重,对所述特征记录信息序列在各所述记录时间戳的特征数据进行加权处理,得到每个所述待插补时间戳在所述特征记录信息序列对应维度上的基础预测特征数据;

6、将每个所述待插补时间戳在各所述维度的基础预测特征数据进行拼接处理,得到预测特征数据序列;所述预测特征数据序列包括每个所述待插补时间戳对应的预测特征数据;

7、对所述预测特征数据序列进行编码处理,基于编码处理结果进行插补数据预测处理,得到每个所述待插补时间戳对应的插补数据预测结果;所述插补数据预测结果表征相应待插补时间戳在各所述维度的插补特征数据。

8、另一方面,提供了一种数据处理装置,所述装置包括:

9、数据获取模块,用于获取待插补时间戳序列和不规则采样多元时间序列;所述不规则采样多元时间序列包括多个维度的特征记录信息序列,每个特征记录信息包括记录时间戳和特征数据;

10、注意力权重确定模块,用于对于每个所述维度的特征记录信息序列,确定所述待插补时间戳序列中每个待插补时间戳与所述特征记录信息序列中各记录时间戳之间的相似程度,得到每个所述待插补时间戳对所述特征记录信息序列中各记录时间戳的注意力权重;

11、基础预测特征数据确定模块,用于基于每个所述待插补时间戳对所述特征记录信息序列中各记录时间戳的注意力权重,对所述特征记录信息序列在各所述记录时间戳的特征数据进行加权处理,得到每个所述待插补时间戳在所述特征记录信息序列对应维度上的基础预测特征数据;

12、第一拼接模块,用于将每个所述待插补时间戳在各所述维度的基础预测特征数据进行拼接处理,得到预测特征数据序列;所述预测特征数据序列包括每个所述待插补时间戳对应的预测特征数据;

13、插补数据预测模块,用于对所述预测特征数据序列进行编码处理,基于编码处理结果进行插补数据预测处理,得到每个所述待插补时间戳对应的插补数据预测结果;所述插补数据预测结果表征相应待插补时间戳在各所述维度的插补特征数据。

14、在一些可能的实施方式中,所述注意力权重确定模块,包括:

15、时间戳嵌入获取模块,用于获取所述待插补时间戳序列中每个待插补时间戳的第一时间戳嵌入和所述特征记录信息序列中各记录时间戳的第二时间戳嵌入;

16、时域注意力网络层确定模块,用于确定时序插补模型中对应所述维度的时域注意力网络层;

17、权重确定子模块,用于将每个所述待插补时间戳的第一时间戳嵌入和所述特征记录信息序列中各记录时间戳的第二时间戳嵌入输入至所述时域注意力网络层,通过所述时域注意力网络层确定每个所述待插补时间戳的第一时间戳嵌入与所述特征记录信息序列中各记录时间戳的第二时间戳嵌入之间的相似程度,得到每个所述待插补时间戳对所述特征记录信息序列中各记录时间戳的注意力权重。

18、在一些可能的实施方式中,所述装置还包括:

19、时间戳嵌入处理模块,用于基于所述时序插补模型的时间嵌入网络对所述待插补时间戳序列和每个维度的特征记录信息序列分别进行时间戳嵌入处理,得到各所述待插补时间戳的第一时间戳嵌入和每个维度的特征记录信息序列中各记录时间戳的第二时间戳嵌入。

20、在一些可能的实施方式中,所述插补数据预测模块,包括:

21、正向编码模块,用于将所述预测特征数据序列输入至所述时序插补模型中插补数据预测网络的第一长短期记忆网络进行正向编码处理,得到中间隐藏状态序列;

22、反向编码模块,用于将所述中间隐藏状态序列输入至所述插补数据预测网络的第二长短期记忆网络进行反向编码处理,得到目标隐藏状态序列;

23、预测子模块,用于基于所述目标隐藏状态序列预测每个所述待插补时间戳在各所述维度对应的插补特征数据,得到每个所述待插补时间戳对应的插补数据预测结果。

24、在一些可能的实施方式中,所述数据获取模块在获取待插补时间戳序列时,具体用于获取目标时间窗口和目标任务模型的输入序列长度;所述目标时间窗口表征所述不规则采样多元时间序列的时间窗口;基于所述输入序列长度在所述目标时间窗口内进行时间戳采样,得到所述待插补时间戳序列;所述待插补时间戳序列中相邻待插补时间戳之间的时间间隔相等。

25、相应的,所述装置还包括:

26、目标任务处理模块,用于将插补数据预测结果序列输入至所述目标任务模型进行目标任务处理,得到目标任务处理结果;所述插补数据预测结果序列包括各所述待插补时间戳对应的插补数据预测结果。

27、在一些可能的实施方式中,所述装置还包括:

28、样本数据获取模块,用于获取目标样本时间戳序列和不规则采样多元样本时间序列;所述不规则采样多元样本时间序列包括多个所述维度的样本特征记录信息序列;每个样本特征记录信息包括样本记录时间戳和样本特征数据,每个目标样本时间戳对应有目标维度的参考特征数据,所述目标维度为多个所述维度中的至少一个维度;

29、时域注意力模块,用于基于初始神经网络模型中对应每个所述维度的初始时域注意力网络层,确定所述目标样本时间戳序列中每个目标样本时间戳与所述维度的样本特征记录信息序列中各样本记录时间戳之间的相似程度;基于每个所述目标样本时间戳与所述维度的样本特征记录信息序列中各样本记录时间戳之间的相似程度,对所述样本特征记录信息序列在各所述样本记录时间戳的样本特征数据进行加权处理,得到每个所述目标样本时间戳在所述样本特征记录信息序列对应维度上的基础预测样本特征数据;

30、第二拼接模块,用于将每个所述目标样本时间戳在各所述维度的基础预测样本特征数据进行拼接处理,得到预测样本特征数据序列;

31、样本插补数据预测模块,用于基于所述初始神经网络模型的初始插补数据预测网络对所述预测样本特征数据序列进行编码处理,基于编码处理结果进行插补数据预测处理,得到每个所述目标样本时间戳对应的样本插补数据预测结果;所述样本插补数据预测结果表征相应目标样本时间戳在各所述维度的样本插补特征数据;

32、训练模块,用于基于所述目标样本时间戳序列中目标样本时间戳对应的样本插补数据预测结果和所述目标样本时间戳对应目标维度的参考特征数据,对所述初始神经网络模型进行训练,得到所述时序插补模型。

33、在一些可能的实施方式中,所述时域注意力模块,包括:

34、第一确定模块,用于确定所述目标样本时间戳序列中每个目标样本时间戳的第一样本时间戳嵌入和每个所述维度的样本特征记录信息序列中各样本记录时间戳的第二样本时间戳嵌入;

35、第二确定模块,用于确定初始神经网络模型中对应每个所述维度的初始时域注意力网络层;

36、相似程度确定模块,用于对于每个所述维度的样本特征记录信息序列,将每个所述目标样本时间戳的第一样本时间戳嵌入和所述样本特征记录信息序列中各样本记录时间戳的第二样本时间戳嵌入输入至所述维度的初始时域注意力网络层,通过所述初始时域注意力网络层确定每个所述第一样本时间戳嵌入与所述样本特征记录信息序列中各样本记录时间戳的第二样本时间戳嵌入之间的相似程度。

37、在一些可能的实施方式中,所述第一确定模块,具体用于基于所述初始神经网络模型的初始时间嵌入网络对所述目标样本时间戳序列和每个所述维度的样本特征记录信息序列分别进行时间戳嵌入处理,得到每个目标样本时间戳的第一样本时间戳嵌入和每个所述维度的样本特征记录信息序列中各样本记录时间戳的第二样本时间戳嵌入。

38、在一些可能的实施方式中,所述样本插补数据预测模块,包括:

39、正向处理模块,用于将所述预测样本特征数据序列输入至所述初始神经网络模型中初始插补数据预测网络的第一长短期记忆网络进行正向编码处理,得到样本中间隐藏状态序列;

40、反向处理模块,用于将所述样本中间隐藏状态序列输入至所述初始插补数据预测网络的第二长短期记忆网络进行反向编码处理,得到样本目标隐藏状态序列;

41、样本插补数据预测子模块,用于基于所述样本目标隐藏状态序列预测每个所述目标样本时间戳在各所述维度对应的样本插补特征数据,得到每个所述目标样本时间戳对应的样本插补数据预测结果。

42、在一些可能的实施方式中,所述训练模块,包括:

43、第三确定模块,用于对于每个目标样本时间戳,基于所述目标样本时间戳对应目标维度的参考特征数据与所述目标维度在所述目标样本时间戳的样本插补数据预测结果中对应的样本插补特征数据之间的差异,确定所述目标样本时间戳对应的均方误差;

44、损失确定模块,用于对所述目标样本时间戳序列中各目标样本时间戳对应的均方误差求平均,得到损失值;

45、参数调整模块,用于基于所述损失值反向调整所述初始神经网络模型中的网络参数,直至满足预设训练结束条件结束训练。

46、在一些可能的实施方式中,所述第三确定模块,包括:

47、掩码信息确定模块,用于基于所述目标样本时间戳对应目标维度的参考特征数据,确定所述目标样本时间戳对应各所述维度的掩码信息;所述掩码信息表征所述目标样本时间戳在相应维度的参考特征数据是否存在;

48、差异信息确定模块,用于对于每个所述维度,确定所述目标样本时间戳在所述维度的样本插补特征数据与所述目标样本时间戳在所述维度的参考特征数据之间差值的平方,确定所述差值的平方与所述目标样本时间戳对应所述维度的掩码信息的乘积,得到所述目标样本时间戳对应每个所述维度的差异信息;

49、第四确定模块,用于基于所述目标样本时间戳对应各所述维度的掩码信息,确定目标数量;所述目标数量表征所述目标样本时间戳存在参考特征数据的维度的数量;

50、均方误差确定模块,用于基于所述目标数量对所述目标样本时间戳对应每个所述维度的差异信息进行求平均,得到所述目标样本时间戳对应的均方误差。

51、另一方面,提供了一种电子设备,包括处理器和存储器,所述存储器中存储有至少一条指令或者至少一段程序,所述至少一条指令或者所述至少一段程序由所述处理器加载并执行以实现上述任一方面的数据处理方法。

52、另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或者至少一段程序,所述至少一条指令或者所述至少一段程序由处理器加载并执行以实现如上述任一方面的数据处理方法。

53、另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述任一方面的数据处理方法。

54、本技术实施例对于每个维度的特征记录信息序列,通过确定待插补时间戳序列中每个待插补时间戳与该特征记录信息序列中各记录时间戳之间的相似程度,得到每个待插补时间戳对该特征记录信息序列中各记录时间戳的注意力权重,进而基于每个待插补时间戳对该特征记录信息序列中各记录时间戳的注意力权重,对该特征记录信息序列在各记录时间戳的特征数据进行加权处理,得到每个待插补时间戳在该特征记录信息序列对应维度上的基础预测特征数据,并将每个待插补时间戳在各维度的基础预测特征数据进行拼接处理得到预测特征数据序列,进而对该预测特征数据序列进行编码处理,基于编码处理结果进行插补数据预测处理,得到每个待插补时间戳对应的插补数据预测结果,该插补数据预测结果表征相对应待插补时间戳在各维度的插补特征数据,从而在满足插补特征数据预测准确性的同时提高了插补特征数据的预测效率,并且不受时间序列的稀疏性影响,适应于高度稀疏的时间序列,且可以预测固定时间间隔的插补特征数据,具有很高的拓展性和灵活性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1