校正机器学习模型训练数据的制作方法

文档序号:40947821发布日期:2025-02-18 19:11阅读:2来源:国知局
校正机器学习模型训练数据的制作方法

本发明涉及训练机器学习模型的领域,并且具体地涉及校正被用于训练机器学习模型的数据的领域。


背景技术:

1、作为与事件的发生有关的数据的事件数据常常被手动记录。作为结果,由事件数据描述的事件的时间戳由于记录/人为错误和/或因为用于参考事件的时间的时钟的不准确性而非常容易不准确。

2、在许多领域中,事件数据被用于训练机器学习(即,人工智能)模型。由于机器学习模型的质量高度取决于被用于训练它们的数据的质量,因此与记录的事件数据相关联的不准确性是有问题的。

3、通过具体示例,在医学领域中,机器学习模型可以被用于预测对象的未来状况。这在外科手术操作期间可能特别有益,其中,这样的预测对于对象安全可能是重要的。然而,由于针对事件数据(即,药物施用事件、对象重新定位事件等)的时间戳被错误地记录并不少见,因此这样的机器学习模型的准确性和可靠性可能降低。最终,这可能威胁对象的安全。

4、因此,目前需要一种手段来减轻被用于训练机器学习模型的事件数据中的这样的不准确性的影响。


技术实现思路

1、本发明由权利要求限定。

2、根据依据本发明的一个方面的示例,提供了一种用于校正机器学习模型训练数据的方法,所述方法包括:

3、获得包括描述事件发生的定时的时间戳值的训练数据;以及

4、根据被配置为基于预定时间不确定性范围调节所述时间戳值的时移函数来修改所获得的训练数据的所述时间戳值。

5、因此,所提出的概念旨在提供与通过校正被用于训练机器学习模型的数据来改进(即,提高准确性和/或可靠性)这样的模型有关的方案、解决方案、概念、设计、方法和系统。特别地,根据时移函数和预定时间不确定性范围来修改描述事件的训练数据的时间戳。以这种方式,可以补偿时间戳的记录的不确定性/不准确性,使得可以提高训练数据的质量。

6、已知描述事件的数据常常具有不可靠(即,不准确、不精确等)的时间戳。这是由于在这样的情况下时间戳通常由个体记录,所述个体容易遭受来自各种来源的错误。因此,当所述不可靠数据用于训练机器学习模型时,模型的质量可能受到损害。

7、因此,本发明的实施例旨在通过校正/修改用于训练机器学习模型的数据来克服这些问题。这是通过由时移函数调节原始时间戳值来实现的,所述时移函数考虑了时间戳值的不确定性。在一些实施例中,时间戳值可以在预定时间不确定性范围内移位随机量。当对时间戳值的这种修改被应用于描述许多事件发生的定时的训练数据时,可以抑制用于训练机器学习模型的个体时间戳值中的任何误差的影响。

8、换句话说,通过以这种方式修改时间戳值,可能降低所有事件发生的时间戳值的分辨率。分辨率的这种下降可能对应于不确定性,从而抵消了错误在记录时间戳时的影响。

9、在许多情况下,事件常常是针对系统中的后续改变的触发器。通过示例,药物施用事件通常将触发对象的生理状态的变化。准确理解这样的事件的定时对于理解事件发生与事件的影响之间的因果关系至关重要。然而,在许多环境中,对这样的事件的定时的准确记录可能不是优先的,或者可能是不可能的。因此,当围绕这样的事件收集的数据被用于训练机器学习模型时,该机器学习模型可能对事件与后续系统变化之间的因果关系具有不正确的理解。因此,通过经由时移函数和预定时间不确定性范围考虑记录的时间戳中的这些不一致,可以改进机器学习模型训练数据。

10、因此,在本发明中,描述事件发生的定时的时间戳值被修改/移位/改变-降低时间戳的有效精度,但是提高时间戳的准确性。

11、在一些实施例中,预定时间不确定性范围可以指示时间戳值与事件发生的实际定时之间的预测差异。

12、优选地,对时间戳值的修改不应大于所记录的事件的定时与事件的真实情况定时之间的差异。这确保了时间戳的有效精度不会比提高时间戳的准确性所需的降低更多。

13、在一些实施例中,预定时间不确定性范围可以基于与事件发生相对应的事件类型。

14、实际上,与时间戳相关联的不确定性常常与时间戳描述发生的事件的类型高度相关。例如,在其中记录器难以辨别事件的精确定时的事件的时间戳可能具有更高水平的不确定性。此外,对于固有地需要回顾性地记录时间戳的事件(即,当记录器参与事件的致动时,或者在记录器不能使任何记录装置手持的情况下),不确定性可能更高。

15、换句话说,可以利用与事件类型有关的信息,以便确定时间戳的记录中的可能错误。因此,利用该信息可以实现更适当的预定时间不确定性范围,以用于基于其来修改时间戳值。

16、在一些实施例中,时移函数可以被配置为基于预定时间不确定性范围和概率分布算法来调节时间戳值。

17、因此,可以适当地执行对时间戳值的修改。在这种情况下,当修改被应用于许多时间戳值时,可以进一步提高平均准确性。

18、在一些实施例中,概率分布算法可以遵循均匀分布。在其他实施例中,概率分布算法可以遵循正态分布。在另外的实施例中,概率分布算法可以遵循非对称概率分布,并且优选地遵循对数正态分布。

19、不同类型的概率分布算法可能更适合于不同类型的用例。这可以取决于所描述的事件的类型或想要校正训练数据的用户的偏好。

20、根据本发明的另外的方面,提供了一种生成状态预测模型的方法,所述状态预测模型适于输出指示对象的未来生理状态的状态预测,所述方法包括:获得时间系列数据,所述时间系列数据包括描述至少一个生理特性的状态数据;以及事件数据,所述事件数据包括描述事件发生的定时的时间戳值;根据用于校正机器学习模型训练数据的方法来校正事件数据;以及使用训练算法来训练状态预测模型,所述训练算法被配置为接收训练输入和已知输出的阵列,其中,所述训练输入包括经校正的事件数据和状态数据,并且已知输出包括状态数据。

21、根据本发明的其他方面,提供了一种生成状态预测模型的方法,所述状态预测模型适于输出指示对象的未来生理状态的状态预测,所述方法包括:获得时间系列数据,其包括描述至少一个生理特性的状态数据,以及包括描述事件发生的定时的时间戳值的事件数据;通过根据时移函数修改事件数据的时间戳值中的至少一个来校正事件数据,所述时移函数被配置为基于预定时间不确定性范围来调节时间戳值;以及使用训练算法来训练状态预测模型,所述训练算法被配置为接收训练输入和已知输出的阵列,其中,训练输入包括经校正的事件数据和状态数据,并且已知输出包括状态数据。

22、因此,可以利用校正/修改训练数据的上述方法来训练状态预测机器学习模型,使得状态预测模型可以输出与对象的未来生理状态有关的更准确和/或可靠的预测。

23、实际上,对象的未来状态严重依赖于针对对象发生的事件(即,药物施用事件、处置事件、重新定位事件)以及对象的当前状态。对象的状态通常由传感器(即生命体征监测器)记录,这固有地意味着时间戳是准确的。然而,事件数据通常由护理提供者记录,该护理提供者可以回顾性地记录事件的时间并且处于在其中错误可能常见的高压环境中。因此,与对象有关的事件的时间戳值可能非常不准确。

24、因此,通常的情况是,在包含许多错误的数据集上训练状态预测模型,从而导致不准确和不可靠的输出预测。本发明的实施例旨在通过根据被配置为基于预定时间不确定性范围调节时间戳值的时移函数修改时间戳来减轻该问题。因此,可以训练改进的(即,更准确和可靠的)状态预测模型。

25、在一些实施例中,状态数据可以包括生命体征数据。状态数据还可以包括心率、血压和氧饱和度水平中的至少一个。这样的数据可以由被附接到对象的传感器自动获取。因此,状态数据的时间戳可以被认为接近真实情况定时。

26、在一些实施例中,事件数据可以包括描述对象处置的干预信息。事件数据可包括药物施用事件、移动事件和处置事件中的至少一个。

27、这样的数据可能对应于由于人为错误而不准确的时间戳值。然而,这样的描述的事件也可能对对象的状态具有显著影响。因此,需要准确的时间戳值来适当地评估事件与对象的状态之间的链接,以及预测未来状态。

28、在一些实施例中,训练算法是随机梯度下降算法。

29、根据本发明的又一方面,提供了一种生成指示对象的未来生理状态的状态预测的方法,所述方法包括:根据生成适于输出指示对象的未来生理状态的状态预测的状态预测模型的方法来生成状态预测模型;获得与对象相关联的时间系列数据,所述时间系列数据包括描述对象的至少一个生理特性的状态数据;以及包括描述对应于对象的事件发生的定时的时间戳值的事件数据;基于将时间系列数据输入到所生成的状态预测模型来获取对象状态预测。

30、因此,通过使用如上所述的经校正的训练数据生成状态预测模型,可以获取改进的(即,更准确、精确和可靠的)对象状态预测。这可能对对象结果具有显著的积极影响,因为预测未来状态是确定对象护理中的适当步骤的关键。

31、根据本发明的另外的方面,提供了一种包括计算机程序代码模块的计算机程序,当所述计算机程序在计算机上运行时,所述计算机程序代码模块适于实施一种方法,用于校正机器学习模型训练数据,生成适于输出指示对象的未来生理状态的状态预测的状态预测模型,以及生成指示对象的未来生理状态的状态预测。

32、根据本发明的额外的方面,提供了一种用于校正机器学习模型训练数据的系统,所述系统包括:接口,其被配置为获得包括描述事件发生的定时的时间戳值的训练数据;以及数据操纵单元,其被配置为根据被配置为基于预定时间不确定性范围调节时间戳值的时移函数来修改所获得的训练数据的时间戳值。

33、参考下文描述的实施例,本发明的这些和其他方面将显而易见并得到阐述。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1