示例涉及用于基于自动化设备的环境状态确定自动化设备的动作的方法、计算机程序和装置,更具体地,但不排他地,涉及用于实现自动化设备的确定动作的统计信息的概念。
背景技术:
1、人工智能和机器学习概念已经发展和应用于许多不同的技术领域,例如,在自主车辆或工业机器人领域。例如,出于稍后描述的目的,训练数据用于训练神经网络,其中,训练的神经网络的稍后性能还取决于训练的质量和训练数据的质量。训练的神经网络基于来自环境的输入(例如,基于来自环境的传感器数据)提供其输出。一些概念利用持续学习或训练,例如,强化学习可使用奖励或其他质量测量判断神经网络做出的决策。根据奖励或质量测量,神经网络保持对其决策的学习,并且由此可建立持续学习或训练概念。
技术实现思路
1、示例是基于以下发现:环境数据的统计特性可用于改善机器学习方法的使用。例如,关于环境的置信度信息可用于生成或确定神经网络的改进的输出。另一发现是,环境状态可使用两个或更多个中间状态表示,该中间状态还表示环境的统计特性。这些中间状态随后可用于确定神经网络的多个动作或输出,这些动作或输出也具有统计特性。由于神经网络的非线性操作,动作或输出的统计特性不同于环境的统计特性,例如,由神经网络做出决策。示例可基于将两个或更多个中间状态用作环境状态的表示以提供改善的动作或输出。
2、一个示例涉及一种用于基于自动化设备的环境状态确定该自动化设备的动作的方法。该方法包括:获得关于环境测量结果的信息,该测量结果具有有限的置信度。该方法还包括:基于关于环境测量结果的信息估计关于环境状态的信息。关于环境状态的信息包括关于环境状态的置信度的信息。此外,该方法包括:基于关于环境状态的信息并基于关于环境状态的置信度的信息确定对环境状态的表示。环境状态的表示包括表示环境状态和环境状态的置信度的两个或更多个中间状态。例如,状态的置信度表示支持每个可能状态的证据的强度。该方法还包括:基于该表示确定关于自动化设备的动作的信息。示例可允许通过考虑环境的表示确定改进的动作,其不仅基于环境状态而且还基于环境状态的置信度。
3、进一步的示例还可以包括:确定动作的置信度信息。动作的置信度可实现系统中的进一步判断或测量,例如,在低置信度的情况下的特定操纵以及训练数据的改进。
4、例如,两个或更多个中间状态中的每一个包括表示关于环境状态的信息的统计特性的一个或多个sigma点。两个或更多个sigma点可形成统计基础,用于还基于环境的统计特性确定动作。
5、该方法还可包括:使用一个或多个策略以基于两个或更多个中间状态获得两个或更多个中间动作。该策略可实现决策过程,并提供从中间状态到中间动作的非线性变换。在示例中,策略可实现为能够对动作做出决策的机器学习或神经网络。
6、例如,该方法可使用相同的策略为每个中间状态获得一个中间动作。在示例中,相同的策略的多个副本可用于策略库中。这样,对于产生两个或更多个中间动作的两个或更多个中间状态,可并列使用相同的决策过程。此外,中间动作的所得分布可表示通过该策略的中间状态的分布的变换。中间动作的分布可充当用于确定所确定的动作的置信度信息的基础。
7、例如,策略可受到强化学习或进化搜索的影响。该一个或多个策略可涉及非线性变换,以基于两个或更多个中间状态获得两个或更多个中间动作。所以,决策过程可使用一个或多个策略实现。此外,中间状态的统计特性可完全地不同于中间动作的统计特性。示例可实现对中间动作的统计特性的确定,尽管策略是非线性的。该方法还可以包括:确定两个或更多个中间动作的分布的统计特性。这使得能够判断关于动作的置信度。
8、在一些示例中,该方法包括:使用无迹变换确定两个或更多个中间动作的统计特性。无迹变换可实现用于确定非线性策略的结果的统计特性的有效器件。
9、确定关于动作的信息还可以基于两个或更多个中间动作的分布的统计特性,并且两个或更多个中间动作的分布的统计特性包括中间动作的置信度信息。例如,关于动作的信息的确定可以基于中间动作的置信度信息。
10、至少在一些示例中,该方法还可以包括:如果中间动作的置信度信息指示中间动作的置信度水平低于预定义置信度阈值,则将关于安全动作的信息确定为关于动作的信息。这样,如果动作的置信度过低,则可检测到该情况,并且可应用安全测量。
11、在进一步的示例中,可应用策略的进一步训练,其中,策略的训练受到针对展现预定义统计特征的中间动作识别的中间状态的影响。例如,预定义统计特征是置信度阈值。
12、该自动化设备可以是自动驾驶车辆或工业机器人,并且该动作可以是用于该自动驾驶车辆或该工业机器人的受控动作。该动作可包括或对应于以下各项的组中的一个或多个元素:操纵、运动、加速、减速、转向命令、停止命令和紧急命令。因此,在示例中,紧急命令或安全动作可以是停止自动化设备的命令。
13、进一步的示例是一种具有程序代码的计算机程序,当该计算机程序在计算机、处理器或可编程硬件部件上执行时,该程序代码用于执行本文中描述的方法中的任何方法。
14、另一示例是用于控制自动化设备的装置,该装置包括用于执行在此描述的方法之一的控制单元或模块。又一示例是包括该装置的示例的自动化设备,例如,自动化或自动驾驶的车辆或工业机器人。
1.一种用于基于自动化设备的环境状态确定所述自动化设备的动作的方法,所述方法包括:
2.根据权利要求1所述的方法,还包括确定所述动作的置信度信息。
3.根据权利要求1所述的方法,其中,所述两个或更多个中间状态中的每一个包括表示关于所述环境状态的信息的统计特性的一个或多个sigma点。
4.根据权利要求1所述的方法,还包括使用一个或多个策略以基于所述两个或更多个中间状态获得两个或更多个中间动作。
5.根据权利要求4所述的方法,还包括使用相同的策略来为所述中间状态中的每一个获得一个中间动作。
6.根据权利要求5所述的方法,其中,所述一个或多个策略涉及非线性变换,以基于所述两个或更多个中间状态获得所述两个或更多个中间动作。
7.根据权利要求6所述的方法,还包括确定所述两个或更多个中间动作的分布的统计特性。
8.根据权利要求7所述的方法,还包括使用无迹变换用于确定所述两个或更多个中间动作的所述统计特性。
9.根据权利要求8所述的方法,其中,确定关于所述动作的信息还基于所述两个或更多个中间动作的分布的统计特性,并且其中,所述两个或更多个中间动作的分布的统计特性包括关于所述中间动作的置信度信息。
10.根据权利要求9所述的方法,其中,确定关于所述动作的信息基于所述中间动作的置信度信息。
11.根据权利要求10所述的方法,还包括:如果所述中间动作的所述置信度信息指示所述中间动作的置信度水平低于预定义置信度阈值,则将关于安全动作的信息确定为关于所述动作的信息。
12.根据权利要求11所述的方法,还包括训练所述策略,其中,所述策略的训练受到针对展现预定义统计特征的中间动作识别的中间状态的影响。
13.根据权利要求12所述的方法,其中,所述预定义统计特征是置信度阈值。
14.根据权利要求13所述的方法,其中,所述自动化设备是自动驾驶车辆或工业机器人,并且其中,所述动作是所述自动驾驶车辆或所述工业机器人的受控动作。
15.根据权利要求14所述的方法,其中,所述动作包括操纵、运动、加速、减速、转向命令、停止命令和紧急命令的组中的一个或多个元素。
16.一种具有程序代码的计算机程序,当所述计算机程序在计算机、处理器或可编程硬件部件上执行时,所述程序代码用于执行根据权利要求1所述的方法。
17.一种用于控制自动化设备的装置,包括用于执行根据权利要求1所述的方法的控制模块。