用于控制代理的方法与流程

文档序号：33939373发布日期：2023-04-26 00:04阅读：34来源：国知局

本公开涉及用于控制代理的方法。

背景技术：

1、在自主系统领域，对受控代理（诸如机器人）的环境中的移动对象（例如人员）的行为的预测是一项重要任务，以便可靠地控制该代理并且例如避免碰撞。

2、尤其是，对在为一至10秒的不久的将来的人类行为的预测是一项基本任务。例如，医院机器人必须预测护士、医生和患者的行为，以便及时在走廊为他们腾出空间。在自主驾驶中，车辆必须预见到其他交通成员的介入。目前最准确的预测方法几乎无一例外地属于机器学习的范畴。

3、这项任务的挑战之一是人类行为取决于个人愿望、偏好和意图并且因而可能采取多种形式。例如，一个驾驶员不喜欢超越较慢的前车并且作为替代对速度进行适配，而另一个驾驶员不想浪费时间并且更喜欢超车。现在，为了准确的预测，该行为范围必须被覆盖并且在机器学习方法的情况下从数据中被学习。

4、为此，目前领先的机器学习方法使用变分自编码器（vae）方法的变体。这里假设：所要预测的参量不仅取决于输入数据而且取决于遵循先验分布的潜在变量。该参量并不直接存在于训练数据中，而是必须被估计。为此，使用后部。对于训练来说，通过解码器网络来建模并且通过识别网络来建模并且通过对证据下限（evidence lower bound，elbo）的最小化来训练。在这种情况下，表示在分布之间的kullback-leibler散度，并且被用于使潜在变量或其分布正则化。elbo的第二部分称为重建损失（英文reconstruction loss），并且用于训练解码器做出尽可能好的预测。

5、利用该方法，一些复杂的概率分布可以非常好地被建模。但是，这种方法的成功使用是相当困难的：例如在vae中存在过度正则化问题，这些过度正则化问题需要在elbo中精确调整算法的超参数、尤其是kullback-leibler项的权重。此外，由于用于计算重建损失的训练需要提取附加的随机变量，vae比传统的神经网络更难以训练。

6、与此相对应地，值得期望的是针对代理的控制方法，这些控制方法包含对（在代理的环境中所探测到的）对象的高效预测。

技术实现思路

1、按照各种实施方式，提供了一种用于控制代理的方法，该方法具有：借助于训练数据来训练神经网络，这些训练数据对于多个代理来说包含这些代理的行为的示例，其中该神经网络的输出具有针对行为的预测并且取决于网络参数，这些网络参数针对所有训练数据来共同被训练，并且该神经网络的输出取决于另一参数，该另一参数针对所述多个代理中的每个代理来单独训练；将概率分布拟合到针对这些代理的该另一参数的从训练中得到的值；在代理的环境中对来自另一代理的概率分布中的值进行采样；而且在考虑该神经网络针对该另一代理的经采样的值所输出的该另一代理的行为的预测的情况下控制该代理。

2、上述方法能够在控制自主系统的上下文中生成其他代理（尤其是人类代理）的各种可能的行为方式。借此，在控制自主系统时，可以确定轨迹或者个体行为方式，这些轨迹或者个体行为方式避免了与其他代理的碰撞或者其他代理的其他损害。另一方面，可以在自主系统的开发阶段生成人类代理的各种行为，并且借此可以在基于模拟的评估（即模拟控制）中检查该自主系统是否正确发挥作用。

3、上述方法能够在通过使用可有效地被训练的行为预测来控制代理时考虑对象的行为。它可以借助于已建立的组成部分（神经网络、概率模型）来实现，其中与例如在vae方法的情况下相比，对超参数的调整明细更简单并且训练总体上更加鲁棒。由此，例如模型也可以在没有专家知识的情况下快速且简单地针对新的用例、诸如对另一国家的驾驶员行为的预测来再训练，即代理可以与变化的条件快速适配，这例如在应用于自主驾驶的情况下提高了安全性。

4、在下文说明了各种实施例。

5、实施例1是一种用于控制机器人的方法，如上所述。

6、实施例2是根据实施例1所述的方法，其中该神经网络被训练来将该神经网络的输入映射到代理的行为的预测，其中该神经网络的输入包括：该代理的状态信息，该神经网络应该针对该代理来预测该行为；和该另一参数。

7、即，该神经网络的输出与该另一参数的依赖性可以简单地通过将该另一参数添加给该神经网络输入（作为该输入的可训练部分）的方式来实现。借此，不需要特殊的网络架构用于实现，而是可以使用具有相对应的输入维度的现有网络架构。

8、实施例3是根据实施例2所述的方法，其中该神经网络的输入包括关于该代理的行为应该在其中被预测的控制场景的状态信息。

9、因此，该神经网络可以将该控制场景的状态一并包含在其预测中。该神经网络的输入例如可以是以带有位置和速度的车辆的列表为形式的交通状况说明，通过附加参数来扩展。

10、实施例4是根据实施例1至3中任一项所述的方法，其中该概率分布是高斯混合模型。

11、高斯混合模型可以被高效训练，以便对复杂分布进行建模，并且可以从该高斯混合模型中高效地进行采样。

12、实施例5是根据实施例1至4中任一项所述的方法，该方法具有：训练这些网络参数和该另一参数，其方式是对这些网络参数和该另一参数进行适配以使在这些代理的行为的示例与分别由该神经网络所预测的行为之间的损失最小化。

13、换言之，该另一参数被一并包含在对该神经网络的训练中。但是，该另一参数在此针对不同代理的训练示例具有不同的（可训练）值，原因在于该另一参数针对这些训练数据对其来说包含行为的示例的每个代理都被单独训练。

14、实施例6是一种控制装置，该控制装置被设立为执行根据实施例1至5中任一项所述的方法。

15、实施例7是一种计算机程序，该计算机程序具有指令，当这些指令由处理器执行时，这些指令引起：该处理器执行根据实施例1至5中任一项所述的方法。

16、实施例8是一种计算机可读介质，该计算机可读介质存储指令，当这些指令由处理器执行时，这些指令引起：该处理器执行根据实施例1至5中任一项所述的方法。

技术特征：

1.一种用于控制代理的方法，所述方法具有：

2.根据权利要求1所述的方法，其中该神经网络被训练来将该神经网络的输入映射到代理的行为的预测，其中该神经网络的输入包括：该代理的状态信息，该神经网络应该针对该代理来预测该行为；和该另一参数。

3.根据权利要求2所述的方法，其中该神经网络的输入包括关于该代理的行为应该在其中被预测的控制场景的状态信息。

4.根据权利要求1至3中任一项所述的方法，其中该概率分布是高斯混合模型。

5.根据权利要求1至4中任一项所述的方法，所述方法具有：训练这些网络参数和该另一参数，其方式是对这些网络参数和该另一参数进行适配以使在这些代理的行为的示例与分别由该神经网络所预测的行为之间的损失最小化。

6.一种控制装置，所述控制装置被设立为执行根据权利要求1至5中任一项所述的方法。

7.一种计算机程序，所述计算机程序具有指令，当所述指令由处理器执行时，所述指令引起：所述处理器执行根据权利要求1至5中任一项所述的方法。

8.一种计算机可读介质，所述计算机可读介质存储指令，当所述指令由处理器执行时，所述指令引起：所述处理器执行根据权利要求1至5中任一项所述的方法。

技术总结
按照各种实施方式，描述了一种用于控制代理的方法，该方法具有：借助于训练数据来训练神经网络，这些训练数据对于多个代理来说包含这些代理的行为的示例，其中该神经网络的输出具有针对行为的预测并且取决于网络参数，这些网络参数针对所有训练数据来共同被训练，并且该神经网络的输出取决于另一参数，该另一参数针对所述多个代理中的每个代理来单独训练；将概率分布拟合到针对这些代理的该另一参数的从训练中得到的值；在代理的环境中对来自另一代理的概率分布中的值进行采样；而且在考虑该神经网络针对该另一代理的经采样的值所输出的该另一代理的行为的预测的情况下控制该代理。

技术研发人员：F·施密特
受保护的技术使用者：罗伯特·博世有限公司
技术研发日：
技术公布日：2024/1/11

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：F
技术所有人：罗伯特
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。