对自主系统进行安全且有效的超控的系统和方法与流程

文档序号:29478072发布日期:2022-04-02 07:47阅读:163来源:国知局
对自主系统进行安全且有效的超控的系统和方法与流程
对自主系统进行安全且有效的超控的系统和方法
1.相关申请的交叉引用
2.本技术是2019年9月26日在美国提交的名称为“system and method for autonomous system introspection”的美国临时申请no.62/906,269的非临时申请,其全部内容通过引用并入本文。
3.发明背景
4.(1)技术领域
5.本发明涉及一种用于自主系统的胜任力评估(competency assessment)的系统,并且更具体地,涉及以下用于自主系统的胜任力评估的系统,该系统能够在预测到低胜任力的情况下启动到人类或辅助系统的移交。
6.(2)相关技术描述
7.自主系统需要不断估计其处理即将发生的情况的能力。胜任力估计和警告的现有技术(诸如daftry等人(参见并入的参考文献列表中的参考文献no.9))使用了深度学习,深度学习只在明确定义且受控的情况下才能运行良好、仅基于提前一帧的运动学投影并且无法评估对于假设的未来情况的胜任力。
8.kansky等人(参见参考文献no.4)表明,即使是输入的细微变化也可能导致深度网络的灾难性故障。该领域没有成熟的方法来解决深度网络对输入(或低级特征)的微小变化过度敏感的问题。因此,现有技术无法针对假设情况和新情况来评估胜任力。此外,现有技术直接预测有偏差的胜任力度量,容易产生响应偏差。此外,现有技术没有评估经验深度。
9.因此,仍然需要如下系统:该系统不仅能够学习和适应并且在处理其尚未被训练或编程以进行处理的情况时表现出弹性适应,而且还能够知道它能够胜任地处理所述情况中的哪一种情况,以及何时寻求帮助。人类可以对知道其极限的机器更有信心。


技术实现要素:

10.本发明涉及一种用于自主系统的胜任力评估的系统,并且更具体地,涉及以下用于自主系统的胜任力评估的系统,该系统能够在预测到低胜任力的情况下启动到人类或辅助系统的移交。所述系统包括非暂时性计算机可读介质和一个或更多个处理器,所述非暂时性计算机可读介质上编码有可执行指令,使得当执行所述可执行指令时,所述一个或更多个处理器执行多个操作。所述系统提取表示情境的多个语义概念。将所述自主系统采取的动作与在所述情境中采取所述动作时激活的语义概念集合相关联。使用所述自主系统的性能的任务特定奖励函数,所述系统测量在所述情境中采取的所述动作的结果并生成奖励度量。将表示所述情境的所述多个语义概念连同在所述情境中采取的所述动作和所述奖励度量一起存储为记忆。基于所述记忆的回忆生成前瞻性模拟结果。基于所述前瞻性模拟结果,所述系统确定表示所述自主系统在所述情境中的胜任力的胜任力度量和表示所述自主系统在所述情境中的经验的经验度量中的至少一者。当所述胜任力度量和所述经验度量中的至少一者高于建立的最小允许值时,维持对所述自主系统的有胜任力操作控制。当所述胜任力度量和所述经验度量中的至少一者低于所述建立的最小允许值时,生成警报。
11.在另一方面,所述系统确定经验深度估计结果,所述经验深度估计结果表示在以任务目标为条件的已学习潜在空间中的任何点处的访问密度。
12.在另一方面,所述胜任力度量是基于受试者-操作者特性(receiver-operator characteristic,roc)曲线的胜任力度量。
13.在另一方面,当所述胜任力度量和所述经验度量中的至少一者低于建立的最小允许值时,所述系统启动将对所述自主系统的控制移交给用户。
14.在另一方面,当所述胜任力度量和所述经验度量中的至少一者低于建立的最小允许值时,所述系统启动将控制从人类用户移交给辅助系统。
15.在另一方面,所述自主系统是自主驾驶系统。
16.最后,本发明还包括计算机程序产品和计算机实现的方法。所述计算机程序产品包括被存储在非暂时性计算机可读介质上的计算机可读指令,所述计算机可读指令可以由具有一个或更多个处理器的计算机执行,使得在执行所述指令时,所述一个或更多个处理器执行本文列出的操作。另选地,所述计算机实现的方法包括使计算机执行这些指令并执行所得操作的动作。
附图说明
17.根据本发明的各个方面的以下详细描述,结合参考以下附图,本发明的目的、特征和优点将显而易见,在附图中:
18.图1是描绘了根据本公开的一些实施方式的用于自主系统的胜任力评估的系统的部件的框图;
19.图2是根据本公开的一些实施方式的计算机程序产品的例示图;
20.图3是根据本公开的一些实施方式的用于自主系统自省的方法的操作的例示图;
21.图4是根据本公开的一些实施方式的动作生成器的训练的例示图;
22.图5是根据本公开的一些实施方式的情节世界模型如何基于经有效编码的过去经验来预测未来的例示图;
23.图6a例示了根据本公开的一些实施方式的在两千万个帧上训练的代理的前瞻性模拟结果的真实分布和诱饵奖励分布;
24.图6b例示了根据本公开的一些实施方式的在一百万个帧上训练的代理的前瞻性模拟结果的真实分布和诱饵奖励分布;
25.图6c例示了根据本公开的一些实施方式的根据二十个真实情节(episode)中的各个真实情节的模拟结果中得出的平均受试者操作特征(roc)曲线;以及
26.图6d例示了根据本公开的一些实施方式的来自二十个真实情节的roc曲线下面积(auc)分数的分布。
具体实施方式
27.本发明涉及一种用于自主系统的胜任力评估的系统,并且更具体地,涉及一种能够学习并适应新情况的自主系统的胜任力评估的系统。呈现以下描述以使本领域普通技术人员能够制造和使用本发明并将其并入特定应用的上下文中。对于本领域技术人员而言,各种修改以及在不同应用中的多种用途将显而易见,并且本文定义的一般原理可以被应用
scalable neural turing machines through hyperneat.”international conference on the applications of evolutionary computation,750

766.
41.8.daftry,s.,zeng,s.,bagnell,j.a.,and hebert,m.(2016).“introspective perception:learning to predict failures in vision systems.”in 2016ieee/rsj international conference on intelligent robots and systems(iros),1743-1750.
42.9.mnih,v.,kavukcuoglu,k.,silver,d.,rusu,a.a.,veness,j.,bellemare,m.g.,graves,a.,riedmiller,m.,fidjeland,a.k.,ostrovski,g.and petersen,s.(2015).“human-level control through deep reinforcement learning.”nature,518(7540),529-533.
43.10.miikkulainen,r.,liang,j.,meyerson,e.,rawal,a.,fink,d.,francon,o.,and hodjat,b.(2019).“evolving deep neural networks.”in artificial intelligence in the age of neural networks and brain computing,293-312.
44.11.pilly,p.k.,howard,m.d.,and bhattacharyya,r.(2018).“modeling contextual modulation of memory associations in the hippocampus.”frontiers in human neuroscience,12.
45.(1)主要方面
46.本发明的各种实施方式包括三个“主要”方面。第一个主要方面是一种用于自主系统的胜任力评估的系统。该系统通常采用计算机系统操作软件的形式或采用“硬编码”指令集的形式。该系统可以并入提供不同功能的各种各样的设备中。第二个主要方面是使用数据处理系统(计算机)操作的通常采用软件形式的方法。第三个主要方面是计算机程序产品。计算机程序产品通常表示存储在诸如光学存储设备(例如,光盘(cd)或数字通用盘(dvd))或磁存储设备(诸如软盘或磁带)的非暂时性计算机可读介质上的计算机可读指令。计算机可读介质的其它非限制性示例包括:硬盘、只读存储器(rom)以及闪存型存储器。这些方面将在下面进行更详细描述。
47.图1中提供了描绘本发明的系统(即,计算机系统100)的示例的框图。计算机系统100被配置成执行与程序或算法相关联的计算、处理、操作和/或功能。在一个方面,本文讨论的某些处理和步骤被实现为驻留在计算机可读存储器单元内并由计算机系统100的一个或更多个处理器执行的一系列指令(例如,软件程序)。在执行时,所述指令使计算机系统100进行特定动作并展现特定行为,如本文所描述的。在各个方面,计算机系统100可以体现在可操作用于执行如本文所述的适用于特定应用的功能的任何设备中,诸如台式计算机、移动或智能电话、平板计算机、体现在移动平台(例如,一个或更多个自主驾驶车辆)中的计算机或可以单独和/或共同执行指令以执行相关操作/过程的任何其它设备或多个设备。
48.计算机系统100可以包括被配置成传送信息的地址/数据总线102。另外,一个或更多个数据处理单元(诸如处理器104(或多个处理器))与地址/数据总线102联接。处理器104被配置成处理信息和指令。在一方面,处理器104是微处理器。另选地,处理器104可以是不同类型的处理器,诸如并行处理器、专用集成电路(asic)、可编程逻辑阵列(pla)、复杂可编程逻辑器件(cpld)或现场可编程门阵列(fpga)。
49.计算机系统100被配置成利用一个或更多个数据存储单元。计算机系统100可以包括与地址/数据总线102联接的易失性存储器单元106(例如,随机存取存储器(“ram”)、静态
ram、动态ram等),其中,易失性存储器单元106被配置成存储用于处理器104的信息和指令。计算机系统100还可以包括与地址/数据总线102联接的非易失性存储器单元108(例如,只读存储器(“rom”)、可编程rom(“prom”)、可擦除可编程rom(“eprom”)、电可擦除可编程rom(“eeprom”)、闪速存储器等),其中,非易失性存储器单元108被配置成存储用于处理器104的静态信息和指令。另选地,计算机系统100可以执行从诸如“云”计算中的在线数据存储单元取回的指令。在一方面,计算机系统100还可以包括与地址/数据总线102联接的一个或更多个接口,诸如接口110。所述一个或更多个接口被配置成使得计算机系统100能够与其它电子设备和计算机系统连接。由所述一个或更多个接口实现的通信接口可以包括有线(例如,串行电缆、调制解调器、网络适配器等)和/或无线(例如,无线调制解调器、无线网络适配器等)通信技术。
50.在一个方面,计算机系统100可以包括与地址/数据总线102联接的输入设备112,其中,输入设备112被配置成将信息和命令选择传送至处理器104。根据一个方面,输入设备112是字母数字输入设备(诸如键盘),其可以包括字母数字键和/或功能键。另选地,输入设备112可以是除字母数字输入设备之外的其它输入设备。在一方面,计算机系统100可以包括与地址/数据总线102联接的光标控制设备114,其中,光标控制设备114被配置成将用户输入信息和/或命令选择传送至处理器104。在一方面,光标控制设备114是使用诸如鼠标器、轨迹球、轨迹板、光学跟踪设备或触摸屏的设备来实现的。尽管前述如此,但在一方面,诸如响应于使用与输入设备112相关联的特殊键和键序列命令,光标控制设备114经由来自输入设备112的输入而被引导和/或启用。在另选方面,光标控制设备114被配置成通过话音命令管理或引导。
51.在一方面,计算机系统100还可以包括一个或更多个可选计算机可用数据存储设备,诸如与地址/数据总线102联接的存储设备116。存储设备116被配置成存储信息和/或计算机可执行指令。在一个方面,存储设备116是诸如磁盘驱动器或光盘驱动器(例如,硬盘驱动器(“hdd”)、软盘、光盘只读存储器(“cd-rom”)、数字通用盘(“dvd”))的存储设备。依据一个方面,显示设备118与地址/数据总线102联接,其中,显示设备118被配置成显示视频和/或图形。在一方面,显示设备118可以包括:阴极射线管(“crt”)、液晶显示器(“lcd”)、场发射显示器(“fed”)、等离子体显示器,或适于显示视频和/或图形图像以及用户可识别的字母数字字符的任何其它显示设备。
52.本文所呈现的计算机系统100是根据一方面的示例计算环境。然而,计算机系统100的非限制示例并不严格限于作为计算机系统。例如,一个方面提供了计算机系统100表示可以根据本文所述各个方面使用的一类数据处理分析。此外,还可以实现其它计算系统。实际上,本技术的精神和范围不限于任何单一数据处理环境。因此,在一方面,使用通过计算机执行的计算机可执行指令(诸如程序模块)来控制或实现本技术的各个方面的一个或更多个操作。在一个实现中,这样的程序模块包括被配置成执行特定任务或实现特定抽象数据类型的例程、程序、对象、部件和/或数据结构。另外,一个方面提供了通过利用一个或更多个分布式计算环境来实现本技术的一个或更多个方面,诸如,在该计算环境中,任务由通过通信网络链接的远程处理设备执行,或者诸如,在该计算环境中,各种程序模块位于包括存储器-存储设备的本地和远程计算机存储介质中。
53.图2中描绘了具体实施本发明的计算机程序产品(即,存储设备)的例示图。计算机
程序产品被描绘为软盘200或诸如cd或dvd的光盘202。然而,如先前提到的,该计算机程序产品通常表示存储在任何兼容的非暂时性计算机可读介质上的计算机可读指令。如关于本发明所使用的术语“指令”通常指示要在计算机上执行的一组操作,并且可以表示整个程序的片段或单个分离的软件模块。“指令”的非限制性示例包括计算机程序代码(源或目标代码)和“硬编码”电子设备(即,编码到计算机芯片中的计算机操作)。“指令”被存储在任何非暂时性计算机可读介质上,诸如存储在计算机的存储器中或软盘、cd-rom以及闪存驱动器上。无论如何,这些指令被编码在非暂时性计算机可读介质上。
54.(3)各种实施方式的具体细节
55.自主系统需要不断地估计它们处理即将到来的情况的能力(即,瞬时熟练度等级)。本文描述的本发明预测熟悉和新颖情况下的性能,如果需要,有足够的时间(例如,针对自主驾驶汽车则是10秒或更多秒)将控制交接给人类用户。胜任力估计和警告的现有技术(soa)仅是基于提前一帧的运动学投影,并且无法评估针对假设的未来情况的胜任力(参见参考文献no.8)。
56.本文描述的发明将所有依次发生的经验(experiences)持续地存储在紧凑的、可扩展的情节记忆(episodic memory)中。有了足够的经验,本发明可以启动学习概念的过程,以便促进训练之外的泛化。然后持续地将概念整合到语义记忆中。当遇到新颖情况时,该新颖情况被分解为其组成概念,然后本发明针对目标任务目的和诱饵任务目的,使用语义记忆和情节记忆两者来执行一系列随机前瞻性模拟(stochastic prospective simulation)。随着模拟推广至将来,会产生两种动态的性能估计分布(目标和诱饵)。这些类似于信号检测理论中的信号分布和噪声分布。这两个分布间隔得越远,关于任务胜任力的置信度就越高。这是在受试者操作特征(roc)曲线度量下的无偏差面积(也称为曲线下面积或auc)中捕获的,该roc曲线度量是在类似情况下捕获系统胜任力的单个数字。因此,可以通过对随机情节回忆进行roc曲线分析来获得胜任力等级。使用本发明,可以在车辆操作期间持续产生胜任力等级,并且当其降低至最小可接受值以下时,控制系统应该将控制交接给用户。因此,在胜任力等级低时,本发明作为用于保护用户和自主系统的安全性的控制系统的一部分而获得实用性。
57.在另一非限制性示例中,根据本公开的实施方式的发明可以预测人类用户的表现,并且预测人类在熟悉和新颖的情况下成功且安全地执行操作的能力。在这种情况下,胜任力等级是到辅助系统的控制信号以告知辅助系统何时需要辅助用户,或者在不安全的情况下,可能接管控制。例如,如果人类用户的胜任力等级低于某个阈值,那么辅助系统(或备用系统)就会接管。因此,本发明的两个实例是可能的:一个实例对自主系统(诸如车辆)进行自省(introspect),而另一实例对用户(诸如驾驶员或飞行员)进行自省。
58.本文描述的发明记录系统(例如,陆地、航行器或空中交通工具或人类)的经验,然后通过对相关情况的记忆进行自省来计算系统处理特定当前情况或假设情况的胜任力的度量。可以隐式地或显式地存储情节记忆和语义记忆。术语“系统”用于描述在环境中起作用的任何事物。本发明学习了该系统(即,控制器或参与者)在不同情况下如何起作用,然后能够预测系统在新情况下的胜任力;请注意,该系统可能是陆地、海上或空中交通工具(自主的或半自主的)或人类。本文描述的发明可以应用于在世界中起作用的任何事物,包括成年人、儿童(例如,儿童安全监测器)、自主车辆、非自主车辆(例如,该车辆可以在崎岖泥路
上行进而不发生故障?)、机器人或者更抽象地是个体的团队(诸如面对涉及特定类型武器、敌对战斗人员数量和地理类型的情况的陆军步兵部队)。
59.称为深度感测学习(dsl)(要素322)的现有技术方法被用于提取语义概念(要素320),该语义概念用于任何情况的元知识表示。使用受大脑启发的情节世界模型(要素318)以紧凑、可扩展的形式来存储系统所经历的依次发生的情节和语义概念(要素320)以及作为响应采取的动作(要素316)(例如,方向盘角度、油门、制动器参数)以及针对动作接收到的任何奖励(要素404)。作为非限制性示例,在自主汽车中,车道跟踪任务的奖励是距汽车所在车道的中线有多远。
60.所有传感器观察结果、动作和瞬时性能度量的情节序列是所记录的经验的示例。另外,可以记录在不同粒度(例如,构造区域、涉及的实体)下从原始数据中提取的已知语义概念。本文描述的发明提供了一种在编码新经验时保持概念集合一致的方式。系统采取的动作(要素316)与采取该动作时激活的语义概念(要素320)相关联地存储在动作生成器(ag)模块(要素314)中。所学习的语义概念(要素320)由当前输入(即,传感器数据(要素312))选择性地激活。例如,本发明在其整个生命周期中已经学习了许多概念;然而,只有一语义概念子集与特定场景或帧相关。
61.此外,随着ag模块(要素314)暴露于越来越多的情况,它能够产生生成动作(要素316),所述生成动作更好地模仿和预见系统(其包括pacs(300)和车辆(304))采取的控制器动作(要素302)。包括ewm(要素318)、dsl(要素322)和ag模块(要素314)的本发明学习以模仿平台自主控制系统(要素300)的行为。包括强化学习的机器学习通常将状态/原始输入(传感器测量结果)映射至动作。本文描述的发明另外提取由状态/原始输入选择性地激活的语义概念(要素320),并将它们映射至动作。因为系统在记忆中具有语义概念(要素320),所以它还可以执行roc曲线分析以针对假设情况评估胜任力,例如,可以将其指定为在“泥路”上以及在“雨天”“跟随带领者”。下面将更详细地描述这些方面中的各个方面。
62.现有技术使用遭受了响应偏差(response bias)(即,成功概率)的度量。相比之下,本文描述的发明包括通过这些记忆生成前瞻性模拟结果并且使用这些模拟结果来构建基于无偏差的受试者-操作者特性(roc)曲线的胜任力度量的方法。roc曲线是一种现有技术的图形方法,其例示了二元分类器系统在其区分阈值变化时的诊断能力(参见参考文献no.2)。另外,本发明用于前瞻性地评估是否将继续满足期望的任务目标并量化预期的偏差(deviation)。最后,本发明提供了一种通过在给定任务目标条件下评估已学习潜在空间中任何点处的访问密度来估计系统的经验深度的方法。
63.本文描述的发明基于所存储的情节序列生成前瞻性模拟结果,从而产生对比的roc曲线胜任力度量(即,任务相对于其它任务的成功),其比单纯的成功概率提供更多信息。它表示语义概念方面的情况,这使得它更可泛化且更鲁棒。本发明是对基础机器学习系统(以下称为“系统”)的补充,所述系统诸如图3中所示的平台自主控制系统(pacs)(要素300),其被训练以完成不同任务(即,不同操作目标或命令)的集合。系统可以是深度强化学习神经网络或基于规则的专家系统,或者实际是人类;在任何情况下,系统都是将环境状态映射至控制器动作(要素302)的黑匣子,其隐含地学习了在不同环境条件下适当部署的多个有区别的策略。然后,本发明学习系统如何响应于不同情况而产生动作,以及这些动作的有效性。随后,当系统在给定情况下没有显示自身具有胜任力时,本发明可以产生警告或警
报(例如,车辆显示器上的视觉警告、诸如哔哔声或音调之类的听觉警告)。
64.图3描绘了构成本发明的多个模块。所述模块用于从环境学习并估计车辆(要素304)的胜任力,并且产生胜任力警告和移交请求(要素306)。注意,车辆(要素304)和用户(要素308)的角色可以针对不同用例(未示出)切换,其中本发明所分析的系统是用户(要素308),并且本发明估计用户的胜任力并在用户需要辅助时通知车辆。
65.(3.1)感知模块(要素310)
66.感知模块(要素310)使用现有技术的自动编码器(图4中的要素400)将传感器数据(要素312)编码成潜在表示。自动编码器是用于学习有效编码的现有技术人工神经网络。它们是本领域技术人员公知的。自动编码器的目的是学习数据集合的表示(编码),通常是为了降维。使用elman网络的自动编码的详细描述请参见参考文献no.6。
67.感知模块(要素310)的外部输入包括来自诸如摄像头、lidar、radar、gps和天气之类的各种传感器的低电平信号(即,传感器数据(要素312))。系统相对于外部环境的状态的内部感测(本体感觉)(诸如车辆在世界中的速度和相对位置)是感知模块(要素310)的另一输入。
68.(3.2)动作生成器(要素314)
69.感知模块(要素310)的输出(该输出是传感器数据的潜在表示)进入动作生成器(要素314)中,该动作生成器学习从感知模块(要素310)上下文到车辆(要素304)采取的动作(要素302)的映射。动作生成器(要素314)模块由actor-critic模型(参见参考文献no.9)实现,该模型是一种公知的系统起作用的强化学习方法,并且基于产生的奖励,critic系统适应由不断发展的循环actor-critic网络实现的参与者(actor),以基于情境上下文和记忆回忆来学习各种任务的奖励驱动的动作。神经进化用于优化动作生成器(要素314)的感知动作模块、用于直接编码的codeepneat(参见参考文献no.10)并且用于间接编码的hyperneat(参见参考文献no.7)。动作选择(要素316)被输出至情节世界模型(要素318)。
70.图4例示了如何训练动作生成器(要素314)。在第一离线时段期间,在线经验日志被用于动作生成器(要素314)的模块化结构的进化优化,以在在线数据上尽可能多地匹配系统(例如,车辆(要素304))的动作。概念(要素320)由dsl(要素322)在相同数据上从动作生成器(要素314)中的激活/活动(要素324)中提取。
71.(3.3)深度感测学习(dsl)(要素322)
72.深度感测学习(dsl)(要素322)是kolouri等人(参见参考文献no.5)的现有技术系统,其用于提取并聚类动作生成器(要素314)网络中的活动,如图3和图4所示。这些活动集群(即,活动(要素324))被用作引发它们的输入的符号表示,并且在学习到新颖要素时,跨多个经验保持一致。概念不需要在语义上有意义;但由于相似(但不相同)的输入可以产生相似的活动集群,因此它们用于使来自感知模块(要素310)的经编码的传感器数据泛化。当环境中的新特征足够不同以致于动作生成器网络(要素314)中的活动集群发生显著变化时,依赖于dsl概念(要素320)的所有网络都被重新训练并重组以并入新概念(要素406)而不会遗忘以前的概念。这是使用结合最新数据和先前经验的生成数据的交错训练离线完成的。输入层中的随机噪声用于基于动作生成器(要素314)活动与概念之间的合并关联来触发先前经验的情节的模拟推广(参见前瞻性模拟部分)。kolouri等人(参见参考文献no.5)证明,由于它提供的泛化能力,所以在将dsl提取的概念并入深度网络中时,分类误差减少
了42.5%。
73.由感知模块(要素310)提供的环境的低维潜在空间表示馈送至ewm(要素318)中,ewm存储与系统在这些经验期间采取的动作(要素316)相关联的依次发生的情节经验,以及经归一化的奖励值,如图5所示。ewm(要素318)由自回归循环网络和离散化索引代码组成,所述离散化索引代码将模拟结果限制为与上下文相关(参见参考文献no.12)。通过将本发明的内部模型基于哺乳动物的记忆系统,可以生成过去的经验以评估与任何关注的条件相关的性能,并且提供对相关但未见过的新场景中的受约束的性能估计。这些生成的经验采用基于一些初始条件的前瞻性模拟结果的形式,并有助于针对各种策略针对这些条件进行鲁棒的胜任力评估。通过生成可以递归地推广许多时间步长的高度准确的模拟结果,我们可以提高胜任力度量的保真度并提高系统行为的可靠性。所描述的发明的创新是持续地将发现的元知识并入ewm(要素318)中,以提高先前经验的模拟准确性并改进到新场景的泛化。
74.(3.4)情节世界模型(ewm)(要素318)
75.ewm(要素318)模型学习以系统动作为条件(conditioned)的世界动态的有效前向模型。当输入状态(处于以当前动作为条件的一系列可能的概念分布的形式)与相关联的动作集合一起呈现时,ewm(要素318)预测下一奖励(t+1)(要素402)、下一概念(t+1)(要素403),以及当前情节的终止。t+1指的是按照离散时间的下一帧。它取决于自主系统的运行速度(例如,针对自主驾驶汽车为30赫兹)。各次推广(rollout)都在先前经验的压缩低维潜在空间内运行。这些经验被编码到模仿海马中的ca3和齿状回(dg)回路的异构网络中,以分别实现模式完成和分离能力(参见参考文献no.3和no.12)。
76.特定于任务的奖励函数生成奖励(要素404),所述奖励是系统性能的逐时评估结果。作为自主驾驶系统的奖励(要素404)函数的示例,在驾驶员培训课程和手册中学习并体现在标志和道路标记中的驾驶规则可以用于供应车辆(要素304)的安全操作的分数。更高级的奖励(要素404)函数可能会添加面向目标的奖励(例如,车辆到达目标位置的效率如何)。ewm(要素318)是本公开的作者的现有技术,由互连的循环异构网络实现(参见参考文献no.3)。在将本发明应用于系统之后的第一在线时段期间,使用感知模块(要素310)中的输入感知结果(要素406),该输入感知结果由自动编码器(要素400)编码成潜在表示概念以产生经编码的感知结果(要素401),以自监督方式完成ewm(要素318)的训练。ewm(要素318)的训练(如图4所示)不需要标签并且以自监督方式完成(即,通过最小化各个帧的重建误差(也可以称为预测误差))。
77.本发明通过附加地使用所有先前经验数据来促进增量学习并避免灾难性遗忘,所述先前经验数据来自可以存储在显式记忆缓冲器中的在线时段以及来自基于用于各种随机初始条件和不同任务目标的最新ewm(要素318)和动作生成器(要素314)的回顾性模拟结果(重放)。此外,预测误差(“惊喜(surprise)”)被用作ewm(要素318)中经验的编码强度的乘数(multiplier),由此具有高预测误差的帧被呈现多次,直到达到性能准则为止。
78.在第二在线时段期间,系统的原始经验继续被记录在fifo(先进先出)记忆缓冲器中。然后离线,利用新的数据和先前的数据更新自动编码器(要素400)。接下来,动作生成器(要素314)被重新优化,这会使用在第一离线时段进化的动作生成器(要素314)为网络生成种子以用于新的神经进化周期。在该步骤之后,将重新提取概念、规则列表和策略解释。鉴
于自动编码器(要素400)、动作生成器(要素314)和概念(要素320)都可能已更新,尤其是随着元知识概念的内容和数量的变化,ewm(要素318)也需要通过利用记忆缓冲器中的经验进行重新训练而被重新组织。该过程在后续在线和离线时段期间继续进行,期望自动编码器(要素400)、动作生成器(要素314)、概念(要素320)和ewm(要素318)最终稳定为核心经验集合并且探索训练系统的任务策略。然而,本发明始终能够结合系统表现出的任何新策略,以及在新经验期间遇到的任何新的元知识。
79.(3.5)前瞻性模拟结果分析(要素500)和胜任力估计(要素506和508)
80.ewm(要素318)基于从任何关注的条件开始的过去经验来生成性能的前向投影,并提供相关但未见过的新场景中的受约束的性能估计。这些生成的经验有助于对系统在不久的将来实现所需性能度量的能力进行鲁棒的胜任力评估,如图5所示。各个推广都在ewm(要素318)记忆的压缩低维潜在空间内运行,其中下一状态(要素326)以由索引代码辅助的概率分布的形式被随机建模。初始状态被编码为潜在向量,并且从动作生成器(要素314)中采样特定动作。根据预测分布生成的样本被保存并用作下一时间步长(即,t+1)的输入,这又将对新动作和下一状态(要素326)进行采样。该过程可以根据需要随时(ad-hoc)继续进行,直到预测到情节的结束或达到某个规定的长度为止。在模拟期间来自ewm(要素318)的各个记忆回忆包括奖励度量(下面详细描述),并且这些度量被组合以形成最终的累积奖励值。计算特定模拟的累积奖励可能有不同方式,这可以取决于奖励的类型或任务。例如,如果自主车辆的奖励是遵守道路规则并保持驾驶员安全,那么累积奖励可能是模拟期间所达到的最小奖励值。然而,如果奖励只是到达目的地,则累积奖励将是所达到的最大奖励值。各个模拟结果都被统计(tallied)在已标记的直方图中,如图5所示。运行诱饵模拟和目标模拟,其中目标模拟使用动作生成器(要素314)在模拟期间选择的动作(要素316),而诱饵模拟从除动作生成器(要素314)选择的动作之外的任何动作中随机选择。roc曲线(要素502)以标准方式通过绘制从这两个分布构建,针对各个奖励,真阳性是来自目标模拟的值,而假阳性是来自诱饵的值。roc曲线(要素502)绘制了真阳性率与假阳性率。然后应用曲线下面积(auc)(要素504)的常规度量,从而揭示系统在模拟的未来实现良好结果的可能性有多大。
81.ewm(要素318)基于经有效编码的过去经验来预测未来。以当前动作为条件的潜在表示被用于学习可能的下一状态的预测分布。一旦在潜在空间中编码,就可以通过将ewm(要素318)的随机时间预测结果反馈回自身来生成许多前瞻性模拟结果。这些模拟结果中针对目标任务和诱饵任务的累积奖励分布将确定各个策略的roc曲线,并且auc度量表示系统在模拟时间段内的胜任力。
82.未来的胜任力评估(即,胜任力意识(要素506))仅在受限于来自系统的准确预测的最大长度的时段内保持。预测准确度是本发明中的存储的经验深度(如下所述)、存储在ewm(要素318)中的各个迭代的帧速率或时间长度、通过动作生成器(要素314)的来自各个迭代的潜在动作采样的随机性以及到将来的前瞻性模拟迭代的数量的函数。
83.进行了一项试点研究,以探索这些前瞻性模拟在增量学习服务中保留现有知识方面的有效性(参见参考文献no.3)。结果示于图6a至图6d中。这里,使用atari游戏集作为任务,发现将先前已学习任务的前瞻性模拟与新任务交织在一起可以保留跨若干任务的已学习时间预测。图6a和图6b示出了针对游戏中在两千万个帧(图6a)上训练的代理以及在少于一百万个帧(图6b)上训练的单独代理的前瞻性模拟结果的真实奖励分布和诱饵奖励分布,
以获得性能良好和较差的代理。在图6a中,未填充实线区域(要素600)表示在两千万个(20m)帧上训练的代理的真实奖励分布,未填充虚线区域(要素602)表示诱饵奖励分布,并且填充区域(要素604)表示重叠区域。在图6b中,未填充实线区域(要素606)表示在一百万个(1m)帧上训练的代理的真实奖励分布,未填充虚线区域(要素608)表示诱饵奖励分布,并且填充区域(要素610)表示重叠区域。
84.图6c示出了针对在20m个帧(要素612)和1m个帧(要素614)上训练的代理,针对20个真实情节中的每一者从50个时间步长的20个模拟得到的平均roc曲线。虚线(要素616)表示无差别测试。如图6c所示,前瞻性模拟能够基于各自的roc曲线将20m策略与1m策略区分开来。图6d描绘了来自那20个真实情节的auc分数的分布,示出了训练有素的代理的auc显著更高。未填充虚线区域(要素618)表示在20m个帧上训练的代理的分布,未填充实线区域(要素620)表示在1m个帧上训练的代理的分布,并且填充区域(要素622)表示重叠区域。这些图表明这种架构可以模拟多种潜在经验;然而,平均地,它们反映了环境的真实行为,使得可以可靠地区分有经验的策略和新手策略。
85.(3.6)经验深度估计器(doee)(要素508)
86.doee(要素508)提供了给定环境条件下在特定任务目标服务中策略被使用的频率的可靠估计。这是使用进化神经图灵机(entm)(参见参考文献no.7)通过以下方式在线学习的:通过对受给定任务目标和策略影响的已学习潜在空间中任何点的访问密度进行估计,同时还可以跨非常类似的状态进行鲁棒的泛化。entm被训练来模仿访问密度的高斯过程(gp)模型。由于其进化优化和图灵完备的属性,所以entm被训练来学习通用算法,以提供受给定任务和策略影响的平滑的访问估计。可以在数据集合上迭代地训练gp模型,所述数据集合包括ewm(要素318)潜在空间中的一系列观察结果,这些观察结果是使用特定策略以完成特定任务而获得的。entm存储了这些观察结果已获得的事实,并且基于其估计结果与访问密度的gp估计结果之间的距离将损失最小化。在该过程的下一迭代中,数据集合被新的观察结果扩充,新的gp在这个新数据集合上训练,entm只提供新的观察结果,并再次评估其接近(approximate)gp访问密度的最新迭代的能力。这种迭代训练过程可以无限期地继续下去,最终结果将是使用其内部记忆以在线方式提供条件访问密度估计结果的entm。由于gp模型的贝叶斯性质,所以它可以在可用数据很少的情况下使用。这还有额外的好处,即,明确测量其密度估计结果的不确定性。gp模型本身也可以通过采用在线批量学习方法来代替entm,这种方法不需要存储完整的数据历史(参考文献no.1)。
87.(3.7)胜任力意识(ca)(要素506)
88.胜任力意识(要素506)模块将归一化的胜任力评估度量(cam)(要素328)和经验深度估计(doee)作为输入,并将结果与用户定义的最小要求胜任力水平进行比较。一种方法是将它们相乘(例如,胜任力=cam*norm(doee))。doee可以通过建立一些期望的doee(例如,norm(doee)=min(1,doee/(desirable_doee))来归一化。在一个实施方式中,cam和doee是分开处理的。建立cam的最小允许水平,并且建立doee的最小允许水平。如果这些度量中的任何一个低于其建立的最小值,ca(要素506)模块就会发出警告或警报,和/或主动启动将自主系统的控制权(要素306)移交给用户。例如,在自主驾驶系统(例如,自动驾驶车辆)中,控制权(要素306)的移交可以意味着一个或更多个车辆部件(例如,制动机构、转向机构、加速机构)不再由自主系统控制,并且需要用户控制车辆部件来驾驶和操纵车辆。
89.半自动控制系统包括驾驶员安全和支持系统。自主车辆的开发人员将为他们的车辆建立最小可接受的熟练程度等级(mapr),这将消除由无法预测情景熟练程度的控制器引起的事故。本文描述的发明将允许人类用户自信地参与自主控制系统,因为他们知道他们的自主车辆不会尝试他们无法处理的情况。这在复杂的、时间关键的、动态的环境中尤其重要。半自主车辆的开发人员还需要一种方法来基于人类用户在类似先前情况下的行为来确定人类用户何时对于处理当前即将发生的情况不太熟练,并且可以从接管对车辆的部分或全部控制以确保乘员的安全的辅助技术中受益。因此,当胜任力度量和经验度量中的至少一者低于所建立的最小允许值时,本文描述的发明导致自主系统或人类用户的安全和/或有效(efficacy)的超控(override)。
90.此外,自主水平在某些系统中可能是一个问题,其中可变自主系统(诸如无人驾驶飞行器)有时可以在没有监督的情况下飞行到某个位置,但操作员必须在整个时间中保持控制,以防出现问题。根据本公开的实施方式的创造性系统将允许操作员在更长的时间段内提高这些系统的自主水平,因为他们将更能够判断他们处理情况的能力。长期以来,人们一直需要辅助系统,诸如“飞行员助理”,它可以智能地决定飞行员或驾驶员需要多少帮助。本文描述的发明可以用于更好地预测用户何时确实需要帮助,从而更好地接受辅助技术。
91.最后,虽然已经根据若干实施方式对本发明进行了描述,但本领域普通技术人员将容易地认识到,本发明可以在其它环境中具有其它应用。应注意,可以有许多实施方式和实现。此外,所附权利要求绝不旨在将本发明的范围限于上述具体实施方式。另外,“用于
……
的装置”的任何叙述旨在引发要素和权利要求的装置加功能的解读,而未特别使用“用于
……
的装置”叙述的任何要素不应被解读为装置加功能要素,即使权利要求以其它方式包括了“装置”一词。此外,虽然已经按特定顺序叙述了特定方法步骤,但这些方法步骤可以按任何期望的顺序进行并且落入本发明的范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1