技术特征:
1.一种目标对象控制方法,包括:获取来源于智能体网络的多个环境交互数据并基于所述多个环境交互数据确定候选样本数据集,其中所述多个环境交互数据中的每个环境交互数据至少包括环境状态、目标值、执行动作,所述候选样本数据集包括至少一部分环境交互数据,所述智能体网络包括执行者网络和评价网络,所述执行者网络用于基于环境状态和目标值来确定执行动作,所述评价网络包括多个子评价网络,每个子评价网络用于基于所述环境状态、所述目标值和所述执行动作来评价所述执行者网络;将候选样本数据集中的每个候选样本数据分别输入到所述评价网络的多个子评价网络,并利用各个子评价网络的输出值的一致性来确定所述候选样本数据的采样优先级;根据所述每个候选样本数据的采样优先级来对所述候选样本数据集进行采样;基于被采样的候选样本数据对所述智能体网络进行训练;根据所述经训练的智能体网络中的执行者网络对所述目标对象进行控制。2.根据权利要求1所述的方法,其中所述多个环境交互数据中每个环境交互数据还包括反馈的环境状态;并且其中所述获取来源于智能体网络的多个环境交互数据并基于所述多个环境交互数据确定候选样本数据集,包括:获取来源于智能体网络的多个环境交互数据;对于所述多个环境交互数据中的至少部分环境交互数据中的每个环境交互数据,基于所述环境交互数据的反馈的环境状态来修改所述环境交互数据的目标值;基于经修改的至少部分环境交互数据更新所述多个环境交互数据以确定所述候选样本数据集。3.根据权利要求1或2所述的方法,其中每个子评价网络的输出值为预测的奖励值,并且其中所述将候选样本数据集中的每个候选样本数据分别输入到所述评价网络的多个子评价网络,并利用各个子评价网络的输出值的一致性来确定所述候选样本数据的采样优先级,包括:对于所述候选样本数据集中的每个候选样本数据,分别执行下述步骤:将所述候选样本数据分别输入到所述评价网络的多个子评价网络,得到多个预测的奖励值;利用所述候选样本数据对应的多个预测的奖励值的一致性来确定所述候选样本数据的采样优先级。4.根据权利要求3所述的方法,其中所述利用所述候选样本数据对应的多个预测的奖励值的一致性来确定所述候选样本数据的采样优先级,包括:确定所述候选样本数据的多个预测的奖励值的方差,作为所述候选样本数据的方差;根据所述候选样本数据的方差来确定所述候选样本数据的采样优先级,其中所述候选样本数据的采样优先级与相应的方差成负相关。5.根据权利要求4所述的方法,其中所述根据所述候选样本数据的方差来确定所述候选样本数据的采样优先级,包括:将所述候选样本数据集的各个候选样本数据的方差中的最大的方差与所述候选样本数据的方差的差值作为所述候选样本数据的中间采样优先级;
将所述候选样本数据集的各个候选样本数据的中间采样优先级之和作为总采样优先级;基于所述候选样本数据的中间采样优先级与总采样优先级之商来确定所述候选样本数据的采样优先级。6.根据权利要求5所述的方法,其中所述基于所述候选样本数据的中间采样优先级与总采样优先级之商来确定所述候选样本数据的采样优先级,包括:将预设参数作为幂,对所述候选样本数据的中间采样优先级与总采样优先级之商进行幂运算,作为所述候选样本数据的采样优先级,其中所述预设参数大于零。7.根据权利要求1或2所述的方法,其中所述根据所述每个候选样本数据的采样优先级来对所述候选样本数据集进行采样,包括:将所述候选样本数据集的采样优先级归一化,以得到每个候选样本数据的归一化结果;将每个候选样本数据的归一化结果作为所述候选样本数据的被采样概率;按照每个候选样本数据的被采样概率来对所述候选样本数据集进行采样。8.根据权利要求3所述的方法,其中每个环境交互数据还包括奖励值;并且其中所述基于被采样的候选样本数据对所述智能体网络进行训练,包括:对于每个智能体网络,分别执行下述步骤:根据所述被采样的候选样本数据的环境状态和目标值,使用所述智能体网络的执行者网络来计算所述智能体网络的执行动作;根据所述智能体网络的执行动作、所述被采样的候选样本数据的环境状态和目标值,使用所述智能体网络的评价网络的多个子评价网络来预测所述智能体网络的执行动作的奖励值;基于所预测的奖励值和所述被采样的候选样本数据的奖励值,对所述评价网络的参数和相应的执行者网络的参数进行调整。9.根据权利要求1或2所述的方法,其中每个环境交互数据的执行动作由所述智能体网络中的执行者网络根据所述环境交互数据的环境状态和目标值而确定。10.根据权利要求1或2所述的方法,其中所述执行者网络包括多个子执行者网络;其中所述多个子执行者网络均包括特征提取层和预测层,所述特征特区层用于提取所述候选样本数据的特征,所述预测层用于根据所述候选样本数据的特征来确定执行动作;并且其中所述多个子执行者网络共同使用同一特征提取层。11.根据权利要求10所述的方法,其中所述共同使用的特征提取层包括两层全连接层。12.一种目标对象控制装置,包括:获取模块,配置为获取来源于智能体网络的多个环境交互数据并基于所述多个环境交互数据确定候选样本数据集,其中所述多个环境交互数据中的每个环境交互数据至少包括环境状态、目标值、执行动作,所述候选样本数据集包括至少一部分环境交互数据,所述智能体网络包括执行者网络和评价网络,所述执行者网络用于基于环境状态和目标值来确定执行动作,所述评价网络包括多个子评价网络,每个子评价网络用于基于所述环境状态、所述目标值和所述执行动作来评价所述执行者网络;确定模块,配置为将候选样本数据集中的每个候选样本数据分别输入到所述评价网络
的多个子评价网络,并利用各个子评价网络的输出值的一致性来确定所述候选样本数据的采样优先级;采样模块,配置为根据所述每个候选样本数据的采样优先级来对所述候选样本数据集进行采样;训练模块,配置为基于被采样的候选样本数据对所述智能体网络进行训练;控制模块,配置为根据所述经训练的智能体网络中的执行者网络对所述目标对象进行控制。13.一种计算设备,包括:存储器和处理器,其中所述存储器中存储有计算机程序,所述计算机程序在被所述处理器执行时促使所述处理器执行权利要求1-11中任一项所述的方法的步骤。14.一种计算机可读存储介质,其上存储计算机可读指令,所述计算机可读指令在被执行时实现权利要求1-11中任一项所述的方法。15.一种计算机程序产品,包括计算机指令,计算机指令在被处理器执行时实现根据权利要求1至11中任一项的方法的步骤。
技术总结
本申请公开了一种目标对象控制方法,包括:获取来源于智能体网络的多个环境交互数据并基于多个环境交互数据确定候选样本数据集,智能体网络包括执行者网络和评价网络;将候选样本数据集中的每个候选样本数据分别输入到评价网络的多个子评价网络,并利用各个自评价网络的输出值的一致性来确定候选样本数据的采样优先级;根据每个候选样本数据的采样优先级来对候选样本数据集进行采样;基于被采样的候选样本数据对智能体网络进行训练;根据经训练的智能体网络中的执行者网络对目标对象进行控制。行控制。行控制。
技术研发人员:徐家卫 李舒兴 袁春 韩磊
受保护的技术使用者:清华大学深圳国际研究生院
技术研发日:2022.07.29
技术公布日:2022/11/3