本技术涉及人工智能技术,尤其涉及一种协作处理方法、装置、设备、存储介质及程序产品。
背景技术:
1、人工智能技术已经广泛地应用到游戏领域中,例如围棋游戏、角色扮演游戏、多人竞技游戏等,均存在由智能体所控制的角色,且竞技水平可以达到人类顶级玩家。当智能体作为人类玩家,即参与对象的队友时,需要能够与参与对象及时基于虚拟场景进行沟通,达成协作。然而,相关技术中,在进行人机协作时,智能体缺乏与参与对象的有效沟通,从而导致协作处理的效果较差。
技术实现思路
1、本技术实施例提供一种协作处理方法、装置、设备、计算机可读存储介质及计算机程序产品,能够提升协作处理的效果。
2、本技术实施例的技术方案是这样实现的:
3、本技术实施例提供一种协作处理方法,包括:
4、针对展示的虚拟场景进行数据采集,得到场景数据;所述场景数据描述了所述虚拟场景中的各个元素的状态;
5、基于所述场景数据和接收到的协作指令中的至少一个,针对所述虚拟场景中的目标虚拟对象确定对应的待执行指令;
6、其中,所述协作指令用于请求所述虚拟场景中的所述目标虚拟对象进行协作,所述待执行指令指示在未来时间段内所述目标虚拟对象的出现区域以及所述目标虚拟对象所要执行的事件;
7、在所述虚拟场景中,输出与所述待执行指令相对应的提示信息;
8、控制所述目标虚拟对象在所述虚拟场景中执行所述待执行指令,以实现在所述虚拟场景中的协作处理。
9、本技术实施例提供一种协作处理装置,包括:
10、数据采集模块,用于针对展示的虚拟场景进行数据采集,得到场景数据;所述场景数据描述了所述虚拟场景中的各个元素的状态;
11、指令确定模块,用于基于所述场景数据和接收到的协作指令中的至少一个,针对所述虚拟场景中的目标虚拟对象确定对应的待执行指令;其中,所述协作指令用于请求所述虚拟场景中的所述目标虚拟对象进行协作,所述待执行指令指示在未来时间段内所述目标虚拟对象的出现区域以及所述目标虚拟对象所要执行的事件;
12、提示输出模块,用于在所述虚拟场景中,输出与所述待执行指令相对应的提示信息;
13、指令执行模块,用于控制所述目标虚拟对象在所述虚拟场景中执行所述待执行指令,以实现在所述虚拟场景中的协作处理。
14、在本技术的一些实施例中,所述指令确定模块,还用于基于所述场景数据和接收到的所述协作指令,针对所述目标虚拟对象确定多个候选指令;结合所述场景数据,针对每个所述候选指令,分别预测得到对应的价值信息;所述价值信息用于表征所述候选指令的重要程度;基于所述价值信息,从多个所述候选指令中确定所述目标虚拟对象对应的所述待执行指令。
15、在本技术的一些实施例中,所述指令确定模块,还用于针对所述场景数据进行特征编码,得到场景编码特征;针对每个所述候选指令,确定指令编码特征;将所述场景编码特征和所述指令编码特征进行融合,得到每个所述候选指令的融合编码特征;结合所述融合编码特征和所述指令编码特征,预测每个所述候选指令的所述价值信息。
16、在本技术的一些实施例中,所述指令确定模块,还用于针对每个所述候选指令所对应的候选区域,从所述虚拟场景中确定相邻区域;从所述场景数据中提取得到所述候选区域对应的第一匹配数据,并对所述第一匹配数据进行特征编码,得到候选区域特征;从所述场景数据中提取得到所述相邻区域对应的第二匹配数据,并对所述第二匹配数据进行特征编码,得到相邻区域特征;将所述候选区域特征和所述相邻区域特征的融合结果,确定为所述指令编码特征。
17、在本技术的一些实施例中,所述指令确定模块,还用于基于所述融合编码特征和所述指令编码特征,对每个所述候选指令应用注意力机制,得到每个所述候选指令的注意力权重;基于所述注意力权重,对每个所述候选指令进行价值预测,得到所述价值信息。
18、在本技术的一些实施例中,所述指令确定模块,还用于基于所述场景数据,预测得到指令概率分布,并将与所述指令概率分布对应的指令,确定为所述候选指令;针对所述协作指令确定对应的响应指令,并将所述响应指令确定为所述候选指令。
19、在本技术的一些实施例中,所述基于所述场景数据,预测得到指令概率分布,是通过指令编码网络实现的;
20、所述协作处理装置还包括:网络训练模块,用于获取训练场景数据和训练编码指令;利用初始编码网络对所述训练场景数据进行概率分布的预测,得到训练概率分布;基于所述训练概率分布,确定所述训练场景数据所对应的预测编码指令;利用所述训练编码指令和所述预测编码指令之间的差异,对所述初始编码网络的参数进行调整,直至达到训练结束条件时,得到所述指令编码网络。
21、在本技术的一些实施例中,所述控制所述目标虚拟对象在所述虚拟场景中执行所述待执行指令,是由指令执行网络执行的;
22、所述网络训练模块,还用于利用获取到的初始执行网络,从所述预测编码指令和所述训练场景数据中,预测得到动作概率分布;所述动作概率分布表征所述目标虚拟对象基于所述训练场景数据进行不同动作的可能性;依据所述训练场景数据,针对所述动作概率分布确定第一实时激励;结合所述训练场景数据和所述预测编码指令,针对所述动作概率分布确定第二实时激励;利用所述第一实时激励和所述第二实时激励,对所述初始执行网络的参数进行调整,直至达到训练结束条件时,得到所述指令执行网络。
23、在本技术的一些实施例中,所述依据所述训练场景数据,针对所述动作概率分布确定第一实时激励,是通过第一激励预测网络实现的,所述结合所述训练场景数据和所述预测编码指令,针对所述动作概率分布确定第二实时激励,是通过第二激励预测网络实现的;
24、所述网络训练模块,还用于针对所述动作概率分布,确定第一全局激励,以及针对所述预测编码指令,确定第二全局激励;基于所述第一全局激励和所述第二全局激励,对第一初始激励网络和第二初始激励网络分别进行参数调整,得到所述第一激励预测网络和所述第二激励预测网络。
25、在本技术的一些实施例中,所述结合所述场景数据,针对每个所述候选指令,分别预测得到对应的价值信息,是通过价值预测网络实现的,所述预测编码指令中包括多个编码指令;
26、所述网络训练模块,还用于针对每个所述编码指令,计算得到训练价值信息;利用多个所述编码指令的所述训练价值信息,计算得到训练价值均值;基于所述训练场景数据确定全局价值信息,并依据所述全局价值信息和所述训练价值均值对初始价值网络的参数进行调整,直至达到训练结束条件时,得到所述价值预测网络。
27、在本技术的一些实施例中,所述网络训练模块,还用于针对每个所述编码指令所对应的区域信息进行价值建模,得到区域价值;针对每个所述编码指令所对应的事件信息进行价值建模,得到事件价值;利用所述区域价值,以及放大后的所述事件价值,计算得到每个所述编码指令的训练价值信息。
28、本技术实施例提供一种电子设备,包括:
29、存储器,用于存储可执行指令;
30、处理器,用于执行所述存储器中存储的可执行指令时,实现本技术实施例提供的协作处理方法。
31、本技术实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本技术实施例提供的协作处理方法。
32、本技术实施例提供一种计算机程序产品,包括计算机程序或计算机可执行指令,所述计算机程序或计算机可执行指令被处理器执行时实现本技术实施例提供的协作处理方法。
33、本技术实施例具有以下有益效果:电子设备通过对虚拟场景进行数据采集,明确虚拟场景中的各个元素的状态,然后基于场景数据和参与对象所发送的协作指令中的至少一个,为电子设备主控的目标虚拟对象确定待执行的指令,并通过输出与待执行指令相对应的提示信息,实现显式地提示参与对象目标虚拟对象在后续的出现区域和需要执行的事件,从而实现与人机沟通,并在人机沟通完成之后再执行待执行指令,如此,在与参与对象进行协作处理时,能够有效地与参与对象进行人机沟通,从而提升协作处理的效果。