1.一种用于控制游戏中的虚拟角色的方法,包括:
获取所述游戏中所述虚拟角色当前所在的游戏场景的场景图像;
利用经训练的目标检测网络检测所述场景图像中的目标对象的类别和位置,所述目标对象至少包括所述虚拟角色;
响应于所述场景图像中存在所述虚拟角色之外的另外目标对象,基于所述检测到的目标对象的类别和位置确定所述场景图像的状态特征数据,所述状态特征数据表征每个另外目标对象与所述虚拟角色之间位置关系;
将所述场景图像的状态特征数据输入动作输出模型以得到与所述场景图像对应的目标动作;
控制所述虚拟角色在所述游戏场景中执行所述目标动作。
2.根据权利要求1所述的方法,其中,所述经训练的目标检测网络是通过如下步骤训练的:
从录制的玩所述游戏时的视频样本中采集用于训练的场景图像以形成图像训练集;
在训练集中的每个用于训练的场景图像中标注目标对象的类别和位置;
将所述每个用于训练的场景图像输入所述目标检测网络,以得到所述目标对象的预测的类别和位置;
确定所述目标对象的预测的类别和位置和所述目标对象的被标注的类别和位置的总损失;
更新所述目标检测网络的参数使得所述总损失最小化。
3.根据权利要求2所述的方法,其中,所述总损失为针对所述目标对象的类别的交叉熵损失和针对所述目标对象的位置的l1损失之和,其中针对所述目标对象的类别的交叉熵损失表征所述目标对象的预测的类别和所述目标对象的被标注的类别间的误差,以及针对所述目标对象的位置的l1损失表征所述目标对象的预测的位置和所述目标对象的被标注的位置间的误差。
4.根据权利要求2所述的方法,其中,从录制的玩所述游戏时的视频样本中采集用于训练的场景图像,包括:
每隔固定游戏时间间隔从所述视频样本中采集用于训练的场景图像;
响应于所述用于训练的场景图像中的第一场景图像与第二场景图像的相似度大于相似度阈值,则移除所述第一场景图像与第二场景图像之一。
5.根据权利要求1所述的方法,其中,基于所述检测到的目标对象的类别和位置确定所述场景图像的状态特征数据,包括:
以所述虚拟角色的中心为原点在整个场景图像的平面内辐射建立m条射线;
确定所述每个另外目标对象的距离量化索引,所述距离量化索引表征所述每个另外目标对象在每条射线上距离所述原点的最短距离;
以m×n×q大小的特征矩阵来表征所述状态特征数据,其中在特征矩阵的第一通道表示所述每个另外目标对象所在的射线且射线的总数为m,在特征矩阵的第二通道表示场景图像中的目标对象的类别且类别的总数为n,在特征矩阵的第三个通道表示所述每个另外目标对象的距离量化索引且距离量化索引的总数为q。
6.根据权利要求1所述的方法,其中,基于所述检测到的目标对象的类别和位置确定所述场景图像的状态特征数据,包括:
建立直角坐标系,其中以虚拟角色的中心为原点、以虚拟角色的前进方向为+x方向、以及与x方向垂直的方向为y方向;
以所述虚拟角色的中心为原点在x方向上大于等于零的区域内辐射建立m条射线;
确定所述每个另外目标对象的距离量化索引,所述距离量化索引表征所述每个另外目标对象在每条射线上距离所述原点的最短距离;
以m×n×q大小的特征矩阵来表征所述状态特征数据,其中在特征矩阵的第一通道表示所述每个另外目标对象所在的射线且射线的总数为m,在特征矩阵的第二通道表示场景图像中的目标对象的类别且类别的总数为n,在特征矩阵的第三个通道表示所述每个另外目标对象的距离量化索引且距离量化索引的总数为q。
7.根据权利要求5或6所述的方法,其中,所述距离量化索引包括对所述最短距离进行独热编码形成的向量。
8.根据权利要求5或6所述的方法,其中,将所述场景图像的状态特征数据输入动作输出模型以得到与所述场景图像对应的目标动作,包括:
将所述特征矩阵转化为1×w的特征向量,其中,w为m、n和q的积;
将所述1×w的特征向量输入动作输出模型以得到与所述场景图像对应的目标动作。
9.根据权利要求1所述的方法,其中,将所述场景图像的状态特征数据输入动作输出模型以得到与所述场景图像对应的目标动作,包括:
将所述场景图像连同在所述场景图像之前获取的多帧场景图像的状态特征数据输入动作输出模型以得到与所述场景图像对应的目标动作。
10.根据权利要求1所述的方法,其中,所述动作输出模型包括基于强化学习的深度学习模型,其中强化学习中的奖励函数与所述虚拟角色在游戏场景中执行动作后的表现得分正相关。
11.一种用于控制游戏中的虚拟角色的设备,包括:
获取模块,被配置成获取所述游戏中所述虚拟角色当前所在的游戏场景的场景图像;
检测模块,被配置成利用经训练的目标检测网络检测所述场景图像中的目标对象的类别和位置,所述目标对象至少包括所述虚拟角色;
确定模块,被配置成响应于所述场景图像中存在所述虚拟角色之外的另外目标对象,基于所述检测到的目标对象的类别和位置确定所述场景图像的状态特征数据,所述状态特征数据表征每个另外目标对象与所述虚拟角色之间位置关系;
输入模块,被配置成将所述场景图像的状态特征数据输入动作输出模型以得到与所述场景图像对应的目标动作;
控制模块,被配置成控制所述虚拟角色在所述游戏场景中执行所述目标动作。
12.根据权利要求11所述的设备,其中,所述确定模块还包括:
建立子模块,被配置成以所述虚拟角色的中心为原点在整个场景图像的平面内辐射建立m条射线;
确定子模块,被配置成确定所述每个另外目标对象的距离量化索引,所述距离量化索引表征所述每个另外目标对象在每条射线上距离所述原点的最短距离;
表征子模块,被配置成以m×n×q大小的特征矩阵来表征所述状态特征数据,其中在特征矩阵的第一通道表示所述每个另外目标对象所在的射线且射线的总数为m,在特征矩阵的第二通道表示场景图像中的目标对象的类别且类别的总数为n,在特征矩阵的第三个通道表示所述每个另外目标对象的距离量化索引且距离量化索引的总数为q。
13.根据权利要求12所述的设备,其中,所述动作输出模型包括基于强化学习的深度学习模型,其中强化学习中的奖励函数与所述虚拟角色在游戏场景中执行动作后的表现得分正相关。
14.一种计算设备,包括:
存储器,其被配置成存储计算机可执行指令;
处理器,其被配置成当所述计算机可执行指令被处理器执行时执行如权利要求1-10中的任一项所述的方法。
15.一种计算机可读存储介质,其存储有计算机可执行指令,当所述计算机可执行指令被执行时,执行如权利要求1-10中的任一项所述的方法。