基于遗传算法优化的LSTM网络的仿真足球机器人评估方法

文档序号:40826640发布日期:2025-02-06 17:02阅读:36来源:国知局
基于遗传算法优化的LSTM网络的仿真足球机器人评估方法

本发明涉及仿真足球机器人运动,更具体的说,涉及基于遗传算法优化的lstm网络的仿真足球机器人评估方法。


背景技术:

1、仿真足球机器人是集成了多种技术领域的复杂系统,在仿真足球比赛中,足球机器人需要执行进攻、防守等多种任务,在足球机器人球队中,主要由评估器配合完成这些任务。传统评估器的评估机制通常依赖于预先设定的规则,但这种方法往往存在依赖专家系统、无法应对复杂情况、适应性不足,以及在优化方面的局限性等问题。因此,迫切需要一种能够提高仿真足球机器人在面临复杂情况决策能力、增强适应性,并且易于优化的评估机制。

2、经检索,关于仿真足球机器人评估器优化的技术方案现有研究不足。如中国专利申请号cn201910541349.9,发明创造名称为:基于强化学习的足球机器人防守策略,该申请案主要研究问题是基于半场进攻平台hfo环境,并没有深入研究足球机器人比赛中至关重要的评估器机制。所以,仍需一种对专家系统依赖性不高、具有应对比赛复杂情况、适应性强、易于优化的评估方法。


技术实现思路

1、本发明目的在于提供基于遗传算法优化的lstm网络的仿真足球机器人评估方法,用于解决现在仿真足球机器人球队中所存在的依赖专家系统、无法应对复杂情况、适应性差及难以优化的技术问题。

2、为实现上述目的,本发明采用如下的技术方案:

3、基于遗传算法优化的lstm网络的仿真足球机器人评估方法,所述方法包括以下步骤:

4、s1、基于仿真足球平台,建立足球机器人球队程序,其中足球机器人球队程序由两个队伍构成,每个队伍包括11个异构的机器人智能体;

5、s2、基于仿真足球平台、足球机器人球队程序,并依据平台特性和原有评估机制,构建基础器评估模块;

6、所述基础评估器模块的输入参数包括当前预测的首选动作,以及后续可能选择的动作序列,输出为对当前预测的首选动作的评估分值;

7、s3、基于所述仿真足球平台和所述足球机器人球队程序、所述基础评估器模块进行交互,获取足球机器人球队原始训练数据,并对原始训练数据进行缺失值处理、降维和数据增强处理,以构建训练集和测试集;

8、s4、基于长短时记忆网络算法框架,搭建所述足球机器人球队程序的评估网络模型,定义所述评估网络模型的输入输出维度、网络层数、隐藏单元数、全连接层层数、全连接层神经元数、学习率、优化器、训练批次大小、迭代次数、损失函数和激活函数;

9、s5、基于所述的评估网络模型,构建遗传算法优化模型,将评估网络模型的网络层数、每层神经元个数以及全连接层的参数作为优化模型输入,在遗传算法优化模型中,定义适应度函数用于指导遗传操作,包括选择、交叉、变异的执行,并通过评估个体的适应度来更新所述评估网络模型结构参数;

10、s6、基于遗传算法优化更新的网络结构参数来更新所述评估网络模型,即所述评估网络模型根据更新的网络结构参数重新构建和训练,通过设定轮次的迭代训练,不断更新得到最优评估网络模型;

11、s7、基于最终选定的最优评估网络模型输出的评估权值与基础评估器模块进行交互,获得优化后的评估器模块,所述优化后的评估器模块将作用在足球机器人比赛上,帮助足球机器人在比赛过程中实时选择最优动作参数。

12、进一步的,步骤s3所述的训练集包括的特征至少有仿真足球机器人的实时位置参数、仿真足球机器人的实时速度参数、球的实时位置参数、球的实时速度参数、仿真足球机器人实时采取的动作参数以及仿真足球机器人实时的体力参数。

13、进一步的,步骤s3中的足球机器人球队原始训练数据中的动作特征需要经过基于支持向量机(svm)的多分类器和合成少数类过采样技术(smote)处理;利用合成少数类过采样技术对少数类样本进行过采样,生成新的样本以平衡类别分布,随后通过支持向量机对经过平衡的数据集进行多分类操作;根据分类结果,选择与当前评估网络模型特征最为匹配的训练数据,并将这些数据标记为正样本,用以增强评估网络对目标特征的学习能力,进而提升模型的训练效果。

14、所述的基于支持向量机的多分类器是一种将支持向量机算法扩展到多分类任务的方法,采用“一对多”(ovr)方法进行扩展,其目标函数如下:

15、

16、其中,i表示当前的分类器,j表示训练集中第j个数据样本,yij是样本j对于分类器i的标签,wi是第i类的权重,bi是第i类的偏置,c是正则化参数,用来权衡模型的复杂度和分类错误的惩罚;

17、所述的基于支持向量机的多分类器的最终决策函数如下:

18、

19、所述的合成少数类过采样技术通过插值来生成少数类的新样本,具体方法如下:

20、xnew=xm+λ·(xn-xm)

21、其中,xm和xn是少数类样本,xn是xm的最近邻样本,λ是一个随机数,通过将xm和xn之间的向量进行线性插值,按照λ的随机比例生成新样本点xnew,从而扩展训练数据集中的少数类样本的数量。

22、进一步的,步骤s4所述的评估网络模型包括短期记忆单元和长期记忆单元;

23、所述短期记忆单元用于捕捉程序运行中短期发生的时间或者状态变化,即以当前时刻为中心的短期信息。其中,短期信息至少包括:球员的短期移动、球的传递、球员的短期体力变化以及球员短期采取的原子动作,原子动作包括转身、冲刺、踢球、铲球以及扑球。

24、所述长期记忆单元用于保存程序运行中更长时间内的积累信息或趋势,即距离当前时刻较长时间尺度的长期信息。其中,长期信息至少包括:球员的累积跑动量,球员的累积体力消耗以及处于进攻或防守的累积周期数,即球员处于对方半场以及我方半场的周期数。

25、进一步的,步骤s4所述的评估网络模型的损失函数采用的是稀疏分类交叉熵损失函数,具体实现如下:

26、

27、其中,yj表示第j个样本的真实标签,表示评估网络对第j个样本的预测概率分布,n是样本数量。

28、进一步的,步骤s4所述的评估网络模型的优化器采用的是adam优化器,其中,adam优化器的参数更新实现如下:

29、

30、梯度的平均移动:

31、mt=β1·mt-1+(1-β1)·gt

32、

33、偏差校正:

34、

35、其中,t表示时间步,θt表示当前时刻评估网络模型的模型参数,gt表示当前轮次训练中损失函数相对于参数的梯度,a表示学习率,决定每次更新评估网络参数变化的幅度,mt、vt分别是当前时刻计算梯度的一阶矩和二阶矩的指数平均移动,用于平滑和调整梯度的更新速度。

36、进一步的,步骤s5所述的遗传算法通过选择、交叉、变异以及种群更新,共同作用于所述评估网络模型的超参数优化,从而找到最优的所述评估网络模型结构配置;

37、所述的选择操作的目标是根据适应度函数的值,从当前种群中选出适应度高的个体,以生成新的种群,具体表示如下:

38、

39、其中,p(k)是个体k被选中的概率,dnak表示第k个个体的染色体,每条dnak染色体表示特定的网络结构参数,每个染色体包含若干基因位点,f(dnak)是个体k的适应度,popsize是种群大小;

40、所述的交叉操作用于将两个个体的染色体组合在一起,生成新的后代,该过程的具体表示如下:

41、

42、其中,dnachild表示生成的子代个体的染色体,所述染色体即网络结构参数,dnaparent1和dnaparent2表示用于生成子代个体的两个父代个体,mask是一个二进制向量,向量的值为1表示从parent1继承染色体,为0表示从parent2继承染色体;

43、所述的变异操作通过随机改变个体染色体中的基因位点,增加种群的多样性,具体表示如下:

44、

45、其中,rand(range)表示在指定范围range内随机生成一个新值,当rand()<mutation_rate时,触发变异操作,将子代的基因位点设置为rand(range),mutation_rate是初始化遗传算法参数时定义的变异概率。

46、进一步的,所述的种群更新操作中的下一代种群由选择、交叉和变异后的个体组成,该过程具体表示如下:

47、popnew=selection(popold)+crossover(popselected)+mutation(popcrossed)

48、其中,popnew表示新一代的种群,selection(popold)表示从上一代种群中进行选择操作挑选出的适应度高的个体,crossover(popselected)表示将选择的个体进行交叉操作,进行两两配对,生成新的个体,mutation(popcrossed)表示变异操作,随机改变生成个体的基因位点,增加种群的多样性。

49、与现有技术相比,本发明所述的基于遗传算法优化的lstm网络的仿真足球机器人评估方法具有以下有益效果:

50、(1)本发明通过将遗传算法与长短时记忆网络相结合,本发明有效地优化了评估器,使得评估器能够更准确地反映足球机器人在复杂动态环境中的决策需求,提高了整体决策的精度。

51、(2)本发明通过采用长短时记忆网络的短期记忆单元与长期记忆单元,评估器能够捕捉到仿真足球比赛中的短期和长期信息,确保足球机器人在不同场景下的决策具备更高的适应性,避免了传统评估方法中常见的适应性不足问题。

52、(3)本发明本发明利用遗传算法对网络结构进行不断迭代优化,使得评估器模型的参数配置能够根据比赛环境的变化自动调整,简化了系统优化过程,减少了对专家系统的依赖,解决了现有技术中难以优化的瓶颈。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1