一种双足机器人神经网络控制器的神经网络优化方法与流程

文档序号:20696759发布日期:2020-05-12 15:05阅读:321来源:国知局
一种双足机器人神经网络控制器的神经网络优化方法与流程

本发明涉及行走机器人领域,特别涉及一种双足机器人神经网络控制器的神经网络优化方法。



背景技术:

现有的机器人控制方法需要对机器人的各个结构的参数做分析和建模。

由于机器人各个部件的非线性特性和机器人的自由度比其他的系统多且复杂,耦合度极高。对各个部件及系统构成的系统人工建立和分析系统模型和参数,是一件非常困难和复杂的事情,得到的模型的稳定性和适用性很难保障。

而深度神经网络具备复杂的非线性特性,能够拟合各种非线性函数。所以针对机器人系统这种高度非线性和高耦合性的系统具备天生的优势。然而,利用现有技术的机器人神经网络控制器训练的网络容易陷入局部最优,无法较好的拟合出机器人系统的参数模型。



技术实现要素:

本发明的目的在于克服现有技术中机器人神经网络控制器训练的网络容易陷入局部最优,无法较好的拟合出机器人系统的参数模型的不足,提供一种双足机器人神经网络控制器的神经网络优化方法,有效的避免网络陷入局部最优,从而能够更好的拟合出机器人系统的参数模型。

为了实现上述发明目的,本发明提供了以下技术方案:

一种双足机器人神经网络控制器的神经网络优化方法,所述双足机器人神经网络控制器采用全链接的深度神经网络,用于对双足机器人的行走控制,包括如下步骤:

s1对深度神经网络的拓扑结构进行优化;

s2对拓扑结构优化后的深度神经网络的网络参数进行优化。

优选的,所述步骤s1包括:

s11提取环境的状态参数作为深度神经网络的输入,深度神经网络产生一个动作参数;

s12根据动作参数与状态参数按照设置的奖励规则得到奖励参数;

s13根据奖励参数,采用wann算法对深度神经网络进行拓扑结构优化,提取动作完成后环境的状态参数作为优化后的深度神经网络的输入;其中,若根据奖励参数判断出机器人倒下,则将机器人复位,提取复位后环境的状态参数作为优化后的深度神经网络的输入;

循环s11-s13,直到训练次数达到设置好的次数,得到拓扑结构优化后的深度神经网络。

优选的,所述wann算法的优化过程:在输入层和输出层之间随机的加入节点,并在新加入的节点和输入层、输出层之间进行随机连接,然后对得到的深度神经网络进行测试,将测试结果最优的深度神经网络留下来进行变异,继续随机的添加节点和改变链接关系,完成对深度神经网络的拓扑结构的优化。

优选的,所述步骤s2包括:s21提取环境的状态参数作为深度神经网络的输入,深度神经网络产生一个动作参数;

s22根据动作参数与状态参数按照设置的奖励规则得到奖励参数;

s23根据奖励参数,采用进化策略算法对深度神经网络进行网络参数优化,提取动作完成后环境的状态参数作为优化后的深度神经网络的输入;其中,若根据奖励参数判断出机器人倒下,则将机器人复位,提取复位后环境的状态参数作为优化后的深度神经网络的输入;

循环s21-s23,直到训练次数达到设置好的次数,得到网络参数优化后的深度神经网络。

优选的,所述动作参数包括完成该动作的各关节电机的转角。

优选的,所述奖励规则:

其中,reward为奖励,s为机器人向前移动距离,h为机器人盆骨高度,θ为盆骨仰角,m为电机总数。

优选的,所述进化策略算法为协方差自适应调整的进化策略,通过调整参数使得产生好解的概率逐渐增大,完成对深度神经网络的网络参数的优化。

优选的,所述状态参数包括:当前环境下的盆骨的俯仰角、偏航角、翻滚角,当前环境下的各关节的转角、转速,当前环境下的左右脚的压力值。

优选的,所述盆骨的俯仰角、偏航角、翻滚角采用imu(惯性测量单元)进行测量。

根据本发明的另一方面,提供一种电子设备,其特征在于,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一项所述的方法。

与现有技术相比,本发明的有益效果:

本发明的双足机器人神经网络控制器采用全链接的深度神经网络,通过对深度神经网络进行拓扑结构和控制参数上的最优化,有效的避免网络陷入局部最优,很好的适应和解决了双足机器人非线性控制难的问题,从而能够更好的拟合出机器人系统的参数模型。

附图说明:

图1为本发明的流程图示意图。

图2为本发明的优化拓扑结构流程图示意图。

图3为本发明的优化网络参数流程图示意图。

图4为本发明的一种电子设备结构图示意图。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。

为了对机器人的非线性、高耦合的系统进行建模,采用全链接的深度神经网络对系统进行建模,深度神经网络是机器人的控制器,充当了对机器人状态到动作的映射功能。本发明通过一种双足机器人神经网络控制器的神经网络优化方法完成对深度神经网络的拓扑结构及网络参数的优化,如图1所示,首先步骤s1对拓扑结构进行优化,然后步骤s2对网络参数进行优化。

如图2所示,人工神经网络ann即上述的深度神经网络,具体的步骤s1对ann的拓扑结构进行优化,包括如下步骤:

s11提取环境的状态参数作为ann的输入(状态参数包括:当前环境下的盆骨的俯仰角、偏航角、翻滚角,当前环境下的各关节的转角、转速,当前环境下的左右脚的压力值;其中,盆骨的俯仰角、偏航角、翻滚角采用imu进行测量),ann产生一个动作参数(动作参数包括完成该动作的各关节电机的转角);

s12根据动作参数与状态参数按照设置的奖励规则得到奖励参数;

其中,所述奖励规则:

其中,reward为奖励,s为机器人向前移动距离,h为机器人盆骨高度,θ为盆骨仰角,m为电机总数。

s13根据奖励参数,采用wann算法对ann进行拓扑结构优化,提取动作完成后环境的状态参数作为优化后的ann的输入;其中,若根据奖励参数判断出机器人倒下,则将机器人复位,提取复位后环境的状态参数作为优化后的ann的输入;其中,所述wann算法的优化过程:在输入层和输出层之间随机的加入节点,并在新加入的节点和输入层、输出层之间进行随机连接,然后对得到的ann进行测试,将测试结果最优的ann留下来进行变异,继续随机的添加节点和改变链接关系,完成对ann的拓扑结构的优化。

循环s11-s13,直到训练次数达到设置好的次数,得到拓扑结构优化后的ann。

如图3所示,步骤s2对拓扑结构优化后的ann的网络参数进行优化:

s21提取环境的状态参数作为ann的输入,ann产生一个动作参数;

s22根据动作参数与状态参数按照同样的奖励规则得到奖励参数;

s23根据奖励参数,采用进化策略算法对ann进行网络参数优化,提取动作完成后环境的状态参数作为优化后的ann的输入;其中,若根据奖励参数判断出机器人倒下,则将机器人复位,提取复位后环境的状态参数作为优化后的ann的输入;其中,所述进化策略算法为协方差自适应调整的进化策略,通过调整参数使得产生好解的概率逐渐增大,完成对ann的网络参数的优化。

循环s21-s23,直到训练次数达到设置好的次数,得到网络参数优化后的ann。

图4示出了根据本发明示例性实施例的电子设备(例如具备程序执行功能的计算机服务器),其包括至少一个处理器,电源,以及与所述至少一个处理器通信连接的存储器和输入输出接口;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述任一实施例所公开的方法;所述输入输出接口可以包括显示器、键盘、鼠标、以及usb接口,用于输入输出数据;电源用于为电子设备提供电能。

本领域技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(readonlymemory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。

当本发明上述集成的单元以软件功能单元的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、磁碟或者光盘等各种可以存储程序代码的介质。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1