本发明属于机器人自主轨迹跟踪,尤其涉及一种基于云边机协同计算的机器人自主轨迹跟踪系统。
背景技术:
1、近些年来,机器人学技术不断发展,国内外对机器人自主控制问题进行了多方面研究,深度强化学习则是诸多方法中的研究热点。深度强化学习是强化学习方法与深度神经网络的结合,它能通过深层网络感知环境状态,并输出最优控制结果。由于深度网络强大的感知和描述能力,它在许多复杂控制问题上表现得十分出色,例如四足机器人和轮式机器人控制等。
2、随着机器人编队自主循迹任务的难度增加,训练一个能够熟练完成所要求任务的深度强化学习网络所需时间和物理成本呈指数形式增加。传统的解决方案局限于每个网络一次智能学习如何执行一种任务,尽管这些控制任务之间存在相似性。例如控制四足机器人前进、后退和转向、控制轮式机器人到达指定地点等。有对算法做轻量化处理、裁剪系统功能和精度等。这些方案在一定程度上限制了机器人编队智能化发展,并且面对大量不确定性和随机动态开放环境中,存在泛化困难、控制模型执行效果差等缺点。
技术实现思路
1、本发明提出了一种基于云边机协同计算的机器人自主轨迹跟踪系统,以解决上述现有技术中存在的机器人自主规划技术在多任务动态开放环境下泛化困难、模型执行精度差等技术问题。
2、为实现上述目的,本发明提供了一种基于云边机协同计算的机器人自主轨迹跟踪系统,包括:机器人编队层、边缘计算层和云计算中心,其中所述机器人编队层、所述边缘计算层和所述云计算中心层依次连接;
3、所述机器人编队层,用于采集机器人编队的动作状态;
4、所述边缘计算层,采用单任务网络,用于对所述动作状态进行边缘计算,并对机器人编队中同一任务进行精确控制;
5、所述云计算中心,采用多任务专家网络,用于输出与所述单任务网络的相似性,以实现机器人自主轨迹跟踪。
6、优选地,所述单任务网络,与所述机器人编队层连接,用于采集机器人编队的动作状态,基于所述动作状态的价值函数评估动作状态下执行动作的好坏。
7、优选地,所述边缘计算层中,机器人编队采集实时运行状态信息并上传至所述边缘计算层服务器,通过边缘计算层服务器中的单任务神经网络得到动作指令,机器人自主循迹完成所需目标。
8、优选地,机器人自主循迹的损失函数:
9、
10、其中,st,at代表当前机器人编队中某个机器人的实际状态和加速度;s*t,a*t则代表在t时刻,机器人编队被期望达到的状态和动作。
11、优选地,若边缘计算服务器接入i个机器人时,则单任务神经网络中损失函数的奖励r表示为:
12、
13、其中,l(st,at)为机器人自主循迹的损失函数。
14、优选地,所述单任务神经网络,通过一次输入i个机器人的状态,输出对i个机器人编队的指令。
15、优选地,所述多任务专家网络包括隐藏层,通过损失函数进行迭代收敛训练,所述损失函数为:
16、
17、其中,表示单任务专家网络和多任务网络输出结果的相似程度,表示单任务网络与多任务网络隐藏层对输入特征表达的相似程度,系数β则表示两者的权重,θ,分别为单任务网络参数和多任务网络第i层的参数。
18、优选地,通过定义单任务神经网络与多任务神经网络的输出交叉熵得到,用于表征两者的输出相似性,表示为:
19、
20、其中,πamn(a|s;θ)为所述多任务神经网络,为单任务专家神经网络;
21、表达为:
22、
23、其中,是代表状态动作价值函数,τ为温度系数,代表了与各个状态动作价值函数的相似程度。
24、优选地,表示为:
25、
26、其中,为单任务神经网络的隐藏层特征向量,hamn(s;θ)为多任务神经网络的隐藏层特征向量。
27、与现有技术相比,本发明具有如下优点和技术效果:
28、本发明提供了一种基于云边机协同计算的机器人自主轨迹跟踪系统,包括:机器人编队层、边缘计算层和云计算中心,其中所述机器人编队层、所述边缘计算层和所述云计算中心层依次连接;通过机器人编队层,采集机器人编队的动作状态;通过边缘计算层,采用单任务网络,用于对所述动作状态进行边缘计算,并对机器人编队中同一任务进行精确控制;通过云计算中心,采用多任务专家网络,用于输出与所述单任务网络的相似性,以实现机器人自主轨迹跟踪。
29、本发明利用云边机协同计算、5g通信技术和深度强化学习等技术,使得云计算平台能够利用大量的机器人实时运行数据对网络进行训练,降低了模型训练的时间成本。其中,训练的多任务专家网络能够对未训练过的任务表现出较强的迁移特性,即面对训练集以外的任务时,多任务网络能够迅速收敛到该任务所需要的单一专家模型上,大幅缩短训练时间和经济成本。
1.一种基于云边机协同计算的机器人自主轨迹跟踪系统,其特征在于,包括:机器人编队层、边缘计算层和云计算中心,其中所述机器人编队层、所述边缘计算层和所述云计算中心层依次连接;
2.根据权利要求1所述的基于云边机协同计算的机器人自主轨迹跟踪系统,其特征在于,所述单任务网络,与所述机器人编队层连接,用于采集机器人编队的动作状态,基于所述动作状态的价值函数评估动作状态下执行动作的好坏。
3.根据权利要求1所述的基于云边机协同计算的机器人自主轨迹跟踪系统,其特征在于,所述边缘计算层中,机器人编队采集实时运行状态信息并上传至所述边缘计算层服务器,通过边缘计算层服务器中的单任务神经网络得到动作指令,机器人自主循迹完成所需目标。
4.根据权利要求3所述的基于云边机协同计算的机器人自主轨迹跟踪系统,其特征在于,机器人自主循迹的损失函数:
5.根据权利要求4所述的基于云边机协同计算的机器人自主轨迹跟踪系统,其特征在于,若边缘计算服务器接入i个机器人时,则单任务神经网络中损失函数的奖励r表示为:
6.根据权利要求5所述的基于云边机协同计算的机器人自主轨迹跟踪系统,其特征在于,所述单任务神经网络,通过一次输入i个机器人的状态,输出对i个机器人编队的指令。
7.根据权利要求1所述的基于云边机协同计算的机器人自主轨迹跟踪系统,其特征在于,所述多任务专家网络包括隐藏层,通过损失函数进行迭代收敛训练,所述损失函数为:
8.根据权利要求7所述的基于云边机协同计算的机器人自主轨迹跟踪系统,其特征在于,通过定义单任务神经网络与多任务神经网络的输出交叉熵得到,用于表征两者的输出相似性,表示为:
9.根据权利要求7所述的基于云边机协同计算的机器人自主轨迹跟踪系统,其特征在于,表示为: