1.本发明涉及卫星观测技术领域,具体涉及一种基于多卫星平台协同感知的时敏目标观测方法、系统、存储介质和电子设备。
背景技术:2.时敏目标是时间敏感目标的简称,指在一定时间窗口中出现的目标。时敏目标具有定位难、跟踪难和时效性强等特点,对时敏目标的实时感知能力是军事科技发展水平的重要衡量标准。多星平台协同感知是实现对时敏目标定位和监视的最有效手段。但同时,时敏目标探测也对多星平台协同感知的智能任务规划提出了极高的要求,迫切要求提高多星平台协同感知能力、增强自主规划能力,以有限的卫星资源实现最大化任务效能。
3.由于时敏目标的潜在区域几何尺寸大、地理结构复杂;其本身是移动的,且移动规律具有不可知性和不确定性;与对静止点目标和区域目标的观测不同,移动目标的搜索需要达到一定的时间分辨率要求。
4.因此,时敏目标探测的关键是利用传感器网络技术实现机动目标的跟踪监视和快速定位。现有对地观测技术大多是在观测需求已知、观测目标地理位置明确的情况下,完成观测任务。由于时敏目标定位难、跟踪难和时效性强的特点,现有对地观测技术难以满足需求。
技术实现要素:5.(一)解决的技术问题
6.针对现有技术的不足,本发明提供了一种基于多卫星平台协同感知的时敏目标观测方法、系统、存储介质和电子设备,解决了无法快速定位时敏目标的技术问题。
7.(二)技术方案
8.为实现以上目的,本发明通过以下技术方案予以实现:
9.一种基于多卫星平台协同感知的时敏目标观测方法,包括:
10.s1、已知多卫星平台在k时刻的状态为将多卫星平台在k+1时刻的可能状态存储进队列储进队列初始化reward1=0;其中,给定多卫星平台集合q={s1,s2,...sq};num表示多卫星平台在k+1时刻的可能状态集合,表示卫星si在时刻k+1的第num种可能状态,k=1,2...,n;reward1表示行动策略探测到时敏目标的阈值;
11.s2、令j=1,若队列queue为空,则迭代结束;否则,选取队列queue中第一个状态变量作为得到多卫星平台集合从k时刻到k+1时刻的状态转换为然后从队列queue中移除该元素,转入s3;
12.s3、令j=j+1,初始化空列表adjnodes,生成所有k时刻到k+j时刻多卫星平台可能
的状态转换集合,并将所有元素放入列表adjnodes中,转入s4;其中numl为其元素数量,表示从k时刻到k+j时刻状态转换的第num1种可能;
13.s4、若j≥n或adjnodes为空,依据短期效能评估函数s4、若j≥n或adjnodes为空,依据短期效能评估函数计算在时间间隔j内所有可能情况的rn集合集合并采用一步贪婪算法得到瞬间效能评估函数贪婪算法得到瞬间效能评估函数令多卫星平台集合协同行动策略的置信度累计回报期望函数值r=ri+rn,得到其集合r
set
,转入s5;否则,转入s3;其中,r
nl
表示对应于状态转移过程的短期效能评估函数值;分别表示多卫星平台协同对时敏目标在k、k+1时刻状态估计的置信度;
14.s5、对于r
set
中的元素r按照经历的时间间隔数升序排列,依次从r
set
中选取r,若r≤reward1,则reward1=r,确定多卫星平台在k+j时刻协同探测到时敏目标,结束迭代过程;否则,转入s2;其中,表示多卫星平台集合在k+1时刻的状态使得k+j时刻协同探测到时敏目标时间最短;*表示最优状态。
15.优选的,所述s3中采用一步贪婪算法获取
[0016][0017]
其中,v的具体求解过程如下:
[0018]
s10、初始化时敏目标在k+1时刻状态预测的置信度
[0019]
s20、初始化reward2=0,将卫星平台集合q在k时刻状态下的所有可能的行动策略存储到行动集合list中;其中,reward2为一个变量,用于记录多卫星平台集合q协同探测到时敏目标的概率的最大值;
[0020]
s30、根据状态转移概率p(γ
k+1
|γk)得到在预测阶段的置信度其中,γk、γ
k+1
分别表示时敏目标在k、k+1时刻的位置状态;
[0021]
s40、若i≥l
list
,迭代结束;否则,转入s50;其中,l
list
表示行动集合list的长度;
[0022]
s50、多卫星平台集合q在k时刻状态时采取行动则k+1时刻卫星平台状态为多卫星平台集合q协同探测到时敏目标的概率为多卫星平台集合q协同探测到时敏目标的概率为其中,表示传感器在k+1时刻未探测到时敏目标的概率;d为微分符号;
[0023]
s60、若v>reward2,令转入s70;否则,直接转入s70;其中,表示当前迭代操作中使得发现时敏目标概率最大的行动策略,
表示当前迭代操作中使得发现时敏目标概率最大的多卫星平台集合q在k+1时刻状态;
[0024]
s70、若i《l
list
,令i=i+1,转入s50;否则,转入s80;
[0025]
s80、时敏目标在k+1时刻状态在更新阶段的置信度s80、时敏目标在k+1时刻状态在更新阶段的置信度转入s40。
[0026]
优选的,所述预测阶段的置信度优选的,所述预测阶段的置信度具体求解过程为:
[0027]
利用k时刻获得的时敏目标状态后验概率预测时敏目标在k+1时刻状态即得到先验概率按照chapman-kolmogorov公式计算得到:
[0028][0029][0030]
其中,γ
k+1|k
表示时敏目标在k+1时刻的预测状态;分别表示卫星集合协同从初始时刻到k时刻对时敏目标进行连续观测,以及从初始时刻到k时刻的状态集合;定义初始时刻时敏目标位置的概率
[0031]
所述更新阶段的置信度具体求解过程为:
[0032]
从初始时刻开始直到k+1时刻对时敏目标进行持续观测,基于上一时刻时敏目标状态的先验概率计算当前时刻观测时敏目标状态的后验概率利用递归贝叶斯规则计算后验概率:
[0033][0034]
其中,γ
k+1|k+1
表示时敏目标在k+1时刻的更新状态;p(z
k+1
|γ
k+1
,z
1:k
,s
1:k+1
)为k+1时刻卫星平台的观测似然函数,(z
k+1
|z
1:k
,s
1:k+1
)为归一化似然函数,采用边缘化方法计算得到。
[0035]
优选的,所述s3中的短期效能评估函数rn的具体求解过程如下:
[0036]
采用局部期望探测时间let代替全局期望探测时间:
[0037][0038]
在(k+1,k+j)时间间隔内未探测到时敏目标事件概率为:
[0039][0040]
其中,为多卫星平台从k+j-1时刻转换到k+j时刻协同感知时敏目标位置的置信度,局部期望探测时间为置的置信度,局部期望探测时间为
[0041]
由于短期效能评估函数rn仅与时间间隔n以及每个时间节点制定的行为策略有关,因此:
[0042][0043]
一种基于多卫星平台协同感知的时敏目标观测系统,包括:
[0044]
初始化模块,用于执行s1、已知多卫星平台在k时刻的状态为将多卫星平台在k+1时刻的可能状态存储进队列k+1时刻的可能状态存储进队列初始化reward1=0;其中,给定多卫星平台集合q={s1,s2,...sq};num表示多卫星平台在k+1时刻的可能状态集合,表示卫星si在时刻k+1的第num种可能状态,k=1,2...,n;reward1表示行动策略探测到时敏目标的阈值;
[0045]
选取模块,用于执行s2、令j=1,若队列queue为空,则迭代结束;否则,选取队列queue中第一个状态变量作为得到多卫星平台集合从k时刻到k+1时刻的状态转换为然后从队列queue中移除该元素,转入生成模块执行s3;
[0046]
生成模块,用于执行s3、令j=j+1,初始化空列表adjnodes,生成所有k时刻到k+j时刻多卫星平台可能的状态转换集合,并将所有元素放入列表adjnodes中,时刻多卫星平台可能的状态转换集合,并将所有元素放入列表adjnodes中,转入评估模块执行s4;其中num1为其元素数量,表示从k时刻到k+j时刻状态转换的第num1种可能;
[0047]
评估模块,用于执行s4、若j≥n或adjnodes为空,依据短期效能评估函数计算在时间间隔j内所有可能情况的rn集合并采用一步贪婪算法得到瞬间效能评估函数令多卫星平台集合协同行动策略的置信度累计回报期望函数值r=ri+rn,得到其集合r
set
,转入确定模块执行s5;否则,转入生成模块执行s3;其中,r
ni
表示对应于状态转移过程的
短期效能评估函数值;分别表示多卫星平台协同对时敏目标在k、k+1时刻状态估计的置信度;
[0048]
确定模块,用于执行s5、对于r
set
中的元素r按照经历的时间间隔数升序排列,依次从r
set
中选取r,若r≤reward1,则确定多卫星平台在k+j时刻协同探测到时敏目标,结束迭代过程;否则,转入选取模块执行s2;其中,表示多卫星平台集合在k+1时刻的状态使得k+j时刻协同探测到时敏目标时间最短;*表示最优状态。
[0049]
一种存储介质,其存储有用于基于多卫星平台协同感知的时敏目标观测的计算机程序,其中,所述计算机程序使得计算机执行如上所述的基于多卫星平台协同感知的时敏目标观测方法。
[0050]
一种电子设备,包括:
[0051]
一个或多个处理器;
[0052]
存储器;以及
[0053]
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的基于多卫星平台协同感知的时敏目标观测方法。
[0054]
(三)有益效果
[0055]
本发明提供了一种基于多卫星平台协同感知的时敏目标观测方法、系统、存储介质和电子设备。与现有技术相比,具备以下有益效果:
[0056]
本发明将时敏目标的探测过程视为部分可观测马尔科夫决策过程,通过贝叶斯推理理论以确定性的方式来预测时敏目标状态位置,并通过贪婪算法求解步长为1的卫星平台观测策略,选择行动策略保证发现时敏目标概率最大;通过步长为n的滚动时域周期观测策略搜索,实现在滚动时域周期n内选择卫星平台最优行动策略,实现在最短时间内探测到时敏目标。
附图说明
[0057]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0058]
图1为本发明实施例提供的一种多卫星平台协同行动策略的置信度累计回报期望函数的示意图;
[0059]
图2为本发明实施例提供的一种基于多卫星平台协同感知的时敏目标观测方法的流程示意图。
具体实施方式
[0060]
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术
方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0061]
本技术实施例通过提供一种基于多卫星平台协同感知的时敏目标观测方法、系统、存储介质和电子设备,解决了无法快速定位时敏目标的技术问题。
[0062]
本技术实施例中的技术方案为解决上述技术问题,总体思路如下:
[0063]
定义t为探测到时敏目标的时间变量,且为随机变量,k为离散的时间序列k=1,2...,n,多卫星平台协同对时敏目标观测时的目标函数为:由于在时敏目标搜索过程中,只能知道时敏目标的部分位置信息,因此时敏目标搜索问题又是一个部分可观测马尔科夫决策过程pomdp(partially observable markov decision process)。时敏目标探测最短时间问题实质就是给出卫星平台最优行动策略,在最短的时间内完成时敏目标定位。
[0064]
定义行动策略多卫星平台协同感知时敏目标联合探测概率为:合探测概率为:
[0065]
由于探索到时敏目标的时间t是一个随机变量,并且时敏目标状态置信度只取决于行动决策的选择。依据当前行动决策对未来时敏目标置信度的影响,所选择的行动决策对影响的效能评估可以由3个不同的评估函数组成:瞬间效能评估函数ri、短期效能评估函数rn、未来或长期效能评估函数rh,如图1所示。
[0066]
因此,采用滚动时域控制策略求解最优行动策略,令n为滚动时域控制周期,则多卫星平台协同行动策略的置信度累计回报期望函数表示为:行动策略可表示为上式表明多卫星平台协同行为策略只与系统状态变化以及时敏目标的先验概率有关。
[0067]
其中,表示多卫星平台从k时刻转换到k+n时刻协同感知时敏目标位置的置信度,ri表示k时刻探测到时敏目标的期望时间,rn表示从k+1时刻到k+n时刻探测到时敏目标的期望时间,rh表示k+n+1时刻之后探测到时敏目标的期望时间。可以看出瞬间效能评估函数ri与时间无关,只与当前卫星平台状态以及时敏目标状态置信度有关;短期效能评估函数rn与时间间隔n以及n个时间节点制定的行为策略有关;长期效能评估函数rh表示对未来的影响期望,随着卫星平台对时敏目标状态置信度值的改善与提高,在本发明实施例中rh可以设置为零。因此ri函数可采用贪婪算法进行求解,rn函数适宜采用滚动时域策略进行求解。
[0068]
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
[0069]
实施例:
[0070]
如图2所示,本发明实施例提供一种基于多卫星平台协同感知的时敏目标观测方
法,包括:
[0071]
s1、已知多卫星平台在k时刻的状态为将多卫星平台在k+1时刻的可能状态存储进队列储进队列初始化reward1=0;其中,给定多卫星平台集合q={s1,s2,...sq};num表示多卫星平台在k+1时刻的可能状态集合,表示卫星si在时刻k+1的第num种可能状态,k=1,2...,n;reward1表示行动策略探测到时敏目标的阈值;
[0072]
s2、令j=1,若队列queue为空,则迭代结束;否则,选取队列queue中第一个状态变量作为得到多卫星平台集合从k时刻到k+1时刻的状态转换为然后从队列queue中移除该元素,转入s3;
[0073]
s3、令j=j+1,初始化空列表adjnodes,生成所有k时刻到k+j时刻多卫星平台可能的状态转换集合,并将所有元素放入列表adjnodes中,转入s4;其中num1为其元素数量,表示从k时刻到k+j时刻状态转换的第num1种可能;
[0074]
s4、若j≥n或adjnodes为空,依据短期效能评估函数s4、若j≥n或adjnodes为空,依据短期效能评估函数计算在时间间隔j内所有可能情况的rn集合集合并采用一步贪婪算法得到瞬间效能评估函数贪婪算法得到瞬间效能评估函数令多卫星平台集合协同行动策略的置信度累计回报期望函数值r=ri+rn,得到其集合r
set
,转入s5;否则,转入s3;其中,r
nl
表示对应于状态转移过程的短期效能评估函数值;分别表示多卫星平台协同对时敏目标在k、k+1时刻状态估计的置信度;
[0075]
s5、对于r
set
中的元素r按照经历的时间间隔数升序排列,依次从r
set
中选取r,若r≤reward1,则reward1=r,确定多卫星平台在k+j时刻协同探测到时敏目标,结束迭代过程;否则,转入s2;其中,表示多卫星平台集合在k+1时刻的状态使得k+j时刻协同探测到时敏目标时间最短;*表示最优状态。
[0076]
本发明实施例将时敏目标的探测过程视为部分可观测马尔科夫决策过程,通过贝叶斯推理理论以确定性的方式来预测时敏目标状态位置,并通过贪婪算法求解步长为1的卫星平台观测策略,选择行动策略保证发现时敏目标概率最大;通过步长为n的滚动时域周期观测策略搜索,实现在滚动时域周期n内选择卫星平台最优行动策略,实现在最短时间内探测到时敏目标。
[0077]
接下来将详细介绍上述方案的各个步骤:
[0078]
首先需要说明,通常来说部分马尔可夫决策过程用于描述agent在不确定性环境下是如何运动的,形式上可由六元组{s,a,t,r,ω,o}表示,s是agent对所处环境的建模,通常是指有限的状态集合;a是指处于一定条件下agent所能采取的行动集合;t是状态之间的一组条件转移概率;是奖励函数;ω:agent的可观察信息集;o:agent的观察
函数,可用于计算采用动作a后进入下一个状态的可能观察值。
[0079]
以及本发明实施例给定卫星平台集合q={s1,s2,...sq},表示si在时刻k(k=1,2...,n)状态,卫星集合q在k时刻状态为为si在状态下采取的行动,卫星平台集合q在状态下采取的行动,表示第i个卫星平台si在状态下可能的行动决策集合,为卫星平台集合q在状态下可能的行动决策集合。
[0080]
多个卫星平台在k+1时刻状态由k时刻状态与行动共同决定,即
[0081]
表示si在状态下对时敏目标的观测结果,下对时敏目标的观测结果,为si在时刻k(k=1,2...,n)的状态到时刻k+n的状态所做的决策序列,时敏目标在k时刻的位置状态为γk,时敏目标状态转移概率为p(γk|γ
k-1
),已知初始时刻时敏目标位置的概率传感器探测到目标事件表示为d,未探测到事件表示为传感器在k时刻探测到目标的概率表示为多卫星平台协同对时敏目标在k时刻状态估计的置信度为状态估计的置信度为其中,分别是卫星集合协同从初始时刻到k时刻对时敏目标进行连续观测,以及从初始时刻到k时刻的状态集合,γ
k|k-1
与γ
k|k
分别表示时敏目标在k时刻的预测状态和更新状态。
[0082]
时敏目标在k时刻初始状态置信度为时敏目标先验概率又称预测阶段置信度,k时刻agent在状态下进行观测得到时敏目标状态的后验概率得到时敏目标状态的后验概率后验概率又称更新阶段置信度。
[0083]
预测阶段是指,利用k-1时刻获得的时敏目标状态后验概率预测时敏目标在k时刻状态即得到先验概率按照chapman-kolmogorov公式计算得到:
[0084][0085]
更新阶段是指,从初始时刻开始直到k时刻对时敏目标进行持续观测,基于上一时刻时敏目标状态的先验概率计算当前时刻观测时敏目标状态的后验概率可以利用递归贝叶斯规则计算后验概率:
[0086][0087]
其中p(zk|γk,z
1:k-1
,s
1:k
)为k时刻卫星平台的观测似然函数,p(zk|z
1:k-1
,s
1:k
)是归一化似然函数取决于已知信息,通常采用边缘化方法计算。令一化似然函数取决于已知信息,通常采用边缘化方法计算。令
[0088]
考虑卫星从k时刻到k+n的观测策略,如步骤s1~s4执行一个完整的滚动时域周期n内的卫星平台观测策略搜索,并设计搜索终止判断函数。该算法又称为有限深度搜索算法ldfs(limited first depth search),实现在滚动时域周期n内选择卫星最优行为策略,实现在最短时间内探测到时敏目标。
[0089]
在步骤s1中,已知多卫星平台在k时刻的状态为将多卫星平台在k+1时刻的可能状态存储进队列能状态存储进队列初始化reward
l
=0;其中,给定多卫星平台集合q={s1,s2,...sq};num表示多卫星平台在k+1时刻的可能状态集合,表示卫星si在时刻k+1的第num种可能状态,k=1,2...,n;reward1表示行动策略探测到时敏目标的阈值,具体用于判断多卫星平台集合协同行动策略的置信度累计回报期望函数值是否达到阈值,若是,则按照该行动策略即可探测到时敏目标。
[0090]
在步骤s2中,令j=1,若队列queue为空,则迭代结束;否则,选取队列queue中第一个状态变量作为得到多卫星平台集合从k时刻到k+1时刻的状态转换为然后从队列queue中移除该元素,转入s3。
[0091]
在步骤s3中,令j=j+1,初始化空列表adjnodes,生成所有k时刻到k+j时刻多卫星平台可能的状态转换集合,并将所有元素放入列表adjnodes中,转入s4;其中num1为其元素数量,表示从k时刻到k+j时刻状态转换的第numl种可能。
[0092]
在步骤s4中,若j≥n或adjnodes为空,依据短期效能评估函数计算在时间间隔j内所有可能情况的rn集合并采用一步贪婪算法得到瞬间效能评估函数令多卫星平台集合协同行动策略的置信度累计回报期望函数值r=ri+rn,得到其集合r
set
,转入s5;否则,转入s3;其中,r
nl
表示对应于状态转移过程的短期效能评估函数值;分别表示多卫星平台协同对时敏目标在k、k+1时刻状态估计的置信度。
[0093]
本步骤设计一步贪婪算法ossga求解多星平台协同搜索海面时敏目标,第i个卫星
平台si依据当前状态与时敏目标状态置信度选择行动策略确保该行动策略发现时敏目标概率最大,具体表现为采用一步贪婪算法获取
[0094][0095]
其中,v的具体求解过程如下:
[0096]
s10、初始化时敏目标在k+1时刻状态预测的置信度
[0097]
s20、初始化reward2=0,将卫星平台集合q在k时刻状态下的所有可能的行动策略存储到行动集合list中;其中,reward2为一个变量,用于记录多卫星平台集合q协同探测到时敏目标的概率的最大值;从而可以在算法迭代过程中找到发现时敏目标概率最大的行动策略。
[0098]
s30、根据状态转移概率p(γ
k+1
|γk)得到在预测阶段的置信度其中,γk、γ
k+1
分别表示时敏目标在k、k+1时刻的位置状态;
[0099]
其中,所述预测阶段的置信度其中,所述预测阶段的置信度具体求解过程为:
[0100]
利用k时刻获得的时敏目标状态后验概率预测时敏目标在k+1时刻状态即得到先验概率按照chapman-kolmogorov公式计算得到:
[0101][0102]
其中,γ
k+1|k
表示时敏目标在k+1时刻的预测状态;分别表示卫星集合协同从初始时刻到k时刻对时敏目标进行连续观测,以及从初始时刻到k时刻的状态集合;定义初始时刻时敏目标位置的概率
[0103]
s40、若i≥l
list
,迭代结束;否则,转入s50;其中,l
list
表示行动集合list的长度。
[0104]
s50、多卫星平台集合q在k时刻状态时采取行动则k+1时刻卫星平台状态为多卫星平台集合q协同探测到时敏目标的概率为多卫星平台集合q协同探测到时敏目标的概率为其中,表示传感器在k+1时刻未探测到时敏目标的概率;d为微分符号。
[0105]
s60、若v>reward2,令reward2=v,转入s70;否则,直接转入s70;其中,表示当前迭代操作中使得发现时敏目标概率最大的行动策略,表示当前迭代操作中使得发现时敏目标概率最大的多卫星平台集合q在k+1时刻状态。
[0106]
s70、若i《l
list
,令i=i+1,转入s50;否则,转入s80。
[0107]
s80、时敏目标在k+1时刻状态在更新阶段的置信度s80、时敏目标在k+1时刻状态在更新阶段的置信度转入s40;
[0108]
其中,所述更新阶段的置信度具体求解过程为:
[0109]
从初始时刻开始直到k+1时刻对时敏目标进行持续观测,基于上一时刻时敏目标状态的先验概率计算当前时刻观测时敏目标状态的后验概率利用递归贝叶斯规则计算后验概率:
[0110][0111]
其中,γ
k+1|k+1
表示时敏目标在k+1时刻的更新状态;p(z
k+1|
γ
k+1
,z
1:k
,s
1:k+1
)为k+1时刻卫星平台的观测似然函数,(z
k+1
|z
1:k
,s
1:k+1
)为归一化似然函数,采用边缘化方法计算得到。
[0112]
此外,在步骤s4中,短期效能评估函数rn的具体求解过程如下:
[0113]
采用局部期望探测时间let代替全局期望探测时间:
[0114][0115]
在(k+1,k+j)时间间隔内未探测到时敏目标事件概率为:
[0116][0117]
其中,为多卫星平台从k+j-1时刻转换到k+j时刻协同感知时敏目标位置的置信度,局部期望探测时间为置的置信度,局部期望探测时间为
[0118]
由于短期效能评估函数rn仅与时间间隔n以及每个时间节点制定的行为策略有关,因此:
[0119][0120]
在步骤s5中,对于r
set
中的元素r按照经历的时间间隔数升序排列,依次从r
set
中选取r,若r≤reward1,则reward1=r,确定多卫星平台在k+j
时刻协同探测到时敏目标,结束迭代过程;否则,转入s2;其中,表示多卫星平台集合在k+1时刻的状态使得k+j时刻协同探测到时敏目标时间最短;*表示最优状态。
[0121]
本发明实施例提供一种基于多卫星平台协同感知的时敏目标观测系统,包括:
[0122]
初始化模块,用于执行s1、已知多卫星平台在k时刻的状态为将多卫星平台在k+1时刻的可能状态存储进队列k+1时刻的可能状态存储进队列初始化reward1=0;其中,给定多卫星平台集合q={s1,s2,...sq};num表示多卫星平台在k+1时刻的可能状态集合,表示卫星si在时刻k+1的第num种可能状态,k=1,2...,n;reward1表示行动策略探测到时敏目标的阈值;
[0123]
选取模块,用于执行s2、令j=1,若队列queue为空,则迭代结束;否则,选取队列queue中第一个状态变量作为得到多卫星平台集合从k时刻到k+1时刻的状态转换为然后从队列queue中移除该元素,转入生成模块执行s3;
[0124]
生成模块,用于执行s3、令j=j+1,初始化空列表adjnodes,生成所有k时刻到k+j时刻多卫星平台可能的状态转换集合,并将所有元素放入列表adjnodes中,时刻多卫星平台可能的状态转换集合,并将所有元素放入列表adjnodes中,转入评估模块执行s4;其中num1为其元素数量,表示从k时刻到k+j时刻状态转换的第numl种可能;
[0125]
评估模块,用于执行s4、若j≥n或adjnodes为空,依据短期效能评估函数计算在时间间隔j内所有可能情况的rn集合并采用一步贪婪算法得到瞬间效能评估函数令多卫星平台集合协同行动策略的置信度累计回报期望函数值r=ri+rn,得到其集合r
set
,转入确定模块执行s5;否则,转入生成模块执行s3;其中,r
nl
表示对应于状态转移过程的短期效能评估函数值;分别表示多卫星平台协同对时敏目标在k、k+1时刻状态估计的置信度;
[0126]
确定模块,用于执行s5、对于r
set
中的元素r按照经历的时间间隔数升序排列,依次从r
set
中选取r,若r≤reward1,则确定多卫星平台在k+j时刻协同探测到时敏目标,结束迭代过程;否则,转入选取模块执行s2;其中,表示多卫星平台集合在k+1时刻的状态使得k+j时刻协同探测到时敏目标时间最短;*表示最优状态。
[0127]
本发明实施例提供一种存储介质,其存储有用于基于多卫星平台协同感知的时敏目标观测的计算机程序,其中,所述计算机程序使得计算机执行如上所述的基于多卫星平台协同感知的时敏目标观测方法。
[0128]
本发明实施例提供一种电子设备,包括:
[0129]
一个或多个处理器;
[0130]
存储器;以及
[0131]
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的基于多卫星平台协同感知的时敏目标观测方法。
[0132]
综上所述,与现有技术相比,具备以下有益效果:
[0133]
本发明实施例将时敏目标的探测过程视为部分可观测马尔科夫决策过程,通过贝叶斯推理理论以确定性的方式来预测时敏目标状态位置,并通过贪婪算法求解步长为1的卫星平台观测策略,选择行动策略保证发现时敏目标概率最大;通过步长为n的滚动时域周期观测策略搜索,实现在滚动时域周期n内选择卫星平台最优行动策略,实现在最短时间内探测到时敏目标。
[0134]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0135]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。