一种基于近端策略优化的ris控制方法、系统、设备及介质
技术领域
1.本发明属于通信技术领域,具体涉及一种基于近端策略优化的ris控制方法、系统、设备及介质。
背景技术:2.ris(reconfigurable intelligent surface,可重构智能超表面)作为一种无源天线设备,已成为6g技术中最为重要的一种基础设备,在应用过程中,可以通过在平面上集成大量低成本的无源反射元件,智能地重新配置无线传播环境,从而显著提高无线通信网络的性能。具体而言,可通过控制并调整ris入射信号的幅度和相位,控制ris出射信号,以实现定向信号增强的作用,并形成精细的三维无源波束,使ris可应用于成像、探测、信号覆盖等多种任务上。
3.由于ris具有阵列单元数多、每个单元控制变化数少的特征,按照反射电磁波相位状态数量,ris的状态数量可以分为1bit和多比特,以状态数量为1bit的阵列单元矩阵为50*50的ris板为例,其需要50*50大小的矩阵来储存其控制码本(码本也可称之为阵元状态信息),其中码本的每位数字取0或1,码本大小影响ris目标区域的信号强度。因此如何设置码本大小,获取最优码本,并基于该最优码本对ris进行部署,以使目标区域信号最强,是ris应用过程中最为关键的流程。
4.为获取ris最优码本,需要对ris码本进行优化处理。现有技术中,通常采用相位补偿算法、遍历算法等对ris码本进行优化求解。但是,在使用现有技术过程中,发明人发现现有技术中至少存在如下问题:
5.以遍历算法为例,该算法要求必须获得目标空间的信号强度,通过遍历和迭代的方法求得最优码本,由于遍历需要对每一列和每一行阵列单元的码本进行迭代优化,因此当ris的阵列单元数少的时候,算法非常有效且能够保证结果的有效性,但随着ris阵列单元数增加、码本空间维度高时,该算法所需时间成倍增加,同时,由于算法本身的贪心性质,容易陷入局部最优,造成不优化,甚至负优化的问题。
6.而相位补偿算法,虽然一定程度上可以得到近似最优的策略,但是由于需要获得ris目标角度信息,而ris目标角度信息在实践中很难测量并获取,导致实践中无法使用相位补偿算法对ris码本进行优化处理,同时该方法也存在求解时间过长的问题。
7.此外,由于信号本身受环境因素影响严重,ris部署的环境特征不同,也会导致存在求解的泛化性差等问题。
技术实现要素:8.本发明旨在至少在一定程度上解决上述技术问题,本发明提供了一种基于近端策略优化的ris控制方法、系统、设备及介质。
9.为了实现上述目的,本发明采用以下技术方案:
10.第一方面,提供了一种基于近端策略优化的ris控制方法,包括:
11.构建用于生成ris码本的决策模型和用于对ris所在环境进行测试的评估模型,并对所述决策模型和所述评估模型进行训练,得到训练后决策模型和训练后评估模型;
12.获取指定ris在指定环境下与基站和目标区域内用户终端之间的实地交互信息;
13.根据当前实地交互信息,基于近端策略优化算法对所述训练后决策模型和所述训练后评估模型进行更新,得到更新后决策模型和更新后评估模型;
14.将所述实地交互信息输入所述更新后决策模型,得到所述ris在指定环境下的更新后码本;
15.基于所述更新后码本控制所述ris进行部署,再根据所述更新后评估模型对当前指定环境进行测试,并在测试通过后完成ris码本的部署。
16.本发明可以适用于大规模、多阵列单元的ris码本优化问题,求解时间短,同时泛化性强。具体地,本发明在实施过程中,决策模型和评估模型均为神经网络模型,通过构建决策模型和评估模型,更多的时间会消耗在训练阶段,而在具体实践的环境中,只需要等待推理时间就可以得到最优策略,即最优码本,因此推理时间和ris本身的阵列单元数无关,只与决策模型和评估模型的大小有关,极大地降低了决策的响应时间。同时,本发明可以利用神经网络模型具有可再训练的特性,利用预训练模型进行知识迁移,很容易地适应新的环境和不同规模的ris,以提升算法本身的泛化性。此外,本发明基于近端策略优化算法对模型进行更新,在此过程中,近端策略优化算法可以和环境进行交互采集大量数据,提升模型本身的准确程度,因此在部署了对应模型的实际环境中,也可以自适应的调节策略,而非固定的采取某个单一性策略,降低了后期迭代更新的代价,一定程度上缓解了使用环境的变化问题,弥补了过去优化算法中因素单一、无法对复杂环境做出最优决策的缺陷。
17.在一个可能的设计中,所述决策模型和评估模型均基于多层卷积神经网络建模得到。
18.在一个可能的设计中,对所述决策模型和所述评估模型进行训练,包括:
19.构建布置有ris的场景模型;
20.基于所述决策模型获取所述场景模型中ris与预设基站和目标区域内预设用户终端之间的测试交互信息;
21.根据所述测试交互信息,利用近端策略优化算法对所述决策模型和评估模型进行训练,得到训练后决策模型和训练后评估模型。
22.在一个可能的设计中,获取指定ris在指定环境下与基站和目标区域内用户终端之间的实地交互信息,包括:
23.获取所述指定环境的初始环境状态信息s;
24.将所述初始环境状态信息s输入所述训练后决策模型,得到所述指定环境中ris的码本a;
25.基于所述码本a控制所述ris进行部署,得到所述ris在执行所述码本a后所述指定环境的码本执行后环境状态信息s'以及所述指定环境中目标区域的信号增益r;
26.将所述初始环境状态信息s、所述码本a、所述码本执行后环境状态信息s'和所述信号增益r保存为四元组《s,a,s',r》;
27.重新获取所述指定环境的初始环境状态信息,直到得到多个四元组,再将多个四元组记为实地交互信息《s,a,s',r》。
28.在一个可能的设计中,根据当前实地交互信息,基于近端策略优化算法对所述训练后决策模型和所述训练后评估模型进行更新,包括:
29.获取所述实地交互信息《s,a,s',r》中的多组连续交互信息{s0,a0,ro,s1,a1,r1,
…
,s
t
,a
t
,r
t
};
30.根据所述多组连续交互信息,得到用于评价码本相对环境状态信息的价值分数的优势值;
31.利用预设的损失函数分别对所述训练后决策模型和所述训练后评估模型进行更新,以便得到更新后决策模型和更新后评估模型。
32.在一个可能的设计中,所述优势值为:
[0033][0034]
式中,表示所述实地交互信息中所有码本的价值分数;其中,t为连续交互信息的总组数;γ为第一超参数,用以计算当前所选码本的效果;v
φ
(s
t
)表示所述训练后评估模型对所述实地交互信息中初始环境状态信息s
t
进行评估的价值分数。
[0035]
在一个可能的设计中,对所述训练后决策模型进行更新的损失函数为:
[0036][0037]
式中,t为所述实地交互信息中的数据总量;π
θ
表示参数更新前的训练后决策模型,π
old
表示参数更新后的决策模型;a
t
为所述实地交互信息中的码本;s
t
为所述实地交互信息中的初始环境状态信息;λ为第二超参数;kl[
·
]为散度;
[0038]
对所述训练后评估模型进行更新的损失函数为:
[0039][0040]
第二方面,提供了一种基于近端策略优化的ris控制系统,用于实现如上述任一项所述的基于近端策略优化的ris控制方法;所述基于近端策略优化的ris控制系统包括:
[0041]
模型构建模块,用于构建决策模型和评估模型,其中,所述决策模型用于生成ris码本,所述评估模型用于对ris所在环境进行测试;
[0042]
模型训练模块,与所述模型构建模块通信连接,用于对所述决策模型和所述评估模型进行训练,得到训练后决策模型和训练后评估模型;
[0043]
交互信息获取模块,用于获取指定ris在指定环境下与基站和目标区域内用户终端之间的实地交互信息;
[0044]
模型更新模块,分别与所述模型训练模块和交互信息获取模块通信连接,用于根据当前实地交互信息,基于近端策略优化算法对所述训练后决策模型和所述训练后评估模型进行更新,得到更新后决策模型和更新后评估模型;
[0045]
测试模块,与所述模型更新模块通信连接,用于将所述实地交互信息输入所述更新后决策模型,得到所述ris在指定环境下的更新后码本;还用于基于所述更新后码本控制所述ris进行部署,再根据所述更新后评估模型对当前指定环境进行测试,并在测试通过后完成ris码本的部署。
[0046]
第三方面,提供了一种电子设备,包括:
[0047]
存储器,用于存储计算机程序指令;以及,
[0048]
处理器,用于执行所述计算机程序指令从而完成如上述任一项所述的基于近端策略优化的ris控制方法的操作。
[0049]
第四方面,提供了一种计算机可读存储介质,用于存储计算机可读取的计算机程序指令,所述计算机程序指令被配置为运行时执行如上述任一项所述的基于近端策略优化的ris控制方法的操作。
附图说明
[0050]
图1是实施例中一种基于近端策略优化的ris控制方法的流程图;
[0051]
图2是实施例中一种基于近端策略优化的ris控制系统的模块框图。
具体实施方式
[0052]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将结合附图和实施例或现有技术的描述对本发明作简单地介绍,显而易见地,下面关于附图结构的描述仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在此需要说明的是,对于这些实施例方式的说明用于帮助理解本发明,但并不构成对本发明的限定。
[0053]
实施例1:
[0054]
本实施例公开了一种基于近端策略优化的ris控制方法,可以但不限于由具有一定计算资源的计算机设备或虚拟机执行,例如由个人计算机、智能手机、个人数字助理或可穿戴设备等电子设备执行,或者由虚拟机执行。
[0055]
如图1所示,一种基于近端策略优化的ris控制方法,可以但不限于包括有如下步骤:
[0056]
s1.构建用于生成ris码本的决策模型和用于对ris所在环境进行测试的评估模型,并对所述决策模型和所述评估模型进行训练,得到训练后决策模型和训练后评估模型;
[0057]
具体地,本实施例中,所述决策模型和评估模型均基于多层卷积神经网络建模得到。需要说明的是,决策模型和评估模型中卷积神经网络的层数根据ris所在场景模型对应环境的复杂程度而不同,在环境简单的场景下,决策模型和评估模型可设置为三层卷积神经网络,随着ris所在环境复杂程度的增加,可相应增加模型的层数和结构。本实施例中,将决策模型记为π,决策模型的参数记为θ,评估模型记为v
π
,评估模型的参数记为φ,决策模型或评估模型的参数为对应模型的权重参数,包括卷积核的大小、卷积单元的个数、卷积的步长等,此为现有技术,在此不再予以赘述。
[0058]
本实施例可以解决大规模、多阵列单元的ris码本优化问题,本实施例由于采用深度神经网络作为决策模型和评估模型,因而更多的时间会消耗在训练阶段,而在具体实践
的环境中,只需要等待推理时间就可以得到最优策略,即最优码本,因此推理时间和ris本身的阵列单元数无关,只与决策模型和评估模型的大小有关,在大规模ris中,可以通过控制模型的规模,并利用其他模型压缩方法,得到时间短、性能好的决策模型。
[0059]
s2.获取指定ris在指定环境下与基站和目标区域内用户终端之间的实地交互信息;
[0060]
步骤s2中,获取指定ris在指定环境下与基站和目标区域内用户终端之间的实地交互信息,包括:
[0061]
s201.获取所述指定环境的初始环境状态信息s;具体地,本实施例中,所述初始环境状态信息s包括所述指定环境中电磁信号的强度和所述指定环境中目标区域照片等,具体地,电磁信号的强度可通过用户在指定环境的目标区域使用手机或通用无线电外设等信号接收设备获取,目标区域照片可通过指定环境中的摄像头采集得到,在实施过程中,本实施例可灵活设置环境状态信息,以弥补现有优化算法中因素单一、无法对复杂环境作出最优决策的缺陷。
[0062]
s202.将所述初始环境状态信息s输入所述训练后决策模型,得到所述指定环境中ris的码本a;需要说明的是,由于决策模型记为π,决策模型的参数记为θ,码本a=π(s|θ),码本a为n*n的矩阵,ris可通过码本来改变自身反射信号的模式。
[0063]
s203.基于所述码本a控制所述ris进行部署,得到所述ris在执行所述码本a后所述指定环境的码本执行后环境状态信息s'以及所述指定环境中目标区域的信号增益r;具体地,信号增益r=p
’‑
p,其中p’为ris在执行所述码本a后目标区域的信号强度,p为指定环境内ris未运行时的信号强度,p为预先采集得到。
[0064]
s204.将所述初始环境状态信息s、所述码本a、所述码本执行后环境状态信息s'和所述信号增益r保存为四元组《s,a,s',r》;
[0065]
s205.重新获取所述指定环境的初始环境状态信息,直到得到多个四元组,再将多个四元组记为实地交互信息《s,a,s',r》。具体地,当实地交互信息中包括t个四元组时,实地交互信息被记为{s0,a0,s'0,ro,s1,a1,s'1,r1,
…
,s
t
,a
t
,s'
t
,r
t
},应当理解的是,实地交互信息中,s
1=
s'0,s
2=
s'1,
……
因而在根据实地交互信息对训练后决策模型和训练后评估模型进行更新时,未利用码本执行后环境状态信息s'。
[0066]
s3.根据当前实地交互信息,基于近端策略优化算法对所述训练后决策模型和所述训练后评估模型进行更新,得到更新后决策模型和更新后评估模型;
[0067]
步骤s3中,根据当前实地交互信息,基于近端策略优化算法对所述训练后决策模型和所述训练后评估模型进行更新,包括:
[0068]
s301.获取所述实地交互信息《s,a,s',r》中的多组连续交互信息{s0,a0,ro,s1,a1,r1,
…
,s
t
,a
t
,r
t
};
[0069]
s302.根据所述多组连续交互信息,得到用于评价码本相对ris所在指定环境的环境状态信息的价值分数的优势值;
[0070]
具体地,所述优势值为:
[0071]
[0072]
式中,表示所述实地交互信息中所有码本的价值分数;其中,t为连续交互信息的总组数,t'为0-t中的任一值;γ为第一超参数,指折扣因子,用以计算当前所选码本的效果;v
φ
(s
t
)表示所述训练后评估模型对所述实地交互信息中初始环境状态信息s
t
进行评估的价值分数,其中φ为所述评估模型中的参数,如卷积核的大小、卷积单元的个数、卷积的步长等等。
[0073]
s303.利用预设的损失函数分别对所述训练后决策模型和所述训练后评估模型进行更新,以便得到更新后决策模型和更新后评估模型。具体地,本实施例中,基于随机梯度下降法对所述训练后决策模型和所述训练后评估模型中的权重参数进行更新,进而实现对所述训练后决策模型和训练后所述评估模型的更新。更新完成时,更新后决策模型和更新后评估模型中的参数固定,更新后决策模型和更新后评估模型相对同一交互信息,二者的输出保持不变。
[0074]
具体地,本实施例中,对所述训练后决策模型进行更新的损失函数为:
[0075][0076]
式中,t为所述实地交互信息中的数据总量;π
θ
表示参数更新前的训练后决策模型,π
old
表示参数更新后的决策模型,对应的,θ为初始训练后评估模型中的参数,old为参数更新后的决策模型中的参数;a
t
为所述实地交互信息中的码本;s
t
为所述实地交互信息中的初始环境状态信息;λ为第二超参数,用于控制初始训练后评估模型和参数更新后的决策模型的权重;kl[
·
]为散度;
[0077]
对所述训练后评估模型进行更新的损失函数为:
[0078][0079]
s4.将所述实地交互信息输入所述更新后决策模型,得到所述ris在指定环境下的更新后码本;具体地,作为举例,ris码本也可以采用方向图综合算法生成,以使各个码本下的ris具有不同方向的反射波束,其中所述方向图综合算法可以采用基于遗传算法的方向图综合等方法。
[0080]
s5.基于所述更新后码本控制所述ris进行部署,再根据所述更新后评估模型对当前指定环境进行测试,并在测试通过后完成ris码本的部署,由此完成ris码本的优化部署。需要说明的是,如测试不通过,则重新设置环境,并对所述训练后决策模型和所述训练后评估模型进行更新,即返回步骤s1,直到测试通过。
[0081]
此外,本实施例中,对所述决策模型和所述评估模型进行训练,包括:
[0082]
s101.构建布置有ris的场景模型;具体地,当ris布置的目标使用环境是卧室等居家环境时,搭建与ris所在的家居环境相匹配的场景模型;当ris布置的目标环境是商场时,搭建与ris所在的商业环境匹配的场景模型。构建场景模型,有助于后续进行ris在对应使用环境下的通信交互实验与应用。
[0083]
s102.基于所述决策模型获取所述场景模型中ris与预设基站和目标区域内预设用户终端之间的测试交互信息;
[0084]
具体地,基于所述决策模型获取所述场景模型中ris与预设基站和目标区域内预设用户终端之间的测试交互信息,包括:
[0085]
a1.获取所述场景模型的初始环境状态信息s;具体地,本实施例中,所述初始环境状态信息s包括所述场景模型中电磁信号的强度和所述场景模型中目标区域照片。
[0086]
a2.将所述初始环境状态信息s输入所述决策模型,得到所述场景模型中ris的码本a;
[0087]
a3.基于所述码本a控制ris进行部署,得到所述ris在执行所述码本a后所述场景模型的码本执行后环境状态信息s'以及所述场景模型中目标区域的信号增益r;
[0088]
a4.将所述初始环境状态信息s、所述码本a、所述码本执行后环境状态信息s'和所述信号增益r保存为四元组《s,a,s',r》;
[0089]
a5重新获取所述场景模型的初始环境状态信息,直到得到多个四元组,再将多个四元组记为测试交互信息《s,a,s',r》。
[0090]
s103.根据所述测试交互信息,利用近端策略优化算法对所述决策模型和评估模型进行训练,得到训练后决策模型和训练后评估模型。
[0091]
具体地,根据所述测试交互信息,利用近端策略优化算法对所述决策模型和评估模型进行训练,得到训练后决策模型和训练后评估模型,包括:
[0092]
b1.获取所述测试交互信息《s,a,s',r》中的多组连续交互信息{s0,a0,ro,s1,a1,r1,
…
,s
t
,a
t
,r
t
};
[0093]
b2.根据所述多组连续交互信息,得到用于评价码本相对ris所在场景模型的环境状态信息的价值分数的优势值;
[0094]
b3.利用预设的损失函数分别对所述决策模型和所述评估模型进行更新,得到训练后决策模型和训练后评估模型。具体地,本实施例中,基于随机梯度下降法对所述决策模型和所述评估模型中的权重参数进行更新,进而实现对所述决策模型和所述评估模型进行更新。
[0095]
本实施例可利用采集的历史数据,即测试交互信息,得到决策模型,模型训练好之后,可以直接部署在用于基于模型生成的码本对ris进行部署的控制设备中,模型推理时间短,同时由于历史数据的多样性,模型的泛化性较好。由此使得本实施例可以有效解决目前ris系统中实际部署和应用的问题,有很强的实际和指导意义。
[0096]
本实施例可以适用于大规模、多阵列单元的ris码本优化问题,求解时间短,同时泛化性强。具体地,本实施例在实施过程中,决策模型和评估模型均为神经网络模型,通过构建决策模型和评估模型,更多的时间会消耗在训练阶段,而在具体实践的环境中,只需要等待推理时间就可以得到最优策略,即最优码本,因此推理时间和ris本身的阵列单元数无关,只与决策模型和评估模型的大小有关,极大地降低了决策的响应时间。同时,本实施例可以利用神经网络模型具有可再训练的特性,利用预训练模型进行知识迁移,很容易地适应新的环境和不同规模的ris,以提升算法本身的泛化性。此外,本实施例基于近端策略优化算法对模型进行更新,在此过程中,近端策略优化算法可以和环境进行交互采集大量数据,提升模型本身的准确程度,因此在部署了对应模型的实际环境中,也可以自适应的调节
策略,而非固定的采取某个单一性策略,降低了后期迭代更新的代价,一定程度上缓解了使用环境的变化问题,弥补了过去优化算法中因素单一、无法对复杂环境做出最优决策的缺陷。
[0097]
实施例2:
[0098]
本实施例公开了一种基于近端策略优化的ris控制系统,用于实现实施例1中基于近端策略优化的ris控制方法;如图2所示,所述基于近端策略优化的ris控制系统包括:
[0099]
模型构建模块,用于构建决策模型和评估模型,其中,所述决策模型用于生成ris码本,所述评估模型用于对ris所在环境进行测试;
[0100]
模型训练模块,与所述模型构建模块通信连接,用于对所述决策模型和所述评估模型进行训练,得到训练后决策模型和训练后评估模型;
[0101]
交互信息获取模块,用于获取指定ris在指定环境下与基站和目标区域内用户终端之间的实地交互信息;
[0102]
模型更新模块,分别与所述模型训练模块和交互信息获取模块通信连接,用于根据当前实地交互信息,基于近端策略优化算法对所述训练后决策模型和所述训练后评估模型进行更新,得到更新后决策模型和更新后评估模型;
[0103]
测试模块,与所述模型更新模块通信连接,用于将所述实地交互信息输入所述更新后决策模型,得到所述ris在指定环境下的更新后码本;还用于基于所述更新后码本控制所述ris进行部署,再根据所述更新后评估模型对当前指定环境进行测试,并在测试通过后完成ris码本的部署。
[0104]
实施例3:
[0105]
在实施例1或2的基础上,本实施例公开了一种电子设备,该设备可以是智能手机、平板电脑、笔记本电脑或者台式电脑等。电子设备可能被称为用于终端、便携式终端、台式终端等,电子设备包括:
[0106]
存储器,用于存储计算机程序指令;以及,
[0107]
处理器,用于执行所述计算机程序指令从而完成如实施例1中任一所述的基于近端策略优化的ris控制方法的操作。
[0108]
实施例4:
[0109]
在实施例1至3任一项实施例的基础上,本实施例公开了一种计算机可读存储介质,用于存储计算机可读取的计算机程序指令,所述计算机程序指令被配置为运行时执行如实施例1所述的基于近端策略优化的ris控制方法的操作。
[0110]
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
[0111]
最后应说明的是,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。
而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
[0112]
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。