深度强化学习模型的训练方法、装置、介质及电子设备与流程

文档序号:25660804发布日期:2021-06-29 23:18阅读:392来源:国知局
深度强化学习模型的训练方法、装置、介质及电子设备与流程

1.本公开涉及计算机技术领域,具体地,涉及一种深度强化学习模型的训练方法、装置、介质及电子设备。


背景技术:

2.随机计算机技术的发展,各类大型模型、复杂的机器学习模型逐渐开始应用。深度强化学习将深度学习的感知能力和强化学习的决策能力相结合,可以直接根据输入的图像进行控制,更接近人类思维方式。在深度强化学习模型的训练过程中,通常需要基于动作值函数对某一状态下的选择决策动作策略进行评价,以便于该深度强化学习模型的策略提升。
3.相关技术中,在基于动作值函数进行计算获得动作价值的过程中会引入误差,并且在进行策略探索时是基于一条策略进行确定的,策略的丰富程度很低,策略更新往往不稳定,难以保证深度强化学习模型的训练效率和准确性。


技术实现要素:

4.提供该发明内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
5.第一方面,本公开提供一种深度强化学习模型的训练方法,所述方法包括:
6.获取深度强化学习模型与虚拟环境交互所产生的交互序列,其中,所述交互序列包括多个采样数据,每一所述采样数据包括所述虚拟环境的第一状态、决策动作、以及在所述虚拟环境处于所述第一状态对应的状态下执行所述决策动作所得到的回报值;
7.针对每一所述采样数据,确定所述深度强化学习模型的优势函数与该采样数据中的环境状态对应的优势函数值,以及在所述采样数据对应的决策策略下所述优势函数值的优势期望,其中,所述决策策略为基于所述优势函数和所述深度强化学习模型中多个具有关联关系的策略参数所形成的策略族函数确定出的;
8.针对每一所述采样数据,根据所述采样数据、与所述采样数据对应的优势函数值、所述优势期望以及所述深度强化学习模型的状态值函数,确定所述采样数据对应的动作价值;
9.基于所述动作价值确定所述深度强化学习模型的动作值函数的更新梯度信息;
10.根据所述更新梯度信息对所述深度强化学习模型进行更新。
11.第二方面,本公开还提供一种深度强化学习模型的训练装置,所述装置包括:
12.获取模块,用于获取深度强化学习模型与虚拟环境交互所产生的交互序列,其中,所述交互序列包括多个采样数据,每一所述采样数据包括所述虚拟环境的第一状态、决策动作、以及在所述虚拟环境处于所述第一状态对应的状态下执行所述决策动作所得到的回报值;
13.第一确定模块,用于针对每一所述采样数据,确定所述深度强化学习模型的优势函数与该采样数据中的环境状态对应的优势函数值,以及在所述采样数据对应的决策策略下所述优势函数值的优势期望,其中,所述决策策略为基于所述优势函数和所述深度强化学习模型中多个具有关联关系的策略参数所形成的策略族函数确定出的;
14.第二确定模块,用于针对每一所述采样数据,根据所述采样数据、与所述采样数据对应的优势函数值、所述优势期望以及所述深度强化学习模型的状态值函数,确定所述采样数据对应的动作价值;
15.第三确定模块,用于基于所述动作价值确定所述深度强化学习模型的动作值函数的更新梯度信息;
16.更新模块,用于根据所述更新梯度信息对所述深度强化学习模型进行更新。
17.第三方面,提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现第一方面所述方法的步骤。
18.第四方面,提供一种电子设备,包括:
19.存储装置,其上存储有计算机程序;
20.处理装置,用于执行所述存储装置中的所述计算机程序,以实现第一方面所述方法的步骤。
21.在上述技术方案中,基于优势函数和深度强化学习模型的多个具有关联关系的策略参数所形成的策略族函数确定出的决策策略,从而可以通过优势函数对决策策略对应的策略族函数进行表示,以使得在采样数据对应的决策策略下该优势函数值的优势期望可以基于优势函数进行计算,从而获得准确的优势期望,与现有技术中通过优势函数值的平均值对其期望进行估计相比,可以有效降低优势期望计算过程中的误差,既可以对该环境状态下的各个动作的优势价值进行准确评价,同时提高对深度强化学习模型中的策略的评价准确性,也可以为深度强化学习模型的训练过程提供准确的数据支持。进一步地,可以基于多个具有关联关系的策略参数形成策略族函数,从而基于策略族函数确定决策策略,从而可以有效增加决策策略的搜索空间,提高策略优化的多样性,在一定程度上提高深度强化学习模型的策略的有效更新,提高深度强化学习模型的效率的同时,提升深度强化学习模型的鲁棒性,有效降低训练深度强化学习模型对设备资源的高要求。
22.本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
23.结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。在附图中:
24.图1是根据本公开的一种实施方式提供的深度强化学习模型的训练方法的流程图;
25.图2是基于本公开的一种实施方式提供的目标超空间的示意图;
26.图3是基于本公开的一种实施方式提供的目标超空间及其对应的参考超空间的示意图;
27.图4是根据本公开的一种实施方式提供的深度强化学习模型的训练装置的框图;
28.图5示出了适于用来实现本公开实施例的电子设备的结构示意图。
具体实施方式
29.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
30.应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
31.本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
32.需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
33.需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
34.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
35.图1所示,为根据本公开的一种实施方式提供的深度强化学习模型的训练方法的流程图,如图1所示,所述方法可以包括:
36.在步骤11中,获取深度强化学习模型与虚拟环境交互所产生的交互序列,其中,所述交互序列包括多个采样数据,其中,每一所述采样数据包括所述虚拟环境的环境状态、决策动作、以及在所述虚拟环境处于所述环境状态对应的状态下执行所述决策动作所得到的回报值。
37.其中,深度强化学习模型将深度学习的感知能力和强化学习的决策能力相结合,其通过在每个时刻代理(agent)与环境交互得到一个高维度的观察,并利用深度学习方法来感知该观察,以得到该观察具体的状态特征表示,所述采样数据即用于表示在交互过程中任一时刻进行采样,所得到的感知观察对应的具体状态表征;之后可以基于预期回报来评价各个状态的价值函数(状态值函数)和状态

动作对的价值函数(动作值函数),并且基于这两个价值函数对决策策略进行提升,决策策略用于将当前状态映射为相应的决策动作;环境会对此决策动作做出反应,并得到下一个观察。通过不断循环以上过程,以得到实现目标的最优策略,示例地,该目标为累计回报最大。
38.在一种可能的实施例中,所述交互序列为在虚拟对象与所述虚拟环境进行交互的过程中进行采样获得的,其中,所述虚拟对象基于所述深度强化学习模型进行控制,所述深度强化学习模型用于确定所述虚拟对象执行的每一决策动作,所述虚拟环境为所述虚拟对象所处的环境。
39.其中,虚拟环境可以是用计算机生成的一种虚拟的场景环境,如虚拟环境可以是
游戏场景,示例地,对用于与用户进行交互的多媒体数据进行渲染,从而可以将该多媒体数据渲染显示为游戏场景,虚拟环境提供了一个多媒体的虚拟世界,用户可通过操作界面上的控件来控制虚拟对象动作,或直接对虚拟环境中可操作的虚拟对象进行控制,并以虚拟对象的视角观察虚拟环境中的物体、人物、风景等,以及通过虚拟对象和虚拟环境中的其它虚拟对象等进行互动。作为另一示例,该虚拟环境还可以包括场景中的其他虚拟对象等。虚拟对象可以是在虚拟环境中的用于模拟用户的虚拟形象,其可以是人类形象或者其他动物形象等。
40.该应用场景可以是由虚拟对象感知其所处的环境,并根据感知到的环境状态来进行动作的场景。该应用场景可以包括一虚拟对象以及虚拟对象所处环境中包含的多个环境对象,在该场景下,虚拟对象可以对虚拟对象所处环境的环境状态进行融合,并将融合后的环境状态,输入到深度强化学习模型中,以得到虚拟对象待执行的决策动作。其中,虚拟对象可以是任一种能够与环境交互,并根据所处环境的环境状态进行动作的智能体。
41.示例地,所述深度强化学习模型用于对所述游戏人工智能(游戏ai,artificialintelligence)进行训练,所述采样样本为在所述游戏人工智能在目标游戏的对局中进行采样获得的交互序列,所述虚拟环境为所述游戏人工智能在所述目标游戏中所处的训练环境。
42.作为示例,目标游戏为枪战类游戏,虚拟对象可以是游戏对战ai,其对应的决策动作可以是控制游戏对战ai角色攻击、移动和停止等。作为另一示例,目标游戏为驾驶类游戏中,虚拟对象可以是进行自动驾驶的游戏车辆ai,其对应的决策动作可以是控制该车辆转向、直行和刹车等。作为另一示例,目标游戏可以在装配类游戏,虚拟对象可以是机器人ai,其对应的决策动作可以是控制该机器人ai移动、抓取待装配物体和放下待装配物体等。
43.举例来说,在对游戏人工智能在目标游戏的对局中进行采样获得的交互序列时,可以由游戏人工智能对游戏人工智能所处环境进行感知,以获取游戏人工智能所处训练环境的多模态的环境状态。其中,环境状态可以包括环境图像,以及环境图像中每个环境对象的对象信息,对象信息包含了环境对象所对应的具体参数。例如,在虚拟对象为枪战类游戏中的游戏对战ai时,虚拟环境则可以是游戏对战ai在该枪战类游戏中所处的训练环境,则环境图像可以是游戏对战ai所在的游戏地图,环境对象可以是该游戏地图中的敌方单位、道路和建筑物等,对象信息可以包括敌方单位的数值参数(例如:血量、攻击力、技能)、名称和所在位置等信息。在虚拟对象为驾驶类游戏的游戏车辆ai时,虚拟环境则可以是游戏车辆ai在该驾驶类游戏中所处的训练环境,则环境图像可以是拍摄到的该车辆周围的图像,环境对象可以是该车辆周围的其他车辆、障碍物和道路等,对象信息可以包括其他车辆的车速、行驶方向和大小等信息。在虚拟对象为装配类游戏中的机器人ai时,虚拟环境则可以是机器人ai在该装配类游戏中所处的训练环境,环境图像可以是拍摄到的待装配物体所在区域的图像,环境对象可以是待装配物体,对象信息可以包括待装配物体的大小、形状和位置等信息。然后,可以对每个环境对象的对象信息进行预处理,以得到每个环境对象的对象特征向量。例如,可以将每个环境对象的对象信息输入到预先训练好的深度学习网络中,以将每个环境对象的对象信息转换为该环境对象的对象特征向量。
44.作为示例,该虚拟对象可以在该虚拟环境的第一状态下执行决策动作,则在该虚拟对象执行该决策动作后,该虚拟环境则可以对该决策动作做出反应,从而获得该虚拟环
境的第二状态,以及执行该决策动作对应的回报值。则在虚拟对象与该虚拟环境进行交互的过程中进行采样时,可以基于将该第一状态、决策动作、第二状态以及该回报值作为该采样时刻对应的采样数据,若无另外说明,本公开实施例中所述的环境状态为所述第一状态。在一次完整的交互过程中,按照采样时间的先后顺序的采样数据形成为一交互序列。示例地,该目标模型可以为一深度强化学习模型,目标游戏为迷宫类游戏,虚拟对象对游戏ai,虚拟环境可以为一虚拟迷宫环境,在该虚拟迷宫场景中的随机位置中可能出现虚拟奖励,可以训练深度强化学习模型以确定游戏ai从虚拟迷宫入口e1至出口e2的策略,以使得游戏ai从入口e1至出口e2的过程中获得的虚拟奖励最多。示例地,从入口e1处在初始时刻采样,游戏ai在虚拟迷宫环境中该初始时刻的第一状态下对应的动作为直行或右转,则可以根据策略确定该初始时刻的状态下对应决策动作,示例地决策动作为直行,环境基于该决策动作做出反应获得回报值和第二状态,采样获得一采样数据。在下一时刻采样,获得该游戏ai在虚拟迷宫环境中该下一时刻的第一状态,该第一状态下对应的动作为直行或右转,则可以根据策略确定该下一时刻的第一状态下对应的决策动作,示例地决策动作为右转,同样地环境基于该决策动作做出反应获得回报值和第二状态,获得下一采样数据。则在游戏ai移动至出口e2的过程中,通过上述方式采样可以获得包含多个采样数据的交互序列。
45.其中,在进行采样时,可以获取该采样时刻对应的虚拟环境的图像,从而可以对该图像进行特征提取,以获得该第一状态。在该虚拟对象执行决策动作之后,获取虚拟环境的图像并对图像进行特征提取,以获得第二状态。该回报值可以是执行该决策动作后,该虚拟对象对应的得分值的变化,也可以是虚拟生命条的变化等,可以根据实际使用场景进行设置,本公开对此不进行限定。
46.在步骤12中,针对每一采样数据,确定深度强化学习模型的优势函数与该采样数据中的环境状态对应的优势函数值,以及在采样数据对应的决策策略下优势函数值的优势期望,其中,所述决策策略为基于所述优势函数和所述深度强化学习模型中多个具有关联关系的策略参数所形成的策略族函数确定出的。
47.其中,该多个策略参数为该深度强化学习模型中的超参数,用于表示策略的多样性,该多个策略参数的取值可以基于人为经验进行设置,也可以深度强化学习模型更新的过程中,基于对应的交互序列动态调整,以进一步提高深度强化模型更新的准确性和效率。在该实施例中,通过多个具有关联关系的策略参数形成策略族函数,一方面可以基于优势函数对策略函数进行表示,以实现决策策略的自动确定,另一方面也可以有效增加决策策略对应的探索空间,提高决策策略的准确性和多样性,在一定程度上可以提高深度强化学习模型的探索效率。
48.在该深度强化学习模型中,可以通过一神经网络实现该优势函数的计算,示例地,该优势函数网络可以基于cnn(convolutional neural networks,卷积神经网络)和rnn(recurrent neural networks,循环神经网络)实现。因此,可以将该采样数据中的环境状态输入该优势函数网络,从而可以获得该优势函数网络的输出值,即该优势函数与该环境状态对应的优势函数值。
49.在本领域中,优势函数通常用于评价在状态s下选择动作a的优势价值,因此,在确定该优势价值时,通常需要确定出在状态s下选择各个动作的优势期望。相关技术中,是基于优势函数值的平均值对其期望进行估计,则其必然会引入误差,从而会导致动作价值的
计算误差,导致在深度强化学习模型的训练过程中无法找到最优策略。
50.在深度强化学习模型中,是基于决策策略将当前状态映射为相应的决策动作,因此,在本公开实施例中,可以基于优势函数和该多个策略参数对决策策略的策略族函数进行求解,以使得该决策策略的策略族函数可以具有显式表现形式,以使得在采样数据对应的决策策略下该优势函数值的优势期望可以直接基于优势函数和对应的决策策略进行计算,而无需用交互序列对应的样本的均值逼近以确定优势期望。由此,在计算动作价值时,不会出现计算优势期望引入误差的问题,从而获得准确的优势期望和动作价值,实现对选择决策动作的决策策略的准确评价,以提高深度强化学习模型的策略提升的效率。
51.在步骤13中,针对每一采样数据,根据采样数据、与采样数据对应的优势函数值、优势期望以及深度强化学习模型的状态值函数,确定采样数据对应的动作价值。
52.其中,在深度强化学习模型中通常采用价值函数来评价某一状态或者状态

动作的价值,即评价代理agent选择某一状态或者某一状态下执行某一动作的价值。通常采用状态值函数来评价某一状态的价值,某一个状态的价值可以用该状态下所有动作的价值表述,即基于状态s能获得的累计回报的期望,在这个策略下,该累计回报服从一个分布,累计回报在状态处的期望值定义为状态值函数v(s):
53.v
π
(s)=e
π
[g
t
|s
t
=s]
[0054]
v
π
(s)即表示在策略π下,t时刻的状态s
t
取值为s时,累计回报g
t
在s处的期望值。
[0055]
作为示例,该累计回报可以是该交互序列中包含的每一决策动作对应的回报值之和。作为另一示例,与当前决策动作距离越远的决策动作对该当前决策动作的影响越小,则该累计回报可以是该交互序列中的每一决策动作的回报值与该决策动作对应的衰减系数的乘积的累加和,其中,决策动作对应的衰减系数按照所述决策动作由先至后的顺序递减,例如:
[0056]
g
t
=r
t+1
+γr
t+2
+γ2r
t+3
+


n
‑1r
t+n
[0057]
=r
t+1
+γ(r
t+2
+γr
t+3
+


n
‑2r
t+n
)
[0058]
=r
t+1
+γg
t+1
[0059]
其中,r
i
用于表示i时刻的决策动作的回报值,γ用于表示该衰减系数,n可以用于表示该交互序列中t时刻之后到交互结束的采样数据的数量。
[0060]
因此,在另一实施例中,可以从交互序列的最后一个决策动作起,将其回报值与衰减值相乘并与前一决策动作的回报值相加,直至与所述交互序列中的第一个决策动作的回报值相加,获得该累计回报。其中该衰减值可以根据实际使用场景进行设置。
[0061]
同样地,在该深度强化学习模型中,可以通过一神经网络实现该状态值函数的计算。因此,可以将该采样数据中的环境状态输入该状态值函数网络,从而可以获得该状态值函数网络的输出值,即该状态值函数与该环境状态对应的状态价值。
[0062]
在深度强化学习模型中,通常采用动作值函数评价某一状态下执行某一动作的价值,即基于状态s下选择一个动作a后能获得的累计回报的期望:
[0063]
q
π
(s,a)=e
π
[g
t
|s
t
=s,a
t
=a];
[0064]
即表示在策略π下,t时刻的状态s
t
取值为s,选择的动作a
t
为a时,累计回报g
t
在s,a处的期望值,也就是说该动作值函数可以用于对策略π进行评价。
[0065]
基于优势函数a(s,a)、状态值函数v(s)和动作值函数q(s,a)的定义,本领域中深
度强化学习中存在如下关系:
[0066]
q(s,a)=a(s,a)+v(s)
[0067]
则在该实施例中,动作值函数与该环境状态和决策动作对应的动作价值,则可以根据采样数据、与采样数据对应的优势函数值、优势期望以及深度强化学习模型的状态值函数进行确定。
[0068]
在步骤14中,基于动作价值确定深度强化学习模型的动作值函数的更新梯度信息。
[0069]
其中,动作值函数的更新梯度可以通过该动作值函数对应的损失函数对深度强化学习模型的参数求导确定。示例地,在确定该损失函数时,可以计算动作价值对应的目标值与动作价值之间的均方误差,如:
[0070]
q(θ)=e
π
[(q
π
(s
t
,a
t
)

q
θ
(s
t
,a
t
))2]
[0071]
其中,q(θ)用于表示所述均方误差,q
θ
(s
t
,a
t
)用于表示动作价值,q
π
(s
t
,a
t
)用于表示和q
θ
(s
t
,a
t
)对应的目标值,θ用于表示所述深度强化学习模型中待更新的模型参数。
[0072]
之后通过对损失函数进行求导并简化处理,如简化求导形成的常数倍数等,从而获得该动作值函数的更新梯度如下:
[0073][0074]
由此,可以基于上述公式和采样数据中的环境状态和决策动作,确定出对应的更新梯度信息。
[0075]
在步骤15中,根据更新梯度信息对深度强化学习模型进行更新。
[0076]
其中,可以选择本领域中的梯度更新算法进行更新,例如可以采用ppo(proximal policy optimization,近端策略优化)算法基于该更新梯度信息对该深度强化学习模型中的参数进行更新,从而实现该深度强化学习模型的策略优化。
[0077]
在上述技术方案中,基于优势函数和深度强化学习模型的多个具有关联关系的策略参数所形成的策略族函数确定出的决策策略,从而可以通过优势函数对决策策略对应的策略族函数进行表示,以使得在采样数据对应的决策策略下该优势函数值的优势期望可以基于优势函数进行计算,从而获得准确的优势期望,与现有技术中通过优势函数值的平均值对其期望进行估计相比,可以有效降低优势期望计算过程中的误差,既可以对该环境状态下的各个动作的优势价值进行准确评价,同时提高对深度强化学习模型中的策略的评价准确性,也可以为深度强化学习模型的训练过程提供准确的数据支持。进一步地,可以基于多个具有关联关系的策略参数形成策略族函数,从而基于策略族函数确定决策策略,从而可以有效增加决策策略的搜索空间,提高策略优化的多样性,在一定程度上提高深度强化学习模型的策略的有效更新,提高深度强化学习模型的效率的同时,提升深度强化学习模型的鲁棒性,有效降低训练深度强化学习模型对设备资源的高要求。
[0078]
在一种可能的实施例中,所述策略参数包含策略熵参数以及与每一所述策略熵参数对应的权重参数,其中,每一所述策略熵参数对应的权重参数之和为1。熵是不确定性的度量,不确定性越大熵越大,本公开中该策略熵参数为该深度强化学习模型中的超参数,用于表示策略的多样性。
[0079]
相应地,所述策略族函数通过以下方式确定:
[0080]
根据所述优势函数值与每一所述策略熵参数确定所述策略熵参数对应的子策略
的子函数。
[0081]
其中,如上文所述,优势函数值用于表示某一个状态的价值,即可以用该状态下所有动作的价值表述,则该优势函数值可以为一向量,该向量中的每一维度用于表示在该维度对应的动作的价值。示例地,可以将该优势函数值与每一策略熵参数的比值确定该为策略熵参数对应的子策略的子函数。
[0082]
之后,将每一所述子函数进行softmax处理后得到的概率分布与该子函数对应的权重参数的乘积之和确定为所述策略族函数。
[0083]
示例地,策略族函数μ可以表示为:
[0084][0085]
其中,m用于表示策略熵参数的个数,τ
i
用于表示策略参数中第i个策略熵参数,ε
i
用于表示第i个策略熵参数对应的权重参数。
[0086]
因此,在本公开实施例中,可以基于每一策略熵参数确定出一子策略,然后将每一子策略作为基策略而形成多维策略空间,每一基策略可以表示一个熵群,通过将多个熵群进行组合以获得多维策略空间中更加丰富的策略,从而可以大大增加可探索策略的多样性。
[0087]
为便于策略族函数的计算,在策略熵参数为2个时,策略族函数可以表示为:
[0088][0089]
即,策略参数中包含的策略熵参数τ1对应的权重参数为ε1,此时可以直接将1

ε1作为策略熵参数τ2的权重参数,从而简化策略族函数中的参数表示,在一定程度上降低数据计算量。
[0090]
其中,进行softmax处理得到概率分布的方式为本领域中的常规操作,在此不再赘述。在该实施例中,通过将子函数转换成概率分布,从而基于该优势函数值确定出状态下的策略中针对每一动作的概率信息,以基于优势函数值对该子策略的概率分布进行表示,同时便于后续进行决策动作的确定,提高深度强化学习模型的训练效率和准确性。
[0091]
在一种可能的实施例中,在步骤13中,根据采样数据、与采样数据对应的优势函数值、优势期望以及深度强化学习模型的状态值函数,确定采样数据对应的动作价值的示例性实现方式如下,该步骤可以包括:
[0092]
根据所述采样数据中的环境状态,确定所述状态值函数对应的状态价值,示例地,如上文所述可以将该环境状态输入状态值函数网络,从而获得该状态价值。
[0093]
将所述优势函数值与所述优势期望之差确定为处理优势函数值,从而可以通过该处理优势函数值对该环境状态下的每一动作的价值相对与优势期望价值而言的优势进行表示。若在该环境状态下某一动作的价值优于该期望值,则该处理优势函数值为正值,表示选择其对应的动作为正向的,即可以获得更多的回报。通过该转换方案,可以使得该处理优势函数值满足期望为0的约束,增加输出的稳定性,有助于提高学习效率,同时使得深度强化学习模型的学习过程更加稳定。
[0094]
将所述处理优势函数值与所述状态价值之和确定为所述动作价值。
[0095]
如上文所示q(s,a)=a(s,a)+v(s)的关系,则可以在确定出处理优势函数值和所述状态价值之后,确定出该动作价值。
[0096]
示例地,如上文所示,可以基于状态值函数网络确定状态价值v,即:
[0097]
v=v(s
t
)
[0098]
基于优势函数网络确定优势价值a,即:
[0099]
a=a(s
t
)
[0100]
则策略族函数μ可以表示为:
[0101][0102]
则可以进一步确定出所述处理优势函数值
[0103][0104]
其中,π用于表示所述决策策略。
[0105]
在本公开实施例中可以采样异策略(off

policy)的方式对深度强化学习模型进行训练,即要学习的代理agent对应的策略和与环境互动过程中进行采样时对应的策略不同的状态下的学习更新方式。为了提高模型的训练效率,可以用策略μ’与环境进行互动并在互动过程中进行采样,获得交互序列,其中该策略μ’即为基于该策略族函数确定出的用于进行数据采样的策略,并基于该策略μ’对应的交互序列去更新策略π下的模型,以分别进行数据采集和模型学习。在该过程中,由于交互序列和深度强化学习模型对应的策略不同,则需要对其进行重要性采样,可以根据本领域中的重要性采样方式进行计算,在此不再赘述。
[0106]
之后,确定出动作价值q:
[0107][0108]
通过上述技术方案,在确定采样数据对应的动作价值的过程中,通过对状态和状态

动作分别进行评价,以获得状态价值和优势价值,以提高该动作价值确定方法的使用范围。同时,在该过程中,通过优势期望对该优势函数值进行处理,从而可以提高确定出的处理优势函数值的稳定性,并且该过程中优势期望为基于数学计算确定出的,不会确定过程中引入其他误差,从而可以保证动作价值的准确性,对在环境状态下选择动作的策略进行准确评价,以便于对该深度强化学习模型的策略的有效更新,避免由于动作价值确定的误差而导致深度强化学习模型中策略更新的误差,保证基于该深度强化学习模型控制虚拟对象的决策动作的准确性。另外,可以在提高学习效率的同时,可以在一定程度上减少训练深度强化学习模型时的所需的计算量和样本数量。
[0109]
在一种可能的实施例中,在步骤13中,所述基于所述动作价值确定所述深度强化学习模型的动作值函数的更新梯度信息的示例性实现方式如下,该步骤可以包括:
[0110]
根据所述决策策略的更新梯度信息、和在所述决策策略下的动作价值与状态价值的差值在目标方向上的分量之差的期望值,确定所述动作值函数的更新梯度信息。
[0111]
其中,所述目标方向可以是该决策策略的更新梯度方向,其中,动作价值和状态价值的确定方式已在上文进行详述,在此不再赘述。在该实施例中,可以通过在所述决策策略
下的动作价值与状态价值的差值在目标方向上的分量之差的期望值,表示进行策略评估的偏差。因此,可以将该决策策略的更新梯度信息和该期望值之差构造动作值函数的更新梯度信息,如:
[0112][0113]
其中,用于表所述动作值函数的更新梯度信息,用于表示所述决策略的更新梯度信息,q
t
用于表示t时刻对应的动作价值,v
t
用于表示t时刻对应的状态价值,g用于表示更新梯度方向,π用于表示决策策略。
[0114]
由此,可以基于上述关系对动作值函数的更新梯度信息进行计算求解,同时使得在基于该更新梯度信息对深度强化学习模型进行更新时,可以保证策略提升,并降低进行策略评估的误差,从而使得更新后的深度强学习模型确定出的策略更优的同时,对确定出的策略的评估也更加准确,从而提高深度强化学习模型的优化效率,并可以在一定程度上保证该深度强化学习模型的收敛性。
[0115]
在一种可能的实施例中,所述深度强化学习模型中多个具有关联关系的策略参数组成为策略参数组合,所述策略参数组合的取值基于所述策略参数组合对应的参数确定模型和所述交互序列生成的交互样本进行更新,所述交互样本中包含与所述交互序列对应的所述策略参数组合对应的采样取值组合和所述深度强化学习模型对应的优化特征参数,所述采样取值组合中包含每一所述策略参数对应的采样取值。
[0116]
其中,为便于图示说明,以策略参数组合包含2个维度进行说明策略参数组合α可以表示为:α=(λ1,λ2),则采样取值组合则可以分别包含该策略参数λ1和λ2的采样取值。因此,在本公开实施例中,在对深度强化学习模型中的多个具有关联关系的策略参数进行取值的统一确定,既可以保证每一策略参数的取值的准确性,同时又可以保证该多个策略参数取值和深度强化学习模型整体的匹配程度,避免每一策略参数分别进行优化时陷入鞍点的问题。
[0117]
在一种可能的实施例中,所述策略参数组合的取值基于所述策略参数组合对应的参数确定模型和所述交互序列生成的交互样本进行更新的示例性实现方式如下,该步骤可以包括:
[0118]
在所述参数确定模型为一个的情况下,则根据所述交互样本,对所述参数确定模型中所述策略参数组合对应的状态价值进行更新,其中,所述策略参数与所述策略参数组合对应的目标超空间中的维度一一对应,每一所述策略参数的参数空间在该策略参数对应的维度下被离散化为多个取值区间,以使得所述目标超空间被离散化为多个取值空间。
[0119]
接上述示例,策略参数组合中包含两个策略参数,分别为λ1和λ2,则该策略参数组合对应的目标超空间为二维空间,如图2所示,其中,x轴维度对应于策略参数λ1,y轴维度对应于策略参数λ2,策略参数λ1和λ2分别对应的参数空间可以在其对应的维度上进行离散化处理,其中不同维度进行离散化处理的间隔可以相同,也可以不同,用户可以基于实际使用场景进行设置,本公开对此不进行限定。
[0120]
如图2所示,在x轴维度对策略参数λ1的参数空间以离散间隔h1进行离散化处理,在y轴维度对策略参数λ2的参数空间以离散间隔h2进行离散化处理,则目标超空间被离散化为图2所示的12个取值空间(c00

c23)。策略参数组合对应的状态价值可以通过一个向量
进行表示,即该12个取值空间各自对应的状态价值分别为该向量中的一个维度值。
[0121]
作为示例,策略参数组合中每一策略参数的参数空间被离散化为多个取值区间,从而使得策略参数组合对应的目标超空间被离散化为多个取值空间,则策略参数组合对应的状态价值可以用于表征在该策略参数组合中的策略参数的取值为采样取值组合中对应的采样取值的状态下,基于策略进一步选择从各个取值空间中选择策略参数组合中的每一策略参数取值所带来的累计回报。示例地,在本公开中可以通过迭代更新的方式确定策略参数组合对应的状态价值,即根据交互样本对应的采样取值组合,对策略参数组合对应的状态价值进行迭代更新。
[0122]
作为示例,在对目标超空间中的每一维度下的参数空间进行离散化处理时,针对每一维度,可以预先确定该参数空间对应的取值区间的个数,之后可以将该维度对应的策略参数的参数空间进行均匀划分从而获得该维度下的多个取值区间。如,策略参数的参数空间为[0,9],将该参数空间划分为9个取值区间,则取值区间a1对应的取值范围为[0,1),取值区间a2对应的取值范围为[1,2),其他取值区间对应的取值范围以此类推,在此不再赘述。
[0123]
之后,根据所述策略参数组合对应的更新后的状态价值,从所述多个取值空间中确定目标空间。
[0124]
在该步骤中,可以通过根据深度强化学习模型对应的交互序列确定出的策略参数组合对应的状态价值,对该策略参数组合从每一取值空间中进行取值的累计回报进行准确评价,从而可以根据评价结果选择用于确定策略参数组合对应的取值的目标空间,以保证策略参数组合对应的取值的准确性,以及该策略参数组合对应的取值与该深度强化学习模型的实际应用过程的一致性。
[0125]
根据所述目标空间确定所述策略参数组合对应的目标取值组合,并根据所述目标取值组合确定每一所述策略参数的取值。
[0126]
作为一种实施例,可以在所述目标空间对应的取值范围内进行均匀分布采样,将采样获得的点在每一维度下对应的取值确定为所述该维度对应的策略参数的目标取值。如图2所示,确定出的目标空间为c13,从该目标空间中进行采样获得的采样点为p1,则可以将p1在x轴维度对应的取值px确定为策略参数λ1的目标取值,将p1在y轴维度对应的取值py确定为策略参数λ2的目标取值。
[0127]
其中,在确定出策略参数中的多个权重参数时,可以将该多个权重参数进行归一化处理,从而可以保证确定出的多个策略熵参数对应的子函数之间的权重比例关系,保证确定出的策略族函数的准确性。
[0128]
由此,针对于多个具有关联关系的策略参数,可以通过目标超空间同时对每一策略参数的参数空间进行表示,从而可以通过在每一维度中对该维度下的策略参数的参数空间进行离散化处理,从而将目标超空间离散化为多个取值空间,从而可以基于使用该策略参数组合的深度强化学习模型对应的交互序列,基于所述深度强化学习模型的优化特征参数,确定该策略参数组合的取值。由此,一方面可以对深度强化学习模型的策略参数的取值进行准确设置,避免由于人为经验的局限性而出现由于策略参数设置值不合适而导致深度强化学习模型无法收敛或者收敛速度过慢的现象。另一方面,可以保证每一策略参数的取值的准确性,进而提高深度强化学习模型的训练效率。
[0129]
在一种可能的实施例中,如上文所述,虚拟环境可以为游戏环境,则可以在该虚拟对象与虚拟环境进行交互的过程中进行采样以获得交互数据,该深度强化学习模型在训练过程中,可以基于上述方式确定该深度强化学习模型中的策略参数的取值,从而可以使得深度强化学习模型确定虚拟对象的决策动作时能够获得更大的回报,保证虚拟对象的决策动作的准确性,提高虚拟人物控制的准确性,同时还能够减少训练过程中所需的数据量和人力。
[0130]
在一种可能的实施例中,在所述参数确定模型为一个的情况下,根据所述交互样本,对所述参数确定模型中所述策略参数组合对应的状态价值进行更新的示例性实现方式如下,该步骤可以包括:
[0131]
根据所述采样取值组合,确定所述采样取值组合所属的取值空间作为待更新取值空间。
[0132]
示例地,可以根据该采样取值组合中的每一采样取值,分别确定该采样取值在该采样取值对应的维度下的标识,例如,可以基于采样取值的取值区间对应的范围长度确定该采样取值所属的取值区间,采样取值所属的取值区间的下标i可以通过以下公式进行确定:
[0133]
i=(min(max(x,l),r)

l)//acc
[0134]
其中,x用于表示所述采样取值;l用于表示所述参数空间的左边界;r用于表示所述参数空间的右边界;//用于表示整除符号;acc用于表示取值区间的范围长度。
[0135]
因此,在基于上述方式确定出每一采样取值对应的采样区间的下标时,基于每一采样取值的维度确定出该待更新取值空间。示例地,x轴维度确定出的下标为2,y轴维度确定出的下标为1,则该采样取值组合所属的取值空间即为c21。
[0136]
之后,根据所述优化特征参数,对所述待更新取值空间的状态价值进行更新。
[0137]
在该实施例中,通过采样取值与所述参数空间的关系可以确定出该采样取值对应的待更新取值空间,从而可以对该待更新取值空间的状态价值进行更新,针对除所述待更新取值空间之外的其他取值空间,其对应的状态价值无需更新,从而可以保证该策略参数对应的状态价值的准确性,为后续准确选择目标空间提供数据支持。
[0138]
在该实施例中,将采样取值组合所属的取值空间确定为该待更新取值空间,则可以通过以下公式根据优化特征参数,对待更新取值空间的状态价值进行更新,公式如下:
[0139][0140]
其中,t用于表示所述优化特征参数,其中,若该优化特征参数为累计回报,即该累计回报在优化时向增大的方向优化,则t可以为g
t
,若该优化特征参数为深度强化学习模型的误差率error,即该误差率在优化时向减小的方向优化,则t可以为

error;k(s)用于表示待更新取值空间s的命中次数,即交互序列对应的策略参数组合的取值属于该待更新取值空间s的次数,v(s)用于表示所述待更新取值空间s当前的状态价值,v’(s)用于表示待更新取值空间s更新后的状态价值。
[0141]
又如,可以通过如下公式通过以下公式根据优化特征参数,对待更新取值空间的状态价值进行更新:
[0142]
v'(s)=v(s)+lr*(t

v(s))
[0143]
其中,lr用于表示进行状态价值更新的学习率。
[0144]
由此,通过上述技术方案,可以基于交互样本对策略参数空间对应的状态价值进行更新,使得该状态价值与深度强化学习模型中实际的优化特征参数相对应,从而可以保证后续确定出的目标取值组合的准确性,优化深度强化学习模型的训练效率。
[0145]
在一种可能的实施例中,所述目标超空间对应有多个参考超空间,每一所述参考超空间中的取值空间对应的离散间隔大于所述目标超空间中的取值空间对应的离散间隔,每一所述参考超空间对应的原点不同。
[0146]
如图3所示,其中,a空间即为图2所示的目标超空间,b1空间和b2空间是与该图2所示的目标超空间对应的参考超空间,为便于表示将b1空间和b2空间采用图3中所示表示,b1空间和b2空间的原点位置相对于目标超空间的原点存在偏移,但b1空间和b2空间中均存在与a空间对应的位置。
[0147]
如图3所示,参考超空间b1对应的离散间隔和参考超空间b2对应的离散间隔均大于目标超空间对应的离散间隔,例如,可以根据目标超空间中每一维度下对应的离散间隔设置对应的参考超空间对应的离散间隔,其可以相同也可以不同,可以根据实际使用需求进行设置。
[0148]
相应地,所述根据所述交互样本,对所述参数确定模型中所述策略参数组合对应的状态价值进行更新的示例性实现方式如下,该步骤可以包括:
[0149]
根据所述采样取值组合,确定所述采样取值组合在每一所述参考超空间中所属的参考取值空间,以及所述采样取值组合在所述目标超空间中所属的待更新取值空间。
[0150]
根据所述优化特征参数,对每一所述参考取值空间的状态价值进行更新。
[0151]
其中,确定采样取值组合在每一超空间中所属的取值空间,并对该取值空间的状态价值进行更新的方式已在上文进行详述,在此不再赘述。
[0152]
之后,则可以根据更新后的每一所述参考超空间对应的状态价值,对所述待更新取值空间的状态价值进行更新。
[0153]
通过上述技术方案,可以基于多个参考超空间对目标超空间对应的状态价值进行更新,并且,由于每一所述参考超空间中的取值空间对应的离散间隔大于所述目标超空间中的取值空间对应的离散间隔,使得参考超空间中确定参考取值空间对应的状态价值的计算效率更高,一方面可以在一定程度上提高目标超空间对应的状态价值的更新效率,另一方面,基于多个参考超空间对应目标超空间进行融合表示,也可以在一定程度上提高确定出的策略参数组合对应的状态价值的准确性,为后续确定目标取值组合提供准确的数据支持,提高深度强化学习模型中的策略参数的优化,从而可以提高深度强化学习模型中的策略优化的效率。
[0154]
在一种可能的实施例中,所述根据更新后的每一所述参考超空间对应的状态价值,对所述待更新取值空间的状态价值进行更新的示例性实现方式如下,该步骤可以包括:
[0155]
确定所述待更新取值空间在每一所述参考超空间中对应的映射取值空间。
[0156]
其中,可以基于该每一参考超空间的原点与所述目标超空间的原点之间的偏移确定所述映射取值空间。其中,可以对目标超空间与参考超空间对应的坐标系进行转换而确定,坐标系转换的映射方式可以采用本领域中任一转换方式,在此不再赘述。
[0157]
示例地,如图3所示,目标超空间a中的待更新取值空间为c01,则其在参考超空间
b1中对应的参考取值空间为m1,在参考超空间b2中对应的参考取值空间为m2和m3。
[0158]
根据每一所述映射取值空间的状态价值,确定所述待更新取值空间的状态价值。
[0159]
示例地,可以将每一映射取值空间的状态价值的平均值确定所述待更新取值空间的状态价值。
[0160]
由此,通过上述技术方案,基于交互样本无需直接对策略参数组合对应的状态价值进行更新,而是基于交互样本对多个参考超空间对应的状态价值进行更新,从而可以基于目标超空间和参考超空间之间的映射关系,通过多个参考超空间对目标超空间进行融合表征,从而可以提高确定出的策略参数组合对应的状态价值的准确性,进一步提高后续确定出的策略参数取值的准确性。
[0161]
其中,为了提高策略参数的取值确定的效率,可以在所述交互样本的数量达到预设阈值时,针对每一所述交互样本,执行根据所述交互样本,对所述参数确定模型中所述策略参数组合对应的状态价值进行更新的步骤,其中,每一交互样本对应于策略参数在不同取值空间的取值,即可以同时基于多个交互样本对该策略参数组合对应的状态价值进行更新,基于每一交互样本的更新方式与上文所述相同,在此不再赘述。
[0162]
在该实施例中,在策略参数组合对应的状态价值更新后,可以重新计算每取值空间对应的分数,从而可以保证每一所述取值空间的分数的准确性,为确定目标空间提供准确的数据支持。
[0163]
在一可能的实施例中,所述根据所述策略参数组合对应的更新后的状态价值,从所述多个取值空间中确定目标空间的示例性实现方式如下,该步骤可以包括:
[0164]
首先,根据策略参数组合对应的更新后的状态价值,确定每一取值空间的目标分数,其中,该目标分数用于表征选择该取值空间的可靠程度。
[0165]
作为示例,所述根据策略参数组合对应的更新后的状态价值,确定每一取值空间的目标分数的示例性实现方式如下,该步骤可以包括:
[0166]
在所述策略参数组合对应的更新后的状态价值中,针对每一所述取值空间,将该取值空间的状态价值进行归一化处理后所得结果确定为该取值空间的价值分数。
[0167]
示例地,可以通过以下公式确定取值空间的价值分数s
i

[0168][0169]
其中,v
i
'用于表示当前的取值空间对应的最新的状态价值,μ(v')和σ(v')分别表示更新后的各个取值空间的状态价值对应的均值和标准差,即通过上述公式可以对每一取值空间的价值分数进行归一化处理。
[0170]
之后,针对每一所述取值空间,根据所述取值空间的价值分数和所述取值空间的命中次数,确定所述取值空间的目标分数,确定第i个取值空间的目标分数score
i
的公式如下:
[0171][0172]
其中,c为预先设置的常数,用于调节命中次数对目标分数的影响,mi为取值空间i的命中次数,j用于表示各个取值空间的下标。
[0173]
其中,如上文所述,在本公开实施例中可以通过该迭代更新的方式确定取值空间的状态价值,每一取值空间的状态价值初始为0,针对每一取值空间,在该根据策略参数组合的采样取值组合确定出待更新取值空间后,相应的待更新取值空间的状态价值会更新,除待更新取值空间之外的其他取值空间的状态价值则会保持不变。由此,在该实施例中,为了提高初始训练过程中的目标空间选择的多样性,在确定取值空间的分数时同时需要考虑该取值空间的命中次数,以降低历史命中的取值对目标空间的选择的影响程度。由上述可知,在该过程中,随着交互样本的增多,策略参数组合对应的状态价值越准确,且随着命中次数的增大,命中次数对目标分数的影响逐渐降低,从而可以使得在初始学习阶段提高目标空间选择的多样性和探索空间,在一定程度上提高确定出的目标取值组合的准确性,避免初始状态下的随机样本的过大影响,而在状态价值准确时,降低命中次数对目标空间选择的影响,以保证目标空间的选择对优化特征参数的正向优化调整。
[0174]
之后,则可以根据每一取值空间的目标分数,从多个取值空间中确定目标空间。
[0175]
在一种可能的实施例中,该根据每一取值空间的目标分数,从多个取值空间中确定目标空间的步骤可以包括:
[0176]
将目标分数最大的取值空间确定为所述目标空间。
[0177]
在本公开实施例中,可以直接选择目标分数最大的取值空间作为该目标空间,从而可以有效保证从该目标空间中确定出的目标取值组合对深度强化学习模型优化的有效调整,提高深度强化学习模型优化的效率。
[0178]
在另一种可能的实施例中,该根据每一取值空间的目标分数,从多个取值空间中确定目标空间的步骤可以包括:
[0179]
对所述多个取值空间对应的目标分数进行softmax处理,获得由所述多个取值空间的概率信息所形成的概率分布,并根据所述概率分布对所述多个取值空间进行采样,将采样获得的取值空间确定为所述目标空间。
[0180]
在该实施例中,为了进一步提高策略参数组合取值探索的多样性,可以基于softmax函数对各个取值空间的状态价值进行映射,以将其映射为0

1范围内的数值,作为该取值空间的概率信息,以获得该多个取值空间的概率分布。在基于概率分布进行采样时,概率信息较小的取值空间也会有被采样的可能,从而可以在一定程度上保证多个取值区间均存在被采样的可能性,避免确定出的目标空间为使得特征优化参数处于局部最优的参数的问题,避免深度强化学习模型的训练达到局部最优而停止训练,能够保证深度强化学习模型训练的准确性和鲁棒性。
[0181]
在一种可能的实施例中,所述策略参数组合的取值基于所述策略参数组合对应的参数确定模型和所述交互序列生成的交互样本进行更新的示例性实现方式如下,该步骤可以包括:
[0182]
在所述参数确定模型为多个的情况下,则针对每一所述参数确定模型,根据所述交互样本,对所述参数确定模型中所述策略参数组合对应的状态价值进行更新,其中,每一所述参数确定模型的学习率不同,在每一所述参数确定模型中、所述策略参数与所述策略参数组合对应的目标超空间中的维度一一对应,每一所述策略参数的参数空间在该策略参数对应的维度下被离散化为多个取值区间,以使得所述目标超空间被离散化为多个取值空间,且多个所述参数确定模型对应的所述多个取值空间划分相同。
[0183]
在该实施例中,可以采用多个参数确定模型确定该策略参数组合中每一所述策略参数的取值。示例地,可以随机初始化5个参数确定模型,并且预先设置该5个参数确定模型的学习率。在本公开中,每一参数确定模型的学习率不同,则在不同的参数确定模型基于同一交互样本进行学习时,可以在多种学习步长下对各自的参数进行调整,使得每一参数确定模型可以进行个性化学习,增加在基于每一参数确定模型确定策略参数组合对应取值时该多个参数确定模型的多样性,从而保证该多个参数确定模型在确定目标取值组合时考虑特征的全面性,提高目标取值组合的准确性。
[0184]
其中,在参数确定模型为多个时,针对每一参数确定模型,可以采用与上文所述同样的方式对该参数确定模型下策略参数组合对应的状态价值进行更新。需要进行说明的是,在采用上述所述方式对策略参数组合对应的状态价值进行更新时,每一所述参数确定模型中均是采用该参数确定模型对应的学习率进行更新。
[0185]
针对每一所述参数确定模型,根据该参数确定模型中所述策略参数组合对应的更新后的状态价值,从所述多个取值空间中确定候选空间。
[0186]
其中,在所述参数确定模型为多个时,每一参数确定模型确定候选空间的具体实现方式,与上文所述在参数确定模型为一个时,该参数确定模型从多个取值空间中确定目标空间的确定方式类似,在此不再赘述。
[0187]
根据每一所述参数确定模型确定出的所述候选空间,确定目标空间。
[0188]
示例地,该步骤可以包括:
[0189]
针对每一所述候选空间,获取确定所述候选空间的参数确定模型的数量。
[0190]
将所述数量最大的候选空间确定为所述目标空间。
[0191]
如上文所述取值空间可以为c00

c23,参数确定模型为5个,例如m1

m5,示例地,m1确定出的候选空间为c00、c01,m2确定出的候选空间为c00、c10,m3确定出的候选空间为c10、c01,m4确定出的候选空间为c00、c01,m5确定出的候选空间为c11、c01。则在该实施例中可以分别获取确定候选空间的参数确定模型的数量,如,针对候选空间c00,其对应的参数确定模型为m1、m2和m4,即候选空间c00对应的数量为3。针对其他候选空间,采样同样的方式进行确定。之后,则可以将对应的数量最多的候选空间确定为目标空间,即被最多的参数确定模型确定出的取值空间。如上述示例,该目标空间为取值空间c01。
[0192]
由此,在上述技术方案中,可以基于多个参数确定模型选择的候选空间确定出目标空间,一方面可以避免单模型选择目标空间的偏差性,另一方面该多个参数确定模型的学习率不同,确定候选空间的方式可能不同,由此可以保证该多个参数确定模型的多样性,进而提高确定目标空间时所考虑特征的全面性和多样性,保证目标空间准确性的同时拓宽策略参数组合对应的取值的探索空间。
[0193]
之后,根据所述目标空间确定所述策略参数组合对应的目标取值组合,并根据所述目标取值组合确定每一所述策略参数的取值。其中,该步骤的具体实现方式已在上文进行详述,在此不再赘述。
[0194]
由此,可以结合多个参数确定模型确定出的候选空间确定出目标空间,进而确定策略参数组合对应的取值,从而在保证策略参数组合对应的取值准确的同时,提高该目标取值与该深度强化学习模型的实际应用场景的匹配程度。另外,确定出的目标取值可以使得深度强化学习模型的优化特征参数更优,从而可以有效提高深度强化学习模型的训练效
率,以在一定程度上降低深度强化学习模型训练的迭代次数,提高深度强化学习模型的收敛效率。
[0195]
在一种可能的实施例中,所述方法还可以包括:
[0196]
在所述交互样本的数量达到数量阈值的情况下,获取用于确定所述策略参数组合的新的参数确定模型。其中,该数量阈值可以根据实际使用场景进行设置,本公开对此不进行限定。示例地,该新的参数确定模型可以是新初始化的参数确定模型,该新的参数确定模型中的模型参数为随机初始化的取值。
[0197]
之后,以所述新的参数确定模型替换所述用于确定所述策略参数组合的多个参数确定模型中使用时长最长的参数确定模型。
[0198]
作为示例,可以记录每一参数确定模型的初始使用时间,则可以将初始使用时间最早的模型确定为该使用时间最长的参数确定模型。作为另一示例,可以将该多个参数确定模型的标识信息通过队列进行存储,该队列可以为一fifo(first input first output,先入先出)队列,则在进行参数确定模型的替换时,直接将处于队列队首的标识信息的参数确定模型删除,并将该新的参数确定模型的标识信息添加至队尾。
[0199]
其中,在该实施例中,在交互样本的数量达到数量阈值时,表示该多个参数确定模型已经基于该部分交互样本进行了训练,该多个参数确定模型的参数已经进行了优化。此时,在基于该多个参数确定模型确定候选空间时,每一参数确定模型在确定时受历史的交互样本的影响较大。因此,在本公开实施例中,可以在历史的交互样本达到一定数量时,替换该多个参数确定模型中的使用时长最长的模型,即受历史的交互样本的影响最大的参数确定模型,从而既可以在一定程度上降低历史的交互样本的过大影响,保证策略参数组合的取值的探索多样性,同时在该多个参数确定模型中保留了部分已经进行参数优化的模型,从而可以保证最终确定出的目标空间的准确性。
[0200]
本公开还提供一种深度强化学习模型的训练装置,如图4所示,所述装置10包括:
[0201]
获取模块100,用于获取深度强化学习模型与虚拟环境交互所产生的交互序列,其中,所述交互序列包括多个采样数据,每一所述采样数据包括所述虚拟环境的第一状态、决策动作、以及在所述虚拟环境处于所述第一状态对应的状态下执行所述决策动作所得到的回报值;
[0202]
第一确定模块200,用于针对每一所述采样数据,确定所述深度强化学习模型的优势函数与该采样数据中的环境状态对应的优势函数值,以及在所述采样数据对应的决策策略下所述优势函数值的优势期望,其中,所述决策策略为基于所述优势函数和所述深度强化学习模型中多个具有关联关系的策略参数所形成的策略族函数确定出的;
[0203]
第二确定模块300,用于针对每一所述采样数据,根据所述采样数据、与所述采样数据对应的优势函数值、所述优势期望以及所述深度强化学习模型的状态值函数,确定所述采样数据对应的动作价值;
[0204]
第三确定模块400,用于基于所述动作价值确定所述深度强化学习模型的动作值函数的更新梯度信息;
[0205]
更新模块500,用于根据所述更新梯度信息对所述深度强化学习模型进行更新。
[0206]
可选地,所述策略参数包含策略熵参数以及与每一所述策略熵参数对应的权重参数;
[0207]
所述策略族函数通过以下方式确定:
[0208]
根据所述优势函数值与每一所述策略熵参数确定所述策略熵参数对应的子策略的子函数;
[0209]
将每一所述子函数进行softmax处理后得到的概率分布与该子函数对应的权重参数的乘积之和确定为所述策略族函数。
[0210]
可选地,所述第二确定模块包括:
[0211]
第一确定子模块,用于根据所述采样数据中的环境状态,确定所述状态值函数对应的状态价值;
[0212]
第二确定子模块,用于将所述优势函数值与所述优势期望之差确定为处理优势函数值;
[0213]
第三确定子模块,用于将所述处理优势函数值与所述状态价值之和确定为所述动作价值。
[0214]
可选地,所述第三确定模块包括:
[0215]
根据所述决策策略的更新梯度信息、和在所述决策策略下的动作价值与状态价值的差值在目标方向上的分量之差的期望值,确定所述动作值函数的更新梯度信息。
[0216]
可选地,所述深度强化学习模型中多个具有关联关系的策略参数组成为策略参数组合,所述策略参数组合的取值基于超参数确定模块进行确定,所述超参数确定模块基于所述策略参数组合对应的参数确定模型和所述交互序列生成的交互样本进行更新,所述交互样本中包含与所述交互序列对应的所述策略参数组合对应的采样取值组合和所述深度强化学习模型对应的优化特征参数,所述采样取值组合中包含每一所述策略参数对应的采样取值。
[0217]
可选地,所述超参数确定模块包括:
[0218]
第一更新子模块,用于在所述参数确定模型为一个的情况下,则根据所述交互样本,对所述参数确定模型中所述策略参数组合对应的状态价值进行更新,其中,所述策略参数与所述策略参数组合对应的目标超空间中的维度一一对应,每一所述策略参数的参数空间在该策略参数对应的维度下被离散化为多个取值区间,以使得所述目标超空间被离散化为多个取值空间;
[0219]
第四确定子模块,用于根据所述策略参数组合对应的更新后的状态价值,从所述多个取值空间中确定目标空间;
[0220]
第五确定子模块,用于根据所述目标空间确定所述策略参数组合对应的目标取值组合,并根据所述目标取值组合确定每一所述策略参数的取值。
[0221]
可选地,所述超参数确定模块包括:
[0222]
第二更新子模块,用于在所述参数确定模型为多个的情况下,则针对每一所述参数确定模型,根据所述交互样本,对所述参数确定模型中所述策略参数组合对应的状态价值进行更新,其中,每一所述参数确定模型的学习率不同,在每一所述参数确定模型中、所述策略参数与所述策略参数组合对应的目标超空间中的维度一一对应,每一所述策略参数的参数空间在该策略参数对应的维度下被离散化为多个取值区间,以使得所述目标超空间被离散化为多个取值空间,且多个所述参数确定模型对应的所述多个取值空间划分相同;
[0223]
第六确定子模块,用于针对每一所述参数确定模型,根据该参数确定模型中所述
策略参数组合对应的更新后的状态价值,从所述多个取值空间中确定候选空间;
[0224]
第七确定子模块,用于根据每一所述参数确定模型确定出的所述候选空间,确定目标空间;
[0225]
第八确定子模块,用于根据所述目标空间确定所述策略参数组合对应的目标取值组合,并根据所述目标取值组合确定每一所述策略参数的取值。
[0226]
可选地,所述深度强化学习模型用于对游戏人工智能进行训练,所述交互序列为在所述游戏人工智能在目标游戏的对局中进行采样获得的序列,所述虚拟环境为所述游戏人工智能在所述目标游戏中所处的训练环境。
[0227]
下面参考图5,其示出了适于用来实现本公开实施例的电子设备600的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
[0228]
如图5所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(rom)602中的程序或者从存储装置608加载到随机访问存储器(ram)603中的程序而执行各种适当的动作和处理。在ram 603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、rom 602以及ram 603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
[0229]
通常,以下装置可以连接至i/o接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
[0230]
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从rom 602被安装。在该计算机程序被处理装置601执行时,执行本公开实施例的方法中限定的上述功能。
[0231]
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd

rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其
中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。
[0232]
在一些实施方式中,客户端、服务器可以利用诸如http(hypertext transfer protocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“lan”),广域网(“wan”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
[0233]
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
[0234]
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取深度强化学习模型与虚拟环境交互所产生的交互序列,其中,所述交互序列包括多个采样数据,每一所述采样数据包括所述虚拟环境的第一状态、决策动作、以及在所述虚拟环境处于所述第一状态对应的状态下执行所述决策动作所得到的回报值;针对每一所述采样数据,确定所述深度强化学习模型的优势函数与该采样数据中的环境状态对应的优势函数值,以及在所述采样数据对应的决策策略下所述优势函数值的优势期望,其中,所述决策策略为基于所述优势函数和所述深度强化学习模型中多个具有关联关系的策略参数所形成的策略族函数确定出的;针对每一所述采样数据,根据所述采样数据、与所述采样数据对应的优势函数值、所述优势期望以及所述深度强化学习模型的状态值函数,确定所述采样数据对应的动作价值;基于所述动作价值确定所述深度强化学习模型的动作值函数的更新梯度信息;根据所述更新梯度信息对所述深度强化学习模型进行更新。
[0235]
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言——诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0236]
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注
意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0237]
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定,例如,获取模块还可以被描述为“获取深度强化学习模型与虚拟环境交互所产生的交互序列的模块”。
[0238]
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。
[0239]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd

rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0240]
根据本公开的一个或多个实施例,示例1提供了一种深度强化学习模型的训练方法,其中,所述方法包括:
[0241]
获取深度强化学习模型与虚拟环境交互所产生的交互序列,其中,所述交互序列包括多个采样数据,每一所述采样数据包括所述虚拟环境的第一状态、决策动作、以及在所述虚拟环境处于所述第一状态对应的状态下执行所述决策动作所得到的回报值;
[0242]
针对每一所述采样数据,确定所述深度强化学习模型的优势函数与该采样数据中的环境状态对应的优势函数值,以及在所述采样数据对应的决策策略下所述优势函数值的优势期望,其中,所述决策策略为基于所述优势函数和所述深度强化学习模型中多个具有关联关系的策略参数所形成的策略族函数确定出的;
[0243]
针对每一所述采样数据,根据所述采样数据、与所述采样数据对应的优势函数值、所述优势期望以及所述深度强化学习模型的状态值函数,确定所述采样数据对应的动作价值;
[0244]
基于所述动作价值确定所述深度强化学习模型的动作值函数的更新梯度信息;
[0245]
根据所述更新梯度信息对所述深度强化学习模型进行更新。
[0246]
根据本公开的一个或多个实施例,示例2提供了示例1的方法,其中,所述策略参数包含策略熵参数以及与每一所述策略熵参数对应的权重参数;
[0247]
所述策略族函数通过以下方式确定:
[0248]
根据所述优势函数值与每一所述策略熵参数确定所述策略熵参数对应的子策略的子函数;
[0249]
将每一所述子函数进行softmax处理后得到的概率分布与该子函数对应的权重参
数的乘积之和确定为所述策略族函数。
[0250]
根据本公开的一个或多个实施例,示例3提供了示例1的方法,其中,所述根据所述采样数据、与所述采样数据对应的优势函数值、所述优势期望以及所述深度强化学习模型的状态值函数,确定所述采样数据对应的动作价值,包括:
[0251]
根据所述采样数据中的环境状态,确定所述状态值函数对应的状态价值;
[0252]
将所述优势函数值与所述优势期望之差确定为处理优势函数值;
[0253]
将所述处理优势函数值与所述状态价值之和确定为所述动作价值。
[0254]
根据本公开的一个或多个实施例,示例4提供了示例1的方法,其中,所述基于所述动作价值确定所述深度强化学习模型的动作值函数的更新梯度信息,包括:
[0255]
根据所述决策策略的更新梯度信息、和在所述决策策略下的动作价值与状态价值的差值在目标方向上的分量之差的期望值,确定所述动作值函数的更新梯度信息。
[0256]
根据本公开的一个或多个实施例,示例5提供了示例1的方法,其中,所述深度强化学习模型中多个具有关联关系的策略参数组成为策略参数组合,所述策略参数组合的取值基于所述策略参数组合对应的参数确定模型和所述交互序列生成的交互样本进行更新,所述交互样本中包含与所述交互序列对应的所述策略参数组合对应的采样取值组合和所述深度强化学习模型对应的优化特征参数,所述采样取值组合中包含每一所述策略参数对应的采样取值。
[0257]
根据本公开的一个或多个实施例,示例6提供了示例5的方法,其中,所述策略参数组合的取值基于所述策略参数组合对应的参数确定模型和所述交互序列生成的交互样本进行更新,包括:
[0258]
在所述参数确定模型为一个的情况下,则根据所述交互样本,对所述参数确定模型中所述策略参数组合对应的状态价值进行更新,其中,所述策略参数与所述策略参数组合对应的目标超空间中的维度一一对应,每一所述策略参数的参数空间在该策略参数对应的维度下被离散化为多个取值区间,以使得所述目标超空间被离散化为多个取值空间;
[0259]
根据所述策略参数组合对应的更新后的状态价值,从所述多个取值空间中确定目标空间;
[0260]
根据所述目标空间确定所述策略参数组合对应的目标取值组合,并根据所述目标取值组合确定每一所述策略参数的取值。
[0261]
根据本公开的一个或多个实施例,示例7提供了示例5的方法,其中,所述策略参数组合的取值基于所述策略参数组合对应的参数确定模型和所述交互序列生成的交互样本进行更新,包括:
[0262]
在所述参数确定模型为多个的情况下,则针对每一所述参数确定模型,根据所述交互样本,对所述参数确定模型中所述策略参数组合对应的状态价值进行更新,其中,每一所述参数确定模型的学习率不同,在每一所述参数确定模型中、所述策略参数与所述策略参数组合对应的目标超空间中的维度一一对应,每一所述策略参数的参数空间在该策略参数对应的维度下被离散化为多个取值区间,以使得所述目标超空间被离散化为多个取值空间,且多个所述参数确定模型对应的所述多个取值空间划分相同;
[0263]
针对每一所述参数确定模型,根据该参数确定模型中所述策略参数组合对应的更新后的状态价值,从所述多个取值空间中确定候选空间;
[0264]
根据每一所述参数确定模型确定出的所述候选空间,确定目标空间;
[0265]
根据所述目标空间确定所述策略参数组合对应的目标取值组合,并根据所述目标取值组合确定每一所述策略参数的取值。
[0266]
根据本公开的一个或多个实施例,示例8提供了示例1

7中任一示例所述的方法,其中,所述深度强化学习模型用于对游戏人工智能进行训练,所述交互序列为在所述游戏人工智能在目标游戏的对局中进行采样获得的序列,所述虚拟环境为所述游戏人工智能在所述目标游戏中所处的训练环境。
[0267]
根据本公开的一个或多个实施例,示例9提供了一种深度强化学习模型的训练装置,所述装置包括:
[0268]
获取模块,用于获取深度强化学习模型与虚拟环境交互所产生的交互序列,其中,所述交互序列包括多个采样数据,每一所述采样数据包括所述虚拟环境的第一状态、决策动作、以及在所述虚拟环境处于所述第一状态对应的状态下执行所述决策动作所得到的回报值;
[0269]
第一确定模块,用于针对每一所述采样数据,确定所述深度强化学习模型的优势函数与该采样数据中的环境状态对应的优势函数值,以及在所述采样数据对应的决策策略下所述优势函数值的优势期望,其中,所述决策策略为基于所述优势函数和所述深度强化学习模型中多个具有关联关系的策略参数所形成的策略族函数确定出的;
[0270]
第二确定模块,用于针对每一所述采样数据,根据所述采样数据、与所述采样数据对应的优势函数值、所述优势期望以及所述深度强化学习模型的状态值函数,确定所述采样数据对应的动作价值;
[0271]
第三确定模块,用于基于所述动作价值确定所述深度强化学习模型的动作值函数的更新梯度信息;
[0272]
更新模块,用于根据所述更新梯度信息对所述深度强化学习模型进行更新。
[0273]
根据本公开的一个或多个实施例,示例10提供了一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理装置执行时实现示例1

8中任一示例所述方法的步骤。
[0274]
根据本公开的一个或多个实施例,示例11提供了一种电子设备,其中,包括:
[0275]
存储装置,其上存储有计算机程序;
[0276]
处理装置,用于执行所述存储装置中的所述计算机程序,以实现示例1

8中任一示例所述方法的步骤。
[0277]
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
[0278]
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的
子组合的方式实现在多个实施例中。
[0279]
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1