1.本发明涉及深度学习技术领域,尤其涉及一种热点文件边缘分发方法、装置、服务器及存储介质。
背景技术:2.在一般情况下,5g消息文件存放位置较为固定,无法根据文件的热度进行存放位置的自动调整,因此当某个文件有高并发读取时,容易导致文件下载时延加长,影响用户5g消息使用的感知,同时也无法对各文件存放服务器的资源均衡、充分利用。
技术实现要素:3.本发明的主要目的在于提出一种热点文件边缘分发方法、装置、服务器及存储介质,旨在解决如何提高文件存放服务器的资源均衡的技术问题。
4.为实现上述目的,本发明提供一种热点文件边缘分发方法,所述热点文件边缘分发方法包括以下步骤:
5.获取预设时间段内各个文件对应的文件状态和文件服务器的运行状态;
6.将所述文件状态以及运行状态进行归一化预处理,得到处理后的多状态时序数据;
7.将所述处理后的多状态时序数据通过多状态dqn的热点文件边缘分发模型进行评判,得到各个文件对应的边缘分发位置调整动作;
8.根据所述边缘分发位置调整动作调整所述文件对应的文件位置。
9.可选地,所述根据所述边缘分发位置调整动作调整所述文件对应的文件位置之前,还包括:
10.根据所述边缘分发位置调整动作判断所述文件对应的文件位置是否需要调整;
11.在所述文件对应的文件位置需要调整时,执行根据所述边缘分发位置调整动作调整所述文件对应的文件位置的步骤。
12.可选地,所述根据所述边缘分发位置调整动作调整所述文件对应的文件位置之后,还包括:
13.获取调整后的文件对应的文件状态以及文件服务器的运行状态;
14.根据所述调整后的文件对应的文件状态、文件服务器的运行状态以及边缘分发位置调整动作得到回报值;
15.通过所述回报值对所述多状态dqn的热点文件边缘分发模型进行更新。
16.可选地,所述根据所述调整后的文件对应的文件状态、文件服务器的运行状态以及边缘分发位置调整动作得到回报值,包括:
17.根据所述调整后的文件对应的文件状态、文件服务器的运行状态以及边缘分发位置调整动作通过q函数确定预设策略;
18.获取回报函数;
19.根据所述回报函数、所述预设策略、所述调整后的文件对应的文件状态、文件服务器的运行状态以及边缘分发位置调整动作得到回报值。
20.可选地,所述通过所述回报值对所述多状态dqn的热点文件边缘分发模型进行更新,包括:
21.根据所述回报值、所述调整后的文件对应的文件状态、文件服务器的运行状态以及边缘分发位置调整动作得到调整后的q值;
22.根据所述调整后的q值与目标q值确定调整误差;
23.根据所述调整误差对所述多状态dqn的热点文件边缘分发模型进行更新。
24.可选地,所述将所述处理后的多状态时序数据通过多状态dqn的热点文件边缘分发模型进行评判,得到各个文件对应的边缘分发位置调整动作之前,还包括:
25.获取历史文件状态集、文件服务器的历史运行状态集以及对应的历史文件分发动作集;
26.建立输入层、长短期记忆层、全连接层、合并层、随机舍弃层以及输出层;
27.根据所述输入层、长短期记忆层、全连接层、合并层、随机舍弃层以及输出层建立基于长短期记忆神经网络和全连接神经网络构成的评判模型;
28.将所述历史文件状态集、文件服务器的历史运行状态集以及对应的历史文件分发动作集输入所述评判模型进行训练,生成多状态dqn的热点文件边缘分发模型。
29.可选地,所述将所述历史文件状态集、文件服务器的历史运行状态集以及对应的历史文件分发动作集输入所述评判模型进行训练,生成多状态dqn的热点文件边缘分发模型,包括:
30.将所述历史文件状态集、文件服务器的历史运行状态集分别输入所述评判模型中的输入层和长短期记忆层进行特征提取,得到历史状态向量;
31.将所述历史文件分发动作集输入所述评判模型中的输入层和全连接层进行特征提取,得到历史动作向量;
32.将所述历史状态向量和历史动作向量通过合并层、全连接层以及随机舍弃层进行训练,输出历史文件分发动作对应的历史q值;
33.根据所述历史文件状态集中的历史文件状态、文件服务器的历史运行状态集中的历史运行状态以及对应的历史文件分发动作集中的历史文件分发动作确定历史回报值;
34.根据所述历史文件状态、历史运行状态、对应的历史文件分发动作以及历史回报值确定历史目标q值;
35.根据所述历史q值和历史目标q值对所述评判模型进行更新,生成多状态dqn的热点文件边缘分发模型。
36.此外,为实现上述目的,本发明还提出一种热点文件边缘分发装置,所述热点文件边缘分发装置包括:
37.获取模块,用于获取预设时间段内各个文件对应的文件状态和文件服务器的运行状态;
38.预处理模块,用于将所述文件状态以及运行状态进行归一化预处理,得到处理后的多状态时序数据;
39.评判模块,用于将所述处理后的多状态时序数据通过多状态dqn的热点文件边缘
分发模型进行评判,得到各个文件对应的边缘分发位置调整动作;
40.调整模块,用于根据所述边缘分发位置调整动作调整所述文件对应的文件位置。
41.此外,为实现上述目的,本发明还提出一种热点文件边缘分发服务器,所述热点文件边缘分发服务器包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的热点文件边缘分发程序,所述热点文件边缘分发程序配置为实现如上文所述的热点文件边缘分发方法。
42.此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有热点文件边缘分发程序,所述热点文件边缘分发程序被处理器执行时实现如上文所述的热点文件边缘分发方法。
43.本发明提出的热点文件边缘分发方法,通过获取预设时间段内各个文件对应的文件状态和文件服务器的运行状态;将所述文件状态以及运行状态进行归一化预处理,得到处理后的多状态时序数据;将所述处理后的多状态时序数据通过多状态dqn的热点文件边缘分发模型进行评判,得到各个文件对应的边缘分发位置调整动作;根据所述边缘分发位置调整动作调整所述文件对应的文件位置,从而根据采集的文件以及服务器的状态信息进行分发位置调整动作的决策,以对文件的分发进行灵活调整,避免固定的文件位置的存放导致服务器资源利用不均衡,提高服务器的充分利用。
附图说明
44.图1是本发明实施例方案涉及的硬件运行环境的热点文件边缘分发方法设备结构示意图;
45.图2为本发明热点文件边缘分发方法第一实施例的流程示意图;
46.图3为本发明热点文件边缘分发方法一实施例的热点文件分发的整体流程示意图;
47.图4为本发明热点文件边缘分发方法第二实施例的流程示意图;
48.图5为本发明热点文件边缘分发方法第三实施例的流程示意图;
49.图6为本发明热点文件边缘分发方法一实施例的多状态dqn的热点文件边缘分发模型网络示意图;
50.图7为本发明热点文件边缘分发装置第一实施例的功能模块示意图。
51.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
52.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
53.参照图1,图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。
54.如图1所示,该设备可以包括:处理器1001,例如cpu,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如按键,可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装
置。
55.本领域技术人员可以理解,图1中示出的热点文件边缘分发方法设备结构并不构成对热点文件边缘分发方法设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
56.如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及热点文件边缘分发方法程序。
57.在图1所示的热点文件边缘分发方法设备中,网络接口1004主要用于连接服务器,与服务器进行数据通信;用户接口1003主要用于连接用户终端,与终端进行数据通信;本发明热点文件边缘分发方法设备通过处理器1001调用存储器1005中存储的热点文件边缘分发方法程序,并执行本发明实施例提供的热点文件边缘分发方法。
58.基于上述硬件结构,提出本发明热点文件边缘分发方法实施例。
59.参照图2,图2为本发明热点文件边缘分发方法第一实施例的流程示意图。
60.在第一实施例中,所述热点文件边缘分发方法包括以下步骤:
61.步骤s10,获取预设时间段内各个文件对应的文件状态和文件服务器的运行状态。
62.需要说明的是,本实施例的执行主体可为热点文件边缘分发服务器,热点文件边缘分发服务器设有热点文件边缘分发方法程序,还可为其他可实现相同或相似功能的设备,本实施例对此不作限制,在本实施例中,以热点文件边缘分发服务器为例进行说明,在热点文件边缘分发上设有热点文件边缘分发应用程序,可根据热点文件边缘分发应用程序进行消息分发。
63.在本实施例中,文件状态包括文件被调用次数以及文件下载耗时等,文件服务器包括云服务器和边缘服务器,文件服务器状态包括平均每秒服务请求数和平均服务请求时延等,还可包括其他状态信息,本实施例对此不做限制,本实施例的应用场景为在5g消息文件存放时,由于5g消息文件存放位置较为固定,无法根据文件的热度进行存放位置的自动调整,因此当某个文件有高并发读取时,容易导致文件下载时延加长,影响用户5g消息使用的感知,同时也无法对各文件存放服务器的资源均衡和充分利用。因此本实施例利用深度强化学习dqn(deep q-network)在处理高维状态和离散动作上的优势,在现有dqn模型基础上加入多对象状态,多对象状态包括5g消息文件状态以及各云端服务器、各边缘服务器的状态,通过学习多对象状态将5g消息文件分发至最佳的服务器位置,从而最大化用户下载5g消息文件体验,其中,预设时间段可为10分钟,还可为其他参数,本实施例对此不做限制,预设时间段可根据需求进行灵活调整。
64.5g消息面向行业客户提供增强的个人与应用间消息服务,实现“消息即服务”,并且引入了新的消息交互模式chatbot聊天机器人,通过chatbot在消息窗口直观便捷地享受缴费充值、票务订购、酒店预订、物流查询、餐饮订座以及外卖下单等各类5g应用服务。其中chatbot是一种行业客户向终端用户提供的以对话形式呈现的服务,该服务通常基于人工智能软件,模拟人类智能对话,向用户提供特定服务功能。
65.5g消息业务基于终端原生短信入口,为用户提供文本、图片、音频、视频、位置以及联系人等媒体内容的发送和接收,包括点对点消息、群发消息、群聊消息以及点与应用间消息。相较于功能单一的传统短信,5g消息不仅拓宽了信息收发的广度,支持用户使用文本、音视频、卡片以及位置等多媒体内容,更延展了交互体验的深度,用户在消息窗口就能完成
服务搜索、发现、交互以及支付等业务,构建一站式服务的信息窗口。
66.5g消息系统,包括5g消息中心(5gmc)、maap系统(含maap平台管理模块和maap平台)及群聊服务器等设备。5g消息中心是5g消息业务的核心网元。它具有接入、路由模块及功能,作为整体虚拟化网络功能(virtualized network function,vnf)进行部署,又具备短消息中心的处理能力和外部接口。该网元将统一提供针对短消息和基础多媒体消息的处理、发送、存储和转发等功能;maap系统是行业5g消息业务的核心网元,该网元将为行业用户提供5g商业消息(maap)业务接入及消息上下行能力,为用户提供行业聊天机器人搜索、详情查询以及消息上下行等功能;群聊服务器为5g消息提供群聊功能,包括群聊消息收发以及群信息管理等功能。
67.5g消息应用开放平台可以帮助行业客户按需实现多场景的a2p沟通,企业可通过平台快速完成消息应用的部署,无需进行复杂的代码开发,帮助行业客户简单便捷的创建自己的5g消息应用。
68.由于5g消息热点文件和非热点文件的存放位置均为随机存放在多台云端服务器上,目前暂无针对5g消息热点文件的边缘分发方案,本实施例利用深度强化学习dqn(deep q-network)在处理高维状态和离散动作上的优势,在现有dqn模型基础上加入多对象状态,通过学习多对象状态将5g消息文件分发至最佳的服务器位置。
69.步骤s20,将所述文件状态以及运行状态进行归一化预处理,得到处理后的多状态时序数据。
70.在具体实现中,获取5g消息开放平台将最近t时间段内文件i状态,包括被调用次数和下载耗时,以及各云端服务器和边缘服务器状态,包括平均每秒服务请求数和平均服务请求时延,将文件i状态以及各云端服务器和边缘服务器状态输入至状态数据预处理模块进行时序数据归一化预处理,如图3所示的热点文件分发的整体流程示意图,将文件i状态以及各云端服务器和边缘服务器状态进行预处理,得到多状态时序数据,从而可根据多对象状态进行最佳服务器位置的确定,以提高消息存放的有效性。
71.步骤s30,将所述处理后的多状态时序数据通过多状态dqn的热点文件边缘分发模型进行评判,得到各个文件对应的边缘分发位置调整动作。
72.在具体实现中,将经过预处理的最近t时间段内文件i状态以及各文件服务器状态数据(state)输入至基于多状态dqn的5g消息热点文件边缘分发模型(agent),5g消息热点文件边缘分发模型利用长短期记忆神经网络分别提取文件i在最近t时间段内文件i状态以及各文件服务器状态的时序趋势特征,将抽取出的多状态特征合并为一个特征向量,经过多个全连接层和随机舍弃层后最终输出该5g消息文件边缘分发位置调整动作(action),从而根据多对象状态利用深度学习模型实现消息存储服务器位置的确定。
73.步骤s40,根据所述边缘分发位置调整动作调整所述文件对应的文件位置。
74.需要说明的是,文件状态以及服务器状态(state)包括第t个时间段z内用户对chatbot i下发的消息k使用数据;边缘分发位置调整动作,即行为(action)是t时刻选择的对应该消息用户使用数据的5g消息按钮设置修改动作,属于离散动作空间类型。模型选择的按钮优化动作通过5g消息开放平台实施后,5g消息终端用户使用状态由s
t
转换为s
t+1
。即根据文件状态和文件服务器的运行状态通过多状态dqn的热点文件边缘分发模型进行评判,得到文件存放最佳服务器的位置,根据文件存放最佳服务器的位置确定对应的边缘分
发位置调整动作,以将存放文件由原来的位置调整为最佳服务器存放位置,实现文件服务器资源的均衡。
75.在本实施例中,通过获取预设时间段内各个文件对应的文件状态和文件服务器的运行状态;将所述文件状态以及运行状态进行归一化预处理,得到处理后的多状态时序数据;将所述处理后的多状态时序数据通过多状态dqn的热点文件边缘分发模型进行评判,得到各个文件对应的边缘分发位置调整动作;根据所述边缘分发位置调整动作调整所述文件对应的文件位置,从而根据采集的文件以及服务器的状态信息进行分发位置调整动作的决策,以对文件的分发进行灵活调整,避免固定的文件位置的存放导致服务器资源利用不均衡,提高服务器的充分利用。
76.在一实施例中,如图4所示,基于第一实施例提出本发明热点文件边缘分发方法第二实施例,所述步骤s40之前,还包括:
77.步骤s401,根据所述边缘分发位置调整动作判断所述文件对应的文件位置是否需要调整。
78.在所述文件对应的文件位置需要调整时,执行步骤s40。
79.继续如图3所示,5g消息开放平台根据输出的动作与原有文件位置比较来判断文件位置是否需要调整,若与原有文件位置不同,则需实施调整动作,若与原有文件位置相同,则无需实施调整动作,并反馈动作实施后的文件服务器状态至5g消息开放平台。
80.在具体实现中,在通过多状态dqn的热点文件边缘分发模型进行评判,得到各个文件对应的边缘分发位置调整动作,根据边缘分发位置调整动作确定文件最佳分发的服务器的位置,将文件最佳分发的服务器的位置与文件已存的服务器的位置进行比较,如果文件最佳分发的服务器的位置与文件已存的服务器的位置相同,则不需要进行调整,如果文件最佳分发的服务器的位置与文件已存的服务器的位置不相同,则实施该动作,调整文件存储的服务器,从而实现文件分发位置的灵活调整。
81.在一实施例中,所述步骤s40之后,还包括:
82.获取调整后的文件对应的文件状态以及文件服务器的运行状态;根据所述调整后的文件对应的文件状态、文件服务器的运行状态以及边缘分发位置调整动作得到回报值;通过所述回报值对所述多状态dqn的热点文件边缘分发模型进行更新。
83.在动作实施的t时间段后,5g消息开放平台根据调整后的文件i和各文件服务器的状态数据,计算回报函数;将回报函数的值反馈至5g消息热点文件边缘分发模型,模型根据此次回报值进行模型调优。使得5g消息文件分发至最佳的服务器位置、最大化用户下载5g消息文件体验,其中,回报函数可由用户侧切片实例使用状态来决定,还可通过其他方式确定,本实施例对此不做限制,回报函数为常规的状态和动作组成的q函数,根据q函数组成的反映折算累计回报的期望,根据折算累计回报的期望与折算累计回报之间的对应的关系。
84.在具体实现中,根据所述根据所述调整后的文件对应的文件状态、文件服务器的运行状态以及边缘分发位置调整动作得到回报值,具体为根据所述调整后的文件对应的文件状态、文件服务器的运行状态以及边缘分发位置调整动作通过q函数确定预设策略;获取回报函数;根据所述回报函数、所述预设策略、所述调整后的文件对应的文件状态、文件服务器的运行状态以及边缘分发位置调整动作得到回报值。
85.需要说明的是,所述强化学习(reinforcement learning)是一种重要的机器学习
方法,包含状态(state)、动作(action)、奖赏(reward)三个要素。智能体(agent)需要根据当前状态来采取动作,获得相应的奖赏之后,再去改进这些动作,使得下次再到相同状态时,智能体能做出更优的动作。q-learning是强化学习算法中value-based的算法,即关注点是训练一个评判器(critic)。q即为q(s,a)就是在某一时刻的s状态下(s∈s),采取动作a(a∈a)动作能够获得收益的期望,环境会根据agent的动作反馈相应的回报,用r表示。dqn(deep q-network)是将q-learning与深度学习相结合,用深度神经网络代表价值函数来预测q值,并通过不断更新神经网络从而学习到最优的行动路径。
86.dqn的目标是学习一个策略π,这个策略可以最大化t个时步的折算累积回报(discounted cumulative reward):γ表示折算因子,r表示单步奖励值,r表示最大化t个时步的折算累积回报,单步奖励值根据公式(一)得到折算累积回报;
[0087][0088]
q函数可定义为折算累积回报的期望,该期望是基于当前的状态和所选的动作,所有后续动作是根据策略π作出的:
[0089]qπ
(s,a)=e
s,a
[r];
ꢀꢀ
公式(二)
[0090]
需要找到使得q函数能取得最大值的策略:
[0091][0092]
dqn中有两个神经网络,一个为参数相对固定的网络target-net,用来获取q-目标(q-target)的数值,另一个为eval_net用来获取q-评估(q-eval)的数值。q值根据以下规则来更新:
[0093][0094]
状态(state)s
t
包括第t个时间段z内用户对chatbot i下发的消息k使用数据;行为(action)a
t
是t时刻选择的对应该消息用户使用数据的5g消息按钮设置修改动作,属于离散动作空间类型。模型选择的按钮优化动作通过5g消息开放平台实施后,5g消息终端用户使用状态由s
t
转换为s
t+1
;r(s
t
,c
t
,a
t
)函数是s
t
在条件c
t
下执行行为a
t
后,返回的单步奖励值,具体的奖励函数由用户侧切片实例使用状态s
t+1
来决定;r
t
是从当前状态直到将来某个状态,期间所有行为所获得奖励值的加权总和,即根据公式(三)确定策略π,然后根据公式(二)和策略π确定q值,根据q值以及公式(一)得到对应的回报值,从而根据回报值进行多状态dqn的热点文件边缘分发模型的更新。
[0095]
在具体实现中,通过所述回报值对所述多状态dqn的热点文件边缘分发模型进行更新,包括:根据所述回报值、所述调整后的文件对应的文件状态、文件服务器的运行状态以及边缘分发位置调整动作得到调整后的q值;根据所述调整后的q值与目标q值确定调整误差;根据所述调整误差对所述多状态dqn的热点文件边缘分发模型进行更新,其中,调整后的q值为q(s1,s2,s3,a),即多对象状态以及调整后的各个文件对应的边缘分发位置调整动作确定的,目标q值为根据多对象状态以及调整前的各个文件对应的边缘分发位置调整动作确定的,将调整后的此次动作选择的价值q(s1,s2,s3,a),将评判器输出的q值与目标q值qtarget(s1,s2,s3,a)进行比较并计算误差,将误差信号反馈至深度神经网络中,从而逐
渐提升模型准确率。
[0096]
在本实施例中,通过获取调整后的文件对应的文件状态以及文件服务器的运行状态;根据所述调整后的文件对应的文件状态、文件服务器的运行状态以及边缘分发位置调整动作得到回报值;通过所述回报值对所述多状态dqn的热点文件边缘分发模型进行更新,从而根据调整后的动作对应的回报值对多状态dqn的热点文件边缘分发模型进行更新,以提高模型的准确性。
[0097]
在一实施例中,如图5所示,基于第一实施例或第二实施例提出本发明热点文件边缘分发方法第三实施例,以第一实施例为例进行说明,所述步骤s30之前,还包括:
[0098]
步骤s301,获取历史文件状态集、文件服务器的历史运行状态集以及对应的历史文件分发动作集。
[0099]
在本实施例中,为了提高采样数据的准确定,对采样数据进行归一化处理,即将从5g消息开放平台中收集历史每隔t时间段内文件i状态(文件被调用次数、文件下载耗时)、各云端服务器和边缘服务器状态(平均每秒服务请求数、平均服务请求时延)、以及人工标注的对应文件状态和各服务器状态下的5g消息文件分发动作,作为总数据集,并对多状态时序数据进行归一化预处理。
[0100]
t时间段内文件i状态(s1):包含该文件被调用次数可表示为d1={d
11
、d
12
、d
13
、
…
、d
1t
},该文件下载耗时可表示为d2={d
21
、d
22
、d
23
、
…
、d
2t
};
[0101]
t时间段内各云端服务器状态(s2):包含平均每秒服务并发请求数(x1)可表示为x1={x
11
、x
12
、x
13
、
…
、x
1t
},平均并发服务请求时延(x2)可表示为x2={x
21
、x
22
、x
23
、
…
、x
2t
};
[0102]
t时间段内各边缘服务器状态(s3):包含平均每秒服务并发请求数(z1)可表示为z1={z
11
、z
12
、z
13
、
…
、z
1t
},平均并发服务请求时延(z2)可表示为z2={z
21
、z
22
、z
23
、
…
、z
2t
};
[0103]
对应文件状态和各服务器状态下的5g消息文件分发动作(a):包含m+n个动作,对应m个云端文件服务器和n个边缘文件服务器,。需要预先对所有的动作进行编码,动作的取值即为对应的编码。
[0104]
然后对所有属性作标准化处理:(x-mean)/std。计算时对每个维度分别进行,将数据按属性(按列进行)减去其均值,并除以其方差。标准化后将提升模型的收敛速度以及提升模型的精度。
[0105]
最后将总数据集划分为训练数据和测试数据,取整个数据集的80%为训练数据,剩余20%为测试数据。用训练集进行训练,用测试集来评价验证模型。
[0106]
步骤s302,建立输入层、长短期记忆层、全连接层、合并层、随机舍弃层以及输出层。
[0107]
搭建由长短期记忆神经网络和全连接神经网络构成的改进的评判器,来估算用于评价5g消息文件分发动作的q函数。将经过预处理的t时间段内文件i状态s1、云端服务器状态s2、边缘服务器状态s3和对应人工标注的该5g消息文件分发动作一同输入至基于多状态dqn的5g消息热点文件边缘分发模型,输出此次动作选择的价值q(s1,s2,s3,a),将评判器输出的q值与目标q值q
target
(s1,s2,s3,a)进行比较并计算误差,将误差信号反馈至深度神经网络中,从而逐渐提升模型准确率。
[0108]
步骤s303,根据所述输入层、长短期记忆层、全连接层、合并层、随机舍弃层以及输出层建立基于长短期记忆神经网络和全连接神经网络构成的评判模型。
[0109]
步骤s304,将所述历史文件状态集、文件服务器的历史运行状态集以及对应的历史文件分发动作集输入所述评判模型进行训练,生成多状态dqn的热点文件边缘分发模型。
[0110]
为了实现多状态dqn的热点文件边缘分发模型的搭建,如图6所述的多状态dqn的热点文件边缘分发模型网络示意图。
[0111]
分支1:输入t时间段内文件i状态(s1)的该文件被调用次数、该文件下载耗时,分别经过两层长短期记忆层(lstm),分别设置32以及16个神经元,激活函数均为“relu”,激活函数给神经元引入了非线性因素,使得神经网络可以任意逼近任何非线性函数,relu激活函数(the rectified linear unit):relu=max(0,x);
[0112]
分支2:输入t时间段内各云端服务器状态(s2)的平均每秒服务请求数、平均服务请求时延,分别经过两层长短期记忆层(lstm),分别设置32以及16个神经元,激活函数均为“relu”;
[0113]
分支3:输入t时间段内各边缘服务器状态(s3)平均每秒服务请求数、平均服务请求时延,分别经过两层长短期记忆层(lstm),分别设置32以及16个神经元,激活函数均为“relu”;
[0114]
分支4:输入对应文件状态和各服务器状态下的5g消息文件分发动作(a),经过两层全连接层(dense),分别设置16以及8个神经元,激活函数均为“relu”;
[0115]
然后通过合并层(merge)来合并经过特征提取的s1、s2、s3和a,并经过两个全连接层(dense),分别设置64以及32个神经元,激活函数为“relu”;分别在两个全连接层之后设置随机舍弃层(dropout):舍弃概率设置为0.2,将在训练过程中每次更新参数时按一定概率(20%)随机断开输入神经元,用于防止过拟合;
[0116]
输出层由1个全连接神经元组成,输出评判所选择的5g消息文件分发动作的q值,从而实现结合长短期记忆神经网络和全连接神经网络构成的多状态dqn的热点文件边缘分发模型的搭建。
[0117]
在一实施例中,所述步骤s304,包括:
[0118]
将所述历史文件状态集、文件服务器的历史运行状态集分别输入所述评判模型中的输入层和长短期记忆层进行特征提取,得到历史状态向量;将所述历史文件分发动作集输入所述评判模型中的输入层和全连接层进行特征提取,得到历史动作向量;将所述历史状态向量和历史动作向量通过合并层、全连接层以及随机舍弃层进行训练,输出历史文件分发动作对应的历史q值;
[0119]
根据所述历史文件状态集中的历史文件状态、文件服务器的历史运行状态集中的历史运行状态以及对应的历史文件分发动作集中的历史文件分发动作确定历史回报值;根据所述历史文件状态、历史运行状态、对应的历史文件分发动作以及历史回报值确定历史目标q值;根据所述历史q值和历史目标q值对所述评判模型进行更新,生成多状态dqn的热点文件边缘分发模型。
[0120]
在本实施例中,具体说明多状态dqn的热点文件边缘分发模型的训练。搭建由长短期记忆神经网络和全连接神经网络构成的改进的评判器,来估算用于评价5g消息文件分发动作的q函数,将经过预处理的t时间段内文件i状态s1、云端服务器状态s2、边缘服务器状态s3和对应人工标注的该5g消息文件分发动作一同输入至基于多状态dqn的5g消息热点文件边缘分发模型,输出此次动作选择的价值q(s1,s2,s3,a),将评判器输出的q值与目标q值qtarget
(s1,s2,s3,a)进行比较并计算误差,将误差信号反馈至深度神经网络中,从而逐渐提升模型准确率。
[0121]
训练的数据是从记忆库中随机提取的,记忆库记录着每一个状态下的行动、奖励、和下一个状态的结果(s,a,r,s')。记忆库的大小有限,当记录满了数据之后,下一个数据会覆盖记忆库中的第一个数据。使用经验回放来保存所有阶段的(s,a,r,s')到一个回放存储器中。当训练神经网络时,从其中随机小批量选取来更新,而不是使用最近的,从而解决了采样样本数据之间相互关联的问题,将大大提高系统的稳定性。
[0122]
为避免动作选取局限性,丰富数据收集,引入贪婪算法(epsilon greedy)来选取动作,同时在arg(maxq(s,a))中加入多对象状态:arg(maxq(s1,s2,s3,a))。以epsilon概率随机选取行动,以1-epsilon概率选取目前已知最优的行动。随着学习的不断深入,epsilon的值可以变得越来越小,学习的方式从充分探索转为深入的专研。
[0123]
具体训练过程为,用随机权重初始化q函数,使得目标q函数q
target
=q。在每一个回合的每一个时间步骤t下,给定一个初始化时间段t内5g消息文件i的状态s
1t
、云端服务器状态s
2t
、边缘服务器状态s
3t
,基于贪婪算法给出5g消息文件分发动作a
t
,得到回报r
t
并到达新的文件状态s
1(t+1)
、新的云端服务器状态s
2(t+1)
、新的边缘服务器状态
s3(t+1)
,将t时刻的(s
1t
,s
2t
,s
3t
,a
t
,r
t
,s
1(t+1)
,s
2(t+1)
,s
3(t+1)
)存入回放缓存中;从回放缓存中抽取出(s
1i
,s
2i
,s
3i
,a
t
,r
t
,s
1(i+1)
,s
2(i+1)
,s
3(i+1)
),计算目标值y=ri+maxq
target
(s
1(i+1)
,s
2(i+1)
,s
3(i+1)
,a),即根据所述历史文件状态、历史运行状态、对应的历史文件分发动作以及历史回报值确定历史目标q值,更新q函数神经网络的参数使q(s
1i
,s
2i
,s
3i
,ai)与目标值y越接近越好,将更新后的q函数神经网络权重赋给q
target
=q。
[0124]
误差计算方式如下:
[0125][0126]
模型将训练1000个回合,批处理大小设置为32(batch_size=32),回放缓存大小设置为50000。选择平均绝对值误差mse(mean squared error)作为损失函数即目标函数(loss='mse'),梯度下降优化算法选择adam优化器用于改善传统梯度下降的学习速度(optimizer='adam')。神经网络通过梯度下降,可以找到使目标函数最小的最优权重值,随着训练回合数的增加,训练误差也逐渐下降,模型逐渐收敛。离线训练完成后,将计算得出的神经网络权重导出,即得到多状态dqn的热点文件边缘分发模型。
[0127]
在本实施例中,通过历史文件状态集中的历史文件状态、文件服务器的历史运行状态集中的历史运行状态以及对应的历史文件分发动作集中的历史文件分发动作基于结合长短期记忆神经网络和全连接神经网络进行训练,以生成多状态dqn的热点文件边缘分发模型,实现模型的搭建和训练,由于采用多对象状态信息进行模型训练,从而提高模型的准确性。
[0128]
本发明进一步提供一种热点文件边缘分发装置。
[0129]
参照图7,图7为本发明热点文件边缘分发装置第一实施例的功能模块示意图。
[0130]
本发明热点文件边缘分发装置第一实施例中,该热点文件边缘分发装置包括:
[0131]
获取模块10,用于获取预设时间段内各个文件对应的文件状态和文件服务器的运
行状态。
[0132]
在本实施例中,文件状态包括文件被调用次数以及文件下载耗时等,文件服务器包括云服务器和边缘服务器,文件服务器状态包括平均每秒服务请求数和平均服务请求时延等,还可包括其他状态信息,本实施例对此不做限制,本实施例的应用场景为在5g消息文件存放时,由于5g消息文件存放位置较为固定,无法根据文件的热度进行存放位置的自动调整,因此当某个文件有高并发读取时,容易导致文件下载时延加长,影响用户5g消息使用的感知,同时也无法对各文件存放服务器的资源均衡和充分利用。因此本实施例利用深度强化学习dqn在处理高维状态和离散动作上的优势,在现有dqn模型基础上加入多对象状态,多对象状态包括5g消息文件状态以及各云端服务器、各边缘服务器的状态,通过学习多对象状态将5g消息文件分发至最佳的服务器位置,从而最大化用户下载5g消息文件体验,其中,预设时间段可为10分钟,还可为其他参数,本实施例对此不做限制,预设时间段可根据需求进行灵活调整。
[0133]
5g消息业务基于终端原生短信入口,为用户提供文本、图片、音频、视频、位置以及联系人等媒体内容的发送和接收,包括点对点消息、群发消息、群聊消息以及点与应用间消息。相较于功能单一的传统短信,5g消息不仅拓宽了信息收发的广度,支持用户使用文本、音视频、卡片以及位置等多媒体内容,更延展了交互体验的深度,用户在消息窗口就能完成服务搜索、发现、交互以及支付等业务,构建一站式服务的信息窗口。
[0134]
5g消息系统,包括5g消息中心(5gmc)、maap系统(含maap平台管理模块和maap平台)及群聊服务器等设备。5g消息中心是5g消息业务的核心网元。它具有接入、路由模块及功能,作为整体vnf进行部署,又具备短消息中心的处理能力和外部接口。该网元将统一提供针对短消息和基础多媒体消息的处理、发送、存储和转发等功能;maap系统是行业5g消息业务的核心网元,该网元将为行业用户提供5g商业消息(maap)业务接入及消息上下行能力,为用户提供行业聊天机器人搜索、详情查询以及消息上下行等功能;群聊服务器为5g消息提供群聊功能,包括群聊消息收发以及群信息管理等功能。
[0135]
5g消息应用开放平台可以帮助行业客户按需实现多场景的a2p沟通,企业可通过平台快速完成消息应用的部署,无需进行复杂的代码开发,帮助行业客户简单便捷的创建自己的5g消息应用。
[0136]
由于5g消息热点文件和非热点文件的存放位置均为随机存放在多台云端服务器上,目前暂无针对5g消息热点文件的边缘分发方案,本实施例利用深度强化学习dqn在处理高维状态和离散动作上的优势,在现有dqn模型基础上加入多对象状态,通过学习多对象状态将5g消息文件分发至最佳的服务器位置。
[0137]
预处理模块20,用于将所述文件状态以及运行状态进行归一化预处理,得到处理后的多状态时序数据。
[0138]
在具体实现中,获取5g消息开放平台将最近t时间段内文件i状态,包括被调用次数和下载耗时,以及各云端服务器和边缘服务器状态,包括平均每秒服务请求数和平均服务请求时延,将文件i状态以及各云端服务器和边缘服务器状态输入至状态数据预处理模块进行时序数据归一化预处理,如图3所示的热点文件分发的整体流程示意图,将文件i状态以及各云端服务器和边缘服务器状态进行预处理,得到多状态时序数据,从而可根据多对象状态进行最佳服务器位置的确定,以提高消息存放的有效性。
[0139]
评判模块30,用于将所述处理后的多状态时序数据通过多状态dqn的热点文件边缘分发模型进行评判,得到各个文件对应的边缘分发位置调整动作。
[0140]
在具体实现中,将经过预处理的最近t时间段内文件i状态以及各文件服务器状态数据(state)输入至基于多状态dqn的5g消息热点文件边缘分发模型(agent),5g消息热点文件边缘分发模型利用长短期记忆神经网络分别提取文件i在最近t时间段内文件i状态以及各文件服务器状态的时序趋势特征,将抽取出的多状态特征合并为一个特征向量,经过多个全连接层和随机舍弃层后最终输出该5g消息文件边缘分发位置调整动作(action),从而根据多对象状态利用深度学习模型实现消息存储服务器位置的确定。
[0141]
调整模块40,用于根据所述边缘分发位置调整动作调整所述文件对应的文件位置。
[0142]
需要说明的是,文件状态以及服务器状态(state)包括第t个时间段z内用户对chatbot i下发的消息k使用数据;边缘分发位置调整动作,即行为(action)是t时刻选择的对应该消息用户使用数据的5g消息按钮设置修改动作,属于离散动作空间类型。模型选择的按钮优化动作通过5g消息开放平台实施后,5g消息终端用户使用状态由s
t
转换为s
t+1
。即根据文件状态和文件服务器的运行状态通过多状态dqn的热点文件边缘分发模型进行评判,得到文件存放最佳服务器的位置,根据文件存放最佳服务器的位置确定对应的边缘分发位置调整动作,以将存放文件由原来的位置调整为最佳服务器存放位置,实现文件服务器资源的均衡。
[0143]
在本实施例中,通过获取预设时间段内各个文件对应的文件状态和文件服务器的运行状态;将所述文件状态以及运行状态进行归一化预处理,得到处理后的多状态时序数据;将所述处理后的多状态时序数据通过多状态dqn的热点文件边缘分发模型进行评判,得到各个文件对应的边缘分发位置调整动作;根据所述边缘分发位置调整动作调整所述文件对应的文件位置,从而根据采集的文件以及服务器的状态信息进行分发位置调整动作的决策,以对文件的分发进行灵活调整,避免固定的文件位置的存放导致服务器资源利用不均衡,提高服务器的充分利用。
[0144]
在一实施例中,所述调整模块40,还用于根据所述边缘分发位置调整动作判断所述文件对应的文件位置是否需要调整。
[0145]
在一实施例中,所述热点文件边缘分发装置还包括:更新模块;
[0146]
所述更新模块,用于获取调整后的文件对应的文件状态以及文件服务器的运行状态;
[0147]
根据所述调整后的文件对应的文件状态、文件服务器的运行状态以及边缘分发位置调整动作得到回报值;
[0148]
通过所述回报值对所述多状态dqn的热点文件边缘分发模型进行更新。
[0149]
在一实施例中,所述更新模块,还用于根据所述调整后的文件对应的文件状态、文件服务器的运行状态以及边缘分发位置调整动作通过q函数确定预设策略;
[0150]
获取回报函数;
[0151]
根据所述回报函数、所述预设策略、所述调整后的文件对应的文件状态、文件服务器的运行状态以及边缘分发位置调整动作得到回报值。
[0152]
在一实施例中,所述更新模块,还用于根据所述回报值、所述调整后的文件对应的
文件状态、文件服务器的运行状态以及边缘分发位置调整动作得到调整后的q值;
[0153]
根据所述调整后的q值与目标q值确定调整误差;
[0154]
根据所述调整误差对所述多状态dqn的热点文件边缘分发模型进行更新。
[0155]
在一实施例中,所述热点文件边缘分发装置还包括:模型建立模块;
[0156]
所述模型建立模块,用于获取历史文件状态集、文件服务器的历史运行状态集以及对应的历史文件分发动作集;
[0157]
建立输入层、长短期记忆层、全连接层、合并层、随机舍弃层以及输出层;
[0158]
根据所述输入层、长短期记忆层、全连接层、合并层、随机舍弃层以及输出层建立基于长短期记忆神经网络和全连接神经网络构成的评判模型;
[0159]
将所述历史文件状态集、文件服务器的历史运行状态集以及对应的历史文件分发动作集输入所述评判模型进行训练,生成多状态dqn的热点文件边缘分发模型。
[0160]
在一实施例中,所述模型建立模块,还用于将所述历史文件状态集、文件服务器的历史运行状态集分别输入所述评判模型中的输入层和长短期记忆层进行特征提取,得到历史状态向量;
[0161]
将所述历史文件分发动作集输入所述评判模型中的输入层和全连接层进行特征提取,得到历史动作向量;
[0162]
将所述历史状态向量和历史动作向量通过合并层、全连接层以及随机舍弃层进行训练,输出历史文件分发动作对应的历史q值;
[0163]
根据所述历史文件状态集中的历史文件状态、文件服务器的历史运行状态集中的历史运行状态以及对应的历史文件分发动作集中的历史文件分发动作确定历史回报值;
[0164]
根据所述历史文件状态、历史运行状态、对应的历史文件分发动作以及历史回报值确定历史目标q值;
[0165]
根据所述历史q值和历史目标q值对所述评判模型进行更新,生成多状态dqn的热点文件边缘分发模型。
[0166]
此外,为实现上述目的,本发明还提出一种热点文件边缘分发服务器,所述热点文件边缘分发服务器包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的热点文件边缘分发程序,所述热点文件边缘分发程序配置为实现如上文所述的热点文件边缘分发方法。
[0167]
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有热点文件边缘分发程序,所述热点文件边缘分发程序被处理器执行时实现如上文所述的热点文件边缘分发方法。
[0168]
由于本存储介质采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
[0169]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0170]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0171]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个计算机可读存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台智能终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
[0172]
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。