本发明属于数字通信,具体涉及一种基于异构用户缓存容量的非均匀文件流行度的编码缓存方法及方法。
背景技术:
1、空天地一体化网络由于其中继节点的存在,必须利用空间高度传输处理信息的优势。与传统地面平台相比,空中平台可以灵活部署,为大量物联网设备提供可靠的连接和高质量的服务。各种卫星、空中平台和地面站可以相互合作,实现空-天-地一体化网络。针对服务器与多个用户无噪相连的系统模型,提出中心化的编码缓存方案。该方案将传统缓存和编码技术相结合,合理设计缓存问题,使得服务器发送的信号能同时满足多个用户的请求,从而获得传统缓存方案所不具有的多播增益,有效降低总的传输时延;基于预测结果提出了结合监督学习和深度强化学习来进行缓存决策的方法。又提出了一种基于智能深度强化学习的内容预处理方案,该方案可以优化匹配系统用户中可用的通信资源和有限的缓存容量。综合考虑了内容预处理策略和多跳无线传输对内容预处理性能的影响,有效降低了系统延迟并且提高了可靠性。上述情况考虑的是服务器与用户通过无损链路直连的情况,实际上用户请求的文件可能会经过多跳路由之后才会由最近的基站发送给用户。
技术实现思路
1、针对现有技术缓存空间利用率低、链路负载过大的问题,本发明提出了一种基于异构用户缓存容量的非均匀文件流行度的编码缓存方法及系统。本发明先由用户节点请求源节点存储的文件;其次,对存储的文件加以预测得到每个文件的流行度分布情况,对所得流行度分布情况执行分组编码缓存得到文件集合;最终,将集合数作为输入参数,划分用户的存储空间,执行编码缓存方法后得到解码后的完整文件。
2、本发明采用以下技术方案:
3、一种基于异构用户缓存容量的非均匀文件流行度的编码缓存方法,包括以下步骤:
4、s1:源节点存储i个文件且文件格式为二进制比特流,该步骤主要用于为用户节点请求所需文件。
5、s2:将步骤s1请求的文件根据文件特征和历史信息执行流行度预测方法。其中,文件特征指文件本身的各种属性和特点,有助于识别、分类、管理和检索文件,流行度预测方法指用于预测某种事物在未来是否会受到大众欢迎或流行的技术。该步骤主要用于获取每个文件的流行度分布情况。
6、s3:将步骤s2所得流行度分布情况作为依据,即每个文件可能被用户请求的概率,执行分组编码缓存方法对存储的文件根据流行度分组,输出x个文件集合。该步骤主要用于获取分组后的文件集合。
7、s4:将步骤s3所得文件集合数作为输入参数,划分用户存储空间,执行非均匀文件流行度编码缓存方法,即受欢迎程度分布不均的文件编码缓存方法。用户节点可根据缓存的子文件和接收到的子文件部分解码出所需完整文件。该文件为本发明的最终结果,本发明可有效降低链路负载。
8、优选的,步骤s2所述的流行度预测方法,每个文件的流行度计算采用如下步骤实现:
9、s2.1:根据步骤s1所得请求文件获取用于训练的数据集并对数据集的数据预处理。数据类型部分处理流程为:针对文件标题字段,创建文本到数字的字典。其中,字典键位部分为文本,键值部分为数字,文件编码采用背景技术中的独热编码方法。
10、s2.2:根据步骤s2.1所得与处理数据使用knn方法预测文件流行度。设未知文件样本为w,已知样本为z。计算两者之间直线最短的距离,即欧氏距离s(w,z),表示为:
11、
12、其中,wi表示未知样本w的第i个元素,zi表示已知样本z的第i个元素。
13、据式(1)所得欧氏距离查询出与样本w欧式距离最近的k个样本,用y代表个体样本回归值,即查询得到的因变量预测值。目的是计算样本回归值均值表示为:
14、
15、s2.3:根据s2.2中得到的预测结果采用准确率acc,召回率re和f1分数指标来评估模型性能。给定训练集v={v1,v2,...,vn,},其中,正样本集为tp={tp1,tp2,...,tpk},负样本集为fp={fp1,fp2,...,fpn-k}。准确率为模型正确预测的样本占总样本数v的比例,表示为:
16、
17、其中,m表示实际为正样本集数据且被模型预测为正例的样本数量,即n表示实际为负例且被模型预测为负例的样本数量,即
18、召回率代表所有的实际正例中,模型正确预测的样本占比,表示为:
19、
20、其中,l表示实际为正样本集数据且被模型预测为正例的样本数量,即
21、f1分数代表综合考虑精确度和召回率的性能指标,表示为:
22、
23、其中,精确度pre表示被模型预测为正样本集数据的样本中实际为正样本集数据的比例,可表示为:
24、
25、其中,u代表实际为正样本集数据且被模型预测为正样本集数据的样本数量,即上述三个指标综合反映了模型性能。
26、优选的,步骤s3所述的分组编码缓存方法,文件流行度分组的计算采用如下步骤实现:
27、s3.1:根据步骤s2.2所获取的文件流行度分布情况,将服务器存储的i个文件划分为x个分组,分别以i1,i2,...,ic代表各个组内的文件数量,可表示有:
28、i1+i2+...+ix=i (7)
29、s3.2:根据s3.1所得分组,以第一个文件分组i1为例,其表示文件{1,2,...,i1}的集合,总数为i1;引入p表示文件流行度,对于每个文件的流行度,满足和的条件,即集合i1存储的流行度最高的文件,集合i1内部的文件流行度差异最多不超过两倍。与此类似,集合i2表示流行度第二高的文件集合。
30、优选的,步骤s4所述的非均匀文件流行度编码缓存方法,预存储和内容分发的计算采用如下步骤实现:
31、s4.1:根据步骤s3.2得到的文件分组情况划分用户缓存空间,每组文件分配对应的用户内存空间,单位为比特字节。
32、s4.2:根据步骤s4.1划分用户存储空间后对文件进行划分。设服务器内有i个文件,每个文件大小为g比特。有h个用户与服务器相连,每个用户的缓存空间大小为p∈[0,h]。采用中心化编码缓存,其指在中心化管理的架构下,对编码数据进行缓存的机制,可提高数据访问速度,减少重复计算或数据传输。每个文件被随机划分为比特且划分后的子文件大小不同,划分结果如下:
33、
34、其中,vh,{f}表示vh被存储在用户h的缓存中。每个用户随机缓存每个文件的比特,符合用户缓存空间大小。
35、s4.3:根据步骤s4.2中所得划分结果,系统用户在用户请求内容未知前提下,独立地从源节点中将部分子文件存储在自己的缓存空间中。每个用户可表示为qi,其中i∈{1,2,...,h},并且满足:
36、|qi|≤pg (9)
37、s4.4:根据步骤s4.3中所得缓存空间分布情况计算数据传输速率。设服务器与h个用户相连,服务器中存储有i个非均匀流行度的文件,即受欢迎程度分布不均的文件。设其大小为g比特,文件按照流行度划分为x组,分别为i1,i2,...,ic。每个用户的缓存空间大小为t比特,以ux表示第x个用户组。综上,不同文件具有不同的受欢迎程度的情况下数据传输速率v(t)表示为:
38、
39、其中,fx为超参数变量,满足可表示为:
40、
41、s4.5:根据步骤s4.3预存储的子文件部分和步骤s4.4所得数据传输速率,将服务器中剩余的子文件部分进行多播编码,数据发送到接收方,接收方可以是同一网络中的多个设备。设随机取用户子集|b|=t+1,源节点发射已编码的子文件以此满足该用户子集的请求。之后采用中心化编码缓存,不依赖于单一的中央服务器或管理机构,利用多个节点之间的协作和共享来实现缓存功能。依次取用户子集b的大小h={h,h-1,...,1}来满足不同大小用户子集的请求,以mh,b\{h}表示零比特填充后的子文件,源节点发送文件表示为:
42、
43、最终,用户根据所接收文件结合已缓存的子文件部分解码出完整文件。
44、本发明还公开了一种基于异构用户缓存容量的非均匀文件流行度的编码缓存系统,基于上述的方法,包括如下模块:
45、存储模块:源节点存储i个文件且文件格式为二进制比特流,用于为用户节点请求所需文件;
46、流行度预测模块:将存储模块请求的文件根据文件特征和历史信息执行流行度预测方法,用于获取每个文件的流行度分布情况;
47、分组编码缓存模块:将流行度预测模块所得流行度分布情况作为依据,即每个文件可能被用户请求的概率,执行分组编码缓存方法对存储的文件根据流行度分组,输出x个文件集合,用于获取分组后的文件集合;
48、非均匀文件流行度编码缓存模块:将分组编码缓存模块所得文件集合数作为输入参数,划分用户存储空间,执行非均匀文件流行度编码缓存方法,即受欢迎程度分布不均的文件编码缓存方法;用户节点根据缓存的子文件和接收到的子文件部分解码出所需完整文件。
49、本发明涉及的一些技术简介如下:
50、1.异构缓存容量
51、针对异构缓存容量的情况,用户的缓存容量大小可以表示为:
52、
53、其中,mmax表示最大用户缓存容量,γ为系统参数,满足条件0≤g≤1。
54、但是,当用户的缓存大小不同时,会产生不同大小的内容段。一种最简单的方法是在每个较短段的尾部填充无用的零位,以减少这种差异并采用编码传递方案。因此,在放置阶段,每个用户独立随机缓存每个文件的其中j∈{1,2,...,k2}。交付阶段采用去中心化零比特填充传输策略,中继节点hi在不同用户集合间依次创建编码多播机会,对每次用户集合,将较小的子文件进行零比特填充,使其和最大子文件大小相同,再经hi编码后广播给该中继节点下面的所有用户。广播的内容为:
55、
56、其中,为零比特填充后的子文件,每个子文件填充的零比特大小为
57、2.独热编码
58、独热编码,又称“one-hot编码”,使用状态寄存器来编码类型特征,通过将不同类别的数据编码,转化为稀疏矩阵。
59、其中,以“1”代表编码数据,“0”代表非编码数据。独热编码n个类别都会变成稀疏的n-1个0和1个1的向量。经过编码后的数据提高了模型的非线性表达能力且不用对参数做过多处理,编码后的数据矩阵相对维度较高且稀疏。
60、3.knn方法
61、knn是机器学习中有监督学习的一种分类方法,应用场景有字符识别、文本分类、图像识别等领域。
62、k最近邻分类方法,或者说邻近方法是数据挖掘分类技术中最简单的方法之一。所谓k最近邻就是k个最近的邻居的意思,指每个样本都可以用它最接近的k个邻近值来代表。近邻方法就是将数据集合中每一个记录进行分类的方法。