一种基于信息稀疏情形的混频预测方法、装置及设备

文档序号:32134367发布日期:2022-11-09 12:03阅读:44来源:国知局
一种基于信息稀疏情形的混频预测方法、装置及设备

1.本发明涉及数据信息稀疏的数据预测分析技术领域,尤其是涉及一种基于信息稀疏情形的混频预测方法、装置及设备。


背景技术:

2.随着数字经济及其技术的不断发展,现代预测分析系统的信息输入日趋多元化、复杂化。在复杂信息输入条件下,由于不同数据采集系统(如设备传感器、信息感知器、统计调查等)更新频率、更新时间不一致,经常会面临多频率数据输入问题。而对于冷启动情形,更新频率较低的数据采集系统(如统计调查)则难以提供信息稠密度符合分析要求的数据,即出现信息稀疏问题。
3.这类信息稀疏问题普遍存在于各类冷启动预测分析系统当中,如新建通讯基站载荷预测系统、新建医院访问人流量预测系统、普查期内高频经济预测分析系统等。
4.传统预测分析系统在处理此类存在信息稀疏问题的预测工作中,存在很多难以解决的困难。例如,观测数量过少,无法满足关键统计假设;指标信息量过低,导致传统数据分析系统无法准确预测等。


技术实现要素:

5.为解决现有技术的不足,实现长面板数据处理的同时,提高在高维数据分析中对稀疏信息进行预测的精度的目的,本发明采用如下的技术方案:一种基于信息稀疏情形的混频预测方法,包括如下步骤:步骤s1、对混频数据进行解析,整合不同类型数据;步骤s2、构建信息稀疏度准则并确定频率转化目标,包括如下步骤:步骤s21、根据用户检索数据,获得分析数据矩阵;步骤s22、设置信息稀疏度s,并按列计算分析数据矩阵中所有输入数据指标的信息稀疏度;步骤s23、设置信息稀疏度准则s,若s《s则进入步骤s3,否则直接进入步骤s4;步骤s3、对时间序列频率使用三次样条插值法对数据进行处理,对不满足稀疏度准则s的序列进行调整,并用插补后序列替换原数据矩阵中对应指标数据,形成分析数据集d;步骤s4、混合不同模型,对分析数据集d开展预测,利用赤池信息准则形成预测结果;步骤s5、对预测结果进行展示。
6.进一步地,所述步骤s1包括如下步骤:步骤s11、根据数据接入特征,构建结构化数据存储规范,解析不同文件,得到不同数据接入信息;步骤s12、设计内存指针,为不同数据接入信息划分存储区域;
步骤s13、确认数据索引位置,根据数据索引建立数据资料关联;步骤s14、设置索引检索规则,使未检索到的观测值为na,形成结构化数据库。
7.进一步地,所述步骤s3包括如下步骤:步骤s31、提取原始数据,获取特定区间的低频时间序列数据指标,将特定区间划分为子区间,每个子区间满足三次样条方程;步骤s32、计算子区间每个数据节点的步长;步骤s33、在三种边界条件下,将数据节点和指定的首位端点条件填充进矩阵方程;三种边界条件包括自然边界、固定边界和非扭结边界;步骤s34、解矩阵方程,求得二次微分值;步骤s35、由二次微分值得到样条插值函数的系数;步骤s36、根据系数,在每个子区间中,创建三次方程;步骤s37、使用三次方程对不满足稀疏度准则s的序列进行调整,并用插补后序列替换原数据矩阵中对应指标数据,形成分析数据集d。
8.进一步地,所述步骤s31中,提取原始数据,得到区间为[a,b]的低频时间序列数据指标x,把区间[a,b]分成k个区间[(x0,x1),(x1,x2),

,(x
k-1
,xk)],一共有k+1个节点,端点为x0=a,x1=b,每个子区间(xi,x
i+1
)上,s(x)=si(x)为一个三次样条方程,所有点满足插值条件s(xi)= y
i (i=0,1,

,k),除了两个端点,所有k-1个内部点的每个点都满足si(xi)= yi,si(x
i+1
)= y
i+1 (i=0,1,

,n-1);所述步骤s32中,步长为hi= x
i+1
‑ꢀ
xi;所述步骤s33中,第一边界条件为自然边界:指定端点二阶导数为0,设mi= s
’’i(xi),矩阵方程为:s
’’
(x0) =0= s
’’
(xn)第二边界条件为固定边界:指定端点一阶可导,数据两端节点的微分值已知,设为a和b,s
’0(x0) =a,s’n-1
(xn)=b,矩阵方程为:
第三边界条件为非扭结边界:强制第一个插值点的三阶导数值等于第二个点的三阶导数值,最后第一个点的三阶导数值等于倒数第二个点的三阶导数值,即s
’’’0(x0) = s
’’’1(x1),s
’’’
n-2
(x
n-1
)= s
’’’
n-1
(x
n-1
),矩阵方程为:所述步骤s34中,解矩阵方程,求得二次微分值m
i (i=0,1,

,n);所述步骤s35中:由mi得到样条插值函数的系数:得到样条插值函数的系数:得到样条插值函数的系数:得到样条插值函数的系数:所述步骤s36中:根据系数,在每个子区间xi≤x≤x
i+1
中,创建三次方程:gi(x)=ai+bi(x-xi)+ci(x-xi)2+di(x-xi)3所述步骤s37中,形成的分析数据集如下:

[0009]
进一步地,所述步骤s34中,系数矩阵为三对角矩阵,对系数矩阵进行lu分解,分解为单位下三角矩阵和上三角矩阵,即b=ax=(lu)x=l(ux)=ly其中,l表示下三角矩阵,u表示上三角矩阵。
[0010]
进一步地,所述步骤s4中,根据各模型赤池信息量指标aic,构建模型重要性指标ri,满足:其中,ri表示i模型的重要性指标;利用模型重要性指标构造重要性权重,其中:按照模型重要性指标对预测结果进行加权集成,输出预测结果,满足:其中表示不同模型的预测结果。
[0011]
进一步地,所述步骤s4中,使用lasso模型对分析数据集d进行回归预测,包括如下步骤:步骤s411、构建带惩罚项的损失函数,具体公式如下:l=(y-w
t
x)
t
(y-w
t
x)+λ||w||其中||w||为w的l1-范数,w=(w1,w2,

,wm)表示模型计算得到的的权重向量,y=(y1,y2,

,yn)表示,λ表示惩罚量,x为数据集d中x列的转置,满足:
步骤s412、使用坐标下降法对w进行求解;步骤s413、根据w求解结果,计算lasso模型预测值
l
y和赤池信息量
l
aic;所述步骤s4中,使用auto.arima模型对分析数据集d进行回归预测,包括:步骤s421、调用auto.arima算法包,构建arima模型,获得参数估计结果;步骤s422、根据参数估计结果,计算auto.arima模型预测值ay和赤池信息量aaic;所述步骤s4中,使用时序多元回归模型对分析数据集d进行回归预测,包括:步骤s431、依次计算解释变量x和被解释变量y之间的时序关联关系;步骤s432、使用最小二乘法估计回归参数;步骤s433、根据参数估计结果,计算时序多元回归模型预测值my和赤池信息量maic。
[0012]
进一步地,所述步骤s5中,存储预测结果,并转化为形状数据,并通过可视化技术进行展示,包括:步骤s51、创建结论数据表,包括三个字段,分别为日期索引、预测指标实际值和预测值;步骤s52、将预测结果存储到步骤s51所述数据表中,并提供api数据接口。
[0013]
一种基于信息稀疏情形的混频预测装置,用于执行所述的一种基于信息稀疏情形的混频预测方法,包括整合模块、频率转化目标确定模块、分析数据集生成模块、混合预测模块和展示模块;所述整合模块,对混频数据进行解析,整合不同类型数据;所述频率转化目标确定模块,构建信息稀疏度准则并确定频率转化目标,执行过程如下:根据用户检索数据,获得分析数据矩阵;设置信息稀疏度s,并按列计算分析数据矩阵中所有输入数据指标的信息稀疏度;设置信息稀疏度准则s,若s《s则进入步骤s3,否则直接进入步骤s4;所述分析数据集生成模块,对时间序列频率使用三次样条插值法对数据进行处理,对不满足稀疏度准则s的序列进行调整,并用插补后序列替换原数据矩阵中对应指标数据,形成分析数据集d;所述混合预测模块,用于混合不同模型,对分析数据集d开展预测,利用赤池信息准则形成预测结果;所述展示模块,用于预测结果的展示。
[0014]
一种基于信息稀疏情形的混频预测设备,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现所述的一种基于信息稀疏情形的混频预测方法。
[0015]
本发明的优势和有益效果在于:本发明解决了在复杂信息输入情形下,由于混频预测数据集中部分指标信息稀疏问题而导致传统预测分析系统难以给出准确预测结果的问题。在全面整合各类型数据输入的基础上,本发明使用通讯理论信息稠密度给出了相对客观的稀疏判断标准;同时,使用三次样条函数法提供了一种自动化的信息填充手段;接着,从截面、面板、时序分析三个视角,通过统计建模给出了冷启动情形下的预测结果;最后根据模型剩余信息量构建重要性测度
对预测结果进行集成,确保了预测结果的准确性、稳健性和公允性。
附图说明
[0016]
图1为本发明的一种基于信息稀疏情形的混频预测方法的流程图。
[0017]
图2为本发明实施例中一种基于信息稀疏情形的混频预测方法的流程图。
[0018]
图3为本发明实施例中基于时间序列数据的混频预测方法的三次样条插值结果图。
[0019]
图4为本发明实施例中基于时间序列数据的混频预测方法的lasso回归预测结果图。
[0020]
图5为本发明实施例中基于时间序列数据的混频预测方法的自回归预测结果图。
[0021]
图6为本发明实施例中基于时间序列数据的混频预测方法的时序多元回归预测结果图。
[0022]
图7为本发明实施例中基于时间序列数据的混频预测方法的一预测输出结果图。
[0023]
图8是本发明的一种基于信息稀疏情形的混频预测装置的结构示意图。
[0024]
图9是本发明的一种基于信息稀疏情形的混频预测设备的结构示意图。
具体实施方式
[0025]
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
[0026]
如图1所示,一种基于信息稀疏情形的混频预测方法,包括如下步骤:步骤s1、对混频数据进行解析,整合不同类型数据;如图2所示,本发明实施例中,编写结构化数据存储规范化代码,对文本文件、csv文件、xml文件、jason文件、html文件以及数据库文件进行解析,并汇总至结构化数据库;具体包括如下步骤:步骤s11、根据数据接入特征,编写结构化数据存储规范化特征代码,解析不同文件,得到不同数据接入信息,解析文件包括但不限于:文本文件、csv文件、xml文件、jason文件、html文件以及数据库文件;步骤s12、设计内存指针,为不同数据接入信息划分存储区域;步骤s13、确认数据索引位置,根据数据索引建立数据资料关联;步骤s14、设置索引检索规则,使未检索到的观测值为na,形成结构化数据库。
[0027]
步骤s2、构建信息稀疏度准则并确定频率转化目标,包括如下步骤:步骤s21、根据用户检索数据,获得分析数据矩阵:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,x表示用户指定的输入数据指标,y表示用户指定的待预测指标,m表示数据
集中的字段个数,n表示数据集中的观测数量;步骤s22、设置信息稀疏度s,并按列计算分析数据矩阵中所有输入数据指标的信息稀疏度,具体公式如下:其中为按照数据索引检索到的第j个指标的第i个数据观测值,即(1)中第i行第j列。n为最后一个观测的索引;步骤s23、设置信息稀疏度准则s(默认为1),若s《s则进入步骤s3,否则直接进入步骤s4。
[0028]
步骤s3、对时间序列频率使用三次样条插值法对数据进行处理,结果如图3所示,十字线表示三次样条的插值估计值,圆点线表示实际观测,处理方法包括如下步骤:步骤s31、提取原始数据,得到区间为[a,b]的低频时间序列数据指标x,把区间[a,b]分成k个区间[(x0,x1),(x1,x2),

,(x
k-1
,xk)],一共有k+1个点,端点为x0=a,x1=b,每个子区间(xi,x
i+1
)上,s(x)=si(x)为一个三次样条方程,所有点满足插值条件s(xi)= y
i (i=0,1,

,k),除了两个端点,所有k-1个内部点的每个点都满足si(xi)= yi,si(x
i+1
)= y
i+1 (i=0,1,

,n-1);步骤s32、计算每个数据节点的步长hi= x
i+1
‑ꢀ
xi;步骤s33、在三种边界条件下,将数据节点和指定的首位端点条件填充进矩阵方程。
[0029]
第一边界条件为自然边界:指定端点二阶导数为0,设mi= s
’’i(xi),矩阵方程为:s
’’
(x0) =0= s
’’
(xn)第二边界条件为固定边界:指定端点一阶可导,数据两端节点的微分值已知,设为a和b,s
’0(x0) =a,s’n-1
(xn)=b,矩阵方程为:
第三边界条件为非扭结边界:强制第一个插值点的三阶导数值等于第二个点的三阶导数值,最后第一个点的三阶导数值等于倒数第二个点的三阶导数值,即s
’’’0(x0) = s
’’’1(x1),s
’’’
n-2
(x
n-1
)= s
’’’
n-1
(x
n-1
),矩阵方程为:步骤s34、解矩阵方程,求得二次微分值m
i (i=0,1,

,n)。该矩阵为三对角矩阵,可以对系数矩阵进行lu分解,分解为单位下三角矩阵和上三角矩阵,即b=ax=(lu)x=l(ux)=ly其中,l表示下三角矩阵,u表示上三角矩阵;步骤s35、由mi得到样条插值函数的系数;得到样条插值函数的系数;得到样条插值函数的系数;得到样条插值函数的系数;步骤s36、在每个子区间xi≤x≤x
i+1
中,创建三次方程:gi(x)=ai+bi(x-xi)+ci(x-xi)2+di(x-xi)3步骤s37、使用三次方程对不满足稀疏度准则s的序列进行调整,并用插补后序列替换(1)中对应指标数据,形成分析数据集d,满足:

[0030]
步骤s4、混合不同模型开展预测,利用aic(akaike information criterion赤池信息准则)形成预测结果;步骤s41、使用lasso模型对分析数据集d进行回归预测,如图4所示,十字线表示预测值,实线表示实际值,包括:步骤s411、构建带惩罚项的损失函数,具体公式如下:l=(y-w
t
x)
t
(y-w
t
x)+λ||w||其中||w||为w的l1-范数,w=(w1,w2,

,wm)表示模型计算得到的的权重向量,y=(y1,y2,

,yn)表示,λ表示人为给定的惩罚量(默认为1),x为数据集d中“x列”的转置,满足:步骤s412、使用坐标下降法对w进行求解;步骤s413、根据w求解结果,计算lasso模型预测值
l
y和赤池信息量
l
aic。
[0031]
步骤s42、使用auto.arima模型对分析数据集d进行回归预测,如图5所示,包括:步骤s421、调用auto.arima算法包,构建arima模型,获得参数估计结果;步骤s422、根据参数估计结果,计算auto.arima模型预测值ay和赤池信息量aaic。
[0032]
步骤s43、使用时序多元回归模型对分析数据集d进行回归预测,如图6所示,包括:步骤s431、依次计算解释变量x和被解释变量y之间的时序关联关系;步骤s432、使用最小二乘法估计回归参数;步骤s433、根据参数估计结果,计算时序多元回归模型预测值my和赤池信息量maic;步骤s44、根据模型剩余信息量指标aic构建模型重要性指标ri,满足:其中,ri表示i模型的重要性指标,l,m,a分别表示lasso模型、多元时序回归模型和auto.arima模型;
步骤s45、利用模型重要性指标构造重要性权重(w
l
,wm,wa),其中:表1 各参数汇总结果步骤s46、按照模型重要性指标对预测结果进行加权集成,输出预测结果,满足:如表2所示,为三种预测模型的预测值,以及汇总预测的汇总预测值。
[0033]
表2 实际利用外资序列的预测结果步骤s5、存储预测结果,并转化为形状数据,并通过可视化技术进行展示,如图7所示,包括:步骤s51、创建结论数据表,包括三个字段,分别为date、y_act和y_pre,分别为日期索引、预测指标实际值和预测值;步骤s52、将预测结果存储到步骤s51所述数据表中,并提供api数据接口。
[0034]
如图8所示,一种基于信息稀疏情形的混频预测装置,用于执行所述的一种基于信息稀疏情形的混频预测方法,包括整合模块、频率转化目标确定模块、分析数据集生成模块、混合预测模块和展示模块;所述整合模块,对混频数据进行解析,整合不同类型数据;所述频率转化目标确定模块,构建信息稀疏度准则并确定频率转化目标,执行过
程如下:根据用户检索数据,获得分析数据矩阵;设置信息稀疏度s,并按列计算分析数据矩阵中所有输入数据指标的信息稀疏度;设置信息稀疏度准则s,若s《s则进入步骤s3,否则直接进入步骤s4;所述分析数据集生成模块,对时间序列频率使用三次样条插值法对数据进行处理,对不满足稀疏度准则s的序列进行调整,并用插补后序列替换原数据矩阵中对应指标数据,形成分析数据集d;所述混合预测模块,用于混合不同模型,对分析数据集d开展预测,利用赤池信息准则形成预测结果;所述展示模块,用于预测结果的展示。
[0035]
这部分内容实施方式与上述方法实施例的实施方式类似,此处不再赘述。
[0036]
与前述一种基于信息稀疏情形的混频预测方法的实施例相对应,本发明还提供了一种基于信息稀疏情形的混频预测设备的实施例。
[0037]
参见图9,本发明实施例提供的一种基于信息稀疏情形的混频预测设备,包括存储器和一个或多个处理器,存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例中的一种基于信息稀疏情形的混频预测方法。
[0038]
本发明一种基于信息稀疏情形的混频预测设备的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图9所示,为本发明一种基于信息稀疏情形的混频预测设备所在任意具备数据处理能力的设备的一种硬件结构图,除了图9所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
[0039]
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
[0040]
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0041]
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种基于信息稀疏情形的混频预测方法。
[0042]
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(smart media card,smc)、sd卡、闪存卡(flash card)等。进一步的,所述计算机可读存储
介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
[0043]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1