具有精确预测因子的支持向量逻辑回归方法及存储介质

文档序号:33273562发布日期:2023-02-24 19:05阅读:39来源:国知局
具有精确预测因子的支持向量逻辑回归方法及存储介质

1.本技术涉及数据挖掘中的监督学习技术领域,尤其是一种具有精确预测因子的支持向量逻辑回归方法及存储介质。


背景技术:

2.数据挖掘是基于统计学、机器学习、人工智能等的决策支持过程,伴随云计算的发展,通过数据挖掘后所获取的信息和知识,在商务管理、市场分析、生产控制、工程设计等领域中被广泛应用;其中逻辑回归(lr)作为一种广义的回归分析模型,在数据挖掘、疾病自动诊断、经济预测等领域中被频繁使用。然而,在多数实际生活情景中,回归分析的响应变量为模糊量,而非传统的二元变量,传统逻辑回归(lr)的使用受到了极大约束。
3.随着模糊数学研究的不断深入,模糊逻辑回归模型现已在模糊数据的实际应用中得到了快速发展。然而,过去的模糊逻辑回归模型均未能够在结果的有效性和精确性上有较大突破,未能较好地应用于处理生活中的模糊现象。其依赖于传统的线性逻辑回归,并使用传统的优化技术,如最小平方误差(lmse)、最小绝对偏差(lad)等算法来预估模型的组成部分,容易受到局部极值的影响。同时,忽略了观测数据可以通过函数映射进行建模,而这个函数可能是模型参数和预测值的非线性组合这一问题。


技术实现要素:

4.本技术的目的在于克服现有技术不足之处,提供一种具有精确预测因子的支持向量逻辑回归方法及存储介质。
5.第一方面,提供了一种具有精确预测因子的支持向量逻辑回归方法,包括:
6.构建输入数据集xi的矩阵a;
7.基于上述矩阵a构建非线性预测函数其中,和为模糊系数;
8.根据上述非线性预测函数构建出三个支持向量回归模型;
9.对上述三个支持向量回归模型进行模型参数求解;
10.对上述三个支持向量回归模型进行误差检验和预测性能检验。
11.进一步的,所述构建输入数据的矩阵a包括以下步骤:
12.构建噪声损坏的训练集合其中,xi∈rn,xi对应的观测值对应的观测值为第i次观察成功的可能性;
13.将输入值xi排列在n行m列的矩阵a中,其中,第i行的值为
14.将作为观察模糊值的向量。
15.进一步的,所述构建非线性预测函数包括以下步骤:
16.获取核矩阵k(a,a
t
),使得(k(a,a
t
))
ij
=k(xi,xj);
17.响应于x∈rm,则以k(x,a
t
)=(k(x,x1),

,k(x,xm))为行向量;
18.构建非线性预测函数
[0019][0020][0021]
其中,w=(w1,

,wm)
t
,lw=(l
w1
,l
w2

,l
wm
)
t
,rw=(r
w1
,r
w2

,r
wm
)
t

[0022][0023]
进一步的,支持向量回归模型的构建包括以下步骤:
[0024]
响应于k(a,a
t
)为正数,则上述非线性预测函数等价于(f(x);l
f(x)
;r
f(x)
)
t
=(k(x,a
t
)w+b;k(x,a
t
)lw+lb;k(x,a
t
)rw+rb)
lr
,以得出三个支持向量回归模型:
[0025]
v=f(x)=k(x,a
t
)w+b
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0026]
lv=l
f(x)
=k(x,a
t
)lw+lbꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0027]rv
=r
f(x)
=k(x,a
t
)rw+rbꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)。
[0028]
进一步的,所述模型参数求解包括以下步骤:
[0029]
采用三阶段优化算法模糊系数;
[0030]
在目标函数值最小时分析基于散点图的模糊响应估计值
[0031][0032][0033][0034]
估计普通支持向量回归模型的未知系数和回归分量的值;
[0035]
通过指数网格搜索在集合{10-5
,10-4
,

,104,105}中搜索上述支持向量算法中正则化参数c,c
l
,cr的最佳值,以得出改进后的支持向量回归模型。
[0036]
进一步的,所述三阶段优化算法中所用核函数k(x)为epanechnikov核函数,其表达式如下:
[0037][0038]
进一步的,所述误差检验包括:
[0039]
均方根误差检验,
[0040]
平均绝对相对误差检验,
[0041]
相似性度量检验,
[0042]
其中,∩,∪表示模糊数字空间上的交集与并集,card(s)表示有限集合s中元素的个数。
[0043]
进一步的,所述预测性能检测包括:
[0044]
通过sugeno模糊模型对模糊响应和基于散点图的模糊响应估计值之间的关系去模糊化得到对应精确值和
[0045]
当和的值越接近,则模型的预测性能越高。
[0046]
第二方面,所述计算机可读介质存储用于设备执行的程序代码,该程序代码包括用于执行如第一方面中任一实现方式所述方法的步骤。
[0047]
第三方面,一种电子设备,其特征在于,所述电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面中任一实现方式所述方法的步骤。
[0048]
本技术具有如下有益效果:基于核函数的支持向量逻辑回归方法,能够以简单快速的算法处理复杂的非线性逻辑回归问题,结合精确预测变量和模糊响应所提出的模糊支持向量逻辑回归模型,具有相对较高的拟合优度标准,并减少了孤立点对模糊预测的影响,并通过测量分类置信度,来提高预测精度。
附图说明
[0049]
构成本技术的一部分的附图用于来提供对本技术的进一步理解,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。
[0050]
为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0051]
图1是本技术实施例一的具有精确预测因子的支持向量逻辑回归方法的流程图;
[0052]
图2是本技术实施例一的具有精确预测因子的支持向量逻辑回归方法中列出的100名受试者的统计图;
[0053]
图3是本技术实施例一的具有精确预测因子的支持向量逻辑回归方法中的模糊语言术语集图;
[0054]
图4是本技术实施例一的具有精确预测因子的支持向量逻辑回归方法中检测异常值的的散点图;
[0055]
图5是本技术实施例一的具有精确预测因子的支持向量逻辑回归方法中和值与其他模糊回归方法的比较图;
[0056]
图6是本技术实施例一的具有精确预测因子的支持向量逻辑回归方法中模糊语言术语集及其对应的的统计图;
[0057]
图7是模型的估计模糊系数及其性能度量对应于所提方法和一些常见的模糊逻辑
回归模型图。
具体实施方式
[0058]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0059]
实施例一
[0060]
本技术实施例一所涉及的一种具有精确预测因子的支持向量逻辑回归方法,包括:构建输入数据集xi的矩阵a;基于上述矩阵a构建非线性预测函数根据上述非线性预测函数构建出三个支持向量回归模型;对上述三个支持向量回归模型进行模型参数求解;对上述三个支持向量回归模型进行误差检验和预测性能检验。
[0061]
具体的,图1示出了申请实施例一中的具有精确预测因子的支持向量逻辑回归方法的流程图,具体包括以下步骤:
[0062]
s101、构建输入数据集xi的矩阵a;
[0063]
具体的,所述构建输入数据的矩阵a包括以下步骤:
[0064]
构建噪声损坏的训练集合其中,xi∈rn,xi对应的观测值对应的观测值为第i次观察成功的可能性;
[0065]
将输入值xi排列在n行m列的矩阵a中,其中,第i行的值为
[0066]
将作为观察模糊值的向量。
[0067]
示例性的,图2中列出了100名受试者的年龄(以岁为单位),以及是否存在购买可能的证据,该表还包含一个识别变量id和一个年龄组变量x2,通过计算获得对应的模糊响应观测向量从而获得一个噪声损坏的训练集合其中对于每一个输入值xi∈rn,其对应的观测值结果变量为“购买”,根据一些语言术语进行编码,如极低(vl)、低(sl)、低低(l)、稍低(all)、中(m)、稍高(alh)、高(h)、一些高(sh)和非常高(vh),这些语言术语如图2所示,其隶属函数如图3所示,模糊语言术语集及其对应的如图6所示。
[0068]
s102、基于上述矩阵a构建非线性预测函数
[0069]
示例性的,为了简化模糊数的表示和处理,这里使用一种lr型糊数的函数参数形式,定义如下:
[0070][0071]
其中,a∈r,la(》0)和ra(《0)分别被称为的平均值、左右扩展,函数l(或r)在r
+

[0,1]满足l(0)=1,l(1)=0且l(x)单调递减,且l(x)单调递减,进一步通过lr型中最常用的三角模糊数,即l(x)=r(x)=max{0,1,-x},处理数据集中的不精确性,所以可进一步表示为如下:
[0072][0073]
同时,当时,定义一些关于模糊集合的操作如下:
[0074][0075][0076]
具体的,引入核函数k(x),定义m阶核矩阵k(a,a
t
),使得(k(a,a
t
))
ij
=k(xi,xj),那么对于任意x∈rm,均具有k(x,a
t
)=(k(x,x1),

,k(x,xm))为行向量,因此,假设非线性预测函数非线性预测函数其中,和为模糊系数(未知的):
[0077][0078][0079]
其中,w=(w1,

,wm)
t
,lw=(l
w1
,l
w2

,l
wm
)
t
,rw=(r
w1
,r
w2

,r
wm
)
t

[0080][0081]
s103、根据上述非线性预测函数构建出三个支持向量回归模型;
[0082]
具体的,由于核矩阵k(a,a
t
)为正数,则上述非线性预测函数等价于(f(x);l
f(x)
;r
f(x)
)
t
=(k(x,a
t
)w+b;k(x,a
t
)lw+lb;k(x,a
t
)rw+rb)
lr
,因此可推出下述三个支持向量回归(svr)模型:
[0083]
v=f(x)=k(x,a
t
)w+b
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0084]
lv=l
f(x)
=k(x,a
t
)lw+lbꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0085]rv
=r
f(x)
=k(x,a
t
)rw+rbꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0086]
因此,具有一组训练集可以通过下述三阶段法求出未知模糊系数和
[0087]
s104、对上述三个支持向量回归模型进行模型参数求解;
[0088]
具体的,求出未知模糊系数和对模糊系数进行三阶段优化算法评估,即对所得的三个支持向量回归(svr)模型使用支持向量的方法(应用epanechnikov核函数)分析其对应基于散点图的模糊响应估计值
[0089][0090][0091][0092]
其中,c,c
l
,cr》0是正则化常数,lh表示绝对误差损失函数,定义如下:
[0093][0094]
其中,支持向量机(svm)可通过三阶段优化算法实现结构风险的最小化,来泛化受训练误差总和的限制,以近似回归分析中的函数关系。与传统的非线性回归模型相比,支持向量回归(svr)在异常值的鲁棒性上可以通过应用概率规则,使得在不同类型数据上训练的分类器进行组合;并通过测量分类置信度,来提高预测精度。
[0095]
借助数学软件估计普通svr模型的未知系数和回归分量,并使用指数网格搜索在集合{10-5
,10-4
,

,104,105}中搜索上述支持向量算法中正则化参数c,c
l
,cr的最佳值,从而得出改进后的支持向量回归(svr)模型,结果如表1所示。
[0096]
表1:
[0097]
[0098]
[0099]
[0100][0101]
其中,所述三阶段优化算法中所用核函数k(x)为epanechnikov核函数,其表达式如下:
[0102][0103]
s105、对上述三个支持向量回归模型进行误差检验和预测性能检验。
[0104]
具体的,所述误差检验包括:
[0105]
均方根误差(rmse)检验,
[0106]
平均绝对相对误差(mare)检验,
[0107]
相似性度量(msm)检验,
[0108]
其中,∩、∪表示模糊数字(fn)空间上的交集与并集,card(s)有限集合s中元素的个数,图7汇总了与每个核相关的估计模糊系数的值及其拟合优度标准;此外,图2中列出了与一些常见模糊逻辑回归模型(gao和lu、pourahmad等和namdari等)相关的估计的模糊系数和性能度量。
[0109]
所述预测性能检测包括:
[0110]
通过sugeno模糊模型对模糊响应和基于散点图的模糊响应估计值之间的关系去模糊化得到对应精确值和其中:
[0111][0112]
当和两者数值越接近,模型的预测性能越高,并采用拓展的库克距离准则来检验离群值,用对组内可能的离群值进行检验,若结果准确性较高,则表明flogsvr提供更准确的结果,则可进入方法实施阶段,对于该数据集,正如图4所观察到的,数据集包含一些潜在的异常值,将本方法与其他模糊回归模型进行比较,如图5所示(其中,图5包括:图5a、图5b、图5c和图5d),可以得出结论:用所提出的算法估计的m值更接近其相应的估计值,这些数字还表明,所提出的模糊逻辑回归模型的性能优于其他模型。
[0113]
本技术通过将具有精确预测变量和模糊响应的支持向量回归(svr)模型引入非线性(基于公共核函数)逻辑回归模型,提出一种具有精确预测因子的支持向量逻辑回归方
法,基于核函数的支持向量逻辑回归方法,能够以简单快速的算法处理复杂的非线性逻辑回归问题,结合精确预测变量和模糊响应所提出的模糊支持向量逻辑回归模型,具有相对较高的拟合优度标准,并减少了孤立点对模糊预测的影响,并通过测量分类置信度,来提高预测精度。
[0114]
实施例二
[0115]
本技术实施例三所涉及的一种计算机可读存储介质,所述计算机可读介质存储用于设备执行的程序代码,该程序代码包括用于执行如本技术实施例一中的任意一种实现方式中的方法;
[0116]
其中,计算机可读存储介质可以是只读存储器(read only memory,rom),静态存储设备,动态存储设备或者随机存取存储器(random access memory,ram);计算机可读存储介质可以存储程序代码,当计算机可读存储介质中存储的程序被处理器执行时,处理器用于执行如本技术实施例一中的任意一种实现方式中方法的步骤。
[0117]
实施例三
[0118]
本技术实施例四所涉及的一种芯片,所述芯片包括处理器与数据接口,所述处理器通过所述数据接口读取存储器上存储的指令,以执行如本技术实施例一中的任意一种实现方式中方法的步骤;
[0119]
其中,处理器可以采用通用的中央处理器(central processing unit,cpu),微处理器,应用专用集成电路(application specific integrated circuit,asic),图形处理器(graphics processing unit,gpu)或者一个或多个集成电路,用于执行相关程序,以实现本技术实施例一中的任意一种实现方式中的方法。
[0120]
处理器还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本技术实施例一中的任意一种实现方式中的方法的各个步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
[0121]
上述处理器还可以是通用处理器、数字信号处理器、专用集成电路(asic)、现成可编程门阵列(field programmable gatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成本技术实施例的数据处理的装置中包括的单元所需执行的功能,或者执行本技术实施例一中的任意一种实现方式中的方法。
[0122]
以上,仅为本技术较佳的具体实施方式;但本技术的保护范围并不局限于此。任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,根据本技术的技术方案及其改进构思加以等同替换或改变,都应涵盖在本技术的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1