一种异常数据智能筛选方法

文档序号:26737088发布日期:2021-09-22 22:23阅读:来源:国知局

技术特征:
1.一种异常数据智能筛选方法,其特征在于,包括如下步骤:步骤1)寻找数据集的中心数据,通过计算子元素与总体数据集之间的数据偏移量,寻找出偏移量最小的数据,即中心数据;步骤2)设置中心半径,以中心数据为圆心,寻找到一个合适的半径,使该圆所覆盖的数据数量为总体数据集的数据数量的一半;步骤3)数据标注,把圆所覆盖的数据,添加标注为0,表示数据正常;把圆没有覆盖的数据,添加标注为1,表示数据异常;步骤4)获取平衡数据集,从标注为0的数据集中随机抽取一半的数据,归入训练集,再从标注为1的数据集中随机抽取一半的数据,归入训练集,由此得到最终的训练数据集;把标注为0的数据集和标注为1的数据集剩下的各一半的数据归入测试集,由此得到测试数据集;步骤5)训练模型,采用pi

sigma高阶神经网络来训练模型,寻找到最优权向量及判断阈值;步骤6)判断异常数据结论,针对待判断的数据,输入训练好的pi

sigma神经网络中,计算出实际输出值,当实际输出值大于等于判断阈值时,判断该数据正常,无需做处理;当实际输出值小于判断阈值时,判断该数据异常。2.根据权利要求1所述的异常数据智能筛选方法,其特征在于,将数据处理对象,定义为数据集x,x=(x1,x2,

,x
i
,

,x
n
),其中,n为数据集x包含的数据个数,x
i
为数据集x中的第i个数据,x
i
为c
×
d的多维数据,当x
i
为一个数值时,c=d=1;设x的所有数据元素样本均值为μ,协方差矩阵为∑,x
i
的数据样本均值为μ
i
,协方差矩阵为∑
i
(μ,∑,μ
i
,∑
i
均可通过计算得出实际值)。3.根据权利要求1所述的异常数据智能筛选方法,其特征在于,所述步骤1)中,下面通过计算子元素x
i
与总体数据集x的偏移量,寻找出偏移量最小的数据,即寻找x的中心数据,x
i
与x的偏移量定义如下:σ
i
=(μ
i

μ)'(∑
i
)
‑1(μ
i

μ)然后寻找偏移量最小的数据,记为x0:x0={x
i
|min(σ
i
),i=1,2,

,n}x0即为x的中心数据,x0的数据元素个数为1个或者多个。4.根据权利要求1所述的异常数据智能筛选方法,其特征在于,所述步骤2)中,以x0的数据元素为圆心(当x0的数据元素个数为多个时,随机选取其中一个作为圆心),设置初始半径r0,计算1个或者多个圆(对应x0的数据元素个数)覆盖的数据数量:(1)当覆盖的数据数量大于[n/2](取整),缩小r0的值,进行寻找;(2)当覆盖的数据数量小于[n/2],扩大r0的值,进行寻找;(3)当覆盖的数据数量为[n/2],确定出中心半径r=r0,停止寻找。把圆所覆盖的所有数据集,记为:x
in
;把圆没有覆盖的所有数据集,记为:x
out
。5.根据权利要求1所述的异常数据智能筛选方法,其特征在于,所述步骤3)中,把x
in
里的数据元素,添加标注为0,表示数据正常;把x
out
里的数据元素,添加标注为1,表示数据异常;标注原则:把距x的中心数据较近的数据标注为0,其它较远的数据标注为1。6.根据权利要求1所述的异常数据智能筛选方法,其特征在于,所述步骤4)中,设训练数据集和测试数据集分别记为h0和h1,从x
in
中随机抽取一半的数据,归入h0,再从x
out
中随机
抽取一半的数据,归入h0,由此得到训练数据集h0;把x
in
和x
out
剩下的各一半的数据归入h1,由此得到测试数据集h1;h0=(x
0,1
,x
0,2
,

,x
0,j

,x
0,[n/2]
),其中,x
0,j
=(x
0,j,1
,x
0,j,2
,

,x
0,j,d
,

,x
0,j,d
),d为x
0,j
的数据维度,与x
i
一致,o
0,j
为x
0,j
对应的数据标注值;h1=(x
1,1
,x
1,2
,

,x
1,j

,x
1,n

[n/2]
),其中,x
1,j
=(x
1,j,1
,x
1,j,2
,

,x
1,j,d
,

,x
1,j,d
),d为x
1,j
的数据维度,与x
i
一致,o
1,j
为x
1,j
对应的数据标注值。7.根据权利要求1所述的异常数据智能筛选方法,其特征在于,所述步骤5)中,pi

sigma神经网络由一个输入层、一个隐含层和一个输出层组成,假设输入层、隐含层和输出层的神经元个数分别为n、k和1;输入样本x
m
=(x
m,1
,x
m,2
,

,x
m,n
‑1,x
m,n
)
t
,其中x
m,n


1是对应的阀值,相应的实际输出为y,理想输出为o,w
i,k
为第i个输入点与第k个求和层结点间的权值,w
k
=(w
1,k
,w
2,k
,

,w
i,k
,

,w
n

1,k
,w
n,k
)为输入层各结点与求和层k结点的权值向量,其中w
nk
=1,则求和层的h
k
为:设激活函数为f(x),这里取f(x)为sigmoid函数(1/1+e

x
),则对于样本集(y
j
,o
j
),网络实际输出为:网络误差函数取为传统的平方误差函数:使用梯度算法来训练pi

sigma神经网络,目的就是寻找到权值向量w
*
,使e(w)达到最小,即在使用训练数据集h0进行模型训练时:输入层的神经元个数为:n=d+1,即x
m
=(x
0,j
,

1)
t
;样本集(y
j
,o
j
)对应的理想输出o
j
为:o
j
=o
0,j
,j=[n/2];训练以前,对数据集h0进行归一化处理;通过数据集h0训练pi

sigma神经网络,找出最优权值向量w
*
;在使用测试数据集h1进行模型测试时:输入层、隐含层、输出层的神经元个数保持不变,权值向量为w
*
;样本集(y
j
,o
j
)对应的理想输出o
j
为:o
j
=o
1,j
,j=n

[n/2]。8.根据权利要求1所述的异常数据智能筛选方法,其特征在于,所述步骤6)中,针对任何一个数据x
i
,输入训练好的pi

sigma神经网络,对应的实际输出值为y
i
;当y
i
>=a
*
时,判断该数据x
i
正常,判断结束;当y
i
<a
*
时,判断该数据x
i
异常,把该数据自动提取处理,存储在计算机系统中,为下一
步的“数据治理”做准备。

技术总结
本发明公开了一种异常数据智能筛选方法,首先,寻找数据集的中心数据;其次,设置中心半径;第三,数据标注;第四,获取平衡数据集;第五,训练高阶神经网络模型;第六,判断异常数据结论。通过计算机系统把判断为异常的数据,自动提取并存储起来。该方法较之于传统的异常数据判别方法,是集判断、抽取、存储为一体的方法,计算简便,直观明了,数据标注原则明确,训练数据集和测试数据集的数据平衡性好,模型具有良好的非线性处理能力,判断结论明确。判断结论明确。判断结论明确。


技术研发人员:邓飞 何俊 洪孙焱 岳维好 陈震霆 石宝坤
受保护的技术使用者:昆明学院
技术研发日:2021.07.16
技术公布日:2021/9/21
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1