一种异常数据智能筛选方法

文档序号：26737088发布日期：2021-09-22 22:23阅读：来源：国知局

技术特征：
1.一种异常数据智能筛选方法，其特征在于，包括如下步骤：步骤1)寻找数据集的中心数据，通过计算子元素与总体数据集之间的数据偏移量，寻找出偏移量最小的数据，即中心数据；步骤2)设置中心半径，以中心数据为圆心，寻找到一个合适的半径，使该圆所覆盖的数据数量为总体数据集的数据数量的一半；步骤3)数据标注，把圆所覆盖的数据，添加标注为0，表示数据正常；把圆没有覆盖的数据，添加标注为1，表示数据异常；步骤4)获取平衡数据集，从标注为0的数据集中随机抽取一半的数据，归入训练集，再从标注为1的数据集中随机抽取一半的数据，归入训练集，由此得到最终的训练数据集；把标注为0的数据集和标注为1的数据集剩下的各一半的数据归入测试集，由此得到测试数据集；步骤5)训练模型，采用pi
‑
sigma高阶神经网络来训练模型，寻找到最优权向量及判断阈值；步骤6)判断异常数据结论，针对待判断的数据，输入训练好的pi
‑
sigma神经网络中，计算出实际输出值，当实际输出值大于等于判断阈值时，判断该数据正常，无需做处理；当实际输出值小于判断阈值时，判断该数据异常。2.根据权利要求1所述的异常数据智能筛选方法，其特征在于，将数据处理对象，定义为数据集x，x＝(x1,x2,
…
,x
i
,
…
,x
n
)，其中，n为数据集x包含的数据个数，x
i
为数据集x中的第i个数据，x
i
为c
×
d的多维数据，当x
i
为一个数值时，c＝d＝1；设x的所有数据元素样本均值为μ，协方差矩阵为∑，x
i
的数据样本均值为μ
i
，协方差矩阵为∑
i
(μ，∑，μ
i
，∑
i
均可通过计算得出实际值)。3.根据权利要求1所述的异常数据智能筛选方法，其特征在于，所述步骤1)中，下面通过计算子元素x
i
与总体数据集x的偏移量，寻找出偏移量最小的数据，即寻找x的中心数据，x
i
与x的偏移量定义如下：σ
i
＝(μ
i
‑
μ)'(∑
i
)
‑1(μ
i
‑
μ)然后寻找偏移量最小的数据，记为x0：x0＝{x
i
|min(σ
i
)，i＝1,2,
…
,n}x0即为x的中心数据，x0的数据元素个数为1个或者多个。4.根据权利要求1所述的异常数据智能筛选方法，其特征在于，所述步骤2)中，以x0的数据元素为圆心(当x0的数据元素个数为多个时，随机选取其中一个作为圆心)，设置初始半径r0，计算1个或者多个圆(对应x0的数据元素个数)覆盖的数据数量：(1)当覆盖的数据数量大于[n/2](取整)，缩小r0的值，进行寻找；(2)当覆盖的数据数量小于[n/2]，扩大r0的值，进行寻找；(3)当覆盖的数据数量为[n/2]，确定出中心半径r＝r0，停止寻找。把圆所覆盖的所有数据集，记为：x
in
；把圆没有覆盖的所有数据集，记为：x
out
。5.根据权利要求1所述的异常数据智能筛选方法，其特征在于，所述步骤3)中，把x
in
里的数据元素，添加标注为0，表示数据正常；把x
out
里的数据元素，添加标注为1，表示数据异常；标注原则：把距x的中心数据较近的数据标注为0，其它较远的数据标注为1。6.根据权利要求1所述的异常数据智能筛选方法，其特征在于，所述步骤4)中，设训练数据集和测试数据集分别记为h0和h1，从x
in
中随机抽取一半的数据，归入h0，再从x
out
中随机
抽取一半的数据，归入h0，由此得到训练数据集h0；把x
in
和x
out
剩下的各一半的数据归入h1，由此得到测试数据集h1；h0＝(x
0，1
,x
0，2
,
…
,x
0,j
…
,x
0,[n/2]
)，其中,x
0,j
＝(x
0,j,1
,x
0,j,2
,
…
,x
0,j,d
,
…
,x
0,j,d
)，d为x
0,j
的数据维度，与x
i
一致，o
0,j
为x
0,j
对应的数据标注值；h1＝(x
1，1
,x
1，2
,
…
,x
1,j
…
,x
1,n
‑
[n/2]
)，其中，x
1,j
＝(x
1,j,1
,x
1,j,2
,
…
,x
1,j,d
,
…
,x
1,j,d
)，d为x
1,j
的数据维度，与x
i
一致，o
1,j
为x
1,j
对应的数据标注值。7.根据权利要求1所述的异常数据智能筛选方法，其特征在于，所述步骤5)中，pi
‑
sigma神经网络由一个输入层、一个隐含层和一个输出层组成，假设输入层、隐含层和输出层的神经元个数分别为n、k和1；输入样本x
m
＝(x
m,1
,x
m,2
,
…
,x
m,n
‑1,x
m,n
)
t
，其中x
m,n
＝
‑
1是对应的阀值，相应的实际输出为y，理想输出为o，w
i,k
为第i个输入点与第k个求和层结点间的权值，w
k
＝(w
1,k
,w
2,k
,
…
,w
i,k
,
…
,w
n
‑
1,k
,w
n,k
)为输入层各结点与求和层k结点的权值向量，其中w
nk
＝1，则求和层的h
k
为：设激活函数为f(x)，这里取f(x)为sigmoid函数(1/1+e
‑
x
)，则对于样本集(y
j
,o
j
)，网络实际输出为：网络误差函数取为传统的平方误差函数：使用梯度算法来训练pi
‑
sigma神经网络，目的就是寻找到权值向量w
*
，使e(w)达到最小，即在使用训练数据集h0进行模型训练时：输入层的神经元个数为：n＝d+1，即x
m
＝(x
0,j
,
‑
1)
t
；样本集(y
j
,o
j
)对应的理想输出o
j
为：o
j
＝o
0,j
,j＝[n/2]；训练以前，对数据集h0进行归一化处理；通过数据集h0训练pi
‑
sigma神经网络，找出最优权值向量w
*
；在使用测试数据集h1进行模型测试时：输入层、隐含层、输出层的神经元个数保持不变，权值向量为w
*
；样本集(y
j
,o
j
)对应的理想输出o
j
为：o
j
＝o
1,j
,j＝n
‑
[n/2]。8.根据权利要求1所述的异常数据智能筛选方法，其特征在于，所述步骤6)中，针对任何一个数据x
i
，输入训练好的pi
‑
sigma神经网络，对应的实际输出值为y
i
；当y
i
>＝a
*
时，判断该数据x
i
正常，判断结束；当y
i
<a
*
时，判断该数据x
i
异常，把该数据自动提取处理，存储在计算机系统中，为下一
步的“数据治理”做准备。

技术总结
本发明公开了一种异常数据智能筛选方法，首先，寻找数据集的中心数据；其次，设置中心半径；第三，数据标注；第四，获取平衡数据集；第五，训练高阶神经网络模型；第六，判断异常数据结论。通过计算机系统把判断为异常的数据，自动提取并存储起来。该方法较之于传统的异常数据判别方法，是集判断、抽取、存储为一体的方法，计算简便，直观明了，数据标注原则明确，训练数据集和测试数据集的数据平衡性好，模型具有良好的非线性处理能力，判断结论明确。判断结论明确。判断结论明确。

技术研发人员：邓飞何俊洪孙焱岳维好陈震霆石宝坤
受保护的技术使用者：昆明学院
技术研发日：2021.07.16
技术公布日：2021/9/21

完整全部详细技术资料下载

当前第2页1 2