一种异常数据检测方法及装置的制造方法

文档序号：9579541阅读：503来源：国知局

一种异常数据检测方法及装置的制造方法
【技术领域】
[0001 ] 本发明实施例涉及电子数据处理技术领域，尤其涉及一种异常数据检测方法及装置。
【背景技术】
[0002] 异常检测的目标是发现与大部分其他对象不同的对象，异常检测的应用例如：欺诈检测，盗窃信用卡的人的购买行为可能不同于信用卡持有者，信用卡公司试图通过寻找窃贼的购买模式，或通过注意不同于常见行为的变化来检测窃贼，类似的方法还可以用于其他类型的欺诈检测；入侵检测，常见的有对计算机系统和网络系统的攻击，某些攻击是显而易见的，如旨在瘫痪或控制计算机和网络的攻击，但是其他攻击，如旨在秘密收集信息的攻击则很难检测，许多入侵只能通过监视系统和网络的异常行为来检测。
[0003]图是对事物之间的联系进行建模的普遍数据结构，基于图挖掘可以进行图分类，图聚类，频繁子图模式发现等，包括有社区网络分析（社区发现/图分割，连通子图发现），生物网络，计算机网络，协同过滤中的用户影评图等等广泛的应用。许多图的研究是基于图的结构聚类图的节点，目的在于将图分割为子图连接良好的子图，以及子图间连接稀疏的子图。大多数的在图的聚类（社会关系发现）的方法都假定所有的点是属于一类群组的，然而，在很多的应用中，数据中却往往包括有异常项。例如在一个用户影评图中，行为异常用户的影评数据为异常影评数据。异常行为可能会导致图中的子结构异乎寻常。因此，可以通过寻找图中的导常子结构进而识别出用图表示的数据中的异常数据。
[0004]而邻接矩阵（AdjacencyMatrix)是表示图中顶点之间相邻关系的矩阵。用邻接矩阵表示图，很容易确定图中任意两个顶点是否有边相连，因此，利用图求解异常数据被认为是一种有效的异常检测方法。该方法的主要思想是将图表示为相应的邻接矩阵A(m*n，一个m行η列的矩阵），而低秩矩阵与Gk>in用以表示数据中的k个簇/群组，剩余矩阵 R=A-F*G则为异常的数据表示。其处理流程如下所示：
[0005]将需要进行异常检测的图表示为相应的邻接矩阵A_;
[0006]求解计算两个低秩矩阵与Gk>in，k的值较小，使得F*G可能很好的近似估计A，即可近似的表示A;
[0007]求解计算剩余矩阵R=A_F*G，R中的非零项则可用于估算图中所包含的异常。
[0008]这种方法在剩余矩阵不是稀疏的时候，也即是说，R中的大多数的数据是非零时，对异常项的估计的精确度就会变差，因此，上述的低秩近似估计模型在实际应用中并不能很好的发挥作用。最新的改进方法就是通过在低秩矩阵分解上附加非负限制以提高该方法对于发现图模式的可用性与表述性，这种方法通过非负矩阵分解（即，两个低秩矩阵F与G 也被限制为非负矩阵）常可得到对异常数据做出判定的结果。
[0009]但是非负矩阵的限制条件使得问题的求解难度加大，实现起来较为困难，且这种方法所求解的问题为非凸优化问题，仅能获得一个局部解，最终得到的结果与求解前的假设强相关，不同的假设条件可以得到不同的解，对异常数据识别的准确率较差。

【发明内容】

[0010] 有鉴于此，本发明实施例提供了一种异常数据检测方法及装置，能够降低检测复杂度，提高检测准确率。
[0011] 第一方面，本发明实施例提供的异常数据检测方法，包括：
[0012] 将用于描述待检测数据的图转化为邻接矩阵A，用L表示所述邻接矩阵A中不包含异常数据的子图的邻接矩阵，用R表示所述邻接矩阵A中包含异常数据的子图的邻接矩阵；
[0013] 检测所述待检测数据中是否包含噪声数据；
[0014] 根据不同的检测结果建立不同的凸优化表达式，所建立的凸优化表达式中利用L 的核范数保证L的低秩性，利用R的一阶范数保证R的稀疏性，其中，L的核范数指的是L的奇异值之和，R的一阶范数指的是R中所有元素的绝对值之和；
[0015] 求解所建立的凸优化表达式以获取L与R。
[0016] 结合第一方面，在第一方面的第一种实施方式中，所述检测所述待检测数据中是否包含噪声数据包括：
[0017] 检测所述待检测数据包括的数据类型中是否有与预设的数据类型相同的，若有，则确定所述待检测数据中包含噪声数据，若没有，则确定所述待检测数据中不包含噪声数据；
[0018] 或者检测所述待检测数据中是否包含有携带预设标识的数据，若有，则确定所述待检测数据中包含噪声数据，若没有，则确定所述待检测数据中不包含噪声数据。
[0019] 结合第一方面，在第一方面的第二种实施方式中，所述根据不同的检测结果建立不同的凸优化表达式之前，所述方法还包括确定每个检测结果对应的所述待检测数据的数据模型，以根据每个检测结果对应的所述待检测数据的数据模型建立凸优化表达式；
[0020] 所述确定每个检测结果对应的所述待检测数据的数据模型包括：
[0021] 当检测结果为所述待检测数据中包含噪声数据时，确定所述待检测数据的数据模型为A=L+R+E，其中，E表示邻接矩阵A中噪声数据的子图的邻接矩阵；
[0022] 当检测结果为所述待检测数据中不包含噪声数据时，确定所述待检测数据的数据模型为A=L+R。
[0023] 结合第一方面的第二种实施方式，在第一方面的第三种实施方式中，所述根据每个检测结果对应的所述待检测数据的数据模型建立凸优化表达式包括：
[0024] 当检测结果对应的所述待检测数据的数据模型为A=L+R+E时，所建立的凸优化表达式为，其中α，β为权重参数，α，βe(〇, 〇〇)，E= A-L-R，|^_~￡__-i?|丨(?表示E的F范数，||L||>(6表示L的核范数，||R||1表示R的一阶范数，E的F范数指的是E中每个元素的平方和的平方根。
[0025] 结合第一方面的第二种实施方式，在第一方面的第四种实施方式中，所述根据每个检测结果对应的所述待检测数据的数据模型建立凸优化表达式包括：
[0026] 当检测结果对应的所述待检测数据的数据模型为A=L+R时，所建立的凸优化表达式为
，其中λ为权重系数，λe(〇，1)，I|L|L表示L的核范数，IIR|Ii表示R的一阶范数。
[0027] 结合第一方面的第三种实施方式，在第一方面的第五种实施方式中，当所建立的凸优化表达式为
1:时，所述求解所建立的凸优化表达式以获取L与R包括：
[0028] 先给定R任意值，求解公式一
L;
[0029] 再给定L任意值，求解公式二
得到R;
[0030] 确定求解得到的L与R是否满足预设的收敛条件，若满足，则求解得到的L与R为最终求解值，若不满足，则分别将求解得到的R代入公式一，将求解得到的L代入公式二迭代求解，直至求解得到的L与R满足所述预设的收敛条件，所述满足所述预设的收敛条件的 L与R为最终求解值。
[0031] 结合第一方面，或第一方面的第一种实施方式、或第一方面的第二种实施方式、或第一方面的第三种实施方式、或第一方面的第四种实施方式、或第一方面的第五种实施方式、在第一方面的第六种实施方式中，在将用于描述待检测数据的图转化为邻接矩阵A之前，所述方法还包括：
[0032] 判断图中的所述待检测数据是不是用具体数值表示的；
[0033] 若图中的所述待检测数据不是用具体数值表示的，则利用预设的映射规则将图中的所述待检测数据正向映射成用具体数值表示。
[0034] 结合第一方面的第六种实施方式，在第一方面的第七种实施方式中，在求解所建立的凸优化表达式以获取L与R之后，所述方法还包括：
[0035] 将获取的L与R进行逆转化，以得到不包含异常数据的子图及包含异常数据的子图；
[0036] 判断是否对图中的所述待检测数据做了正向映射；
[0037] 若对图中的所述待检测数据做了正向映射，则根据所述预设的映射规则将得到的不包含异常数据的子图中的数据及包含异常数据的子图中的数据做逆向映射，以将子图中的数据还原成原始的表示方法。
[0038] 第二方面，本发明实施例提供的异常数据检测装置，包括：
[0039] 矩阵转换单元，用于将用于描述待检测数据的图转化为邻接矩阵A，用L表示所述邻接矩阵A中不包含异常数据的子图的邻接矩阵，用R表示所述邻接矩阵A中包含异常数据的子图的邻接矩阵；
[0040] 检测单元，用于检测所述待检测数据中是否包含噪声数据；
[0041] 模型建立单元，用于根据不同的检测结果建立不同的凸优化表达式，所建立的凸优化表达式中利用L的核范数保证L的低秩性，利用R的一阶范数保证R的稀疏性，其中， L的核范数指的是L的奇异值之和，R的一阶范数指的是R中所有元素的绝对值之和；
[0042] 计算单元，用于求解所建立的凸优化表达式以获取L与R。
[0043] 结合第二方面，在第二方面的第一种实施方式中，所述检测单元具体用于：
[0044] 检测所述待检测数据包括的数据类型中是否有与预设的数据类型相同的，若有，则确定所述待检测数据中包含噪声数据，若没有，则确定所述待检测数据中不包含噪声数据；
[0045] 或者检测所述待检测数据中是否包含有携带预设标识的数据，若有，则确定所述待检测数据中包含噪声数据，若没有，则确定所述待检测数据中不包含噪声数据。
[0046] 结合第二方面，在第二方面的第二种实施方式中，所述装置还包括：
[0047] 确定单元，用于确定每个检测结果对应的所述待检测数据的数据模型，以使所述模型建立单元根据每个检测结果对应的所述待检测数据的数据模型建立凸优化表达式；[0048] 所述确定单元具体用于：
[0049] 在所述检测单元的检测结果为所述待检测数据中包含噪声数据时，确定所述待检测数据的数据模型为A=L+R+E，其中，E表示邻接矩阵A中噪声数据的子图的邻接矩阵；
[0050] 在检测单元的检测结果为所述待检测数据中不包含噪声数据时，确定所述待检测数据的数据模型为A=L+R。
[0051] 结合第二方面的第二种实施方式，在第二方面的第三种实施方式中，所述模型建立单元具体用于：
[0052] 在所述确定单元确定的所述待检测数据的数据模型为A=L+R+E时，建立凸优化表达另
其中α，β为权重参数，α，βe(〇, 〇〇)，E= A-L-R，表示E的F范数，IILII$表示L的核范数，IIRIIi表示R的一阶范数，E的F范数指的是E中每个元素的平方和的平方根。
[0053] 结合第二方面的第二种实施方式，在第二方面的第四种实施方式中，所述模型建立单元具体用于：
[0054] 在所述确定单元的确定的所述待检测数据的数据模型为A=L+R时，建立凸优化表达另
t其中λ为权重系数，λe(〇, 1)，| |L|L表示L的核范数，I|r|L表示R的一阶范数。
[0055] 结合第二方面的第三种实施方式，在第二方面的第五种实施方

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘义俊;范伟;
技术所有人：华为技术有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。