一种异常数据检测方法及装置的制造方法
【技术领域】
[0001 ] 本发明实施例涉及电子数据处理技术领域,尤其涉及一种异常数据检测方法及装 置。
【背景技术】
[0002] 异常检测的目标是发现与大部分其他对象不同的对象,异常检测的应用例如:欺 诈检测,盗窃信用卡的人的购买行为可能不同于信用卡持有者,信用卡公司试图通过寻找 窃贼的购买模式,或通过注意不同于常见行为的变化来检测窃贼,类似的方法还可以用于 其他类型的欺诈检测;入侵检测,常见的有对计算机系统和网络系统的攻击,某些攻击是显 而易见的,如旨在瘫痪或控制计算机和网络的攻击,但是其他攻击,如旨在秘密收集信息的 攻击则很难检测,许多入侵只能通过监视系统和网络的异常行为来检测。
[0003]图是对事物之间的联系进行建模的普遍数据结构,基于图挖掘可以进行图分类, 图聚类,频繁子图模式发现等,包括有社区网络分析(社区发现/图分割,连通子图发现), 生物网络,计算机网络,协同过滤中的用户影评图等等广泛的应用。许多图的研究是基于图 的结构聚类图的节点,目的在于将图分割为子图连接良好的子图,以及子图间连接稀疏的 子图。大多数的在图的聚类(社会关系发现)的方法都假定所有的点是属于一类群组的, 然而,在很多的应用中,数据中却往往包括有异常项。例如在一个用户影评图中,行为异常 用户的影评数据为异常影评数据。异常行为可能会导致图中的子结构异乎寻常。因此,可 以通过寻找图中的导常子结构进而识别出用图表示的数据中的异常数据。
[0004]而邻接矩阵(AdjacencyMatrix)是表示图中顶点之间相邻关系的矩阵。用邻接 矩阵表示图,很容易确定图中任意两个顶点是否有边相连,因此,利用图求解异常数据被认 为是一种有效的异常检测方法。该方法的主要思想是将图表示为相应的邻接矩阵A(m*n, 一个m行η列的矩阵),而低秩矩阵与Gk>in用以表示数据中的k个簇/群组,剩余矩阵 R=A-F*G则为异常的数据表示。其处理流程如下所示:
[0005]将需要进行异常检测的图表示为相应的邻接矩阵A_;
[0006]求解计算两个低秩矩阵与Gk>in,k的值较小,使得F*G可能很好的近似估计A, 即可近似的表示A;
[0007]求解计算剩余矩阵R=A_F*G,R中的非零项则可用于估算图中所包含的异常。
[0008]这种方法在剩余矩阵不是稀疏的时候,也即是说,R中的大多数的数据是非零时, 对异常项的估计的精确度就会变差,因此,上述的低秩近似估计模型在实际应用中并不能 很好的发挥作用。最新的改进方法就是通过在低秩矩阵分解上附加非负限制以提高该方法 对于发现图模式的可用性与表述性,这种方法通过非负矩阵分解(即,两个低秩矩阵F与G 也被限制为非负矩阵)常可得到对异常数据做出判定的结果。
[0009]但是非负矩阵的限制条件使得问题的求解难度加大,实现起来较为困难,且这种 方法所求解的问题为非凸优化问题,仅能获得一个局部解,最终得到的结果与求解前的假 设强相关,不同的假设条件可以得到不同的解,对异常数据识别的准确率较差。
【发明内容】
[0010] 有鉴于此,本发明实施例提供了一种异常数据检测方法及装置,能够降低检测复 杂度,提高检测准确率。
[0011] 第一方面,本发明实施例提供的异常数据检测方法,包括:
[0012] 将用于描述待检测数据的图转化为邻接矩阵A,用L表示所述邻接矩阵A中不包 含异常数据的子图的邻接矩阵,用R表示所述邻接矩阵A中包含异常数据的子图的邻接矩 阵;
[0013] 检测所述待检测数据中是否包含噪声数据;
[0014] 根据不同的检测结果建立不同的凸优化表达式,所建立的凸优化表达式中利用L 的核范数保证L的低秩性,利用R的一阶范数保证R的稀疏性,其中,L的核范数指的是L的 奇异值之和,R的一阶范数指的是R中所有元素的绝对值之和;
[0015] 求解所建立的凸优化表达式以获取L与R。
[0016] 结合第一方面,在第一方面的第一种实施方式中,所述检测所述待检测数据中是 否包含噪声数据包括:
[0017] 检测所述待检测数据包括的数据类型中是否有与预设的数据类型相同的,若有, 则确定所述待检测数据中包含噪声数据,若没有,则确定所述待检测数据中不包含噪声数 据;
[0018] 或者检测所述待检测数据中是否包含有携带预设标识的数据,若有,则确定所述 待检测数据中包含噪声数据,若没有,则确定所述待检测数据中不包含噪声数据。
[0019] 结合第一方面,在第一方面的第二种实施方式中,所述根据不同的检测结果建立 不同的凸优化表达式之前,所述方法还包括确定每个检测结果对应的所述待检测数据的数 据模型,以根据每个检测结果对应的所述待检测数据的数据模型建立凸优化表达式;
[0020] 所述确定每个检测结果对应的所述待检测数据的数据模型包括:
[0021] 当检测结果为所述待检测数据中包含噪声数据时,确定所述待检测数据的数据模 型为A=L+R+E,其中,E表示邻接矩阵A中噪声数据的子图的邻接矩阵;
[0022] 当检测结果为所述待检测数据中不包含噪声数据时,确定所述待检测数据的数据 模型为A=L+R。
[0023] 结合第一方面的第二种实施方式,在第一方面的第三种实施方式中,所述根据每 个检测结果对应的所述待检测数据的数据模型建立凸优化表达式包括:
[0024] 当检测结果对应的所述待检测数据的数据模型为A=L+R+E时,所建立的凸优化 表达式为,其中α,β为权重参数,α,βe(〇, 〇〇),E= A-L-R,|^_~£__-i?|丨(?表示E的F范数,||L||>(6表示L的核范数,||R||1表示R的一阶范数,E的F范数指的是E中每个元素的平方和的平方根。
[0025] 结合第一方面的第二种实施方式,在第一方面的第四种实施方式中,所述根据每 个检测结果对应的所述待检测数据的数据模型建立凸优化表达式包括:
[0026] 当检测结果对应的所述待检测数据的数据模型为A=L+R时,所建立的凸优化表 达式为
,其中λ为权重系数,λe(〇,1),I|L|L表示L的核范 数,IIR|Ii表示R的一阶范数。
[0027] 结合第一方面的第三种实施方式,在第一方面的第五种实施方式中,当所建立的 凸优化表达式为
1:时,所述求解所建立的凸优化表达式以获 取L与R包括:
[0028] 先给定R任意值,求解公式一
L;
[0029] 再给定L任意值,求解公式二
得到R;
[0030] 确定求解得到的L与R是否满足预设的收敛条件,若满足,则求解得到的L与R为 最终求解值,若不满足,则分别将求解得到的R代入公式一,将求解得到的L代入公式二迭 代求解,直至求解得到的L与R满足所述预设的收敛条件,所述满足所述预设的收敛条件的 L与R为最终求解值。
[0031] 结合第一方面,或第一方面的第一种实施方式、或第一方面的第二种实施方式、或 第一方面的第三种实施方式、或第一方面的第四种实施方式、或第一方面的第五种实施方 式、在第一方面的第六种实施方式中,在将用于描述待检测数据的图转化为邻接矩阵A之 前,所述方法还包括:
[0032] 判断图中的所述待检测数据是不是用具体数值表示的;
[0033] 若图中的所述待检测数据不是用具体数值表示的,则利用预设的映射规则将图中 的所述待检测数据正向映射成用具体数值表示。
[0034] 结合第一方面的第六种实施方式,在第一方面的第七种实施方式中,在求解所建 立的凸优化表达式以获取L与R之后,所述方法还包括:
[0035] 将获取的L与R进行逆转化,以得到不包含异常数据的子图及包含异常数据的子 图;
[0036] 判断是否对图中的所述待检测数据做了正向映射;
[0037] 若对图中的所述待检测数据做了正向映射,则根据所述预设的映射规则将得到的 不包含异常数据的子图中的数据及包含异常数据的子图中的数据做逆向映射,以将子图中 的数据还原成原始的表示方法。
[0038] 第二方面,本发明实施例提供的异常数据检测装置,包括:
[0039] 矩阵转换单元,用于将用于描述待检测数据的图转化为邻接矩阵A,用L表示所述 邻接矩阵A中不包含异常数据的子图的邻接矩阵,用R表示所述邻接矩阵A中包含异常数 据的子图的邻接矩阵;
[0040] 检测单元,用于检测所述待检测数据中是否包含噪声数据;
[0041] 模型建立单元,用于根据不同的检测结果建立不同的凸优化表达式,所建立的凸 优化表达式中利用L的核范数保证L的低秩性,利用R的一阶范数保证R的稀疏性,其中, L的核范数指的是L的奇异值之和,R的一阶范数指的是R中所有元素的绝对值之和;
[0042] 计算单元,用于求解所建立的凸优化表达式以获取L与R。
[0043] 结合第二方面,在第二方面的第一种实施方式中,所述检测单元具体用于:
[0044] 检测所述待检测数据包括的数据类型中是否有与预设的数据类型相同的,若有, 则确定所述待检测数据中包含噪声数据,若没有,则确定所述待检测数据中不包含噪声数 据;
[0045] 或者检测所述待检测数据中是否包含有携带预设标识的数据,若有,则确定所述 待检测数据中包含噪声数据,若没有,则确定所述待检测数据中不包含噪声数据。
[0046] 结合第二方面,在第二方面的第二种实施方式中,所述装置还包括:
[0047] 确定单元,用于确定每个检测结果对应的所述待检测数据的数据模型,以使所述 模型建立单元根据每个检测结果对应的所述待检测数据的数据模型建立凸优化表达式;[0048] 所述确定单元具体用于:
[0049] 在所述检测单元的检测结果为所述待检测数据中包含噪声数据时,确定所述待检 测数据的数据模型为A=L+R+E,其中,E表示邻接矩阵A中噪声数据的子图的邻接矩阵;
[0050] 在检测单元的检测结果为所述待检测数据中不包含噪声数据时,确定所述待检测 数据的数据模型为A=L+R。
[0051] 结合第二方面的第二种实施方式,在第二方面的第三种实施方式中,所述模型建 立单元具体用于:
[0052] 在所述确定单元确定的所述待检测数据的数据模型为A=L+R+E时,建立凸优化 表达另
其中α,β为权重参数,α,βe(〇, 〇〇),E= A-L-R,表示E的F范数,IILII$表示L的核范数,IIRIIi表示R的一阶范数,E的F范数指的是E中每个元素的平方和的平方根。
[0053] 结合第二方面的第二种实施方式,在第二方面的第四种实施方式中,所述模型建 立单元具体用于:
[0054] 在所述确定单元的确定的所述待检测数据的数据模型为A=L+R时,建立凸优化 表达另
t其中λ为权重系数,λe(〇, 1),| |L|L表示L的核范 数,I|r|L表示R的一阶范数。
[0055] 结合第二方面的第三种实施方式,在第二方面的第五种实施方