一种异常检测训练集的构建方法及装置制造方法

文档序号:6519972阅读:330来源:国知局
一种异常检测训练集的构建方法及装置制造方法
【专利摘要】本申请公开了一种异常检测训练集构建方法及装置,该方法将获取到的样本数据集合确定为当前数据集合,依据接收到的各个当前标注指令,在当前数据集合中获取已标注数据,将已标注数据加入第一数据集合,将未标注数据组成第二数据集合,判断异常点数据的个数是否达到预设数值,若是,依据已标记数据和未标记数据生成训练集,若否,依据第一数据集合计算未标注数据的异常点概率,依据异常点概率对所述未标注数据进行排序,并确定为当前数据集合,返回执行获取各个当前标注指令。与现有技术单次计算异常点概率相比,本方法利用已标注数据对未标注数据重新计算异常点概率,依据异常点概率排序后异常点排序前移,可减少标注次数,提高训练集构建效率。
【专利说明】一种异常检测训练集的构建方法及装置
【技术领域】
[0001]本申请涉及异常检测【技术领域】,尤其是一种异常检测训练集的构建方法及装置。【背景技术】
[0002]异常检测,是对某个事务活动中产生的大量数据进行检测以确定其中的异常数据,所述异常数据被称为异常点。异常点具有不符合正常数据的分布特征或表现模式,通过分析异常点可以获知事务活动的安全状态,例如:信贷事务中的异常点可能代表一项信贷欺诈,网络通信中的异常点可能代表黑客对电脑的攻击。异常检测的主要方式是,利用预先构建的训练集,使用异常检测算法对所述大量数据进行检测。因此,训练集是所述异常检测方式的基础。
[0003]发明人通过研究发现,现有的训练集构建方式为:获得多个样本数据,所述各个样本数据可能为异常点,也可能为正常点,利用现有检测算法如无监督异常点检测算法计算各个样本数据是异常点的概率,依据所述概率的大小,对所述各个样本数据进行排序后生成样本数据集合。依次获取所述样本数据集合中的样本数据,人工标注所述各个样本数据是正常点或异常点,当标注的样本数据中异常点达到预设的数量时,停止所述构建过程。
[0004]所述构建方式中单次计算样本数据的异常点概率,计算的异常点概率正确率较低,对样本数据进行标注的次数较多,导致训练集的构建效率较低。

【发明内容】

[0005]有鉴于此,本申请提供了一种异常检测训练集的构建方法及装置,以解决现有构建方式中单次计算样本数据的异常点概率,计算的异常点概率正确率较低,对样本数据进行标注的次数较多,导致训练集的构建效率较低的问题。本申请的技术方案如下:
[0006]一种异常检测训练集的构建方法,包括:
[0007]获取样本数据集合,并将所述获取到的样本数据集合确定为当前数据集合;
[0008]获取各个当前标注指令;
[0009]依据获取到的所述各个当前标注指令,在所述当前数据集合中获取与所述各个当前标注指令相对应的已标注数据,将所述已标注数据加入第一数据集合,将所述当前数据集合中的未标注数据组成第二数据集合;其中,所述已标注数据包括正常点数据或异常点数据;
[0010]判断所述第一数据集合中异常点数据的个数是否达到预设数值;
[0011]若是,依据所述第一数据集合中的已标记数据和所述第二数据集合中的未标记数据,生成训练集;
[0012]若否,依据所述第一数据集合,计算所述第二数据集合中的未标注数据的异常点概率,依据所述异常点概率,对所述第二数据集合中的未标注数据进行排序,将排序后的第二数据集合确定为当前数据集合,返回执行所述获取各个当前标注指令。
[0013]优选的,所述依据获取到的所述各个当前标注指令,在所述当前数据集合中获取与所述各个当前标注指令相对应的已标注数据,将所述已标注数据加入第一数据集合,将所述当前数据集合中的未标注数据组成第二数据集合,包括:
[0014]解析获取到的所述各个标注指令,获得与所述各个标注指令相对应的标注;
[0015]依据标注指令与数据间的对应关系,为所述各个数据添加相对应的标注;其中,所述各个数据是在所述当前数据集合中获取的;
[0016]将所述各个添加标注的数据确定为已标注数据,并将所述已标注数据加入第一数据集合;其中,所述已标注数据包括正常点数据或异常点数据;
[0017]将所述当前数据集合中的未标注数据组成第二数据集合。
[0018]优选的,正常点的标注为1,异常点的标注为0,则:
[0019]所述依据所述第一数据集合,计算所述第二数据集合中的未标注数据的异常点概率,包括:
[0020]将所述样本数据集合表示为X=U1, X2,...xn},将第一数据集合表示为L= {χ1; X2,...X1I,将第二数据集合表示为 U= {x1+1, x1+2,...xn};
[0021]依据所述第一数据集合中各个数据的标注生成标注集合F= Iu1, u2,...uj ;其中,所述ui为I或O ;
[0022]依据所述第一数据集合、所述第二数据集合及所述标注集合,利用公

【权利要求】
1.一种异常检测训练集的构建方法,其特征在于,包括: 获取样本数据集合,并将所述获取到的样本数据集合确定为当前数据集合; 获取各个当前标注指令; 依据获取到的所述各个当前标注指令,在所述当前数据集合中获取与所述各个当前标注指令相对应的已标注数据,将所述已标注数据加入第一数据集合,将所述当前数据集合中的未标注数据组成第二数据集合;其中,所述已标注数据包括正常点数据或异常点数据; 判断所述第一数据集合中异常点数据的个数是否达到预设数值; 若是,依据所述第一数据集合中的已标记数据和所述第二数据集合中的未标记数据,生成训练集; 若否,依据所述第一数据集合,计算所述第二数据集合中的未标注数据的异常点概率,依据所述异常点概率,对所述第二数据集合中的未标注数据进行排序,将排序后的第二数据集合确定为当前数据集合,返回执行所述获取各个当前标注指令。
2.根据权利要求1所述的方法,其特征在于,所述依据获取到的所述各个当前标注指令,在所述当前数据集合中获取与所述各个当前标注指令相对应的已标注数据,将所述已标注数据加入第一数据集合,将所述当前数据集合中的未标注数据组成第二数据集合,包括: 解析获取到的所述各个标注指令,获得与所述各个标注指令相对应的标注; 依据标注指令与数据间的对应关系,为所述各个数据添加相对应的标注;其中,所述各个数据是在所述当前数据集合中获取的; 将所述各个添加标注的数据确定为已标注数据,并将所述已标注数据加入第一数据集合;其中,所述已标注数据包括正常点数据或异常点数据; 将所述当前数据集合中的未标注数据组成第二数据集合。
3.根据权利要求2所述的方法,其特征在于,正常点的标注为1,异常点的标注为O,则: 所述依据所述第一数据集合,计算所述第二数据集合中的未标注数据的异常点概率,包括: 将所述样本数据集合表示为X=U1, χ2,...χη},将第一数据集合表示为L= {χ1; X2,...X1I,将第二数据集合表示为 U= {x1+1, x1+2,...xn}; 依据所述第一数据集合中各个数据的标注生成标注集合F=Iu1, U2,...uj ;其中,所述Ui为I或O ; 依据所述第一数据集合、所述第二数据集合及所述标注集合,利用公式
4.根据权利要求1所述的方法,其特征在于,当所述当前标注指令为多个时,则所述获取各个当前标注指令,包括: 在所述当前数据集合中获取多个概率大于等于预设阈值的数据,生成备选数据集合;依据所述备选数据集合及预设值,利用聚类算法,在所述备选数据集合中获取K个数据;其中,所述预设值为大于I的整数,所述K值与所述预设值相同; 将所述K个数据作为待标注数据; 依据所述待标注数据,获取当前标注指令。
5.一种异常检测训练集的构建装置,其特征在于,包括: 当前数据集合确定单元,用于获取样本数据集合,并将所述获取到的样本数据集合确定为当前数据集合; 当前标注指令获取单元,用于获取各个当前标注指令; 数据集合区分单元,用于依据获取到的所述各个当前标注指令,在所述当前数据集合中获取与所述各个当前标注指令相对应的已标注数据,将所述已标注数据加入第一数据集合,将所述当前数据集合中的未标注数据组成第二数据集合;其中,所述已标注数据包括正常点数据或异常点数据; 判断单元,用于判断所述第一数据集合中异常点数据的个数是否达到预设数值,如果是,触发第一判断结果单元,否则,触发第二判断结果单元; 第一判断结果单元,用于依据所述第一数据集合中的已标记数据和所述第二数据集合中的未标记数据,生成训练集; 第二判断结果单元,用于依据所述第一数据集合,计算所述第二数据集合中的未标注数据的异常点概率,依据所述异常点概率,对所述第二数据集合中的未标注数据进行排序,将排序后的第二数据集合确定为当前数据集合,触发所述当前标注指令获取单元。
6.根据权利要求5所述的装置,其特征在于,所述数据集合区分单元包括: 解析子单元,用于解析获取到的所述各个标注指令,获得与所述各个标注指令相对应的标注; 标注子单元,用于依据标注指令与数据间的对应关系,为所述各个数据添加相对应的标注;其中,所述各个数据是在所述当前数据集合中获取的; 加入子单元,用于将所述各个添加标注的数据确定为已标注数据,并将所述已标注数据加入第一数据集合;其中,所述已标注数据包括正常点数据或异常点数据; 组成子单元,用于将所述当前数据集合中的未标注数据组成第二数据集合。
7.根据权利要求5所述的装置,其特征在于,所述第二判断结果单元包括: 计算单元,用于依据所述第一数据集合,计算所述第二数据集合中的未标注数据的异常点概率;排序单元,用于依据所述异常点概率,对所述第二数据集合中的未标注数据进行排序; 确定单元,用于将排序后的第二数据集合确定为当前数据集合,触发所述当前标注指令获取单元执行所述获取各个当前标注指令。
8.根据权利要求7所述的装置,其特征在于,正常点的标注为1,异常点的标注为O,则所述计算单元包括: 集合表示子单元,用于将所述样本数据集合表示为
9.根据权利要求5所述的装置,其特征在于,当所述当前标注指令获取单元获取的所述当前标注指令为多个时,所述当前标注指令获取单元包括: 备选数据集合生成子单元,用于在所述当前数据集合中获取多个概率大于等于预设阈值的数据,生成备选数据集合; 多个数据获取子单元,用于依据所述备选数据集合及预设值,利用聚类算法,在所述备选数据集合中获取K个数据;其中,所述预设值为大于I的整数,所述K值与所述预设值相同; 待标注数据生成子单元,用于将所述K个数据作为待标注数据; 当前标注指令获取子单元,用于依据所述待标注数据,获取当前标注指令。
【文档编号】G06F19/00GK103559420SQ201310589362
【公开日】2014年2月5日 申请日期:2013年11月20日 优先权日:2013年11月20日
【发明者】赵朋朋, 周徐, 吴健, 辛洁, 鲜学丰, 崔志明 申请人:苏州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1