资源处理异常检测方法、装置、电子设备及存储介质与流程

文档序号:25426454发布日期:2021-06-11 21:40阅读:123来源:国知局
资源处理异常检测方法、装置、电子设备及存储介质与流程

本申请涉及机器学习技术领域,具体而言,本申请涉及一种资源处理异常检测方法、装置、电子设备及存储介质。



背景技术:

在计算机互联、互联网金融蓬勃发展的当下,线上进行网络资源转移,例如,进行线上交易的用户越来越多,随着交易、用户和第三方集成数量的增长,金融领域的安全威胁也在不断增加。风险防范技术和风控模型可以对异常交易进行检测和识别,提醒相关人员及时采取措施减少用户不必要的损失。

目前,通常基于历史资源处理信息,例如历史交易信息获取大量标注样本对资源处理节点,例如,对商户进行异常检测,基于历史的风险情况判断与之相近的异常模式,若当前的资源处理信息与历史资源处理信息差异较大,可能导致当前的资源处理异常检测的准确率较低。



技术实现要素:

本申请提供了一种资源处理异常检测的方法、装置、电子设备及计算机可读存储介质,可以解决资源处理异常检测准确率低的问题。所述技术方案如下:

第一方面,提供了一种资源处理异常检测方法,该方法包括:

获取待检测的资源处理节点集合;

针对资源处理节点集合中的每一资源处理节点,获取资源处理节点的资源处理特征;

基于资源处理特征确定资源处理节点的特征误差信息;

获取资源处理节点的身份信息,基于身份信息确定资源处理节点的节点类别;

基于属于同一节点类别的每一资源处理节点的特征误差信息,确定该节点类别每一资源处理节点的异常检测结果。

在一个可能的实现方式中,基于资源处理特征确定资源处理节点的特征误差信息,包括:

对资源处理特征进行特征重构,得到与资源处理特征对应的重构特征;

基于无监督检测网络确定资源处理特征与重构特征之间的差异值,将差异值设为特征误差信息。

在一个可能的实现方式中,基于属于同一节点类别的每一资源处理节点的特征误差信息,确定该节点类别每一资源处理节点的异常检测结果,包括:

获取属于该节点类别的每一资源处理节点分别所对应的差异值;

统计差异值的分布,确定针对该节点类别的异常阈值;

若任一资源处理节点对应的差异值不小于异常阈值,则该资源处理节点的异常检测结果为资源处理异常。

在另一个可能的实现方式中,确定资源处理特征与重构特征之间的差异值,包括:

计算资源处理特征与重构特征的均方误差;

将均方误差设为差异值。

在另一个可能的实现方式中,上述无监督检测网络是基于以下方式训练得到的:

获取至少一个样本资源处理节点的样本资源处理特征;样本资源处理节点的异常检测结果均为资源处理正常;

将样本资源处理特征输入到初始检测网络,得到初始检测网络输出的实时资源处理特征;

基于实时资源处理特征调整初始检测网络的参数,使得实时资源处理特征与样本资源处理特征之间的误差小于预设误差阈值,生成无监督检测网络。

在又一个可能的实现方式中,基于身份信息确定资源处理节点的节点类别,包括:

将身份信息转化得到资源处理节点的身份向量;

对身份向量进行分类,得到资源处理节点的节点类别。

在又一个可能的实现方式中,将身份信息转化得到资源处理节点的身份向量,包括:

对身份信息进行数据清洗,生成至少一个第一文本数据;

对至少一个第一文本数据进行拼接,生成第二文本数据;

对第二文本数据进行词向量映射,得到资源处理节点的身份向量。

第二方面,提供了一种资源处理异常检测的装置,该装置包括:

第一获取模块,用于获取待检测的资源处理节点集合;

第二获取模块,用于针对资源处理节点集合中的每一资源处理节点,获取资源处理节点的资源处理特征;

第一确定模块,用于基于资源处理特征确定资源处理节点的特征误差信息;

第二确定模块,用于获取资源处理节点的身份信息,基于身份信息确定资源处理节点的节点类别;

第三确定模块,用于基于属于同一节点类别的每一资源处理节点的特征误差信息,确定该节点类别每一资源处理节点的异常检测结果。

在一个可能的实现方式中,上述第一确定模块,具体用于:

重构单元,用于对资源处理特征进行特征重构,得到与资源处理特征对应的重构特征;

确定单元,用于基于无监督检测网络确定资源处理特征与重构特征之间的差异值,将差异值设为特征误差信息。

在一个可能的实现方式中,上述第三确定模块,还用于:

获取属于该节点类别的每一资源处理节点分别所对应的差异值;

统计差异值的分布,确定针对该节点类别的异常阈值;

若任一资源处理节点对应的差异值不小于异常阈值,则该资源处理节点的异常检测结果为资源处理异常。

在另一个可能的实现方式中,上述确定单元,具体用于:

计算资源处理特征与重构特征的均方误差;

将均方误差设为差异值。

在另一个可能的实现方式中,该装置还包括训练模块,具体用于:

获取至少一个样本资源处理节点的样本资源处理特征;样本资源处理节点的异常检测结果均为资源处理正常;

将样本资源处理特征输入到初始检测网络,得到初始检测网络输出的实时资源处理特征;

基于实时资源处理特征调整初始检测网络的参数,使得实时资源处理特征与样本资源处理特征之间的误差小于预设误差阈值,生成无监督检测网络。

在又一个可能的实现方式中,上述第二确定模块,包括:

转化单元,用于将身份信息转化得到资源处理节点的身份向量;

分类单元,用于对身份向量进行分类,得到资源处理节点的节点类别。

在又一个可能的实现方式中,上述转化单元,具体用于:

对身份信息进行数据清洗,生成至少一个第一文本数据;

对至少一个第一文本数据进行拼接,生成第二文本数据;

对第二文本数据进行词向量映射,得到资源处理节点的身份向量。

第三方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现本申请第一方面所示的资源处理异常检测方法。

第四方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现本申请第一方面所示的资源处理异常检测方法。

本申请提供的技术方案带来的有益效果是:

本申请通过属于相同节点类别的每一资源处理节点的特征误差信息确定该节点类别中的资源处理节点的异常检测结果,利用了相同节点类别的资源处理节点具有相似的资源处理模式的特点,在获取资源处理节点的资源处理特征之后,只需根据资源处理特征确定特征误差信息就可以识别属于同一类别的资源处理节点中,资源处理异常的资源处理节点,从而得出异常检测结果。相比于现有技术中采用历史异常信息获取大量标注样本进行异常检测,本申请无需获取资源处理节点的历史异常信息,能够适应变化的异常模式,在无需标注样本数据的情况下,实现了高效、准确地资源处理异常检测。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种资源处理异常检测方法的应用场景图;

图2为本申请实施例提供的一种资源处理异常检测方法的流程示意图;

图3为本申请实施例提供的一种提取交易特征方案的流程示意图;

图4为本申请实施例提供的一种特征重构方案的流程示意图;

图5为本申请实施例提供的一种生成无监督检测网络的流程示意图;

图6为本申请实施例提供的一种身份信息转换的方案的流程示意图;

图7为本申请实施例提供的一种textcnn网络分类方案的流程示意图;

图8为本申请实施例提供的一个示例中的资源处理异常检测方法的流程示意图;

图9为本申请实施例提供的一种资源处理异常检测装置的结构示意图;

图10为本申请实施例提供的一种资源处理异常检测的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

云安全(cloudsecurity)是指基于云计算商业模式应用的安全软件、硬件、用户、机构、安全云平台的总称。云安全融合了并行处理、网格计算、未知病毒行为判断等新兴技术和概念,通过网状的大量客户端对网络中软件行为的异常监测,获取互联网中木马、恶意程序的最新信息,并发送到服务端进行自动分析和处理,再把病毒和木马的解决方案分发到每一个客户端。

云安全主要研究方向包括:1.云计算安全,主要研究如何保障云自身及云上各种应用的安全,包括云计算机系统安全、用户数据的安全存储与隔离、用户接入认证、信息传输安全、网络攻击防护、合规审计等;2.安全基础设施的云化,主要研究如何采用云计算新建与整合安全基础设施资源,优化安全防护机制,包括通过云计算技术构建超大规模安全事件、信息采集与处理平台,实现对海量信息的采集与关联分析,提升全网安全事件把控能力及风险控制能力;3.云安全服务,主要研究各种基于云计算平台为用户提供的安全服务,如防病毒服务等。

本申请提供的资源处理异常检测方法,能够适应变化的异常模式,从而可以提升网络安全事件把控能力及风险控制能力。

人工智能(artificialintelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(machinelearning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。

本申请实施例提供的资源处理异常检测,是基于资源处理节点的资源处理特征和身份信息对该资源处理节点进行异常检测;其中资源处理特征和身份信息均可预先存储于区块链中,用于进行异常检测的服务器或终端在执行异常检测时,从区块链中获取待检测资源处理节点的资源处理特征和身份信息,进而确定该资源处理节点的异常检测结果。

本申请实施例提供的方案涉及机器学习的异常检测技术,具体通过如下实施例进行说明。

在计算机互联、互联网金融蓬勃发展的当下,线上的网络资源处理操作与人们日常生活的关联越来越密切,例如,电子商务和线上交易的用户越来越多,随着交易、用户和第三方集成数量的增长,金融领域的安全威胁也在不断增加。风险管理和反欺诈是目前银行最热门的2个主题,这类项目首先应用机器学习和大数据等创新技术来解决:银行通过机器学习和大数据技术,计算所有可能的风险和欺诈者,并在第一次怀疑时丢弃它们。应用机器学习技术,系统可以检测特殊或异常的行为,并为安全团队标记它们。

目前,通常基于历史资源处理信息,如历史交易信息获取大量标注样本对资源处理节点,例如,对商户进行异常检测,基于历史的风险情况判断与之相近的异常模式。具体的,通过风险防范技术和风控模型可以对商户的异常交易进行检测和识别,提醒相关人员及时采取措施减少用户不必要的损失。目前对商户交易行为进行风险建模的方式主要分为以下两类:

一类是根据商户的法人信息(包括法人的地区、性别、年龄、信用情况等)、商户体量(注册资金、纳税人数等)、商户历史信用情况、商户交易特征(包括夜间交易占比、非法交易占比等),通过分类器来对商户进行通用风险评分;另一类是对赌博、洗钱、诈骗等单一风险进行建模,得到风险评分。

以上两类对商户交易行为进行风险建模的方式主要是通过有监督的机器学习算法完成的,有监督的学习需要采用历史异常信息获取大量标注样本,只能根据历史的风险情况判断与之相近的风险模式,若当前的资源处理信息与历史资源处理信息差异较大,可能导致当前的资源处理异常检测的准确率较低,无法发现未知风险。

网络黑产指以互联网为媒介,以网络技术为主要手段,为计算机信息系统安全和网络空间管理秩序,甚至国家安全、社会政治稳定带来潜在威胁(重大安全隐患)的非法行为。主要有“黑客攻击”“盗取账号”“钓鱼网站”等。安全团队在与网络黑产的持续对抗中发现,网络黑产会不断变换模式,来打破现有的防御。因而,需要通过新的方案来应对新的风险模式。

本申请提供的资源处理异常检测方法,能够适应变化的异常模式,相比现有技术,可以在无需标注样本数据的情况下,实现高效、准确地资源处理异常检测。

本申请提供的资源处理异常检测方法、装置、电子设备和计算机可读存储介质,旨在解决现有技术的如上技术问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。

如图1所示,本申请的资源处理异常检测方法,可以应用于图1所示的场景中,具体的,对待检测的资源处理节点集合101中的资源处理节点进行分类,得到属于节点类别a的资源处理节点子集合102,服务器103获取子集合102中的每一资源处理节点的资源处理特征,并基于每一资源处理特征确定资源处理节点的特征误差信息,进而基于特征误差信息确定子集合102中的每一资源处理节点的异常检测结果104,根据异常检测结果104可以得到子集合102中哪些节点资源处理正常、哪些节点资源处理异常。

图1所示的场景中,上述资源处理异常检测方法可以在服务器中进行,在其他的场景中,也可以在终端中进行。

本技术领域技术人员可以理解,这里所使用的“终端”可以是手机、平板电脑、pda(personaldigitalassistant,个人数字助理)、mid(mobileinternetdevice,移动互联网设备)等;“服务器”可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本申请实施例中提供了一种资源处理异常检测方法,如图2所示,该可以方法包括如下步骤:

s201,获取待检测的资源处理节点集合。

其中,上述资源处理节点可以为进行资源交互时的主体,例如资源请求主体、资源接收主体、资源转移主体等等,以资源处理为交易为例,资源转移节点可以为商户,那么以上异常检测方法就可以为检测商户的交易行为是否出现例如非法交易或诈骗等异常操作。

同时,上述资源处理节点还可以操作流程中的主体,例如操作执行主体,以资源处理为员工在岗位中的作业操作为例,则资源处理节点可以为公司员工,那么以上异常检测方法就可以为检测员工的作业操作是否符合公司的岗位规范,比如工作量过少或其他违规操作。

s202,针对资源处理节点集合中的每一资源处理节点,获取资源处理节点的资源处理特征。

具体的,可以基于资源处理节点的资源处理信息,得到该资源处理节点的资源处理特征,其中资源处理信息可以从区块链或基于c/s(服务器-客户机)架构的数据库中提取。例如,资源处理为交易的情况下,可以从数据库中提取交易数据、交易日志记录等资源处理信息,资源处理特征可以是交易时间、交易频次、交易总额等依据交易日志记录统计得到的特征。

s203,基于资源处理特征确定资源处理节点的特征误差信息。

具体的,相同节点类别的资源处理节点具有相似的资源处理模式,而特征误差信息表征了该资源处理节点与其他大多数同类的资源处理节点在资源处理特征上的差异程度。

具体的,特征误差信息可以用于表征对应的资源处理节点的异常程度,即特征误差信息越大,对应的资源处理节点越有可能为异常节点。

具体的,可以确定同类的资源处理节点的平均特征,或者确定同类的资源处理节点的共有特征,基于平均特征或共有特征与该节点的资源处理特征之间的差异,得到特征误差信息。

此外,还可以将该资源处理特征进行重构,基于重构后的特征与重构之前的特征确定特征误差信息,具体确定特征误差信息的过程将在下文进行详细阐述。

s204,获取资源处理节点的身份信息,基于身份信息确定资源处理节点的节点类别。

具体的,资源处理节点的身份信息可以是该资源处理节点的名称、文字简介等文本数据,该文本数据可以从不同的维度反映资源处理节点的节点类别。

不同类别的资源处理节点之间资源处理模式存在很大的差异,如资源处理为交易的情况下,餐饮行业和交易行业的交易时间、交易对手画像都具有显著差别,如果将所有节点类别的资源处理节点一起进行异常检测,预期效果并不会好,本申请实施例将资源处理节点分类后再进行后续的异常检测,保证了异常检测的准确率。

s205,基于属于同一节点类别的每一资源处理节点的特征误差信息,确定该节点类别每一资源处理节点的异常检测结果。

具体的,本申请可以根据特征误差信息的统计分布情况识别属于同一节点类别的资源处理节点中,资源处理异常的资源处理节点,从而得出异常检测结果。

具体的,特征误差信息表征了该资源处理节点与其他大多数同类的资源处理节点在资源处理特征上的差异程度,特征误差信息的统计分布情况包括各个资源处理节点的特征误差信息,故可以依据特征误差信息的统计分布情况可以识别属于同一类别的资源处理节点中交易异常的资源处理节点,特征误差信息越大,该资源处理节点检测为异常的概率越大。

在具体实施过程中,可以根据特征误差信息的统计分布情况,将特征误差信息大于预设误差阈值的资源处理节点作为资源处理异常的资源处理节点;也可以将最大的预设个数的特征误差信息对应的资源处理节点作为资源处理异常的资源处理节点。

本申请实施例通过属于相同节点类别的每一资源处理节点的特征误差信息,确定该节点类别中的资源处理节点的异常检测结果,采用了相同节点类别的资源处理节点具有相似的资源处理模式的特点,在获取资源处理节点的资源处理特征之后,只需根据资源处理特征确定特征误差信息就可以识别属于同一类别的资源处理节点中,资源处理异常的资源处理节点,从而得出异常检测结果。相比于现有技术中采用历史异常信息获取大量标注样本进行异常检测,本申请无需获取资源处理节点的历史异常信息,能够适应变化的异常模式,在无需标注样本数据的情况下,实现了高效、准确地资源处理异常检测。

为了更好的理解上述资源处理异常检测方法,以下详细阐述一个本申请的一个示例,以资源处理为交易为例,整个资源处理异常检测的过程可以包括:

(1)获取待检测的商户名录;

(2)针对商户名录中的每一商户,获取商户的交易特征;其中,交易特征可以基于交易数据统计得出,交易特征包括但不限于预设时间段内的交易总额、交易平均值、整额交易占比、女性交易占比等;

(3)基于交易特征确定商户的特征误差信息;具体的,因为相同类别的商户具有相似的交易模式,而特征误差信息表征了该商户与其他大多数同类的商户在交易特征上的差异程度,其表征的差异程度越大,该商户进行异常交易的概率越大;

(4)获取商户的身份信息,采用自然语言处理的方案基于身份信息确定商户的类别;其中,该身份信息可以为商户的名称、商户所属公司主体的名称、关联公众号名称或公众号简介等文本数据,该文本数据可以从不同维度反映商户的经营类目;可以将商户分为餐饮、服饰或日用品等类别;

(5)基于属于同一类别的每一商户的特征误差信息,确定该类别每一商户的异常检测结果;具体的,可以根据特征误差信息的统计分布情况识别属于同一类别的商户中交易异常的商户,从而得出异常检测结果。例如,属于餐饮类别的商户有30个,可以将这30个商户按照其特征误差信息从大到小的顺序排列,取排名在前3的商户作为餐饮类别中交易异常的商户。

在本申请实施例中,如图3所示,为交易特征的提取过程,先提取商户的交易记录,交易记录中包含有该商户的交易数据,先基于过去6个月的交易数据,统计这半年中每个月的交易总额、交易平均值、整额交易占比、各个金额段的交易额、女性交易占比、夜间交易占比等特征数据;接着对上述交易数据的时间进行划分,提取上午、下午、夜间、凌晨和周中、周末的上述特征数据;最后对上述特征数据进行统计进而完成这半年数据的特征衍生,生成交易特征。其中,统计的方式可以是计算总和、平均值、中位数或方差等,在本实施例中不作具体限制。

本申请实施例中提供了一种可能的实现方式,上述步骤s203中的基于资源处理特征确定资源处理节点的特征误差信息,可以包括:

(1)对资源处理特征进行特征重构,得到与资源处理特征对应的重构特征。

具体的,通过预训练的无监督检测网络对资源处理特征进行特征重构,该无监督检测网络可以是自编码器或鼓励森林算法等,接下来以自编码器作为无监督网络对后续步骤进行具体说明。

自编码器就是一种利用反向传播算法使得输出值等于输入值的神经网络,它现将输入压缩成潜在空间表征,然后将这种表征重构为输出。所以,从本质上来讲,自编码器是一种数据压缩算法,其压缩和解压缩算法都是通过神经网络来实现的。

如图4所示,自编码器由编码器和解码器两个部分构建,通过一个编码器将资源处理特征编码为隐变量,再通过解码器将隐变量解码,得到去除冗余后的新特征表示即重构特征,使得重构特征与原资源处理特征的均方误差最小。

本申请实施例中提供了一种可能的实现方式,上述确定资源处理特征与重构特征之间的差异值,可以包括:

a,计算资源处理特征与重构特征的均方误差。

具体的,均方误差mse(mean-squareerror)可以由如下公式(1)计算得出:

mse(x)=e【(x-x′)2】(1)

式中,mse为均方误差;x为资源处理特征;x′为重构特征。

b,将均方误差设为差异值。

自编码器进行异常检测假设了进行正常资源处理操作的资源处理节点具有相似的交易特征分布,通过对资源处理特征编码再解码的方式,得到的重构特征与原资源处理特征均方误差较小;而当资源处理节点进行异常的资源处理操作时,其资源处理特征与进行正常资源处理操作的资源处理节点的资源处理特征的分布不同,得到的重构特征与资源处理特征的均方误差会更大。

(2)基于无监督检测网络确定资源处理特征与重构特征之间的差异值,将差异值设为特征误差信息。

具体的,该均方误差可以作为该资源处理节点的异常得分即特征误差信息,对属于同一节点类别的资源处理节点进行风险评分,异常得分越大则资源处理节点的异常检测结果为资源处理异常的风险越大。

本申请实施例中提供了一种可能的实现方式,如图5所示,上述无监督检测网络是基于以下方式训练得到的:

(1)获取至少一个样本资源处理节点的样本资源处理特征;样本资源处理节点的异常检测结果均为资源处理正常;

(2)将样本资源处理特征输入到初始检测网络,得到初始检测网络输出的实时资源处理特征;

(3)基于实时资源处理特征调整初始检测网络的参数,使得实时资源处理特征与样本资源处理特征之间的误差小于预设误差阈值,生成无监督检测网络。

自编码器不受制于现有的风险模式,无需获取资源处理节点的历史异常信息,相比于现有技术中通过有监督的机器学习方案,能够适应变化的异常模式,更好的对抗网络黑产的攻击行为。

本申请实施例中提供了一种可能的实现方式,可以通过自然语言处理的方式对资源处理节点进行分类,上述步骤s204的基于身份信息确定资源处理节点的节点类别,可以包括:

(1)将身份信息转化得到资源处理节点的身份向量。

具体的,获取资源处理节点的名称、文字简介等文本数据作为身份信息,例如资源处理节点为商户的情况下,可以将商户的名称、商户所属公司主体的名称、关联公众号名称或公众号简介等文字数据作为商户的身份信息。在获取了身份信息之后首先要对上述文本数据进行预处理,将文本数据中的词转化为向量作为后续分类网络的输入。

本申请实施例中提供了一种可能的实现方式,如图6所示的身份信息转化流程图,上述将身份信息转化得到资源处理节点的身份向量,具体可以通过预训练的wordembedding(词嵌入)模型实现,词嵌入模型可以是skip-gram或glove模型,具体步骤可以包括:

a,对身份信息进行数据清洗,生成至少一个第一文本数据。

其中,对身份信息进行数据清洗包括两个步骤,先去除身份信息中的标点和特殊符号后得到文本,然后对文本进行分词处理并去除停用词,从而生成至少一个词组,即至少一个第一文本数据。

b,对至少一个第一文本数据进行拼接,生成第二文本数据。

具体的,当第一文本数据只有一个,则直接将其作为第二文本数据;当第二文本数据的数量大于或等于两个,则可以将原身份信息中,属于同一句话的至少一个第一文本数据拼接形成第二文本数据。例如,当原身份信息是“我们的大闸蟹和龙虾很鲜美!”,则可以得到“我们”、“大闸蟹”、“龙虾”、“鲜美”这四个词组即四个第一文本数据;那么对应的第二文本数据可以是“我们,大闸蟹,龙虾,鲜美”这一文本序列。

c,对第二文本数据进行词向量映射,得到资源处理节点的身份向量。

具体的,在每个资源处理节点的身份信息被转化成词向量堆积的身份向量之后,接着以具有最多文本词数的词向量为基准,对每个词向量的首端或末端用零向量进行填充,使身份向量中的每个词向量都具有相同的长度,进而每个词具有等长的向量表示,其中相近含义的词的向量表示具有较大的余弦相似度,以便后续分类处理。

(2)对身份向量进行分类,得到资源处理节点的节点类别。

具体的,可以通过textcnn(textconvolutionalneuralnetworks,文本卷积神经网络)或lstm(longshort-termmemory,长短期记忆网络)等文本分类网络对身份信息进行分类。本申请实施例以textcnn网络为例进行说明:

textcnn网络是一种一维的卷积神经网络,该网络的分类流程示意图7所述。虽然身份信息经过词向量转换后是二维数据,但是因为一个词需要完整的词向量才能表示,但是对单个词向量进行卷积没有意义,只能将所有词向量进行拼接形成矩阵,在整个拼接矩阵的维度上进行卷积。因而,可以采用基于多通道的一维卷积核在整个拼接矩阵的维度上进行卷积,得到多通道的特征图。同时,还可以增加卷积层数来提高网络复杂度。

在完成卷积之后,可以通过全局最大池化,得到身份信息的全局信息。这样,即使身份信息的前半部分指向a节点类别,但全局信息指向的是节点类别,利用全局最大池化的方式依然可以捕捉到全局信息,在提取完特征之后,可以用全连接+softmax层对其进行多分类。

具体的,textcnn网络是通过如下方式训练得到的:

a,获取样本资源处理节点的身份数据,其中身份数据包括样本身份向量和样本节点类别;

b,将样本向量输入到初始textcnn网络,得到初始textcnn网络输出的实时节点类别;

c,基于样本节点类别和节点类别确定损失函数;

d,基于损失函数对初始textcnn网络的参数进行调节,得到训练好的textcnn网络。具体的,计算出softmax函数、max-pooling函数、激活函数以及卷积核函数四个函数当中参数需要更新的梯度,来依次更新这四个函数中的参数,进而完成初始textcnn网络的参数调节过程。

textcnn网络结构简单,故网络参数数目较少因此减少了计算量,具有训练速度快、分类效果好的优点。

本申请实施例中提供了一种可能的实现方式,步骤s205中基于属于同一节点类别的每一资源处理节点的特征误差信息,确定该节点类别每一资源处理节点的异常检测结果,可以是将特征误差信息最大的预设个数的资源处理节点的异常检测结果设为资源处理异常,具体的,可以包括:

(1)获取属于该节点类别的每一资源处理节点分别所对应的差异值。

具体的,当对属于同一节点类别的所有资源处理节点都完成评估得到差异值即异常得分后,从异常得分记录中获取所有异常得分。

(2)统计差异值的分布,确定针对该节点类别的异常阈值。

具体的,将所有异常得分按照从大到小排列,可以取该异常得分序列中位于前预设比例位次的最小值作为针对该节点类别的异常阈值,例如,将位于前5%位次的最小值作为针对该节点类别的异常阈值。

(3)若任一资源处理节点对应的差异值不小于异常阈值,则该资源处理节点的异常检测结果为资源处理异常。

具体的,以异常阈值为判断依据,当资源处理节点的异常得分大于或等于异常阈值,则该资源处理节点的异常检测结果为资源处理异常,否则其异常检测结果为资源处理正常。

在一个示例中,步骤s205中确定该节点类别每一资源处理节点的异常检测结果,还可以包括:

针对每一节点类别,获取属于该节点类别的每一资源处理节点分别所对应的差异值;

选取差异值最大的预设个数的资源处理节点,作为异常检测结果为资源处理异常的资源处理节点。

具体的,将属于同一节点类别的所有资源处理节点按照异常得分从大到小的顺序排列,选取排名在前的预设比例的资源处理节点,作为异常检测结果为资源处理异常的资源处理节点。例如,选取排名在前5%的资源处理节点,作为异常检测结果为资源处理异常的资源处理节点,而其他资源处理节点为异常检测结果为资源处理正常的资源处理节点。

本申请实施例根据特征误差信息识别属于同一类别的资源处理节点中,资源处理异常的资源处理节点,从而得出异常检测结果,实现了属于同一类别的资源处理节点的整体识别和异常检测结果的判断,提高了异常检测的效率。

为了更好的理解上述资源处理异常检测方法,如图8所示,以下详细阐述一个本申请的,资源处理异常检测方法的示例:

s801,获取待检测的资源处理节点集合。

s802,针对资源处理节点集合中的每一资源处理节点,获取资源处理节点的资源处理特征。

s803,基于无监督检测网络对资源处理特征进行特征重构,得到与资源处理特征对应的重构特征。

s804,确定资源处理特征与重构特征之间的差异值。

s805,获取资源处理节点的身份信息,基于textcnn网络对身份信息进行分类,确定资源处理节点的节点类别。

s806,获取属于同一节点类别的每一资源处理节点分别所对应的差异值。

s807,选取差异值最大的预设个数的资源处理节点,作为异常检测结果为资源处理异常的资源处理节点。

本申请实施例通过属于相同节点类别的每一资源处理节点的特征误差信息确定该节点类别中的资源处理节点的异常检测结果,利用了相同节点类别的资源处理节点具有相似的资源处理模式的特点,在获取资源处理节点的资源处理特征之后,只需根据资源处理特征确定特征误差信息,就可以识别属于同一类别的资源处理节点中,资源处理异常的资源处理节点,从而得出异常检测结果。相比于现有技术中采用历史异常信息获取大量标注样本进行异常检测,本申请无需获取资源处理节点的历史异常信息,能够适应变化的异常模式,在无需标注样本数据的情况下,实现了高效、准确地资源处理异常检测。

本申请实施例提供了一种资源处理异常检测装置,如图9所示,该资源处理异常检测装置90可以包括:第一获取模块901、第二获取模块902、第一确定模块903、第二确定模块904以及第三确定模块905,其中,

第一获取模块901,用于获取待检测的资源处理节点集合;

第二获取模块902,用于针对资源处理节点集合中的每一资源处理节点,获取资源处理节点的资源处理特征;

第一确定模块903,用于基于资源处理特征确定资源处理节点的特征误差信息;

第二确定模块904,用于获取资源处理节点的身份信息,基于身份信息确定资源处理节点的节点类别;

第三确定模块905,用于基于属于同一节点类别的每一资源处理节点的特征误差信息,确定该节点类别每一资源处理节点的异常检测结果。

本申请实施例中提供了一种可能的实现方式,上述第一确定模块903,具体用于:

重构单元,用于对资源处理特征进行特征重构,得到与资源处理特征对应的重构特征;

确定单元,用于基于无监督检测网络确定资源处理特征与重构特征之间的差异值,将差异值设为特征误差信息。

本申请实施例中提供了一种可能的实现方式,上述第三确定模块905,还用于:

获取属于该节点类别的每一资源处理节点分别所对应的差异值;

统计差异值的分布,确定针对该节点类别的异常阈值;

若任一资源处理节点对应的差异值不小于异常阈值,则该资源处理节点的异常检测结果为资源处理异常。

本申请实施例中提供了一种可能的实现方式,上述确定单元,具体用于:

计算资源处理特征与重构特征的均方误差;

将均方误差设为差异值。

本申请实施例中提供了一种可能的实现方式,上述资源处理异常检测的装置还包括训练模块,具体用于:

获取至少一个样本资源处理节点的样本资源处理特征,样本资源处理节点的异常检测结果均为资源处理正常;

将样本资源处理特征输入到初始检测网络;得到初始检测网络输出的实时资源处理特征;

基于实时资源处理特征调整初始检测网络的参数,使得实时资源处理特征与样本资源处理特征之间的误差小于预设误差阈值,生成无监督检测网络。

本申请实施例中提供了一种可能的实现方式,上述第二确定模块904,包括:

转化单元,用于将身份信息转化得到资源处理节点的身份向量;

分类单元,用于对身份向量进行分类,得到资源处理节点的节点类别。

本申请实施例中提供了一种可能的实现方式,上述转化单元,具体用于:

对身份信息进行数据清洗,生成至少一个第一文本数据;

对至少一个第一文本数据进行拼接,生成第二文本数据;

对第二文本数据进行词向量映射,得到资源处理节点的身份向量。

本实施例的资源处理异常检测装置可执行本申请前述实施例所示的资源处理异常检测方法,其实现原理相类似,此处不再赘述。

本申请通过属于相同节点类别的每一资源处理节点的特征误差信息确定该节点类别中的资源处理节点的异常检测结果,利用了相同节点类别的资源处理节点具有相似的资源处理模式的特点,在获取资源处理节点的资源处理特征之后,只需根据资源处理特征确定特征误差信息就可以识别属于同一类别的资源处理节点中,资源处理异常的资源处理节点,从而得出异常检测结果。相比于现有技术中采用历史异常信息获取大量标注样本进行异常检测,本申请无需获取资源处理节点的历史异常信息,能够适应变化的异常模式,在无需标注样本数据的情况下,实现了高效、准确地资源处理异常检测。

本申请实施例中提供了一种电子设备,该电子设备包括:存储器和处理器;至少一个程序,存储于存储器中,用于被处理器执行时,与现有技术相比可实现:通过属于相同节点类别的每一资源处理节点的特征误差信息确定该节点类别中的资源处理节点的异常检测结果,利用了相同节点类别的资源处理节点具有相似的资源处理模式的特点,在获取资源处理节点的资源处理特征之后,本申请只需根据资源处理特征确定特征误差信息就可以识别属于同一类别的资源处理节点中,资源处理异常的资源处理节点,从而得出异常检测结果。相比于现有技术中采用历史异常信息获取大量标注样本进行异常检测,本申请无需获取资源处理节点的历史异常信息,能够适应变化的异常模式,在无需标注样本数据的情况下,实现了高效、准确地资源处理异常检测。

在一个可选实施例中提供了一种电子设备,如图10所示,图10所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是cpu(centralprocessingunit,中央处理器),通用处理器,dsp(digitalsignalprocessor,数据信号处理器),asic(applicationspecificintegratedcircuit,专用集成电路),fpga(fieldprogrammablegatearray,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp和微处理器的组合等。

总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是pci(peripheralcomponentinterconnect,外设部件互连标准)总线或eisa(extendedindustrystandardarchitecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是rom(readonlymemory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,ram(randomaccessmemory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是eeprom(electricallyerasableprogrammablereadonlymemory,电可擦可编程只读存储器)、cd-rom(compactdiscreadonlymemory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。

存储器4003用于存储执行本申请方案的应用程序代码(计算机程序),并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述方法实施例所示的内容。

其中,电子设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。图10示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。

应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1