用户操作行为数据的检测方法、装置及电子设备与流程

文档序号:31496918发布日期:2022-09-14 07:27阅读:26来源:国知局
用户操作行为数据的检测方法、装置及电子设备与流程

1.本发明涉及计算机技术领域,尤其涉及一种用户操作行为数据的检测方法、装置及电子设备。


背景技术:

2.现有技术中,异常检测系统在发现网络中的违规行为方面发挥了重要作用。由于难以直接从海量数据中提取出异常流量,现有的异常检测设备所采用的方式是对所有流量数据进行随机抽样,对提取到的异常流量进行进一步的分析,但是由于网络中用户正常行为的流量数据远远多于异常流量数据,因此随机抽样的采样方式会遗漏大量的异常流量。采用现有技术中的传统机器学习、深度学习算法或随机抽样进行异常检测在实际操作的过程中主要有下列几项问题:参数设置较难、假定条件过多、数据内容限制较多等。


技术实现要素:

3.本发明提供一种用户操作行为数据的检测方法、装置及电子设备,用以解决现有技术中对用户行为进行异常检测中会遗漏大量的异常流量以及采取有关算法进行异常检测存在算法的参数设置较难、假定条件过多以及数据内容限制较多等问题,实现根据用户操作行为的情况进行实时监测及对可能的违规操作做出预测。
4.本发明提供一种用户操作行为数据的检测方法,包括:
5.采集用户操作行为数据,所述用户操作行为数据用于分析用户的操作行为是否异常;
6.对所述用户操作行为数据进行实体抽取,得到实体识别数据,所述实体识别数据用于提取与用户异常操作行为有关的数据;
7.对所述实体识别数据进行特征选择和特征降维,得到降维后的特征数据,所述特征数据为通过特征选择和特征降维实现特征抽取和数据压缩的数据;
8.对所述特征数据进行聚类分析,得到各种操作行为的归类数据,所述归类数据用于将用户的各种操作行为进行归类;
9.采用异常检测算法对所述归类数据进行数据分析,得到用户正常操作行为的正常数据与用户异常操作行为的异常数据。
10.根据本发明提供的一种用户操作行为数据的检测方法,所述采集用户操作行为数据,包括:
11.基于第一数据库采集用户操作行为数据,所述第一数据库中存储有关系型数据和记录用户各种操作行为的日志数据;
12.所述用户操作行为数据包括用户各种操作开始/结束时间、操作具体步骤、操作顺序、操作最终结果的一种或多种组合的数据。
13.根据本发明提供的一种用户操作行为数据的检测方法,所述对所述用户操作行为数据进行实体抽取,得到实体识别数据,包括:
14.对所述用户操作行为数据的部分数据进行标注以作为训练数据,并利用神经网络训练实体抽取模型;
15.基于所述实体抽取模型,对所述用户操作行为数据进行实体抽取,得到实体识别数据;其中,
16.所述实体抽取模型的第一层为词嵌入层,用于将输入的单词序列训练成词向量输出;
17.所述实体抽取模型的第二层,用于将第一层输出的词向量输入至bilstm层进行训练以学习单词与输出标签的关系,所述bilstm层包括正向lstm网络和反向lstm网络,正向lstm网络和反向lstm网络通过一输出层进行连接;
18.所述实体抽取模型的第三层是在bilstm层的输出序列上设有注意力模型,用于处理标签问题以使所述实体抽取模型更好聚焦局部特征并突出关键词的重要作用;
19.所述实体抽取模型的第四层为所述注意力机制后所使用的crf层,用于通过转移矩阵输出标签之间的转移得分,并基于每个标签的转换规律以及标签语法的合理性,得到最佳标签序列。
20.根据本发明提供的一种用户操作行为数据的检测方法,所述对所述实体识别数据进行特征选择和特征降维,得到降维后的特征数据,包括:
21.将所述实体识别数据和第二数据库中存储的数据进行汇总,所述第二数据库中存储有办理用户业务的数据;
22.对数据中出现的异常值/重复值进行处理;
23.对处理后的数据进行特征选择,并存储经过选择过滤的特征选择数据;
24.基于所述特征选择数据计算表征数据相关性的协方差矩阵,并对其进行特征分解,得到特征值和特征向量集合;
25.将所述特征值和特征向量集合投影至特征矩阵,得到降维后的特征数据,并将所述特征数据进行存储。
26.根据本发明提供的一种用户操作行为数据的检测方法,所述对所述特征数据进行聚类分析,得到各种操作行为的归类信息,包括:
27.基于k-means密度聚类算法,将所述特征数据的集合按照特征相似度分成属于不同簇类对象,包括将特征相似的数据分布于同一簇中,将特征不相似的数据分布在簇外;
28.基于所述特征数据分布的密度进行数据分析,得到各种操作行为的归类数据;
29.所述k-means密度聚类算法是通过在聚类之前预先设定阈值,基于所述特征数据的密度、簇内平均距离和簇间距离计算出权重,采用加权的欧氏距离计算出所述特征数据的距离,并通过计算得到的所述特征数据的密度、权值和距离来选择初始聚类中心,得到所述k-means密度聚类算法的初始输入参数。
30.根据本发明提供的一种用户操作行为数据的检测方法,所述基于异常检测算法对所述归类数据进行数据分析,得到用户正常操作行为的正常数据与用户违规操作行为的异常数据,包括:
31.采用孤立森林、one class svm以及局部异常因子三种异常检测算法分别对所述归类数据进行异常打分,得到对应的异常打分值;
32.将所述三种异常检测算法输出的异常打分值进行加权归一,得到针对所有用户的
异常打分值的排名;
33.根据所述异常打分值的排名,确定用户正常操作行为的正常数据与用户违规操作行为的异常数据。
34.根据本发明提供的一种用户操作行为数据的检测方法,所述基于异常检测算法对所述归类数据进行数据分析,得到用户正常操作行为的正常数据与用户违规操作行为的异常数据之后,还包括:
35.若确定为用户违规操作行为的异常数据,则以邮件、短信方式告知系统管理员及相关的技术人员,以及对部分异常数据启动灾备机制以解决异常的问题。
36.本发明还提供一种用户操作行为数据的检测装置,包括:
37.数据采集模块,用于采集用户操作行为数据,所述用户操作行为数据为描述用户各种操作行为的数据;
38.实体抽取模块,用于对所述用户操作行为数据进行实体抽取,得到实体识别数据,所述实体识别数据为从所述用户操作行为数据中提取和异常数据有关的数据;
39.特征选择模块,用于对所述实体识别数据进行特征选择和特征降维,得到降维后的特征数据,所述特征数据为通过特征选择和特征降维来实现特征抽取和数据压缩的数据;
40.聚类分析模块,用于对所述特征数据进行聚类分析,得到各种操作行为的归类数据,所述归类数据用于将用户的各种操作行为进行归类;
41.异常检测模块,用于采用异常检测算法对所述归类数据进行数据分析,得到用户正常操作行为的正常数据与用户违规操作行为的异常数据。
42.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述用户操作行为数据的检测方法的步骤。
43.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述用户操作行为数据的检测方法的步骤。
44.本发明提供的用户操作行为数据的检测方法、装置及电子设备,通过对用户操作行为数据进行实体抽取、特征选择、特征降维、聚类分析以及异常检测算法分析,能够有效地检测出用户异常操作行为的异常数据。
附图说明
45.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
46.图1是本发明提供的用户操作行为数据的检测方法的流程示意图;
47.图2是本发明提供的实体抽取步骤的流程示意图;
48.图3是本发明提供的实体抽取模型的结构示意图;
49.图4是本发明提供的特征处理步骤的流程示意图;
50.图5是本发明提供的聚类分析步骤的流程示意图;
51.图6是本发明提供的异常打分步骤的流程示意图;
52.图7是本发明提供的用户操作行为数据的检测装置的结构示意图;
53.图8是本发明提供的电子设备的结构示意图。
具体实施方式
54.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
55.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。
56.随着大数据时代的到来,互联网的用户数量急剧增加,网络中的数据量呈现海量增长的趋势,网络系统安全中的作弊违规问题呈现出逐年上升的趋势.网络安全事件愈发严峻,作弊违规行为大幅上升,发现网络中可能存在的威胁变得愈发重要。通过对用户操作进行研究与分析,能够尽早发现违规操作的用户,从而保障网络安全与系统正常运行。因此,通过异常检测发现用户行为中存在的违规操作成为当前亟需解决的问题。
57.由于网络预防机制仍需完善,因此进行安全监测、发现作弊行为变得愈发重要。异常检测是通过采集用户操作时的信息,并对采集信息进行分析,从而检测是否存在违规行为。现有技术中,常用的异常检测方法主要有机器学习、深度学习等,例如决策树(decision tree)、随机森林(random forest)、支持向量机(svm)、adaboost、gbdt(gradient boosting decision tree)、神经网络等方法。
58.现有技术中,使用传统机器学习、深度学习算法或随机抽样进行异常检测在实际操作的过程中主要有下列几项问题:
59.第一,参数设置较难。
60.传统的异常检测算法在寻找最优参数时的难度较大,特别是基于邻近度的方法,这些算法通过离群强度概念量化异常程度,消耗时间和复杂度随维数增加,参数搜索较难,在建模过程中需要耗费大量的时间来确定模型相关参数。
61.第二,特征工程可能不够准确,个别算法假定条件过多。
62.到目前为止,已存在许多利用用户操作日志进行异常行为分析的方法。但是在特征工程方面,没有一个系统详细的描述,并且有关类别的统计特征不能用于单层分类模型中,这使得检测效率受到限制。传统的分类算法有逻辑回归算法(lr),支持向量机算法(svm),朴素贝叶斯算法(nb),k近邻算法(knn)等。对于逻辑回归模型而言,当特征空间较大时,模型的表现效果不是很好,容易出现过拟合现象。当观测变量较多时,支持向量机的分类效率不是很高,并且很难找到一个适合的核函数。对于朴素贝叶斯模型而言,该模型对输入数据的表达形式比较敏感,并且需要计算先验概率,k近邻模型的时间和空间复杂度都比较高,需要花费较长的运行时间,效率低下。除此之外,这些算法不能同时满足低方差和低偏差。例如,朴素贝叶斯是高偏差、低方差的分类器,相反地,k近邻模型是低偏差、高方差的
分类器。所以,基于这些传统机器学习算法的异常行为异常检测系统普遍存在无法实现在检测率和误报率之间达到平衡的特点。
63.第三,人工维护方式的成本投入大。
64.用户操作是否合规有时也需要由这一方面富有经验的专业人员来做出判断。在人工运维时,人工的成本较高,系统越复杂需要投入的人力越多,成本自然会更高,且人工运维无法做到24小时不间断进行异常监测工作。
65.第四,数据内容限制较多。
66.传统的异常检测算法在训练时所需数据项为已经统计好的数字型数据,但在某些系统中所存储的用户日志文件可能多为非结构化的文本数据,这些数据中包含着大量重要信息,如果不加以提取将会对结果产生较大影响,但传统异常检测方法缺少这种信息提取的步骤,无法对这些文本数据进行处理。
67.因此,基于上述现有技术存在的问题,本发明提供了一种用户操作行为数据的检测方法、装置及电子设备,通过对用户前台操作的各种行为数据进行分析及结合数据挖掘的技术对用户行为的情况进行实时监测及对可能的违规操作做出预测,,能够有效地检测出用户异常操作行为的异常数据。
68.以下对本发明涉及的技术术语进行描述:
69.(1)信息抽取
70.信息抽取(information extraction,ie)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务。信息以统一的形式集成在一起的好处是方便检查和比较。信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的,那将由系统设计时定下的领域范围而定。
71.信息抽取任务主要包括实体抽取、关系抽取等。实体抽取,又称作命名实体识别(named entity recognition,简称ner),是指从非结构化文本中识别出具有特定意义的实体命名性指称项,并注明其类别(例如人名、地名、机构组织名、金额数目等)。具体细分类别的话,实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
72.实体识别通常需要完成两方面的工作,具体为识别实体词边界及识别实体词类别。中英文在识别任务中侧重点又有所不同,英语中的实体信息的特征较为明显,通常为单词首字母大写,因此原文的ner任务难度相对简单,侧重点更多关注识别实体词类别。但中文的实体识别任务难度更大,不光要侧重实体类别,还需要寻找实体边界。
73.(2)聚类分析
74.聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。
75.聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到发展,这些技术方法被用作描述数据和衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。
76.(3)异常检测
77.在数据挖掘中,异常检测对不匹配预期模式或数据集中其他项目的项目、事件或观测值的识别。通常异常项目会转变成银行欺诈、结构缺陷、医疗问题、文本错误等类型的问题。异常也被称为离群值、新奇、噪声、偏差和例外。
78.有三大类异常检测方法。在假设数据集中大多数实例都是正常的前提下,无监督异常检测方法能通过寻找与其他数据最不匹配的实例来检测出未标记测试数据的异常。监督式异常检测方法需要一个已经被标记“正常”与“异常”的数据集,并涉及到训练分类器(与许多其他的统计分类问题的关键区别是异常检测的内在不均衡性)。半监督式异常检测方法根据一个给定的正常训练数据集创建一个表示正常行为的模型,然后检测由学习模型生成的测试实例的可能性。
79.下面结合图1-图8描述本发明所述一种用户操作行为数据的检测方法、装置及电子设备。
80.图1是本发明提供的用户操作行为数据的检测方法的流程示意图,如图所示。一种用户操作行为数据的检测方法,包括:
81.步骤101,采集用户操作行为数据,所述用户操作行为数据用于分析用户的操作行为是否异常。
82.可选的,可基于第一数据库(系统数据库)采集包括前台系统层面的全部用户操作行为数据,所述第一数据库中存储有关系型数据和记录用户各种操作行为的日志数据。
83.所述用户操作行为数据包括但不限于用户各种操作开始/结束时间、操作具体步骤、操作顺序、操作最终结果的一种或多种组合的数据。
84.步骤102,对所述用户操作行为数据进行实体抽取,得到实体识别数据,所述实体识别数据用于提取与用户异常操作行为有关的数据。
85.可选的,可通过本发明改进lstm-crf的实体抽取算法对采集到的用户操作行为数据进行实体抽取,可从大量非结构化文本数据中提取到与异常操作行为有关的数据,比如用户操作行为名称等。
86.由于系统内用户前台操作日志数据较多、历史数据量较大、少量的异常数据存在等特殊情况,因此需要对日志数据内的操作行为做一定的实体抽取工作,本发明利用自然语言处理的实体识别技术并结合深度学习算法提取实体信息,在抽取时增加了bilstm双向循环神经网络与注意力机制,脱离传统的人工标注日志的方法,节约大量人力成本,且准确率较高。
87.步骤103,对所述实体识别数据进行特征选择和特征降维,得到降维后的特征数据,所述特征数据为通过特征选择和特征降维实现特征抽取和数据压缩的数据。
88.可选的,针对所述实体识别数据存在的维度过高问题,可使用基于pca(principal components analysis,主成分分析)的特征降维处理,可降低预测模型的复杂程度,降低那些对模型重要程度较低的特征权重,剔除缺失数据,提高后续建模的准确性。
89.系统中收集到的数据特征众多,可能存在“维数灾难”的问题。“维数灾难”造成关键的因素和数据被淹没,无法被挖掘,进而造成预测精度陷入瓶颈,难以继续提高,且高维度的、巨量的数据造成预测模型越来越复杂,计算速度随之下降。本发明基于以上问题,采用基于主成分分析(pca)的方法对高维度的数据进行降维处理,提高预测精度,降低预测模
型的复杂程度,实现特征抽取和数据压缩。
90.步骤104,对所述特征数据进行聚类分析,得到各种操作行为的归类数据,所述归类数据用于将用户的各种操作行为进行归类。
91.可选的,可使用k-means(k-均值聚类)密度聚类算法将用户操作数据集合分成属于不同簇类对象,使得分布在同一簇中的操作行为特征高度相似,而不同簇的对象之间特征差距较大,直到把所有的点都聚合完毕。通过运用聚类的分析技术方法,不仅能够实现对操作数据的稀疏和稠密区域实时快速的划定与识别,而且还能够达到对其所存在的独立簇、独立点等被及时地发现,从而挖掘与分析出隐藏在各个数据背后内在的相关数理关系。
92.本发明是在上述步骤103的特征降维后的数据基础上基于改进后的k-means算法来对用户操作数据做聚类分析,改进算法同时考虑了样本密度、簇内平均距离和簇间距离,寻找和发现动态性数据内在的各种具有相关性的数理关系规律,挖掘出动态性操作数据的情报价值,从而为用户操作合规提供预测和决策服务。引入基于聚类算法的操作数据研究,不仅能够降低人工随机抽样用户的成本,而且还能够进一步提升用户数据挖掘的效能和优化异常分析的准确性,从而改变传统异常分析的分散性和局部性,必将成为用户行为分析内在发展的必然趋势。
93.步骤105,采用异常检测算法对所述归类数据进行数据分析,得到用户正常操作行为的正常数据与用户异常操作行为的异常数据。
94.可选的,可基于加权融合三种异常检测算法(孤立森林、one class svm以及局部异常因子)的得分值来对用户操作行为进行预测计算,将上一步骤104中的聚类结果进行更深入的分析,全面识别和评价最可能影响系统的各种异常用户操作。
95.异常检测分析的主要任务是在正常的用户数据集中提取出小概率的异常数据点,本发明采用孤立森林、one-class svm以及局部异常因子这三种种算法的集成来全面识别和评价最可能影响系统的各种异常用户操作,利用这三种算法以加权融合的方式完成异常检测,可以分别得到所有操作行为的异常打分,不再仅依赖某一种异常检测算法来做预测判断,这样能够极大提升预测准确率与效率。
96.综上所述,为了能够较为准确的对用户操作行为进行合规性分析及对未来可能会发生的问题进行预测告警,本发明通过对用户前台操作的各项数据进行收集,并结合实体识别技术、特征选择、特征降维、文本聚类分析及异常检测算法来对所有需要关注的用户操作行为数据进行建模,从而能够有效地检测出用户异常操作行为的异常数据。
97.以下将通过具体实施例对上述步骤101~105进行描述。
98.图2是本发明提供的实体抽取步骤的流程示意图,图3是本发明提供的实体抽取模型的结构示意图,如图2、图3所示。上述所述步骤102中,所述对所述用户操作行为数据进行实体抽取,得到实体识别数据,包括:
99.步骤201,对所述用户操作行为数据的部分数据进行标注以作为训练数据,并利用神经网络训练实体抽取模型。
100.由于系统数据库中除了保存有关系型数据外,还保留有大量日志文件,这些日志文件中记录了用户的各种操作信息,因此有必要从这些日志文件提取到相关的操作行为实体信息。但如果通过人工筛选或标注的方式来提取数据会耗费大量人力成本,且准确率也无法保证。
101.因此,本发明使用自然语言处理技术中的实体识别方法并结合深度学习算法来对系统数据库中存储的日志文件提取实体信息。具体方式是首先标注部分训练数据并利用神经网络训练实体抽取模型,使神经网络学习到日志文件中的句法、词法特征,最终使用该模型对更多数据做出预测。
102.步骤202,基于所述实体抽取模型,对所述用户操作行为数据进行实体抽取,得到实体识别数据。
103.由于用户操作日志内的文本数据常常面临所需处理文本篇幅不定、文本夹带很多无关网络用词等情况,传统的实体抽取模型针对这一特殊情况识别效果受到极大影响,所以本发明对传统的ner(name entity recognition,命名实体识别)模型进行优化调整,具体如下:
104.(1)实体抽取模型的第一层
105.所述实体抽取模型的第一层为词嵌入层,用于将输入的单词序列训练成词向量输出。
106.具体的,本发明采用word2vec(word to vector,用于产生词向量的相关模型)中的cbow(连续词汇)模型进行词向量训练,cbow模型通过对上下文分析确定每个词的位置,输出每个单词的词向量作为下一层神经网络输入的各个时间步。
107.(2)实体抽取模型的第二层
108.所述实体抽取模型的第二层,用于将第一层输出的词向量输入至bilstm(bi-directional long short-term memory,缩写bilstm)层进行训练以学习单词与输出标签的关系,所述bilstm层包括正向lstm(long short-term memory,缩写lstm)网络和反向lstm网络,正向lstm网络和反向lstm网络通过一输出层进行连接。双向lstm网络会通过正向lstm以及反向lstm得到相对应的隐含输出序列,将其拼接组成每一个时刻的完整隐含序列,作为下一层的输入,通过bilstm层产生的隐藏状态组成的矩阵为h={h1,h2,
……
,hj}。
109.以下对bilstm层的算法改进进行描述(如图3所示):
110.传统ner模型使用单向lstm结构,单向lstm结构只能记录t时间步之前的输入,无法获取未来时间步的信息。当遇到文本篇幅短小的情况时,模型需要更有效地抓住仅有的特征信息,兼顾上下文语境,才能更有效地捕捉到特征。
111.而双向lstm结构(bilstm)可以有效解决这一问题,bilstm由向后两单向lstm组成,两个网络结构中间用一个输出层进行连接。前向lstm将数据通过输入层进入神经网络结构,按照正常计算与传递方式在输出层得到训练结果。反向lstm是指在训练过程中,神经网络将误差逐层传递至输入层,并根据误差对每一层的网络参数进行更新。双向lstm模型同时考虑过去和未来时刻的序列信息,实现完整记录每一个时间步未来与过去信息的目标,当文本篇幅短小时,预测的结果也能相对准确。
112.(3)实体抽取模型的第三层
113.所述实体抽取模型的第三层是在bilstm层的输出序列上增加注意力机制(注意力模型),用于处理标签问题以使所述实体抽取模型更好聚焦局部特征并突出关键词的重要作用,为bilstm层的输出分配不同的权重,新的输出向量则是由各特征向量与对应权重的乘积相加后获得。
114.对于i时刻的模型输出向量,模型利用注意力权重分布向量对编码的源序列的隐
藏层输出进行加权求和计算,得到针对当前输出的源序列编码结果,公式如下:
[0115][0116]
其中,ci表示利用注意力机制输出新的字特征向量,它是由前序模型输出的各特征向量hj与对应权重a
ij
的乘积和计算得到。a
ij
由前一时刻字特征向量c
i-1
与hj通过下面的两个公式计算得出。注意力层即对所有时刻的输出乘上对应的权重相加作为最终输出,如下:
[0117][0118]eij
=vatanh(wac
i-1
+wbhj)。
[0119]
其中,va,wa,wb为权重。
[0120]
上述提到的注意力系数a
ij
,又称为感知机,bilstm生成的隐藏层hj的值是通过感知机a
ij
来测量与输出标签的位置i的关系。隐藏层不仅包含了文本全局信息,还包含文本的局部关键词信息,通过加权求和得到当前时间步的输出状态。接着还需要进行线性转换,使其与标签维度相对应,再经过softmax(用于将神经网络的输出结果转化成概率表达式)算法得到最后的输出向量。为了换取较高精度,本模型中采用的注意力模型是由加法模型组成的。
[0121]
本发明引入的注意力模型(attention model)可广泛应用在不同的深度学习领域中,能够帮助ner模型更好地聚焦局部特征,在极小篇幅中抓住文本重点。并且引入注意力模型,模型将重点关注打标签单词附近的其他单词,而适当忽略距离较远或无关的单词信息。概率分布值代表注意力模型给出的各个单词注意力值,有效展示了注意力模型聚焦的区域。
[0122]
结合bilstm,合成整个句子中间语义的变换函数,公式为:
[0123][0124]
注意力模型的当前状态ci需要通过输入句子的长度l
x
、注意力系数a
ij
和第j个单词的状态值hj共同决定。注意力模型的更新由注意力系数决定,输出项分给输入项的注意力越多,其对应的a
ij
数值就越大。
[0125]
(4)实体抽取模型的第四层
[0126]
所述实体抽取模型的第四层为所述注意力机制后所使用的crf层,用于通过转移矩阵输出标签之间的转移得分,并基于每个标签的转换规律以及标签语法的合理性,得到最佳标签序列。
[0127]
具体的,在注意力机制后使用crf,可使用维特比解码得到最佳标签序列,输出最佳的解决方案。
[0128]
由此可知,现有技术是采用lstm-crf的实体抽取算法,本发明是采用对lstm-crf进行改进的bilstm-crf的实体抽取算法,bilstm是由双向lstm网络结构组成。crf是一种常用的序列标注算法,可用于词性标注,分词,命名实体识别等任务。本发明所采用的bilstm+crf是将bilstm和crf结合在一起,使模型既可以像crf一样考虑序列前后之间的关联性,又
可以拥有lstm的特征抽取及拟合能力。
[0129]
综上所述,本发明将自然语言处理领域的实体抽取技术应用于用户操作数据收集中,并针对用户日志文本的特殊性对命名实体识别模型进行相应改进,在现有技术的lstm-crf命名实体识别模型的基础上,将单向lstm改成双向lstm,并加入注意力模型。改进后的命名实体识别模型应用于面向数据领域的用户行为分析工作中,对操作步骤重点关注的文本进行命名实体识别,帮助异常检测系统高效挖掘有价值的信息,对海量日志信息的特征捕捉取得了良好效果。
[0130]
图4是本发明提供的特征处理步骤的流程示意图,如图所示。上述所述步骤103中,所述对所述实体识别数据进行特征选择和特征降维,得到降维后的特征数据,包括:
[0131]
将上述步骤102中提取到的实体识别数据以及第二数据库内存储的离散型数据结合起来后,这些数据可能存在“维数灾难”的问题。一方面,“维数灾难”造成关键的因素和数据被淹没,无法被挖掘,进而造成预测精度陷入瓶颈,难以继续提高;另一方面,高维度的、巨量的数据造成预测模型越来越复杂,计算速度也越来越慢,不得不对计算能力不断扩容,造成计算能力的浪费,所以为了不断提高预测精度,降低预测模型的复杂程度,在构建特征向量集时先对高维度的数据进行降维处理是必要的。本发明采用基于主成分分析法(pca)的特征降维和特征选择来实现特征抽取和数据压缩。具体如下:
[0132]
步骤401,根据系统数据库和实际业务需求,将所述实体识别数据和第二数据库中存储的数据进行汇总,所述第二数据库中存储有办理用户业务的数据。
[0133]
具体的,将系统数据库中存储的数据(即经过处理的所述实体识别数据)和第二数据库中存储的数据(即办理用户业务的数据)这两类数据加载汇聚在一起。
[0134]
步骤402,对数据中出现的异常值/重复值进行处理。
[0135]
具体的,对数据中的出现一些异常数据进行处理,比如,性能数据超出正常范围阈值的记录,采用直接删除的方法将异常值别除;对数据中的出现重复现象进行处理,出现重复值可能是平台程序重复启动或在入库阶段出现问题导致。可采用合并法,通过判断记录间的属性值是否相等,将相等的记录合并为一条记录。
[0136]
步骤403,对处理后的数据进行特征选择,并存储经过选择过滤的特征选择数据。
[0137]
在在机器学习中,特征选择一般有两个目的:第一,减少特征数量,提高训练速度;第二,减少噪声特征从而提高模型在测试集上的准确率。常用的特征选择算法有很多,比如卡方检验和互信息。
[0138]
具体的,对离散类型数据通过离散式计算方法获得选择结果,主要包括卡方检验和互信息;而对连续类型数据则通过连续式计算方法获得选择结果,主要包括皮尔森相关系数(pearson correlation coefficient)和费希尔得分方法(fisher

s scoring method),并存储经过选择过滤的特征数据,为进一步的数据分析提供支持。
[0139]
步骤404,基于所述特征选择数据计算表征数据相关性的协方差矩阵,并对其进行特征分解,得到特征值和特征向量集合。
[0140]
步骤405,将所述特征值和特征向量集合投影至特征矩阵,得到降维后的特征数据,并将所述特征数据进行存储。
[0141]
具体的,可通过主成分分析(pca)算法来实现数据降维,所述存储降维后的特征数据可作为深度学习预测系统与大数据分析处理系统的数据基础。
[0142]
上述所述主成分分析(pca)算法如下:
[0143]
对用户前台的操作行为数据展开主成分分析,获得降低维度的主成分分量。将所有操作行为数据整理成样本矩阵,矩阵大小为m
×
k维:
[0144][0145]
中心化样本矩阵:
[0146][0147]
计算特征数据集的方差:
[0148][0149]
其中,x表示特征数据xi的集合。
[0150]
计算协方差矩阵的特征值并取出最大的d个特征值所对应的特征向量,输出投影矩阵,假设通过变换后的坐标系是{w1,w2,

,wd},其中w为标准正交基向量。如果将数据降维后,特征数据xi于低维坐标系的投影为zi=(z
i1
,z
i2
,

,z
id
),于zi来构造xi,结果为:
[0151][0152]
重构的与原本的xi的距离为:
[0153][0154]
其中,constμ为常量,可忽略。
[0155]
为了达到降维效果,应使上式最小,由于代表协方差矩阵,计算出最少的特征维度:
[0156][0157]
以上式为约束函数,得出pca降维之后的主成分分量。
[0158]
综上所述,在收集到的用户操作数据集维度过高而无法构建有效数据模型的,而在数据表现层,高纬度的大量数据会导致数据处理算法的计算复杂度呈指数级增加,甚至出现维度爆炸,严重影响系统运行效率。pca数据降维是一种可以在降低数据维度的同时,
尽可能保留原有数据主要信息的特征处理和数据压缩方法。pca降维能够保留足够的信息用以区分不同的类别,可以有效存储数据信息,降低数据复杂度,还能够帮助数据集进行潜在性的扩展可能。
[0159]
进一步的,本发明可由不同功能的模块组合实现上述步骤101~103。比如,通过系统设置如下功能的模块:
[0160]
核心数据库,用于存储平台采集的各项数据,为其他模块提供数据基础。数据预处理模块,用于对原始数据进行缺失值填充、去除数据冗余以及非数值型数据编码等处理,并进行归一化与中心化操作,统一数据结构,以方便后续计算。数据降维压缩模块,用于采用主成分分析技术(pca)对数据进行降维,减小数据量,为深度学习预测模型提供数据支持;数据特征抽取模块根据数据类型采用相应标准进行特征抽取,提取数据关键信息,为大数据分析处理提供数据基础。
[0161]
上述所述功能模块只是本发明实现上述步骤101~103的示例,本发明并不限于上述功能模块。
[0162]
图5是本发明提供的聚类分析步骤的流程示意图,如图所示。上述步骤104中,所述对所述特征数据进行聚类分析,得到各种操作行为的归类信息,包括:
[0163]
步骤501,基于k-means密度聚类算法,将所述特征数据的集合按照特征相似度分成属于不同簇类对象,包括将特征相似的数据分布于同一簇中,将特征不相似的数据分布在簇外。
[0164]
可选的,所述k-means密度聚类算法是通过在聚类之前预先设定阈值,基于所述特征数据的密度、簇内平均距离和簇间距离计算出权重,采用加权的欧氏距离计算出所述特征数据的距离,并通过计算得到的所述特征数据的密度、权值和距离来选择初始聚类中心,得到所述k-means密度聚类算法的初始输入参数。
[0165]
步骤502,基于所述特征数据分布的密度进行数据分析,得到各种操作行为的归类数据。
[0166]
本发明以经过特征选择后的所述特征数据为研究对象,通过k-means(k均值聚类算法)密度聚类算法分析挖掘用户行为操作数据,将用户操作分为多个簇,这些操作中以符合规范的为主,聚类分析是发现这些合规操作的簇集,违规操作的数据往往分布在这些簇外,通过聚类能够自动化发现这些违规操作行为。
[0167]
以下对k-means密度聚类算法进行具体描述:
[0168]
经典k-means聚类算法的基本思想是:输入聚类数目k之后,首先从数据集中随机选取k个样本点作为初始聚类中心,然后计算各个样本点分别到k个初始聚类中心的距离,将样本按照距离最小原则归类,形成k个簇,再计算各个簇的平均值得到新的聚类中心,不断重复上述过程,直到聚类中心不再发生变化或者迭代次数达到设定的值之后,算法结束。
[0169]
k-means算法在计算样本之间距离时可采用欧氏距离,所述样本之间距离的计算公式如下:
[0170]
[0171]
其中,上式中的xi={x
i1
,x
i2
,

,x
im
}和xj={x
j1
,x
j2
,

,x
jm
}为任意两个维度等于m的样本点;x
ip
表示样本i对应第p个维度的具体取值。
[0172]
本发明对上述经典k-means算法进行改进,如下:
[0173]
经典k-means聚类算法具有一定的局限性,由于算法的初始聚类中心是随机设置的,聚类结果不稳定而且易陷人局部最优,结果易受噪声点影响;在聚类之前需要用户预先设定k值,算法的自适应性较差。针对上述问题,本发明提出一种基于距离和权重改进的k-means算法,权重的计算综合了样本密度、簇内平均距离和簇间距离,并且样本距离的计算采用的是加权的欧氏距离,加大了数据属性之间的区分程度,减少了异常点的影响,然后通过计算得到的样本密度、样本权值和距离来选择初始聚类中心,得到k-means聚类算法的初始输入参数。
[0174]
具体步骤如下:
[0175]
步骤1:对于给定的数据集d,计算得到数据集内所有样本的密度和数据集d内所有样本元素的权重w。第一个初始聚类中心就选择d中密度最大的对象c1,将之添加到聚类中心点的集合c中,此时c={c1},然后将d中所有距离点c1小于meandist(d)的点删除。
[0176]
样本的密度计算公式:
[0177][0178]
所有样本元素的权重w的计算公式:
[0179][0180]
meandist(d)计算公式:
[0181][0182]
步骤2:选择具有最大τi=ωi·dω
(xi,c1)值的点xi作为第2个初始聚类中心,记为c2,将c2添加到集合c中,此时c={c1,c2},与第一步类似的,将d中所有距离c2小于meandist(d)的点删除。
[0183]
步骤3:选择具有最大τi=ω
i`
·dω
(x
i`
,c2)值的点x
i`
,作为第3个初始聚类中心,记为c3,将c3添加到集合c中,此时c={c1,c2,c3},将d中所有距离c3小于meandist(d)的点删除,类似的不停重复上述过程,直到数据集d变为空集。此时c={c1,c2,

,ck},由此得到k个初始聚类中心,即集合c中的样本点。
[0184]
步骤4:以上面步骤得到的初始聚类中心和聚类数为输入,对给定数据集d进行k-means聚类运算,直到聚类中心不再变化。
[0185]
步骤5:输出最终聚类结果。
[0186]
综上所述,本发明基于密度聚类算法的用户操作规范性分析,可以智能化的对用户操作行为规律进行挖掘,降低人工审核造成的高成本缺点及无法保证人工预测的准确性和实时性的问题。改进的k-means算法排除了孤立点的影响,有效解决了经典k-means算法
的抗噪性差以及易陷入局部最优的缺点,并且提高了算法的稳定性。
[0187]
图6是本发明提供的异常打分步骤的流程示意图,如图所示。上述步骤105中,所述基于异常检测算法对所述归类数据进行数据分析,得到用户正常操作行为的正常数据与用户违规操作行为的异常数据,包括:
[0188]
步骤601,采用孤立森林、one class svm以及局部异常因子三种异常检测算法分别对所述归类数据进行异常打分,得到对应的异常打分值。
[0189]
具体的,经过上述步骤104的聚类分析可以将用户的各种操作行为进行归纳,挖掘其中的操作规律逻辑。本发明是将上一步骤104中的聚类结果进行更深入的分析,通过这些数据来检测用户操作是否异常。异常检测分析的主要任务是在正常的用户数据集中提取出小概率的异常数据点,这些异常点的产生不是由于随机偏差,而是有如故障、威胁、入侵等完全不同的机制。这些异常事件的发生频率同大量的正常事件相比仅仅是少数的一部分。异常检测算法众多,它们的期望尽管都是尽可能分离出正常数据与异常数据,但其原理各不相同。本发明采用孤立森林、one-class svm以及局部异常因子这三种算法来完成异常检测任务。
[0190]
以下对孤立森林、one-class svm以及局部异常因子这三种算法进行具体描述。
[0191]
(1)孤独森林
[0192]
孤独森林算法是基于划分和集成学习的异常检测算法,该算法的设计利用了异常数据具有的两个特点:一是相对于正常数据,异常数据数量很少;二是异常数据与正常数据的属性值存在明显的差异。孤独森林算法的核心在于随机进行采样并构造一定数量的隔离树(ifree),由这些隔离树组成一个孤独森林(iforest)。构造孤独森林的主要步骤如下:
[0193]
步骤1:从一组连续性数据组成的训练集中随机选择m个样本数据点作为子采样集d={d1,d2,

,dm},数据点的维度为n,作为树的根节点。
[0194]
步骤2:从当前子采样集中随机选择一个维度a和一个分裂点p,p介于当前子采样集中维度a的最大值和最小值之间。
[0195]
步骤3:对子采样集的每个数据di,按其维度a的值di(a)进行划分,若di(a)《p则划分至左子树,反之则划分至右子树。
[0196]
步骤4:重复步骤2和3,不断构造新的左、右子树,直至满足下列条件之一:

d中只剩下一个数据点或者多个相同的数据点,无法进一步划分;

隔离树的高度达到限定高度。
[0197]
步骤5:重复上述步骤,直至隔离树的数量达到指定数量n,由这些隔离树组成一个孤立森林。
[0198]
(2)one-class svm
[0199]
one-class svm将一分类问题等价为一个特殊的二分类问题,将经典svm特征空间中的分离超平面和最大分类间隔的问题转化成了最大化超平面与原点之间间隔的问题,将优化问题转化为:
[0200][0201][0202]
式中ω为超平面法向量,i为样本编号,ξi为松弛变量,ρ为超平面截距,v∈(0,1]
为预设负样本比例,l为样本总数,vl为惩罚系数,控制着边界支持向量率的上界和全部支持向量率的下界。one-class svm的训练过程仅需要正样本参与,从而能够保证较高的异常识别率。因此,本算法主要用于估测高维数据分布,适用于解决正负训练样本数目不均情况下的训练样本筛选、异常检测等机器学习问题。
[0203]
(3)局部异常因子(lof)
[0204]
lof算法是通过对每个点p及其邻域点的密度判断该点是否为异常点,如果点p的密度越低,则点p是异常点的可能性越大。假设在经过阈值处理后的点云中取任意一点p,其第k距离dk(p)定义为:
[0205]dk
(p)=d(p,o);
[0206]
式中,d(p,o)为点p与点o之间的距离。
[0207]
给定dk(p)后,定义p的第k距离邻域为所有与p距离小于dk(p)的点,即
[0208]
nk(p)={q∈d\{p}|d(p,q)≤dk(p)};
[0209]
式中:nk(p)为点p的第k距离邻域;q为点p的邻域点;d\{p}表示除点p之外的点云集合。
[0210]
点到点o的第k可达距离为:
[0211]dr
(p,o)=max{dk(o),d(p,o)};
[0212]
上式意味着离点o最近的h个点,o到它们的可达距离相等且等于dk(o)。
[0213]
根据上述定义,点p的局部可达密度表示为:
[0214][0215]
通过点p的局部可达距离以及点o(点p的邻域点)的局部可达距离作比,构造如下所示的比较因子,即局部离群因子,进而检测异常点:
[0216][0217]
该比值越接近1,表明点p的密度和其邻域点密度相差不多,p可能与邻域同属一簇;该比值越小于1,表明p的密度高于其邻域点密度,p为密集点;该比值越大于1,表明p的密度小于其邻域点密度,p越可能是异常点。因此,观察lof值选取合适的值,保留取值范围之内的点,即为异常点去除之后的目标点云。
[0218]
步骤602,将所述三种异常检测算法输出的异常打分值进行加权归一,得到针对所有用户的异常打分值的排名。
[0219]
具体的,针对不同的数据源,很难保证哪一类异常检测算法能够取得最优的结果,因此采用孤立森林、one class svm以及局部异常因子这三种算法的集成来全面识别和评价最可能影响系统的各种异常用户。本发明利用这三种算法进行异常检测,可以分别得到所有用户的异常打分。对这三种算法结果进行加权归一,可以得到最终的针对所有用户的异常打分排名。
[0220]
每个算法都会对用户i计算一个独立的异常分值。孤立森林、one class svm、局部异常因子这三种算法的几个分别记为s1、s2、s3,其对应的权重分别为p1、p2、p3,则最终的异
常评分score为:
[0221][0222]
步骤603,根据所述异常打分值的排名,确定用户正常操作行为的正常数据与用户违规操作行为的异常数据。
[0223]
由此可知,根据上述最终的异常评分score进行排名,可全面识别和评价最可能影响系统的各种异常用户操作。
[0224]
综上所述,基于异常检测的用户行为分析,利用加权融合三种异常检测算法预测用户操作合规性得分,以集成的方式来全面识别和评价最可能影响系统的各种异常用户,以更高的准确率尽可能分离出正常数据与异常数据,确保异常检测的准确性。
[0225]
进一步的,在上述步骤105中,所述基于异常检测算法对所述归类数据进行数据分析,得到用户正常操作行为的正常数据与用户违规操作行为的异常数据之后,还包括:
[0226]
若确定为用户违规操作行为的异常数据,则以邮件、短信方式告知系统管理员及相关的技术人员,以及对部分异常数据启动灾备机制以解决异常的问题。
[0227]
具体的,通过对上述步骤603中预测的结果进行判定,若预测存在用户操作异常则会以邮件、短信的方式告知系统管理员及相应的技术人员。同时,为了减少后续还会发生的此类违规操作事件,对于告警的数据的各指标的详细信息会进行分析,比如某操作出现的次数过多或持续时间过长,可能存在此操作缺陷过多的情况。对此通过分析各指标数据,对于部分异常情况进行灾备机制的启动,比如在平台备用节点上自动开启一些容器化服务等操作。
[0228]
本发明能够一方面将可能存在的异常情况进行告警,另一方面对于部分异常的场景通过启用灾备机制来尝试是否可以解决该异常、减少该异常对于用户的体验性或是为运维人员争取更多的时间来定位及解决问题。
[0229]
下面对本发明提供的用户操作行为数据的检测装置进行描述,下文描述的用户操作行为数据的检测装置与上文描述的用户操作行为数据的检测方法可相互对应参照。
[0230]
图7是本发明提供的用户操作行为数据的检测装置的结构示意图,如图所示。一种用户操作行为数据的检测装置700,包括数据采集模块710、实体抽取模块720、特征选择模块730、聚类分析模块740以及异常检测模块750。其中,
[0231]
数据采集模块710,用于采集用户操作行为数据,所述用户操作行为数据为描述用户各种操作行为的数据;
[0232]
实体抽取模块720,用于对所述用户操作行为数据进行实体抽取,得到实体识别数据,所述实体识别数据为从所述用户操作行为数据中提取和异常数据有关的数据;
[0233]
特征选择模块730,用于对所述实体识别数据进行特征选择和特征降维,得到降维后的特征数据,所述特征数据为通过特征选择和特征降维来实现特征抽取和数据压缩的数据;
[0234]
聚类分析模块740,用于对所述特征数据进行聚类分析,得到各种操作行为的归类数据,所述归类数据用于将用户的各种操作行为进行归类;
[0235]
异常检测模块750,用于采用异常检测算法对所述归类数据进行数据分析,得到用
户正常操作行为的正常数据与用户违规操作行为的异常数据。
[0236]
可选的,所述数据采集模块710,是基于第一数据库采集用户操作行为数据,所述第一数据库中存储有关系型数据和记录用户各种操作行为的日志数据;所述用户操作行为数据包括用户各种操作开始/结束时间、操作具体步骤、操作顺序、操作最终结果的一种或多种组合的数据。
[0237]
可选的,所述实体抽取模块720,还用于执行如下步骤:
[0238]
对所述用户操作行为数据的部分数据进行标注以作为训练数据,并利用神经网络训练实体抽取模型;
[0239]
基于所述实体抽取模型,对所述用户操作行为数据进行实体抽取,得到实体识别数据;其中,
[0240]
所述实体抽取模型的第一层为词嵌入层,用于将输入的单词序列训练成词向量输出;
[0241]
所述实体抽取模型的第二层,用于将第一层输出的词向量输入至bilstm层进行训练以学习单词与输出标签的关系,所述bilstm层包括正向lstm网络和反向lstm网络,正向lstm网络和反向lstm网络通过一输出层进行连接;
[0242]
所述实体抽取模型的第三层是在bilstm层的输出序列上设有注意力模型,用于处理标签问题以使所述实体抽取模型更好聚焦局部特征并突出关键词的重要作用;
[0243]
所述实体抽取模型的第四层为所述注意力机制后所使用的crf层,用于通过转移矩阵输出标签之间的转移得分,并基于每个标签的转换规律以及标签语法的合理性,得到最佳标签序列。
[0244]
可选的,所述特征选择模块730,还用于执行如下步骤:
[0245]
将所述实体识别数据和第二数据库中存储的数据进行汇总,所述第二数据库中存储有办理用户业务的数据;
[0246]
对数据中出现的异常值/重复值进行处理;
[0247]
对处理后的数据进行特征选择,并存储经过选择过滤的特征选择数据;
[0248]
基于所述特征选择数据计算表征数据相关性的协方差矩阵,并对其进行特征分解,得到特征值和特征向量集合;
[0249]
将所述特征值和特征向量集合投影至特征矩阵,得到降维后的特征数据,并将所述特征数据进行存储。
[0250]
可选的,所述聚类分析模块740,还用于执行如下步骤:
[0251]
基于k-means密度聚类算法,将所述特征数据的集合按照特征相似度分成属于不同簇类对象,包括将特征相似的数据分布于同一簇中,将特征不相似的数据分布在簇外;
[0252]
基于所述特征数据分布的密度进行数据分析,得到各种操作行为的归类数据;
[0253]
所述k-means密度聚类算法是通过在聚类之前预先设定阈值,基于所述特征数据的密度、簇内平均距离和簇间距离计算出权重,采用加权的欧氏距离计算出所述特征数据的距离,并通过计算得到的所述特征数据的密度、权值和距离来选择初始聚类中心,得到所述k-means密度聚类算法的初始输入参数。
[0254]
可选的,所述异常检测模块750,还用于执行如下步骤:
[0255]
采用孤立森林、one class svm以及局部异常因子三种异常检测算法分别对所述
归类数据进行异常打分,得到对应的异常打分值;
[0256]
将所述三种异常检测算法输出的异常打分值进行加权归一,得到针对所有用户的异常打分值的排名;
[0257]
根据所述异常打分值的排名,确定用户正常操作行为的正常数据与用户违规操作行为的异常数据。
[0258]
进一步的,所述用户操作行为数据的检测装置700还包括系统告警模块(图中暂未标示)。
[0259]
所述告警模块,用于若确定为用户违规操作行为的异常数据,则以邮件、短信方式告知系统管理员及相关的技术人员,以及对部分异常数据启动灾备机制以解决异常的问题。
[0260]
图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(communications interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行所述用户操作行为数据的检测方法,所述方法包括:
[0261]
采集用户操作行为数据,所述用户操作行为数据用于分析用户的操作行为是否异常;
[0262]
对所述用户操作行为数据进行实体抽取,得到实体识别数据,所述实体识别数据用于提取与用户异常操作行为有关的数据;
[0263]
对所述实体识别数据进行特征选择和特征降维,得到降维后的特征数据,所述特征数据为通过特征选择和特征降维实现特征抽取和数据压缩的数据;
[0264]
对所述特征数据进行聚类分析,得到各种操作行为的归类数据,所述归类数据用于将用户的各种操作行为进行归类;
[0265]
采用异常检测算法对所述归类数据进行数据分析,得到用户正常操作行为的正常数据与用户异常操作行为的异常数据。
[0266]
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0267]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的所述用户操作行为数据的检测方法,所述方法包括:
[0268]
采集用户操作行为数据,所述用户操作行为数据用于分析用户的操作行为是否异常;
[0269]
对所述用户操作行为数据进行实体抽取,得到实体识别数据,所述实体识别数据用于提取与用户异常操作行为有关的数据;
[0270]
对所述实体识别数据进行特征选择和特征降维,得到降维后的特征数据,所述特征数据为通过特征选择和特征降维实现特征抽取和数据压缩的数据;
[0271]
对所述特征数据进行聚类分析,得到各种操作行为的归类数据,所述归类数据用于将用户的各种操作行为进行归类;
[0272]
采用异常检测算法对所述归类数据进行数据分析,得到用户正常操作行为的正常数据与用户异常操作行为的异常数据。又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的所述用户操作行为数据的检测方法,所述方法包括:
[0273]
采集用户操作行为数据,所述用户操作行为数据用于分析用户的操作行为是否异常;
[0274]
对所述用户操作行为数据进行实体抽取,得到实体识别数据,所述实体识别数据用于提取与用户异常操作行为有关的数据;
[0275]
对所述实体识别数据进行特征选择和特征降维,得到降维后的特征数据,所述特征数据为通过特征选择和特征降维实现特征抽取和数据压缩的数据;
[0276]
对所述特征数据进行聚类分析,得到各种操作行为的归类数据,所述归类数据用于将用户的各种操作行为进行归类;
[0277]
采用异常检测算法对所述归类数据进行数据分析,得到用户正常操作行为的正常数据与用户异常操作行为的异常数据。
[0278]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0279]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0280]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1