数据异常检测方法、装置、处理器及电子设备与流程

文档序号:32129490发布日期:2022-11-09 09:20阅读:37来源:国知局
1.本发明涉及大数据领域,具体而言,涉及一种数据异常检测方法、装置、处理器及电子设备。
背景技术
::2.随着大数据领域的不断发展,越来越多的概念被提出并应用到生产中,而数据湖概念就是其中之一,数据湖是一个集中式存储库,可存储任意规模结构化和非结构化数据,支持大数据和ai计算。数据湖构建服务(datalakeformation,dlf)作为云原生数据湖架构核心组成部分,帮助用户简单快速地构建云原生数据湖解决方案。数据湖构建提供湖上元数据统一管理、企业级权限控制,并无缝对接多种计算引擎,打破数据孤岛,洞察业务价值。3.但是,在使用数据湖构建数据存储和计算引擎之间的适配关系,其数据处理过程比较复杂,若出现数据异常情况,将无法快速实现数据的异常检测。4.针对上述数据异常检测效率低的问题,目前尚未提出有效的解决方案。技术实现要素:5.本发明实施例提供了一种数据异常检测方法、装置、处理器及电子设备,以至少解决数据异常检测效率低的技术问题。6.根据本发明实施例的一个方面,提供了一种数据异常检测方法,包括:获取至少一个预设计算模块和至少一个预设存储模块的标识信息;将所述标识信息填入预设数据仓库的预设适配表格,其中,所述预设数据仓库用于为所述预设计算模块和所述预设存储模块的适配提供运行环境,所述预设适配表格用于记录所述预设计算模块和所述预设存储模块的适配关系;根据预设适配模型预测所述预设计算模块和所述预设存储模块的适配概率,并将所述适配概率填入所述预设适配表格,其中,所述预设适配模型基于自注意力机制的深度学习算法训练得到;通过所述预设计算模块调用流数据和预设前端进行预设适配表格的数据缓存,得到数据流处理表格,其中,所述预设前端与所述预设计算模块通过键值对的形式建立映射关系;对所述数据流处理表格进行分析,实现数据异常检测。7.可选地,在获取至少一个预设计算模块和至少一个预设存储模块的标识信息之前,所述方法还包括:获取数据的预设处理架构,其中,所述预设处理架构至少包括:计算层和存储层,所述计算层包括至少一个预设计算模块,所述存储层包括至少一个预设存储模块;通过所述预设数据仓库为至少一个所述预设计算模块和至少一个所述预设存储模块添加所述标识信息。8.可选地,在根据预设适配模型预测所述预设计算模块和所述预设存储模块的适配概率之前,所述方法还包括:获取至少一个所述预设计算模块和至少一个所述预设存储模块在预设时间段执行的历史流数据;识别所述历史流数据的异常特征;基于所述历史流数据的异常特征训练所述预设适配模型。9.可选地,基于所述历史流数据的异常特征训练所述预设适配模型包括:识别所述历史流数据中异常关键字;提取所述异常关键字在时间维度的时间特征;提取所述异常关键字在空间维度的空间特征;基于所述异常关键字的时间特征和空间特征,确定所述预设适配模型。10.可选地,在通过所述预设计算模块调用流数据和预设前端进行预设适配表格的数据缓存之前,所述方法还包括:将所述预设计算模块中的执行代码转换为逻辑执行计划;通过优化器将逻辑执行计划转化为物理执行计划;通过代码生成技术生成可执行的调用函数,其中,所述调用函数用于配置所述预设计算模块的调用计划。11.根据本发明实施例的另一方面,还提供了一种数据异常检测装置,包括:第一获取单元,用于获取至少一个预设计算模块和至少一个预设存储模块的标识信息;存储单元,用于将所述标识信息填入预设数据仓库的预设适配表格,其中,所述预设数据仓库用于为所述预设计算模块和所述预设存储模块的适配提供运行环境,所述预设适配表格用于记录所述预设计算模块和所述预设存储模块的适配关系;预测单元,用于根据预设适配模型预测所述预设计算模块和所述预设存储模块的适配概率,并将所述适配概率填入所述预设适配表格,其中,所述预设适配模型基于自注意力机制的深度学习算法训练得到;调用单元,用于通过所述预设计算模块调用流数据和预设前端进行预设适配表格的数据缓存,得到数据流处理表格,其中,所述预设前端与所述预设计算模块通过键值对的形式建立映射关系;分析单元,用于对所述数据流处理表格进行分析,实现数据异常检测。12.可选地,所述装置还包括:第二获取单元,用于在获取至少一个预设计算模块和至少一个预设存储模块的标识信息之前,获取数据的预设处理架构,其中,所述预设处理架构至少包括:计算层和存储层,所述计算层包括至少一个预设计算模块,所述存储层包括至少一个预设存储模块;添加单元,用于通过所述预设数据仓库为至少一个所述预设计算模块和至少一个所述预设存储模块添加所述标识信息。13.可选地,所述装置还包括:第三获取单元,用于在根据预设适配模型预测所述预设计算模块和所述预设存储模块的适配概率之前,获取至少一个所述预设计算模块和至少一个所述预设存储模块在预设时间段执行的历史流数据;第一识别单元,用于识别所述历史流数据的异常特征;训练单元,用于基于所述历史流数据的异常特征训练所述预设适配模型。14.根据本发明实施例的另一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述数据异常检测方法。15.根据本发明实施例的另一方面,还提供了一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述数据异常检测方法。16.在本发明实施例中,获取至少一个预设计算模块和至少一个预设存储模块的标识信息;将标识信息填入预设数据仓库的预设适配表格,其中,预设数据仓库用于为预设计算模块和预设存储模块的适配提供运行环境,预设适配表格用于记录预设计算模块和预设存储模块的适配关系;根据预设适配模型预测预设计算模块和预设存储模块的适配概率,并将适配概率填入预设适配表格,其中,预设适配模型基于自注意力机制的深度学习算法训练得到;通过预设计算模块调用流数据和预设前端进行预设适配表格的数据缓存,得到数据流处理表格,其中,预设前端与预设计算模块通过键值对的形式建立映射关系;对数据流处理表格进行分析,实现数据异常检测,由于数据流处理表格记录有数据流的处理过程,因此通过对数据流处理表格进行分析即可快速时间对数据运行健康情况的检测和故障定位,从而实现了快速进行数据异常检测的技术效果,进而解决了数据异常检测效率低技术问题。附图说明17.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:18.图1是根据本发明实施例的一种数据异常检测方法的流程图;19.图2是根据本发明实施例的一种数据湖结合flink数据引擎并集成redis使用流程优化方法的示意图;20.图3是根据本发明实施例的一种flinksql引擎的工作流具体描述的示意图;21.图4是根据本发明实施例的一种数据异常检测装置的示意图;22.图5是根据本发明实施例的一种电子设备的示意图。具体实施方式23.为了使本
技术领域
:的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。24.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。25.根据本发明实施例,提供了一种数据异常检测的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。26.图1是根据本发明实施例的一种数据异常检测方法的流程图,如图1所示,该方法包括如下步骤:27.步骤s102,获取至少一个预设计算模块和至少一个预设存储模块的标识信息;28.步骤s104,将标识信息填入预设数据仓库的预设适配表格,其中,预设数据仓库用于为预设计算模块和预设存储模块的适配提供运行环境,预设适配表格用于记录预设计算模块和预设存储模块的适配关系;29.步骤s106,根据预设适配模型预测预设计算模块和预设存储模块的适配概率,并将适配概率填入预设适配表格,其中,预设适配模型基于自注意力机制的深度学习算法训练得到;30.步骤s108,通过预设计算模块调用流数据和预设前端进行预设适配表格的数据缓存,得到数据流处理表格,其中,预设前端与预设计算模块通过键值对的形式建立映射关系;31.步骤s110,对数据流处理表格进行分析,实现数据异常检测。32.在本发明实施例中,获取至少一个预设计算模块和至少一个预设存储模块的标识信息;将标识信息填入预设数据仓库的预设适配表格,其中,预设数据仓库用于为预设计算模块和预设存储模块的适配提供运行环境,预设适配表格用于记录预设计算模块和预设存储模块的适配关系;根据预设适配模型预测预设计算模块和预设存储模块的适配概率,并将适配概率填入预设适配表格,其中,预设适配模型基于自注意力机制的深度学习算法训练得到;通过预设计算模块调用流数据和预设前端进行预设适配表格的数据缓存,得到数据流处理表格,其中,预设前端与预设计算模块通过键值对的形式建立映射关系;对数据流处理表格进行分析,实现数据异常检测,由于数据流处理表格记录有数据流的处理过程,因此通过对数据流处理表格进行分析即可快速时间对数据运行健康情况的检测和故障定位,从而实现了快速进行数据异常检测的技术效果,进而解决了数据异常检测效率低技术问题。33.在上述步骤s102中,预设计算模块包括:flink模块、spark模块、hive模块、以及presto模块。34.在上述步骤s102中,预设存储模块包括:orc模块、parquet模块、avro模块。35.在上述步骤s104中,预设数据仓库为在中央服务器部署的基于iceberg数据湖技术的实时数据仓库。36.在上述步骤s104中,将标识信息填入预设数据仓库的预设适配表格,其格式可以为:“radis###spark###flink###hive###presto###orc###parquet###avro”,其中,radis可以是前端,与flink模块建立映射。37.在上述步骤s106中,将适配概率填入预设适配表格,其格式可以为:“radis_35%###spark_35%###flink_35%###hive_35%###presto_35%###orc_35%###parquet_35%###avro_35%”,其中,35%为模块之间的适配概率。38.在上述步骤s108中,通过预设计算模块调用流数据和预设前端进行预设适配表格的数据缓存,得到数据流处理表格,其格式可以为:“radis_35%###spark_35%###flink_35_logicalplan34%_optimizer34%_physicalplan34%_transformation34%_jobgraph34%%###hive_35%###presto_35%###orc_35%###parquet_35%###avro_35%”,其中,利用redis的key-value(键值)存储形式与flink对接形成flink-连接-redis。通过建立key、value映射关系,形成会话表。以供flinksql调用。39.作为一种可选地实施例,在获取至少一个预设计算模块和至少一个预设存储模块的标识信息之前,方法还包括:获取数据的预设处理架构,其中,预设处理架构至少包括:计算层和存储层,计算层包括至少一个预设计算模块,存储层包括至少一个预设存储模块;通过预设数据仓库为至少一个预设计算模块和至少一个预设存储模块添加标识信息。40.可选地,预设数据仓库位于计算层和存储层之间,用于为大数据运算的性能适配优化提供基础环境。41.本发明上述实施例,在中央服务器部署基于iceberg数据湖技术的实时数据仓库,基于iceberg数据湖技术为计算层和存储层的各模块提供标识信息,进而通过在预设适配表格记录个模块的标识信息即可记录预设计算模块和预设存储模块之间的配合关系。42.作为一种可选地实施例,在根据预设适配模型预测预设计算模块和预设存储模块的适配概率之前,方法还包括:获取至少一个预设计算模块和至少一个预设存储模块在预设时间段执行的历史流数据;识别历史流数据的异常特征;基于历史流数据的异常特征训练预设适配模型。43.本发明上述实施例,基于自注意力机制的深度学习算法transformer对一段时间的流数据进行持续分析,针对数据序列,发现流数据异常关键字因素前的潜在特征,使流数据预警更精准。44.需要说明的是,历史流数据按照iceberg(tableformat)特点分为以下几类数据:45.1、支持事务(acid),上游数据写入即可见,不影响当前数据处理任务,简化etl;提供upsert和mergeinto能力,可以极大地缩小数据入库延迟。46.其中,异常关键字为:入库数据与上游写入不同步。47.2、可扩展的元数据,快照隔离以及对于文件列表的所有修改都是原子操作。48.其中,异常关键字:线程运行阶段切换到另外线程,或线程中途终止情况。49.需要说明的是,原子操作是指不会被线程调度机制打断的操作;这种操作一旦开始,就一直运行到结束,中间不会有任何contextswitch(切换到另一个线程)。50.3、同时支持流批处理、支持多种存储格式和灵活的文件组织:提供了基于流式的增量计算模型和基于批处理的全量表计算模型。批处理和流任务可以使用相同的存储模型,数据不再孤立;iceberg支持隐藏分区和分区进化,方便业务进行数据分区策略更新。支持parquet、avro以及orc等存储格式。51.其中,异常关键字:数据存储失败或部分丢失,parquet、avro以及orc等存储格式异常。52.作为一种可选地实施例,基于历史流数据的异常特征训练预设适配模型包括:识别历史流数据中异常关键字;提取异常关键字在时间维度的时间特征;提取异常关键字在空间维度的空间特征;基于异常关键字的时间特征和空间特征,确定预设适配模型。53.可选地,针对时间维度,可以利用位置编码positionalencoding进行时序编码,利用注意力attention发掘时间维度的时间特征。其中,位置编码positionencoding=cos2(pos/n),n为可调长度大小;其中,注意力输出attention_output=attention(q,k,v),q为查询特征对应redis的key-value(键值)映射,k为待匹配特征对应redis的key-value(键值)映射,v为监测流数据对应redis的key-value(键值)映射。54.可选地,针对空间维度,可以利用多头注意力机制multiheadattention提取不同空间维度的空间特征,让特征提取更充分。其中,headi=attention(qi,ki,vi),multihead(q,k,v)=concat(head1,...,headh)*wo,headi为时间注意力得到的结果,通过multihead融合多空间维度特征。55.作为一种可选地实施例,在通过预设计算模块调用流数据和预设前端进行预设适配表格的数据缓存之前,方法还包括:将预设计算模块中的执行代码转换为逻辑执行计划;通过优化器将逻辑执行计划转化为物理执行计划;通过代码生成技术生成可执行的调用函数,其中,调用函数用于配置预设计算模块的调用计划。56.可选地,调用函数jobgraph是对流程streamgraph进行优化,比如设置哪些算子可以chain,减少网络开销。57.本发明上述实施例,预设计算模块中flink任务的图结构中,部分算子是链chain在一起的,可以减少序列化和网络开销,提高效率。58.本发明还提供了一种优选实施例,该优选实施例提供了一种数据湖结合flink数据引擎并集成redis使用流程优化方法。59.本发明的方法针对运维复杂场景下涉及大数据方面就提出了更高的要求,即,基于iceberg数据湖技术,建立实时数仓。并将flink作为主要计算引擎,flink是一个针对流数据和批数据的分布式处理引擎。同时采用redis框架用来进行表数据缓存。并利用rediskey-value存储形式,与flinksql结合完成数据统计。来解决数据湖解决方案中关键的一个环节就是数据存储和计算引擎之间的适配问题,通过将flink的支持有状态计算的exactly-once特性采取人工智能构建适配模型来为大数据在计算层的减少性能和资源开销和相应消耗的存储与基础架构及性能开销之间提供一个最优平衡点。随着数据量的持续增大,和业务对时效性的严苛要求,实时数仓的作用愈发的重要。而iceberg凭借acid事务、时间旅行和优秀的抽象等特性,以及对spark和flink等计算引擎接入的广泛支持,作为实时数仓的核心组件,可以缩短导入流程,方便数据变更,加速数据读取。60.图2是根据本发明实施例的一种数据湖结合flink数据引擎并集成redis使用流程优化方法的示意图,如图2所示,其步骤如下:61.步骤一、首先,在中央服务器部署基于iceberg数据湖技术的实时数据仓库。从形式上划分iceberg是一种表格式。即,基于计算层(flink、spark、hive、presto)和存储层(orc、parquet、avro)的一个中间层。为大数据运算的性能适配优化提供基础环境。并给层级上的各模块提供唯一标识:flag:模块之间用###间隔。62.步骤一的flag格式:[0063]“radis###spark###flink###hive###presto###orc###parquet###avro”[0064]步骤二、根据iceberg(tableformat)特点分类聚合数据并采用基于自注意力机制的一个深度学习算法transformer算法结合构建好的适配模型进行运算,依据运算结果对iceberg(tableformat)的上下层各模块进行数据适配方案的概率预测。并更新到唯一标识flag下划线间隔中。[0065]需要说明的是,由于flinksql引擎原理采用代码生成技术(codegen)生成基于自注意力机制的深度学习算法transformer算法进行代码编译为可执行的jobgraph的原理,因此采用基于自注意力机制的深度学习算法transformer算法,来构建适配模型。[0066]步骤二的flag格式:[0067]“radis_35%###spark_35%###flink_35%###hive_35%###presto_35%###orc_35%###parquet_35%###avro_35%”。[0068]可选地,根据访问历史数据库按照iceberg(tableformat)特点分为三大类型数据。[0069]1、支持事务(acid),上游数据写入即可见,不影响当前数据处理任务,简化etl;提供upsert和mergeinto能力,可以极大地缩小数据入库延迟;[0070]异常关键字:入库数据与上游写入不同步。[0071]2、可扩展的元数据,快照隔离以及对于文件列表的所有修改都是原子操作。[0072]异常关键字:线程运行阶段切换到另外线程,或线程中途终止情况。[0073]需要说明的是,原子操作是指不会被线程调度机制打断的操作;这种操作一旦开始,就一直运行到结束,中间不会有任何contextswitch(切换到另一个线程)。[0074]3、同时支持流批处理、支持多种存储格式和灵活的文件组织:提供了基于流式的增量计算模型和基于批处理的全量表计算模型。批处理和流任务可以使用相同的存储模型,数据不再孤立;iceberg支持隐藏分区和分区进化,方便业务进行数据分区策略更新。支持parquet、avro以及orc等存储格式。[0075]异常关键字:数据存储失败或部分丢失,parquet、avro以及orc等存储格式异常。[0076]可选地,适配模型的具体描述:[0077]基于自注意力机制的深度学习算法transformer对一段时间的流数据进行持续分析,针对数据序列,发现流数据异常关键字因素前的潜在特征,使流数据预警更精准。[0078]首先,访问历史数据库库中的流异常关键字因素特征数据。[0079]其次、为适应模型处理,对不同节点采样不均匀的数据做差值处理。采用二次差值方法,以每3个相邻点做插值,得到二次插值。即,人工智能算法提优后的异常关键字因素数据。此方法优点:[0080]1、间隔均匀,和基于自注意力机制的深度学习算法transformer时序处理更加匹配。[0081]2、较真实还原网络流量场景缺失数据。[0082]二次差值公式如下:[0083][0084]x=分类对象的当前数值[0085]y=分类对象的3个相邻点。[0086]i=分类对象的顺序号[0087]最后,将经过人工智能算法提优后的流数据结合适配模型,利用连续的时序数据进行训练,发现不同时间维度、空间维度特征的关联,从而实现精准流数据异常关键字因素预警。完成基于异常关键字因素基于自注意力机制的深度学习算法transformer预警模型训练的流程。[0088]模型公式:[0089]s1.针对时间维度,利用位置编码positionalencoding进行时序编码,利用注意力attention发掘时间维度的时间特征。[0090]可选地,位置编码positionencoding=cos2(pos/n),其中,n为可调长度大小。[0091]可选地,注意力输出attention_output=attention(q,k,v),其中,q为查询特征对应redis的key-value(键值)映射,k为待匹配特征对应redis的key-value(键值)映射,v为监测流数据对应redis的key-value(键值)映射。[0092]s2.针对空间维度,利用多头注意力机制multiheadattention提取不同多空间维度特征,让特征提取更充分。[0093]可选地,headi=attention(qi,ki,vi);multihead(q,k,v)=concat(head1,...,headh)*wo,其中,headi为时间注意力得到的结果,通过multihead融合多空间维度特征。[0094]步骤三、iceberg(tableformat)将统一格式的数据向上传递给flink,flink通过flinksql调用流数据与前端redis进行iceberg(tableformat)数据缓存。并更新到唯一标识:flag中。[0095]可选地,在jobgraph生成前通过基于自注意力机制的深度学习算法transformer适配模型预测flink-redis之间的flinksql是否异常。从而保证flink引擎的正常工作。最后,通过程序解析flag标识可分析得出数据湖iceberg(tableformat)结合flink数据引擎并集成redis的全流程数据流处理及运行健康情况并及时跟踪故障定位。[0096]步骤三的flag格式:[0097]“radis_35%###spark_35%###flink_35_logicalplan34%_optimizer34%_physicalplan34%_transformation34%_jobgraph34%%###hive_35%###presto_35%###orc_35%###parquet_35%###avro_35%”[0098]可选地,利用redis的key-value(键值)存储形式与flink对接形成flink-连接-redis。通过建立key、value映射关系,形成会话表。以供flinksql调用。[0099]图3是根据本发明实施例的一种flinksql引擎的工作流具体描述的示意图,如图3所示,sql/tableapi从输入到编译为可执行的jobgraph主要有以下几步:[0100]s31、将sql文本/tableapi代码转换为逻辑执行计划(logicalplan)。[0101]s32、逻辑执行计划通过优化器转化为物理执行计划(physicalplan)。[0102]s33、通过代码生成技术生成基于自注意力机制的深度学习算法transformation后进一步编译为可执行的jobgraph提交运行。[0103]需要说明的是,jobgraph是对streamgraph进行优化,比如设置哪些算子可以chain,减少网络开销。flink任务的图结构中,部分算子是chain在一起的(减少序列化和网络开销,提高效率)。[0104]可选地,sql实现具体过程包括:[0105]s41、将sql文本/tableapi代码转换为逻辑执行计划。[0106]s42、sql/tableapi通过calcite框架将sql解析转为ast抽象语法树。[0107]s43、sqlvalidator获取catalog中的元数据对表达式、表信息等进行校验,转化为关系代数表达式(relnode)。[0108]s44、再由优化器(optimizer)将关系代数表达式转换为初始状态的逻辑执行计划。[0109]根据本发明实施例,还提供了一种数据异常检测的装置实施例,需要说明的是,该数据异常检测装置可以用于执行本发明实施例中的数据异常检测方法,本发明实施例中的数据异常检测方法可以在该数据异常检测装置中执行。[0110]图4是根据本发明实施例的一种数据异常检测装置的示意图,如图4所示,该装置可以包括:第一获取单元41,用于获取至少一个预设计算模块和至少一个预设存储模块的标识信息;存储单元43,用于将标识信息填入预设数据仓库的预设适配表格,其中,预设数据仓库用于为预设计算模块和预设存储模块的适配提供运行环境,预设适配表格用于记录预设计算模块和预设存储模块的适配关系;预测单元45,用于根据预设适配模型预测预设计算模块和预设存储模块的适配概率,并将适配概率填入预设适配表格,其中,预设适配模型基于自注意力机制的深度学习算法训练得到;调用单元47,用于通过预设计算模块调用流数据和预设前端进行预设适配表格的数据缓存,得到数据流处理表格,其中,预设前端与预设计算模块通过键值对的形式建立映射关系;分析单元49,用于对数据流处理表格进行分析,实现数据异常检测。[0111]需要说明的是,该实施例中的第一获取单元41可以用于执行本技术实施例中的步骤s102,该实施例中的存储单元43可以用于执行本技术实施例中的步骤s104,该实施例中的预测单元45可以用于执行本技术实施例中的步骤s106,该实施例中的第一调用单元47可以用于执行本技术实施例中的步骤s108,该实施例中的分析单元49可以用于执行本技术实施例中的步骤s110。上述单元与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。[0112]在本发明实施例中,获取至少一个预设计算模块和至少一个预设存储模块的标识信息;将标识信息填入预设数据仓库的预设适配表格,其中,预设数据仓库用于为预设计算模块和预设存储模块的适配提供运行环境,预设适配表格用于记录预设计算模块和预设存储模块的适配关系;根据预设适配模型预测预设计算模块和预设存储模块的适配概率,并将适配概率填入预设适配表格,其中,预设适配模型基于自注意力机制的深度学习算法训练得到;通过预设计算模块调用流数据和预设前端进行预设适配表格的数据缓存,得到数据流处理表格,其中,预设前端与预设计算模块通过键值对的形式建立映射关系;对数据流处理表格进行分析,实现数据异常检测,由于数据流处理表格记录有数据流的处理过程,因此通过对数据流处理表格进行分析即可快速时间对数据运行健康情况的检测和故障定位,从而实现了快速进行数据异常检测的技术效果,进而解决了数据异常检测效率低技术问题。[0113]作为一种可选地实施例,装置还包括:第二获取单元,用于在获取至少一个预设计算模块和至少一个预设存储模块的标识信息之前,获取数据的预设处理架构,其中,预设处理架构至少包括:计算层和存储层,计算层包括至少一个预设计算模块,存储层包括至少一个预设存储模块;添加单元,用于通过预设数据仓库为至少一个预设计算模块和至少一个预设存储模块添加标识信息。[0114]作为一种可选地实施例,装置还包括:第三获取单元,用于在根据预设适配模型预测预设计算模块和预设存储模块的适配概率之前,获取至少一个预设计算模块和至少一个预设存储模块在预设时间段执行的历史流数据;第一识别单元,用于识别历史流数据的异常特征;训练单元,用于基于历史流数据的异常特征训练预设适配模型。[0115]作为一种可选地实施例,训练单元包括:第二识别单元,用于识别历史流数据中异常关键字;第一提取单元,用于提取异常关键字在时间维度的时间特征;第二提取单元,用于提取异常关键字在空间维度的空间特征;确定单元,用于基于异常关键字的时间特征和空间特征,确定预设适配模型。[0116]作为一种可选地实施例,装置还包括:第一转换单元,用于在通过预设计算模块调用流数据和预设前端进行预设适配表格的数据缓存之前,将预设计算模块中的执行代码sql/tableapi转换为逻辑执行计划;第二转换单元,用于通过优化器将逻辑执行计划转化为物理执行计划;生成单元,用于通过代码生成技术生成可执行的调用函数jobgraph,其中,调用函数jobgraph用于配置预设计算模块的调用计划。[0117]所述数据异常检测装置包括处理器和存储器,上述单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。[0118]处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来快速进行数据异常检测。[0119]存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram),存储器包括至少一个存储芯片。[0120]本发明实施例提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现所述数据异常检测方法。[0121]本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述数据异常检测方法。[0122]图5是根据本发明实施例的一种电子设备的示意图,如图5所示,本发明实施例提供了一种电子设备50,设备包括处理器52、存储器54及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取至少一个预设计算模块和至少一个预设存储模块的标识信息;将标识信息填入预设数据仓库的预设适配表格,其中,预设数据仓库用于为预设计算模块和预设存储模块的适配提供运行环境,预设适配表格用于记录预设计算模块和预设存储模块的适配关系;根据预设适配模型预测预设计算模块和预设存储模块的适配概率,并将适配概率填入预设适配表格,其中,预设适配模型基于自注意力机制的深度学习算法训练得到;通过预设计算模块调用流数据和预设前端进行预设适配表格的数据缓存,得到数据流处理表格,其中,预设前端与预设计算模块通过键值对的形式建立映射关系;对数据流处理表格进行分析,实现数据异常检测。[0123]可选地,处理器执行程序时实现以下步骤:在获取至少一个预设计算模块和至少一个预设存储模块的标识信息之前,获取数据的预设处理架构,其中,预设处理架构至少包括:计算层和存储层,计算层包括至少一个预设计算模块,存储层包括至少一个预设存储模块;通过预设数据仓库为至少一个预设计算模块和至少一个预设存储模块添加标识信息。[0124]可选地,处理器执行程序时实现以下步骤:在根据预设适配模型预测预设计算模块和预设存储模块的适配概率之前,获取至少一个预设计算模块和至少一个预设存储模块在预设时间段执行的历史流数据;识别历史流数据的异常特征;基于历史流数据的异常特征训练预设适配模型。[0125]可选地,处理器执行程序时实现以下步骤:识别历史流数据中异常关键字;提取异常关键字在时间维度的时间特征;提取异常关键字在空间维度的空间特征;基于异常关键字的时间特征和空间特征,确定预设适配模型。[0126]可选地,处理器执行程序时实现以下步骤:在通过预设计算模块调用流数据和预设前端进行预设适配表格的数据缓存之前,将预设计算模块中的执行代码sql/tableapi转换为逻辑执行计划;通过优化器将逻辑执行计划转化为物理执行计划;通过代码生成技术生成可执行的调用函数jobgraph,其中,调用函数jobgraph用于配置预设计算模块的调用计划。[0127]本文中的设备可以是服务器、pc、pad、手机等。[0128]本技术还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取至少一个预设计算模块和至少一个预设存储模块的标识信息;将标识信息填入预设数据仓库的预设适配表格,其中,预设数据仓库用于为预设计算模块和预设存储模块的适配提供运行环境,预设适配表格用于记录预设计算模块和预设存储模块的适配关系;根据预设适配模型预测预设计算模块和设存储模块的适配概率,并将适配概率填入预设适配表格,其中,预设适配模型基于自注意力机制的深度学习算法训练得到;通过预设计算模块调用流数据和预设前端进行预设适配表格的数据缓存,得到数据流处理表格,其中,预设前端与预设计算模块通过键值对的形式建立映射关系;对数据流处理表格进行分析,实现数据异常检测。[0129]可选地,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:在获取至少一个预设计算模块和至少一个预设存储模块的标识信息之前,获取数据的预设处理架构,其中,预设处理架构至少包括:计算层和存储层,计算层包括至少一个预设计算模块,存储层包括至少一个预设存储模块;通过预设数据仓库为至少一个预设计算模块和至少一个预设存储模块添加标识信息。[0130]可选地,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:在根据预设适配模型预测预设计算模块和预设存储模块的适配概率之前,获取至少一个预设计算模块和至少一个预设存储模块在预设时间段执行的历史流数据;识别历史流数据的异常特征;基于历史流数据的异常特征训练预设适配模型。[0131]可选地,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:识别历史流数据中异常关键字;提取异常关键字在时间维度的时间特征;提取异常关键字在空间维度的空间特征;基于异常关键字的时间特征和空间特征,确定预设适配模型。[0132]可选地,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:在通过预设计算模块调用流数据和预设前端进行预设适配表格的数据缓存之前,将预设计算模块中的执行代码sql/tableapi转换为逻辑执行计划;通过优化器将逻辑执行计划转化为物理执行计划;通过代码生成技术生成可执行的调用函数jobgraph,其中,调用函数jobgraph用于配置预设计算模块的调用计划。[0133]本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。[0134]本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。[0135]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。[0136]这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。[0137]在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。[0138]存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。存储器是计算机可读介质的示例。[0139]计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。[0140]还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。[0141]本领域技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。[0142]以上仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1