一种基于数据科学的智能化数据质量稽核系统及方法与流程

文档序号:27233470发布日期:2021-11-03 18:08阅读:375来源:国知局

1.本发明涉及数据处理领域,特别涉及一种基于数据科学的智能化数据质量稽核系统及方法。


背景技术:

2.随着数字经济的发展,各行各业已经不再一味地追求数据量的规模,在数据应用的过程中对数据质量的要求也越来越高,面对海量的数据资源,如何更快、更准、更智能得发现定位数据质量问题,开展相应治理工作,是当前企业级数据资产管理的重点与核心。
3.现有技术中,如公开号cn105554152a的发明公开了一种数据特征提取的方法及装置。在更细节化的技术内容中,又如公开号cn108256074a的发明公开了一种校验处理的方法,包括获取待校验的数据仓库的模型,每一模型包括多个字段信息,所述字段信息包括字段定义和字段类型;根据预先存储的数据字典,对所述字段信息进行校验,所述数据字典包括多个标准用语,每一标准用语包括标准定义和标准类型;若所述字段定义与标准定义匹配且所述字段类型与标准类型不匹配,则将所述字段类型修改为与标准类型一致。所述方法根据标准用语对数据仓库的模型进行校验,在字段定义与标准定义匹配且字段类型与标准类型不匹配时,有针对性的将字段类型修改为与标准类型一致,从而得到标准的一致化的模型。
4.现有技术中解决相关问题的方式各有千秋,而传统的数据质量治理模式下,问题检测对象的选择是需要由业务专家依据业务规范和经验知识来指定特定、具体的数据表和字段,需指明每个字段具有什么样的特点,适用什么样的规则,这样的方式与结果对业务专家的经验以及专业技能要求极高,数据质量问题的检测对象范围比较局限,且高度依赖业务专家,对于大规模的海量数据就需要业务专家分别、逐一指定对应的检测对象与范围,且数据特征的通用性弱、维护起来费时费力,无法实现大规模、自动化的数据质量检测对象的明确及相应数据特征的提取,数据质量稽核的效率低下并受人工经验影响严重。


技术实现要素:

5.针对现有技术面对大规模数据时稽核效率低,检测准确度低的问题,本发明提供了一种基于数据科学的智能化数据质量稽核系统及方法,通过数据特征提取、异常检测和任务调度编排管理,降低数据资产管理和数据质量治理的门槛,实现数据质量稽核的通用性、规模化、自动化以及智能化,整体提升数据质量稽核的效率与工作质量。
6.以下是本发明的技术方案。
7.一种基于数据科学的智能化数据质量稽核系统,包括:数据采集模块:进行检测对象元数据采集以及日志数据采集解析;数据特征提取模块:根据字段类型提取特征;异常检测模块:与数据特征进行匹配以选取对应的异常检测方法并检测;任务调度编排模块:包括编排服务器和节点服务器,编排服务器根据任务请求将上述任务拆分为若干子步后分发给不同节点服务器处理。
8.本发明以特征提取和异常检测作为数据稽核的实现基础,并借助任务调度编排模块进行服务器资源的合理分配,最终实现大规模数据的稽核。
9.另外本发明还提供了一种基于数据科学的智能化数据质量稽核方法,用于上述的系统,包括以下步骤:s1:数据采集:进行检测对象元数据采集以及日志数据采集解析;s2:数据特征提取:识别并剔除无效表和无效字段,同时通过修订算法根据数据内容对字段类型进行自动修订,根据字段类型提取特征;s3:异常检测:预设数据异常检测方法库,与数据特征进行匹配以选取对应的异常检测方法并检测;s4:任务调度编排:设置编排服务器和节点服务器,编排服务器根据任务请求将上述任务拆分为若干子步后分发给不同节点服务器处理。
10.作为优选,所述数据特征提取的过程包括:对数据进行字段类型的初步识别,并剔除无效表和无效字段;判断数据的中文描述和字段类型,对不匹配的数据进行抽样,计算样本中各字段类型占比,根据占比结果修订字段类型;根据字段类型提取特征;所述字段类型包括数值型、文本型以及日期型中的至少一种。
11.作为优选,所述初步识别的过程包括:根据现有的字段类型数据库对需识别的数据进行初步识别,或引入经神经网络训练的识别模型进行初步识别,得到字段类型的初步识别结果;所述剔除无效表和无效字段的过程包括:定义无效表和无效字段,通过表的元数据信息和数据内容判断,将空表、僵尸表、日志表、备份表、临时表、单字段表以及低热度表统一判定为无效表;将空字段和单一值字段统一判定为无效字段;对无效表和字段进行识别和剔除。不同字段类型具有各自的特点,现有技术中通常采用数据库和训练模型等进行对比和识别,有助于减少实施成本且有一定的基础准确率保障;另外,无效表以及无效字段涵盖了常见的各种无效数据,进行剔除后可以减少后续数据提取和分析的处理压力。
12.作为优选,所述修订字段类型的过程包括:利用nlp自然语言处理模块对数据的中文描述进行分词与语义识别,解析后通过类型决策树进行近似词或近似字的路径识别,中文描述的语义与字段类型不匹配的,标记为疑似修订字段类型;然后对中文描述语义相同或相似的数据内容进行多次抽样,统计出抽样数据中不同字段类型的占比情况,并以占比超过阈值的类型作为推荐修订字段类型,最终修订为真实存放数据所属的字段类型。自然语言处理技术可以对中文描述进行分词和语义识别,而决策树可以进行相似含义的路径识别,以帮助判断是否属于疑似修订字段类型,最终通过设置阈值的方式,以占比为判断标准确定结果,修订过程是对初步识别的补充,进一步提高识别准确率。
13.作为优选,所述根据字段类型提取特征的过程包括:对数值型字段,利用均值、最大值、最小值、中位数、方差、四分位数、四分位距、数值聚类以及长度聚类进行特征和特征值提取;对于文本型字段,从长度聚类和结构分布统计属性特征,并通过数据内容的分词和语义识别进行内容特征上的提取;对日期型字段,进行结构解析,对日期格式和长度进行特征提取。
14.作为优选,所述修订字段类型结束后,还包括验证步骤:将日期类数据转换为文本类数据,并复制为验证组和干扰组,所述验证组根据原日期格式插入年月日描述,所述干扰组根据原日期类数据位数增加计数单位描述,将验证组和干扰组插入自身相邻的文本类数据中,并通过nlp自然语言处理模块对拼接后的文本类数据进行语义识别,记录每一对干扰组和验证组的识别速度,如验证组的识别速度快于干扰组且超过幅度阈值,则通过验证,否
则将对应的原日期类数据列为疑似错误类型。由于不论是日期类数据还是数值类数据,往往与其相邻的文本类数据有联系,当原本识别正确时,验证组拼接后的文本较容易识别,因此识别速度较快,而如果原本识别错误,则验证组拼接后的文本是错误的,因此相比于干扰组没有识别速度的优势,甚至更慢,因此将被列为疑似错误类型。
15.作为优选,所述异常检测的过程包括:构建数据异常检测方法库,根据每种数据特征设置对应的检测方法,汇总形成数据异常检测方法库,所述数据异常检测方法库以字典类型存储,数据特征名称及其特征参数组成的元组作为字典的键,数据特征对应的异常检测方法作为字典的值;对数据特征进行异常检测方法匹配,根据匹配结果中的异常检测方法进行检测;大规模数据特征遍历,对每个数据特征进行匹配和检测。其中方法库的设置是从统计学、常识、自然规律、专业通用知识等角度对不同的数据特征分别设计对应的异常检测方法,比如数据值类特征设计当字段值出现极值时报异常、日期特征对不符合日期格式的字段内容报异常等,方法库的设置根据实际使用需求进行具体确定,匹配后针对性地进行检测。而python的字典类型是个键值对,使用python的字典类型来存储数据特征及其异常检测方法,字典的键存储的是数据特征名称及其特征参数组成的元组,字典的值存储的是该数据特征对应的异常检测方法,其中每个异常检测方法的阈值由特征参数给出,通过字典的方式存储,可以清楚划分键和值,利于后续的匹配。
16.作为优选,所述匹配包括以下过程:对待处理的数据特征名称和异常检测方法库中的键分别嵌入经nlp得到的词向量,计算词向量之间的余弦相似度,相似度于阈值的键即为该数据特征对应的潜在键,这些键所对应的异常检测方法即是匹配结果;所述余弦相似度的计算公式如下:其中u和v分别表示两个词向量。词向量包含多维数值,借助余弦相似度,可以较为准确地判断和比较。
17.作为优选,所述大规模数据特征遍历过程包括:将待匹配的词向量中每一维度数值按比例缩放至0到255范围内,以依次展开排列的n个像素点阵列表示每个词向量,其中n为词向量的维度,该词向量每个维度的值为每个像素点的灰度值,以将像素点阵列所表示的图像复制至m个像素点的白底图片中得到复刻图,其中m为n的x^2倍,x为大于等于2的自然数,降低复刻图的像素至n,读取每个像素的灰度值,组成新的特殊词向量,使用特殊词向量进行余弦相似度的计算以减少大规模数据量下的计算强度。面对大规模的数据时,如果仍然同处理单个数据的方式完全一致,则运算量将非常大,整体效率偏低,因此采用上述方式将向量模糊化,模糊化的词向量与原词向量之间虽然会产生偏差,但原本相似的词向量之间仍然保留有合适的相似度,因此相似度的计算结果相差较小,通过这种方式可以应对海量数据下的计算压力。
18.另外还有一种替代方案,即大规模数据特征遍历过程包括:将待匹配的词向量中每一维度数值按比例缩放至0到255范围内,并将0至225分为若干阶,将每个维度的数值修改为该数值对应阶内的中间数,生成新的特殊词向量,使用特殊词向量进行余弦相似度的计算以减少大规模数据量下的计算强度。该方案仍然是以模糊化词向量为主,降低大规模
数据下的计算量。
19.作为优选,所述任务调度编排的过程包括:编排服务器将任务拆分成不同节点,分别部署在多个服务器,分配服务器运算资源以减低各服务器计算压力;编排服务器对集群请求统一收集及分发,采用生产者消费者模式,有序分发任务至节点服务器集群,根据集群配置情况分配任务执行策略,并实时反馈任务执行情况;根据节点服务器集群情况进行任务调度,当集群中有某个节点失效的情况下,其上的任务转移到其他正常的节点上,以保证任务运行不受部分节点服务器宕机影响。合理规划服务器算力可以为整个稽核方法提供效率上的加成,进一步扩大本方案中特征提取和异常检测的效率优势。
20.本发明的实质性效果包括:提供数据科学方法和人工智能技术在数据质量检核方面的解决方案与系统功能服务,降低数据资产管理和数据质量治理的门槛,实现数据质量稽核的通用性、规模化、自动化以及智能化,整体提升数据质量稽核的效率与工作质量。
具体实施方式
21.下面将结合实施例,对本技术的技术方案进行描述。另外,为了更好的说明本发明,在下文中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本发明同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未做详细描述,以便于凸显本发明的主旨。
22.实施例:一种基于数据科学的智能化数据质量稽核系统及方法,系统包括:数据采集模块:进行检测对象元数据采集以及日志数据采集解析;数据特征提取模块:根据字段类型提取特征;异常检测模块:与数据特征进行匹配以选取对应的异常检测方法并检测;任务调度编排模块:包括编排服务器和节点服务器,编排服务器根据任务请求将上述任务拆分为若干子步后分发给不同节点服务器处理。
23.本实施例以特征提取和异常检测作为数据稽核的实现基础,并借助任务调度编排模块进行服务器资源的合理分配,最终实现大规模数据的稽核。
24.本实施例中对应的稽核方法包括以下步骤:s1:数据采集:进行检测对象元数据采集以及日志数据采集解析。
25.s2:数据特征提取:对数据进行字段类型的初步识别,并剔除无效表和无效字段;判断数据的中文描述和字段类型,对不匹配的数据进行抽样,计算样本中各字段类型占比,根据占比结果修订字段类型;根据字段类型提取特征;字段类型包括数值型、文本型以及日期型中的至少一种。
26.其中初步识别的过程包括:根据现有的字段类型数据库对需识别的数据进行初步识别,或引入经神经网络训练的识别模型进行初步识别,得到字段类型的初步识别结果;剔除无效表和无效字段的过程包括:定义无效表和无效字段,通过表的元数据信息和数据内容判断,将空表、僵尸表、日志表、备份表、临时表、单字段表以及低热度表统一判定为无效表;将空字段和单一值字段统一判定为无效字段;对无效表和字段进行识别和剔除。不同字
段类型具有各自的特点,现有技术中通常采用数据库和训练模型等进行对比和识别,有助于减少实施成本且有一定的基础准确率保障;另外,无效表以及无效字段涵盖了常见的各种无效数据,进行剔除后可以减少后续数据提取和分析的处理压力。
27.其中修订字段类型的过程包括:利用nlp自然语言处理模块对数据的中文描述进行分词与语义识别,解析后通过类型决策树进行近似词或近似字的路径识别,中文描述的语义与字段类型不匹配的,标记为疑似修订字段类型;然后对中文描述语义相同或相似的数据内容进行多次抽样,统计出抽样数据中不同字段类型的占比情况,并以占比超过阈值的类型作为推荐修订字段类型,最终修订为真实存放数据所属的字段类型。自然语言处理技术可以对中文描述进行分词和语义识别,而决策树可以进行相似含义的路径识别,以帮助判断是否属于疑似修订字段类型,最终通过设置阈值的方式,以占比为判断标准确定结果,修订过程是对初步识别的补充,进一步提高识别准确率。
28.其中根据字段类型提取特征的过程包括:对数值型字段,利用均值、最大值、最小值、中位数、方差、四分位数、四分位距、数值聚类以及长度聚类进行特征和特征值提取;对于文本型字段,从长度聚类和结构分布统计属性特征,并通过数据内容的分词和语义识别进行内容特征上的提取;对日期型字段,进行结构解析,对日期格式和长度进行特征提取。
29.更具体地,可以从数据特征库查找该字段类型适用的数据特征及特征提取方法,并根据对应数据特征的依赖以及互斥关系网络,对该字段类型所有适用的数据特征提取方法进行遍历,例如确定某数据字段为数值型后,特征提取算法将会载入长度、整数、正数、负数、小数等属性特征提取的方法,以及手机号、邮编等业务特征提取的方法,通过对数据内容进行持续的识别和提取,可以获得是长度集中、是整数、是手机号等特征,同时会对“正

负”这两种对立互斥的特征进行区分,从而获得该字段多角度的特征和特征值。
30.另外,修订字段类型结束后,还包括验证步骤:将日期类数据转换为文本类数据,并复制为验证组和干扰组,验证组根据原日期格式插入年月日描述,干扰组根据原日期类数据位数增加计数单位描述,将验证组和干扰组插入自身相邻的文本类数据中,并通过nlp自然语言处理模块对拼接后的文本类数据进行语义识别,记录每一对干扰组和验证组的识别速度,如验证组的识别速度快于干扰组且超过幅度阈值,则通过验证,否则将对应的原日期类数据列为疑似错误类型。由于不论是日期类数据还是数值类数据,往往与其相邻的文本类数据有联系,当原本识别正确时,验证组拼接后的文本较容易识别,因此识别速度较快,而如果原本识别错误,则验证组拼接后的文本是错误的,因此相比于干扰组没有识别速度的优势,甚至更慢,因此将被列为疑似错误类型。
31.s3:异常检测:构建数据异常检测方法库,根据每种数据特征设置对应的检测方法,汇总形成数据异常检测方法库,数据异常检测方法库以字典类型存储,数据特征名称及其特征参数组成的元组作为字典的键,数据特征对应的异常检测方法作为字典的值;对数据特征进行异常检测方法匹配,根据匹配结果中的异常检测方法进行检测;大规模数据特征遍历,对每个数据特征进行匹配和检测。其中方法库的设置是从统计学、常识、自然规律、专业通用知识等角度对不同的数据特征分别设计对应的异常检测方法,比如数据值类特征设计当字段值出现极值时报异常、日期特征对不符合日期格式的字段内容报异常等,方法库的设置根据实际使用需求进行具体确定,匹配后针对性地进行检测。而python的字典类型是个键值对,
使用python的字典类型来存储数据特征及其异常检测方法,字典的键存储的是数据特征名称及其特征参数组成的元组,字典的值存储的是该数据特征对应的异常检测方法,其中每个异常检测方法的阈值由特征参数给出,通过字典的方式存储,可以清楚划分键和值,利于后续的匹配。
32.其中匹配包括以下过程:对待处理的数据特征名称和异常检测方法库中的键分别嵌入经nlp得到的词向量,计算词向量之间的余弦相似度,相似度于阈值的键即为该数据特征对应的潜在键,这些键所对应的异常检测方法即是匹配结果;余弦相似度的计算公式如下:其中u和v分别表示两个词向量。词向量包含多维数值,借助余弦相似度,可以较为准确地判断和比较。
33.大规模数据特征遍历过程包括:将待匹配的词向量中每一维度数值按比例缩放至0到255范围内,以依次展开排列的n个像素点阵列表示每个词向量,其中n为词向量的维度,该词向量每个维度的值为每个像素点的灰度值,以将像素点阵列所表示的图像复制至m个像素点的白底图片中得到复刻图,其中m为n的x^2倍,x为大于等于2的自然数,降低复刻图的像素至n,读取每个像素的灰度值,组成新的特殊词向量,使用特殊词向量进行余弦相似度的计算以减少大规模数据量下的计算强度。面对大规模的数据时,如果仍然同处理单个数据的方式完全一致,则运算量将非常大,整体效率偏低,因此采用上述方式将向量模糊化,模糊化的词向量与原词向量之间虽然会产生偏差,但原本相似的词向量之间仍然保留有合适的相似度,因此相似度的计算结果相差较小,通过这种方式可以应对海量数据下的计算压力。
34.另外还有一种替代方案,即大规模数据特征遍历过程包括:将待匹配的词向量中每一维度数值按比例缩放至0到255范围内,并将0至225分为若干阶,将每个维度的数值修改为该数值对应阶内的中间数,生成新的特殊词向量,使用特殊词向量进行余弦相似度的计算以减少大规模数据量下的计算强度。该方案仍然是以模糊化词向量为主,降低大规模数据下的计算量。
35.s4:任务调度编排:设置编排服务器和节点服务器,编排服务器根据任务请求将上述任务拆分为若干子步后分发给不同节点服务器处理。
36.编排服务器将任务拆分成不同节点,分别部署在多个服务器,分配服务器运算资源以减低各服务器计算压力;编排服务器对集群请求统一收集及分发,采用生产者消费者模式,有序分发任务至节点服务器集群,根据集群配置情况分配任务执行策略,并实时反馈任务执行情况;根据节点服务器集群情况进行任务调度,当集群中有某个节点失效的情况下,其上的任务转移到其他正常的节点上,以保证任务运行不受部分节点服务器宕机影响。合理规划服务器算力可以为整个稽核方法提供效率上的加成,进一步扩大本方案中特征提取和异常检测的效率优势。
37.本实施例以特征提取和异常检测作为数据稽核的实现基础,并借助任务调度编排进行服务器资源的合理分配,最终实现大规模数据的稽核。本实施例的实质性效果包括:提
供数据科学方法和人工智能技术在数据质量检核方面的解决方案与系统功能服务,降低数据资产管理和数据质量治理的门槛,实现数据质量稽核的通用性、规模化、自动化以及智能化,整体提升数据质量稽核的效率与工作质量。
38.通过以上实施方式的描述,所属领域的技术人员可以了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中可以根据需要而将上述功能分配由不同的功能模块完成,即将具体装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
39.在本技术所提供的实施例中,应该理解到,所揭露的方法可以通过其它的方式实现。例如既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
40.以上内容,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1