一种基于数据访问行为的数据质量评估方法与流程

文档序号:36075652发布日期:2023-11-18 00:05阅读:35来源:国知局
一种基于数据访问行为的数据质量评估方法与流程

本发明属于数据质量评估领域,具体涉及一种基于数据访问行为的数据质量评估方法。


背景技术:

1、随着信息与通信技术的快速发展,各行各业的企业、组织乃至个人都积累了大量数据资源,形成了各自的数据资产。这些数据资产已作为重要数据要素参与到社会生产经营活动中,驱动着技术创新与产业升级。与此同时,数据质量愈发得到更多的关注,低质量数据会影响数据的使用、降低数据的价值、阻碍数据共享交换、限制技术发展甚至造成重大经济损失,因此,数据质量评估是数据使用、充分发挥数据价值的关键一环。

2、数据质量评估首先要确定评估的维度,当前关注较多的质量维度主要分为内在质量、上下文质量、表述质量与可访问性质量四类,内在质量关注数据的本质特征,是数据质量的基本需求,如完整性、准确性、一致性等;上下文质量与数据的使用场景密切相关,如时效性、任务相关性、适用性等,同一数据在不同应用场景中的上下文质量可能不同;表述质量反映的是数据在可理解性、简洁性等方面的程度;可访问性质量关注数据可被获取的程度,有时还要兼顾保密与安全等因素。

3、总结来看,内在质量与表述质量仅从数据内容方面对数据质量进行评估,可访问性质量反映数据被获取的难易程度,仅上下文质量与数据应用场景密切相关,但关注的仍是数据是否与目标任务匹配、满足时效、可用等内容方面的质量,即当前数据质量维度主要关注数据的内容方面。然而在具体的应用场景中,除了内容方面,还应该考虑数据与应用场景之间行为(简称为数据行为)方面的因素。因为数据行为能够反映数据对当前场景的“参与”或“支持”程度,体现了数据的作用与价值,本发明将此定义为一种新的上下文质量维度——数据贡献度。数据贡献度常能为应用系统资源部署优化、业务流程优化以及数据合理定价等方面提供参考信息及依据,因此亟需科学、合理的数据贡献度评估方法。


技术实现思路

1、(一)要解决的技术问题

2、本发明要解决的技术问题是如何提供一种基于数据访问行为的数据质量评估方法,以解决当前数据质量维度主要关注数据的内容方面,然而在具体的应用场景中,除了内容方面,还应该考虑数据与应用场景之间行为方面的因素的问题。

3、(二)技术方案

4、为了解决上述技术问题,本发明提出一种基于数据访问行为的数据质量评估方法,该方法包括如下步骤:

5、步骤一、梳理应用系统中的业务场景并通过层次分析法确定这些业务场景的重要度权重;

6、步骤二、复现业务场景,并通过监控工具对业务场景对数据库表的访问行为进行记录、关联,进而根据设定的聚合规则将每个业务场景的数据访问行为形式化为聚合矩阵;

7、步骤三、通过定义的行为算子并结合前两步的结果将数据贡献度评估问题转化为非线性规划问题进行求解。

8、(三)有益效果

9、本发明提出一种基于数据访问行为的数据质量评估方法,本发明公开一种业务场景驱动的基于数据访问行为的数据贡献度评估方法,主要优势体现在以下方面:

10、(1)提出了一种衡量数据(表)在业务场景中发挥作用大小的上下文质量维度即数据贡献度,并针对单个应用系统独立运行场景设计了一种面向业务场景的评估方法,能够准确、高效地评估中等规模应用系统中的数据表对上层业务场景的贡献度。

11、(2)针对四种数据库基本操作(增删改查)设计了行为算子,以将数据行为形式化为数学表达式,进一步结合业务场景重要度将数据贡献度评估问题转化为了非线性规划问题。

12、(3)数据贡献度作为一种基于数据行为的上下文质量维度,通过对数据贡献度的评估,管理员能够了解数据(表)对目标任务与应用场景的参与或支持程度、能够优化系统资源的分配与部署(如对贡献度较高的数据(库/表)进行热备份以提高系统提供服务的鲁棒性等)、能够为数据交易时的定价提供数据行为方面的成本信息等。



技术特征:

1.一种基于数据访问行为的数据质量评估方法,其特征在于,该方法包括如下步骤:

2.如权利要求1所述的基于数据访问行为的数据质量评估方法,其特征在于,所述步骤一具体包括:

3.如权利要求2所述的基于数据访问行为的数据质量评估方法,其特征在于,所述s11具体包括:通过梳理系统内业务场景,构建层次结构模型,最底层为具体的业务场景层;中间为业务场景类别层,根据具体的应用系统,中间层可省略或者有多层,最顶层为根节点;根节点为应用系统(application system,as),系统中包括q种业务场景类别即a1、a2、…、aq,每种类别ai包括ci个业务场景即bsi1、bsi2、…、bsi,ci,设系统中共有m个业务场景,即c1+c2+…+cq=m。

4.如权利要求3所述的基于数据访问行为的数据质量评估方法,其特征在于,所述s12具体包括:构造判别矩阵,即对于同属于上层某一元素的本层所有元素进行两两比较,采用saaty 1-9标度方法进行评分;判别矩阵是一个方阵,对角线元素均为1,且对称位置元素相乘为1,每个业务场景类别构造1个判别矩阵,根节点构造1个判别矩阵,即共需要构造q+1个判别矩阵,其阶数分别为q,c1,…,cq。

5.如权利要求4所述的基于数据访问行为的数据质量评估方法,其特征在于,所述s13中层次单排序及一致性校验具体包括:

6.如权利要求5所述的基于数据访问行为的数据质量评估方法,其特征在于,所述s13中层次总排序及一致性校验具体包括:

7.如权利要求1-6任一项所述的基于数据访问行为的数据质量评估方法,其特征在于,所述步骤二中复现业务场景,并通过监控工具对业务场景对数据库表的访问行为进行记录、关联具体包括:

8.如权利要求7所述的基于数据访问行为的数据质量评估方法,其特征在于,所述步骤二中根据设定的聚合规则将每个业务场景的数据访问行为形式化为聚合矩阵具体包括:

9.如权利要求8所述的基于数据访问行为的数据质量评估方法,其特征在于,所述步骤三具体包括:为四种数据库基本操作定义了行为算子:

10.如权利要求9所述的基于数据访问行为的数据质量评估方法,其特征在于,采用基于数学分析方法或启发式算法进行求解,数学分析方法包括:序列二次规划法,启发式算法包括:遗传算法和模拟退火算法。


技术总结
本发明涉及一种基于数据访问行为的数据质量评估方法,属于数据质量评估领域。本发明梳理应用系统中的业务场景并通过层次分析法确定这些业务场景的重要度权重;复现业务场景,并通过监控工具对业务场景对数据库表的访问行为进行记录、关联,进而根据设定的聚合规则将每个业务场景的数据访问行为形式化为聚合矩阵;通过定义的行为算子并结合前两步的结果将数据贡献度评估问题转化为非线性规划问题进行求解。本发明能够准确、高效地评估中等规模应用系统中的数据表对上层业务场景的贡献度。

技术研发人员:刘宇霖,方志,黄瑞,冯帆,余增文
受保护的技术使用者:北京计算机技术及应用研究所
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1