一种基于大模型的智能化数据治理系统的制作方法

文档序号:41043356发布日期:2025-02-21 20:23阅读:13来源:国知局
一种基于大模型的智能化数据治理系统的制作方法

本发明涉及数据分析,具体涉及一种基于大模型的智能化数据治理系统。


背景技术:

1、随着大数据技术的不断进步,如企业和社会组织等主体所面对的数据量呈爆炸性的增长,数据来源于包括社交媒体、物联网设备、企业业务系统等各种渠道,具有海量、高速、多样的特点,因此,需要对如此大量的数据进行智能化的数据治理,以满足数据量的增长和高速需求,而大模型技术的发展为智能化数据治理提供了关键的技术支撑,大模型具有强大的语义理解和推理能力,可以自动识别并纠正数据中的错误,提高数据清洗的效率和准确性。

2、由于数据获取的过程中存在着数据偏差的情况,影响数据应用过程的准确性和精度,因此,如何识别数据中的偏差程度,针对性的实施相应的校正治理措施,是我们要解决的问题,为此,现提出一种基于大模型的智能化数据治理系统。


技术实现思路

1、本发明目的在于提供一种基于大模型的智能化数据治理系统,以解决上述背景技术中提出的问题。

2、为解决上述技术问题,本发明所采用的技术方案是:

3、一种基于大模型的智能化数据治理系统,所述智能化数据治理系统包括数据获取模块、数据清洗融合模块、模型训练模块、偏差趋势分析模块、数据标注分析模块和数据校正治理模块,其中,各模块间电信号连接;

4、所述数据获取模块,用于从实施数据治理的数据源中获取基础数据,其中,基础数据包括历史数据和当前数据,确保数据的高效汇聚和一致性,为后续的数据处理和分析提供基础;

5、所述数据清洗融合模块,对采集到的基础数据进行预处理,并整合数据得到数据融合序列,增强数据的完整性和一致性,为后续的数据分析和模型训练提供高质量的数据支持;

6、所述模型训练模块,基于数据融合序列中的历史数据,训练偏差分析模型,分析数据的偏差情况;

7、所述偏差趋势分析模块,结合数据偏差情况的分析结果和历史数据,确定数据治理的基准数据,并计算数据偏差值,以明确偏差程度;

8、所述数据标注分析模块,基于偏差程度分析结果,预设偏差阈值,确定偏差数据的偏差程度,并进行数据标注;

9、所述数据校正治理模块,明确当前数据的偏差程度,并匹配相应的校正措施进行数据治理。

10、本发明技术方案的进一步改进在于:所述数据获取模块中,基础数据的获取过程为:

11、根据数据治理的目标和需求,识别出需接入实施数据治理的数据源类型,包括内部业务系统、外部合作伙伴系统、社交媒体平台以及物联网设备等,并与相应的数据源建立连接;

12、根据业务需求和数据治理策略,定义数据抽取规则,确定需抽取的数据字段、数据格式和数据频率等,并制定数据抽取的优先级和顺序,确保关键数据的优先处理,按照定义的规则,从建立连接的数据源中抽取包括历史数据和当前数据的基础数据;

13、对于历史数据,采用批量采集的方式,一次性获取存储在数据库中的所需求的数据,对于当前数据,采用实时采集的方式,通过实时数据流持续不断地获取数据;

14、将采集到的数据转换为统一的格式,方便后续的数据处理和分析,并对数据进行标准化处理,消除不同数据源之间的差异,确保数据的一致性。

15、本发明技术方案的进一步改进在于:所述数据清洗融合模块中,数据融合序列的整合获取过程为:

16、将采集到的基础数据统一导入到数据清洗融合模块中,并对数据进行初步分析,明确数据的结构、类型、分布及潜在问题;

17、扫描集成有基础数据的数据集,进行数据清洗,包括缺失值处理、异常值检测和重复数据处理,并根据数据的特性和业务需求,识别出缺失值所在的字段和记录,实施填充缺失值或删除缺失值的处理措施;

18、将来自不同数据源的相同实体的数据记录进行水平整合,并将同一数据源中不同时间段的数据记录进行整合,形成连续的时间序列数据集;

19、为每组数据创建唯一的id号,并根据数据之间的时间戳关联属性,建立各数据与id号之间的关联关系,整合形成数据融合序列。

20、本发明技术方案的进一步改进在于:所述模型训练模块中,数据偏差情况的分析过程为:

21、从数据融合序列中提取出历史数据部分,作为训练偏差分析模型的输入,并选择支持向量机模型以训练偏差分析模型,历史数据部分包含过去一段时间内各个实体的相关信息和特征,能够反映出数据在不同时间段的变化规律和趋势;

22、对历史数据进行特征分析,提取用于偏差分析的特征,包括标准差、偏度和峰度,整合各特征得到特征数据集,其中,标准差用于衡量数据分布的离散程度,表示数据点与均值之间的平均偏差,标准差越大,数据的波动性越大,说明数据点之间的差异较大,标准差可用来评估数据的稳定性和一致性,帮助识别数据中的异常波动,偏度用于衡量数据分布的不对称性,表示数据分布的偏斜方向和程度,偏度为正表示数据右偏,即数据的右尾较长,偏度为负表示数据左偏,即数据的左尾较长,偏度可帮助识别数据分布的形状是否偏离正态分布,从而发现潜在的偏差,峰度用于衡量数据分布的尖峭程度,表示数据分布的峰顶形状,峰度可用来评估数据分布的极端值情况,帮助识别数据中的异常值,特征数据集中的每个样本对应于历史数据中的一个实体,包含了该实体的标准差、偏度和峰度特征值,以及相应的偏差标签,偏差标签为是否存在偏差;

23、将特征数据集划分为训练集和测试集,使用训练集数据结合支持向量机模型训练偏差分析模型,通过调整模型参数优化模型的性能,使用交叉验证方法评估模型的稳定性和泛化能力,并使用测试集对训练好的模型进行评估,计算模型的准确率、召回率和f1分数评估指标,根据评估结果判断模型的性能是否满足业务需求;

24、利用训练好的模型对数据融合序列中的数据进行偏差分析,识别出数据中的偏差情况,预测数据是否存在偏差,并对识别出的偏差进行解释,分析偏差产生的原因和影响。

25、本发明技术方案的进一步改进在于:所述偏差趋势分析模块中,数据偏差值的计算过程为:

26、遍历数据融合序列中包含数据偏差情况的分析结果和历史数据,获取每个实体在不同时间段的相关信息和特征;

27、结合历史数据和业务需求,从历史数据中选择固定评价周期和数据范围,确定包括标准差、偏度和峰度特征的基准数据,作为数据治理的基准数据,其中,基准数据是历史数据中各特征的平均值;

28、逐一对比分析每个数据点中各特征与其相应基准数据间的差异,计算特征偏差值;

29、整合各特征偏差值,综合计算得到数据偏差值,对计算得到的数据偏差值进行分析,明确数据的偏差程度和分布情况;

30、通过分析偏差值随时间的变化趋势,识别出数据的偏差趋势,利用图表工具(折线图)展示偏差值随时间的变化情况,观察偏差趋势中的关键节点和转折点,分析偏差产生的原因和影响。

31、本发明技术方案的进一步改进在于:所述数据偏差值的计算表达式为:

32、;

33、式中,是数据偏差值,用于衡量数据的偏差程度,是标准差特征值,表示数据的离散程度,是标准差的基准数据,即历史数据中标准差的平均值,是偏度特征值,表示数据分布的不对称性,是偏度的基准数据,即历史数据中偏度的平均值,是峰度特征值,表示数据分布的尖峭程度,是峰度的基准数据,即历史数据中峰度的平均值,、、分别表示标准差、偏度和峰度特征值中的最小值,用于归一化处理,确保公式中的各项具有可比性,的取值范围在0至1之间,当数据偏差值接近0时,表示数据与基准数据的偏差程度非常小,数据较为稳定。

34、本发明技术方案的进一步改进在于:所述数据标注分析模块中,数据标注的过程为:

35、从偏差趋势分析模块获取计算得到的数据偏差值,利用数据偏差值分析每个数据点与基准数据之间的差异程度,衡量数据偏差;

36、结合业务需求和数据偏差值,预设不同的偏差阈值以确定偏差数据,并将偏差数据划分为不同偏差等级,分别为轻微偏差、中等偏差和严重偏差;

37、将计算得到的数据偏差值与预设的偏差阈值进行对比,并根据对比结果,标注数据点的偏差等级,进而将标注后的数据分别存储到不同的数据集中,以便后续处理。

38、本发明技术方案的进一步改进在于:多个所述偏差等级一一对应设置有多个所述偏差阈值,具体满足以下关系:

39、轻微偏差:;

40、中等偏差:;

41、严重偏差:;

42、其中,为数据偏差值,为轻微偏差对应的上阈值与中等偏差对应的下阈值,为中等偏差对应的上阈值与严重偏差对应的下阈值。

43、本发明技术方案的进一步改进在于:所述数据校正治理模块中,数据治理的过程为:

44、从数据标注分析模块获取标注后的偏差数据,包括数据点的特征、偏差程度以及偏差等级,并根据偏差数据的标注信息,明确每个数据点的偏差程度;

45、基于历史数据中的偏差数据的不同现象,构建包含针对不同偏差程度和类型的预定义解决方案的校正措施库,以实施对偏差数据的数据治理;

46、根据评估的偏差程度,从校正措施库中匹配相应的校正措施,并将选定的校正措施应用于偏差数据,其中,校正措施包括数据重采样、数据插值、数据平滑、数据转换和修正数据处理逻辑等,对于数据采集误差导致的偏差,重新采集数据,以获得更准确的数据信息,对于缺失值或异常值导致的偏差,使用插值方法填补或修正数据,对于数据波动较大导致的偏差,采用平滑算法平滑数据,减少短期波动的影响,对于数据分布不均或存在偏斜导致的偏差,进行数据转换使数据分布更加均匀和对称,对于数据处理不当导致的偏差,修正数据处理的逻辑和算法,确保数据处理的正确性和一致性;

47、校正后,监控数据的变化并对比校正前后的数据偏差值,以评估数据治理的效果,若治理效果不理想,根据验证结果,重新分析偏差原因,调整校正措施,并再次执行校正操作,直到达到满意的治理效果;

48、将治理后的数据存储到数据仓库中,替换原有的偏差数据,并记录数据治理活动的详细信息,包括校正措施、校正前后的数据变化以及校正时间。

49、由于采用了上述技术方案,本发明相对现有技术来说,取得的技术进步是:

50、1、本发明提供一种基于大模型的智能化数据治理系统,通过集成数据标注分析模块,自动识别并标注数据中的偏差情况,为后续的数据校正提供精准定位,结合校正措施库,智能匹配并应用最适合的校正方法,以实现高效的数据治理,此外,监控数据变化,对比校正前后的偏差值,确保校正措施的有效性,从而提升治理后的数据整体质量和准确性。

51、2、本发明提供一种基于大模型的智能化数据治理系统,通过模型训练模块训练出偏差分析模型,准确地分析数据的偏差情况,并通过数据偏差值的计算,结合偏差阈值分析数据的偏差程度,以确保匹配相应的校正措施,高效实施数据治理的进程,以进一步提升数据的质量,并将经过校正后的数据存储到数据仓库中,为后续作业提供高质量的数据基础。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1