本发明涉及数据资产管理,更具体地说,本发明涉及一种基于大数据的企业数据资产审计方法和系统。
背景技术:
1、申请公开号为cn115375417a的专利公开了一种基于大数据的综合财务审计系统,包括数据采集模块、数据分析模块、学习预测模块与数据库,数据采集模块基于大数据技术采集结构化、半结构化的企业无形资产评估数据和相关行业的数据信息,并同时采集企业无形资产审计数据。数据分析模块基于数据采集模块采集的数据与数据库中历史数据进行分析对比对企业无形资产的待审计数据进行全面解析。该一种基于大数据的综合财务审计系统,实现改进了传统资产评估,结合大数据技术提升了无形资产的评估结果可靠性,同时提升了审计质量,降低评估差异风险。
2、现有的企业数据资产审计方法和系统,存在以下主要问题:
3、未使用交叉验证来评估模型在不同数据子集上的表现,可能导致过拟合或欠拟合的风险增加,影响模型的整体性能和可靠性;缺乏交叉验证,模型的性能评估依赖于单一数据集的划分结果;未考虑折数限制公式来合理调整交叉验证的折数,对于超参数组合较多的情况,模型评估可能会非常耗时且计算资源浪费严重;过多的计算资源被消耗在不必要的模型训练和验证上,降低了计算效率;缺乏网格搜索和交叉验证等标准化的超参数优化流程,不同实验的结果可能会因不同的超参数设置而差异显著;
4、未使用动态调整的阈值公式,风险评估通常依赖于固定的阈值设置。这种固定阈值可能无法适应不同企业和行业的风险特征,导致评估结果缺乏灵活性,无法准确反映企业面临的实际风险;未考虑使用中位数、标准差、百分位数等统计特征来调整阈值,评估结果容易受到异常值或极端数据的影响;异常值可能导致固定阈值过高或过低,影响风险评估的准确性和稳定性。
5、没有通过系数调整模型来优化风险阈值的确定,传统方法依赖简单的统计量或人为设定的固定值;会导致风险阈值不够精准,无法准确反映企业的实际风险状况;未利用特征数量和方差等因素来优化调整系数,评估模型的鲁棒性和灵活性会降低;模型可能对某些特定数据特征过于敏感或不够敏感,难以应对复杂多变的风险场景,导致评估结果的不稳定。
6、鉴于此,本发明提出一种基于大数据的企业数据资产审计方法和系统以解决上述问题。
技术实现思路
1、为了克服现有技术的上述缺陷,为实现上述目的,本发明提供如下技术方案:一种基于大数据的企业数据资产审计方法,包括:
2、s1、采集企业的财务信息数据、业务运营数据、管理决策数据和外部行业数据;
3、s2、对采集的财务信息数据、业务运营数据、管理决策数据和外部行业数据进行预处理,得到财务特征数据集、业务运营特征数据集、管理决策特征数据集和外部行业特征数据集;
4、对财务特征数据集、业务运营特征数据集、管理决策特征数据集和外部行业特征数据集进行特征提取和加权融合,得到综合特征数据集;
5、s3、构建审计风险预测模型,将综合特征数据集输入审计风险预测模型中,预测得到企业数据资产的审计风险系数;
6、s4、将预测的企业数据资产的审计风险系数与预设的企业数据资产审计风险系数阈值进行对比,评估企业数据资产面临的审计风险等级;
7、s5、根据企业数据资产面临的审计风险等级,制定相对应的资产优化管理策略。
8、进一步地,所述采集企业的财务信息数据包括:收支数据、资产数据、负债数据、现金流数据和税务数据;业务运营数据包括生产数据、库存数据、销售数据、供应链数据、客户行为数据和运营绩效数据;
9、管理决策数据包括战略规划数据、绩效考核数据、内部审计数据、预算与预测数据和决策支持数据;外部行业数据包括行业市场数据、经济环境数据、政策法规数据和技术趋势数据。
10、进一步地,所述对采集的财务信息数据、业务运营数据、管理决策数据和外部行业数据进行预处理,得到财务信息数据集、业务运营数据集、管理决策数据集和外部行业数据集的方法包括:
11、使用线性插值法对财务信息数据、业务运营数据、管理决策数据和外部行业数据中的缺失值进行填充;使用前后非缺失值的线性关系计算缺失值的估计值,替换原始缺失值;检查财务信息数据、业务运营数据、管理决策数据和外部行业数据的唯一性,去除重复记录的数据;
12、对财务信息数据、业务运营数据、管理决策数据和外部行业数据进行标准化和归一化处理,将不同单位和量纲的数据转换为标准正态分布,得到财务信息数据集、业务运营数据集、管理决策数据集和外部行业数据集。
13、进一步地,所述对财务信息数据集、业务运营数据集、管理决策数据集和外部行业数据集进行特征提取和加权融合,得到综合特征数据集的方法包括:
14、对财务信息数据集进行特征提取的方法为:计算财务指标,对财务信息数据进行财务比率分析;对获取的财务指标进行时间序列分析,提取时间序列数据的趋势、季节性和周期性特征;将获取的财务指标和数据的趋势、季节性和周期性特征进行整合,得到财务特征数据集;
15、对业务运营数据集进行特征提取的方法为:对业务运营数据集中的销售数据进行时间序列分析,提取季节性、趋势性和周期性特征;对生产数据进行生产效率分析,提取生产率、设备利用率和生产周期时间特征;对库存数据计算库存周转率、库存持有成本和供需平衡特征;基于客户行为数据,进行客户特征分析,具体方法为:
16、s41、提取客户的rfm特征;对每个客户分别计算r、f、m指标,根据计算结果对r、f、m指标进行评分;
17、s42、基于r、f、m指标评分,将客户在r、f、m三个维度的得分进行组合,得到r、f、m得分组合,每种组合代表一种不同的客户类型,并计算每个客户的综合得分;
18、综合得分计算公式为:
19、;
20、其中,为第个客户的总得分;为第个客户的r指标评分;为第个客户的f指标评分;为第个客户的m指标评分;为第个客户的r指标评分权重系数;为第个客户的f指标评分权重系数;为第个客户的m指标评分权重系数;为客户的索引;
21、s43、将客户按不同的得分组合进行初步分群,每个组合代表一种不同的客户类型,通过得分组合限制模型对得分组合进行限制;
22、所述得分组合限制模型为:
23、;
24、其中,为总客户群中属于某一客户类型的比例;为客户群体中的最小综合得分;为客户群体中的最大综合得分;为评分维度与客户总数的比例;为客户的总数量;为客户的种类;为rfm的评分维度数;
25、s44、将每个客户的r、f、m指标评分标准化;所述标准化公式为:
26、;
27、其中,为标准化后的指标评分;为客户的r、f、m指标评分;为指标评分的均值;为指标评分的标准差;为客户索引;
28、采用k-means聚类算法对客户进行进一步细分;对管理决策数据集进行特征提取的方法为:对管理决策数据进行swot分析和关键绩效指标分析;
29、对外部行业数据集进行特征提取的方法为:使用时间序列分析方法对市场趋势进行分析和宏观经济特征提取;
30、通过以上步骤,得到特征提取后的财务信息数据集、业务运营数据集、管理决策数据集和外部行业数据集;对特征提取后的财务信息数据集、业务运营数据集、管理决策数据集和外部行业数据集进行加权融合,得到综合特征数据集。
31、进一步地,所述对特征提取后的财务特征数据集、业务运营特征数据集、管理决策特征数据集和外部行业特征数据集进行加权融合,得到综合特征数据集的方法包括:
32、将特征提取后的财务特征数据集、业务运营特征数据集、管理决策特征数据集和外部行业特征数据集通过加权模型融合形成综合特征数据集,将财务特征数据集记为,业务运营特征数据集记为,管理决策特征数据集记为;外部行业特征数据集记为;
33、所述加权模型为:
34、;
35、其中,为财务特征数据集的权重系数;为业务运营特征数据集的权重系数;为管理决策特征数据集的权重系数;为外部行业特征数据集的权重系数。
36、进一步地,所述审计风险预测模型的训练方法包括;
37、将数据集划分为训练集、验证集和测试集,数据集包括历史综合特征数据集以及对应的企业资产数据的审计风险系数;构建审计风险预测模型,模型包括输入层、gru层、全连接层和输出层;审计风险预测模型的输入层用于输入历史综合特征数据集,输入层的神经元数目与历史综合特征数据集的特征数目相匹配;
38、使用gru层处理历史综合特征数据集,根据任务复杂度调整gru层的数量和神经元数量;通过全连接层以提供附加的非线性变换;模型输出层用于输出网络信号性能指标,通过一个神经元来输出预测值,使用恒等函数作为激活函数;所述审计风险预测模型为门控循环单元模型;
39、使用平均绝对误差作为损失函数,衡量模型的预测值和实际值之间的误差;所述平均绝对误差损失函数为:
40、;
41、其中,为平均绝对误差;为数据集数量;为第个企业资产数据的审计风险系数的真实值;为第个企业资产数据的审计风险系数的预测值;
42、使用训练集数据进行模型训练,通过adam优化器来最小化损失函数;使用验证集评估模型的性能,对模型的超参数进行调优,直到模型性能不再显著提升或达到预设的停止条件时停止;
43、使用测试集评估模型在预测任务中的性能,将当前综合特征数据集输入训练好的审计风险预测模型中,得到企业数据资产的审计风险系数。
44、进一步地,所述对模型的超参数进行调优的方法包括:
45、s71、预设有两个超参数分别为学习率和gru层数,使用网格搜索遍历这两个超参数组合,预设学习率的取值范围为:
46、;
47、其中,为学习率的取值数量;预设gru层数的取值范围为:
48、;
49、其中,为gru层数的取值数量;
50、s72、对于每一个超参数组合,通过折交叉验证误差公式计算该超参数组合的折交叉验证误差,所述折交叉验证误差公式为:
51、;
52、其中,为在超参数组合下,通过折交叉验证得到的平均验证误差;为第个学习率的取值;为第个gru层数的取值;为折交叉验证中的折数;为一个遍历所有折的循环向量;为对从1到的求和;为在第折中使用超参数组合训练模型后的验证误差;
53、s73、通过折限制公式对折交叉验证中的折数进行限制,所述折限制公式为:
54、;
55、其中,为超参数组合的总数;为超参数的种类数;为向下取整函数;
56、s74、选择使得折交叉验证误差最小的超参数组合作为模型的最优超参数组合。
57、进一步地,所述将预测的企业数据资产的审计风险系数与预设的企业数据资产审计风险系数阈值进行对比,评估企业数据资产面临的审计风险等级的方法包括:
58、s81、预设审计风险系数阈值,通过阈值调整公式对审计风险系数阈值进行限定;所述阈值调整公式为:
59、;
60、其中,为审计风险系数阈值;为历史审计风险系数的中位数;为历史审计风险系数的标准差;为历史审计风险系数的百分位数;为历史审计风险系数的中位数与百分位数差值的调整系数;
61、s82、通过系数调整模型对历史审计风险系数的中位数与百分位数差值的调整系数进行调整,所述系数调整模型为:
62、;
63、其中,为影响历史审计风险系数的特征数量;为历史审计风险系数的数量;为历史审计风险系数的方差;
64、s83、当的取值为第一四分位数时,将审计风险系数阈值记为;当的取值为第三四分位数时,将审计风险系数阈值记为;
65、s84、根据预设的审计风险系数阈值,将企业数据资产面临的审计风险等级阈值进一步划分;将预测的审计风险系数记为;
66、s85、将预测的审计风险系数与预设审计风险系数阈值进行对比,判断企业数据资产面临的审计风险等级;若,则判定企业数据资产面临的审计风险等级为低风险;若,则判定企业数据资产面临的审计风险等级为中风险;若,则判定企业数据资产面临的审计风险等级为高风险。
67、进一步地,所述根据企业数据资产面临的审计风险等级,制定对应的资产优化管理策略的方法包括:
68、对于低度审计风险的企业数据资产,采取的管理策略包括进行数据质量检查、数据分类、分级管理,设定局部数据访问控制权限和启动局部数据审计跟踪机制;
69、对于中度审计风险的企业数据资产,采取的管理策略包括实施联合数据保护措施,强化数据访问控制策略,结合角色和属性控制进行全面权限管理,建立数据备份和恢复机制,对数据进行加密存储和传输,并实施用户行为分析和审计,检测异常数据操作并通过企业智能管理终端生成预警信息;
70、对于高度审计风险的企业数据资产,采取综合性优化管理策略,对所有数据进行全面审计,监控所有数据操作行为,通过企业智能管理终端生成审计报告;部署dlp数据防泄漏技术,采用高强度加密算法对数据进行加密,通过企业智能管理终端发出拦截指令,自动拦截未经授权的数据传输。
71、一种基于大数据的企业数据资产审计系统,包括:
72、数据采集模块,用于采集企业的财务信息数据、业务运营数据、管理决策数据和外部行业数据;
73、数据处理模块,用于对采集的财务信息数据、业务运营数据、管理决策数据和外部行业数据进行预处理,得到财务信息数据集、业务运营数据集、管理决策数据集和外部行业数据集;
74、对财务信息数据集、业务运营数据集、管理决策数据集和外部行业数据集进行特征提取和加权融合,得到综合特征数据集;
75、风险预测模块,用于构建审计风险预测模型,将综合特征数据集输入审计风险预测模型中,预测得到企业数据资产的审计风险系数;
76、风险评估模块,用于将预测的企业数据资产的审计风险系数与预设的企业数据资产审计风险系数阈值进行对比,评估企业数据资产面临的审计风险等级;
77、调整优化模块,用于根据企业数据资产面临的审计风险等级,制定相对应的优化数据管理策略。
78、本发明一种基于大数据的企业数据资产审计方法和系统的技术效果和优点:
79、通过交叉验证,能够有效地评估模型在不同数据子集上的表现,确保模型的训练过程的稳定;多折验证可以减小数据划分的随机性对模型评估结果的影响,提高结果的可靠性;折数限制公式根据超参数组合的数量来调整折数,避免不必要的计算开销;使得模型训练更高效,尤其在超参数组合较多的情况下,能够显著降低计算成本;网格搜索和交叉验证方法的标准化流程,使得实验结果具有更高的可重复性;
80、通过引入阈值调整公式,结合历史审计风险系数的中位数、标准差、百分位数等统计特征,动态调整审计风险系数阈值;能够更好地适应不同企业和行业的风险特征,避免因固定阈值带来的不灵活性,使得风险评估更加准确和适应性强;使用中位数、标准差、百分位数等多种统计特征来计算审计风险系数的阈值,使得评估方法更加科学和全面;能够减少异常值对结果的影响,提供更稳定的风险评估结果;
81、通过系数调整模型对历史审计风险系数的中位数与百分位数差值进行调整,利用特征数量和方差等因素进一步优化调整系数;能够增强模型的鲁棒性和灵活性,使得风险阈值的确定更加精准;通过使用数学模型和数据分析方法确定审计风险等级,降低了评估过程中的主观性;使得风险评估过程更加标准化、透明化和可解释,有助于提高审计和管理决策的客观性和一致性。