一种基于大数据ai技术的工程审计问题监测方法与系统
技术领域
1.本发明涉及审计问题监测技术领域,特别涉及一种基于大数据ai技术的工程审计问题监测方法与系统。
背景技术:2.目前,由于工程项目建设过程资料种类繁多、数量庞大,但我国电子文件管理体系的不完备,导致工程建设领域存在电子文档管理混乱、信息不全等不良现象,甚至存在着大量的传统纸质文档无法转换为电子档案管理,无法满足当前的管理需求,导致对工程建设全过程合规性的实时监督缺乏有效地抓手。随着信息化程度的不断提升,虽然部分企业通过智能管理系统对造价、财务、合同等进行管理,但整体数据集成差,信息割裂,数据质量不高,提取利用有效数据困难。设计、施工、业主、供应商等项目参建方无法统一数据的接口,导致缺乏可关联的主数据,企业无结构化数据可供使用,导致对工程建设全过程的监督质效低下,存在较高的管理风险。
技术实现要素:3.本发明提供的一种基于大数据ai技术的工程审计问题监测方法与系统,包括:根据采集的审计信息,确定审计需求;将所述审计需求输入预先构建的审计关联模型,得到审计目标数据;将所述审计目标数据输入预先构建的审计自主监督模型,得到审计监测结果;所述审计关联模型的构建包括:针对所述审计需求进行特征抽取,确定待抽取特征;针对所述审计需求进行特征选择,确定待抽取类别;基于预设的审计数据库,根据所述待抽取特征和待抽取类别进行数据提取,并针对提取的数据进行数据清洗和数据消重,得到关联数据;将所述关联数据和所述审计需求进行关联度计算,筛选关联度计算结果大于预设阈值的关联数据作为审计目标数据对审计关联模型进行构建。
4.优选的,所述审计自主监督模型的构建包括:针对所述审计目标数据进行多模态自监督学习,标注问题数据;针对所述问题数据按照预设的问题属性值进行文本分类,得到审计监测结果。
5.优选的,所述针对所述审计目标数据进行多模态自监督学习,标注问题数据,包括:针对所述审计目标数据的掩码数据进行编码,得到一级编码数据;基于所述审计需求,针对所述审计目标数据进行权重设置,得到权重设置信息;针对所述审计目标数据中的无掩码数据进行编码,得到二级编码数据;基于所述一级编码数据、二级编码数据和权重设置信息,确定问题数据,并对所述审计目标数据中的问题数据进行问题标注。
6.优选的,所述根据采集的审计信息,确定审计需求,包括:采集审计信息,并对所述审计信息进行结构化转换,得到一级转换信息;将所述一级转换信息进行多尺度特征融合,获取融合信息;根据所述融合信息进行关键信息提取,确定所述审计信息对应 审计需求;其中,所述审计信息包括:审计目标、审计范围和审计内容。
7.优选的,所述待抽取特征,包括:文本特征和符号特征;所述待抽取类别,包括:文本词性和文本属性。
8.基于同一发明构思,本发明还提供了一种基于大数据ai技术的工程审计问题监测系统,包括:需求确定模块:用于根据采集的审计信息,确定审计需求;目标数据确定模块:用于将所述审计需求输入预先构建的审计关联模型,得到审计目标数据;审计监测模块:用于将所述审计目标数据输入预先构建的审计自主监督模型,得到审计监测结果;其中,所述目标数据确定模块中审计关联模型的构建包括:针对所述审计需求进行特征抽取,确定待抽取特征;针对所述审计需求进行特征选择,确定待抽取类别;基于预设的审计数据库,根据所述待抽取特征和待抽取类别进行数据提取,并针对提取的数据进行数据清洗和数据消重,得到关联数据;将所述关联数据和所述审计需求进行关联度计算,筛选关联度计算结果大于预设阈值的关联数据作为审计目标数据对审计关联模型进行构建。
9.优选的,所述审计监测模块中审计自主监督模型的构建包括:针对所述审计目标数据进行多模态自监督学习,标注问题数据;针对所述问题数据按照预设的问题属性值进行文本分类,得到审计监测结果。
10.优选的,所述审计监测模块中针对所述审计目标数据进行多模态自监督学习,标注问题数据,包括:针对所述审计目标数据的掩码数据进行编码,得到一级编码数据;基于所述审计需求,针对所述审计目标数据进行权重设置,得到权重设置信息;针对所述审计目标数据中的无掩码数据进行编码,得到二级编码数据;基于所述一级编码数据、二级编码数据和权重设置信息,确定问题数据,并对所述审计目标数据中的问题数据进行问题标注。
11.优选的,所述需求确定模块,具体用于:采集审计信息,并对所述审计信息进行结构化转换,得到一级转换信息;将所述一级转换信息进行多尺度特征融合,获取融合信息;根据所述融合信息进行关键信息提取,确定所述审计信息对应 审计需求;其中,所述审计信息包括:审计目标、审计范围和审计内容。
12.优选的,所述目标数据确定模块待抽取特征,包括:文本特征和符号特征;所述待抽取类别,包括:文本词性和文本属性。
13.与最接近的现有技术相比,本发明具有的有益效果如下:
本发明提供了一种基于大数据ai技术的工程审计问题监测方法与系统,包括:根据采集的审计信息,确定审计需求;将所述审计需求输入预先构建的审计关联模型,得到审计目标数据;将所述审计目标数据输入预先构建的审计自主监督模型,得到审计监测结果;所述审计关联模型的构建包括:针对所述审计需求进行特征抽取,确定待抽取特征;针对所述审计需求进行特征选择,确定待抽取类别;基于预设的审计数据库,根据所述待抽取特征和待抽取类别进行数据提取,并针对提取的数据进行数据清洗和数据消重,得到关联数据;将所述关联数据和所述审计需求进行关联度计算,筛选关联度计算结果大于预设阈值的关联数据作为审计目标数据对审计关联模型进行构建。本发明通过数据识别和数据挖掘推动电力审计作业手段革新,覆盖业务面广、涉及数据量大;通过数据分析技术在审计项目中的应用,将电力审计手段从传统的刀耕火种向信息技术高科技手段转变;拓宽审计范围、促进全面开展审计监督,数据挖掘技术通过对数据描述、推演、挖掘被审计单位数据库中深层的、隐藏的关系,发掘和提取未知的数据运行模式,生成审计疑点。并利用大数据监测技术可以查找出原先想不到的甚至根本没有想过的审计问题,不仅可以发掘被审计单位遗漏的问题,甚至是人为的问题,能够极大的丰富审计理论和经验,扩大审计范围和增加审计深度,提高审计质量,降低审计风险,使全面审计成为可能;并且能够发现未知业务规律,在海量的电力数据中发现未知的业务规律,通过业务规律发现隐藏在海量数据中的审计线索,为审计人员开展审计项目提供数据支撑服务。
14.本发明的其它特征将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
15.下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
16.附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:图1为本发明实施例中一种基于大数据ai技术的工程审计问题监测方法流程示意图;图2为本发明具体实施例中的审计流程示意图;图3为本发明具体实施例中采用的数据挖掘建模技术的流程示意图;图4为本发明具体实施例中采用数据挖掘建模技术得到的决策树模型示意图;图5为本发明实施例中一种基于大数据ai技术的工程审计问题监测系统结构组成示意图。
具体实施方式
17.以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
18.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序,“多个”的含义是两个或两个以上,除非另有明确具体的
限定。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
19.尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
实施例1
20.本发明实施例提供了一种基于大数据ai技术的工程审计问题监测方法,如附图1所示,包括:根据采集的审计信息,确定审计需求;将所述审计需求输入预先构建的审计关联模型,得到审计目标数据;将所述审计目标数据输入预先构建的审计自主监督模型,得到审计监测结果;所述审计关联模型的构建包括:针对所述审计需求进行特征抽取,确定待抽取特征;针对所述审计需求进行特征选择,确定待抽取类别;基于预设的审计数据库,根据所述待抽取特征和待抽取类别进行数据提取,并针对提取的数据进行数据清洗和数据消重,得到关联数据;将所述关联数据和所述审计需求进行关联度计算,筛选关联度计算结果大于预设阈值的关联数据作为审计目标数据对审计关联模型进行构建。
21.所述审计自主监督模型的构建包括:针对所述审计目标数据进行多模态自监督学习,标注问题数据;针对所述问题数据按照预设的问题属性值进行文本分类,得到审计监测结果。
22.所述针对所述审计目标数据进行多模态自监督学习,标注问题数据,包括:针对所述审计目标数据的掩码数据进行编码,得到一级编码数据;基于所述审计需求,针对所述审计目标数据进行权重设置,得到权重设置信息;针对所述审计目标数据中的无掩码数据进行编码,得到二级编码数据;基于所述一级编码数据、二级编码数据和权重设置信息,对所述审计目标数据中的问题数据进行问题标注。
23.优选的,所述根据采集的审计信息,确定审计需求,包括:采集审计信息,并对所述审计信息进行结构化转换,得到一级转换信息;将所述一级转换信息进行多尺度特征融合,获取融合信息;根据所述融合信息进行关键信息提取,确定所述审计信息对应 审计需求;其中,所述审计信息包括:审计目标、审计范围和审计内容。
24.所述待抽取特征,包括:文本特征和符号特征;所述待抽取类别,包括:文本词性和文本属性。
25.以一个具体的实施例说明本发明提供的一种基于大数据ai技术的工程审计问题监测方法,如附图2所示,包括以下步骤:步骤101:审计数据的采集与存储,首先对被审计单位的基本情况进行深入了解,
通过分析审计目标、审计范围、审计内容,确定具体的审计需求。根据明确的审计需求,采集与被审计单位相关的大量非结构化数据是进行审计数据分析的关键步骤。一是针对来自企业外部的数据能够通过采用网络爬虫技术、ocr和api 等方式进行获取;另一方面,可以通过各种有效的数据访问接口对非结构化数据进行采集。为了保证审计数据的完整性和真实性,需要建立严格和规范的制度,对采集到的非结构化数据进行科学安全的管理;步骤102:审计数据文本挖掘,文本挖掘包含三部分,一是通过特征抽取与特征选择对审计数据分析的核心内容进行挖掘,特征抽取通过向量模型抽取出能够代表审计文本特征信息、对审计文本的类别能起到区分和识别作用的词或者短语,建立文本表示模型,将非结构审计文本转化为计算机能处理的表达形式;特征选择优先采用对审计文本内容具有较强表达能力的特征。审计人员还需就审计目的对特征抽取的文本特征通过特征选择方法进行进一步选取,避免垃圾数据,保证数据的有效性。二是通过文本摘要、关联分析、文本分类对审计分析数据进行挖掘,文本摘要通过求取中心文档的方式对审计文本的摘要进行获取。审计人员通过方便的浏览方式和快速的审计线索查询方法来提高审计数据分析效率,关联分析技术在文本挖掘中主要针对知识进行关联。针对审计非结构化文本进行关联分析,研究审计文档之间可能存在的某种隐含的关系,从中获取审计事项和审计目标的本质联系,文本分类属于有监督的学习。文本聚类的优势是无须进行监督学习,不需要通过训练进行模拟,能够弥补常规审计数据分析方法很难发现的一些以特殊形式隐藏在大数据中的信息。对审计文本进行聚类后,可以按类别对每类文本进行具体的分析、比较和总结,分析异常数据存在的原因,大大减轻了审计人员进行审计数据分析的工作量。三是将复杂的审计数据通过可供使用者所理解的方式表达出来。可以把文本挖掘所获取的知识通过可视化的视觉符号(网络图、树状图、维恩图、坐标等)清晰地进行展示,审计人员可以根据审计目标和评估指标,对可视化的结果进行分析、解释和评价,从不同的角度对审计数据进行更加深入的观察和更加全面的多维分析;步骤103:总结和发布,审计人员和技术人员共同将上一阶段可视化分析所展现的结果进行筛选、归类、整理和深入分析,总结出有价值和有效的审计知识进行标准化,形成审计经验和审计线索,供审计人员分析取证。
26.如附图3所示,本发明还采用数据挖掘建模技术对工程审计问题进行监测,用电性质认证本质上是一个分类问题,我们可以使用数据挖掘中的分类算法进行模式识别。由于决策树模型具有模型结果可解释性的优点,因此我们选用决策树算法进行数据挖掘。在建模过程中主要考虑的建模指标有用户的运行容量、时间、每天的用电比例、每个小时的用电比例、用电性质,建模的数据使用筛选的较为准确的用电性质的数据,最后使用决策树算法建立用电性质识别模型。然后使用挖掘模型对那些不确定的用户进行预测,识别出用户的实际用电性质。对那些模型预测结果为工业或商业,而实际标记为居民的用户作为审计线索用户。
27.具体包括以下步骤:步骤201:算法思想,决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的事例中推理出决策树表示形式的分类规则,通常用来形成分类器和预测模型,可以对未知数据进行分类或预测、数据挖掘等。它包括两个步骤: 第一步是利用训练样本集来建立并精化出一棵决策树,建立决策树模型。这个过程实际上是一个从数据中
获取知识,进行机器学习的过程。建好的决策树对新的数据进行分类。在各种决策树分类的算法中,最有影响的是quinlan提出的id3算法,在id3算法的基础上,他又提出了c4.5算法。
28.本模型在构建决策树时采用经典的c4.5算法,该算法是quinlan.j.r在1993年提出的,它是从算法演变而来,id3(iterative dichotomizer 3)算法是quinlan 在1986年提出的。它是决策树算法的代表,绝大数决策树算法都是在它的基础上加以改进而实现的。它采用分治策略,在决策树各级结点上选择属性时,用信息增益作为属性的选择标准,以便在每一个非叶结点上进行测试时,能获得关于被测试记录最大的类别信息。具体方法是: 检测所有的属性,选择信息增益最大的属性产生决策树结点,由该属性的不同取值建立分支,再对各分支的子集递归调用该方法建立决策树结点的分支,直到所有子集仅包含同一类别的数据为止。最后得到一棵决策树,它可以对新的样本进行分类。
29.c4.5算法继承了id3 算法的优点,并引入了新的方法和功能:
①
用信息增益率的概念,克服了用信息增益选择属性时偏向多值属性的不足;
②
在树构造过程中进行剪枝,以避免树的过度拟合;
③
能够对连续属性的离散化处理;
④
可以处理具有缺少属性值的训练样本集;
⑤
能够对不完整数据进行处理;
⑥ꢀ
k交叉验证;
⑦
规则产生式。
30.c4.5算法降低了计算复杂度,增强了计算的效率。它对于id3算法的重要改进是使用信息增益率来选择属性。理论和实验表明,采用信息增益率比采用信息增益更好,主要是克服了id3方法选择偏向取值多的属性。c4.5算法还针对连续值属性的数据进行了处理,弥补了id3算法只能处理离散值属性数据的缺陷。
31.步骤202:模型构建。用于作为训练数据的是某市一月份用电量汇总,并用五个属性来刻画数据的特征,分别是运行容量,1月份每天的用电量,每天的用电量占全月的用电量比例,整点的用电量,整点的用电量占全月用电量的比例。使用c4.5算法进行决策树构建,根据统计一月份用电数据和用电性质,得出得到决策树模型附图4所示,从树的根节点到每个叶子节点,构成一条分类规则,如上图所示其代表的部分分类规则如表1所示:表1 决策树模型规则表
编号规则条件用电类别规则的可靠性(%)124点电量占比《=0.029565529941723567and27号电量占比》0.028783556206058748and30号电量占比》0.013059723327690499商业96.4285727点电量占比》0.014347999362346564and18点电量占比《=0.05558296635932825and30号电量占比《=0.013059723327690499工业91.04478324点电量占比》0.029565529941723567and1号电量占比》0.03092121905804584and30号电量占比》0.013059723327690499居民87.7193
424点电量占比《=0.029565529941723567and27号电量占比《=0.028783556206058748and30号电量占比》0.013059723327690499一般工业83.3333357点电量占比《=0.014347999362346564and18点电量占比《=0.05558296635932825and30号电量占比《=0.013059723327690499一般工业75
步骤203:模型结果分析,将1月份某市的用电数据在决策树分类模型上进行测试,用以检测模型在训练数据集上的有效性,总体评价指标选择:正确分类率, kappa统计量;各个目标评估指标有:准确率,覆盖率,f测度。模型总体正确率达到86.3%,各个目标的准确率也较高。
实施例2
32.本发明实施例提供了一种基于大数据ai技术的工程审计问题监测系统,如附图5所示,包括:需求确定模块:用于根据采集的审计信息,确定审计需求;目标数据确定模块:用于将所述审计需求输入预先构建的审计关联模型,得到审计目标数据;审计监测模块:用于将所述审计目标数据输入预先构建的审计自主监督模型,得到审计监测结果;其中,所述目标数据确定模块中审计关联模型的构建包括:针对所述审计需求进行特征抽取,确定待抽取特征;针对所述审计需求进行特征选择,确定待抽取类别;基于预设的审计数据库,根据所述待抽取特征和待抽取类别进行数据提取,并针对提取的数据进行数据清洗和数据消重,得到关联数据;将所述关联数据和所述审计需求进行关联度计算,筛选关联度计算结果大于预设阈值的关联数据作为审计目标数据对审计关联模型进行构建。
33.所述审计监测模块中审计自主监督模型的构建包括:针对所述审计目标数据进行多模态自监督学习,标注问题数据;针对所述问题数据按照预设的问题属性值进行文本分类,得到审计监测结果。
34.所述审计监测模块中针对所述审计目标数据进行多模态自监督学习,标注问题数据,包括:针对所述审计目标数据的掩码数据进行编码,得到一级编码数据;基于所述审计需求,针对所述审计目标数据进行权重设置,得到权重设置信息;针对所述审计目标数据中的无掩码数据进行编码,得到二级编码数据;基于所述一级编码数据、二级编码数据和权重设置信息,对所述审计目标数据中的问题数据进行问题标注。
35.所述需求确定模块,具体用于:采集审计信息,并对所述审计信息进行结构化转换,得到一级转换信息;将所述一级转换信息进行多尺度特征融合,获取融合信息;根据所述融合信息进行关键信息提取,确定所述审计信息对应 审计需求;
其中,所述审计信息包括:审计目标、审计范围和审计内容。
36.所述目标数据确定模块中的待抽取特征,包括:文本特征和符号特征;所述待抽取类别,包括:文本词性和文本属性。
37.本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
38.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
39.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
40.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
41.显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。