一种工程造价清单归集系统及其方法与流程

文档序号:29092027发布日期:2022-03-02 03:07阅读:118来源:国知局
一种工程造价清单归集系统及其方法与流程

1.本发明属于工程造价技术领域,具体涉及一种工程造价清单归集系统及其方法。


背景技术:

2.工程造价是指构成项目在建设期预计或实际支出的建设费用,其综合运用管理学、经济学和工程技术等方面的知识与技能,对工程造价进行预测、计划、控制、核算、分析和评价等的工作过程被称为工程造价管理。按照法律法规和标准等规定的程序、方法和依据,对工程造价及其构成内容进行的预测或确定被称为工程计价,工程计价依据包括与计价内容、计价方法和价格标准相关的工程计量计价标准,工程计价定额及工程造价信息等。
3.工程造价会积累大量的历史数据,历史数据对新造价具有参考价值。但是,受不同造价师个人风格,导致每个项目的造价人员的清单的内容都不相同,这就需要将内容相近、相似的清单归集到同一个标准清单之下,方便后续进行数据对比。
4.现有技术存在的问题:现有的清单归集方法大多采用人工归集的方式,利用同义词对不同的清单中的关键词进行替换,形成相同清单,并归集到相同清单下,这样的工作方式工作人员的工作量大,容易出现误差,受表达方式影响,容易出现漏归集的数据。


技术实现要素:

5.为了解决现有技术存在的人力成本投入过大、工作人员工作量大以及容易出现数据遗漏的问题,提出一种工程造价清单归集系统及其方法。
6.本发明所采用的技术方案为:一种工程造价清单归集系统,包括清单获取单元和清单分类单元,清单获取单元与清单分类单元连接,且清单获取单元连接有外部的工程造价数据库;清单获取单元用于获取历史的工程造价文件,提取历史的工程造价文件中的清单数据,并将清单数据传输至清单分类单元;清单分类单元用于对接收的清单数据进行分类,并将分类后的清单数据存储至对应类别的数据库。
7.进一步地,清单获取单元包括文件输入端口、格式转换模块、清单提取模块、微处理器以及缓存模块,文件输入端口、格式转换模块、清单提取模块以及以及缓存模块依次连接,微处理器分别与文件输入端口、格式转换模块、清单提取模块以及缓存模块连接,文件输入端口连接有外部的工程造价数据库,清单提取模块与清单分类单元连接。
8.微处理器控制清单获取单元的各模块的正常工作,文件输入端口接收外部的工程造价数据库传输的工程造价文件,格式转换模块统一工程造价文件的数据格式,转换为清单提取模块能够识别的数据格式,清单提取模块提取工程造价文件中包括的清单数据,并将清单数据传输至清单分类单元,缓存模块临时存储清单数据,确保系统工作中数据的安全性。
9.进一步地,清单分类单元包括主控模块、关键词提取模块、simhash计算模块、分类
模块以及存储模块,关键词提取模块、simhash计算模块、分类模块以及存储模块依次连接,且关键词提取模块与清单获取单元连接,主控模块分别与关键词提取模块、simhash计算模块、分类模块以及存储模块连接,存储模块与simhash计算模块连接。
10.主控模块控制清单分类单元的各模块的正常工作,关键词提取模块对接收到的清单数据进行分词处理并提取对应的关键词,simhash计算模块计算当前清单数据的simhash值,分类模块根据当前清单数据的simhash值与存储模块中各类别的清单数据库中清单数据的simhash值进行分类,并存储至对应类别的清单数据库,存储模块设置有关键词库和所有类别的清单数据库。
11.进一步地,simhash计算模块包括权重计算子模块、hash计算子模块以及海明距离计算子模块,权重计算子模块、hash计算子模块以及海明距离计算子模块依次连接,权重计算子模块、hash计算子模块以及海明距离计算子模块均与主控模块连接,且权重计算子模块与关键词提取模块连接,海明距离计算子模块分别与分类模块和存储模块连接。
12.权重计算子模块根据存储模块的关键词库中存储的关键词词频计算当前清单数据的关键词的权重,hash计算子模块根据各关键词的权重和对应的hash值进行加权计算,得到当前清单数据的simhash值,海明距离计算子模块获取当前清单数据的simhash值与存储模块中任意类别的清单数据库的海明距离,并将海明距离传输至分类模块,分类模块根据海明距离对当前清单数据进行分类并存储至对应类别的清单数据库。
13.一种工程造价清单归集方法,基于工程造价清单归集系统,包括如下步骤:基于神经网络建立清单分类模型;获取待归集的若干清单数据;将所有的清单数据输入清单分类模型进行分类,并根据分类结果将所有的清单数据存储至对应的清单数据库。
14.进一步地,基于神经网络建立清单分类模型,包括如下步骤:采集工程造价数据库中的若干工程造价文件,并统一若干工程造价文件的数据格式;提取每个工程造价文件中的清单数据得到清单数据集,并将清单数据集分为训练集和测试集;调用关键词库,使用训练集对cnn卷积神经网络进行训练,得到初始的清单分类模型;将测试集输入初始的清单分类模型进行优化,得到最优的清单分类模型。
15.进一步地,清单分类模型使用simhash算法对清单数据进行分类,包括如下步骤:使用清单分类模型提取当前的清单数据的关键词,并将关键词存储至关键词库;根据关键词获取当前的清单数据的simhash值,并获取各类别的清单数据库中清单数据的simhash值;根据当前的清单数据的simhash值与所有类别的清单数据的simhash值进行相似度判定,根据相似度判定结果得到当前的清单数据的分类结果,根据分类结果将当前的清单数据存储至对应的清单数据库。
16.进一步地,清单分类模型使用textrank算法提取当前的清单数据的关键词,包括如下步骤:
将清单数据分割为若干完整的句子;对每个句子进行分词和词性标注处理,过滤停用词并保留指定词性的单词,得到若干候选关键词;根据若干候选关键词构建候选关键词图,并构建候选关键词之间的连接关系;根据候选关键词之间的连接关系迭代传播候选关键词图中各候选关键词的权重直至迭代结果收敛,对候选关键词的权重进行倒序排序,根据排序结果得到若干关键词;textrank算法的公式为:式中,分别为关键词节点vi与vj的得分函数;d为阻尼系数,取值范围为0-1;分别为关键词节点vj到vi与到vk的权重;为关键词节点vi的指向节点集合;均为关键词节点;均为节点指示量。
17.进一步地,根据关键词获取当前的清单数据的simhash值,包括如下步骤:根据关键词库中存储的关键词词频计算当前清单数据的关键词的权重;获取当前清单数据的关键词的hash值;根据各关键词的权重和对应的hash值进行加权计算,得到当前清单数据的simhash值。
18.进一步地,根据simhash值进行相似度判定,包括如下步骤:遍历所有类别的清单数据,获取当前的清单数据的simhash值与任一类别的清单数据的simhash值的海明距离;若海明距离属于相似范围,则当前的清单数据属于对应的类别并存储至对应的清单数据库,结束分类,否则返回上一步骤;若清单数据库不存在当前的清单数据的类别,则建立新的类别的清单数据库,并将当前的清单数据进行存储。
19.本发明的有益效果为:1)本发明提供的工程造价清单归集系统,通过清单获取单元采集历史的工程造价文件中的清单数据进行模型训练,再通过清单分类单元将海量的清单数据进行自动化的分类并存储至对应类别的数据库中,避免了人工归集的方式,减小了人力成本的投入和工作人员的工作量,同时基于该系统对大量工程造价文件的关键词建立关键词库,适用于不同造价师的不同命名方式的清单内容,避免了数据疏漏的问题。
20.2)本发明提供的工程造价清单归集方法通过神经网络建立清单分类模型,实现了清单归集的自动化处理,使用textrank算法提取清单数据中的工程造价关键词并建立对应的关键词库,提高了方法对不同清单数据的适用性,使用simhash算法对清单数据进行分类,由于simhash 算法的局部敏感性,可以在尽可能保留清单数据相似特征的前提下,将数据缩减到可以计算的范围内,节约宝贵的计算资源。
21.本发明的其他有益效果将在具体实施方式中进一步进行说明。
附图说明
22.图1是本发明中工程造价清单归集系统的结构框图。
23.图2是本发明中工程造价清单归集方法的方法流程图。
具体实施方式
24.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
25.实施例1:如图1所示,本实施例提供一种工程造价清单归集系统,包括清单获取单元和清单分类单元,清单获取单元与清单分类单元连接,且清单获取单元连接有外部的工程造价数据库;清单获取单元用于获取历史的工程造价文件,提取历史的工程造价文件中的清单数据,并将清单数据传输至清单分类单元;清单分类单元用于对接收的清单数据进行分类,并将分类后的清单数据存储至对应类别的数据库。
26.作为优选,清单获取单元包括文件输入端口、格式转换模块、清单提取模块、微处理器以及缓存模块,文件输入端口、格式转换模块、清单提取模块以及以及缓存模块依次连接,微处理器分别与文件输入端口、格式转换模块、清单提取模块以及缓存模块连接,文件输入端口连接有外部的工程造价数据库,清单提取模块与清单分类单元连接。
27.微处理器控制清单获取单元的各模块的正常工作,文件输入端口接收外部的工程造价数据库传输的工程造价文件,格式转换模块统一工程造价文件的数据格式,转换为清单提取模块能够识别的数据格式,清单提取模块提取工程造价文件中包括的清单数据,并将清单数据传输至清单分类单元,缓存模块临时存储清单数据,确保系统工作中数据的安全性。
28.作为优选,清单分类单元包括主控模块、关键词提取模块、simhash计算模块、分类模块以及存储模块,关键词提取模块、simhash计算模块、分类模块以及存储模块依次连接,且关键词提取模块与清单获取单元连接,主控模块分别与关键词提取模块、simhash计算模块、分类模块以及存储模块连接,存储模块与simhash计算模块连接。
29.主控模块控制清单分类单元的各模块的正常工作,关键词提取模块对接收到的清单数据进行分词处理并提取对应的关键词,simhash计算模块计算当前清单数据的simhash值,分类模块根据当前清单数据的simhash值与存储模块中各类别的清单数据库中清单数据的simhash值进行分类,并存储至对应类别的清单数据库,存储模块设置有关键词库和所有类别的清单数据库。
30.作为优选,simhash计算模块包括权重计算子模块、hash计算子模块以及海明距离计算子模块,权重计算子模块、hash计算子模块以及海明距离计算子模块依次连接,权重计算子模块、hash计算子模块以及海明距离计算子模块均与主控模块连接,且权重计算子模块与关键词提取模块连接,海明距离计算子模块分别与分类模块和存储模块连接。
31.权重计算子模块根据存储模块的关键词库中存储的关键词词频计算当前清单数
据的关键词的权重,hash计算子模块根据各关键词的权重和对应的hash值进行加权计算,得到当前清单数据的simhash值,海明距离计算子模块获取当前清单数据的simhash值与存储模块中任意类别的清单数据库的海明距离,并将海明距离传输至分类模块,分类模块根据海明距离对当前清单数据进行分类并存储至对应类别的清单数据库。
32.本发明提供的工程造价清单归集系统,通过清单获取单元采集历史的工程造价文件中的清单数据进行模型训练,再通过清单分类单元将海量的清单数据进行自动化的分类并存储至对应类别的数据库中,避免了人工归集的方式,减小了人力成本的投入和工作人员的工作量,同时基于该系统对大量工程造价文件的关键词建立关键词库,适用于不同造价师的不同命名方式的清单内容,避免了数据疏漏的问题。
33.实施例2:本实施例为基于实施例1的技术方案的改进,其与实施例1的区别在于:一种工程造价清单归集方法,如图2所示,基于工程造价清单归集系统,包括如下步骤:基于神经网络建立清单分类模型,包括如下步骤:采集工程造价数据库中的若干工程造价文件,并统一若干工程造价文件的数据格式;提取每个工程造价文件中的清单数据得到清单数据集,并将清单数据集分为训练集和测试集;调用关键词库,使用训练集对cnn卷积神经网络进行训练,得到初始的清单分类模型;将测试集输入初始的清单分类模型进行优化,得到最优的清单分类模型;获取待归集的若干清单数据;将所有的清单数据输入清单分类模型使用simhash算法进行分类,并根据分类结果将所有的清单数据存储至对应的清单数据库,包括如下步骤:清单分类模型使用textrank算法提取当前的清单数据的关键词,并将关键词存储至关键词库,包括如下步骤:将清单数据分割为若干完整的句子;对每个句子进行分词和词性标注处理,过滤停用词并保留指定词性的单词,得到若干候选关键词;根据若干候选关键词构建候选关键词图,并构建候选关键词之间的连接关系;根据候选关键词之间的连接关系迭代传播候选关键词图中各候选关键词的权重直至迭代结果收敛,对候选关键词的权重进行倒序排序,根据排序结果得到若干关键词;textrank算法的公式为:式中,分别为关键词节点vi与vj的得分函数;d为阻尼系数,
取值范围为0-1;分别为关键词节点vj到vi与到vk的权重;为关键词节点vi的指向节点集合;均为关键词节点;均为节点指示量。
34.根据关键词获取当前的清单数据的simhash值,并获取各类别的清单数据库中清单数据的simhash值,包括如下步骤:根据关键词库中存储的关键词词频计算当前清单数据的关键词的权重;获取当前清单数据的关键词的hash值;根据各关键词的权重和对应的hash值进行加权计算,得到当前清单数据的simhash值;根据当前的清单数据的simhash值与所有类别的清单数据的simhash值进行相似度判定,根据相似度判定结果得到当前的清单数据的分类结果,根据分类结果将当前的清单数据存储至对应的清单数据库,包括如下步骤:遍历所有类别的清单数据,获取当前的清单数据的simhash值与任一类别的清单数据的simhash值的海明距离;若海明距离属于相似范围,则当前的清单数据属于对应的类别并存储至对应的清单数据库,结束分类,否则返回上一步骤;相似范围的下限至为0,即海明距离小于0则不参与相似度判定,相似范围的上限由工作人员设置,一般为3;若清单数据库不存在当前的清单数据的类别,则建立新的类别的清单数据库,并将当前的清单数据进行存储。
35.本发明提供的工程造价清单归集方法通过神经网络建立清单分类模型,实现了清单归集的自动化处理,使用textrank算法提取清单数据中的工程造价关键词并建立对应的关键词库,提高了方法对不同清单数据的适用性,使用simhash算法对清单数据进行分类,由于simhash 算法的局部敏感性,可以在尽可能保留清单数据相似特征的前提下,将数据缩减到可以计算的范围内,节约宝贵的计算资源。
36.本发明不局限于上述可选的实施方式,任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制,本发明的保护范围应当以权利要求书中界定的为准,并且说明书可以用于解释权利要求书。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1