图纸表格提取方法、系统、计算机及可读存储介质与流程

文档序号:33620802发布日期:2023-03-25 11:39阅读:72来源:国知局
图纸表格提取方法、系统、计算机及可读存储介质与流程

1.本发明涉及数据处理技术领域,特别涉及一种图纸表格提取方法、系统、计算机及可读存储介质。


背景技术:

2.在工程和产品设计中,cad(computer aided design,计算机辅助设计) 可以帮助设计人员担负计算、信息存储和制图等项工作,并且可以进行与图形的编辑、放大、缩小、平移和旋转等有关的图形数据加工工作,大幅提升了技术人员的工作效率。
3.传统建造行业中大量的cad建筑设计图纸存在着转化为 bim(building information model,建筑信息模型的简称)的需求。其中,bim可以将建筑、结构、暖通、给排水和电气专业信息集成到一个三维建筑模型当中,从而对比传统的cad建筑设计图纸可以包含更多的信息,例如设备的型号、设备的高度、设备的安装方式等信息都可以包含在bim当中。
4.其中,上述信息在传统的cad建筑设计图纸中一般以表格的形式给出,然而,现有大部分的cad图纸中的表格绘制的都较为随意,并没有统一的规范,基本上取决于工作人员的工作习惯,导致从现有的cad图纸中提取出需要的图纸信息的周期较长,降低了工作人员图纸信息的提取效率。


技术实现要素:

5.基于此,本发明的目的是提供一种图纸表格提取方法、系统、计算机及可读存储介质,以解决从现有的cad图纸中提取出需要的图纸信息的周期较长,降低了工作人员图纸信息的提取效率的问题。
6.本发明实施例第一方面提出了一种图纸表格提取方法,所述方法包括:当获取到dwg格式文件时,识别出所述dwg格式文件中的表格区域,并对所述表格区域进行解析处理,以分解出若干对应的单元格,每一所述单元格内均包含对应的文本信息以及单元格位置信息;根据若干所述单元格中的文本信息在预设表格配置文件中匹配出对应的若干表头,并根据若干所述表头在所述预设表格配置文件中确定出对应的表名;检测出每一所述表头分别对应的表头坐标以及表头方向和所述表名对应的表名方向,并根据所述表头坐标、所述表头方向以及所述表名方向对所述表名以及若干所述表头进行组合,以生成对应的表格栏;根据所述单元格位置信息将若干所述单元格对应填充至所述表格栏中,以生成对应的初始化表格,并去除所述初始化表格中的表头以及表名,以生成对应的目标表格,且输出所述目标表格。
7.本发明的有益效果是:当获取到dwg格式文件时,识别出dwg格式文件中的表格区域,并对表格区域进行解析处理,以分解出若干对应的单元格,具体的,每个单元格内均包
含对应的文本信息以及单元格位置信息;进一步的,根据若干单元格中的文本信息在预设表格配置文件中匹配出对应的若干表头,并根据若干表头在预设表格配置文件中确定出对应的表名;在此基础之上,检测出每一表头分别对应的表头坐标以及表头方向和表名对应的表名方向,并根据表头坐标、表头方向以及表名方向对表名以及若干表头进行组合,以生成对应的表格栏;最后只需根据单元格位置信息将若干单元格对应填充至表格栏中,以生成对应的初始化表格,并去除初始化表格中的表头以及表名,以生成对应的目标表格,且输出目标表格。通过上述方式能够实时的识别出每个dwg格式文件中的表格区域,并根据该表格区域进一步匹配出对应的表头以及表名,以构建出对应的表格栏,最后只需将分解出的若干单元格对应填充至当前表格栏中,就能够最终输出需要的目标表格,省去了人工操作的时间,对应大幅缩短了从cad文件中提取出图纸信息的时间,提高了图纸信息的提取效率。
8.优选的,所述当获取到dwg格式文件时,识别出所述dwg格式文件中的表格区域,并对所述表格区域进行解析处理,以分解出若干对应的单元格的步骤包括:当获取到所述dwg格式文件时,识别出所述dwg格式文件中的图纸区域,并判断所述图纸区域中是否存在闭合区域;若判断到所述图纸区域中存在所述闭合区域时,则判定所述闭合区域为初始表格区域,并检测所述初始表格区域中是否存在横纵交叉的垂直直线;若检测到所述初始表格区域中存在横纵交叉的垂直直线,则将所述初始表格区域判定为所述表格区域,并对所述表格区域进行解析处理,以分解出若干对应的所述单元格。
9.优选的,所述对所述表格区域进行解析处理,以分解出若干对应的所述单元格的步骤包括:识别出所述表格区域中的原始表格,并通过objectarx工具对所述原始表格进行解析处理,以将所述原始表格拆分成若干对应的文本框以及所述文本信息,所述文本信息包括文字以及图例;组合所述文本框以及所述文本信息,以生成若干所述单元格,并检测出每一所述单元格分别对应的单元格位置信息,以将每一所述单元格均存储为目标格式。
10.优选的,所述对所述表格区域进行解析处理,以分解出若干对应的单元格的步骤之后,所述方法还包括:当获取到若干所述单元格时,判断若干所述单元格中是否存在合并单元格;若判断到若干所述单元格中存在所述合并单元格时,对所述合并单元格进行拆分处理,以生成若干相同的子单元格,并判断若干所述单元格的长度是否对齐;若判断到若干所述单元格的长度未对齐,则以对齐数量超过预设阈值的若干单元格的长度为基准,并将未对齐的单元格的长度调整至所述基准处,以对若干所述单元格进行标准化处理。
11.优选的,所述根据若干所述单元格中的文本信息在预设表格配置文件中匹配出对应的若干表头的步骤包括:逐一识别出若干所述文本信息中分别包含的字符串,并去除包含有相同字符串的单元格,以获取到若干对应的目标单元格;根据若干所述目标单元格在所述预设表格配置文件中匹配出对应的若干表头,并
逐一检测出每一所述表头分别对应的表头坐标以及表头方向,所述表头方向包括横向以及纵向,所述表头坐标包括行坐标以及列坐标。
12.优选的,所述去除所述初始化表格中的表头以及表名,以生成对应的目标表格,且输出所述目标表格的步骤之后,所述方法还包括:通过预设算法对所述目标表格进行归一化处理,以识别出所述目标表格的类别,并调用出与所述目标表格的类别对应的存储路径,所述存储路径具有唯一性;将所述目标表格转换成dataframe格式,并通过所述存储路径存储至预设磁盘中,或者;将所述目标表格转换成excel格式,并通过所述存储路径保存至所述磁盘中。
13.本发明实施例第二方面提出了一种图纸表格提取系统,所述系统包括:获取模块,用于当获取到dwg格式文件时,识别出所述dwg格式文件中的表格区域,并对所述表格区域进行解析处理,以分解出若干对应的单元格,每一所述单元格内均包含对应的文本信息以及单元格位置信息;匹配模块,用于根据若干所述单元格中的文本信息在预设表格配置文件中匹配出对应的若干表头,并根据若干所述表头在所述预设表格配置文件中确定出对应的表名;检测模块,用于检测出每一所述表头分别对应的表头坐标以及表头方向和所述表名对应的表名方向,并根据所述表头坐标、所述表头方向以及所述表名方向对所述表名以及若干所述表头进行组合,以生成对应的表格栏;输出模块,用于根据所述单元格位置信息将若干所述单元格对应填充至所述表格栏中,以生成对应的初始化表格,并去除所述初始化表格中的表头以及表名,以生成对应的目标表格,且输出所述目标表格。
14.其中,上述图纸表格提取系统中,所述获取模块具体用于:当获取到所述dwg格式文件时,识别出所述dwg格式文件中的图纸区域,并判断所述图纸区域中是否存在闭合区域;若判断到所述图纸区域中存在所述闭合区域时,则判定所述闭合区域为初始表格区域,并检测所述初始表格区域中是否存在横纵交叉的垂直直线;若检测到所述初始表格区域中存在横纵交叉的垂直直线,则将所述初始表格区域判定为所述表格区域,并对所述表格区域进行解析处理,以分解出若干对应的所述单元格。
15.其中,上述图纸表格提取系统中,所述获取模块还具体用于:识别出所述表格区域中的原始表格,并通过objectarx工具对所述原始表格进行解析处理,以将所述原始表格拆分成若干对应的文本框以及所述文本信息,所述文本信息包括文字以及图例;组合所述文本框以及所述文本信息,以生成若干所述单元格,并检测出每一所述单元格分别对应的单元格位置信息,以将每一所述单元格均存储为目标格式。
16.其中,上述图纸表格提取系统中,所述图纸表格提取系统还包括调整模块,所述调整模块具体用于:当获取到若干所述单元格时,判断若干所述单元格中是否存在合并单元格;若判断到若干所述单元格中存在所述合并单元格时,对所述合并单元格进行拆分处理,以生成若干相同的子单元格,并判断若干所述单元格的长度是否对齐;
若判断到若干所述单元格的长度未对齐,则以对齐数量超过预设阈值的若干单元格的长度为基准,并将未对齐的单元格的长度调整至所述基准处,以对若干所述单元格进行标准化处理。
17.其中,上述图纸表格提取系统中,所述匹配模块具体用于:逐一识别出若干所述文本信息中分别包含的字符串,并去除包含有相同字符串的单元格,以获取到若干对应的目标单元格;根据若干所述目标单元格在所述预设表格配置文件中匹配出对应的若干表头,并逐一检测出每一所述表头分别对应的表头坐标以及表头方向,所述表头方向包括横向以及纵向,所述表头坐标包括行坐标以及列坐标。
18.其中,上述图纸表格提取系统中,所述图纸表格提取系统还包括存储模块,所述存储模块具体用于:通过预设算法对所述目标表格进行归一化处理,以识别出所述目标表格的类别,并调用出与所述目标表格的类别对应的存储路径,所述存储路径具有唯一性;将所述目标表格转换成dataframe格式,并通过所述存储路径存储至预设磁盘中,或者;将所述目标表格转换成excel格式,并通过所述存储路径保存至所述磁盘中。
19.本发明实施例第三方面提出了一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上面所述的图纸表格提取方法。
20.本发明实施例第四方面提出了一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上面所述的图纸表格提取方法。
21.本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
22.图1为本发明第一实施例提供的图纸表格提取方法的流程图;图2为本发明第六实施例提供的图纸表格提取系统的结构框图。
23.如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
24.为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
25.需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
26.除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具
体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
27.现有大部分的cad图纸中的表格绘制的都较为随意,并没有统一的规范,基本上取决于工作人员的工作习惯,导致从现有的cad图纸中提取出需要的图纸信息的周期较长,降低了工作人员图纸信息的提取效率。
28.请参阅图1,所示为本发明第一实施例提供的图纸表格提取方法,本实施例提供的图纸表格提取方法能够实时的识别出每个dwg格式文件中的表格区域,并根据该表格区域进一步匹配出对应的表头以及表名,以构建出对应的表格栏,最后只需将分解出的若干单元格对应填充至当前表格栏中,就能够最终输出需要的目标表格,省去了人工操作的时间,对应大幅缩短了从cad文件中提取出图纸信息的时间,提高了图纸信息的提取效率。
29.具体的,本实施例提供的图纸表格提取方法具体包括以下步骤:步骤s10,当获取到dwg格式文件时,识别出所述dwg格式文件中的表格区域,并对所述表格区域进行解析处理,以分解出若干对应的单元格;具体的,在本实施例中,首先需要说明的是,本实施例提供的图纸表格提取方法具体应用在建筑工程所使用的cad技术领域,用于实时提取出各种cad图纸中的表格,以便于后续表格的存储以及使用。
30.其中,需要指出的是,现有的cad大部分输出的文件都默认保存为dwg格式,因此,本实施例默认将接收到的dwg文件判定为对应的cad图纸文件,以进行后续的处理。另外,现有的cad大部分用于绘制二维图纸,与此同时,还会制备出与二维图纸对应的二维表格,该二维表格用于对二维图纸进行解释说明,以便于工作人员理解二维图纸。
31.因此,在本实施例中,需要说明的是,当本步骤获取到dwg格式文件时,本步骤会立即识别出当前dwg格式文件中的表格区域,与此同时,对该表格区域进行解析处理,即进行对应的拆分处理,以对应分解出若干单元格,具体的,每个单元格中均包括对应的文本信息以及对应的单元格位置信息。
32.步骤s20,根据若干所述单元格中的文本信息在预设表格配置文件中匹配出对应的若干表头,并根据若干所述表头在所述预设表格配置文件中确定出对应的表名;进一步的,在本实施例中,需要说明的是,本实施例会预先建立出一个表格配置文件,该表格配置文件中预先存储有各种领域以及各种类型的标准化表格,因此,本步骤在获取到若干单元格之后,本步骤会进一步根据当前若干单元格中包含的文本信息在上述表格配置文件中匹配出对应的若干表头,与此同时,进一步根据当前若干表头在当前表格配置文件中确定出对应的表名。
33.例如,在本实施例中,当前若干单元格中包含的文本信息分别为1、2、3以及4等数字,则在上述表格配置文件中对应匹配出的表头为:序号,进一步匹配出的表名可以为材料表以及工艺表等。
34.步骤s30,检测出每一所述表头分别对应的表头坐标以及表头方向和所述表名对应的表名方向,并根据所述表头坐标、所述表头方向以及所述表名方向对所述表名以及若干所述表头进行组合,以生成对应的表格栏;具体的,在本实施例中,需要说明的是,在通过上述步骤在表格配置文件中匹配出与当前若干单元格对应的标准表格之后,本步骤会进一步检测出当前若干单元格在当前标
准表格中分别对应的表头坐标以及表头方向,与此同时,检测出当前表名对应的表名方向。
35.在此基础之上,能够进一步根据获取到的表头坐标、表头方向以及表名方向对当前表名以及若干表头进行组合处理,从而能够生成对应的表格栏。具体的,该表格栏已经包括排布好的表名以及若干表头,其余位置为待填充的若干单元格。
36.步骤s40,根据所述单元格位置信息将若干所述单元格对应填充至所述表格栏中,以生成对应的初始化表格,并去除所述初始化表格中的表头以及表名,以生成对应的目标表格,且输出所述目标表格。
37.最后,在本步骤中,需要说明的是,在通过上述步骤获取到需要的表格栏之后,本步骤会实时根据每个单元格的位置信息将上述若干单元格对应填充至当前表格栏中,从而能够生成对应的初始化表格,进一步的,由于本实施例只需要获取当前初始化表格中的单元格中的信息,即不需要表头以及表名,从而本实施例会最终去除掉当前初始化表格中的表头以及表名,最终获取到需要的目标表格,并对应输出该目标表格。
38.使用时,通过当获取到dwg格式文件时,识别出dwg格式文件中的表格区域,并对表格区域进行解析处理,以分解出若干对应的单元格,具体的,每个单元格内均包含对应的文本信息以及单元格位置信息;进一步的,根据若干单元格中的文本信息在预设表格配置文件中匹配出对应的若干表头,并根据若干表头在预设表格配置文件中确定出对应的表名;在此基础之上,检测出每一表头分别对应的表头坐标以及表头方向和表名对应的表名方向,并根据表头坐标、表头方向以及表名方向对表名以及若干表头进行组合,以生成对应的表格栏;最后只需根据单元格位置信息将若干单元格对应填充至表格栏中,以生成对应的初始化表格,并去除初始化表格中的表头以及表名,以生成对应的目标表格,且输出目标表格。通过上述方式能够实时的识别出每个dwg格式文件中的表格区域,并根据该表格区域进一步匹配出对应的表头以及表名,以构建出对应的表格栏,最后只需将分解出的若干单元格对应填充至当前表格栏中,就能够最终输出需要的目标表格,省去了人工操作的时间,对应大幅缩短了从cad文件中提取出图纸信息的时间,提高了图纸信息的提取效率。
39.需要说明的是,上述的实施过程只是为了说明本技术的可实施性,但这并不代表本技术的图纸表格提取方法只有上述唯一一种实施流程,相反的,只要能够将本技术的图纸表格提取方法实施起来,都可以被纳入本技术的可行实施方案。
40.综上,本发明上述实施例提供的图纸表格提取方法能够实时的识别出每个dwg格式文件中的表格区域,并根据该表格区域进一步匹配出对应的表头以及表名,以构建出对应的表格栏,最后只需将分解出的若干单元格对应填充至当前表格栏中,就能够最终输出需要的目标表格,省去了人工操作的时间,对应大幅缩短了从cad文件中提取出图纸信息的时间,提高了图纸信息的提取效率。
41.本发明第二实施例也提供了一种图纸表格提取方法,本实施例提供的图纸表格提取方法与上述第一实施例提供的图纸表格提取方法不同之处在于:具体的,在本实施例中,需要说明的是,上述当获取到dwg格式文件时,识别出所述dwg格式文件中的表格区域,并对所述表格区域进行解析处理,以分解出若干对应的单元格的步骤包括:当获取到所述dwg格式文件时,识别出所述dwg格式文件中的图纸区域,并判断所述图纸区域中是否存在闭合区域;
若判断到所述图纸区域中存在所述闭合区域时,则判定所述闭合区域为初始表格区域,并检测所述初始表格区域中是否存在横纵交叉的垂直直线;若检测到所述初始表格区域中存在横纵交叉的垂直直线,则将所述初始表格区域判定为所述表格区域,并对所述表格区域进行解析处理,以分解出若干对应的所述单元格。
42.具体的,在本实施例中,需要说明的是,当本实施例获取到dwg格式文件时,本实施例会实时检测出当前dwg格式文件中出现的图纸区域,其中,可以理解的是,当前图纸区域包括图纸框以及绘制在图纸框内部的二维图像,因此,本步骤为了能够准确的判别出当前图纸区域中是否存在表格,本步骤会进一步判断当前图纸区域中是否存在闭合区域,具体的,若判断到当前图纸区域中存在闭合区域,即初步将当前闭合区域判定为可能出现表格的区域,即上述初始表格区域。
43.在此基础之上,本步骤会进一步检测当前初始表格区域中是否存在横纵交叉的垂直直线,其中,可以理解是,若当前初始表格区域中存在横纵交叉的垂直直线,且相互之间围合出若干个闭合区域,就能够准确的判定出当前初始表格区域就是需要的表格区域。与此同时,本实施例会进一步对当前表格区域进行解析处理,以分解出若干对应的单元格。
44.进一步的,在本实施例中,需要说明的是,上述对所述表格区域进行解析处理,以分解出若干对应的所述单元格的步骤包括:识别出所述表格区域中的原始表格,并通过objectarx工具对所述原始表格进行解析处理,以将所述原始表格拆分成若干对应的文本框以及所述文本信息,所述文本信息包括文字以及图例;组合所述文本框以及所述文本信息,以生成若干所述单元格,并检测出每一所述单元格分别对应的单元格位置信息,以将每一所述单元格均存储为格式;其中,cell保存的是所述单元格对应的轮廓信息,所述轮廓信息通过所述单元格的左下和右上两个点来表示,text保存的是所述单元格对应的文本信息。
45.进一步的,在本实施例中,需要说明的是,在通过上述步骤获取到需要的表格区域之后,本实施例会进一步识别出当前表格区域中的原始表格,即当前表格区域中存在的表格,与此同时,本实施例会进一步通过objectarx工具对当前原始表格进行解析处理,从而能够简单、便捷的将当前原始表格拆分成若干个对应的文本框以及文本信息,具体的,该文本信息包括文字以及图例,其中,需要指出的是,本实施例提供的文字信息中的文字与图例不能同时存在于同一个单元格中,另外,本实施例提供的objectarx工具是一种针对autocad平台上的二次开发而推出的一个开发软件包,它提供了以c++为基础的面向对象的开发环境及应用程序接口,能真正快速的访问autocad图形数据库,与此同时,能够进一步通过其内部预先设置好的算法对当前原始表格进行解析处理。
46.在此基础之上,本实施例能够将当前原始表格拆分成对应的文本框以及文本信息,与此同时,再分别将每个文本信息对应填充至每个文本框中,从而能够形成若干个对应的单元格,其中,上述文本框即是单元格中的外框,从而能够区分出每个单元格。与此同时,检测出每个单元格分别对应的单元格位置信息,具体的,每个单元格位置信息均具有唯一性,在此基础之上,将每个单元格分别以的格式进行存储,便于提升单元格的存储效率。
47.需要指出的是,本发明第二实施例所提供的方法,其实现原理及产生的一些技术效果和第一实施例相同,为简要描述,本实施例未提及之处,可参考第一实施例提供的相应内容。
48.综上,本发明上述实施例提供的图纸表格提取方法能够实时的识别出每个dwg格式文件中的表格区域,并根据该表格区域进一步匹配出对应的表头以及表名,以构建出对应的表格栏,最后只需将分解出的若干单元格对应填充至当前表格栏中,就能够最终输出需要的目标表格,省去了人工操作的时间,对应大幅缩短了从cad文件中提取出图纸信息的时间,提高了图纸信息的提取效率。
49.本发明第三实施例也提供了一种图纸表格提取方法,本实施例提供的图纸表格提取方法与上述第一实施例提供的图纸表格提取方法不同之处在于:具体的,在本实施例中,需要说明的是,上述对所述表格区域进行解析处理,以分解出若干对应的单元格的步骤之后,所述方法还包括:当获取到若干所述单元格时,判断若干所述单元格中是否存在合并单元格;若判断到若干所述单元格中存在所述合并单元格时,对所述合并单元格进行拆分处理,以生成若干相同的子单元格,并判断若干所述单元格的长度是否对齐;若判断到若干所述单元格的长度未对齐,则以对齐数量超过预设阈值的若干单元格的长度为基准,并将未对齐的单元格的长度调整至所述基准处,以对若干所述单元格进行标准化处理。
50.具体的,在本实施例中,需要说明的是,由于通过上述步骤解析出来的若干单元格不一定都是标准的单元格,即若干个单元格之间的长度或者宽度并不相同,因此,本实施例在获取到若干单元格时,会立即对当前若干单元格进行标准化处理,以便于后续在上述表格配置文件中进行对应的匹配。
51.进一步的,本实施例会首先判断当前若干单元格中是否存在合并单元格,若是,则立即对识别出的合并单元格进行拆分处理,从而能够生成若干相同的子单元格,更进一步的,本实施例还会实时判断上述若干单元格的长度是否对齐,具体的,若判断到当前若干单元格的长度未对齐,本实施例则会以对齐数量超过预设阈值的若干单元格的长度为基准,并进一步将未对齐的单元格的长度调整至当前基准处,以完成对当前若干单元格的标准化处理。
52.需要指出的是,本发明第三实施例所提供的方法,其实现原理及产生的一些技术效果和第一实施例相同,为简要描述,本实施例未提及之处,可参考第一实施例提供的相应内容。
53.综上,本发明上述实施例提供的图纸表格提取方法能够实时的识别出每个dwg格式文件中的表格区域,并根据该表格区域进一步匹配出对应的表头以及表名,以构建出对应的表格栏,最后只需将分解出的若干单元格对应填充至当前表格栏中,就能够最终输出需要的目标表格,省去了人工操作的时间,对应大幅缩短了从cad文件中提取出图纸信息的时间,提高了图纸信息的提取效率。
54.本发明第四实施例也提供了一种图纸表格提取方法,本实施例提供的图纸表格提取方法与上述第一实施例提供的图纸表格提取方法不同之处在于:进一步的,在本实施例中,需要说明的是,上述根据若干所述单元格中的文本信息
在预设表格配置文件中匹配出对应的若干表头的步骤包括:逐一识别出若干所述文本信息中分别包含的字符串,并去除包含有相同字符串的单元格,以获取到若干对应的目标单元格;根据若干所述目标单元格在所述预设表格配置文件中匹配出对应的若干表头,并逐一检测出每一所述表头分别对应的表头坐标以及表头方向,所述表头方向包括横向以及纵向,所述表头坐标包括行坐标以及列坐标。
55.具体的,在本实施例中,需要说明的是,本实施例在获取到若干单元格以及若干单元格中的文本信息之后,为了能够在上述表格配置文件中匹配出对应的若干表头,本实施例会逐一识别出当前若干文本信息中分别包含的字符串,与此同时,进一步根据识别出的字符串去除掉包含有相同字符串的单元格,以对应获取到若干不相同的目标单元格。
56.在此基础之上,本步骤进一步根据筛选出的若干目标单元格在上述预设表格配置文件中匹配出对应的若干表头,以及与当前若干表头对应的标准表格。进一步的,本实施例在所述标准表格中逐一检测出上述每个表头分别对应的表头坐标以及表头方向,具体的,当前表头方向包括横向以及纵向,进一步的,当前表头坐标包括行坐标以及列坐标。
57.具体的,在本实施例中,为了便于理解,例如本实施例获取到其中一个表头为“序号”,进一步的,在上述标准表格中匹配到当前表头“序号”的方向为横向,更进一步的,在上述标准表格中匹配到当前表头“序号”的坐标为:第一列、第二行,从而能够准确的获取到当前表头“序号”对应的表头方向以及表头坐标。
58.需要指出的是,本发明第四实施例所提供的方法,其实现原理及产生的一些技术效果和第一实施例相同,为简要描述,本实施例未提及之处,可参考第一实施例提供的相应内容。
59.综上,本发明上述实施例提供的图纸表格提取方法能够实时的识别出每个dwg格式文件中的表格区域,并根据该表格区域进一步匹配出对应的表头以及表名,以构建出对应的表格栏,最后只需将分解出的若干单元格对应填充至当前表格栏中,就能够最终输出需要的目标表格,省去了人工操作的时间,对应大幅缩短了从cad文件中提取出图纸信息的时间,提高了图纸信息的提取效率。
60.本发明第五实施例也提供了一种图纸表格提取方法,本实施例提供的图纸表格提取方法与上述第一实施例提供的图纸表格提取方法不同之处在于:更进一步的,在本实施例中,需要说明的是,上述去除所述初始化表格中的表头以及表名,以生成对应的目标表格,且输出所述目标表格的步骤之后,所述方法还包括:通过预设算法对所述目标表格进行归一化处理,以识别出所述目标表格的类别,并调用出与所述目标表格的类别对应的存储路径,所述存储路径具有唯一性;将所述目标表格转换成dataframe格式,并通过所述存储路径存储至预设磁盘中,或者;将所述目标表格转换成excel格式,并通过所述存储路径保存至预设磁盘中。
61.具体的,在本实施例中,需要说明的是,本实施例在最终获取到需要的目标表格之后,本实施例会进一步通过预先设置好的dtw算法对当前目标表格进行归一化处理,即准确的识别出当前目标表格的技术领域以及技术类别,在此基础之上,本实施例进一步调用出与当前目标表格的技术类别对应的存储路径,具体的,每个存储路径均具有唯一性。
62.进一步的,在获取到存储路径之后,本实施例会进一步将当前目标表格转换成对应的dataframe格式,在此基础之上,通过上述存储路径将当前存储为dataframe格式的目标表格存储至预先设置好的磁盘中,其中,需要指出的是,dataframe格式是一种表格型数据结构,它含有一组有序的列,每列可以是不同的值。
63.或者,本实施例还可以将上述目标表格转换成对应的excel格式,在此基础之上,同样通过上述存储路径将当前存储为excel格式的目标表格保存至预设磁盘中,便于后续目标表格的调用以及提取。
64.需要指出的是,本发明第五实施例所提供的方法,其实现原理及产生的一些技术效果和第一实施例相同,为简要描述,本实施例未提及之处,可参考第一实施例提供的相应内容。
65.综上,本发明上述实施例提供的图纸表格提取方法能够实时的识别出每个dwg格式文件中的表格区域,并根据该表格区域进一步匹配出对应的表头以及表名,以构建出对应的表格栏,最后只需将分解出的若干单元格对应填充至当前表格栏中,就能够最终输出需要的目标表格,省去了人工操作的时间,对应大幅缩短了从cad文件中提取出图纸信息的时间,提高了图纸信息的提取效率。
66.请参阅图2,所示为本发明第六实施例提供的图纸表格提取系统,所述系统包括:获取模块12,用于当获取到dwg格式文件时,识别出所述dwg格式文件中的表格区域,并对所述表格区域进行解析处理,以分解出若干对应的单元格,每一所述单元格内均包含对应的文本信息以及单元格位置信息;匹配模块22,用于根据若干所述单元格中的文本信息在预设表格配置文件中匹配出对应的若干表头,并根据若干所述表头在所述预设表格配置文件中确定出对应的表名;检测模块32,用于检测出每一所述表头分别对应的表头坐标以及表头方向和所述表名对应的表名方向,并根据所述表头坐标、所述表头方向以及所述表名方向对所述表名以及若干所述表头进行组合,以生成对应的表格栏;输出模块42,用于根据所述单元格位置信息将若干所述单元格对应填充至所述表格栏中,以生成对应的初始化表格,并去除所述初始化表格中的表头以及表名,以生成对应的目标表格,且输出所述目标表格。
67.其中,上述图纸表格提取系统中,所述获取模块12具体用于:当获取到所述dwg格式文件时,识别出所述dwg格式文件中的图纸区域,并判断所述图纸区域中是否存在闭合区域;若判断到所述图纸区域中存在所述闭合区域时,则判定所述闭合区域为初始表格区域,并检测所述初始表格区域中是否存在横纵交叉的垂直直线;若检测到所述初始表格区域中存在横纵交叉的垂直直线,则将所述初始表格区域判定为所述表格区域,并对所述表格区域进行解析处理,以分解出若干对应的所述单元格。
68.其中,上述图纸表格提取系统中,所述获取模块12还具体用于:识别出所述表格区域中的原始表格,并通过objectarx工具对所述原始表格进行解析处理,以将所述原始表格拆分成若干对应的文本框以及所述文本信息,所述文本信息包括文字以及图例;组合所述文本框以及所述文本信息,以生成若干所述单元格,并检测出每一所述
单元格分别对应的单元格位置信息,以将每一所述单元格均存储为格式;其中,cell保存的是所述单元格对应的轮廓信息,所述轮廓信息通过所述单元格的左下和右上两个点来表示,text保存的是所述单元格对应的文本信息。
69.其中,上述图纸表格提取系统中,所述图纸表格提取系统还包括调整模块52,所述调整模块52具体用于:当获取到若干所述单元格时,判断若干所述单元格中是否存在合并单元格;若判断到若干所述单元格中存在所述合并单元格时,对所述合并单元格进行拆分处理,以生成若干相同的子单元格,并判断若干所述单元格的长度是否对齐;若判断到若干所述单元格的长度未对齐,则以对齐数量超过预设阈值的若干单元格的长度为基准,并将未对齐的单元格的长度调整至所述基准处,以对若干所述单元格进行标准化处理。
70.其中,上述图纸表格提取系统中,所述匹配模块22具体用于:逐一识别出若干所述文本信息中分别包含的字符串,并去除包含有相同字符串的单元格,以获取到若干对应的目标单元格;根据若干所述目标单元格在所述预设表格配置文件中匹配出对应的若干表头,并逐一检测出每一所述表头分别对应的表头坐标以及表头方向,所述表头方向包括横向以及纵向,所述表头坐标包括行坐标以及列坐标。
71.其中,上述图纸表格提取系统中,所述图纸表格提取系统还包括存储模块62,所述存储模块62具体用于:通过预设算法对所述目标表格进行归一化处理,以识别出所述目标表格的类别,并调用出与所述目标表格的类别对应的存储路径,所述存储路径具有唯一性;将所述目标表格转换成dataframe格式,并通过所述存储路径存储至预设磁盘中,或者;将所述目标表格转换成excel格式,并通过所述存储路径保存至所述磁盘中。
72.本发明第七实施例提供了一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述实施例提供的图纸表格提取方法。
73.本发明第八实施例提供了一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例提供的图纸表格提取方法。
74.综上所述,本发明上述实施例提供的图纸表格提取方法、系统、计算机及可读存储介质能够实时的识别出每个dwg格式文件中的表格区域,并根据该表格区域进一步匹配出对应的表头以及表名,以构建出对应的表格栏,最后只需将分解出的若干单元格对应填充至当前表格栏中,就能够最终输出需要的目标表格,省去了人工操作的时间,对应大幅缩短了从cad文件中提取出图纸信息的时间,提高了图纸信息的提取效率。
75.需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
76.在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
77.计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
78.应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
79.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
80.以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1