专利名称:基于模板的工程图纸材料信息提取方法
技术领域:
本发明涉及含有材料表表单的工程图纸材料信息提取技术领域,特别涉及一种基 于模板的工程图纸材料信息提取方法。
背景技术:
表格作为一种高度精炼、集中的信息表达形式,是工程图纸的主要设计信息载体, 是工程造价概预算的依据、工程材料采购的依据,也是施工组织的依据。从上世纪90年代 起,我国在工程设计领域内推动的“甩图板”工程取得了巨大得成功,但“甩图板”工程只是 实现了计算机绘图。为了从大量的历史电子图纸的材料表表单中获取材料信息,进行工程 造价分析或者历史设计数据复用等工作,设计人员通常要人工地逐张查阅。由于一张工程 设计图纸通常包含多种表单或者多张同一种样式的表单,并且并不是每张CAD设计图纸都 包含对设计人员有用的材料表表单,导致工作量大,工作效率低。因此,从电子CAD设计图 纸中工程材料表表单自动识别和信息提取,成为提高设计效率和办公自动化程度的必须。表格自动识别和信息提取技术,是OCR (Optical CharacterRecognition)技术一 个重要组成。目前公开发表的相关方法,主要用于受限表单自动识别技术。这些方法通常从 表格结构上进行分析,建立以表格结构特征为基础的识别算法,以表格的特殊标记、主要要 表格线的数量及交叉方式等结构为依据进行识别。据统计,受限表格填入信息量不到全部 信息量的1/10,每种表格样式相对固定,所以这些方法通常借助训练大量空表样本来提取 表格特征,利用定位算法和模式识别算法等完成单张表格识别和信息提取。从而导致这些 算法自适应差,每增加一个表格样式,就需要进行大量的样本训练,并且仅适应于单张、样 式相对固定的受限表格识别和信息提取。CAD设计图纸和材料表表单具有以下五方面特点 一是动态性,表单尺寸随设计内容动态变化,且填入信息通常占到全部信息量的90%以上; 二是表格样式多、差异显著,同一种表格,由于设计人员的不同,通常会存在结构相似但每 个表格单元的尺寸不同;三是噪声大,CAD设计图纸大量存在的是设计图形和文字信息,材 料表单一般占的比重不足5% ;四是版面结构复杂,一张CAD设计图纸通常包含多种样式相 似的表单或者多张同一种样式的表单;五是语义关联性,同一种材料表在同一张图纸中,有 些表格虽然样式不相同但是由于具有相同结构和相邻,所以属于同一类表格,如图2(a)和 图2 (b),如果在一张图纸中且具有上下文关系则认为是同一张表格。显然,现有公开的表格识别和信息提取方法不适合具有动态性、差异显著、噪声 大、版面结构复杂和语义关联性的CAD设计图纸的材料表表单识别和提取,需要一种高效 地、自适应的表格识别和信息提取方法。
发明内容
(一)发明目的本发明的目的是提供一种基于模板的工程图纸材料信息提取方法,以解决上述的 表格识别和信息提取方法自适应差、通用性差,不适合具有动态性、差异显著、噪声大、版面结构复杂和语义关联性的CAD设计图纸的材料表表单识别和提取的问题。
发明内容
一种基于模板的工程图纸材料信息提取方法,包括以下步骤Sl :由图形软件根据图纸的图形内容生成表格图形、表格文字和表格单元填充规 则,从而生成表格提取模板,标注所述模板中的材料信息及材料信息类型,所述表格提取模 板还描述了表格中可变部分和固定部分之间的拓扑结构,所述表格图形包括构成表格的线 段位置、边框位置、文字信息和线段形状特征,所述拓扑结构包括表格固定部分和可变化部 分交点坐标,位置关系,延展方向;S2 读入和识别表格提取模板中所包含的基本图形元素类型信息、图形属性参数 信息、规则描述信息和拓扑结构信息,所述基本图形元素为直线段、文字或字符,图形属性 参数信息为所述基本图形元素绘制时的起始点坐标和终止点坐标,所述规则描述信息为表 格单元格的填充规则;S3:识别所述表格提取模板的特征,按照拓扑结构信息形成表格特征描述,所述表 格特征主要包括主线条的数目、连通性、标志性文字和表格的动态延展特性;S4 循环地读入和识别CAD设计图纸中基本图形元素类型和图形属性参数信息, 根据S3形成的表格特征识别表格框架,形成表格框架集合,在形成识别出第一个表格框架 后,将根据构成表格的线段的空间分布,修正原来从S3获取到的表格特征。S5 循环地识别S4中形成的每个表格框架,读入和识别基本图形元素类型和图形 属性参数信息;S6 根据S5中的图形元素类型和图形属性参数信息和步骤S2从表格提取模板中 得到填充规则信息和表格拓扑结构,提取材料信息,并将这些材料信息按照填充规格约定 存储到数据库中。其中,所述步骤S3中识别表格特征包括识别表格固定部分的线段数量;线段之间 的距离和连通性;可变化部分的单元格个数和平面空间位置关系。其中,所述识别识别线段之间连通性时按照构成表格单元的四个顶点的位置分为 左上、中上、右上、左中、中中、右中、坐下、中下和右下分别识别,决定相邻单元格和构成单 元的直线段之间连通关系及平面空间构成。其中,所述步骤S4中识别表格框架包括步骤S41 根据表格中主线条的数目、连通性及表格动态延展性判断能够构成表格的基 本图形元素,并分别形成初步表格框架集合;S42 若S41产生的初步表格框架集合为空,结束本次表格框架识别,执行步骤S4, 若不为空,执行步骤S43;S43 根据标志性文字和表格拓扑结构,从步骤S41产生的初步表格框架集合中识 别出相匹配的表格框架并形成匹配表格框架集合。其中,所述步骤S4之前还包括设置用于识别表格框架时匹配判定的阈值。其中,所述步骤S41中所述判断方式为计算一条直线段和表格其它直线段的交 点,所述交点个数大于等于模版中最小交点个数则为构成表格框架的直线段要素。其中,所述步骤S4中在识别出第一个表格框架前采用步骤S3形成的表格描述特 征进行匹配判断,以后的表格框架匹配判定可根据已经得到表格特征对S3中的表格特征进行修订。其中,所述步骤S6包括S61 根据表格延展方向循环地逐行识别表格的每个单元格中的基本图形元素类 型和图形属性,生成文字描述信息;S62 根据填充规则判断所述文字描述信息是否为材料信息,若是材料信息则执行 S63,若不是材料信息则删除;S63 用户利用人机界面判断材料信息在CAD设计图纸中的平面位置和图形表达, 以确定材料信息提取的准确性,并将确认后的材料信息存入数据库。其中,所述S61具体包括若基本图形元素类型是文字则直接生成文字描述;若基本图形元素类型不是文字类型,按照填充规则和表格的拓扑关系,将所述基 本图形元素上下文语义转换为文字描述。其中,所述步骤S6之后还包括判断所述表格框架集合是否为空,若不为空执行 S4,否则识别结束。一种基于模板的工程图纸材料信息提取系统,包括表格提取模板生成模块,用于由图形软件根据图纸的图形内容生成表格图形、表 格文字和表格单元填充规则,从而生成表格提取模板,标注所述模板中的材料信息,并将所 述表格提取模板存储中数据库中,所述表格提取模板还描述了表格中可变部分和固定部分 之间的拓扑结构;表格提取模板识别模块,用于读入和识别表格提取模板中所包含的基本图形元素 类型信息、图形属性参数信息、规则描述信息和拓扑结构信息;表格提取模板特征分析模块,分析所述表格提取模板的特征,按照拓扑结构信息 形成表格特征描述;表格框架集合生成模块,用于循环地读入和识别CAD设计图纸中基本图形元素类 型和图形属性参数信息,根据表格提取模板特征分析模块形成的表格特征识别表格框架, 形成表格框架集合;表格框架集合元素识别模块,用于循环地识别每个所述表格框架集合的元素,读 入和识别基本图形元素类型和图形属性参数信息,所述基本图形元素为直线段、文字或字 符,图形属性参数信息为所述基本图形元素绘制时的起始点和终止点;材料信息提取模块,用于根据所述图形元素类型和图形属性参数信息和表格提取 模板识别模块中得到填充规则信息和表格拓扑结构,提取材料信息,并将这些材料信息存 储到数据库中。其中,所述表格框架集合生成模块包括初步表格框架集合生成模块,用于根据表格中主线条的数目、连通性及表格动态 延展性判断能够构成表格的基本图形元素,并分别形成初步表格框架集合;判断模块用于判断初步表格框架集合生成模块产生的初步表格框架集合是否为 空,结束本次表格框架识别,执行步骤初步表格框架集合生成模块,若不为空,执行表格框 架集合生成模块;表格框架集合生成模块,用于根据标志性文字和表格拓扑结构,从初步表格框架集合中识别出相匹配的表格框架并形成匹配表格框架集合。其中,所述材料信息提取模块包括文字描述信息生成模块,用于根据表格延展方向循环地逐行识别表格的每个单元 格中的基本图形元素类型和图形属性,生成文字描述信息;材料信息判断模块,用于根据填充规则判断所述文字描述信息是否为材料信息, 若是材料信息则保留,若不是材料信息则删除;材料信息确认模块,用于用户判断材料信息在CAD设计图纸中的平面位置和图形 表达,以确定材料信息提取的准确性,并将确认后的材料信息存入数据库。(三)有益效果本发明的基于模板的工程图纸材料信息提取方法具有以下有益效果(1)降低了表格识别方法的复杂性,提高了表格特征的提取精度,进而保证了识别 和提取结果的准确性;(2)表格特征可配置方法,具有灵活性,允许人工介入,使用者可以定制需要的任 何样式的表格提取模板实现表格识别和信息提取,因此既能够满足具有动态延展性的表格 识别和信息提取,也适应与普通受限表格识别和信息提取,提高表格识别和信息提取方法 的通用性;(3)在表格识别过程中根据识别的结果实时地对表格特征实施修订,保证了同一 张CAD设计图纸中具有语义关联的同一类表格被正确识别;(4)根据表格提取模板的填充规则描述和表格拓扑关系,不仅可以将表格中图形 语义能用精确的文本信息描述,而且也决定了哪些信息是材料信息需要存储到数据库中, 保证了材料信息提取的准确性。
图1是本发明的基于模板的工程图纸材料信息提取方法的流程图;图2是本发明步骤S4的流程图;图3是本发明步骤S6的流程图;图4(a)是一种带有固定部分的材料表表格,(b)是一种不带固定部分的材料表表 格;图5 (a)是一种带有材料表表单的CAD设计图纸,(b)是(a)所示CAD设计图纸中 材料表表单局部放大图;图6 (a)是一种带有3张具有关联关系性的材料表表单的CAD设计图纸,(b)、(c) 和(d)是(a)所示CAD设计图纸中材料表表单自右到左局部放大图;图7是图5 (a)和图6 (a)所示CAD设计图纸中材料表表单的识别和提取的表格提 取模板;图8是图5 (a)所示CAD设计图纸的材料表表格材料信息提取结果;图9 (a)和(b)是图6 (a)所示CAD设计图纸的材料表表格的材料信息提取结果。
具体实施例方式本发明提出的基于模板的工程图纸材料信息提取方法,在对AutoCAD软件进行二
8次开发的基础上,利用Object ARX为AutoCAD提供添加了提取模板制作、材料表提取、提取 结果编辑和提取等计算机可执行命令,从而实现了提取模板制作、CAD工程图纸材料信息提 取;材料提取后,提供了材料信息编辑界面;处理修改后的材料信息利用ODBC技术逐一存 储到Microsoft Access数据库中,在后续进行汇总统计及工程造价分析、历史设计数据复 用时,将数据信息读入到数组中以供使用。结合附图和实施例说明如下。一般CAD设计图的材料表表单可以看成是单元格的集合组成的,从表格生成的变 迁性可以将材料表看成由固定部分和可变化部分等两部分组成,其中可变化部分通常按照 某个特定方向延展生成;并且虽然同一种材料表表格由于设计者的不同,表格单元的高度 或者宽度可能会不同,但是在同一张CAD设计图上,同一种材料表表格通常是相同的。因 此,基于模板的、自适应的材料表格识别和材料信息提取是可行的。如图1所示,为本发明的基于模板的工程图纸材料信息提取方法的流程图。步骤 Sl为由图形软件生成表格提取模板,即由图形软件(常用autoCAD)生成表格图形、文字及 表格单元填充规则描述信息,从而生成表格提取模板,该提取模板还描述了表格中可变部 分和固定部分之间的拓扑结构,可变化部分通常按照某个特定方向延展生成,如图4(a)可 以看作是图7沿正y方向向上延展生成。该步骤具体为主要借助图形绘制软件,人机交 互地完成构成表格提取模板的线段、文字、符号绘制,设置可变单元格(本例可变单元格是 指[标号]、[标准图号]、[名称]、[规格]、[数量]、[材料]、[单重]、[总重]和[备 注])的填充规则,这些填充规则描述了单元格之间的语义关联性(例如本例中允许[名 称]的填充规则设置为不允许为空,即如果某一行的[名称]所在的单元格为空,则取上 一行对应单元格的文字作为当前的材料信息),并设置哪些数据是材料信息及其数据类型 (通常是字符串或者数字,例如本例中[数量]、[单重]和[总重]为数字,对应于数据库 中的DB01、DB02和DB03字段),将提取后的表格提取模板存储在数据库中,如图7所示为 图5(a)和图6(a)所示CAD设计图纸中材料表表单的识别和提取后的表格提取模板。步骤S2中读入和识别表格提取模板中所包含的基本图形元素类型信息、图形属 性参数信息、规则描述信息和拓扑结构信息,其中,图形属性参数信息,如直线段的起始点 和终止点,文字的插入点和内容等;规则描述信息主要是读入每个单元格的填充规则;拓 扑结构信息主要是指表格固定部分和可变化部分交点坐标,位置关系(本例表格固定部分 在表格可变部分的下方),延展方向(本例的表格延展方向为沿y轴正方向向上)等。步骤S3中表格提取模板特征识别,按照步骤S2中的拓扑结构信息识别构成表格 提取模板的线条、边框的位置及形状特征,主要包括主线条的数目连通性、标志性文字和表 格的动态延展特性,如表格固定部分的线段数量(本例图7中表格固定部分由直线段101、 102和103构成);线段之间的距离和连通性;可变化部分的单元格个数和平面空间位置关 系等。着重的,直线段连通性可以按照构成表格单元的四个顶点的位置分为左上、中上、右 上、左中、中中、右中等分别识别,然后赋予不同的权重标识,分别为1、2、3、4、5和6等,决定 相邻单元格和构成单元的直线段之间连通关系及平面空间构成。步骤S4中读入CAD设计图纸,识别图纸中基本图形元素类型和图形属性参数信 息,例如直线段的起始点和终止点,文字的插入点和内容等,并根据S3形成的表格特征识 别表格框架,从而形成表格框架集合。其核心思想是识别判断哪些直线段和文字是材料表 表格的组成要素,例如识别判断的原则可以是计算并求取一条直线段和其它直线段的交点,如果一条直线段上的交点个数大于等于模板中最小交点个数才有可能是构成表格框架 的线段要素;只有一条线段上的交点顺序满足表格提取模板对应直线段上的交点排列顺序 或满足计算规则才有可能是构成表格框架的直线段等。具体步骤包括(如图2所示)(1)根据表格中主线条的数目、连通性及表格动态延展性判断能够构成表格的基 本图形元素,并分别形成初步表格框架集合;(2)若(1)产生的初步表格框架集合为空,结束本次表格框架识别,执行步骤S4, 若不为空,执行步骤(3);(3)根据标志性文字(本例中的标志性文字包括“标号”、“标准图号(或所属图 号)”、“名称”、“规格”、“数量”、“材料代号”等)和表格拓扑结构,从步骤⑴产生的初步表 格框架集合中识别出相匹配的表格框架并形成匹配表格框架集合。考虑到匹配判断时的误差,在进行上述匹配表格框架时还需预先设定一个匹配判 断的阈值。在识别出第一个表格框架前可采用步骤S3形成的表格描述特征进行匹配判断, 在得到第一个表格框架后,重新计算表格构成元素的距离特征,例如图7中直线段101和 102沿y轴正方向的垂直距离,然后据此对S3中的表格特征进行修订,以后的表格框架匹配 判定可根据已经得到新表格特征进行,这保证了同一张CAD设计图纸中具有语义关联的同 一类表格被正确识别。步骤S5循环地识别S4中形成的每个表格框架,读入和识别基本图形元素类型和 图形属性参数信息。步骤S6根据S5中的图形元素类型和图形属性参数信息和步骤S2从表格提取模 板中得到填充规则信息和表格拓扑结构,提取材料信息,并将这些材料信息存储到数据库 中。具体包括(如图3所示)(1)根据表格延展方向循环地逐行识别表格的每个单元格中的基本图形元素类型 和图形属性,生成文字描述信息,具体来说,对于基本图形元素类型是文字按照特定顺序组 合生成直接生成文字描述,对于其它类型的基本图形元素,按照填充规则和表格的拓扑关 系,将其上下文语义转换为文字描述;(2)将文字描述信息转换成材料信息,即根据填充规则判断所述文字描述信息是 否为材料信息,如对于单元格中图形,如果是直线段按照表格语义应转换为空文字串;又 如,如果单元本身就为空,则需要根据表格提取模板设定的填充规则约束以及本行的数据 特征,决定本单元格所描述的材料信息为空,还是取上一行或者下一行同一列单元格的数 值。将是材料信息的文字信息保留,不是材料信息的文字信息删除,如在本例图6(b)中行 601的数量所在信息不是数值,同时该列的填充规则对应于数据库中的DBOl字段,所以本 行数据不是材料信息,需要删除。(3)用户判断材料信息在CAD设计图纸中的平面位置和图形表达,以确定材料信 息提取的准确性,特别地,对于在识别过程中存在不准确的单元格材料信息用特定的图形 表达出来,比如提取材料文字反色显示等(例如图6(c)中单元格602是由图形和文本信息 构成,所以提取的结果“1 2” 1””会反色显示),提醒用户确认提取结果。用户完成提取材 料信息确认后,还需要将提取后的材料信息,按照其数值类型和表格提取模板中的填充规 则约定存储到对应的数据库中。如图8所示,为图5(a)所示CAD设计图纸的材料表表格材 料信息提取结果,图9(a)和(b)是图6(a)所示CAD设计图纸的材料表表格的材料信息提取结果。经过一次识别和提取材料信息后还需判断所述表格框架集合是否为空,若不为空 执行步骤S4,否则识别结束。—种基于模板的工程图纸材料信息提取系统,该系统是基于的上述工程图纸材料 信息提取方法的系统,该系统包括表格提取模板生成模块,用于由图形软件根据图纸的图 形内容生成表格图形、表格文字和表格单元填充规则,从而生成表格提取模板,标注所述模 板中的材料信息,并将所述表格提取模板存储中数据库中,所述表格提取模板还描述了表 格中可变部分和固定部分之间的拓扑结构;表格提取模板识别模块,用于读入和识别表格 提取模板中所包含的基本图形元素类型信息、图形属性参数信息、规则描述信息和拓扑结 构信息;表格提取模板特征分析模块,分析所述表格提取模板的特征,按照拓扑结构信息形 成表格特征描述;表格框架集合生成模块,用于循环地读入和识别CAD设计图纸中基本图 形元素类型和图形属性参数信息,根据表格提取模板特征分析模块形成的表格特征识别表 格框架,形成表格框架集合;表格框架集合元素识别模块,用于循环地识别每个所述表格框 架集合的元素,读入和识别基本图形元素类型和图形属性参数信息,所述基本图形元素为 直线段、文字或字符,图形属性参数信息为所述基本图形元素绘制时的起始点和终止点;材 料信息提取模块,用于根据所述图形元素类型和图形属性参数信息和表格提取模板识别模 块中得到填充规则信息和表格拓扑结构,提取材料信息,并将这些材料信息存储到数据库 中。其中,表格框架集合生成模块包括初步表格框架集合生成模块,用于根据表格中主线条的数目、连通性及表格动态 延展性判断能够构成表格的基本图形元素,并分别形成初步表格框架集合;判断模块用 于判断初步表格框架集合生成模块产生的初步表格框架集合是否为空,结束本次表格框架 识别,执行步骤初步表格框架集合生成模块,若不为空,执行表格框架集合生成模块;表格 框架集合生成模块,用于根据标志性文字和表格拓扑结构,从初步表格框架集合中识别出 相匹配的表格框架并形成匹配表格框架集合。其中,材料信息提取模块包括文字描述信息生成模块,用于根据表格延展方向循 环地逐行识别表格的每个单元格中的基本图形元素类型和图形属性,生成文字描述信息; 材料信息判断模块,用于根据填充规则判断所述文字描述信息是否为材料信息,若是材料 信息则保留,若不是材料信息则删除;材料信息确认模块,用于用户判断材料信息在CAD设 计图纸中的平面位置和图形表达,以确定材料信息提取的准确性,并将确认后的材料信息 存入数据库。以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通 技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有 等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
1权利要求
一种基于模板的工程图纸材料信息提取方法,其特征在于,包括以下步骤S1由图形软件根据图纸的图形内容生成表格图形、表格文字和表格单元填充规则,从而生成表格提取模板,标注所述模板中的材料信息及材料信息类型,所述表格提取模板还描述了表格中可变部分和固定部分之间的拓扑结构,所述表格图形包括构成表格的线段位置、边框位置、文字信息和线段形状特征,所述拓扑结构包括表格固定部分和可变化部分交点坐标,位置关系,延展方向;S2读入和识别表格提取模板中所包含的基本图形元素类型信息、图形属性参数信息、规则描述信息和拓扑结构信息,所述基本图形元素为直线段、文字或字符,图形属性参数信息为所述基本图形元素绘制时的起始点坐标和终止点坐标,所述规则描述信息为表格单元格的填充规则和单元格变量名称;S3识别所述表格提取模板的特征,按照拓扑结构信息形成表格特征描述,所述表格特征主要包括主线条的数目、连通性、标志性文字和表格的动态延展特性;S4循环地读入和识别CAD设计图纸中基本图形元素类型和图形属性参数信息,根据S3形成的表格特征识别表格框架,形成表格框架集合,在形成识别出第一个表格框架后,将根据构成表格的线段的空间分布,修正原来从S3获取到的表格特征;S5循环地识别S4中形成的每个表格框架,读入和识别基本图形元素类型和图形属性参数信息;S6根据S5中的图形元素类型和图形属性参数信息和步骤S2从表格提取模板中得到填充规则信息和表格拓扑结构,提取材料信息,并将这些材料信息按照填充规则约定存储到数据库中。
2.如权利要求1所述的基于模板的工程图纸材料信息提取方法,其特征在于,所述步 骤S3中识别表格特征包括识别表格固定部分的线段数量;线段之间的距离和连通性;可变 化部分的单元格个数和平面空间位置关系。
3.如权利要求2所述的基于模板的工程图纸材料信息提取方法,其特征在于,所述识 别线段之间连通性时按照构成表格单元的四个顶点的位置分为左上、中上、右上、左中、中 中、右中、坐下、中下和右下分别识别,决定相邻单元格和构成单元的直线段之间连通关系 及平面空间构成。
4.如权利要求1所述的基于模板的工程图纸材料信息提取方法,其特征在于,所述步 骤S4中识别表格框架包括步骤541根据表格中主线条的数目、连通性及表格动态延展性判断能够构成表格的基本图 形元素,并分别形成初步表格框架集合;542若S41产生的初步表格框架集合为空,结束本次表格框架识别,执行步骤S4,若不 为空,执行步骤S43 ;543根据标志性文字和表格拓扑结构,从步骤S41产生的初步表格框架集合中识别出 相匹配的表格框架并形成匹配表格框架集合。
5.如权利要求4所述的基于模板的工程图纸材料信息提取方法,其特征在于,所述步 骤S4之前还包括设置用于识别表格框架时匹配判定的阈值。
6.如权利要求5所述的基于模板的工程图纸材料信息提取方法,其特征在于,所述步 骤S41中所述判断方式为计算一条直线段和表格其它直线段的交点,所述交点个数大于等于模版中最小交点个数则为构成表格框架的直线段要素。
7.如权利要求4所述的基于模板的工程图纸材料信息提取方法,其特征在于,所述步 骤S4中在识别出第一个表格框架前采用步骤S3形成的表格描述特征进行匹配判断,以后 的表格框架匹配判定可根据已经得到表格特征对S3中的表格特征进行修订。
8.如权利要求1所述的基于模板的工程图纸材料信息提取方法,其特征在于,所述步 骤S6包括S61 根据表格延展方向循环地逐行识别表格的每个单元格中的基本图形元素类型和 图形属性,生成文字描述信息;S62:根据填充规则判断所述文字描述信息是否为材料信息,若是材料信息则执行 S63,若不是材料信息则删除;S63 用户利用人机界面判断材料信息在CAD设计图纸中的平面位置和图形表达,以确 定材料信息提取的准确性,并将确认后的材料信息存入数据库。
9.如权利要求8所述的基于模板的工程图纸材料信息提取方法,其特征在于,所述S61 具体包括若基本图形元素类型是文字则直接生成文字描述;若基本图形元素类型不是文字类型,按照填充规则和表格的拓扑关系,将所述基本图 形元素上下文语义转换为文字描述。
10.如权利要求8所述的基于模板的工程图纸材料信息提取方法,其特征在于,所述步 骤S6之后还包括判断所述表格框架集合是否为空,若不为空执行S4,否则识别结束。
11.一种基于模板的工程图纸材料信息提取系统,其特征在于,包括表格提取模板生成模块,用于由图形软件根据图纸的图形内容生成表格图形、表格文 字和表格单元填充规则,从而生成表格提取模板,标注所述模板中的材料信息,并将所述表 格提取模板存储中数据库中,所述表格提取模板还描述了表格中可变部分和固定部分之间 的拓扑结构;表格提取模板识别模块,用于读入和识别表格提取模板中所包含的基本图形元素类型 信息、图形属性参数信息、规则描述信息和拓扑结构信息;表格提取模板特征分析模块,分析所述表格提取模板的特征,按照拓扑结构信息形成 表格特征描述;表格框架集合生成模块,用于循环地读入和识别CAD设计图纸中基本图形元素类型和 图形属性参数信息,根据表格提取模板特征分析模块形成的表格特征识别表格框架,形成 表格框架集合;表格框架集合元素识别模块,用于循环地识别每个所述表格框架集合的元素,读入和 识别基本图形元素类型和图形属性参数信息,所述基本图形元素为直线段、文字或字符,图 形属性参数信息为所述基本图形元素绘制时的起始点和终止点;材料信息提取模块,用于根据所述图形元素类型和图形属性参数信息和表格提取模板 识别模块中得到填充规则信息和表格拓扑结构,提取材料信息,并将这些材料信息存储到 数据库中。
12.如权利要求11所述的基于模板的工程图纸材料信息提取系统,其特征在于,所述 表格框架集合生成模块包括初步表格框架集合生成模块,用于根据表格中主线条的数目、连通性及表格动态延展 性判断能够构成表格的基本图形元素,并分别形成初步表格框架集合;判断模块用于判断初步表格框架集合生成模块产生的初步表格框架集合是否为空, 结束本次表格框架识别,执行步骤初步表格框架集合生成模块,若不为空,执行表格框架集 合生成模块;表格框架集合生成模块,用于根据标志性文字和表格拓扑结构,从初步表格框架集合 中识别出相匹配的表格框架并形成匹配表格框架集合。
13.如权利要求11所述的基于模板的工程图纸材料信息提取系统,其特征在于,所述 材料信息提取模块包括文字描述信息生成模块,用于根据表格延展方向循环地逐行识别表格的每个单元格中 的基本图形元素类型和图形属性,生成文字描述信息;材料信息判断模块,用于根据填充规则判断所述文字描述信息是否为材料信息,若是 材料信息则保留,若不是材料信息则删除;材料信息确认模块,用于用户判断材料信息在CAD设计图纸中的平面位置和图形表 达,以确定材料信息提取的准确性,并将确认后的材料信息存入数据库。
全文摘要
本发明公开了一种基于模板的工程图纸材料信息提取方法,包括由图形软件生成表格图形、文字及表格单元填充规则描述信息,从而生成表格提取模板;读入和识别提取模板中所包含的基本图形元素类型信息、图形属性参数信息、规则描述信息和拓扑结构信息;分析所述提取模板的特征,按照拓扑结构信息形成表格特征描述;循环地读入和识别CAD设计图纸中基本图形元素类型和图形属性参数信息,根据表格特征识别表格框架,形成表格框架集合;循环地识别每个表格框架集合的元素,读入和识别基本图形元素类型和图形属性参数信息;提取材料信息,并将材料信息存储到数据库中。本发明提高了表格特征的提取精度,保证了材料信息提取的语义关联性和准确性。
文档编号G06K9/62GK101882225SQ20091024325
公开日2010年11月10日 申请日期2009年12月29日 优先权日2009年12月29日
发明者何涛, 唐卫清, 李士才, 石念峰 申请人:北京中科辅龙计算机技术股份有限公司