一种道路工程图纸标题栏信息提取方法

文档序号：33392993发布日期：2023-03-08 11:55阅读：115来源：国知局

1.本发明属于工程智能化信息技术领域，具体涉及一种道路工程图纸标题栏信息提取方法。

背景技术：

2.自1979年以来中国公路建设加快了步伐，各参建单位累积了数目庞大的道路工程图纸，一个中型设计院的工程图纸数量通常在百万张以上，这些图纸大多是在设计过程中产生的，需要储存起来以备后续包括审图、预算、施工等工序的使用，它们既是企业一笔巨大的物质财富，同时也为企业带来了存储和检索的巨大负担。道路工程图纸一般由图框、图示、标题栏、会签栏、尺寸标注、表格、文字说明等部分组成，其中，图纸的标题栏包含制图单位、工程名、图名等一些图纸关键信息，能够帮助工程人员快速了解图纸，对专业化的检索和辅助设计决策具有较大的参考价值。数据显示，工程项目设计中超过80％的设计是在现有的工程图纸基础上微改或者重用。因此，面对逐渐积累的图纸，快速、准确地检索图纸，重用已有的设计知识，缩短设计周期，在企业的研发创新过程中占据重要意义。
3.标题栏信息是工程图纸自动化处理和智能建库极为重要的组成部分，直接影响着建库的准确性和精度。对标题栏数据进行提取和利用，不仅有助于工程人员对图纸进行检索，同时也可以为新建项目的设计提供方案决策支持，是进一步进行图纸理解等工作的前提和基础，是解决图纸保存、管理,减少重复劳动,提高设计效率的有效解决方案。
4.目前公开发表的图纸信息提取方法，如公开号cn103761331a，名称为：一种用于图纸数据的处理系统及其处理方法、公开号cn102117269b，名称为对文档进行数字化的装置及方法，依靠第三方软件如autocad来提取图纸中的结构化信息，对图纸的文件格式有严格限制，只能是.dwg或.dxf格式的可编辑图纸文件。而实际场景中，.dwg格式的原始图纸文件通常散落在各个设计人员手中，文件保留了很多设计过程中的参考图示，数据标准化程度不一，且没有盖章标识，难以确认是否为最终版。因此，为了保证数据格式的通用性和电子图档的效力，企业图纸归档时以纸质盖章图纸的扫描件为准，最终归档文件为.pdf格式，则上述方法无法适用。公开号cn101882225b，名称为：基于模板的工程图纸材料信息提取方法及系统，基于人工设计的模板来提取图纸信息，仅适用于某些特定样式的图纸，而不同企业、不同种类的图纸标题栏格式和布局还是有所不同，比如标题栏中不同属性单元格的尺寸、位置或者标志文字不同，采用模板的方法识别效果不能满足实际需求。
5.标题栏本质上也是一种表格，可以视为表格采用现有的表格提取方法来获取信息。而现有的表格提取方法，如公开号cn105589841b，名称为：一种pdf文档表格识别的方法、公开号cn103258198b，名称为：一种表格文档图像中字符提取方法，采用基于规则的表格框线检测方法来判定并提取识别结果，此类方法在识别表格的边界位置坐标时，需要借助额外的表格标题信息来辅助定位，在实际应用的图纸中，标题栏只由线条组成结构信息，同时周围还存在大量用自然语言描述的标注注释信息(如图示、文字说明等)，单从视觉特征上难以将标题栏与其他标注信息区分开。公开号cn112364834a，获得单元格顶点坐标后
利用文字检测模型进行字符识别，该方法只能定位并提取整个表格中的字符，忽略了表格的结构信息，缺少每个单元格的语义信息，无法为后续信息归档、检索等操作提供帮助。
6.工程图纸是工程设计的成果，也是工程建设过程的依据。道路设计工程图纸中不仅包括由线条组成的结构信息，还包括大量用自然语言描述的标注注释信息，提取标题栏中信息时需要结合图纸中线框结构信息。同时，为了保证设计图与实际施工或最终送审的图纸一致，企业规定归档时必须使用.pdf格式图纸文件。为此，针对现有的工程图纸信息提取方法适应性差，难以应对图纸版面结构复杂、噪声大、特征不明显等特点的问题，本发明提出了一种实现图纸标题栏信息的自动提取方法。

技术实现要素：

7.本发明基于多模态技术，提出一种道路工程图纸标题栏信息提取方法，利用图纸视觉和文本模态之间的互补性，提取图纸信息时结合标题栏线框结构信息，减少模态间的冗余，以实现更加准确的图纸标题栏信息提取效果。
8.以道路工程图纸为例，一般由图框、图示、标题栏、尺寸标注、表格、文字说明等部分组成，其中标题栏包含制图单位、工程名、图名等信息，位于图纸底部，如附图6中s66标注所示。
9.本发明总流程包括：识别并裁剪标题栏图像；分割标题栏单元格图像；提取单元格文本数据；提取单元格语义标签；生成图纸索引并录入数据库。
10.一种道路工程图纸标题栏信息提取方法，包括如下步骤：
11.步骤1：利用图像目标检测模型从图纸中识别出标题栏，将标题栏裁剪为独立的图像文件i；
12.步骤2：读入步骤1中得到的标题栏图像i，提取图像中所包含的所有横线和竖线，得到各单元格之间的交点，按照交点之间的距离和表格连通性循环分割出每个单元格图像ti；
13.步骤3：依次读入步骤2中得到的单元格图像ti，利用文本识别引擎提取单元格内文本或字符信息，得到单元格文本数据wi；
14.步骤4：将步骤2得到的单元格图像ti和步骤3得到的文本数据wi输入道路工程图纸信息提取模型中，提取出单元格特征向量，输出单元格语义标签；
15.步骤5：根据步骤4得到的单元格语义标签，按照规格约定生成图纸索引并录入数据库。
16.优选地，步骤1所述的利用图像目标检测模型从图纸中识别出标题栏，将标题栏裁剪为独立的图像文件i，具体包括：
17.步骤1.1：预先标注部分图纸中的标题栏，即框选出图纸标题栏，记录坐标，构建标注图纸数据集；
18.步骤1.2：将步骤1.1中的标注图纸数据集输入图像目标检测模型进行训练，学习标题栏的图像特征，其中图像特征包括线段位置、边框位置、线段形状等。本发明中，图像目标检测模型采用yolo模型，不同的图像目标检测模型不会影响本发明的结果；
19.步骤1.3：步骤1.2中的模型训练完成后，将待提取图纸输入到模型中，输出图纸的标题栏坐标，根据坐标将标题栏裁剪为独立的图像文件i。
20.优选地，步骤2所述的提取图像中所包含的所有横线和竖线，得到各单元格之间的交点，分割出每个单元格图像ti，具体包括：
21.步骤2.1：对步骤1中得到的标题栏图像i进行预处理，即将标题栏图像i进行二值化处理，得到白底黑字的二值化图像。其中，图像的二值化处理就是通过将图像中每个像素点的灰度值趋于0或255使整个图像呈现出明显的黑白效果，减少噪音干扰；
22.步骤2.2：对二值化处理后的图像进行横向膨胀和纵向膨胀操作分别得到图像中的横线图像a和竖线图像b。其中，横向膨胀操作指横向膨胀图像中的白色色块，从而抹去文本和竖线得到横线，横线图像a如附图7(b)所示；纵向膨胀操作指纵向膨胀图像中的白色色块，从而抹去文本和横线得到竖线，竖线图像b如附图7(c)所示；
23.步骤2.3：合并步骤2.2中得到的横线图像a和竖线图像b，保留交点，交点图像c如附图7(d)所示，计算出单元格中的交点坐标，分别保存所有交点的x轴和y轴坐标；
24.步骤2.4：根据步骤2.3得到的交点坐标，按照交点之间的距离和连通性从标题栏图像i中依次分割出单元格图像ti。其中，i为标题栏中单元格的个数，不同格式图纸中的单元格个数可能不同。交点之间的连通性指构成单元格四个顶点的位置，分别为左上、右上、右下、左下，相邻两交点距离大于设定阈值则视为同一单元格线段上的两点。
25.优选地，步骤3所述的利用文本识别引擎提取单元格图像ti内文本或字符信息，得到单元格文本数据wi，具体包括：
26.利用文本识别引擎依次获取单元格图像ti中的文本识别数据并对识别的文本数据进行预处理，得到单元格文本数据wi。其中，预处理操作包括去除文本中的特殊符号以及将数据中识别置信度过低的文本进行过滤处理。不同的文本识别引擎不影响本发明结果。
27.优选地，步骤4所述的将单元格图像ti和文本数据wi输入道路工程图纸信息提取模型中提取出单元格特征向量，输出单元格语义标签，具体包括：
28.步骤4.1：将单元格图像输入图像特征提取模型中得到视觉特征向量v；
29.步骤4.2：将单元格文本数据输入文本特征提取模型中得到文本特征向量t；
30.步骤4.3：将得到的视觉特征向量v和文本特征向量t进行拼接，得到预关注向量记作v，表示为：
31.v＝[v1,v2,
…
,vm,t1,t2,
…
,tn]#(1)
[0032]
其中，每一个向量v的长度为m+n，每个嵌入向量的长度m、n由相应的特征提取模型得到(m、n的大小不会影响本发明的结果)；
[0033]
步骤4.4：通过现有的自注意力机制得到预关注向量v的自注意力特征记作a。注意力机制可以快速提取稀疏数据的重要特征，因而被广泛用于自然语言处理任务。而自注意力机制是注意力机制的变体，其减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性，在本发明中，其可以计算视觉特征和文本特征的权重系数来解决不同模态间的相互影响；
[0034]
步骤4.5：将自注意力特征a和预关注向量v进行向量相乘操作，得到融合特征向量表示记为h：
[0035]
h＝[a1v1,a2v2,
…
,amvm,a
m+1
t1,a
m+2
t2,
…
,a
m+n
tn]#(2)
[0036]
步骤4.6：将融合后的特征向量h输入全连接层映射到每个语义标签，然后使用现有的softmax激活函数预测每个语义标签的概率值，选取概率得分最高的标签作为单元格
图像的语义标签输出。softmax函数用于多分类过程中，可以将多个神经元的输出映射到(0,1)区间，softmax函数的公式定义为：
[0037][0038]
其中，hi表示当前第i个语义标签的映射，j表示所有语义标签的个数。
[0039]
优选地，步骤5所述的按照规格约定生成图纸索引并录入数据库，具体包括：
[0040]
按照填充规则和表格的拓扑关系生成标题栏结构化信息作为图纸索引录入数据库中。
[0041]
与其他现有技术相比，本发明的有益效果是：
[0042]
1)本发明中采用目标检测神经网络来定位标题栏区域，摆脱了现有方法依赖图纸布局先验信息的问题，可以更好地应对不同版面结构的图纸，增加了通用性和灵活性；
[0043]
2)本发明充分利用图纸视觉和文本模态之间的互补性，提取图纸信息时结合标题栏线框结构信息，减少模态间的冗余，相比其他依据单一模态的模型取得了更高的准确性。
附图说明
[0044]
图1为本技术实施例提供的道路工程图纸标题栏信息提取方法的示意图；
[0045]
图2为本技术实施例提供的道路工程图纸标题栏信息提取方法的流程图；
[0046]
图3为本技术实施例提供的标题栏图像处理的示意图；
[0047]
图4为本技术实施例提供的标题栏单元格语义标签识别的示意图；
[0048]
图5为本技术实施例提供的生成单元格语义结构的示意图；
[0049]
图6为本技术实施例提供的道路工程图构成部分的示意图；
[0050]
图7(a)为本技术实施例提供的标题栏初始图像，(b)为标题栏提取横线的结果图，(c)为标题栏提取竖线的结果图，(d)为合并图像得到交点的结果图；
[0051]
图8(a)为本技术实施例提供的图像目标检测模型训练集标注图，(b)为实验输出结果图；
[0052]
图9(a)为本技术实施例提供的文本命名实体识别模型训练集标注图，(b)为实验输出结果图。
具体实施方式
[0053]
为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本技术，并不用于限定本技术。
[0054]
需要说明的是，本技术实施例中的道路工程图纸可以为pdf格式的工程图纸文件，也可以是扫描实际图纸所得到的电子图像。
[0055]
表1本发明同其他经典模型对比实验结果
[0056][0057]
本发明共选取并标注道路工程图纸1145张，利用图纸视觉和文本模态之间的互补性，提取图纸信息时结合标题栏线框结构信息，减少模态间的冗余，相比其他依据单一模态的模型取得了更高的准确性。实验任务分别针对不同模态设计，如图像目标检测模型，实验选用yolo模型，yolo模型作为目标检测的主流算法框架，会基于整张图像信息进行预测，学到的特征更为通用，实验中使用人工标注单元格属性的图像数据集训练后输出每个单元格预测框的分类结果；文本命名实体识别模型，实验选用bilstm-crf模型，bilstm-crf是一种经典的文本命名实体识别模型方案，可以识别出文本中具有特定意义的实体字符串边界(如机构名、人名等)，实验中将整个图纸的文本数据作为输入，输出识别后的每个实体及其标签；本发明通过定位标题栏区域后分割单元格再输出其单元格的语义标签，与其他模型的对比实验结果表1所示。
[0058]
在实验过程中，采用不同的网络结构外，其他参数均取相同的值，学习率初始设置为1e-4，迭代100次，采用的优化器都是adam优化器。adam优化器是深度学习中最流行的优化器之一，有很高的计算效率和较低的内存需求，同时能较好的处理噪音样本。综合上述实验结果表明，本发明提出的方法与其他网络相比，综合性能得到了很大的提升，识别更精准，更适合工程图纸标题栏信息识别分类任务。
[0059]
一种道路工程图纸标题栏信息提取方法，包括如下步骤：
[0060]
1.利用图像目标检测模型识别标题栏，模型输出标题栏的坐标位置，根据模型输出将标题栏裁剪为独立的图像文件i。图像目标检测模型的任务是找出图像中所有感兴趣的目标，确定它们的类别和坐标信息，通常流程包括构建标注数据集、训练模型、模型预测。在本发明中，图像目标检测模型采用yolo模型，不同的图像目标检测模型不会影响本发明的结果。特别地，本发明为了提高模型对不同版面结构图纸的适应性，额外通过随机拼接标题栏单元格生成不同版面结构的图纸增加训练集，有效地防止单一图纸结构对模型识别效果的影响。
[0061]
2.读入标题栏图像i，提取图像中所包含的所有横线和竖线，得到各单元格之间的交点，按照交点之间的距离和表格连通性依次分割出每个单元格图像ti，分割单元格图像的流程如附图3所示，具体包括：
[0062]
步骤2.1：如附图3中的标号s31所示，为了减少扫描图像的噪音干扰，对图像进行二值化处理，确保图像为白底黑字。其中，图像的二值化处理就是通过将图像中每个像素点的灰度值趋于0或255，使整个图像呈现出明显的黑白效果；
[0063]
步骤2.2：如附图3中的标号s32所示，对原标题栏图像i作横向膨胀操作，即横向膨胀白色色块，抹去文本和竖线。因为文本的笔画间有白色间隙，通过横向膨胀白色色块，文本大部分会被抹去，图像只留下标题栏横线及极少的横线笔画，得到只保留横线的图像a，如附图7(b)所示；
[0064]
步骤2.3：如附图3中的标号s33所示，通过对原图像作纵向膨胀操作，即纵向膨胀白色色块，抹去文本和横线，图像只留下标题栏竖线，得到只保留竖线的图像b，如附图7(c)所示；
[0065]
步骤2.4：如附图3中的标号s34所示，对步骤2.2得到的图像a和步骤2.3得到的图像b进行叠加合并得到交点图像c，如附图7(d)所示，求出边框交点坐标，分别保存所有交点的x轴和y轴坐标；
[0066]
步骤2.5：如附图3中的标号s35所示，遍历步骤2.4得到的所有交点坐标，按照交点之间的距离和连通性依次分割出单元格图像ti。其中，i为标题栏中单元格的个数，不同格式图纸中的单元格个数可能不同，在本实施例中，i为13。交点之间的连通性指构成单元格四个顶点的位置，分别为左上、右上、右下、左下，相邻两交点距离大于设定阈值则视为同一单元格线段上的两点。本发明中，依据标题栏图像的大小，设定交点距离阈值为80个像素点。
[0067]
3.利用文本识别引擎如easyocr依次获取单元格图像ti中的文本识别数据，不同的文本识别引擎不会影响本发明的结果。具体地，本实施例为了保证后续分词的健壮性，对每一条文本识别内容置信度进行筛选，保留置信度大于0.5的文本信息，同时将其中的特殊符号统一做截取处理，过滤文本长度不合格的文本。特殊字符例如～！@#$％^&*()+＝|{}:；,.、\[]《》/？～！
…
@#￥％&*—+【】
‘’”“
等。
[0068]
4.将单元格图像ti和对应的文本数据wi输入道路工程图纸信息提取模型中提取出单元格特征向量，输出单元格语言标签，流程如附图4所示，具体包括：
[0069]
步骤4.1：如附图4中标号s41所示，将单元格图像ti输入图像特征提取模型中，本发明中采用resnet模型(不同的图像特征提取模型不影响本发明结果)，得到视觉特征向量v。特别地，为了与文本特征向量长度保持一致，实验中将resnet的输出结果经过全连接层后得到视觉嵌入向量v的长度为768(特征向量长度的大小不会影响本发明结果)。resnet模型作为一种常用的图像特征提取模型，很好地解决了网络加深梯度消失的问题，使得模型能够提取到的特征越抽象，更具有语义信息；
[0070]
步骤4.2：如附图4中标号s42所示，将单元格文本数据wi输入文本特征提取模型中，本发明采用bert模型(不同的文本特征提取模型不影响本发明结果)，得到文本特征向量t，每一个向量t的长度为768，由bert模型得到。bert模型通过自监督学习获取单词之间相似性的向量表示，除了学习向量外，还可以学习对向量的多层变换，因而被广泛用于自然语言处理任务，可以快速提取稀疏文本数据的特征；
[0071]
步骤4.3：如附图4中标号s43所示，将得到的视觉特征向量v和文本特征向量t进行拼接，得到预关注向量记作v，表示为：
[0072]
v＝[v1,v2,
…
,vm,t1,t2,
…
,tn]#(1)
[0073]
其中，每一个向量v的长度为m+n，每个嵌入向量的长度m、n由相应的预训练模型得到(m、n的大小不会影响本发明的结果)；
[0074]
步骤4.4：如附图4中标号s44所示，通过现有的自注意力机制得到预关注向量v的自注意力特征向量记作a，注意力机制可以快速提取稀疏数据的重要特征，因而被广泛用于自然语言处理任务。而自注意力机制是注意力机制的变体，其减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性，在本发明中，其可以计算视觉特征和文本特征的权重
系数来解决不同模态间的相互影响；
[0075]
步骤4.5：如附图4中标号s45所示，将自注意力特征向量a和预关注向量v进行向量相乘操作，得到融合特征向量表示记为h：
[0076]
h＝[a1v1，a2v2，
…
，amvm，a
m+1
t1，a
m+2
t2，
…
，a
m+n
tn]#(2)
[0077]
步骤4.6：如附图4中标号s46所示，将融合后的特征向量h输入全连接层映射到每个语义标签，然后使用现有的softmax激活函数预测每个语义标签的得分，选取概率得分最高的标签作为单元格图像的语义标签输出。softmax函数用于多分类过程中，可以将多个神经元的输出映射到(0，1)区间，softmax函数的公式定义为：
[0078][0079]
其中，hi表示当前第i个语义标签的映射，j表示所有语义标签的个数。具体地，在本实施例中标题栏单元格的语义标签被划分为：制图单位、项目、图纸名称、人员职能、姓名、签名、日期、图号、属性。
[0080]
5.如附图5所示，根据标题栏的布局信息、各个单元格的内容和步骤4得到的单元格语义标签，将表中的数据以键值对的形式组织起来，生成标题栏结构化信息作为图纸索引录入数据库中。
[0081]
本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，为了描述的方便和简洁，仅以上述各功能单位进行举例说明，实际应用中，可以根据需要将上述功能划分成不同模块完成。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙力李文浩范梦羽刘大为程振波肖刚
技术所有人：浙江工业大学
我是此专利的发明人

上一篇：一种可安装在机床上对非圆柱侧面研磨的装置的制作方法
上一篇：一种在户外用具有防冻功能的水表的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。