1.本发明属于图纸文本处理技术领域,具体涉及一种用于图纸的文本断句方法、系统、设备和存储介质。
背景技术:2.图纸的特性在于存在图纸中各种位置的文本框,有些是要合并的,有些是无需合并的。例如,假定图纸中有一部分是这样的多个文本框,每个文本框中有对应的内容,如图1所示。根据图1可知,该示例中有些文本框是需要合并的,如需要将分别记载有“设”、“计”、“图”内容的文本框识别整合为一段文字“设计图”;将“本设计图由xxx设计院制作,”所在本文框和位置关系上与之临近的记载有“交由yyy公司进行建设。此为yyy项目的第一版设计图,未有详尽之处请参考其他文档。”内容的下方文本框先识别整合为一段文字“本设计图由xxx设计院制作,交由yyy公司进行建设。此为yyy项目的第一版设计图,未有详尽之处请参考其他文档。”,再进行分句;将记载有“制作xxx”、“审查xxx”、“复核xxx”内容的文本框识别整合为另一段。
3.由于图纸本身的特殊性,其解析出来的文本框顺序通常是不规范的,因此现有基于机器学习的断句技术无法准确可靠的实现图纸的文本断句,而普通的文本聚类也无法实现图纸的文本断句。
技术实现要素:4.为了解决现有技术无法准确可靠的实现图纸的文本断句的问题,本发明提供了解决上述问题的一种用于图纸的文本断句方法、系统、设备和存储介质。本发明首先对直接对图纸解析后的乱序语句进行重新排序后得到可选序列,然后利用识别模型从可选序列中识别出正确的语句序列,最后利用断句模型对正确的语句序列进行断句处理,从而实现图纸文本的有效断句。
5.本发明通过下述技术方案实现:
6.一种用于图纸的文本断句方法,包括:
7.对图纸进行文本解析得到初始语句序列;
8.根据文本框的位置,调整所述初始语句序列,生成可选语句序列;
9.对所述可选语句序列进行文本标注,采用标注后的文本构建训练集;
10.采用所述训练集对svm模型进行训练,得到识别模型和断句模型;
11.对待处理图纸进行解析得到初始语句序列,并根据文本框的位置,调整初始语句序列,生成可选语句序列;
12.利用所述识别模型从待处理图纸的可选语句序列中识别出正确语句序列;
13.利用所述断句模型对所述正确语句序列进行断句处理。
14.现有基于断句模型对文本进行断句的技术,然而由于图纸的特性,其解析后的文本为乱序,无法直接利用断句模型进行断句处理,即利用现有的文本断句技术无法有效实
现图纸文本断句,其处理的准确性和可靠性较差。而本发明基于文本框的相对位置关系以及语种输入习惯,例如中文的输入习惯为从左至右、从上至下,对图纸解析后的乱序语句进行重组,得到2个可选文本序列,而正确的语句序列必然在这两个可选文本序列中,然后对可选文本序列进行标注,利用上述手段,获得若干标注的文本作为训练集,对svm模型进行训练得到识别模型,利用该识别模型可从上述两个可选文本序列中识别出正确语句序列,从而利用断句模型对正确语句序列进行断句处理,实现图纸文本的有效断句,且本发明借助svm模型的优势(其适用于超维数据处理和非线性数据处理),无需对学习样本进行降维处理,同时解决非线性问题,保证了文本识别和断句的效率和准确性。
15.作为优选实施方式,本发明的根据文本框的位置,调整所述初始语句序列,生成可选语句序列,具体为:
16.基于文本框的位置关系以及不同语种的书写习惯,对初始语句序列进行调整,得到若干个可选语句序列。
17.作为优选实施方式,本发明的对所述可选语句序列进行文本标注,采用标注后的文本构建训练集,具体为:
18.按照word2vec的形式对若干个可选语句序列分别进行标注。
19.作为优选实施方式,本发明的svm模型由2个svm构成,第一个svm输入为可选语句序列,输出句群对“错误”与否的判定准确率,第二个svm输入为第一个svm识别的正确语句序列,输出对“断开”与否的判断正确率。
20.作为优选实施方式,本发明的训练集包括若干标注后的文本数据。
21.第二方面,本发明提出了一种用于图纸的文本断句系统,包括:
22.解析模块,用于获取图纸并对其进行解析得到初始语句序列;
23.重组模块,用于根据文本框的位置,调整所述初始语句序列,生成可选语句序列;
24.标注模块,用于对所述可选语句序列进行文本标注,采用标注后的文本构建训练集;
25.模型构建模块,采用所述训练集对svm模型进行训练,得到识别模型和断句模型;
26.识别模块,利用所述识别模型从待处理图纸的可选语句序列识别出正确语句序列;
27.断句模块,利用所述断句模型对所述正确语句序列进行断句处理。
28.作为优选实施方式,本发明的解析模块对待处理图纸进行解析得到初始语句序列,所述重组模块根据文本框的位置,对待处理图纸的初始语句序列进行调整,生成可选语句序列。
29.作为优选实施方式,本发明的重组模块根据文本框的位置关系以及不同语种的书写习惯,对初始语句序列进行调整,得到2个可选语句序列。
30.第三方面,本发明提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本发明所述方法的步骤。
31.第四方面,本发明提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本发明所述方法的步骤。
32.本发明具有如下的优点和有益效果:
33.本发明首先对直接解析原图纸后得到的乱序语句进行重组,得到正常的可选序
列,然后再利用识别模型,识别出正确的序列,最后再利用断句模型,对正确的序列进行断句处理。本技术能够有效实现图纸的文本断句,且保证断句的准确性和可靠性。
34.由于句群的特征量庞大,使得学习样本为高维样本,常规的机器学习方法需要对学习样本进行降维处理,同时,句群的特征量一般为非线性数据,常规的机器学习方法对非线性问题处理效果不好。基于此,本发明采用svm实现语句序列的识别和断句处理,svm能够很好的应用于文本这种超维数据处理,无需对学习样本进行降维处理,提高了文本识别和断句的效率,同时适合解决非线性问题,提高了处理效果。
附图说明
35.此处所说明的附图用来提供对本发明实施例的进一步理解,构成本技术的一部分,并不构成对本发明实施例的限定。在附图中:
36.图1为图纸中部分文本框示例图。
37.图2为本发明实施例的断句方法流程示意图。
38.图3为本发明实施例的断句系统原理框图。
具体实施方式
39.为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
40.实施例1
41.现有的断句技术是基于断句模型,对文本进行断句处理。然而由于图纸的特性,其解析后的文本为乱序,无法直接利用断句模型进行断句处理,即利用现有的文本断句技术无法有效实现图纸的文本断句,且无法保证断句的准确性和可靠性。基于此,本实施例提出了一种用于图纸的文本断句方法。
42.具体如图2所示,本发明实施例提出的文本断句方法具体包括如下步骤:
43.步骤1,对图纸进行文本解析得到初始语句序列。
44.步骤2,根据文本框的位置,调整初始语句序列,生成可选语句序列。
45.步骤3,对可选语句序列进行文本标注,采用标注后的文本构建训练集。
46.步骤4,采用训练集对svm模型进行训练,得到识别模型和断句模型。
47.步骤5,对待处理的图纸进行解析得到初始语句序列,并根据文本框的位置,调整初始语句序列,生成可选语句序列。
48.步骤6,利用识别模型从可选语句序列中识别出正确语句序列,利用断句模型对正确语句序列进行断句处理。
49.直接解析原图纸后得到的语句为乱序语句,不能直接作为模型训练的输入。因此本发明实施例基于原图纸文本框之间的相对位置信息和原图纸中语种输入习惯将这个乱序语句进行重新排序后得到若干个可选语句序列,作为模型训练的语料。
50.具体以图1所示的图纸示例进行示例性说明,首先,将图1所示的图纸进行解析得到的乱序语句可能是:
51.设、计、图、本设计图由xxx设计院制作、制作:xxx、复核:xxx、审查:xxx、交由yyy公
司进行建设。此为yyy项目的第一版设计图,未有详尽之处请参考其他文档。
52.对于上述乱序语句,断句模型无法直接进行断句处理。本发明实施例根据文本框的位置以及不同语种的书写习惯,例如中文书写习惯从左到右、从上到下,对上述乱序语句进行重新排序后得到2个可选语句序列,即:(1)设、计、图、本设计图由xxx设计院制作、制作:xxx、交由yyy公司进行建设。此为yyy项目的第一版设计图,未有详尽之处请参考其他文档、审查:xxx、复核:xxx;(2)设、本设计图由xxx设计院制作、交由yyy公司进行建设。此为yyy项目的第一版设计图,未有详尽之处请参考其他文档、计、制作:xxx、审查:xxx、复核:xxx、图。而最终有效和正确的语句序列必然是来自上述2个可选语句序列之一,因此需要对这2个可选语句序列进行训练和识别,再确认断句位置。
53.本发明实施例采用svm来构建识别模型和断句模型,其具体过程包括:
54.首先为2个可选语句序列进行标注,具体可按word2vec的形式进行标注。此标注过程为现有的hanlp的词性标注与句法分析技术,本技术不再对其进行赘述。添加标签后的2个语句序列为:
55.(1)可选语句序列一:
56.设(v),不错误,不断开
57.计(v),不错误,不断开
58.图(n、fs),不错误,断开
59.本设计图由xxx设计院制作,(r/n/p/nx/n/v,rhs),不错误,不断开
60.交由yyy公司进行建设。此为yyy项目的第一版设计图,未有详尽之处请参考其他文档。(v/nx/n/v/vn/r/pnnx/n/uj/n/n/d/v/a/u/n/v/v/r/n,lhs),不错误,断开
61.制作:xxx,(v/nr,fs),不错误,断开
62.审查:xxx,(v/nr,fs),不错误,断开
63.复核:xxx,(v/nr,fs),不错误,断开
64.(2)可选语句序列二:
65.设(v),错误,断开
66.本设计图由xxx设计院制作,(r/n/p/nx/n/v,rhs),不错误,不断开
67.交由yyy公司进行建设。此为yyy项目的第一版设计图,未有详尽之处请参考其他文档。(v/nx/n/v/vn/r/pnnx/n/uj/n/n/d/v/a/u/n/v/v/r/n,lhs),不错误,断开
68.计(v),错误,不断开
69.制作:xxx,(v/nr,fs),不错误,断开
70.审查:xxx,(v/nr,fs),不错误,断开
71.复核:xxx,(v/nr,fs),不错误,断开
72.图(n、fs),不错误,断开
73.需要说明的是:对rhs(righthalf sentence)标记,是指这段文字基本符合句法结构,但结尾有逗号冒号这种特殊符号,或句子缺失宾语的情况。同理有lhs(left half sentence)为头部有特殊符号或句子缺失主语的情况。
74.对fs(full sentence)标记,指这段文字符合句法结构,不需要上下文亦可单独成句的。
75.本实施例以上述标注后的文本作为训练样本,利用上述步骤1-3获取若干标注的
文本序列构建训练集,用于训练识别模型。
76.本发明实施例具体采用2个svm构建识别模型和断句模型,第一个svm输入为可选语句序列,输出句群对“错误”与否的判定准确率,第二svm输入为第一个svm识别的正确语句序列(即准确率高的可选语句序列),输出对“断开”与否的判断正确率。
77.模型训练的具体过程参见本技术人的在先专利申请(cn201710187190.6,用于图纸排版的文本断句方法和系统),此处不再过多赘述。
78.本实施例还提出了一种用于图纸的文本断句系统,具体如图3所示,该文本断句系统包括解析模块、重组模块、标注模块、模型构建模块、识别模块和断句模块。
79.其中,该解析模块用于获取图纸并对其进行解析得到初始语句序列。
80.重组模块用于根据文本框的位置,调整初始语句序列,生成可选语句序列。
81.标注模块对可选语句序列进行文本标注,采用标注后的文本构建训练集。
82.模型构建模块,采用训练集对svm模型进行训练,得到识别模型和断句模型。
83.识别模块,利用识别模型从待处理的图纸的可选语句序列中识别出正确的语句序列。待处理图纸的可选语句序列通过将待处理的图纸输入到解析模块进行解析得到初始语句序列,之后再由重组模块进行调整生成。
84.断句模块,利用断句模型对正确的语句序列进行断句处理。
85.本实施例还提出了一种计算机设备,用于执行本实施例的上述方法。
86.计算机设备包括处理器、内存储器和系统总线;内存储器和处理器在内的各种设备组件连接到系统总线上。处理器是一个用来通过计算机系统中基本的算术和逻辑运算来执行计算机程序指令的硬件。内存储器是一个用于临时或永久性存储计算程序或数据(例如,程序状态信息)的物理设备。系统总线可以为以下几种类型的总线结构中的任意一种,包括存储器总线或存储控制器、外设总线和局部总线。处理器和内存储器可以通过系统总线进行数据通信。其中内存储器包括只读存储器(rom)或闪存(图中未示出),以及随机存取存储器(ram),ram通常是指加载了操作系统和计算机程序的主存储器。
87.计算机设备一般包括一个外存储设备。外存储设备可以从多种计算机可读介质中选择,计算机可读介质是指可以通过计算机设备访问的任何可利用的介质,包括移动的和固定的两种介质。例如,计算机可读介质包括但不限于,闪速存储器(微型sd卡),cd-rom,数字通用光盘(dvd)或其它光盘存储、磁带盒、磁带、磁盘存储或其它磁存储设备,或者可用于存储所需信息并可由计算机设备访问的任何其它介质。
88.计算机设备可在网络环境中与一个或者多个网络终端进行逻辑连接。网络终端可以是个人电脑、服务器、路由器、智能电话、平板电脑或者其它公共网络节点。计算机设备通过网络接口(局域网lan接口)与网络终端相连接。局域网(lan)是指在有限区域内,例如家庭、学校、计算机实验室、或者使用网络媒体的办公楼,互联组成的计算机网络。wifi和双绞线布线以太网是最常用的构建局域网的两种技术。
89.应当指出的是,其它包括比计算机设备更多或更少的子系统的计算机系统也能适用于发明。
90.如上面详细描述的,适用于本实施例的计算机设备能执行文本断句方法的指定操作。计算机设备通过处理器运行在计算机可读介质中的软件指令的形式来执行这些操作。这些软件指令可以从存储设备或者通过局域网接口从另一设备读入到存储器中。存储在存
储器中的软件指令使得处理器执行上述的群成员信息的处理方法。此外,通过硬件电路或者硬件电路结合软件指令也能同样实现本发明。因此,实现本实施例并不限于任何特定硬件电路和软件的组合。
91.以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。