面向地球科学领域的表格和上下文解析方法及系统

文档序号:33004147发布日期:2023-01-18 02:35阅读:37来源:国知局
面向地球科学领域的表格和上下文解析方法及系统

1.本发明涉及地质信息挖掘领域,尤其涉及一种面向地球科学领域的表格和上下文解析方法及系统。


背景技术:

2.表格解析是自然语言处理领域中的一个重要任务,其目的是将表格中非结构化的信息转化为结构化的信息,形成地质知识,能够有效从地质报告文件中获取信息,提高地质调查过程中的认知智能分析水平。目前的表格解析方法主要分为两类:传统的启发式方法和基于深度学习的方法。
3.传统启发式的方法通过字符特定距离、表格特有的标题、线条特点、表格特有的对齐格式来从文本中提取表格;基于深度学习的方法则是将表格作为图像,使用图像分割和目标提取的方式利用深度学习模型对表格进行解析。
4.在现阶段,关于表格解析的研究仅提供了部分解决方案。很多现有的表格解析方法是针对通用领域的表格和金融表格,并不适合面向特定专业领域中的表格解析场景。首先在单元格提取中,由于地表中合并的单元格数量较多,导致单元格大小差异较大,大量的小靶单元格无法被识别和提取。其次,在表结构解析方面,地质表包含大量对角分割的表头和合并的单元格,结构解析困难。最后,表格解析缺少与上下文本的融合造成了知识的单一局限性。因此,当前由海量地质调查报告、工作记录等非结构化数据组成的地质大数据尚未得到充分的利用和挖掘。
5.上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。


技术实现要素:

6.为解决上述技术问题,本发明提供一种面向地球科学领域的表格和上下文解析方法,包括:
7.s1:从地质数据库中获取地质数据表格;
8.s2:对地质数据表格进行预处理,获得待解析地质数据表格;
9.s3:对待解析地质数据表格进行单元格提取,获得单元格的位置信息,通过ocr算法在各位置信息对应的单元格中提取单元格的内容信息;
10.s4:通过单元格的位置信息,使用表格解析方法获得单元格所属行列信息;
11.s5:将各单元格的位置信息、所属行列信息和内容信息转换为三元组形式数据,将三元组形式数据和解析表格上下文内容得到的三元组信息进行对齐,获得地质知识图谱。
12.优选的,步骤s2具体为:
13.通过labelme对地质数据表格进行标注,包括对表格的标注和对单元格的标注。
14.优选的,步骤s3具体为:
15.s31:待解析地质数据表格分为普通表格和含框线表格,通过改进的损失函数使
mask rcnn模型达到收敛,获得改进的mask rcnn模型,通过改进的mask rcnn模型提取普通表格的单元格的位置信息;
16.s32:通过opencv框架对含框线表格进行分割线位置解析,获得含框线表格的单元格的位置信息;
17.s33:通过位置信息对单元格进行定位,通过ocr算法提取普通表格的单元格和含框线表格的单元格的内容信息。
18.优选的,改进的损失函数的表达式为:
[0019][0020][0021][0022][0023]
l
align
=la+lb+lc+ld[0024]
loss=l
class
+l
bbox
+l
mask
+l
align
[0025]
其中,l
class
表示分类损失,l
bbox
表示回归框损失,l
mask
表示掩膜损失,sr表示起始行,sc表示起始列、er表示结束行、ec表示结束列,ci表示特定行i的两个单元格,cj表示特定行j中的两个单元格,(x1
ci
,y1
ci
)和(x2
ci
,y2
ci
)分别表示单元格的边框坐标即左上角坐标和右下角坐标。
[0026]
优选的,步骤s4具体为:
[0027]
s41:在含分割线的单元格忠,通过opencv模型将其图像转为二值图,识别二值图的线段端点坐标,将其余不含分割线单元格看作一个拥有长宽的矩形;
[0028]
s42:将各单元格的矩形中长边最短的三分之一设置为横坐标容错阈值k
x
,将各单元格的矩形中宽边最短的三分之一设置为纵坐标容错阈值ky,表达式为:
[0029][0030][0031]
其中,(x1,y1)为单元格的左上角坐标,(x2,y2)为单元格的右下角坐标;
[0032]
s43:通过横坐标容错阈值、纵坐标容错阈值和表格的行列垂直关系获得校正后的单元格坐标,通过校正后的单元格坐标获得各单元格的行信息和列信息;
[0033]
s44:在含分割线的单元格中,通过opencv模型定位分割线段的端点坐标,当单元格(a
x
,by)属于第m行n列时,坐标关系满足下式:
[0034][0035][0036]
其中,am表示第m行单元格的最小横坐标值,bn表示第n列单元格的最小纵坐标值,am+1
表示第m行单元格的最大横坐标值,b
n+1
表示第n列单元格的最大纵坐标值,start_row和end_row分别表示单元格的行信息的开始处和结束处,start_col和end_col分别表示单元格的列信息的开始处和结束处,
[0037]
s45:将每个单元格的编号、左上角坐标和右下角坐标作为各单元格的位置信息,行信息和列信息作为单元格所属行列信息。
[0038]
优选的,步骤s5具体为:
[0039]
s51:通过albert模型将各单元格的位置信息、所属行列信息和内容信息转化为三元组形式数据,三元组形式数据表示为(a,r,b)其中a和b表示实体,r表示实体a、b间关系;
[0040]
s52:将三元组形式数据与解析后的地质数据表格进行对齐,包括:实体对齐和基于表格的知识图谱与基于上下文的知识图谱的嵌入融合,获得地质知识图谱。
[0041]
一种面向地球科学领域的表格和上下文解析系统,包括:
[0042]
表格获取模块,用于从地质数据库中获取地质数据表格;
[0043]
预处理模块,用于对地质数据表格进行预处理,获得待解析地质数据表格;
[0044]
提取模块,用于对待解析地质数据表格进行单元格提取,获得单元格的位置信息,通过ocr算法在各位置信息对应的单元格中提取单元格的内容信息;
[0045]
行列信息获取模块,用于通过单元格的位置信息,使用表格解析方法获得单元格所属行列信息;
[0046]
图谱构建模块,用于将各单元格的位置信息、所属行列信息和内容信息转换为三元组形式数据,将三元组形式数据和解析表格上下文内容得到的三元组信息进行对齐,获得地质知识图谱。
[0047]
本发明具有以下有益效果:
[0048]
1、对mask rcnn模型进行了改进,与其他基线模型相比,本发明选取的改进的mask rcnn模型最终各项评价指标都达到了最优;
[0049]
2、通过本发明的地质知识图谱构建的问答平台为用户提供了更简单的地质信息获取渠道,有利于地质研究者快速获取信息,和非地质研究者对地质信息的简易理解。
附图说明
[0050]
图1为本发明实施例方法流程图;
[0051]
图2为albert-bigru-attenetion模型的结构图;
[0052]
图3为地质知识图谱的界面图;
[0053]
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0054]
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0055]
参照图1,本发明提供一种面向地球科学领域的表格和上下文解析方法,包括:
[0056]
s1:从地质数据库中获取地质数据表格;
[0057]
具体的,使用的地质数据库包括基础地质学、矿产地质学、水文地质学、工程地质学、环境地质等,本发明从这些地质数据库中收集表格;
[0058]
s2:对地质数据表格进行预处理,获得待解析地质数据表格;
[0059]
s3:对待解析地质数据表格进行单元格提取,获得单元格的位置信息,通过ocr算法在各位置信息对应的单元格中提取单元格的内容信息;
[0060]
s4:通过单元格的位置信息,使用表格解析方法获得单元格所属行列信息;
[0061]
s5:将各单元格的位置信息、所属行列信息和内容信息转换为三元组形式数据,将三元组形式数据和解析表格上下文内容得到的三元组信息进行对齐,获得地质知识图谱。
[0062]
本实施例中,步骤s2具体为:
[0063]
通过labelme对地质数据表格进行标注,包括对表格的标注和对单元格的标注。
[0064]
本实施例中,步骤s3具体为:
[0065]
s31:待解析地质数据表格分为普通表格和含框线表格,通过改进的损失函数使mask rcnn模型达到收敛,获得改进的mask rcnn模型,通过改进的mask rcnn模型提取普通表格的单元格的位置信息;
[0066]
s32:通过opencv框架对含框线表格进行分割线位置解析,获得含框线表格的单元格的位置信息;
[0067]
s33:通过位置信息对单元格进行定位,通过ocr算法提取普通表格的单元格和含框线表格的单元格的内容信息。
[0068]
本实施例中,为解决原始的mask rcnn模型的损失函数误差较大的问题,本发明重新定义了改进的损失函数;
[0069]
改进的损失函数的表达式为:
[0070][0071][0072][0073][0074]
l
align
=la+lb+lc+ld[0075]
loss=l
class
+l
bbox
+l
mask
+l
align
[0076]
其中,l
class
表示分类损失,l
bbox
表示回归框损失,l
mask
表示掩膜损失,sr表示起始行,sc表示起始列、er表示结束行、ec表示结束列,ci表示特定行i的两个单元格,cj表示特定行j中的两个单元格,(x1
ci
,y1
ci
)和(x2
ci
,y2
ci
)分别表示单元格的边框坐标即左上角坐标和右下角坐标。
[0077]
具体的,我们所设计的表格解析模型与其他基线模型相比,本发明选取的模型最终各项评价指标都达到了最优,实验结果如下表1所示:
[0078]
表1与其他表格解析模型相比的评价结果
[0079][0080]
本实施例中,步骤s4具体为:
[0081]
s41:在含分割线的单元格忠,通过opencv模型将其图像转为二值图,识别二值图的线段端点坐标,将其余不含分割线单元格看作一个拥有长宽的矩形;
[0082]
s42:将各单元格的矩形中长边最短的三分之一设置为横坐标容错阈值k
x
,将各单元格的矩形中宽边最短的三分之一设置为纵坐标容错阈值ky,表达式为:
[0083][0084][0085]
其中,(x1,y1)为单元格的左上角坐标,(x2,y2)为单元格的右下角坐标;
[0086]
s43:通过横坐标容错阈值、纵坐标容错阈值和表格的行列垂直关系获得校正后的单元格坐标,通过校正后的单元格坐标获得各单元格的行信息和列信息;
[0087]
s44:在含分割线的单元格中,通过opencv模型定位分割线段的端点坐标,当单元格(a
x
,by)属于第m行n列时,坐标关系满足下式:
[0088][0089][0090]
其中,am表示第m行单元格的最小横坐标值,bn表示第n列单元格的最小纵坐标值,a
m+1
表示第m行单元格的最大横坐标值,b
n+1
表示第n列单元格的最大纵坐标值,start_row和end_row分别表示单元格的行信息的开始处和结束处,start_col和end_col分别表示单元格的列信息的开始处和结束处,
[0091]
s45:将每个单元格的编号、左上角坐标和右下角坐标作为各单元格的位置信息,行信息和列信息作为单元格所属行列信息。
[0092]
本实施例中,步骤s5具体为:
[0093]
s51:通过albert模型将各单元格的位置信息、所属行列信息和内容信息转化为三元组形式数据,三元组形式数据表示为(a,r,b)其中a和b表示实体,r表示实体a、b间关系;
[0094]
具体为:
[0095]
(1)使用albert-bigru-attenetion模型结构对地质数据表格中的文字段落进行
结构化处理;序列化文本被用作建议模型的输入,输出是相应的注释序列,输出序列系统是“bio”注释系统;
[0096]
albert-bigru-attenetion模型的结构如图2所示,根据实际经验调试确定albert-bigru-attention关系抽取模型中涉及的一些重要参数,在保证抽取效果的基础上,进一步提升模型的训练效率,降低模型整体的复杂度,与其他模型相比达到了更好的效果,实验结果如下表2所示:
[0097]
表2与其他文本信息抽取模型相比的评估结果
[0098]
modelprf1t/salbert-bigru0.7010.7120.71607.33word2vec-bigru-attention0.7230.7290.736.55elmo-bigru-attention0.7560.7660.768907.1bert-bigru-attention0.8010.8150.813775.6ours0.8110.8330.82611.8
[0099]
(2)每个字符输入由albert模型转换为向量形式,并将该向量用作bigru的输入,以提取上下文特征;
[0100]
(3)将输出特征向量用作crf层的输入,crf层对输入进行规范化,学习标签间的约束关系,输出预测标签序列;
[0101]
(4)通过信息提取模型生成结构化信息以三元组形式输出;
[0102]
s52:将三元组形式数据与解析后的地质数据表格进行对齐,包括:实体对齐和基于表格的知识图谱与基于上下文的知识图谱的嵌入融合,获得地质知识图谱;
[0103]
具体为:
[0104]
(1)首先通过基于tf-idf(cohen w et al.,2002)算法将字符串转换为向量,利用两向量间夹角可衡量其相似性;对a、b实体向量的余弦相似度进行计算,公式如下:
[0105][0106]
通过设置相似性阈值k=0.95来过滤无法对齐实体,将k》0.95的实体看做含义相同的实体,重命名为相同的名字;
[0107]
(2)将基于表格的知识图谱作为目标知识图谱g2嵌入基于文本的知识图谱作为源知识图谱g1,q为两知识图谱中所有实体与关系的嵌入,定义该过程的目标函数为:
[0108]
p(g1,g2|q)=p(g1|q)p(g2|g1,q)
[0109]
首先对源知识图谱g1中的实体与关系嵌入公式为:
[0110][0111]
其中(a,r,b)为源知识图谱g1中的三元组;
[0112]
(3)使用transe模型对源知识图谱中的实体和关系进行嵌入;基于trane模型的方法对知识图谱进行单独的表示学习来获得相应的实体和关系向量,通过实体对齐的判断将他们投影打统一的向量空间中;
[0113]
(4)然后通过整合源知识图谱的信息,对目标知识图谱g2中的实体和关系进行嵌入,g2中的部分实体与源知识图谱g1存在链接,记为m={(k,l)|k}其中k为g1中所对应的实体,l为g2中对应的实体,具体如下:
[0114][0115]
其中(a,r,b)为目标知识图谱g2中的三元组,a,b表示实体,r表示a,b实体间关系,由此实现实体对齐和基于表格的知识图谱与基于上下文的知识图谱的嵌入融合,获得地质知识图谱,地质知识图谱的界面如图3所示;
[0116]
通过最终获得的地质知识图谱构建的问答平台,该平台为用户提供了更简单的地质信息获取渠道,有利于地质研究者快速获取信息,和非地质研究者对地质信息的简易理解。
[0117]
本发明提供一种面向地球科学领域的表格和上下文解析系统,包括:
[0118]
表格获取模块,用于从地质数据库中获取地质数据表格;
[0119]
预处理模块,用于对地质数据表格进行预处理,获得待解析地质数据表格;
[0120]
提取模块,用于对待解析地质数据表格进行单元格提取,获得单元格的位置信息,通过ocr算法在各位置信息对应的单元格中提取单元格的内容信息;
[0121]
行列信息获取模块,用于通过单元格的位置信息,使用表格解析方法获得单元格所属行列信息;
[0122]
图谱构建模块,用于将各单元格的位置信息、所属行列信息和内容信息转换为三元组形式数据,将三元组形式数据和解析表格上下文内容得到的三元组信息进行对齐,获得地质知识图谱。
[0123]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0124]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序,可将这些词语解释为标识。
[0125]
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1