本发明涉及自然语言处理,具体而言,涉及一种文档解析系统及方法。
背景技术:
1、文档解析是各类在线服务系统的一项重要的数据结构化基础,其旨在自动从文档中提取结构化信息。现有的解析方法大多是基于token级别的,对于一次性理解如多页收据、简历等这样具有长文本特性的文档有困难。同时很多文档中存在层次结构,例如邮寄单据里面的收件方个人信息包含姓名、地址等信息,邮寄品类包含物品类型、存放条件等信息,然而现有的方法没有建模这种层次结构,以致忽视了文档结构化信息的层次关系。
技术实现思路
1、为解决上述问题,本发明的目的在于提供一种文档解析系统及方法,能解析长文档,并在解析过程中能高效提取长文档的结构化信息,对长文档的字段具有较高的解析准确率。
2、本发明实施例提供了一种文档解析系统,所述系统包括:
3、数据预处理模块,用于对待处理文档进行解析,得到解析后的文档,包括每页的字段序列和视觉特征图,其中,所述字段序列包括多个字段,每个字段包括文本信息和位置信息;
4、多模态融合编码器,用于提取所述解析后的文档的特征,得到每页的文本特征序列、位置特征序列和图像特征序列,并对提取出的特征进行融合,得到文档解析模型,其中融合过程中,对当前字段对应的文本特征和图像特征分别加入绝对位置偏置,所述当前字段所在页码及位置信息用于表征所述绝对位置偏置,并对相邻两个所述字段对应的图像特征分别加入相对位置偏置,相邻两个所述字段的位置信息之差用于表征所述相对位置偏置;
5、预训练任务模块,用于通过多种预训练任务对所述文档解析模型进行预训练,得到预训练后的模型;
6、多尺度序列标注任务模块,用于通过多尺度序列标注任务对所述预训练后的模型进行微调,得到微调后的模型,以使所述微调后的模型能在多个尺度上预测所述待处理文档,其中,所述多个尺度包括表征字段所属块类别的块尺度和表征字段所属字段类别的字段尺度。
7、作为本发明进一步的改进,所述多模态融合编码器采用transformer模型,所述多模态融合编码器包括:
8、文本特征提取器,用于利用bert模型对每个所述字段的文本信息进行编码,得到每个所述字段的文本特征;
9、位置特征提取器,用于对每个所述字段的位置信息,将横轴和纵轴的坐标范围统一在固定范围内,并对位置信息进行one-hot编码,得到每个所述字段的位置特征;
10、图像特征提取器,用于利用faster r-cnn网络对所述视觉特征图进行目标检测,获取每个所述字段所在区域的图像特征,所述图像特征包括文本信息对应的纹理、字体样式和字体大小特征。
11、作为本发明进一步的改进,所述多种预训练任务包括:
12、遮蔽语言任务,包括:使用mlm模型随机遮盖部分字段的部分文本信息,并在所述文本特征提取器编码后,利用上下文恢复被遮盖的部分字段的部分文本信息,以对所述文本特征提取器进行预训练;
13、视觉位置对齐任务,包括:在获取每个所述字段所在区域的图像特征后,对每个所述字段所在区域的图像特征不加入绝对位置偏置,直接拼接两个所述字段所在区域的图像特征并预测两个所述字段的相对位置,以对所述图像特征提取器进行预训练;
14、遮盖字段预测任务,包括:使用msp任务随机遮蔽输入至所述多模态融合模型编码器的特征,并利用上下文恢复被遮蔽的特征,以对所述多模态融合编码器进行预训练。
15、作为本发明进一步的改进,所述多尺度序列标注任务包括:
16、字段分类任务,包括:预测每个所述字段所属的字段类别;
17、块分类任务,包括:预测每个所述字段所属的块类别;
18、字段对分类任务,包括:预测相邻两个所述字段是否属于同一个块类别。
19、作为本发明进一步的改进,所述绝对位置偏置包括当前字段所在页码及位置信息,
20、式中,表示所述当前字段的左上角坐标,表示所述当前字段的右下角坐标;
21、所述相对位置偏置通过字段和字段的位置信息之差表征:
22、
23、式中,表示字段的左上角坐标,表示字段的左上角坐标,和分别表示所述文档解析模型可学习的参数。
24、作为本发明进一步的改进,所述多模态融合编码器采用transformer模型,所述多模态融合编码器使用的自注意力机制如下:
25、
26、
27、其中,表示字段m和字段n的注意力系数,表示字段m的初始特征,表示字段n的初始特征,表示特征向量的维度,表示字段m经过一层注意力模块后的特征, k表示字段m的邻居的数目,表示字段m和字段k的注意力系数,、和分别表示transformer模型中可学习的查询矩阵、键矩阵和值矩阵。
28、作为本发明进一步的改进,所述系统还包括:
29、持续学习模块,用于对新的训练数据中的新字段进行标注,并利用多个含有新字段的待解析文档对所述微调后的模型进行增量学习,得到新模型;
30、其中,增量学习过程中,将所述微调后的模型作为教师模型,所述新模型作为学生模型。
31、作为本发明进一步的改进,所述新的训练数据中的字段包括新字段和其他字段,其中,
32、对于新字段,所述新模型学习使用交叉损失函数学习所述微调后的模型对字段预测的概率分布;
33、对于其他字段,所述新模型学习使用kl散度损失函数学习所述微调后的模型对字段预测的概率分布。
34、作为本发明进一步的改进,所述系统还包括预先构建的数据池,增量学习过程中,从所述新的训练数据中抽取部分数据存储在所述数据池中,并用当前新增的新字段作为标签标记抽取出的所述部分数据;
35、其中,对于所述数据池中不同标签的数据,赋予不同的权重,用于增量学习。
36、本发明实施例还提供了一种文档解析方法,所述方法包括:
37、对待处理文档进行解析,得到解析后的文档,包括每页的字段序列和与视觉特征图,其中,所述字段序列包括多个字段,每个字段包括文本信息和位置信息;
38、提取所述解析后的文档的特征,得到每页的文本特征序列、位置特征序列和图像特征序列,并对提取出的特征进行融合,得到文档解析模型,其中融合过程中,对当前字段对应的文本特征和图像特征分别加入绝对位置偏置,所述当前字段所在页码及位置信息用于表征所述绝对位置偏置,并对相邻两个所述字段对应的图像特征分别加入相对位置偏置,相邻两个所述字段的位置信息之差用于表征所述相对位置偏置;
39、通过多种预训练任务对所述文档解析模型进行预训练,得到预训练后的模型;
40、通过多尺度序列标注任务对所述预训练后的模型进行微调,得到微调后的模型,以使所述微调后的模型能在多个尺度上预测所述待处理文档,其中,所述多个尺度包括表征字段所属块类别的块尺度和表征字段所属字段类别的字段尺度。
41、本发明的有益效果为:
42、本发明所述系统能解析长文档,并在解析过程中能高效提取长文档的结构化信息,对长文档的字段具有较高的解析准确率,能应用于各类需要对文档进行结构化信息抽取的场景。所述系统还具有持续学习能力,模型的解析能力可以不断自适应扩展。