一种文档解析系统及方法与流程

文档序号:35453107发布日期:2023-09-14 11:22阅读:来源:国知局

技术特征:

1.一种文档解析系统,其特征在于,所述系统包括:

2.如权利要求1所述的系统,其中,所述多模态融合编码器采用transformer模型,所述多模态融合编码器包括:

3.如权利要求2所述的系统,其中,所述多种预训练任务包括:

4.如权利要求1所述的系统,其中,所述多尺度序列标注任务包括:

5.如权利要求1所述的系统,其中,所述绝对位置偏置包括当前字段所在页码及位置信息,

6.如权利要求5所述的系统,其中,所述多模态融合编码器采用transformer模型,所述多模态融合编码器使用的自注意力机制如下:

7.如权利要求1所述的系统,其中,所述系统还包括:

8.如权利要求7所述的系统,其中,所述新的训练数据中的字段包括新字段和其他字段,其中,

9.如权利要求7所述的系统,其中,所述系统还包括预先构建的数据池,增量学习过程中,从所述新的训练数据中抽取部分数据存储在所述数据池中,并用当前新增的新字段作为标签标记抽取出的所述部分数据;

10.一种文档解析方法,其特征在于,所述方法包括:


技术总结
本发明实施例公开了一种文档解析系统,包括:数据预处理模块,用于对待处理文档进行解析,得到解析后的文档;多模态融合编码器,用于提取解析后的文档的特征,并对提取出的特征进行融合,得到文档解析模型;预训练任务模块,用于通过多种预训练任务对文档解析模型进行预训练,得到预训练后的模型;多尺度序列标注任务模块,用于通过多尺度序列标注任务对预训练后的模型进行微调,得到微调后的模型,以使微调后的模型能在多个尺度上预测待处理文档。本发明实施例还公开了一种文档解析方法。本发明能解析长文档,并在解析过程中能高效提取长文档的结构化信息,对长文档的字段具有较高的解析准确率。

技术研发人员:秦川,姜飞虎,朱琛,宋洋,祝恒书,赵鹏
受保护的技术使用者:北京华品博睿网络技术有限公司
技术研发日:
技术公布日:2024/1/15
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1