本发明涉及人工智能领域,尤其涉及训练方法、版面分析方法、标注质量评估方法、装置、计算机设备和存储介质。
背景技术:
1、文档作为信息的载体,在人类历史和社会进步中发挥着重要作用。近年来,随着电子技术的发展,文档不同类型区域的处理方式截然不同,需要针对不同的文档区域制定不同的策略。因此,为了便于后续处理,需要先对文档进行版面分析。版面分析的目的是根据页面内容对不同区域块进行分割,并对区域块进行识别标记。版面分析的质量,显著地影响着文档智能任务的整体效果。
2、随着人工智能技术的发展,基于图像、文本、布局位置信息的算法和模型,被广泛应用于文档版面分析中。版面分析模型的应用使得文档智能任务的性能有了显著提升,但现有技术中,对版面分析任务进行质量控制,往往需要依照该版面分析任务的特定规则对版面分析模型的结构进行调整,另外由于其根据具体任务制定了特定的规则,导致无法扩展到其他版面分析领域或任务上。因此,需要一种高效且易拓展的质量评估方法,以有效控制版面分析任务的质量。
技术实现思路
1、本发明实施例提供训练方法、版面分析方法、标注质量评估方法、装置、计算机设备和存储介质,以得到一种高效且易拓展的质量评估方法,从而提升版面分析的质量。
2、本发明第一方面,提供一种标注质量模型训练方法,包括:
3、获取已标注质量标签的版面标签集,所述版面标签集包括版面和所述版面对应的版面标签;
4、将所述版面标签对应的文档多模态信息,转化为多模态隐向量;
5、将所述多模态隐向量输入版面分析模型,得出所述版面的版面标签概率;
6、将所述多模态隐向量和版面标签概率,输入标注质量模型,得出所述质量标签的质量标签损失值;
7、依据所述质量标签损失值对所述标注质量模型的模型参数,进行迭代调整,直至所述标注质量模型满足收敛条件,得到目标标注质量模型。
8、第二方面,提供一种联合训练方法,包括:
9、获取已标注质量标签的正例版面标签集,所述正例版面标签集包括正例版面和所述正例版面对应的正例版面标签;
10、将所述正例版面标签对应的文档多模态信息,转化为多模态隐向量;
11、将所述多模态隐向量输入联合训练的版面分析模型,得出所述正例版面的版面标签概率和版面标签损失值;
12、将所述多模态隐向量和所述版面标签概率,输入所述联合训练的标注质量模型,得出所述质量标签的质量标签损失值;
13、依据所述版面标签损失值和质量标签损失值,对所述联合训练的训练参数进行迭代调整,直至满足收敛条件,得到目标版面分析模型和目标标注质量模型。
14、第三方面,提供一种标注质量评估方法,包括:
15、获取已标注版面标签的文档版面;
16、通过标注质量模型获得所述文档版面的版面标签对应的质量评估结果,所述标注质量模型根据上述标注质量模型训练方法或联合训练方法训练得到;
17、显示所述版面标签的质量评估结果。
18、第四方面,提供一种版面分析的方法,包括:
19、获取已标注版面标签的文档版面;
20、通过上述第三方面的标注质量评估方法筛选出所述文档版面中的符合预期质量的版面标签,得到所述版面标签对应的待分析版面;
21、通过版面分析模型获得所述待分析版面对应的版面分析结果,所述版面分析模型根据上述联合训练方法训练得到;
22、显示所述版面分析结果。
23、第五方面,提供一种标注质量模型训练装置,包括:
24、获取模块,用于获取已标注质量标签的版面标签集,所述版面标签集包括版面标签;
25、转化模块,用于将所述版面标签对应的文档多模态信息,转化为多模态隐向量;
26、分析版面模块,用于将所述多模态隐向量输入版面分析模型,得出所述版面标签的版面标签概率;
27、训练模块,用于将所述多模态隐向量和版面标签概率,输入标注质量模型,得出所述质量标签的质量标签损失值;
28、输出模块,用于依据所述质量标签损失值对所述标注质量模型的模型参数,进行迭代调整,直至所述标注质量模型满足收敛条件,得到目标标注质量模型。
29、第六方面,提供一种联合训练装置,包括:
30、获取模块,用于获取已标注质量标签的正例版面标签集,所述正例版面标签集包括正例版面标签;
31、转化模块,用于将所述正例版面标签对应的文档多模态信息,转化为多模态隐向量;
32、第一训练模块,用于将所述多模态隐向量输入联合训练的版面分析模型,得出所述正例版面标签的版本标签概率和版面标签损失值;
33、第二训练模块,用于将所述多模态隐向量和所述版面标签概率,输入所述联合训练的标注质量模型,得出所述质量标签的质量标签损失值;
34、输出模块,用于依据所述版面标签损失值和质量标签损失值,对所述联合训练的训练参数进行迭代调整,直至满足收敛条件,得到目标版面分析模型和目标标注质量模型。
35、第七方面,提供一种设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述各方法的步骤。
36、第八方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述各方法的步骤。
37、上述训练方法、版面分析方法中,通过获取已标注质量标签的版面标签集,将版面标签对应的文档多模态信息,转化为多模态隐向量,接着将所述多模态隐向量和版面分析模型得出的版面标签概率,输入标注质量模型。虽然该标注质量模型没有对版面分析模型进行改造,但由于采用了包含文档多模态信息的隐向量进行质量评估,因此最终的质量评估结果包含了文档图像、文本、布局信息等多模态信息,从而能准确地得出版面标签的质量评估结果,并且由于没有对版面分析模型进行改造,使得标注质量模型有着良好的扩展性,可以应用在各个不同的任务和领域中。在后续版面分析方法中依据目标标注质量模型,对已标注版面标签的文档版面进行筛选,过滤不符合预期质量的版面标签,保证了版面分析结果的准确性。由于标注质量模型只需要添加到版面分析模型上,就可以很好地筛选出符合预期质量的版面标签,这样的标注质量模型既为版面分析模型剔除了冗余的版面标签,提升了版面分析任务的效率,又不依赖于特定版面分析任务,只需将标注质量模型添加到版面分析任务中,这使得标注质量模型具有很强的扩展性,因此,有效提升了版面分析的质量与效率。
1.一种标注质量模型训练方法,其特征在于,包括:
2.如权利要求1所述标注质量模型训练方法,其特征在于,所述版面的版面标签概率用版面标签概率矩阵表示,所述标注质量模型用于:
3.如权利要求1所述质量模型训练方法,其特征在于,所述获取已标注质量标签的版面标签集之前,所述方法还包括:
4.一种联合训练方法,其特征在于,包括:
5.一种标注质量评估方法,其特征在于,包括:
6.一种版面分析的方法,其特征在于,包括:
7.一种标注质量模型训练装置,其特征在于,所述装置包括:
8.一种联合训练装置,其特征在于,包括:
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。