本技术涉及自然语言处理,特别涉及一种基于序列到集合生成的表格生成方法、一种计算机可读存储介质、一种计算机设备和一种基于序列到集合生成的表格生成装置。
背景技术:
1、相关技术中,文本到表格生成旨在通过计算机自动化地抽取给定文本中的重要信息并转化成对应的表格;现有的相关技术一般采用序列到序列的生成模型进行生成,该方式要求表格生成过程中严格按照从上到下的顺序进行生成,这违背了表格中表体行的所有行之间顺序无关的事实。因此,这种方式容易导致生成效率低下,准确率较低。
技术实现思路
1、本技术旨在至少在一定程度上解决上述技术中的技术问题之一。为此,本技术的一个目的在于提出一种基于序列到集合生成的表格生成方法,能够使得表格的表体行之间进行并行生成,无需考虑行之间的顺序依赖关系,从而有效提高生成的效率和准确度。
2、本技术的第二个目的在于提出一种计算机可读存储介质。
3、本技术的第三个目的在于提出一种计算机设备。
4、本技术的第四个目的在于提出一种基于序列到集合生成的表格生成装置。
5、为达到上述目的,本技术第一方面实施例提出了一种基于序列到集合生成的表格生成方法,该方法包括以下步骤:获取文本信息,并通过分词工具对所述文本信息进行分词处理;将所述分词处理后的文本输入到文本编码器进行编码,以得到编码后的文本特征向量表示;将所述编码后的文本特征向量表示输入到表头生成器进行解码,以生成所述文本信息对应表格的表头和表头特征向量表示;将所述编码后的文本特征向量表示和所述表头特征向量表示输入到表体生成器进行解码,以并行的生成所述文本信息对应表格的表体行;构建表格生成模型,并根据所述文本信息、所述文本信息对应表格的表头和所述文本信息对应表格的表体行进行训练,其中,在训练过程中,采用二分图匹配的方式对预生成的表体行首列和训练目标首列进行一对一匹配;基于训练好的表格生成模型对输入的待生成表格的文本信息进行预测,以生成对应的完整表格。
6、根据本技术实施例的基于序列到集合生成的表格生成方法,首先,获取文本信息,并通过分词工具对文本信息进行分词处理;然后,将分词处理后的文本输入到文本编码器进行编码,以得到编码后的文本特征向量表示;接着,将编码后的文本特征向量表示输入到表头生成器进行解码,以生成文本信息对应表格的表头和表头特征向量表示;再然后,将编码后的文本特征向量表示和表头特征向量表示输入到表体生成器进行解码,以并行的生成文本信息对应表格的表体行;再接着,构建表格生成模型,并根据文本信息、文本信息对应表格的表头和文本信息对应表格的表体行进行训练,其中,在训练过程中,采用二分图匹配的方式对预生成的表体行首列和训练目标首列进行一对一匹配;最后,基于训练好的表格生成模型对输入的待生成表格的文本信息进行预测,以生成对应的完整表格;由此,能够使得表格的表体行之间进行并行生成,无需考虑行之间的顺序依赖关系,从而有效提高生成的效率和准确度。
7、另外,根据本技术上述实施例提出的基于序列到集合生成的表格生成方法还可以具有如下附加的技术特征:
8、可选地,所述表头由序列到序列式的生成,所述表行体由序列到集合式的生成,且所述表头生成器与所述表体生成器共享参数。
9、可选地,所述表体生成器设计有行嵌入和列嵌入,以便通过所述行嵌入和所述列嵌入增加对应行列之间的语义对应关系。
10、可选地,根据以下公式采用二分图匹配的方式对预生成的表体行首列和训练目标首列进行一对一匹配:
11、
12、
13、其中,根据预生成表体行首列得到生成概率分布{pm}1≤m≤m,表示第m行第k步的预测分布,并且使用词将所有目标行填充到最大长度m;f(m)表示所有的一对一映射函数,共有m!个,将第m个生成的表体行与第f(m)个目标行进行匹配;n表示yf(m)的长度,表示第m行的第k个目标词的生成概率;特别地,忽略的生成概率,以保证生成行可以尽可能与非空目标行进行匹配。
14、为达到上述目的,本技术第二方面实施例提出了一种计算机可读存储介质,其上存储有基于序列到集合生成的表格生成程序,该基于序列到集合生成的表格生成程序被处理器执行时实现如上述的基于序列到集合生成的表格生成方法。
15、根据本技术实施例的计算机可读存储介质,通过存储有基于序列到集合生成的表格生成程序,这样基于序列到集合生成的表格生成程序被处理器执行时实现上述的基于序列到集合生成的表格生成方法,由此,能够使得表格的表体行之间进行并行生成,无需考虑行之间的顺序依赖关系,从而有效提高生成的效率和准确度。
16、为达到上述目的,本技术第三方面实施例提出了一种计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述的基于序列到集合生成的表格生成方法。
17、根据本技术实施例的计算机设备,通过存储器存储基于序列到集合生成的表格生成程序,这样基于序列到集合生成的表格生成程序被处理器执行时实现上述的基于序列到集合生成的表格生成方法,由此,能够使得表格的表体行之间进行并行生成,无需考虑行之间的顺序依赖关系,从而有效提高生成的效率和准确度。
18、为达到上述目的,本技术第四方面实施例提出了一种基于序列到集合生成的表格生成装置,包括:获取模块,用于获取文本信息,并通过分词工具对所述文本信息进行分词处理;编码模块,用于将所述分词处理后的文本输入到文本编码器进行编码,以得到编码后的文本特征向量表示;第一解码模块,用于将所述编码后的文本特征向量表示输入到表头生成器进行解码,以生成所述文本信息对应表格的表头和表头特征向量表示;第二解码模块,用于将所述编码后的文本特征向量表示和所述表头特征向量表示输入到表体生成器进行解码,以并行的生成所述文本信息对应表格的表体行;模型训练模块,用于构建表格生成模型,并根据所述文本信息、所述文本信息对应表格的表头和所述文本信息对应表格的表体行进行训练,其中,在训练过程中,采用二分图匹配的方式对预生成的表体行首列和训练目标首列进行一对一匹配;表格生成模块,用于基于训练好的表格生成模型对输入的待生成表格的文本信息进行预测,以生成对应的完整表格。
19、根据本技术实施例的基于序列到集合生成的表格生成装置,能够使得表格的表体行之间进行并行生成,无需考虑行之间的顺序依赖关系,从而有效提高生成的效率和准确度。
20、另外,根据本技术上述实施例提出的基于序列到集合生成的表格生成装置还可以具有如下附加的技术特征:
21、可选地,所述表头由序列到序列式的生成,所述表行体由序列到集合式的生成,且所述表头生成器与所述表体生成器共享参数。
22、可选地,所述表体生成器设计有行嵌入和列嵌入,以便通过所述行嵌入和所述列嵌入增加对应行列之间的语义对应关系。
23、可选地,根据以下公式采用二分图匹配的方式对预生成的表体行首列和训练目标首列进行一对一匹配:
24、
25、
26、其中,根据预生成表体行首列得到生成概率分布{pm}1≤m≤m,表示第m行第k步的预测分布,并且使用词将所有目标行填充到最大长度m;f(m)表示所有的一对一映射函数,共有m!个,将第m个生成的表体行与第f(m)个目标行进行匹配;n表示yf(m)的长度,表示第m行的第k个目标词的生成概率;特别地,忽略的生成概率,以保证生成行可以尽可能与非空目标行进行匹配。