1.本技术涉及数据处理技术领域,尤其是涉及赛事摘要文本的生成方法、装置、电子设备及存储介质。
背景技术:2.随着各项运动的普及,全世界各地会在不同的赛季时期举办各式各样的赛事,如何对赛事的进程以及赛事结果形成有效的文字进行报道,以便用户对赛事进行有效及时的了解成为了亟待解决的问题。
3.现阶段,随着深度学习技术以及大数据技术的发展,自动生成战报摘要的技术逐渐成熟,但是,在利用模型生成战报的过程中,需要将零散的赛事数据预先转换为包含结构化信息的自然语言后,再输入到预测模型中进行文本生成,这就意味着需要大量的模板以及数据处理才能生成符合模型输入标准的包含结构化信息的自然语言,数据处理量大,文本生成效率低。
技术实现要素:4.有鉴于此,本技术的目的在于提供赛事摘要文本的生成方法、装置、电子设备及存储介质,直接将获取到的赛事结构化信息序列输入至文本生成模型中,通过文本生成模型对结构化数据的处理,得到预测文本序列,进而得到赛事文本摘要,减少了数据生成自然语言的步骤以及数据处理量,有助于提升文本生成效率。
5.第一方面,本技术实施例提供了一种赛事摘要文本的生成方法,所述生成方法包括:
6.获取赛事结构化信息序列;所述赛事结构化信息序列中包括多个赛事描述信息以及每个赛事描述信息所属的赛事描述类型;所述赛事描述类型包括赛事结果类型、赛事参与者类型以及赛事时间类型中的至少一种;
7.将所述赛事结构化信息序列输入至预先训练好的文本生成模型中,以使所述文本生成模型根据每个赛事描述类型以及每个赛事描述信息,输出与每个赛事描述信息对应的预测文本序列,并根据所述赛事描述类型,确定多个预测文本序列的文本顺序;
8.根据得到的每个预测文本序列的文本顺序,拼接多个预测文本序列,得到赛事摘要文本,以根据所述赛事摘要文本获取赛事的关键信息。
9.在一种可能到的实施例中,所述文本生成模型包括序列嵌入层、序列编码层以及预测文本序列输出层;所述将所述赛事结构化信息序列输入至预先训练好的文本生成模型中,以使所述文本生成模型根据每个赛事描述类型以及每个赛事描述信息,输出与每个赛事描述信息对应的预测文本序列,包括:
10.将所述赛事结构化信息序列输入至所述序列嵌入层,以使所述序列嵌入层分别对各个赛事描述类型、各个赛事描述信息以及各个赛事关键词在所述赛事结构化信息序列中的位置进行编码,输出每个赛事描述信息对应的编码序列;
11.针对于每一个编码序列,将该编码序列输入至所述序列编码层,以使所述序列编码层对所述编码序列进行处理,并根据该编码序列中的赛事描述类型预测出该编码序列中包括的赛事描述信息的上下文信息,并根据上下文信息以及赛事描述信息,输出与该编码序列对应的至少一个候选文本序列;
12.针对于每一个编码序列,将该编码序列对应的至少一个候选文本序列输入至所述预测文本序列输出层,以使所述预测文本序列输出层从所述至少一个候选文本序列中筛选出该编码序列对应的预测文本序列。
13.在一种可能到的实施例中,通过以下步骤从所述至少一个候选文本序列中筛选出该编码序列对应的预测文本序列:
14.将至少一个候选文本序列中预测得分最高的候选文本序列,确定为预测文本序列;或者;
15.根据预测文本需求,将至少一个候选文本序列中满足预测需求的候选文本序列,确定为预测文本序列。
16.在一种可能到的实施例中,所述预测文本需求包括以下至少一种:
17.预测文本长度、预测文本句式、赛事文本表述方式。
18.在一种可能到的实施例中,通过以下步骤确定预测文本序列的文本顺序:
19.针对于每一个预测文本序列,根据该预测文本序列对应的赛事描述类型与其他赛事描述类型之间的文本关联顺序,确定该预测文本序列的文本顺序。
20.在一种可能到的实施例中,通过以下步骤训练所述文本生成模型:
21.获取多个样本赛事结构化序列以及与多个样本赛事结构化序列对应的样本摘要文本;每个样本赛事结构化序列中包括多个样本赛事描述信息以及每个样本赛事描述信息所属的赛事描述类型;
22.针对每个样本赛事结构化序列,确定出与该样本赛事结构化序列对应的参考样本序列;所述参考样本序列中包括多个参考标识信息,所述参考标识的数量与该样本赛事结构化序列中包括的样本赛事描述信息的数量相同;
23.将所述多个样本赛事结构化序列、多个参考样本序列以及多个样本摘要文本输入至预先构建好的语言模型中,以使语言模型通过样本赛事结构化序列转换到样本摘要文本的任务以及样本摘要文本转换到样本赛事结构化序列的任务,学习各个样本赛事描述信息的上下文信息,当所述语言模型的损失小于预设阈值时,确定所述语言模型训练完成,得到所述文本生成模型。
24.在一种可能到的实施例中,所述以使语言模型通过样本赛事结构化序列转换到样本摘要文本的任务以及样本摘要文本转换到样本赛事结构化序列的任务,学习各个样本赛事描述信息的上下文信息,包括:
25.将所述多个样本赛事结构化序列、多个参考样本序列以及多个样本摘要文本输入至所述语言模型的序列嵌入层中,以使所述序列嵌入层输出每个样本赛事结构化序列对应的结构化编码序列、每个参考样本序列对应的参考编码序列以及每个样本摘要文本对应的文本编码;
26.将确定出的多个结构化编码序列、多个参考编码序列以及文本编码输入至所述语言模型的序列编码层,以使所述序列编码层根据预设的标识矩阵中对文本编码和/或结构
化编码序列中的至少一个目标编码进行遮挡后的序列,对目标编码进行预测,确定各个样本赛事描述信息的上下文信息。
27.在一种可能到的实施例中,所述赛事描述类型包括固定描述类型以及可变描述类型,所述生成方法还包括:
28.针对于每一个所述可变描述类型以及对应的样本赛事描述信息,将所述序列编码层输出的预测序列,输入至所述语言模型的信息复制层,以使所述信息复制层对该样本赛事描述信息进行预测学习,调整可变描述类型对应的样本赛事描述信息的上下文信息。
29.在一种可能到的实施例中,所述预设的标识矩阵用于表征结构化编码序列、参考编码序列以及文本编码之间的可见关系;根据结构化编码序列、参考编码序列以及文本编码之间的可见关系,拟合学习各个样本赛事描述信息的上下文信息;
30.在对所述语言模型进行训练的过程中,针对于每个结构化编码序列中的各个编码数据,每个数据均能够获取到其他编码数据;
31.针对于每个参考编码序列中的各个参考编码数据,每个参考编码数据能够获取对应的文本编码;
32.针对于每个文本编码中的各个文本编码数据,每个文本数据能够获取在序列中位置位于该文本数据之前的文本编码数据;
33.其中,不可见的编码数据是待预测的数据。
34.在一种可能到的实施例中,通过以下步骤确定所述语言模型的损失:
35.针对于样本赛事结构化序列转换到样本摘要文本的任务,通过各个样本赛事结构化序列中的编码数据以及所述样本摘要文本对应的文本编码中被遮挡的编码,结合模型参数进行计算,确定第一损失值;
36.针对于样本摘要文本转换到样本赛事结构化序列的任务,通过各个样本赛事结构化序列中的编码数据、所述样本摘要文本对应的文本编码中被遮挡的编码以及所述参考编码序列中被遮挡的编码,结合模型参数进行计算,确定第二损失值;
37.将所述第一损失值与所述第二损失值进行加权计算,确定所述语言模型的损失。
38.在一种可能到的实施例中,所述生成方法还包括:
39.对所述赛事摘要文本进行语义分析,确定出至少一个赛事关键词;
40.基于所述至少一个赛事关键词以及预设赛事分析规则,对赛事进行复盘分析。
41.第二方面,本技术实施例还提供了一种赛事摘要文本的生成装置,所述装置包括:
42.信息序列获取模块,用于获取赛事结构化信息序列;所述赛事结构化信息序列中包括多个赛事描述信息以及每个赛事描述信息所属的赛事描述类型;所述赛事描述类型包括赛事结果类型、赛事参与者类型以及赛事时间类型中的至少一种;
43.文本序列生成模块,用于将所述赛事结构化信息序列输入至预先训练好的文本生成模型中,以使所述文本生成模型根据每个赛事描述类型以及每个赛事描述信息,输出与每个赛事描述信息对应的预测文本序列,并根据所述赛事描述类型,确定多个预测文本序列的文本顺序;
44.摘要文本生成模块,用于根据得到的每个预测文本序列的文本顺序,拼接多个预测文本序列,得到赛事摘要文本,以根据所述赛事摘要文本获取赛事的关键信息。
45.第三方面,本技术实施例还提供了一种电子设备,包括:处理器、存储介质和总线,
所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如第一方面任一项所述的赛事摘要文本的生成方法的步骤。
46.第四方面,本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如第一方面任一项所述的赛事摘要文本的生成方法的步骤。
47.本技术实施例提供的赛事摘要文本的生成方法、装置、电子设备及存储介质,获取到包含多个赛事描述信息以及每个赛事描述信息所属的赛事描述类型的赛事结构化信息序列;将赛事结构化信息序列输入至预先训练好的文本生成模型中,以使文本生成模型根据每个赛事描述类型以及每个赛事描述信息,输出与每个赛事描述信息对应的预测文本序列,并根据赛事描述类型,确定多个预测文本序列的文本顺序;根据得到的每个预测文本序列的文本顺序,拼接多个预测文本序列,得到赛事摘要文本,以根据所述赛事摘要文本获取赛事的关键信息。在本技术实施例中,直接将获取到的赛事结构化信息序列输入至文本生成模型中,通过文本生成模型对结构化数据的处理,得到预测文本序列,进而得到赛事文本摘要,减少了数据生成自然语言的步骤以及数据处理量,有助于提升文本生成效率,同时根据离散化的赛事结构化信息序列可以更好地分析出信息赛事信息的上下文信息,进而提升了文本生成准确性。
48.为使本技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
49.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
50.图1为本技术实施例所提供的一种赛事摘要文本的生成方法的流程图;
51.图2为本技术实施例所提供的另一种赛事摘要文本的生成方法的流程图;
52.图3为本技术实施例所提供的另一种赛事摘要文本的生成方法的流程图;
53.图4为本技术实施例所提供的训练过程中标识矩阵的示意图;
54.图5为本技术实施例所提供的一种赛事摘要文本的生成装置的结构示意图之一;
55.图6为本技术实施例所提供的一种赛事摘要文本的生成装置的结构示意图之二;
56.图7为本技术实施例所提供的一种电子设备的结构示意图。
具体实施方式
57.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实
施例。基于本技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本技术保护的范围。
58.首先,对本技术可适用的应用场景进行介绍。本技术可应用于数据处理技术领域。随着各项运动的普及,全世界各地会在不同的赛季时期举办各式各样的赛事,如何对赛事的进程以及赛事结果形成有效的文字进行报道,以便用户对赛事进行有效及时的了解成为了亟待解决的问题。
59.现阶段,随着深度学习技术以及大数据技术的发展,自动生成战报摘要的技术逐渐成熟,但是,在利用模型生成战报的过程中,需要将零散的赛事数据预先转换为包含结构化信息的自然语言后,再输入到预测模型中进行文本生成,这就意味着需要大量的模板以及数据处理才能生成符合模型输入标准的包含结构化信息的自然语言,数据处理量大,文本生成效率低。
60.基于此,本技术实施例提供了一种赛事摘要文本的生成方法,以提升文本生成效率以及文本生成的准确性。
61.请参阅图1,图1为本技术实施例所提供的一种赛事摘要文本的生成方法的流程图。如图1中所示,本技术实施例提供的赛事摘要文本的生成方法,包括:
62.s101、获取赛事结构化信息序列;所述赛事结构化信息序列中包括多个赛事描述信息以及每个赛事描述信息所属的赛事描述类型;所述赛事描述类型包括赛事结果类型、赛事参与者类型以及赛事时间类型中的至少一种。
63.s102、将所述赛事结构化信息序列输入至预先训练好的文本生成模型中,以使所述文本生成模型根据每个赛事描述类型以及每个赛事描述信息,输出与每个赛事描述信息对应的预测文本序列,并根据所述赛事描述类型,确定多个预测文本序列的文本顺序。
64.s103、根据得到的每个预测文本序列的文本顺序,拼接多个预测文本序列,得到赛事摘要文本,以根据所述赛事摘要文本获取赛事的关键信息。
65.本技术实施例所提供的赛事摘要文本的生成方法,直接将获取到的赛事结构化信息序列输入至文本生成模型中,通过文本生成模型对结构化数据的处理,得到预测文本序列,进而得到赛事文本摘要,减少了数据生成自然语言的步骤以及数据处理量,有助于提升文本生成效率,同时根据离散化的赛事结构化信息序列可以更好地分析出信息赛事信息的上下文信息,进而提升了文本生成准确性。
66.下面对本技术实施例示例性的各步骤进行说明:
67.s101、获取赛事结构化信息序列;所述赛事结构化信息序列中包括多个赛事描述信息以及每个赛事描述信息所属的赛事描述类型;
68.其中,所述赛事描述类型包括赛事结果类型、赛事参与者类型以及赛事时间类型中的至少一种。
69.在本技术实施例中,构成赛事结构化信息序列的数据全部都是赛事过程中的多个独立结构化数据,整条赛事结构化信息序列可以表征出一场赛事中的一个动作,或者是一场赛事中的多个动作。
70.在一种可能的实施方式中,在赛事结构化信息序列中可以包括赛事描述信息,用来表征整条赛事结构化信息描述的赛事信息,每个不同的赛事描述信息在赛事结构化信息序列中会与对应的赛事描述类型组合出现。赛事描述类型包括赛事结果类型、赛事参与者
类型以及赛事时间类型中的至少一种。
71.举例来说,以赛事是足球赛事为例,在一场足球赛事中可以从赛事直播贴等处获取到有关该场足球赛事的多条信息,以一条赛事结构化信息序列表征一个射门动作为例,可以针对于这个射门工作抽取出多个独立的结构化信息:助攻者(赛事参与者类型):a、射手(赛事参与者类型):b、进球(赛事结果类型)、时间(赛事时间类型):周五上午10点。
72.那么这个射门动作的赛事结构化信息序列可以表示为{助攻者:a、射手:b、进球、时间:周五上午10点}。
73.s102、将所述赛事结构化信息序列输入至预先训练好的文本生成模型中,以使所述文本生成模型根据每个赛事描述类型以及每个赛事描述信息,输出与每个赛事描述信息对应的预测文本序列,并根据所述赛事描述类型,确定多个预测文本序列的文本顺序。
74.在本技术实施例中,将步骤s101得到的赛事结构化信息序列输入至预先训练好的文本生成模型中,文本生成模型可以根据赛事结构化信息序列中包括的每个赛事描述类型以及每个赛事描述信息,输出与每个赛事描述想你想对应的包含上下文的预测文本序列,同时确定出每个预测文本的在最终要生成的摘要中的文本顺序。
75.在一种可能的实施方式中,文本生成模型包括序列嵌入层、序列编码层以及预测文本序列输出层。
76.在一种可能的实施方式中,训练好的文本生成模型可以根据输入的赛事结构化信息序列,直接进行自然语言处理,得到每个赛事描述信息的上下文信息,进而组合成对应的预测文本序列,通过多个赛事描述信息的预测文本序列,进而可以构成描述整个赛事关键信息的赛事摘要文本,下面将具体介绍文本生成模型对赛事结构化信息序列进行处理,生成多个预测文本序列,进而得到赛事摘要文本的过程。
77.请参阅图2,图2为本技术实施例所提供的另一种赛事摘要文本的生成方法的流程图。如图2中所示,步骤“将所述赛事结构化信息序列输入至预先训练好的文本生成模型中,以使所述文本生成模型根据每个赛事描述类型以及每个赛事描述信息,输出与每个赛事描述信息对应的预测文本序列”,包括:
78.s201、将所述赛事结构化信息序列输入至所述序列嵌入层,以使所述序列嵌入层分别对各个赛事描述类型、各个赛事描述信息以及各个赛事关键词在所述赛事结构化信息序列中的位置进行编码,输出每个赛事描述信息对应的编码序列。
79.在本技术实施例中,将赛事结构化信息序列输入至序列嵌入层中,在序列嵌入层中分别对赛事结构化信息序列中包括的赛事描述类型、各个赛事描述信息以及各个赛事关键词在赛事结构化信息序列中的位置进行编码,经过编码后的,序列嵌入层输出与每个赛事描述信息对应的编码序列。
80.在一种可能的实施方式中,对赛事结构化信息序列进行编码处理的目的在于,将赛事结构化信息序列通过离散化的embedding表示更能捕捉准确的信息,有助于后续生成预测文本序列的准确性。
81.在一种可能的实施例中,文本生成模型的序列嵌入层可以是使用transformer block作为编码器。
82.具体地,对于赛事结构化信息序列中的每一个结构化数据来说,可以采用独热(onehot)编码直接进行编码作为token embedding,得到编码后的编码序列。
83.对应于上述示例,针对于足球赛事来说,在对赛事结构化信息序列中的每一个结构化数据进行编码时,可以预先设置预设数量个赛事关键词(key):射手,助攻者,防守者,结果,射门位置,射门类型,时间,是否远射,是否死角,是否一条龙,是否内切,是否小角度;对于上述赛事关键词来说,除了赛事参与者类型中球员的名字以及赛事时间类型之外,对应的值一般是有限的,在对值有限的key进行编码时,不用真实的token编码而是考虑使用[unused_xx]离散化的编码,其余的直接从vocab词典从对token进行编码。
[0084]
结构化数据的所有key使用大小为13的子空间进行onehot离散编码,位置编码使用和unilm模型一致。所以,对于每一个token,其embedding表示为embed=te+pe+ke,其中te是token embedding,pe是位置embedding,ke是key embedding。
[0085]
s202、针对于每一个编码序列,将该编码序列输入至所述序列编码层,以使所述序列编码层对所述编码序列进行处理,并根据该编码序列中的赛事描述类型预测出该编码序列中包括的赛事描述信息的上下文信息,并根据上下文信息以及赛事描述信息,输出与该编码序列对应的至少一个候选文本序列。
[0086]
在本技术实施例中,针对于步骤s201的序列嵌入层编码处理后的编码序列来说,将该编码序列输入至序列编码层中,序列编码层针对于编码序列进行处理,在对编码序列处理(编解码)后,根据编码序列中的赛事描述类型预测出编码序列中包括的赛事描述信息的上下文信息,同时根据确定出的上下文信息以及赛事描述信息,输出与该编码序列对应的至少一个候选文本序列。
[0087]
其中,针对于每一个编码序列来说,经过序列编码层解码预测后的候选文本序列是包含该编码序列的赛事描述信息,且填充进相应词语后的文本序列。
[0088]
对应于上述示例,一个编码序列之前对应的赛事结构化信息序列是{助攻者:a、射手:b、进球、时间:周五上午10点},那么该编码序列对应的一个候选文本序列就可以是{球员b在球员a的助攻下,在周五上午10点时破门进球}。
[0089]
s203、针对于每一个编码序列,将该编码序列对应的至少一个候选文本序列输入至所述预测文本序列输出层,以使所述预测文本序列输出层从所述至少一个候选文本序列中筛选出该编码序列对应的预测文本序列。
[0090]
在本技术实施例中,针对于每一个编码序列来说,通过对上下文预测后,可能会产生不止一个对应的候选文本序列,这时需要对至少一个候选文本序列进行分析,得到最符合预测需求的预测文本序列,具体地,针对于每一个编码序列,在经过序列编码层进行编解码得到至少一个候选文本序列后,经过预测文本序列输出层对至少一个候选文本序列进行筛选,得到与该编码序列对应的预测文本序列。
[0091]
在一种可能的实施方式中,通过以下步骤从所述至少一个候选文本序列中筛选出该编码序列对应的预测文本序列:
[0092]
a1:将至少一个候选文本序列中预测得分最高的候选文本序列,确定为预测文本序列。
[0093]
具体地,针对于每一个编码序列时,在通过序列编码层进行预测时,在生成每个候选文本序列时,会对每一个候选文本序列计算出一个对应的预测得分,这个预测得分可以从一定程度上反应模型本身认为的每个预测文本序列的质量,因此,可以在对至少一个候选文本序列中筛选出预测得分最高的候选文本序列,确定为预测文本序列。
[0094]
a2:根据预测文本需求,将至少一个候选文本序列中满足预测需求的候选文本序列,确定为预测文本序列。
[0095]
具体地,对于不同的预测场景(不同预测赛事级别、不同预测赛事预测时间等),对于每次文本生成的需求可能也会存在一定的差异,因此,在对至少一个预测文本进行筛选时,可以根据预测文本需求,从至少一个候选文本序列中将满足预测需求的候选文本序列,确定为预测文本序列。
[0096]
其中,预测文本需求包括以下至少一种:预测文本长度、预测文本句式、赛事文本表述方式。
[0097]
具体地,预测文本长度可以是在生成赛事文本摘要时,可能会对文本字数上有一定的限制,因此,在生成单句文本时,也会尽量地去控制字数;预测文本句式可以是指文本的表达形式,这也与赛事文本摘要的整体风格要求相关,可能整体的赛事文本摘要是简洁叙事风格,那么在生成单句文本时,也会选择陈述句的句式来进行表述;赛事文本表述方式指的是整个赛事文本摘要采用的语种,在本技术实施例中的文本生成模型支持多语种摘要的生成,因此,若是需要将赛事文本摘要生成英文版本,那么在生成单句文本时,也会将英文版本的候选文本序列确定为预测文本序列。
[0098]
s103、根据得到的每个预测文本序列的文本顺序,拼接多个预测文本序列,得到赛事摘要文本,以根据所述赛事摘要文本获取赛事的关键信息。
[0099]
在本技术实施例中,将步骤s102得到的多个预测文本序列,按照每个预测文本序列对应的文本顺序,拼接得到赛事摘要文本,并根据得到的赛事摘要文本进行分析,得到赛事的关键信息。
[0100]
在一种可能的实施方式中,在拼接多个预测文本时,是需要按照顺序进行拼接的,以保证得到的赛事摘要文本的可读性。
[0101]
具体地,通过以下步骤确定预测文本序列的文本顺序:
[0102]
b1:针对于每一个预测文本序列,根据该预测文本序列对应的赛事描述类型与其他赛事描述类型之间的文本关联顺序,确定该预测文本序列的文本顺序。
[0103]
在本技术实施例中,针对于每一个预测文本序列,可以是根据该预设文本序列对应的赛事描述类型之间的文本关联顺序,确定出该预测文本序列的文本顺序。
[0104]
具体来说,在生成赛事摘要文本的时候,一般需要介绍赛事参与者、赛事时间以及赛事的结果,一般来说,赛事结果类型的赛事描述信息是在整段赛事摘要中每句话中比较靠后的位置,因此在拼接多个预测文本序列时,也是要将赛事结果类型对应的预测文本序列拼接在靠后的位置处。
[0105]
针对于上述示例,筛选出的一个预测文本序列为{球员b在球员a的助攻下,在本场比赛上半场完成进球};另一个预测文本序列为{下半时,球员c助攻球员d射入死角将比分扳平},那么,拼接后的摘要可以是“球员b在球员a的助攻下,在本场比赛上半场完成进球,而下半时,球员c助攻球员d射入死角将比分扳平,进入加时赛”等。
[0106]
在一种可能的实时方式中,在根据多个预测文本序列拼接生成赛事摘要文本后,可以从赛事摘要文本中获取到赛事关键信息,具体地,本技术实施例所提供的生成方法还包括:
[0107]
c1:对所述赛事摘要文本进行语义分析,确定出至少一个赛事关键词。
[0108]
在本技术实施例中,可以在得到赛事摘要文本后,通过自然语义分析,从赛事摘要文本中筛选出多个赛事关键词,这些赛事关键词有助于对比赛进程进行分析。
[0109]
在一种可能的实施方式中,需要提取出的赛事关键词可以是预先根据赛事分析需求进行设置的,在对赛事摘要文本进行分析时,可以根据赛事摘要文本中各个词汇与预先设置的赛事关键词的相似度进行计算,将相似度大于预设相似度阈值的词汇,确定为赛事摘要文本中的赛事关键词。
[0110]
具体地,赛事关键词包括但不限于:赛事结果、赛事比分、整场进球最多的球员姓名,进球时间等。
[0111]
c2:基于所述至少一个赛事关键词以及预设赛事分析规则,对赛事进行复盘分析。
[0112]
在本技术实施例中,根据步骤c1从赛事摘要文本中提取出的至少一个赛事关键词以及预设赛事分析规则,对整场比赛进行分析。
[0113]
其中,分析的角度以及方向包括但不限于赛事结果,本队在比赛中是输了还是赢了,具体比分是多少,对手队里在比赛中表现比较好的球员是谁等。
[0114]
在一种可能的实施方式中,针对于将赛事结构化信息转换成赛事摘要文本的文本生成模型,是需要根据语言模型进行训练得到,下面将具体介绍本技术实施例中对于文本生成模型的训练过程:
[0115]
具体地,请参阅图3,图3为本技术实施例所提供的另一种赛事摘要文本的生成方法的流程图。如图3中所示,通过以下步骤训练所述文本生成模型:
[0116]
s301、获取多个样本赛事结构化序列以及与多个样本赛事结构化序列对应的样本摘要文本;每个赛事结构化信息序列中包括多个样本赛事描述信息以及每个样本赛事描述信息所属的赛事描述类型。
[0117]
在本技术实施例中,在对文本生成模型进行训练时,需要获取到多个样本赛事结构化序列,以及每一个样本赛事结构化序列对应的样本摘要文本,同样的,为了构建的语言模型可以更好地学习到赛事结构化序列与赛事文本摘要之间的转换关系,同样的,在每个样本赛事结构化序列中也包括多个样本赛事描述信息以及每个样本赛事描述信息所属的赛事描述类型。
[0118]
s302、针对每个样本赛事结构化序列,确定出与该样本赛事结构化序列对应的参考样本序列;所述参考样本序列中包括多个参考标识信息,所述参考标识的数量与该样本赛事结构化序列中包括的样本赛事描述信息的数量相同。
[0119]
在本技术实施例中,针对于每一个样本赛事结构化序列,确定出与该样本赛事结构化序列对应的参考样本序列。
[0120]
其中,参考样本序列中包括多个参考标识信息,所述参考标识的数量与该样本赛事结构化序列中包括的样本赛事描述信息的数量相同,具体地,样本参考序列中包括的参考标识可以是[mask]。
[0121]
在本技术实施例中,为了保证训练好的文本生成模型的准确性,在对语言模型进行训练时,不光要让语言模型学习从结构化序列转换为文本摘要过程中的上下文信息,还需要得到文本摘要转换为结构化序列过程中的上下文信息,在训练过程中获取参考样本序列的目的就是辅助学习文本摘要转换为结构化序列时的上下文信息。
[0122]
s303、将所述多个样本赛事结构化序列、多个参考样本序列以及多个样本摘要文
本输入至预先构建好的语言模型中,以使语言模型通过样本赛事结构化序列转换到样本摘要文本的任务以及样本摘要文本转换到样本赛事结构化序列的任务,学习各个样本赛事描述信息的上下文信息,当所述语言模型的损失小于预设阈值时,确定所述语言模型训练完成,得到所述文本生成模型。
[0123]
在本技术实施例中,将获取到的多个样本赛事结构化序列、多个参考样本序列以及多个样本摘要文本输入至预先构建好的语言模型中,以使语言模型根据多个样本赛事结构化序列、多个参考样本序列以及多个样本摘要文本,通过样本赛事结构化序列转换到样本摘要文本的任务以及样本摘要文本转换到样本赛事结构化序列的任务,学习各个样本赛事描述信息的上下文信息,同时计算在各个学习任务过程中的损失值,当语言模型的损失小于预设阈值时,确定所述语言模型训练完成,得到所述文本生成模型。
[0124]
在一种可能的实施方式中,语言模型中也包括序列嵌入层、序列编码层,步骤“以使语言模型通过样本赛事结构化序列转换到样本摘要文本的任务以及样本摘要文本转换到样本赛事结构化序列的任务,学习各个样本赛事描述信息的上下文信息”,包括:
[0125]
d1:将所述多个样本赛事结构化序列、多个参考样本序列以及多个样本摘要文本输入至所述语言模型的序列嵌入层中,以使所述序列嵌入层输出每个样本赛事结构化序列对应的结构化编码序列、每个参考样本序列对应的参考编码序列以及每个样本摘要文本对应的文本编码。
[0126]
在本技术实施例中,将获取到的样本赛事结构化序列、参考样本序列以及多个样本摘要文本对应地输入到语言模型的序列嵌入层中,在序列嵌入层中分别对样本赛事结构化序列、参考样本序列以及多个样本摘要文本进行编码处理,得到每个样本赛事结构化序列对应的结构化编码序列、每个参考样本序列对应的参考编码序列以及每个样本摘要文本对应的文本编码。
[0127]
在一种可能的实施方式中,本技术实施例中训练所用的语言模型可以是统一框架的语言模型。
[0128]
具体地,可以使用transformer block作为序列嵌入层,举例来说,假设经过embedding之后的输入向量为{x1,x2…
,xk},k=2m+n,h0=[x1,x2,
…
,xk],第i层的编码表示为h
i+1
=transformerbloack(hi),对于第l层,多头attention的输出a表示为:
[0129][0130][0131][0132]
其中,是可学习的参数,m表示attention的矩阵。
[0133]
d2:将确定出的多个结构化编码序列、多个参考编码序列以及文本编码输入至所述语言模型的序列编码层,以使所述序列编码层根据预设的标识矩阵中对文本编码和/或结构化编码序列中的至少一个目标编码进行遮挡后的序列,对目标编码进行预测,确定各个样本赛事描述信息的上下文信息。
[0134]
在本技术实施例中,将步骤d1确定出的多个结构化编码序列、多个参考编码序列以及文本编码输入至自然编码语言模型的序列编码层,控制序列编码层根据预设标识矩阵中对于对文本编码和/或结构化编码序列中的至少一个目标编码进行遮挡后的序列,对目标编码进行预测,从而根据学习到的上下文信息,来对各个样本赛事描述信息的上下文信息进行预测。
[0135]
在一种可能的实施方式中,预设的标识矩阵用于表征结构化编码序列、参考编码序列以及文本编码之间的可见关系;根据结构化编码序列、参考编码序列以及文本编码之间的可见关系,拟合学习各个样本赛事描述信息的上下文信息。
[0136]
其中,可以是通过一个mask矩阵来表征序列之间的可见与不可见关系。
[0137]
具体地,在对所述语言模型进行训练的过程中,针对于每个结构化编码序列中的各个编码数据,每个数据均能够获取到其他编码数据;针对于每个参考编码序列中的各个参考编码数据,每个参考编码数据能够获取对应的文本编码;针对于每个文本编码中的各个文本编码数据,每个文本数据能够获取在序列中位置位于该文本数据之前的文本编码数据;其中,不可见的编码数据是待预测的数据。
[0138]
请参阅图4,图4为本技术实施例所提供的训练过程中标识矩阵的示意图,如图4中所示,s1为输入的样本赛事结构化序列;s2为输入的参考样本序列;s3为输入的样本摘要文本。在对自然编码语言模型进行训练的过程中,输入的s1是能双向的看到自己的每个位置的token,s3能单向的看到自己位置之前的token,也能看到s1的所有token。但是,对于s2是本算法构造的虚拟的输入,s2仅仅可见s3的所有token。
[0139]
在一种可能的实施方式中,对于各个赛事描述类型来说,可以分为固定描述类型以及可变描述类型,具体地,固定描述类型可以是赛事结果等赛场描述信息,对于赛事结果类型来说一般就是胜利、失败、进门等有限数量个描述信息,而对于赛事参与者类型以及赛事时间类型来说,却是不固定的,因此,对于可变描述类型来说,可以在对语言模型进行训练时再增加一层copy层来强化学习对应的上下文信息。
[0140]
具体地,所述生成方法还包括:
[0141]
f1:针对于每一个所述可变描述类型以及对应的样本赛事描述信息,将所述序列编码层输出的预测序列,输出至所述语言模型的信息复制层,以使所述信息复制层对该样本赛事描述信息进行预测学习,调整可变描述类型对应的样本赛事描述信息的上下文信息。
[0142]
在本技术实施例中,针对于每一个可变描述类型以及对应的样本赛事描述信息,将序列编码层输出的预测序列,再次输入至语言模型的信息复制层,在信息复制层中对样本赛事描述信息进行预测学习,进而调整可变描述类型对应的样本赛事描述信息的上下文信息,以更准确地学习到可变描述类型对应的样本赛事描述信息的上下文信息。
[0143]
值得注意的是,在对语言模型训练结束后,生成的文本生成模型,在进行模型预测时,mask矩阵就是一个正常的unilm的seq2seq模型的attention的矩阵,根据输入的赛事结构化信息序列,可以预测出对应的上下文信息,进而得到对应的预测文本序列。
[0144]
在一种可能的实施方式中,在对语言模型进行训练时,需要根据训练过程中的损失值来确定语言模型,因为在对语言模型进行训练时是样本赛事结构化序列转换到样本摘要文本以及样本摘要文本转换到样本赛事结构化序列两个任务,因此在计算语言模型的损
失值时,需要综合考虑上述两个任务的损失。
[0145]
具体地,通过以下步骤确定所述语言模型的损失:
[0146]
g1:针对于样本赛事结构化序列转换到样本摘要文本的任务,通过各个样本赛事结构化序列中的编码数据以及所述样本摘要文本对应的文本编码中被遮挡的编码,结合模型参数进行计算,确定第一损失值。
[0147]
具体地,第一损失值可以通过以下公式进行计算:
[0148]
loss1=∑ρ(s
3,i+1
|s1,s
3,1:i
,θ);
[0149]
其中,上述公式是一个seq2seq的自回归生成形式,对于第i+1个token通过样本赛事结构化序列的所有和样本摘要文本的第i+1之前的信息学习后面的信息学习,θ是模型的参数。
[0150]
g2:针对于样本摘要文本转换到样本赛事结构化序列的任务,通过各个样本赛事结构化序列中的编码数据、所述样本摘要文本对应的文本编码中被遮挡的编码以及所述参考编码序列中被遮挡的编码,结合模型参数进行计算,确定第二损失值。
[0151]
具体地,第二损失值可以通过以下公式进行计算:
[0152]
loss2=ρ(s1|s3,s2,θ);
[0153]
其中,θ是模型的参数。
[0154]
g3:将所述第一损失值与所述第二损失值进行加权计算,确定所述语言模型的损失。
[0155]
具体地,语言模型的损失可以通过以下公式进行计算:
[0156]
loss=loss1+λloss2;
[0157]
其中,λ是超参数,用于调节多任务的权重,可以具体根据多任务之间的对于模型训练的侧重,以及对模型的训练需求进行设置。
[0158]
在一种可能的实施方式中,通过比对现有技术中输入经过自然语义处理的文本后,模型的文本预测结果,以及本技术实施例中所述的输入离散化的赛事结构化信息序列后,模型的文本预测结果可知,本技术实施例中的方案在准确性上有比较显著的提高。
[0159]
举例来说,得到的赛事结构化信息序列为:{"shooter":"球员br","team":"b队","assistor":"球员abe","result":"进球","time":"8:27"};{"shooter":"球员va","team":"a队","result":"射门","time":"补时47:37"};{"shooter":"球员da","team":"a队","result":"中柱","time":"55:51"};{"shooter":"球员abe","team":"b队","assistor":"球员fi","result":"进球","types":"单刀","time":"58:58"};{"shooter":"球员mar","team":"a队","assistor":"球员da","result":"进球","types":["死角"],"time":"64:58"}。
[0160]
经过本技术实施例中的文本生成模型处理后,得到的赛事摘要文本为:上半时,球员br的破门为b队先拔头筹,补时阶段球员va破门将比分扳平。下半时,球员da射门可惜击中了门柱,3分钟后球员fi助攻球员abe单刀破门再次将比分领先,球员da助攻球员mar射入死角将比分扳平。全场战罢,a队2:2战平b队。
[0161]
本技术实施例提供的赛事摘要文本的生成方法,获取到包含多个赛事描述信息以及每个赛事描述信息所属的赛事描述类型的赛事结构化信息序列;将赛事结构化信息序列输入至预先训练好的文本生成模型中,以使文本生成模型根据每个赛事描述类型以及每个
赛事描述信息,输出与每个赛事描述信息对应的预测文本序列,并根据赛事描述类型,确定多个预测文本序列的文本顺序;根据得到的每个预测文本序列的文本顺序,拼接多个预测文本序列,得到赛事摘要文本,以根据所述赛事摘要文本获取赛事的关键信息。在本技术实施例中,直接将获取到的赛事结构化信息序列输入至文本生成模型中,通过文本生成模型对结构化数据的处理,得到预测文本序列,进而得到赛事文本摘要,减少了数据生成自然语言的步骤以及数据处理量,有助于提升文本生成效率,同时根据离散化的赛事结构化信息序列可以更好地分析出信息赛事信息的上下文信息,进而提升了文本生成准确性。
[0162]
基于同一发明构思,本技术实施例中还提供了与赛事摘要文本的生成方法对应的赛事摘要文本的生成装置,由于本技术实施例中的装置解决问题的原理与本技术实施例上述赛事摘要文本的生成方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
[0163]
请参阅图5、图6,图5为本技术实施例所提供的一种赛事摘要文本的生成装置的结构示意图之一,图6为本技术实施例所提供的一种赛事摘要文本的生成装置的结构示意图之二。如图5中所示,所述生成装置500包括:
[0164]
信息序列获取模块510,用于获取赛事结构化信息序列;所述赛事结构化信息序列中包括多个赛事描述信息以及每个赛事描述信息所属的赛事描述类型;所述赛事描述类型包括赛事结果类型、赛事参与者类型以及赛事时间类型中的至少一种;
[0165]
文本序列生成模块520,用于将所述赛事结构化信息序列输入至预先训练好的文本生成模型中,以使所述文本生成模型根据每个赛事描述类型以及每个赛事描述信息,输出与每个赛事描述信息对应的预测文本序列,并根据所述赛事描述类型,确定多个预测文本序列的文本顺序;
[0166]
摘要文本生成模块530,用于根据得到的每个预测文本序列的文本顺序,拼接多个预测文本序列,得到赛事摘要文本,以根据所述赛事摘要文本获取赛事的关键信息。
[0167]
在一种可能的实施方式中,如图6所示,所述生成装置500还包括模型训练模块540,所述模型训练模块540用于:
[0168]
获取多个样本赛事结构化序列以及与多个样本赛事结构化序列对应的样本摘要文本;每个样本赛事结构化序列中包括多个样本赛事描述信息以及每个样本赛事描述信息所属的赛事描述类型;
[0169]
针对每个样本赛事结构化序列,确定出与该样本赛事结构化序列对应的参考样本序列;所述参考样本序列中包括多个参考标识信息,所述参考标识的数量与该样本赛事结构化序列中包括的样本赛事描述信息的数量相同;
[0170]
将所述多个样本赛事结构化序列、多个参考样本序列以及多个样本摘要文本输入至预先构建好的语言模型中,以使语言模型通过样本赛事结构化序列转换到样本摘要文本的任务以及样本摘要文本转换到样本赛事结构化序列的任务,学习各个样本赛事描述信息的上下文信息,当所述语言模型的损失小于预设阈值时,确定所述语言模型训练完成,得到所述文本生成模型。
[0171]
在一种可能的实施方式中,如图6所示,所述生成装置500还包括信息学习模块550,所述信息学习模块550用于:
[0172]
针对于每一个所述可变描述类型以及对应的样本赛事描述信息,将所述序列编码
层输出的预测序列,输入至所述语言模型的信息复制层,以使所述信息复制层对该样本赛事描述信息进行预测学习,调整可变描述类型对应的样本赛事描述信息的上下文信息。
[0173]
在一种可能的实施方式中,如图6所示,所述生成装置500还包括赛事分析模块560,所述赛事分析模块560用于:
[0174]
对所述赛事摘要文本进行语义分析,确定出至少一个赛事关键词;
[0175]
基于所述至少一个赛事关键词以及预设赛事分析规则,对赛事进行复盘分析。
[0176]
在一种可能的实施方式中,所述文本生成模型包括序列嵌入层、序列编码层以及预测文本序列输出层,所述文本序列生成模块520在用于将所述赛事结构化信息序列输入至预先训练好的文本生成模型中,以使所述文本生成模型根据每个赛事描述类型以及每个赛事描述信息,输出与每个赛事描述信息对应的预测文本序列时,所述文本序列生成模块520用于:
[0177]
将所述赛事结构化信息序列输入至所述序列嵌入层,以使所述序列嵌入层分别对各个赛事描述类型、各个赛事描述信息以及各个赛事关键词在所述赛事结构化信息序列中的位置进行编码,输出每个赛事描述信息对应的编码序列;
[0178]
针对于每一个编码序列,将该编码序列输入至所述序列编码层,以使所述序列编码层对所述编码序列进行处理,并根据该编码序列中的赛事描述类型预测出该编码序列中包括的赛事描述信息的上下文信息,并根据上下文信息以及赛事描述信息,输出与该编码序列对应的至少一个候选文本序列;
[0179]
针对于每一个编码序列,将该编码序列对应的至少一个候选文本序列输入至所述预测文本序列输出层,以使所述预测文本序列输出层从所述至少一个候选文本序列中筛选出该编码序列对应的预测文本序列。
[0180]
在一种可能的实施方式中,所述文本序列生成模块520用于通过以下步骤从所述至少一个候选文本序列中筛选出该编码序列对应的预测文本序列:
[0181]
将至少一个候选文本序列中预测得分最高的候选文本序列,确定为预测文本序列;或者;
[0182]
根据预测文本需求,将至少一个候选文本序列中满足预测需求的候选文本序列,确定为预测文本序列。
[0183]
在一种可能的实施方式中,所述预测文本需求包括以下至少一种:
[0184]
预测文本长度、预测文本句式、赛事文本表述方式。
[0185]
在一种可能的实施方式中,所述文本序列生成模块520用于通过以下步骤确定预测文本序列的文本顺序:
[0186]
针对于每一个预测文本序列,根据该预测文本序列对应的赛事描述类型与其他赛事描述类型之间的文本关联顺序,确定该预测文本序列的文本顺序。
[0187]
在一种可能的实施方式中,所述模型训练模块540在用于以使语言模型通过样本赛事结构化序列转换到样本摘要文本的任务以及样本摘要文本转换到样本赛事结构化序列的任务,学习各个样本赛事描述信息的上下文信息时,所述模型训练模块540用于:
[0188]
将所述多个样本赛事结构化序列、多个参考样本序列以及多个样本摘要文本输入至所述语言模型的序列嵌入层中,以使所述序列嵌入层输出每个样本赛事结构化序列对应的结构化编码序列、每个参考样本序列对应的参考编码序列以及每个样本摘要文本对应的
文本编码;
[0189]
将确定出的多个结构化编码序列、多个参考编码序列以及文本编码输入至所述语言模型的序列编码层,以使所述序列编码层根据预设的标识矩阵中对文本编码和/或结构化编码序列中的至少一个目标编码进行遮挡后的序列,对目标编码进行预测,确定各个样本赛事描述信息的上下文信息。
[0190]
在一种可能的实施方式中,所述预设的标识矩阵用于表征结构化编码序列、参考编码序列以及文本编码之间的可见关系;根据结构化编码序列、参考编码序列以及文本编码之间的可见关系,拟合学习各个样本赛事描述信息的上下文信息;
[0191]
在对所述语言模型进行训练的过程中,针对于每个结构化编码序列中的各个编码数据,每个数据均能够获取到其他编码数据;
[0192]
针对于每个参考编码序列中的各个参考编码数据,每个参考编码数据能够获取对应的文本编码;
[0193]
针对于每个文本编码中的各个文本编码数据,每个文本数据能够获取在序列中位置位于该文本数据之前的文本编码数据;
[0194]
其中,不可见的编码数据是待预测的数据。
[0195]
在一种可能的实施方式中,所述模型训练模块540用于通过以下步骤确定所述语言模型的损失:
[0196]
针对于样本赛事结构化序列转换到样本摘要文本的任务,通过各个样本赛事结构化序列中的编码数据以及所述样本摘要文本对应的文本编码中被遮挡的编码,结合模型参数进行计算,确定第一损失值;
[0197]
针对于样本摘要文本转换到样本赛事结构化序列的任务,通过各个样本赛事结构化序列中的编码数据、所述样本摘要文本对应的文本编码中被遮挡的编码以及所述参考编码序列中被遮挡的编码,结合模型参数进行计算,确定第二损失值;
[0198]
将所述第一损失值与所述第二损失值进行加权计算,确定所述语言模型的损失。
[0199]
本技术实施例提供的赛事摘要文本的生成装置,获取到包含多个赛事描述信息以及每个赛事描述信息所属的赛事描述类型的赛事结构化信息序列;将赛事结构化信息序列输入至预先训练好的文本生成模型中,以使文本生成模型根据每个赛事描述类型以及每个赛事描述信息,输出与每个赛事描述信息对应的预测文本序列,并根据赛事描述类型,确定多个预测文本序列的文本顺序;根据得到的每个预测文本序列的文本顺序,拼接多个预测文本序列,得到赛事摘要文本,以根据所述赛事摘要文本获取赛事的关键信息。在本技术实施例中,直接将获取到的赛事结构化信息序列输入至文本生成模型中,通过文本生成模型对结构化数据的处理,得到预测文本序列,进而得到赛事文本摘要,减少了数据生成自然语言的步骤以及数据处理量,有助于提升文本生成效率,同时根据离散化的赛事结构化信息序列可以更好地分析出信息赛事信息的上下文信息,进而提升了文本生成准确性。
[0200]
请参阅图7,图7为本技术实施例所提供的一种电子设备的结构示意图。如图7中所示,所述电子设备700包括:处理器710、存储介质720和总线730,所述存储介质720存储有所述处理器710可执行的机器可读指令,当电子设备运行如实施例中的一种控制方法时,所述处理器710与所述存储介质720之间通过总线730通信,所述处理器710执行所述机器可读指令,所述处理器710方法项的前序部分,以执行以下步骤:
[0201]
获取赛事结构化信息序列;所述赛事结构化信息序列中包括多个赛事描述信息以及每个赛事描述信息所属的赛事描述类型;所述赛事描述类型包括赛事结果类型、赛事参与者类型以及赛事时间类型中的至少一种;
[0202]
将所述赛事结构化信息序列输入至预先训练好的文本生成模型中,以使所述文本生成模型根据每个赛事描述类型以及每个赛事描述信息,输出与每个赛事描述信息对应的预测文本序列,并根据所述赛事描述类型,确定多个预测文本序列的文本顺序;
[0203]
根据得到的每个预测文本序列的文本顺序,拼接多个预测文本序列,得到赛事摘要文本,以根据所述赛事摘要文本获取赛事的关键信息。
[0204]
在一个可行的实施方案,所述文本生成模型包括序列嵌入层、序列编码层以及预测文本序列输出层,所述处理器710在用于所述将所述赛事结构化信息序列输入至预先训练好的文本生成模型中,以使所述文本生成模型根据每个赛事描述类型以及每个赛事描述信息,输出与每个赛事描述信息对应的预测文本序列时,所述处理器710用于:
[0205]
将所述赛事结构化信息序列输入至所述序列嵌入层,以使所述序列嵌入层分别对各个赛事描述类型、各个赛事描述信息以及各个赛事关键词在所述赛事结构化信息序列中的位置进行编码,输出每个赛事描述信息对应的编码序列;
[0206]
针对于每一个编码序列,将该编码序列输入至所述序列编码层,以使所述序列编码层对所述编码序列进行处理,并根据该编码序列中的赛事描述类型预测出该编码序列中包括的赛事描述信息的上下文信息,并根据上下文信息以及赛事描述信息,输出与该编码序列对应的至少一个候选文本序列;
[0207]
针对于每一个编码序列,将该编码序列对应的至少一个候选文本序列输入至所述预测文本序列输出层,以使所述预测文本序列输出层从所述至少一个候选文本序列中筛选出该编码序列对应的预测文本序列。
[0208]
在一个可行的实施方案,所述处理器710用于通过以下步骤从所述至少一个候选文本序列中筛选出该编码序列对应的预测文本序列:
[0209]
将至少一个候选文本序列中预测得分最高的候选文本序列,确定为预测文本序列;或者;
[0210]
根据预测文本需求,将至少一个候选文本序列中满足预测需求的候选文本序列,确定为预测文本序列。
[0211]
在一个可行的实施方案,所述预测文本需求包括以下至少一种:
[0212]
预测文本长度、预测文本句式、赛事文本表述方式。
[0213]
在一个可行的实施方案,所述处理器710用于通过以下步骤确定预测文本序列的文本顺序:
[0214]
针对于每一个预测文本序列,根据该预测文本序列对应的赛事描述类型与其他赛事描述类型之间的文本关联顺序,确定该预测文本序列的文本顺序。
[0215]
在一个可行的实施方案,所述处理器710用于通过以下步骤训练所述文本生成模型:
[0216]
获取多个样本赛事结构化序列以及与多个样本赛事结构化序列对应的样本摘要文本;每个样本赛事结构化序列中包括多个样本赛事描述信息以及每个样本赛事描述信息所属的赛事描述类型;
[0217]
针对每个样本赛事结构化序列,确定出与该样本赛事结构化序列对应的参考样本序列;所述参考样本序列中包括多个参考标识信息,所述参考标识的数量与该样本赛事结构化序列中包括的样本赛事描述信息的数量相同;
[0218]
将所述多个样本赛事结构化序列、多个参考样本序列以及多个样本摘要文本输入至预先构建好的语言模型中,以使语言模型通过样本赛事结构化序列转换到样本摘要文本的任务以及样本摘要文本转换到样本赛事结构化序列的任务,学习各个样本赛事描述信息的上下文信息,当所述语言模型的损失小于预设阈值时,确定所述语言模型训练完成,得到所述文本生成模型。
[0219]
在一个可行的实施方案,所述处理器710在用于以使语言模型通过样本赛事结构化序列转换到样本摘要文本的任务以及样本摘要文本转换到样本赛事结构化序列的任务,学习各个样本赛事描述信息的上下文信息时,所述处理器710用于:
[0220]
将所述多个样本赛事结构化序列、多个参考样本序列以及多个样本摘要文本输入至所述语言模型的序列嵌入层中,以使所述序列嵌入层输出每个样本赛事结构化序列对应的结构化编码序列、每个参考样本序列对应的参考编码序列以及每个样本摘要文本对应的文本编码;
[0221]
将确定出的多个结构化编码序列、多个参考编码序列以及文本编码输入至所述语言模型的序列编码层,以使所述序列编码层根据预设的标识矩阵中对文本编码和/或结构化编码序列中的至少一个目标编码进行遮挡后的序列,对目标编码进行预测,确定各个样本赛事描述信息的上下文信息。
[0222]
在一个可行的实施方案,所述赛事描述类型包括固定描述类型以及可变描述类型,所述处理器710还用于:
[0223]
针对于每一个所述可变描述类型以及对应的样本赛事描述信息,将所述序列编码层输出的预测序列,输入至所述语言模型的信息复制层,以使所述信息复制层对该样本赛事描述信息进行预测学习,调整可变描述类型对应的样本赛事描述信息的上下文信息。
[0224]
在一个可行的实施方案,所述预设的标识矩阵用于表征结构化编码序列、参考编码序列以及文本编码之间的可见关系;根据结构化编码序列、参考编码序列以及文本编码之间的可见关系,拟合学习各个样本赛事描述信息的上下文信息;
[0225]
在对所述语言模型进行训练的过程中,针对于每个结构化编码序列中的各个编码数据,每个数据均能够获取到其他编码数据;
[0226]
针对于每个参考编码序列中的各个参考编码数据,每个参考编码数据能够获取对应的文本编码;
[0227]
针对于每个文本编码中的各个文本编码数据,每个文本数据能够获取在序列中位置位于该文本数据之前的文本编码数据;
[0228]
其中,不可见的编码数据是待预测的数据。
[0229]
在一个可行的实施方案,所述处理器710用于通过以下步骤确定所述语言模型的损失:
[0230]
针对于样本赛事结构化序列转换到样本摘要文本的任务,通过各个样本赛事结构化序列中的编码数据以及所述样本摘要文本对应的文本编码中被遮挡的编码,结合模型参数进行计算,确定第一损失值;
[0231]
针对于样本摘要文本转换到样本赛事结构化序列的任务,通过各个样本赛事结构化序列中的编码数据、所述样本摘要文本对应的文本编码中被遮挡的编码以及所述参考编码序列中被遮挡的编码,结合模型参数进行计算,确定第二损失值;
[0232]
将所述第一损失值与所述第二损失值进行加权计算,确定所述语言模型的损失。
[0233]
在一个可行的实施方案,所述处理器710还用于:
[0234]
对所述赛事摘要文本进行语义分析,确定出至少一个赛事关键词;
[0235]
基于所述至少一个赛事关键词以及预设赛事分析规则,对赛事进行复盘分析。
[0236]
通过上述方式,通过获取到的赛事结构化信息序列可以准确地得到相关赛事的多个赛事描述信息以及各个赛事描述类型,通过直接将赛事结构化信息序列输入至文本生成模型中,通过文本生成模型对结构化数据的处理,得到预测文本序列,进而得到赛事文本摘要,减少了数据生成自然语言的步骤以及数据处理量,有助于提升文本生成效率,同时根据离散化的赛事结构化信息序列可以更好地分析出信息赛事信息的上下文信息,进而提升了文本生成准确性;同时在对文本生成模型进行训练的过程中,通过样本赛事结构化序列转换到样本摘要文本的任务以及样本摘要文本转换到样本赛事结构化序列的任务,双向学习序列与文本之间的关系,有助于提升由赛事结构化序列得到赛事摘要文本的准确性。
[0237]
本技术实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行,所述处理器执行以下步骤:
[0238]
获取赛事结构化信息序列;所述赛事结构化信息序列中包括多个赛事描述信息以及每个赛事描述信息所属的赛事描述类型;所述赛事描述类型包括赛事结果类型、赛事参与者类型以及赛事时间类型中的至少一种;
[0239]
将所述赛事结构化信息序列输入至预先训练好的文本生成模型中,以使所述文本生成模型根据每个赛事描述类型以及每个赛事描述信息,输出与每个赛事描述信息对应的预测文本序列,并根据所述赛事描述类型,确定多个预测文本序列的文本顺序;
[0240]
根据得到的每个预测文本序列的文本顺序,拼接多个预测文本序列,得到赛事摘要文本,以根据所述赛事摘要文本获取赛事的关键信息。
[0241]
在一个可行的实施方案,所述文本生成模型包括序列嵌入层、序列编码层以及预测文本序列输出层,所述处理器在用于所述将所述赛事结构化信息序列输入至预先训练好的文本生成模型中,以使所述文本生成模型根据每个赛事描述类型以及每个赛事描述信息,输出与每个赛事描述信息对应的预测文本序列时,所述处理器用于:
[0242]
将所述赛事结构化信息序列输入至所述序列嵌入层,以使所述序列嵌入层分别对各个赛事描述类型、各个赛事描述信息以及各个赛事关键词在所述赛事结构化信息序列中的位置进行编码,输出每个赛事描述信息对应的编码序列;
[0243]
针对于每一个编码序列,将该编码序列输入至所述序列编码层,以使所述序列编码层对所述编码序列进行处理,并根据该编码序列中的赛事描述类型预测出该编码序列中包括的赛事描述信息的上下文信息,并根据上下文信息以及赛事描述信息,输出与该编码序列对应的至少一个候选文本序列;
[0244]
针对于每一个编码序列,将该编码序列对应的至少一个候选文本序列输入至所述预测文本序列输出层,以使所述预测文本序列输出层从所述至少一个候选文本序列中筛选出该编码序列对应的预测文本序列。
[0245]
在一个可行的实施方案,所述处理器用于通过以下步骤从所述至少一个候选文本序列中筛选出该编码序列对应的预测文本序列:
[0246]
将至少一个候选文本序列中预测得分最高的候选文本序列,确定为预测文本序列;或者;
[0247]
根据预测文本需求,将至少一个候选文本序列中满足预测需求的候选文本序列,确定为预测文本序列。
[0248]
在一个可行的实施方案,所述预测文本需求包括以下至少一种:
[0249]
预测文本长度、预测文本句式、赛事文本表述方式。
[0250]
在一个可行的实施方案,所述处理器用于通过以下步骤确定预测文本序列的文本顺序:
[0251]
针对于每一个预测文本序列,根据该预测文本序列对应的赛事描述类型与其他赛事描述类型之间的文本关联顺序,确定该预测文本序列的文本顺序。
[0252]
在一个可行的实施方案,所述处理器用于通过以下步骤训练所述文本生成模型:
[0253]
获取多个样本赛事结构化序列以及与多个样本赛事结构化序列对应的样本摘要文本;每个样本赛事结构化序列中包括多个样本赛事描述信息以及每个样本赛事描述信息所属的赛事描述类型;
[0254]
针对每个样本赛事结构化序列,确定出与该样本赛事结构化序列对应的参考样本序列;所述参考样本序列中包括多个参考标识信息,所述参考标识的数量与该样本赛事结构化序列中包括的样本赛事描述信息的数量相同;
[0255]
将所述多个样本赛事结构化序列、多个参考样本序列以及多个样本摘要文本输入至预先构建好的语言模型中,以使语言模型通过样本赛事结构化序列转换到样本摘要文本的任务以及样本摘要文本转换到样本赛事结构化序列的任务,学习各个样本赛事描述信息的上下文信息,当所述语言模型的损失小于预设阈值时,确定所述语言模型训练完成,得到所述文本生成模型。
[0256]
在一个可行的实施方案,所述处理器在用于以使语言模型通过样本赛事结构化序列转换到样本摘要文本的任务以及样本摘要文本转换到样本赛事结构化序列的任务,学习各个样本赛事描述信息的上下文信息时,所述处理器用于:
[0257]
将所述多个样本赛事结构化序列、多个参考样本序列以及多个样本摘要文本输入至所述语言模型的序列嵌入层中,以使所述序列嵌入层输出每个样本赛事结构化序列对应的结构化编码序列、每个参考样本序列对应的参考编码序列以及每个样本摘要文本对应的文本编码;
[0258]
将确定出的多个结构化编码序列、多个参考编码序列以及文本编码输入至所述语言模型的序列编码层,以使所述序列编码层根据预设的标识矩阵中对文本编码和/或结构化编码序列中的至少一个目标编码进行遮挡后的序列,对目标编码进行预测,确定各个样本赛事描述信息的上下文信息。
[0259]
在一个可行的实施方案,所述赛事描述类型包括固定描述类型以及可变描述类型,所述处理器还用于:
[0260]
针对于每一个所述可变描述类型以及对应的样本赛事描述信息,将所述序列编码层输出的预测序列,输入至所述语言模型的信息复制层,以使所述信息复制层对该样本赛
事描述信息进行预测学习,调整可变描述类型对应的样本赛事描述信息的上下文信息。
[0261]
在一个可行的实施方案,所述预设的标识矩阵用于表征结构化编码序列、参考编码序列以及文本编码之间的可见关系;根据结构化编码序列、参考编码序列以及文本编码之间的可见关系,拟合学习各个样本赛事描述信息的上下文信息;
[0262]
在对所述语言模型进行训练的过程中,针对于每个结构化编码序列中的各个编码数据,每个数据均能够获取到其他编码数据;
[0263]
针对于每个参考编码序列中的各个参考编码数据,每个参考编码数据能够获取对应的文本编码;
[0264]
针对于每个文本编码中的各个文本编码数据,每个文本数据能够获取在序列中位置位于该文本数据之前的文本编码数据;
[0265]
其中,不可见的编码数据是待预测的数据。
[0266]
在一个可行的实施方案,所述处理器用于通过以下步骤确定所述语言模型的损失:
[0267]
针对于样本赛事结构化序列转换到样本摘要文本的任务,通过各个样本赛事结构化序列中的编码数据以及所述样本摘要文本对应的文本编码中被遮挡的编码,结合模型参数进行计算,确定第一损失值;
[0268]
针对于样本摘要文本转换到样本赛事结构化序列的任务,通过各个样本赛事结构化序列中的编码数据、所述样本摘要文本对应的文本编码中被遮挡的编码以及所述参考编码序列中被遮挡的编码,结合模型参数进行计算,确定第二损失值;
[0269]
将所述第一损失值与所述第二损失值进行加权计算,确定所述语言模型的损失。
[0270]
在一个可行的实施方案,所述处理器还用于:
[0271]
对所述赛事摘要文本进行语义分析,确定出至少一个赛事关键词;
[0272]
基于所述至少一个赛事关键词以及预设赛事分析规则,对赛事进行复盘分析。
[0273]
通过上述方式,通过获取到的赛事结构化信息序列可以准确地得到相关赛事的多个赛事描述信息以及各个赛事描述类型,通过直接将赛事结构化信息序列输入至文本生成模型中,通过文本生成模型对结构化数据的处理,得到预测文本序列,进而得到赛事文本摘要,减少了数据生成自然语言的步骤以及数据处理量,有助于提升文本生成效率,同时根据离散化的赛事结构化信息序列可以更好地分析出信息赛事信息的上下文信息,进而提升了文本生成准确性;同时在对文本生成模型进行训练的过程中,通过样本赛事结构化序列转换到样本摘要文本的任务以及样本摘要文本转换到样本赛事结构化序列的任务,双向学习序列与文本之间的关系,有助于提升由赛事结构化序列得到赛事摘要文本的准确性。
[0274]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0275]
在本技术所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0276]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0277]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0278]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0279]
最后应说明的是:以上所述实施例,仅为本技术的具体实施方式,用以说明本技术的技术方案,而非对其限制,本技术的保护范围并不局限于此,尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本技术实施例技术方案的精神和范围,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。