标题生成模型的训练方法和标题生成方法、装置和介质与流程

文档序号：34596076发布日期：2023-06-28 20:42阅读：38来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本说明书涉及计算机，尤其涉及一种标题生成模型的训练方法、标题生成方法、装置、存储介质及电子设备。

背景技术：

1、随着计算机技术的发展，越来越多的用户会通过观看直播的方式来进行学习，比如，用户可以通过观看金融服务平台开设的直播来学习金融知识。在用户错过某场直播的情况下，金融服务平台也会提供直播回放服务，用户通过观看直播回放视频也能够学习金融知识。

2、相关技术中，由于直播回放视频的时间较长且通常会携带一些无效信息，技术人员往往会将直播回放视频切分为多个视频片段，为多个视频片段手动设置标题，通过标题来吸引用户观看对应的视频片段，从而节省用户的时间。

3、但是，这种手动设置标题的方式效率较低，亟须一种更加智能化的标题生成方法。

技术实现思路

1、本说明书提供一种标题生成模型的训练方法、标题生成方法、装置、存储介质及电子设备，能够训练一个标题生成模型来生成视频片段的标题，提高为视频片段设置标题的效率。

2、一方面，本说明书实施例提供一种标题生成模型的训练方法，包括：

3、获取样本视频片段的训练文本，所述训练文本包括所述样本视频片段的样本拆条文本和所述样本拆条文本的前缀文本，所述前缀文本为被遮罩所述样本拆条文本中标注关键词的文本；

4、将所述训练文本输入标题生成模型，通过所述标题生成模型，基于注意力机制对所述训练文本进行编码，得到所述训练文本的语义特征；

5、通过所述标题生成模型，基于所述训练文本的语义特征进行预测，输出所述样本拆条文本中的预测关键词以及所述样本视频片段的预测标题；

6、基于所述预测关键词与所述标注关键词之间的第一差异信息，以及所述预测标题与所述样本视频片段的标注标题之间的第二差异信息，对所述标题生成模型进行训练。

7、在一种可能的实施方式中，所述通过所述标题生成模型，基于注意力机制对所述训练文本进行编码，得到所述训练文本的语义特征包括：

8、通过所述标题生成模型，将所述前缀文本中的字符配置为全局注意力字符，将所述样本拆条文本中的字符配置为局部注意力字符，所述全局注意力字符表示与所述训练文本中全部字符进行注意力运算的字符，所述局部注意力字符表示与所述训练文本中部分字符进行注意力运算的字符；

9、通过所述标题生成模型，对所述训练文本中多个字符进行注意力编码，得到所述训练文本中多个字符的注意力特征；将所述多个字符的注意力特征进行融合，得到所述训练文本的语义特征。

10、在一种可能的实施方式中，所述对所述训练文本中多个字符进行注意力编码，得到所述训练文本中多个字符的注意力特征包括：

11、对于所述多个字符中的任一字符，在所述字符属于所述前缀文本的情况下，确定所述字符与所述训练文本中其他字符之间的第一注意力权重；基于所述字符以及所述第一注意力权重，确定所述字符的注意力特征；

12、在所述字符属于所述样本拆条文本的情况下，确定所述字符与所述训练文本中的参考字符之间的第二注意力权重，所述参考字符是所述训练文本中所述字符周围的字符；基于所述字符以及所述第二注意力权重，确定所述字符的注意力特征。

13、在一种可能的实施方式中，所述在所述字符属于所述样本拆条文本的情况下，确定所述字符与所述训练文本中的参考字符之间的第二注意力权重包括：

14、在所述字符属于所述样本拆条文本的情况下，确定覆盖所述字符时滑动窗口中的所述参考字符，所述滑动窗口在所述训练文本上进行滑动；

15、确定所述字符的查询矩阵以及所述参考字符的键矩阵；

16、基于所述字符的查询矩阵以及所述参考字符的键矩阵，确定所述字符与所述训练文本中的参考字符之间的第二注意力权重。

17、在一种可能的实施方式中，所述通过所述标题生成模型，基于所述训练文本的语义特征进行预测，输出所述样本拆条文本中的预测关键词以及所述样本视频片段的预测标题包括：

18、通过所述标题生成模型，对所述训练文本的语义特征进行全连接和归一化，输出所述样本拆条文本中的预测关键词；

19、通过所述标题生成模型，基于所述训练文本的语义特征进行多轮迭代解码，输出所述样本视频片段的预测标题。

20、在一种可能的实施方式中，所述通过所述标题生成模型，基于所述训练文本的语义特征进行多轮迭代解码，输出所述样本视频片段的预测标题包括：

21、在第一轮迭代过程中，通过所述标题生成模型，基于所述训练文本的语义特征和开始字符进行迭代，输出所述样本视频片段的预测标题中的第一个字符；

22、在其他轮迭代过程中，通过所述标题生成模型，基于所述训练文本的语义特征和上轮迭代输出的字符，输出本轮迭代对应的字符。

23、在一种可能的实施方式中，所述基于所述预测关键词与所述标注关键词之间的第一差异信息，以及所述预测标题与所述样本视频片段的标注标题之间的第二差异信息，对所述标题生成模型进行训练包括：

24、基于所述第一差异信息和所述第二差异信息构建联合损失函数；

25、基于所述联合损失函数对所述标题生成模型进行训练。

26、在一种可能的实施方式中，所述样本拆条文本的标注关键词的获取方法包括：

27、对所述样本视频片段的样本拆条文本进行关键词识别，得到所述样本拆条文本的标注关键词。

28、一方面，本说明书实施例提供一种标题生成方法，包括：

29、获取目标视频片段的拆条文本，所述目标视频片段是对视频进行拆条后得到的；

30、将所述拆条文本输入标题生成模型，通过所述标题生成模型，基于注意力机制对所述拆条文本进行编码，得到所述拆条文本的语义特征；

31、通过所述标题生成模型，基于所述拆条文本的语义特征进行预测，输出所述目标视频片段的标题；

32、其中，所述标题生成模型是基于样本视频片段的训练文本、所述样本视频片段的标注标题以及所述训练文本中样本拆条文本的标注关键词训练得到的，所述训练文本还包括所述样本拆条文本的前缀文本，所述前缀文本为被遮罩所述样本拆条文本中所述标注关键词的文本。

33、在一种可能的实施方式中，所述通过所述标题生成模型，基于注意力机制对所述拆条文本进行编码，得到所述拆条文本的语义特征之后，所述方法还包括：

34、通过所述标题生成模型，基于所述拆条文本的语义特征进行预测，输出所述拆条文本中的关键词。

35、在一种可能的实施方式中，所述将所述拆条文本输入标题生成模型，通过所述标题生成模型，基于注意力机制对所述拆条文本进行编码，得到所述拆条文本的语义特征之前，所述方法还包括：

36、获取所述拆条文本中的参考关键词；

37、所述将所述拆条文本输入标题生成模型，通过所述标题生成模型，基于注意力机制对所述拆条文本进行编码，得到所述拆条文本的语义特征包括：

38、将所述拆条文本输入所述标题生成模型，通过所述标题生成模型，将所述拆条文本中参考关键词中的字符配置为全局注意力字符，将所述拆条文本中其他字符配置为局部注意力字符，所述全局注意力字符表示与所述拆条文本中全部字符进行注意力运算的字符，所述局部注意力字符表示与所述拆条文本中部分字符进行注意力运算的字符；

39、通过所述标题生成模型，对所述拆条文本中多个字符进行注意力编码，得到所述拆条文本中多个字符的注意力特征；将所述拆条文本中多个字符的注意力特征进行融合，得到所述拆条文本的语义特征。

40、在一种可能的实施方式中，所述获取目标视频片段的拆条文本包括下述任一项：

41、对所述目标视频片段的音频进行语音识别，得到所述目标视频片段的拆条文本；

42、将所述视频的字幕中所述目标视频片段对应的部分，确定为所述目标视频片段的拆条文本。

43、一方面，本说明书实施例提供一种标题生成模型的训练装置，包括：

44、训练文本获取模块，用于获取样本视频片段的训练文本，所述训练文本包括所述样本视频片段的样本拆条文本和所述样本拆条文本的前缀文本，所述前缀文本为被遮罩所述样本拆条文本中标注关键词的文本；

45、训练文本编码模块，用于将所述训练文本输入标题生成模型，通过所述标题生成模型，基于注意力机制对所述训练文本进行编码，得到所述训练文本的语义特征；

46、训练文本预测模块，用于通过所述标题生成模型，基于所述训练文本的语义特征进行预测，输出所述样本拆条文本中的预测关键词以及所述样本视频片段的预测标题；

47、训练模块，用于基于所述预测关键词与所述标注关键词之间的第一差异信息，以及所述预测标题与所述样本视频片段的标注标题之间的第二差异信息，对所述标题生成模型进行训练。

48、在一种可能的实施方式中，所述训练文本编码模块，用于通过所述标题生成模型，将所述前缀文本中的字符配置为全局注意力字符，将所述样本拆条文本中的字符配置为局部注意力字符，所述全局注意力字符表示与所述训练文本中全部字符进行注意力运算的字符，所述局部注意力字符表示与所述训练文本中部分字符进行注意力运算的字符；通过所述标题生成模型，对所述训练文本中多个字符进行注意力编码，得到所述训练文本中多个字符的注意力特征；将所述多个字符的注意力特征进行融合，得到所述训练文本的语义特征。

49、在一种可能的实施方式中，所述训练文本编码模块，用于对于所述多个字符中的任一字符，在所述字符属于所述前缀文本的情况下，确定所述字符与所述训练文本中其他字符之间的第一注意力权重；基于所述字符以及所述第一注意力权重，确定所述字符的注意力特征；在所述字符属于所述样本拆条文本的情况下，确定所述字符与所述训练文本中的参考字符之间的第二注意力权重，所述参考字符是所述训练文本中所述字符周围的字符；基于所述字符以及所述第二注意力权重，确定所述字符的注意力特征。

50、在一种可能的实施方式中，所述训练文本编码模块，用于在所述字符属于所述样本拆条文本的情况下，确定覆盖所述字符时滑动窗口中的所述参考字符，所述滑动窗口在所述训练文本上进行滑动；确定所述字符的查询矩阵以及所述参考字符的键矩阵；基于所述字符的查询矩阵以及所述参考字符的键矩阵，确定所述字符与所述训练文本中的参考字符之间的第二注意力权重。

51、在一种可能的实施方式中，所述训练文本预测模块，用于通过所述标题生成模型，对所述训练文本的语义特征进行全连接和归一化，输出所述样本拆条文本中的预测关键词；通过所述标题生成模型，基于所述训练文本的语义特征进行多轮迭代解码，输出所述样本视频片段的预测标题。

52、在一种可能的实施方式中，所述训练文本预测模块，用于在第一轮迭代过程中，通过所述标题生成模型，基于所述训练文本的语义特征和开始字符进行迭代，输出所述样本视频片段的预测标题中的第一个字符；在其他轮迭代过程中，通过所述标题生成模型，基于所述训练文本的语义特征和上轮迭代输出的字符，输出本轮迭代对应的字符。

53、在一种可能的实施方式中，所述训练模块，用于基于所述第一差异信息和所述第二差异信息构建联合损失函数；基于所述联合损失函数对所述标题生成模型进行训练。

54、在一种可能的实施方式中，所述样本拆条文本的标注关键词的获取方法包括：

55、对所述样本视频片段的样本拆条文本进行关键词识别，得到所述样本拆条文本的标注关键词。

56、一方面，本说明书实施例提供一种标题生成装置，包括：

57、拆条文本获取模块，用于获取目标视频片段的拆条文本，所述目标视频片段是对视频进行拆条后得到的；

58、拆条文本编码模块，用于将所述拆条文本输入标题生成模型，通过所述标题生成模型，基于注意力机制对所述拆条文本进行编码，得到所述拆条文本的语义特征；

59、标题预测模块，用于通过所述标题生成模型，基于所述拆条文本的语义特征进行预测，输出所述目标视频片段的标题；

60、其中，所述标题生成模型是基于样本视频片段的训练文本、所述样本视频片段的标注标题以及所述训练文本中样本拆条文本的标注关键词训练得到的，所述训练文本还包括所述样本拆条文本的前缀文本，所述前缀文本为被遮罩所述样本拆条文本中所述标注关键词的文本。

61、在一种可能的实施方式中，所述装置还包括：

62、关键词预测模块，用于通过所述标题生成模型，基于所述拆条文本的语义特征进行预测，输出所述拆条文本中的关键词。

63、在一种可能的实施方式中，所述装置还包括：

64、参考关键词获取模块，用于获取所述拆条文本中的参考关键词；

65、所述拆条文本编码模块还用于将所述拆条文本输入所述标题生成模型，通过所述标题生成模型，将所述拆条文本中参考关键词中的字符配置为全局注意力字符，将所述拆条文本中其他字符配置为局部注意力字符，所述全局注意力字符表示与所述拆条文本中全部字符进行注意力运算的字符，所述局部注意力字符表示与所述拆条文本中部分字符进行注意力运算的字符；通过所述标题生成模型，对所述拆条文本中多个字符进行注意力编码，得到所述拆条文本中多个字符的注意力特征；将所述拆条文本中多个字符的注意力特征进行融合，得到所述拆条文本的语义特征。

66、在一种可能的实施方式中，所述拆条文本获取模块，用于执行下述任一项：

67、对所述目标视频片段的音频进行语音识别，得到所述目标视频片段的拆条文本；

68、将所述视频的字幕中所述目标视频片段对应的部分，确定为所述目标视频片段的拆条文本。

69、一方面，本说明书实施例提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法。

70、一方面，本说明书实施例提供一种电子设备，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法。

71、一方面，本说明书实施例提供一种包含指令的计算机程序产品，当所述计算机程序产品在计算机或处理器上运行时，使得所述计算机或处理器执行上述的方法。

72、通过本说明书实施例提供的技术方案，通过样本视频片段的训练文本来训练标题生成模型，该训练文本包括样本视频片段的样本拆条文本以及该拆条文本的前缀文本，该前缀文本为被遮罩该样本拆条文本中标注关键词的文本，通过这样的方式来设计训练文本，能够同时训练标题生成模型预测关键词和标题的能力。在训练过程中，基于注意力机制对训练文本进行了编码，得到该训练文本的语义特征，利用注意力机制使得该标题生成模型重点关注训练文本中有助于预测标题的部分，提高语义特征的准确性。基于该训练文本的语义特征来预测，得到该样本拆条文本中的预测关键词以及样本视频片段的预测标题，基于预测关键词和标注关键词之间的第一差异信息，以及预测标题与标注标题之间的第二差异信息对该标题生成模型进行训练，能够得到标题生成模型，通过该标题生成模型就能够高效且准确地生成标题。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王宁徐文强陈德
技术所有人：支付宝（杭州）信息技术有限公司
我是此专利的发明人

上一篇：一种超小口径超薄铜管的制备方法与流程
上一篇：氟西汀半抗原、单克隆抗体、杂交瘤细胞株及应用

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。