1.本公开涉及人工智能技术和自然语言处理技术领域,尤其涉及一种语义理解模型训练方法、短视频召回方法、装置、设备和介质。
背景技术:2.智能语音助手或智能客服,是人工智能(artificial intelligence,ai)、自然语言处理(natural language processing,nlp)等技术落地实际场景的最广泛最重要的方式之一,其中,正确理解用户问询是智能语音助手的核心能力。目前智能语音助手利用规则引擎或深度学习模型能够解析得到用户问询的领域、意图和槽位,实现对用户问询的理解。然而,随着移动互联网等技术的发展,短视频呈现井喷式发展,人们更热衷于观看碎片化、时长更短的视频媒资,即短视频媒资。
3.短视频媒资与正常视频媒资在时长、媒资标题等方面具有明显的差异,如短视频媒资的时长更短,标题更长。现有的推荐系统大部分基于字词粒度进行相关视频的召回,能够很好地推荐正常视频媒资,但由于用户问询通常较短,推荐系统难以捕获用户问询中一些细微语言变化,进而导致语音助手无法准确的为用户推荐短视频媒资,带来较差的用户体验。
技术实现要素:4.为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种模型训练方法、短视频召回方法、装置、设备和介质。
5.第一方面,本公开实施例提供了一种语义理解模型训练方法,包括:
6.获取训练样本,其中,所述训练样本包括第一训练样本和第二训练样本,所述第一训练样本包括自然语言文本、所述自然语言文本对应的标签以及所述自然语言本文所属的领域,所述第二训练样本包括基于所述自然语言文本召回的短视频媒资的标题信息以及召回的所述短视频媒资对应的标签;
7.定义语义理解模型,其中,所述语义理解模型包括第一语义理解模型和第二语义理解模型,所述第一语义理解模型和所述第二语义理解模型并联连接;
8.基于所述第一训练样本和所述第一语义理解模型,生成对应的第一语义向量,基于所述第二训练样本和所述第二语义理解模型,生成对应的第二语义向量;
9.基于所述第一语义向量和所述第二语义向量的损失函数值,对所述语义理解模型进行训练,得到目标语义理解模型。
10.作为本公开实施例一种可选的实施方式,所述基于所述第一语义向量和所述第二语义向量的损失函数值,对所述语义理解模型进行训练,得到目标语义理解模型,包括:
11.基于预设损失函数,确定所述第一语义向量和所述第二语义向量的损失函数值;
12.根据所述损失函数值,调整所述语义理解模型的参数,直至所述语义理解模型收敛,得到目标语义理解模型。
13.作为本公开实施例一种可选的实施方式,根据所述损失函数值,调整所述语义理解模型的参数,直至所述语义理解模型收敛,得到目标语义理解模型,包括:
14.在所述损失函数值不满足预设阈值时,基于所述第一训练样本对所述第一语义理解模型进行训练,调整所述第一语义理解模型的参数,并基于所述第二训练样本对所述第二语义理解模型进行训练,调整所述第二语义理解模型的参数;
15.在所述第一语义理解模型输出的第一语义向量和所述第二语义理解模型输出的第二语义向量的损失函数值满足预设阈值时,得到目标语义理解模型。
16.作为本公开实施例一种可选的实施方式,所述第一语义理解模型包括语义特征提取单元、全连接层和激活函数,其中,所述全连接层包括n个子全连接层,所述激活函数包括n个子激活函数,所述语义特征提取单元、所述全连接层和所述激活函数串联连接,n个子全连接层并联连接,n个子激活函数并联连接;
17.所述语义特征提取单元用于将所述第一训练样本生成对应的语义特征向量;
18.所述全连接层用于将所述语义特征向量映射到不同的子空间得到子语义特征向量;
19.所述激活函数用于对所述全连接映射到子空间的所述子语义特征向量进行特征提取,并将各个子空间得到的子语义特征向量进行拼接处理,得到第一语义向量。
20.作为本公开实施例一种可选的实施方式,所述定义语义理解模型之前,还包括:
21.获取所述训练样本对应的负训练样本,其中,所述负训练样本包括从训练样本数据集中选取的短视频媒资的标题信息。
22.第二方面,本公开实施例提供一种短视频召回方法,包括:
23.获取待预测文本和待召回短视频媒资;
24.将所述待预测文本输入第一目标语义理解模型中,得到所述待预测文本对应的第一目标语义向量,将所述待召回短视频媒资输入第二目标语义理解模型,得到所述待召回短视频媒资对应的第二目标语义向量;
25.根据所述第一目标语义向量与所述第二目标语义向量,计算待预测文本与待召回短视频媒资的召回评分;
26.根据所述召回评分,确定召回短视频媒资;
27.其中,所述目标语义理解模型包括第一目标语义理解模型和第二目标语义理解模型,所述目标语义理解模型基于如权利要求1至5任一项所述的方法训练得到。
28.第三方面,本公开实施例提供一种语义理解模型训练装置,包括:
29.训练样本获取模块,用于获取训练样本,其中,所述训练样本包括第一训练样本和第二训练样本,所述第一训练样本包括自然语言文本、所述自然语言文本对应的标签以及所述自然语言本文所属的领域,所述第二训练样本包括基于所述自然语言文本召回的短视频媒资的标题信息以及召回的所述短视频媒资对应的标签;
30.定义模块,用于定义语义理解模型,其中,所述语义理解模型包括第一语义理解模型和第二语义理解模型,所述第一语义理解模型和所述第二语义理解模型并联连接;
31.语义向量生成模块,用于基于所述第一训练样本和所述第一语义理解模型,生成对应的第一语义向量,基于所述第二训练样本和所述第二语义理解模型,生成对应的第二语义向量;
32.模型确定模块,用于基于所述第一语义向量和所述第二语义向量的损失函数值,对所述语义理解模型进行训练,得到目标语义理解模型。
33.第四方面,本公开实施例提供一种短视频召回装置,包括:
34.信息获取模块,用于获取待预测文本和待召回短视频媒资;
35.语义向量获取模块,用于将所述待预测文本输入第一目标语义理解模型中,得到所述待预测文本对应的第一目标语义向量,将所述待召回短视频媒资输入第二目标语义理解模型,得到所述待召回短视频媒资对应的第二目标语义向量;
36.召回评分计算模块,用于根据所述第一目标语义向量与所述第二目标语义向量,计算待预测文本与待召回短视频媒资的召回评分;
37.召回模块,用于根据所述召回评分,确定召回短视频媒资;
38.其中,所述目标语义理解模型包括第一目标语义理解模型和第二目标语义理解模型,所述目标语义理解模型基于如权利要求1至5任一项所述的方法训练得到。
39.第五方面,本公开还提供了一种计算机设备,包括:
40.一个或多个处理器;
41.存储装置,用于存储一个或多个程序,
42.当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面中任一项所述的方法,或者第二方面中所述的方法。
43.第六方面,本公开还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面中任一项所述的方法,或者第二方面中所述的方法。
44.本公开实施例提供的技术方案与现有技术相比具有如下优点:
45.本公开实施例提供的语义理解模型训练方法、短视频召回方法、装置、设备和介质,首先获取训练样本,训练样本包括第一训练样本和第二训练样本,第一训练样本包括自然语言文本、自然语言文本对应的标签以及自然语言本文所属的领域,第二训练样本包括基于自然语言文本召回的短视频媒资的标题信息以及召回的短视频媒资对应的标签,然后定义语义理解模型,其中,语义理解模型包括第一语义理解模型和第二语义理解模型,第一语义理解模型和第二语义理解模型并联连接,基于第一训练样本和第一语义理解模型,生成对应的第一语义向量,基于第二训练样本和第二语义理解模型,生成对应的第二语义向量,最后基于第一语义向量和第二语义向量的损失函数值,对语义理解模型进行训练,得到目标语义理解模型。由于语义理解模型包括第一语义理解模型和第二语义理解模型,第一语义理解模型基于输入的第一训练样本得到第一语义向量,第二语义理解模型基于输入的第二训练样本得到第二语义向量,第一语义向量为输入的自然语言文本的语义向量的表征,第二语义向量为基于自然语言文本召回的短视频媒资的标题向量的表征,即通过计算第一语义向量与第二语义向量的损失函数值,训练语义理解模型,保证语义理解模型更准确,且有利于提高领域对话理解的准确性。
附图说明
46.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
47.为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现
有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
48.图1a是现有技术中语义理解过程的示意图;
49.图1b是本公开实施例中一种语义理解过程的应用场景示意图;
50.图2a是根据本公开一个或多个实施例的计算机设备的硬件配置框图;
51.图2b是根据本公开一个或多个实施例的计算机设备的软件配置示意图;
52.图2c是根据本公开一个或多个实施例的智能设备中包含的应用程序的图标控件界面显示示意图;
53.图3a是本公开实施例提供的一种语义理解模型训练方法的流程示意图;
54.图3b是本公开实施例提供的一种语义理解模型训练方法的原理示意图;
55.图4a是本公开实施例提供的另一种语义理解模型训练方法的流程示意图;
56.图4b是本公开实施例提供的另一种语义理解模型训练方法的原理示意图;
57.图5a是本公开实施例提供的一种语义理解模型的结构示意图;
58.图5b是本公开实施例提供的一种语义理解模型的具体结构示意图;
59.图5c是本公开示例性实施例的一种第一语义理解模型的结构示意图;
60.图5d是本公开示例性实施例的一种第二语义理解模型的结构示意图;
61.图5e是本公开示例性实施例的另一种语义理解模型的具体结构示意图;
62.图6a是本公开实施例提供的一种短视频召回方法的流程示意图;
63.图6b是本公开实施例提供的一种短视频召回方法的原理示意图;
64.图7a是本公开实施例提供的一种语义理解模型训练装置的结构示意图;
65.图7b是本公开实施例提供的一种语义理解模型训练装置的结构示意图;
66.图8是本公开实施例提供的一种短视频召回装置的结构示意图;
67.图9是本公开实施例提供的一种计算机设备的结构示意图。
具体实施方式
68.为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
69.在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
70.本公开中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述对象的特定顺序。例如,第一训练样本和第二训练样本等是用于区别不同的训练样本,而不是用于描述训练样本的特定顺序。
71.智能语音助手或智能客服,是人工智能(artificial intelligence,ai)、自然语言处理(natural language processing,nlp)等技术落地实际场景的最广泛最重要的方式之一,其中,正确理解用户问询是智能语音助手的核心能力。目前智能语音助手利用规则引擎或深度学习模型能够解析得到用户问询的领域、意图和槽位,实现对用户问询的理解。然而,随着移动互联网等技术的发展,短视频呈现井喷式发展,人们更热衷于观看碎片化、时
长更短的视频媒资,即短视频媒资。
72.短视频媒资与正常视频媒资在时长、媒资标题等方面具有明显的差异,如短视频媒资的时长更短,标题更长。现有的推荐系统大部分基于字词粒度进行相关视频的召回,能够很好地推荐正常视频媒资,但由于用户问询通常较短,推荐系统难以捕获用户问询中一些细微语言变化,进而导致语音助手无法准确的为用户推荐短视频媒资,例如,将自然语言文本“小宝宝生病怎么办”输入至推荐系统,推荐系统会推荐“狗宝宝生病怎么办”相关视频,无法召回与输入的自然语言文本语义相似的结果,带来较差的用户体验。
73.图1a为现有技术中语义向量理解过程的示意图。如图1a所示,其主要的实现流程如下图所示:自然语言文本为对用户的音频数据a进行识别后所得到的文本内容,也可以为其他文本内容,本实施例不做限制。首先对自然语言文本基于字词粒度进行划分,然后基于划分得到的字或词,确定自然语言文本对应的意图以及划分得到的字或词中关键字的标签等,最后基于自然语言文本、自然语言文本的意图以及自然语言文本对应的标签得到自然语言文本所对应的语义理解结果。但是该方法中,由于基于字词粒度对自然语言文本进行划分,当用户问询通常较短,推荐系统难以捕获用户问询中一些细微语言变化,仅仅基于自然语言文本、自然语言文本对应的意图信息以及文本标签信息得到的语义理解结果不够准确,进而无法准确的为用户推荐短视频媒资。
74.针对上述方法中的缺点,本公开实施例通过先获取训练样本,训练样本包括第一训练样本和第二训练样本,第一训练样本包括自然语言文本、自然语言文本对应的标签以及自然语言本文所属的领域,第二训练样本包括基于自然语言文本召回的短视频媒资的标题信息以及召回的短视频媒资对应的标签,然后定义语义理解模型,其中,语义理解模型包括第一语义理解模型和第二语义理解模型,第一语义理解模型和第二语义理解模型并联连接,基于第一训练样本和第一语义理解模型,生成对应的第一语义向量,基于第二训练样本和第二语义理解模型,生成对应的第二语义向量,最后基于第一语义向量和第二语义向量的损失函数值,对语义理解模型进行训练,得到目标语义理解模型。由于语义理解模型包括第一语义理解模型和第二语义理解模型,第一语义理解模型基于输入的第一训练样本得到第一语义向量,第二语义理解模型基于输入的第二训练样本得到第二语义向量,第一语义向量为输入的自然语言文本的语义向量的表征,第二语义向量为输入召回的短视频媒资的标题向量的表征,即通过计算第一语义向量与第二语义向量的损失函数值,训练语义理解模型,保证语义理解模型更准确,且有利于提高领域对话理解的准确性。
75.图1b为本公开实施例中一种语义理解过程的应用场景示意图。如图1b所示,语义理解过程可用于用户与智能终端的语音交互场景中,假设该场景中的智能终端包括智能显示设备001,用户想要对该智能终端的智能显示设备显示的短视频媒资进行切换时,需要先发出语音指令,而智能终端在接收到该语音指令时,需要对该语音指令进行语义理解,确定与该语音指令所对应的语义理解结果,便于后续智能设备根据语义理解结果,搜索出更相关的短视频媒资在智能终端的智能显示设备上显示,满足用户的搜索需求。
76.本公开实施例提供的语义理解模型训练方法和短视频召回方法,可以基于计算机设备,或者计算机设备中的功能模块或者功能实体实现。
77.其中,计算机设备可以为个人计算机(personal computer,pc)、服务器、手机、平板电脑、笔记本电脑、大型计算机等,本公开实施例对此不作具体限定。
78.示例性的,图2a为根据本公开一个或多个实施例的计算机设备的硬件配置框图。如图2a所示,计算机设备包括:调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口280中的至少一种。其中,控制器250包括中央处理器,视频处理器,音频处理器,图形处理器,ram,rom,用于输入/输出的第一接口至第n接口。显示器260可为液晶显示器、oled显示器、触控显示器以及投影显示器中的至少一种,还可以为一种投影装置和投影屏幕。调谐解调器210通过有线或无线接收方式接收广播电视信号,以及从多个无线或有线广播电视信号中解调出音视频信号,如epg音视频数据信号。通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如:通信器可以包括wifi模块,蓝牙模块,有线以太网模块等其他网络通信协议芯片或近场通信协议芯片,以及红外接收器中的至少一种。计算机设备可以通过通信器220与服务器或者本地控制设备建立控制信号和数据信号的发送和接收。检测器230用于采集外部环境或与外部交互的信号。控制器250和调谐解调器210可以位于不同的分体设备中,即调谐解调器210也可在控制器250所在的主体设备的外置设备中,如外置机顶盒等。
79.在一些实施例中,控制器250,通过存储在存储器上中各种软件控制程序,来控制计算机设备的工作和响应用户的操作。控制器250控制计算机设备的整体操作。用户可在显示器260上显示的图形用户界面(gui)输入用户命令,则用户输入接口通过图形用户界面(gui)接收用户输入命令。或者,用户可通过输入特定的声音或手势进行输入用户命令,则用户输入接口通过传感器识别出声音或手势,来接收用户输入命令。
80.图2b为根据本公开一个或多个实施例的计算机设备的软件配置示意图,如图2b所示,将系统分为四层,从上至下分别为应用程序(applications)层(简称“应用层”),应用程序框架(application framework)层(简称“框架层”),安卓运行时(android runtime)和系统库层(简称“系统运行库层”),以及内核层。
81.图2c为根据本公开一个或多个实施例的智能终端(主要为智能播放设备,例如智能电视、数字影院系统或者影音服务器等)中包含的应用程序的图标控件界面显示示意图,如图2c中所示,应用程序层包含至少一个应用程序可以在显示器中显示对应的图标控件,如:直播电视应用程序图标控件、视频点播vod应用程序图标控件、媒体中心应用程序图标控件、应用程序中心图标控件、游戏应用图标控件等。直播电视应用程序,可以通过不同的信号源提供直播电视。视频点播vod应用程序,可以提供来自不同存储源的视频。不同于直播电视应用程序,视频点播提供来自某些存储源的视频显示。媒体中心应用程序,可以提供各种多媒体内容播放的应用程序。应用程序中心,可以提供储存各种应用程序。
82.为了更加详细的说明语义理解模型训练方案,以下将以示例性的方式结合图3a进行说明,可以理解的是,图3a中所涉及的步骤在实际实现时可以包括更多的步骤,或者更少的步骤,并且这些步骤之间的顺序也可以不同,以能够实现本技术实施例中提供的语义理解模型训练方法为准。
83.图3a是本公开实施例提供的一种语义理解模型训练方法的流程示意图;图3b是本公开实施例提供的一种语义理解模型训练方法的原理示意图。本实施例可适用于对语义理解模型进行训练得到目标语义理解模型的情况。本实施例方法可由语义理解模型训练装置来执行,该装置可采用硬件/或软件的方式来实现,并可配置于计算机设备中。
84.如图3a所示,该方法具体包括如下步骤:
85.s310、获取训练样本。
86.其中,训练样本包括第一训练样本和第二训练样本,第一训练样本包括自然语言文本、自然语言文本对应的标签以及自然语言本文所属的领域,第二训练样本包括基于自然语言文本召回的短视频媒资的标题信息以及召回的短视频媒资对应的标签。
87.在本公开实施例中,第一训练样本可以为从预先确定的训练数据集中随机抽取的训练样本,也可以为从训练数据集中选取已分组的训练样本,其中,训练数据集为包括基于多个不同用户的多种类型的音频数据所确定的每个音频数据对应的文本内容或者收集的其他文本内容、文本内容对应的标签所形成的集合,以及各文本内容所属的领域所形成的集合。标签信息可以理解为文本内容中关键字对应的属性,如人物属性:演员、歌手以及运动员等;影视属性:电视剧、电影以及综艺节目等。领域信息可以理解为文本内容在历史索引中所对应的领域和/或意图等,如电影领域、搜索相关电影等。自然语言文本为:从训练数据集中确定的文本内容。
88.第二训练样本为用户从基于自然语言文本召回的短视频媒资中选取的目标短视频对应的目标短视频媒资的标题信息以及目标短视频媒资对应的标签。示例性的,基于自然语言文本召回的短视频媒资包括短视频媒资1、短视频媒资2、短视频媒资3,...,以及短视频媒资n,若用户在召回的短视频媒资中触发点击浏览短视频媒资2,此时,第二训练样本为短视频媒资2的标题信息以及该短视频媒资2对应的标签。
89.s320、定义语义理解模型,其中,语义理解模型包括第一语义理解模型和第二语义理解模型,第一语义理解模型和第二语义理解模型并联连接。
90.在本公开实施例中,通过定义语义理解模型,并通过该语义理解模型中的第一语义理解模型对自然语言文本的语义信息进行识别,通过该语义理解模型中的第二语义理解模型对基于自然语言文本召回的短视频媒资的标题所对应的语义信息进行识别,即:语义理解模型中融合了自然语言文本的语义信息识别以及短视频媒资的标题的语义信息识别两个任务,能够实现对对自然语言文本进行精确识别。
91.s330、基于第一训练样本和第一语义理解模型,生成对应的第一语义向量,基于第二训练样本和第二语义理解模型,生成对应的第二语义向量。
92.在本公开实施例中,将第一训练样本输入至第一语义理解模型,得到与第一训练样本对应的第一语义向量,其中,第一语义向量表征自然语言文本的语义。
93.在具体的实施方式中,第一训练样本包括自然语言文本、自然语言文本对应的标签以及自然语言文本所属的领域,通过设置输入至第一语义理解模型的第一训练样本除包括自然语言文本之外,还包括自然语言文本对应的标签以及自然语言文本所属的领域,保证第一语义理解模型输出的第一语义向量表征的自然语言文本所对应的语义的准确性。
94.将第二训练样本输入至第二语义理解模型,得到与第二训练样本对应的第二语义向量,其中,第二语义向量表征用户在基于自然语言文本召回的短视频媒资中选择浏览的短视频媒资的标题信息的文本所表征语义。
95.在具体的实施方式中,第二训练样本包括基于自然语言文本召回的短视频媒资的标题信息以及召回的短视频媒资对应的标签,通过设置输入至第二语义理解模型的第二训练样本除包括召回的短视频媒资的标题信息之外,还包括短视频媒资对应的标签,保证第
二语义理解模型输出的第二语义向量表征的短视频媒资的标题信息所对应的文本语义的准确性。
96.s340、基于第一语义向量和第二语义向量的损失函数值,对语义理解模型进行训练,得到目标语义理解模型。
97.在将第一训练样本输入至第一语义理解模型得到第一语义向量,将第二训练样本输入至第二语义理解模型得到第二语义向量后,通过预设损失函数计算第一语义向量和第二语义向量的损失函数值,并基于计算得到的损失函数值与预设损失函数值之间的关系,判断语义理解模型是否达到收敛条件,当语义理解模型未达到收敛条件时,继续对语义理解模型进行训练,直至语义理解模型达到收敛条件后,确定目标语义理解模型。
98.需要说明的是,基于计算得到的损失函数值与预设阈值之间的关系,判断语义理解模型未达到收敛条件时,此时,继续对语义理解模型进行训练的过程中,一种实现方式是对语义理解模型中的第一语义理解模型进行训练,保证第一语义理解模型输出的第一语义向量与短视频媒资的标题信息所对应的文本的第二语义向量的相关度更高,进而保证语义理解模型的精度。另一种实现方式是对语义理解模型中的第一语义理解模型以及第二语义理解模型均进行训练,保证第一语义理解模型输出的第一语义向量与第二语义理解模型输出的第二语义向量的准确度,进而保证语义理解模型的精度。
99.本公开实施例提供的语义理解模型训练方法,首先获取训练样本,训练样本包括第一训练样本和第二训练样本,第一训练样本包括自然语言文本、自然语言文本对应的标签以及自然语言本文所属的领域,第二训练样本包括基于自然语言文本召回的短视频媒资的标题信息以及召回的短视频媒资对应的标签,然后定义语义理解模型,其中,语义理解模型包括第一语义理解模型和第二语义理解模型,第一语义理解模型和第二语义理解模型并联连接,基于第一训练样本和第一语义理解模型,生成对应的第一语义向量,基于第二训练样本和第二语义理解模型,生成对应的第二语义向量,最后基于第一语义向量和第二语义向量的损失函数值,对语义理解模型进行训练,得到目标语义理解模型。由于语义理解模型包括第一语义理解模型和第二语义理解模型,第一语义理解模型基于输入的第一训练样本得到第一语义向量,第二语义理解模型基于输入的第二训练样本得到第二语义向量,第一语义向量为输入的自然语言文本的语义向量的表征,第二语义向量为基于自然语言文本召回的短视频媒资的标题向量的表征,即通过计算第一语义向量与第二语义向量的损失函数值,训练语义理解模型,保证语义理解模型更准确,且有利于提高领域对话理解的准确性。
100.图4a是本公开实施例提供的另一种语义理解模型训练方法的流程示意图,图4b是本公开实施例提供的一种语义理解模型训练方法的原理示意图,本实施例是在上述实施例的基础上进一步扩展与优化,如图4a和图4b所示,步骤s340的一种具体实施方式包括:
101.s3401、基于预设损失函数,确定第一语义向量和第二语义向量的损失函数值。
102.其中,预设损失函数可以为度量学习(rankingloss)损失函数,具体可以根据实际使用需求确定,还可以通过用户自定义设置,本公开实施例不做限定。
103.在本公开实施例中,预设损失函数为语义理解模型是否训练合格的衡量标准,从而,有效保证训练得到的语义理解模型具有较高精度的识别结果。可通过预设损失函数计算第一语义理解模型生成的第一语义向量与第二语义理解模型生成的第二语义向量之间的损失函数值,根据损失函数值与预设阈值的关系来验证语义理解模型的识别精度,以训
练出准确度高的语义理解模型。
104.在具体的实施方式中,在得到第一语义理解模型输出的第一语义向量,以及第二语义理解模型输出的第二语义向量后,基于预设损失函数,确定第一语义向量和第二语义向量的损失函数值,对语义理解模型的参数进行优化,rankingloss的损失函数可表达成如下形式:
105.loss(s1,s2,y)=max(0,-y*(s1-s2)+margin)
106.其中,s1表示第一语义向量的得分值,s2表示第二语义向量的得分值,y表示s1相比于s2是否更接近最优得分,取值{+1,-1}。
107.示例性的,当第一语义向量的得分值s1为0.7,第二语义向量的得分值s2为0.5,第一语义向量的得分值s1相比较第二语义向量的得分值s2更接近最优得分,此时y值取+1,损失函数输出为0,此时表征语义理解模型满足收敛条件,可以结束训练,当第一语义向量的得分值s1为0.5,第二语义向量的得分值s2为0.7,第一语义向量的得分值s1相比较第二语义向量的得分值s2更接近最优得分,此时,y值取+1,损失函数输出为-y*(s1-s2)+margin,此时表征语义理解模型未满足收敛条件,语义理解模型需要继续保持训练。
108.s3402、根据损失函数值,调整语义理解模型的参数,直至语义理解模型收敛,得到目标语义理解模型。
109.在具体的实施方式中,在损失函数值不满足预设阈值时,基于第一训练样本对第一语义理解模型进行训练,调整第一语义理解模型的参数,并基于第二训练样本对第二语义理解模型进行训练,调整第二语义理解模型的参数;在第一语义理解模型输出的第一语义向量和第二语义理解模型输出的第二语义向量的损失函数值满足预设阈值时,得到目标语义理解模型,此时,目标语义理解模型由参数优化后的第一语义理解模型和参数优化后的第二语义理解模型组成。
110.作为另一种可实施方式,当损失函数值不满足预设阈值时,也可以仅仅调整第一语义理解模型的参数,保证第一语义理解模型输出的第一语义向量和第二语义理解模型输出的第二语义向量的损失函数值满足预设阈值,得到目标语义理解模型,此时,目标语义理解模型由参数优化后的第一语义理解模型和第二语义理解模型组成。
111.当仅仅基于第一训练样本对第一语义理解模型进行训练,保证第一语义理解模型输出的第一语义向量和第二语义理解模型输出的第二语义向量的损失函数值满足预设阈值,此时,通过设置第二语义理解模型的参数保持不变,基于第一训练样本对第一语义理解模型进行训练,并更新第一语义理解模型的参数。
112.本公开实施例提供的语义理解模型训练方法,首先基于预设损失函数,确定第一语义向量和第二语义向量的损失函数值,然后基于损失函数值,调整语义理解模型的参数,直至语义理解模型收敛,得到目标语义理解模型。
113.在一些实施例中,第一语义理解模型包括语义特征提取单元,全连接层和激活函数,其中,全连接层包括n个子连接层,激活函数包括n个子激活函数,语义特征提取单元、全连接层和激活函数串联连接,n个子全连接层并联连接,n个子激活函数并联连接,语义特征提取单元用于将第一训练样本生成对应的语义特征向量,全连接层用于将语义特征向量映射到不同的子空间得到子语义特征向量,激活函数用于对全连接映射到子空间的子语义特征向量进行特征提取,并将各个子空间得到的子语义特征向量进行拼接处理,得到第一语
义向量。
114.具体的,图5a是本公开实施例提供的语义理解模型的结构示意图图5b是本公开实施例提供的语义理解模型的具体结构示意图,图5c是本公开实施例提供的第一语义理解模型的具体结构示意图,如图5a、5b和5c所示,第一语义理解模型510包括语义特征提取单元5101,全连接层5102和激活函数5103,全连接层5102包括n个子全连接层,激活函数5103包括n个子激活函数,其中,语义特征提取单元在生成第一训练样本对应的语义特征向量后,语义特征提取单元分别将生成的自然语言文本对应的语义特征向量输入至全连接层,如图5c所示,全连接层示例性用subfc表示,包括n个子全连接层,各子全连接层并联连接,语义特征提取单元的输出端分别与n个子全连接层的输入端连接,不同连接层将语义特征提取单元生成的语义特征向量映射到不同空间得到子语义特征向量。激活函数示例性用relu表示,一个子全连接层的输出端连接至一个子激活函数,n个子激活函数并联连接,通过激活函数对全连接映射到子空间的子语义特征向量进行特征提取,并将各个子空间得到的子语义特征向量进行拼接处理,得到第一语义向量。
115.本实施例中,全连接层将语义特征提取单元生成的语义特征向量映射到不同子空间,即第一语义理解模型采用多个子空间分别建模的方式对语义特征向量进行语义信息提取,其过程可以表示为:
116.headi=subfci(origin
vector
)=wi*ovector
117.其中,headi表示语义特征向量在第i个子空间的子语义特征向量,originvector表示语义特征向量,wi表示语义特征向量从原始语义空间映射到第i个子空间的映射权重。
118.本公开实施例中,为了使第一语义理解模型能够根据输入的第一训练样本有选择的采用自然语言文本、自然语言文本对应的标签以及自然语言本文所属的领域,第一语义理解模型使用transformer实现自注意力机制,提升模型的语义表达能力。
119.本公开实施例中,基于第一语义理解模型对自然语言文本、自然语言文本对应的标签以及自然语言本文所属的领域进行联合建模,利用多头机制,在多个子空间中对第一训练样本的语义特征向量进行建模,提升语义理解能力。
120.在一些实施例中,第二语义理解模型包括语义特征提取单元和激活函数,语义特征提取单元用于将第二训练样本生成对应的语义特征向量,激活函数用于对语义特征向量进行特征提取,得到第二语义向量。
121.具体的,第二语义理解模型的具体结构如图5d所示,其中,语义特征提取单元在生成第二训练样本对应的语义特征向量后,语义特征提取单元分别将生成的第二训练样本对应的语义特征向量输入至激活函数,如图5d所示,激活函数示例性用relu表示语义特征提取单元的输出端连接激活函数,通过激活函数对语义特征提取单元的语义特征向量进行特征提取,得到第二语义向量。
122.在具体的实施方式中,第一语义理解模型和第二语义理解模型中激活函数可以包括多个,本公开实施例不对此进行具体限定。
123.图5d是本公开实施例提供的一种语义理解模型的总体框架图,如图5d所示,示例性的,第一训练样本为:movie:moviegeneralsearch:王:x:x:actor:singer:videorolename,第一训练样本中,自然语言文本为:王xx,自然语言文本对应的标签为:actor、singer、videorolename,自然语言文本所属的领域:movie:moviegeneralsearch,第
二训练样本为:《:我:和:我:的:x:x:》:预:告:黄:x:王:x:x:刘:x:x:上:演:爆:笑:土:味:科:幻:喜:剧:fiction:comedy,其中,《我和我的xx》预告黄x王xx刘xx上演爆笑土味科幻喜剧为基于自然语言文本王xx召回的短视频媒资中用户触发点击的目标短视频媒资所对应的标题信息,fiction和comedy为该目标短视频媒资所对应的标签,将第一训练样本输入至第一语义理解模型得到第一语义理解模型输出的第一语义向量multi-head representations,将第二训练样本输入至第二语义理解模型得到第二语义理解模型输出的第二语义向量media title representations,然后基于预设损失函数,计算第一语义向量和第二语义向量的损失函数值,当第一语义向量和第二语义向量的损失函数值满足预设阈值时,得到目标语义理解模型,该目标语义理解模型由第一语义理解模型和第二语义理解模型构成,当第一语义向量和第二语义向量的损失函数值不满足预设阈值时,此时,首先通过调整第一语义理解模型和第二语义理解模型的参数,然后将第一训练样本再次输入至调整参数后的第一语义理解模型,将第二训练样本再次输入至调整参数后的第二语义理解模型,并基于第一语义理解模型输出的第一语义向量和第二语义理解模型输出的第二语义向量计算损失函数值,当该损失函数值满足预设阈值时,此时,可以确定,修改参数后的语义理解模型达到收敛条件,确定目标语义理解模型由参数修改后的第一语义理解模型和第二语义理解模型构成。当计算得到的损失函数值不满足预设阈值时,修改参数后的语义理解模型未达到收敛条件,此时,通过再次调整第一语义理解模型和第二语义理解模型的参数,直至语义理解模型达到收敛条件,结束对语义理解模型的训练。
124.此外,本发明使用albert的tokenizer实现对第一训练样本和第二训练样本进行划分,如“我和我的xx”会划分成“我”、“和”、“我”、“的”、“xx”五个词,其未将xx一词划分x和x,减少了词库的大小,有利于模型训练。
125.作为一种可实施方式,语义理解模型训练方法还包括:
126.获取训练样本对应的负训练样本,其中,负训练样本包括从训练样本数据集中选取的短视频媒资的标题信息。
127.为了保证语义理解模型的训练效率,在获取训练样本之后,获取训练样本对应的负训练样本,即基于训练样本集构造负样本,示例性的,当基于自然语言文本召回短视频媒资后,从召回的短视频媒资中随机选取短视频媒资所对应的标题信息作为当前自然语言文本对应的负样本。
128.图6a是本公开实施例提供的一种短视频召回方法的流程示意图,图6b是本公开实施例提供的一种短视频召回方法的原理示意图。本实施例可适用于基于待预测文本进行短视频召回,本实施例方法可由短视频召回装置来执行,该装置可采用硬件/或软件的方式来实现,并可配置于计算机设备中。
129.如图6a所示,该方法具体包括如下步骤:
130.s610、获取待预测文本和待召回短视频媒资。
131.其中,待预测文本可以为用户的音频数据,例如用户与智能设备语音交互过程中的语音数据,也可以为输入的文本,本实施例不做限定。
132.待召回短视频媒资为数据库中存储的所有短视频媒资。
133.s620、将待预测文本输入第一目标语义理解模型中,得到待预测文本对应的第一目标语义向量,将待召回短视频媒资输入第二目标语义理解模型,得到待召回短视频媒资
对应的第二目标语义向量。
134.其中,目标语义理解模型包括第一目标语义理解模型和第二目标语义理解模型,目标语义理解模型基于上述任一实施例所述的语义理解模型训练方法训练得到。
135.将待预测文本输入至第一目标语义理解模型中,就能够得到待预测文本对应的第一目标语义向量,其中,输入至第一目标语义理解模型的待预测文本包括待预测文本、待预测文本对应的标签以及待预测文本所属的领域。
136.将数据库中各待召回短视频媒资输入至第二目标语义理解模型,可以得到短视频媒资的标题信息对应的第二目标语义向量,其中,输入至第二目标语义理解模型的短视频媒资包括短视频媒资的标题信息以及短视频媒资对应的标签。
137.s630、根据第一目标语义向量与第二目标语义向量,计算待预测文本与待召回短视频媒资的召回评分。
138.在获取到待预测文本对应的第一目标语义向量以及短视频媒资的标题信息对应的第二目标语义向量后,可计算第一目标语义向量与第二目标语义向量的召回评分。
139.在具体的实施方式中,若输入至第一目标语义理解模型的待预测文本是query1,输入至第二目标语义理解模型的待召回短视频媒资包括media1、media2、media3、media4、
…
、median,将待预测文本query1输入至第一目标语义理解模型得到第一目标语义向量为query_vector1,将待召回短视频媒资media1、media2、media3、media4、
…
、median输入至第二目标语义理解模型得到第二目标语义向量分别为media1_vector、media2_vector、media3_vector、
…
、median_vector,然后分别计算第一目标语义向量query_vector1与各个第二目标语义向量media1_vector、media2_vector、media3_vector、
…
、median_vector的召回评分,进而通过召回评分确定召回短视频媒资。
140.具体的,计算第一目标语义向量query_vector1与各个第二目标语义向量media1vector,media2_vector,media3_vector、
…
、median_vector的召回评分
[0141][0142]
其中,x1表示第一目标语义向量,x2i表示mediai_vector的第二目标语义向量,ε为一极小值。
[0143]
s640、根据召回评分,确定召回短视频媒资。
[0144]
在具体的实施方式中,由于数据库中短视频媒资包括多个待召回短视频媒资,通过依次将各待召回短视频媒资输入至第二目标语义理解模型,得到各短视频媒资对应的第二目标语义向量,依次计算第一目标语义向量与各待召回短视频媒资对应的第二目标语义向量的召回评分,根据计算得到的召回评分确定召回目标短视频媒资。示例性的,计算得到第一目标语义向量query_vector1与第二目标语义向量media1_vector的召回评分为similarity1、第一目标语义向量query_vector1与第二目标语义向量media2_vector的召回评分为similarity2,...,第一目标语义向量query_vector1与第二目标语义向量median_vector的召回评分为similarityn,各召回评分之间的关系为similarity1》similarity2》...》similarityn,则此时根据召回评分的排序,选取前预设数量的短视频媒资作为目标短视频媒资进行召回显示。例如,若需要召回显示的短视频媒资为5个,则召回media1、media2、media3、media4和media5,即确定召回短视频媒资为media1、media2、
media3、media4和media5。
[0145]
在本实施例中,通过该短视频召回方法,能够快速准确的召回目标短视频,保证向用户推荐的目标短视频满足用户需求,提高用户体验。
[0146]
图7a为本公开实施例提供的一种语义理解模型训练装置的结构示意图,该装置配置于计算机设备中,可实现本技术任意实施例所述的语义理解模型训练方法,该装置具体包括如下:
[0147]
训练样本获取模块710,用于获取训练样本,其中,训练样本包括第一训练样本和第二训练样本,第一训练样本包括自然语言文本、自然语言文本对应的标签以及自然语言本文所属的领域,第二训练样本包括基于自然语言文本召回的短视频媒资的标题信息以及召回的短视频媒资对应的标签;
[0148]
定义模块720,用于定义语义理解模型,其中,语义理解模型包括第一语义理解模型和第二语义理解模型,第一语义理解模型和第二语义理解模型并联连接;
[0149]
语义向量生成模块730,用于基于第一训练样本和第一语义理解模型,生成对应的第一语义向量,基于第二训练样本和第二语义理解模型,生成对应的第二语义向量;
[0150]
模型确定模块740,用于基于第一语义向量和第二语义向量的损失函数值,对语义理解模型进行训练,得到目标语义理解模型。
[0151]
作为本公开实施例一种可选的实施方式,图7b为本公开实施例提供的一种语义理解模型训练装置的结构示意图,如图7b所示,模型确定模块包括:
[0152]
损失函数值确定单元7401,用于基于预设损失函数,确定第一语义向量和第二语义向量的损失函数值;
[0153]
调整单元7402,用于根据损失函数值,调整语义理解模型的参数,直至语义理解模型收敛,得到目标语义理解模型。
[0154]
作为本公开实施例一种可选的实施方式,调整单元的一种具体实现方式包括:
[0155]
在损失函数值不满足预设阈值时,基于第一训练样本对第一语义理解模型进行训练,调整第一语义理解模型的参数,并基于第二训练样本对第二语义理解模型进行训练,调整第二语义理解模型的参数;
[0156]
在第一语义理解模型输出的第一语义向量和第二语义理解模型输出的第二语义向量的损失函数值满足预设阈值时,得到目标语义理解模型。
[0157]
作为本公开实施例一种可选的实施方式,第一语义理解模型包括语义特征提取单元、全连接层和激活函数,其中,全连接层包括n个子全连接层,激活函数包括n个子激活函数,语义特征提取单元、全连接层和激活函数串联连接,n个子全连接层并联连接,n个子激活函数并联连接;
[0158]
语义特征提取单元用于将第一训练样本生成对应的语义特征向量;
[0159]
全连接层用于将语义特征向量映射到不同的子空间得到子语义特征向量;
[0160]
激活函数用于对全连接映射到子空间的子语义特征向量进行特征提取,并将各个子空间得到的子语义特征向量进行拼接处理,得到第一语义向量。
[0161]
作为本公开实施例一种可选的实施方式,可选的,还包括:
[0162]
负训练样本获取模块,用于获取训练样本对应的负训练样本,其中,负训练样本包括从训练样本数据集中选取的短视频媒资的标题信息。
[0163]
图8为本公开实施例提供的一种短视频召回装置的结构示意图,该装置配置于计算机设备中,可实现本技术任意实施例所述的短视频召回方法,该装置具体包括如下:
[0164]
信息获取模块810,用于获取待预测文本和待召回短视频媒资;
[0165]
语义向量获取模块820,用于将待预测文本输入第一目标语义理解模型中,得到待预测文本对应的第一目标语义向量,将待召回短视频媒资输入第二目标语义理解模型,得到待召回短视频媒资对应的第二目标语义向量;
[0166]
召回评分计算模块830,用于根据第一目标语义向量与第二目标语义向量,计算待预测文本与待召回短视频媒资的召回评分;
[0167]
召回模块840,用于根据召回评分,确定召回短视频媒资;
[0168]
其中,目标语义理解模型包括第一目标语义理解模型和第二目标语义理解模型,目标语义理解模型基于上述任一实施例所述的语义理解模型训练方法训练得到。
[0169]
本公开实施例所提供的短视频召回装置可执行本公开任意实施例所提供的短视频召回方法,具备执行方法相应的功能模块和有益效果,为避免重复,这里不再赘述。
[0170]
本公开实施例提供一种计算机设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本公开实施例中的任一种所述的语义理解模型训练方法,或者本公开实施例中的任一种所述的短视频召回方法。
[0171]
图9是本公开实施例提供的一种计算机设备的结构示意图。如图9所示,该计算机设备包括处理器910和存储装置920;计算机设备中处理器910的数量可以是一个或多个,图9中以一个处理器910为例;计算机设备中的处理器910和存储装置920可以通过总线或其他方式连接,图9中以通过总线连接为例。
[0172]
存储装置920作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本公开实施例中的语义理解模型训练方法对应的程序指令/模块;或者本公开实施例中的语义理解方法对应的程序指令/模块。处理器910通过运行存储在存储装置920中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现本公开实施例所提供的语义理解模型训练方法或者短视频召回方法。
[0173]
存储装置920可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置920可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置920可进一步包括相对于处理器910远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0174]
本实施例提供的一种计算机设备可用于执行上述任意实施例提供的方法,具备相应的功能和有益效果。
[0175]
本公开实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时实现上述任意实施例提供的方法执行的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0176]
其中,该计算机可读存储介质可以为只读存储器(read-only memory,rom)、随机
存取存储器(random access memory,ram)、磁碟或者光盘等。
[0177]
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0178]
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。