音频推荐模型的训练方法及装置、介质及设备与流程

文档序号:30706458发布日期:2022-07-09 23:34阅读:84来源:国知局
音频推荐模型的训练方法及装置、介质及设备与流程

1.本公开涉及人工智能技术领域,具体而言,涉及一种音频推荐模型的训练方法及装置,以及实现上述方法的计算机可读存储介质以及电子设备。


背景技术:

2.在播放音乐的场景中音乐应用一般会为用户提供歌单(随心听、音乐流、歌单推荐等等),以方便用户收听。随着人工智能技术的发展,确定推荐歌单的过程中也越来越多的考虑到用户喜好。
3.相关技术中,获取用户听歌的音乐序列,借助word2vec等思想来间接地得到音乐表示,进而训练音乐推荐模型以向用户推荐音乐。然而,该音乐推荐方案所推荐的歌曲中虽然可以刻画用户的听歌行为,但是由于用户行为一般均表现在头部热门音乐,因而,通过该方案推荐的歌曲中一般不能够包含缺乏用户行为的音乐。
4.可见,相关技术提供的音频推荐方案存在音乐曝光率低的问题。
5.需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现要素:

6.本公开的目的在于提供一种音频推荐模型的训练方法及装置、电子设备以及计算机可读存储介质,进而在一定程度上提升音乐的曝光率。
7.根据本公开的第一方面,提供一种音频推荐模型的训练方法,该方法包括:获取m组样本数据,每组样本数据包括目标音乐和用户播放上述目标音乐后的n首候选音乐,m、n为正整数;获取用户在播放第j组中目标音乐后播放上述第j组中第i首候选音乐的实际概率,得到关于上述第j组中音乐的实际概率分布,j为不大于m的正整数;基于上述音频推荐模型的待优化模型参数,确定用户在播放上述第j组中目标音乐后播放上述第j组中第i首候选音乐的模拟概率,得到关于上述第j组中音乐的模拟概率分布;以及,根据上述实际概率分布和上述模拟概率分布确定损失函数,基于上述损失函数优化上述模型参数,得到训练后的音频推荐模型。。
8.根据本公开的第二方面,提供了一种音频推荐模型的训练装置包括:样本获取模块、实际概率确定模块、模拟概率确定模块以及模型参数优化模块。
9.其中,上述样本获取模块,被配置为:获取m组样本数据,每组样本数据包括目标音乐和用户播放上述目标音乐后的n首候选音乐,m、n为正整数;上述模拟概率确定模块,被配置为:获取用户在播放第j组中目标音乐后播放上述第j组中第i首候选音乐的实际概率,得到关于上述第j组中音乐的实际概率分布,j为不大于m的正整数;上述实际概率确定模块,被配置为:基于上述音频推荐模型的待优化模型参数,确定用户在播放上述第j组中目标音乐后播放上述第j组中第i首候选音乐的模拟概率,得到关于上述第j组中音乐的模拟概率分布;上述模型参数优化模块,被配置为:根据上述实际概率分布和上述模拟概率分布确定
损失函数,基于上述损失函数优化上述模型参数,得到训练后的音频推荐模型。
10.在本公开的一种示例性实施例中,基于前述实施例,上述实际概率确定模块,被具体配置为:收集海量用户的关于上述第j组中目标音乐的听歌行为序列;在上述听歌行为序列中,对与上述第j组中目标音乐处于同一计算窗口之内的n首匹配音乐进行统计;以及,获取第i首候选音乐出现的次数,并对上述第i首候选音乐出现的次数进行归一化,得到上述用户在播放上述第j组中目标音乐后播放第i首候选音乐的实际概率
11.在本公开的一种示例性实施例中,基于前述实施例,上述模拟概率确定模块,包括:特征提取子模块和归一化子模块。
12.其中,上述特征提取子模块被配置为:基于上述音频推荐模型的第一参数对上述第j组中目标音乐进行特征提取,获取上述目标音乐对应的目标特征向量;上述归一化单元被配置为:基于上述音频推荐模型的第二参数和上述目标特征向量,确定用户在播放上述第j组中目标音乐后播放上述第j组中第i首候选音乐的模拟概率。
13.本公开的一种示例性实施例中,基于前述实施例,上述归一化子模块,被具体配置为:根据上述音频推荐模型的第二参数和上述目标特征向量,对上述n首候选音乐对应的模拟概率进行指数归一化处理,得到用户在播放上述第j组中目标音乐后播放上述第j组中第i首候选音乐的模拟概率。
14.在本公开的一种示例性实施例中,基于前述实施例,上述特征提取子模块,包括:特征序列获取单元和特征提取单元。
15.其中,上述特征序列获取单元被配置为:获取上述目标音乐对应的p个频域特征序列,p为大于1的整数;上述特征提取单元:基于上述音频推荐模型的第一参数,对上述p个频域特征序列进行特征提取,得到上述目标音乐对应的目标特征向量。
16.本公开的一种示例性实施例中,基于前述实施例,上述特征序列获取单元,被具体配置为:将上述目标音乐按照时域窗口划分为至少p个音频片段;对属于同一音频片段中的多个采样点进行时频转换,得到p个音频片段对应的频域序列;以及,分别对上述p个频域序列进行采样,将得到上述p个音频片段分别对应的p个频域特征序列。
17.本公开的一种示例性实施例中,基于前述实施例,上述特征提取单元,被具体配置为:调用上述音频推荐模型中级联的s层卷积神经网络层,以基于上述s层卷积神经网络层的第一参数对第x个频域特征序列进行特征提取,得到上述第x个频域特征序列对应的s个卷积特征向量,x为不大于p的整数;以及,将上述第x个频域特征序列对应的s个卷积特征向量进行拼接,得到上述第x个频域特征序列对应的片段特征向量,并拼接上述p个频域特征序列对应的片段特征向量,得到上述目标音乐对应的目标特征向量。
18.本公开的一种示例性实施例中,基于前述实施例,上述特征提取单元,还被具体配置为:在拼接上述p个频域特征序列对应的片段特征向量之后,对拼接后的片段特征向量进行池化处理,并将池化处理之后的向量作为上述目标音乐对应的目标特征向量。
19.在本公开的一种示例性实施例中,基于前述实施例,该音频推荐模型的训练装置还包括:子模型预训练模块。
20.其中,上述子模型预训练模块被配置为:基于上述s层卷积神经网络层的第一参数对预训练样本音频的频域特征序列进行特征提取,得到样本特征向量,以及与上述样本特征向量存在时域前后关系的正样本特征向量;获取与上述样本特征向量不存在时域前后关
系的负样本特征向量;以及,基于上述样本特征向量、上述正样本特征向量和上述负样本特征向量确定三元组损失函数,并基于上述三元组损失函数优化上述第一参数
21.在本公开的一种示例性实施例中,基于前述实施例,上述模型参数优化模块被具体配置为:根据上述实际概率分布和上述模拟概率分布确定相对熵函数;以及,通过计算上述相对熵函数的最小值,优化上述音频推荐模型的第二参数。
22.本公开的一种示例性实施例中,基于前述实施例,上述特征提取单元,还被具体配置为:将上述频域特征序列的第y个音频向量输入门控循环单元的第y个节点,y为不大于p的正整数;基于上述第一参数,根据上述第y个音频向量和第y-1个隐状态确定第y个隐状态,上述第y-1个隐状态为第y-1个节点输出的;以及,将p个节点依次输出的p个隐状态作为上述目标音乐对应的一个目标特征向量。
23.在本公开的一种示例性实施例中,基于前述实施例,上述模型参数优化模块,还被具体配置为:根据上述实际概率分布和上述模拟概率分布确定相对熵函数;以及,通过计算上述相对熵函数的最小值,优化上述音频推荐模型的第一参数和第二参数。
24.根据本公开的第三方面,提供一种基于人工智能的音频推荐方法,包括:获取目标用户当前播放的音乐,并将上述音乐输入训练后的音频推荐模型;根据上述音频推荐模型的第一参数对上述音乐进行特征提取,得到上述音乐对应的特征向量;根据上述音频推荐模型的第二参数和上述特征向量,预测上述目标用户在播放当前音乐后下一首播放音乐是第i首候选音乐的概率,得到关于n首候选音乐的预测概率分布;以及,根据上述关于n首候选音乐的预测概率分布确定推荐音乐列表。
25.根据本公开的第四方面,提供一种基于人工智能的音频推荐装置包括:获取模块、第一处理模块、第二处理模块以及推荐模块。
26.其中,上述获取模块,被配置为:获取目标用户当前播放的音乐,并将上述音乐输入训练后的音频推荐模型;上述第一处理模块,被配置为:根据上述音频推荐模型的第一参数对上述音乐进行特征提取,得到上述音乐对应的特征向量;上述第二处理模块,被配置为:根据上述音频推荐模型的第二参数和上述特征向量,预测上述目标用户在播放当前音乐后下一首播放音乐是第i首候选音乐的概率,得到关于n首候选音乐的预测概率分布;以及,上述推荐模块,被配置为:根据上述关于n首候选音乐的预测概率分布确定推荐音乐列表。
27.根据本公开的第五方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任意实施例所述的音频推荐模型的训练方法,以及实现上述第二方面中任意实施例所述的音频推荐模型的训练方法。
28.根据本公开的第六方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述第一方面中任意实施例所述的音频推荐模型的训练方法,以及执行上述第二方面中任意实施例所述的音频推荐模型的训练方法。
29.根据本公开的第七方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质中读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例中提供的音频推荐模型的训练方法。
30.本公开示例性实施例可以具有以下部分或全部有益效果:
31.在本公开的一示例实施方式所提供的基于人工智能的音频推荐方案中,音频推荐模型的训练过程中考虑到以下两方面,即用户在播放目标音乐后播放第i首候选音乐的实际概率以及训练过程中模型输出的模拟概率。进一步地根据两种概率分布来确定模型的损失函数。本方案基于用户听歌分布来训练模型,从而通过训练后的音频推荐模型推荐的音乐,既考虑到音乐的自身特征又包含对用户喜好的刻画,能够反映用户对音乐的真实喜好,有利于提升音频推荐度的准确度。
32.其中,上述目标音乐和候选音乐均可以是任意一首音乐,即不限于热门音乐或长尾音乐。也就是说,向用户推荐的音乐不仅可以是热门音乐也可能是长尾音乐。从而能够为用户推荐更加全面的音乐,更容易满足用户的听歌需求,且有利于提升音乐的曝光率。具体的,一方面,根据用户当前播放的目标音乐而推荐的音乐中可能包含长尾音乐,从而为用户推荐的音乐种类较为全面。另一方面,用户当前播放的为长尾音乐(即上述目标音乐为长尾音乐)的情况下,通过上述音频推荐模型也可以有效地为用户预测出推荐音乐,可见本方案可以满足喜欢长尾音乐的小众听歌用户的音频推荐需求,即对于不同听歌爱好的用户,均能够推荐其所喜欢的音乐。
33.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
34.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
35.图1示意性示出了可以应用本公开实施例的一种音频推荐模型的训练及装置的示例性应用环境的系统架构图。
36.图2示意性示出了根据本公开的一实施例的基于人工智能的音频推荐方法的流程图。
37.图3示意性示出了根据本公开的一实施例的音基于人工智能的音频推荐场景图。
38.图4示意性示出了根据本公开的一实施例的音频推荐模型的训练方法的流程图。
39.图5示意性示出了根据本公开的另一实施例的音频推荐模型的训练方法的流程图。
40.图6示出了根据本公开的一实施例的实际概率分布的获取方法的流程示意图。
41.图7示出了根据本公开的一实施例的候选音乐的模拟概率的确定方法的流程图。
42.图8示出了根据本公开实施例中目标特征向量的提取方法的流程示意图。
43.图9示出了根据本公开实施例中对特征提取子模型的训练方法的流程示意图。
44.图10示出了根据本公开另一实施例中目标特征向量的提取方法的示意图。
45.图11示出了根据本公开另一实施例中目标特征向量的提取方法的流程示意图。
46.图12示意性示出了可以应用本公开一实施例的音频推荐模型的训练装置的结构图。
47.图13示意性示出了根据本公开的一实施例的基于人工智能的音频推荐装置的结构图。
48.图14示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
具体实施方式
49.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
50.此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
51.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
52.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
53.语音技术(speech technology)的关键技术有自动语音识别技术(asr)和语音合成技术(tts)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
54.机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
55.本公开实施例提供的方案涉及人工智能的机器学习和语音计算等技术,具体通过如下实施例进行说明:
56.本技术方案提供的基于人工智能的音频推荐场景可以是:在音频应用的成熟期,
可以获取到丰富用户行为的全量音乐,从而能够更多维地刻画用户喜好,进而更易于推荐用户喜欢的音乐。
57.在音频推荐的过程中,音频表示是至关重要的。所谓音频表示,就是用一向量来表示一首音乐。这个向量可以用来计算歌曲相似度,比如用在“相似歌曲”场景下,将该向量可以作为特征服务于上游的排序模型,提高模型精确性。音频表示还可以服务于用户画像,以更精细地刻画用户喜好。
58.在音频表示的相关技术中,有可以对音乐本身音频序列进行加工、提取,使得提取出的音频表示。该音频表示构成不需要考虑用户行为,比较适用于音乐app的冷启动(即没有用户数据时期)。但是该音乐表示仅仅体现了音乐的特征,而没有体现用户行为特征,无法刻画用户喜好。
59.然而,另一种相关技术中通过用户听歌的音乐序列,借助word2vec等思想来间接地得到音乐的表示,进而向用户推荐音乐。正如前所述,通过该方案推荐的歌曲中一般不能够包含缺乏用户行为的长尾音乐。即存在长尾音乐曝光率低的问题,同时,用户在相关技术提供的推荐音乐中无法获取长尾音乐,导致无法全面地满足用户需求。
60.其中,上述长尾音乐是指具有长尾效应(英文名称long tail effect)的音乐。长尾效应中有“头”(head)和“尾”(tail)是两个统计学名词。正态曲线中间的突起部分叫“头”,两边相对平缓的部分叫“尾”。从用户需求的角度来看,大多数的需求会集中在头部,而这部分我们可以称之为流行,而分布在尾部的需求是个性化的,零散的小量的需求。而这部分差异化的、少量的需求会在需求曲线上面形成一条长长的“尾巴”,而所谓长尾效应就在于它的数量上,将所有非流行的市场累加起来就会形成一个比流行市场还大的市场。
61.对于文本、视频,可以适当放弃长尾部分而进行建模以实现内容推荐,这是因为长尾的文本、长尾的视频,用户阅读浏览少,质量不一定高,或者同质化严重(比如抄袭等等)。但对于音乐,并没有特别固定的标准来衡量音乐的“质量”。因为音乐相对抽象,而且同一种风格的热门音乐和冷门音乐,单纯从音频差异性来说,差异并不大,或者很难描述具体的差异性(不像视频,同一种风格的视频,“好看”和“难看”的差异非常大,文章也是,好文章和劣质文章的文笔相去甚远)。
62.可见,长尾音乐具备对应的价值,因此应该增加其曝光率,同时也可以满足不同用户的听歌需求。
63.针对相关技术存在的长尾音乐曝光率低且无法全面的满足用户听歌需求的问题,本技术方案基于用户听歌分布确定音频表示。具体实施方案将在以下实施例中展开说明。
64.图1示意性示出了可以应用本公开实施例的一种语音识别方法及装置的示例性应用环境的系统架构图。
65.如图1所示,系统架构100可以包括终端设备101、102、103中的一个或多个,网络104和服务端105。网络104用以在终端设备101、102、103和服务端105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图1中的终端设备、网络和服务端的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务端。比如服务端105可以是多个服务端组成的服务端集群等。
66.本公开实施例所提供的语音识别方法一般由服务端105执行,相应地,语音识别装置一般设置于服务端105中。但本领域技术人员容易理解的是,本公开实施例所提供的语音识别方法也可以由终端设备101、102、103执行,相应的,语音识别装置也可以设置于终端设备101、102、103中,本示例性实施例中对此不做特殊限定。
67.举例而言,在一种示例性实施例中,可以是终端设备101、102、103将m组样本数据,每组样本数据包括目标音乐和用户播放目标音乐后的n首候选音乐发送至服务端105,而且,终端设备101、102、103还可以获取用户在播放第j组中目标音乐后播放该组中第i首候选音乐的实际概率并发送至服务端105。服务端105基于音频推荐模型的待优化模型参数,确定用户在播放第j组中目标音乐后播放该组中第i首候选音乐的模拟概率,并得到关于该组中音乐的模拟概率分布。然后,服务端105根据上述实际概率分布和上述模拟概率分布确定损失函数,基于该损失函数优化所述模型参数,得到训练后的音频推荐模型。
68.示例性的,服务端105还可以将音频推荐模型发送至终端设备101、102、103,从而,用户可以通过终端设备101、102、103便可以直接获取推荐歌单。
69.以下对本技术方案提供的音频推荐模型的训练方法的实施例以及训练后音频推荐模型的使用场景的实施例进行详细阐述。首先,介绍训练后音频推荐模型的使用场景的实施例。其中,图2示意性示出了根据本公开的一实施例的基于人工智能的音频推荐方法的流程图。参考图2,该图所示实施例包括:
70.步骤s210,获取目标用户当前播放的音乐,并将所述音乐输入训练后的音频推荐模型;步骤s220,根据所述音频推荐模型的第一参数对所述音乐进行特征提取,得到所述音乐对应的特征向量;步骤s230,根据所述音频推荐模型的第二参数和所述特征向量,预测所述目标用户在播放当前音乐后下一首播放音乐是第i首候选音乐的概率,得到关于n首候选音乐的预测概率分布;以及,步骤s240,根据所述关于n首候选音乐的预测概率分布确定推荐音乐列表。
71.在示例性的实施例中,上述目标用户为正在当前正在播放的音乐对应的任一用户。其中,该音乐可以是任意音乐应用中当前正在播放的音乐,也可以是网页中正在播放的音乐,可以是热门音乐也可以是长尾音乐。参考图3,终端的应用或网页中当前正在播放“歌曲a”。
72.示例性的,首先获取目标用户当前正在播放“歌曲a”并将其输入训练后的音频推荐模型,以基于该模型的模型参数对“歌曲a”进行处理,其中相关处理的具体实施方式将在下述实施例中具体说明。并根据该模型的输出对目标用户播放下一首音乐的预存概率,得到多首音乐的预测概率分布。进一步地,根据上述预测概率分布中概率值的大小确定上述推荐音乐列表。
73.其中,概率值是根据上述音频推荐模型预测该用户在当前歌曲a后播放其他歌曲的概率,则,可以将概率值由大到小的顺序确定歌曲在推荐音乐列表的位置。参考图3,例如,歌曲a1、歌曲a2、歌曲a3
……
歌曲an分别对应的概率值是由大到小,则可以确定“推荐歌单”,推荐歌单中依次包括:歌曲a1、歌曲a2、歌曲a3
……
歌曲an。
74.示例性的,参考图3,用户在听完当前播放歌曲a或者当前歌曲a未播放完,便可以播放系统推荐的歌曲,示例性的,用户触控“推荐歌单”中的“歌曲a2”,便可以切换到系统推荐的歌曲a2,从而方便快捷地收听符合自己喜好的音乐。
75.以下实施例介绍对上述音频推荐模型的训练过程:
76.示例性的,图4示意性示出了根据本公开的一实施例的音频推荐模型的训练方法的流程图。首先结合图4在整体上介绍音频推荐模型的训练过程,对于每一组样本数据:一方面,首先通过音频推荐模型的特征提取层410对该组中的目标音乐进行特征提取。具体的,获取该组中目标音乐对应的多个音频特征,得到音频特征序列,例如频域特征序列g
’1~g’p
;对音频特征序列进行编码,得到该目标音乐对应的特征向量(记作“目标特征向量h”)。进一步地,通过音频推荐模型的归一化层420以及上述目标特征向量h,预测用户播放下一首音乐(该组中候选音乐)的概率,得到关于同组中各个候选音乐的模拟概率分布q’。另一方面,获取用户在播放该组中目标音乐后播放该组中各个候选音乐的实际概率,得到关于该组中各个候选音乐的实际概率分布q。并通过上述模拟概率分布q’和实际概率分布q确定损失函数430,根据该损失函数训练音频推荐模型。
77.示例性的,图5示意性示出了根据本公开的另一实施例的音频推荐模型的训练方法的流程图。然后结合图5对本方案展开详细介绍,参考图5,该图所示实施例包括步骤s510-步骤s540。
78.在步骤s510中,获取m组样本数据,每组样本数据包括目标音乐和用户播放所述目标音乐后的n首候选音乐,m、n为正整数。
79.其中,上述目标音乐为任一首歌曲,同一组样本中的候选音乐为用户听该组中目标音乐后可能会听的音乐。通过音频推荐模型,能够根据用户当前播放的音乐(上述目标音乐)预测用户播放下一首音乐(同组中的候选音乐)的概率,进一步地,得到关于同组中各个候选音乐的模拟概率分布。同前所述,上述目标音乐和候选音乐均可以包括热门音乐和长尾音乐,同时不限定音乐的风格类型,例如上述目标音乐/候选音乐可以为民谣、说唱、国风、电音、摇滚等。
80.在步骤s520中,获取用户在播放第j组中目标音乐后播放所述第j组中第i首候选音乐的实际概率,得到关于所述第j组中音乐的实际概率分布,j为不大于m的正整数。
81.在示例性的实施例中,作为步骤s520的一种具体实施方式,图6示出了根据本公开的一实施例的实际概率分布的获取方法的流程示意图,包括:
82.步骤s521,收集海量用户的关于所述第j组中目标音乐的听歌行为序列;步骤s522,在所述听歌行为序列中,对与所述第j组中目标音乐处于同一计算窗口之内的n首匹配音乐进行统计;以及,步骤s523,获取第i首候选音乐出现的次数,并对所述第i首候选音乐出现的次数进行归一化,得到所述用户在播放所述第j组中目标音乐后播放第i首候选音乐的实际概率。
83.示例性的,收集海量用户的听歌行为序列,在听歌行为序列中统计与目标音乐x处于同一计算窗口c之内的n首匹配音乐;获取第i首匹配音乐出现的次数,并对第i首匹配音乐出现的次数进行归一化,得到用户在播放目标音乐后播放第i首匹配音乐的实际概率qi,得到关于n首匹配音乐的实际概率分布q=[q1,q2,q3,
…qn
]。
[0084]
例如,获取关于3个用户的听歌序列,其听歌行为序列分别为{s5,s7,s1,s8,s3,s2}、{s5,s2,s1,s9,s3,s2}、{s1,s4,s6},其中,s1、s2
……
代表不同的歌曲,计算窗口大小设置为c=2。则对于音乐s2(目标音乐)而言,上述第一个用户的听歌行为序列中与目标音乐相关的目标窗口为:(s3,s2),上述第二个用户的听歌行为序列中与目标音乐相关的目标
窗口为:[(s5,s2)、(s3,s2)],上述第三个用户的听歌行为序列与目标音乐不相关。可见,与目标音乐s2处于同一个计算窗口的音乐为{s3,s5,s1},并且,上述{s3,s5,s1}分别出现次数为{2,1,1}。对其进行归一化处理,得到{s3,s5,s1}概率分布为{1/2,1/4,1/4}。也就是说,用户播放目标音乐s2之后:用户播放s3的概率是1/2,播放s5的概率是1/4,播放s1的概率是1/4,而播放s1、s4、s6、s7,s8,s9的概率均为0,从而得到关于候选音乐[s1,s3,s4,s5,s6,s7,s8,s9]一个完整的实际概率分布q=[1/4,1/2,0,1/4,0,0,0,0]。
[0085]
需要说明的是,在用户听歌行为序列越多,训练后的音频推荐模型的预测准确度越高。也即是说,本技术方案适用于能过获取到的用户行为数据比较多的场景,基于海量的用户行为数据训练模型,以达到模型输出能过刻画出用户真实的听歌喜好的技术效果。
[0086]
继续参考图5,在步骤s530中,基于所述音频推荐模型的待优化模型参数,确定用户在播放所述第j组中目标音乐后播放所述第j组中第i首候选音乐的模拟概率,得到关于所述第j组中音乐的模拟概率分布。
[0087]
在示例性的实施例中,图7示出了根据本公开的一实施例的候选音乐的模拟概率的确定方法的流程图,可以作为步骤s530的一种具体实施方式。参考图7,该图所示实施例包括步骤s531-步骤s532。
[0088]
在步骤s531中,基于所述音频推荐模型的第一参数对所述第j组中目标音乐进行特征提取,获取所述目标音乐对应的目标特征向量。
[0089]
在示例性的实施例中,图8示出了根据本公开实施例中目标特征向量的提取方法的流程示意图。参考图8,包括步骤s810-步骤s850。其中,步骤s810-步骤s830用于获取目标音乐对应的多个频域特征序列,步骤s840和步骤s850用于基于音频推荐模型的第一参数,对上述目标音乐的多个频域特征序列进行特征提取。具体地:
[0090]
在步骤s810中,将所述目标音乐按照时域窗口划分为至少p个音频片段,p为大于1的整数;在步骤s820中,对属于同一音频片段中的多个采样点进行时频转换,得到p个音频片段对应的频域序列;以及,在步骤s830中,分别对所述p个频域序列进行采样,将得到所述p个音频片段分别对应的p个频域特征序列。
[0091]
需要说明的是,音频信号有时域和频域这两种维度的表达,上述目标音乐对应的特征序列既可以是关于目标音乐的时域特征序列,也可以是关于目标音乐的频域特征序列。本实施例中以频域特征序列为例进行说明。
[0092]
示例性的,在时间维度上对目标音乐进行采样,得到包含多个采样信号的离散时间序列。然后,对离散时间序列进行分组,将得到的多个音频片段。例如,先在时间维度上对上述目标音乐进行采样,比如每隔0.1s采样一个音频信号tk(k为小于等于n的正整数),得到离散的时间序列t1~tn,其中,每个tk值代表音频在该采样点上的大小。然后再按固定时间段(比如3s)将上述离散的时间序列进行组合。如上所述,时间段长度为3s且采样间隔0.1s,那么,每个音频片段就包含了3s/0.1s=30个值。示例性的,将离散时间序列t1~t
30
作为一组,并记作g1,离散时间序列t
31
~t
60
作为一组,并记作g2,依次类推得到多个音频片段:g1~g
p

[0093]
进一步地,对上述音频片段进行时频转换,将得到目标音乐的频域特征序列。例如,对每个音频片段进行时频变换,示例性的,通过fft(fast fourier transform,快速傅立叶变换)、mfcc(mel frequency cepstrum coefficient,梅尔频率倒谱系数)或dft
(discrete fourier transform,离散傅里叶变换)实现频域转换,得到每组个音频片段对应的频率信号,代表每个音频片段所包含的不同频率分布。进一步地,对每组个音频片段对应的频率信号进行采样,比如每间隔10hz采样一次,就得到一个离散的频率序列f1~fn。假设频率的上下限是0~f,那么每个频率序列的个数是f/10,每个音频片段g
x
(x取值为不大于p的正整数)都可以表示成f/10个频率序列。对于音乐,音乐的某些部分低音很重,那对应的时间序列g
x
中低频值就很大,有些部分高音很高,那对应的时间序列g
x
中高频值很大。假设有p个g
x
,那就得到一个pxn的矩阵,可以作为上述目标音乐对应的p个频域特征序列。
[0094]
作为一种根据目标音乐频域特征序列确定上述目标特征向量的示例性的实施例:
[0095]
基于预训练的特征提取子模型对上述p个频域特征序列进行特征提取,以得到目标音乐对应的目标特征向量。其中,预训练的特征提取子模型包含级联的s层卷积神经网络层。其中,图9示出了根据本公开实施例中对特征提取子模型的训练方法的流程示意图。参考图9,该方法包括:
[0096]
步骤s910,基于所述s层卷积神经网络层的第一参数对预训练样本音频的频域特征序列进行特征提取,得到样本特征向量,以及与所述样本特征向量存在时域前后关系的正样本特征向量;步骤s920,获取与所述样本特征向量不存在时域前后关系的负样本特征向量;以及,步骤s930,基于所述样本特征向量、所述正样本特征向量和所述负样本特征向量确定三元组损失函数,并基于所述三元组损失函数优化所述第一参数。
[0097]
其中,三元组损失的目的就是通过迭代优化,让属于音频正样本对的样本特征向量anchor和正样本特征向量positive的特征表达之间的第一距离尽可能小,而属于音频负样本对的样本特征向量anchor和负样本特征向量negative的特征表达之间的第二距离尽可能大。当上述第一距离和第二距离分别满足预设要求时,特征提取子模型的模型参数取得最优值。
[0098]
具体地,样本特征向量anchor和正样本特征向量positive之间的时域前后关系指的是:样本特征向量anchor的结尾部分与正样本特征向量positive的开头部分在时域上相连,或者,样本特征向量anchor的开头部分与正样本特征向量positive的结尾部分在时域上相连。如:样本特征向量anchor和正样本特征向量positive本分别对应同一首歌曲里的第一小节和第二小节。
[0099]
相对应的,样本特征向量anchor和负样本特征向量negative之间不存在同一音频中的时域前后关系。具体的:样本特征向量anchor的结尾部分与负样本特征向量negative的开头部分在时域上不相连,或者,样本特征向量anchor的开头部分与负样本特征向量negative的结尾部分在时域上不相连。如:样本特征向量anchor和负样本特征向量negative分别来着不同首歌。
[0100]
进一步地,基于上述预训练的特征提取子模型对目标音乐的频域特征序列进行特征提取。继续参考图8,在步骤s840中,调用所述音频推荐模型中级联的s层卷积神经网络层,以基于所述s层卷积神经网络层的第一参数对第x个频域特征序列进行特征提取,得到所述第x个频域特征序列对应的s个卷积特征向量,x为不大于p的整数。
[0101]
本实施例中,通过多个级联的卷积神经网络层,能提取出目标音乐的不同粒度的信息,以便于获得更好的音频表示效果。其中,级联的s层卷积神经网络层包括:第一卷积神经网络层至第s卷积神经网络层,且上一层神经网络的输出作为下一次神经网络的输入。则
本实施例中,越上层的卷积神经网络层,卷积核尺寸越大,步长越长,从而使得输出的卷积特征向量维度越小,音频表示的粒度越粗。
[0102]
示例性的,上一层卷积神经网络层的卷积核尺寸小于下层卷积神经网络层的卷积核尺寸。示例性的,上一层卷积神经网络层的步长小于下一层卷积神经网络层的步长。
[0103]
需要说明的是,卷积核尺寸和步长均为卷积神经网络层的参数,可以用于控制卷积神经网络层输出的片段样本特征向量的尺寸。卷积神经网络层可以包括若干个卷积核,卷积核在工作时,会有规律地扫过音频片段样本对应的特征序列,在感受野内进行矩阵元素乘法求和并叠加偏差量。具体的,卷积核尺寸决定感受野的大小。步长定义卷积核相邻两次扫过特征序列时位置的距离。例如,当步长为1时,卷积核会逐个扫过特征序列的元素。
[0104]
在步骤s850中,将所述第x个频域特征序列对应的s个卷积特征向量进行拼接,得到所述第x个频域特征序列对应的片段特征向量,并拼接所述p个频域特征序列对应的片段特征向量,得到所述目标音乐对应的目标特征向量。
[0105]
在示例性的实施例中,特征提取子模型包括级联的4层卷积神经网络层。对于第x个频域特征序列,通过上述卷积神经网络层,分别得到4个卷积特征向量t1、t2、t3和t4。按照卷积神经网络层的顺序进行拼接,拼接得到第x个频域特征序列对应的片段特征向量{t1,t2,t3,t4}。同理,获取p个频域特征序列分别对应的片段特征向量,并进行拼接处理,则得到目标音乐对应的目标特征向量。
[0106]
在示例性的实施例中,还可以对拼接后的片段特征向量进行池化处理,并将池化处理之后的向量作为所述目标音乐对应的目标特征向量。其中,对拼接后的片段特征向量池化处理可以使得向量降维,以压缩数据和参数的数量,从而减小过拟合。
[0107]
作为另一种根据目标音乐频域特征序列确定上述目标特征向量的示例性的实施例:
[0108]
参考图10示出的根据本公开另一实施例中目标特征向量的提取方法的示意图。
[0109]
将上述目标音乐对应的频域特征序列g
’1~g’p
作为编码层encoder1010的输入。则进一步地,在encoder 1010中,基于包含待优化的参数的编码方程对频域特征序列编码,以将包含多个变量的频域特征序列处理为一个向量[h1,h2,h3,
……
,h
p
],即得到上述目标特征向量h。
[0110]
具体的,对上述频域特征序列g
’1~g’p
进行编码处理的encoder 1010可以是循环神经网络(recurrent neural network,简称:rnn)、长短期记忆(long short-term memory,简称:lstm)神经网络、或lstm的变体门控循环单元(gated recurrent unit,简称:gru)神经网络,或双向长短期记忆(bi-directional lstm,简称:bi lstm)网络。
[0111]
参考图10,以gru网络作为上述编码层1010,对上述频域特征序列g
’1~g’p
进行编码处理的实施例进行说明。即通过gru网络对待识别语音频域特征序列g
’1~g’p
进行编码,得到对应的编码隐状态序列(即目标音乐对应的目标特征向量)。具体的,结合图10,将频域特征序列[g
’1,g
’2,g
’3,
……
,g’p
]输入编码层1010,以基于包含待优化参数的编码方程对频域特征序列编码,可以通过编码层1010的编码函数获取一隐状态序列为:h=[h1,h2,h3,
……
,h
p
]。
[0112]
具体的,图11示出了根据本公开另一实施例中目标特征向量的提取方法的流程示意图。参考图11,包括:
[0113]
步骤s1110,将所述频域特征序列的第y个音频向量输入门控循环单元的第y个节点,y为不大于p的正整数;步骤s1120,基于所述第一参数,根据所述第y个音频向量和第y-1个隐状态确定第y个隐状态,所述第y-1个隐状态为第y-1个节点输出的;以及,步骤s1130,将p个节点依次输出的p个隐状态作为所述目标音乐对应的一个目标特征向量。
[0114]
需要说明的是,确定目标音乐对应的目标特征向量的方式不限于上述两种,还可以是其他获取方式,在此不作限定。
[0115]
继续参考图7,在步骤s532中,基于所述音频推荐模型的第二参数和所述目标特征向量,确定用户在播放所述第j组中目标音乐后播放所述第j组中第i首候选音乐的模拟概率。
[0116]
在示例性的实施例中,继续参考图4,基于模型中归一化层420的待优化的归一化参数(即上述第二参数)以及上述目标特征向量h,对该组中每首候选音乐对应的模拟概率进行指数归一化处理,得到用户在播放第j组中目标音乐后播放该组中第i首候选音乐的模拟概率。具体的,归一化处理的一种具体实施方式如下公式:
[0117][0118]
其中,pi为用户在播放第i组中目标音乐后播放该组中第i首候选音乐的模拟概率,wi为第i首候选音乐对应的归一化参数,h为该目标音乐对应的目标特征向量。
[0119]
从而,归一化层输出每首候选音乐的模拟概率,得到关于n首候选音乐的模拟概率分布q’=[p1,p2,p3,
……
pn]。
[0120]
继续参考图5,在步骤s540中,根据所述实际概率分布和所述模拟概率分布确定损失函数,基于所述损失函数优化所述模型参数,得到训练后的音频推荐模型。
[0121]
在示例性的实施例中,继续参考图4,根据实际概率分布q=[q1,q2,q3,
……qn
]与模拟概率分布q’=[p1,p2,p3,
……
pn]确定相对熵函数作为损失函数430.具体如下公式;进一步地,通过计算该相对熵函数的最小值,优化上述音频推荐模型的第一参数以及第二参数。
[0122][0123]
示例性的,过计算实际概率分布和模拟概率分布的交叉熵损失,并将随时进行回传以优化上述第一参数和第二参数,从而完成一次迭代过程。通过多轮迭代优化,以使得模型参数达到满足预设模型评价指标的状态。
[0124]
在示例性的实施例中,通过以下模型评价指标中的一种或多种:准确率、召回率和接收者操作特征曲线(receiver operating characteristic curve,简称:roc)下面积auc(一种模型评价指标,具体用于评估模型的预测价值;是area under curve的简称)对上述迭代优化后的音频推荐模型进行评价。具体的:
[0125]
示例性的,通过训练样本进行迭代优化之后,再通过测试样本对迭代优化后中的音频推荐模型(记作“待测试模型”)进行测试,并且使用至少一种测试指标对待测试模型的测试结果进行验证,并将符合测试指标的音频锐减模型进行图2所示实施例的根据用户正在播放中的当前音乐预测推荐音乐列表。
[0126]
在示例性的实施例中,具体地对待测试模型进行测试的方式可以是:
[0127]
首先,根据测试样本的描述特征输入至待测试模型,模型的输出数据得到以下:真阳性tp,真阴性tn,伪阴性fn和伪阳性fp。其中,tp是利用待测试模型对测试样本集中正类进行判断后属于仍是正类的数目,tn利用待测试模型对测试样本集负类进行判断后属于仍是负类的数目,fn利用待测试模型对测试样本集中正类进行判断后属于是负类的数目,fp利用待测试模型对测试样本集负类进行判断后属于是正类的数目。正类和负类是指人工对第一部分样本标注的两种类别,即人工标注某个样本属于特定的类,则该样本属于正类,不属于该特定类的样本则属于负类。
[0128]
其次,根据真阳性tp,真阴性tn,伪阴性fn和伪阳性fp计算待测试模型的测试结果。
[0129]
在示例性的实施例中,测试指标以准确率、召回率为例进行介绍。具体的:
[0130]
根据以下两个公式分别计算准确率p和召回率r;
[0131]
p=tp/(tp+fp)
[0132]
r=tp/(tp+fn)
[0133]
假如,测试指标对应的设定条件为:准确率测试结果大于p’(预设值)则为满足准确率设定条件,否则不满足准确率设定条件,以及召回率测试结果大于r’(预设值)则为满足召回率设定条件,否则不满足召回率设定条件。
[0134]
在示例性的实施例中,在测试结果满足测试指标对应的设定条件的情况下,则待测试模型可以作为用于根据用户当前播放的音乐预测待推荐音乐列表的预测模型;在测试结果不满足设定条件时,则上述待测试模型继续迭代优化直至所述待测试模型的测试结果满足设定条件。
[0135]
在示例性的实施例中,判断测试结果是否满足测试指标对应的设定条件时,可以是仅以准确率或召回率作为测试指标,即正确率/召回率满足设定条件即可;还可以同时以准确率和召回率同时作为测试指标,即正确率和召回率满足设定条件即可。
[0136]
需要说明的是,具体的测试方式根据实际需求而制定,不限于以上准确率和/或召回率作为测试指标进行测试。
[0137]
在示例性的实施例中,测试指标还可以为auc。具体的:
[0138]
在示例性的实施例中,利用以下两公式分布确定伪阳性率fpr和真阳性率tpr,
[0139]
fpr=fp/(fp+tn)
[0140]
tpr=tp/(tp+fn)
[0141]
进一步地,以fpr为横坐标,tpr为纵坐标,绘制受试者工作特征曲线(receiver operating characteristic curve,简称roc曲线)。其中,roc曲线是获得的各指标的特征曲线,用于展示各指标之间的关系,并进一步计算出roc曲线下面积auc。roc曲线是获得的各指标的特征曲线,用于展示各指标之间的关系,auc即roc曲线下面积,auc越大,则模型的预测价值越高,进而可通过auc对待测试模型进行测试。并可以在评价结果为auc值满足预设阈值时,便可以将得到的模型用于根据用户当前播放的音乐预测推荐音乐列表。即给定一首目标音乐,该模型能预测出用户听目标音乐后,下一首会听的其他音乐的概率分布。
[0142]
在示例性的实施例中,在得到满足预测模型评价指标的音乐推荐模型之后,可以结合图7对图2所示实施例中进行解释说明:
[0143]
在步骤s220中,基于训练后音频推荐模型的第一参数获取目标用户当前播放的音乐的音频特征序列(例如频域特征序列),并对其进行编码得到特征向量(参考步骤s531对应的实施例)。进一步地,在步骤s230中根据训练后音频推荐模型的第二参数和上述特征向量,预测用户下一首播放音乐是第i首候选音乐的概率(参考步骤s532对应的实施例),得到关于n首候选音乐的预测概率分布。最终得到如图3所示的“推荐歌单”。
[0144]
其中,在该“推荐歌单”中的音乐融合了根据大数据而确定的用户听歌喜好,且可以根据喜好程度(根据概率大小确定)由高到低的顺序对各个候选音乐进行排序。
[0145]
本领域技术人员可以理解实现上述实施方式的全部或部分步骤被实现为由处理器(包含cpu和gpu)执行的计算机程序。在该计算机程序被处理器执行时,执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
[0146]
此外,需要注意的是,上述附图仅是根据本公开示例性实施方式的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
[0147]
以下对本技术方案提供的音频推荐模型的训练装置进行介绍:
[0148]
本示例实施方式中提供的一种音频推荐模型的训练装置。参考图12所示,该音频推荐模型的训练装置1200包括:样本获取模块1201、实际概率确定模块1202、模拟概率确定模块1203以及模型参数优化模块1204。
[0149]
其中,上述样本获取模块1201,被配置为:获取m组样本数据,每组样本数据包括目标音乐和用户播放所述目标音乐后的n首候选音乐,m、n为正整数;上述模拟概率确定模块1202,被配置为:获取用户在播放第j组中目标音乐后播放所述第j组中第i首候选音乐的实际概率,得到关于所述第j组中音乐的实际概率分布,j为不大于m的正整数;上述实际概率确定模块1203,被配置为:基于所述音频推荐模型的待优化模型参数,确定用户在播放所述第j组中目标音乐后播放所述第j组中第i首候选音乐的模拟概率,得到关于所述第j组中音乐的模拟概率分布;上述模型参数优化模块1204,被配置为:根据所述实际概率分布和所述模拟概率分布确定损失函数,基于所述损失函数优化所述模型参数,得到训练后的音频推荐模型。
[0150]
在本公开的一种示例性实施例中,基于前述实施例,上述实际概率确定模块1202,被具体配置为:收集海量用户的关于所述第j组中目标音乐的听歌行为序列;在所述听歌行为序列中,对与所述第j组中目标音乐处于同一计算窗口之内的n首匹配音乐进行统计;以及,获取第i首候选音乐出现的次数,并对所述第i首候选音乐出现的次数进行归一化,得到所述用户在播放所述第j组中目标音乐后播放第i首候选音乐的实际概率
[0151]
在本公开的一种示例性实施例中,基于前述实施例,上述模拟概率确定模块1203,包括:特征提取子模块12031和归一化子模块12032。
[0152]
其中,上述特征提取子模块12031被配置为:基于所述音频推荐模型的第一参数对所述第j组中目标音乐进行特征提取,获取所述目标音乐对应的目标特征向量;上述归一化单元12032被配置为:基于所述音频推荐模型的第二参数和所述目标特征向量,确定用户在播放所述第j组中目标音乐后播放所述第j组中第i首候选音乐的模拟概率。
[0153]
本公开的一种示例性实施例中,基于前述实施例,上述归一化子模块12032,被具体配置为:根据所述音频推荐模型的第二参数和所述目标特征向量,对所述n首候选音乐对应的模拟概率进行指数归一化处理,得到用户在播放所述第j组中目标音乐后播放所述第j组中第i首候选音乐的模拟概率。
[0154]
在本公开的一种示例性实施例中,基于前述实施例,上述特征提取子模块12031,包括:特征序列获取单元311和特征提取单元312。
[0155]
其中,上述特征序列获取单元311被配置为:获取所述目标音乐对应的p个频域特征序列,p为大于1的整数;上述特征提取单元312:基于所述音频推荐模型的第一参数,对所述p个频域特征序列进行特征提取,得到所述目标音乐对应的目标特征向量。
[0156]
本公开的一种示例性实施例中,基于前述实施例,上述特征序列获取单元311,被具体配置为:将所述目标音乐按照时域窗口划分为至少p个音频片段;对属于同一音频片段中的多个采样点进行时频转换,得到p个音频片段对应的频域序列;以及,分别对所述p个频域序列进行采样,将得到所述p个音频片段分别对应的p个频域特征序列。
[0157]
本公开的一种示例性实施例中,基于前述实施例,上述特征提取单元312,被具体配置为:调用所述音频推荐模型中级联的s层卷积神经网络层,以基于所述s层卷积神经网络层的第一参数对第x个频域特征序列进行特征提取,得到所述第x个频域特征序列对应的s个卷积特征向量,x为不大于p的整数;以及,将所述第x个频域特征序列对应的s个卷积特征向量进行拼接,得到所述第x个频域特征序列对应的片段特征向量,并拼接所述p个频域特征序列对应的片段特征向量,得到所述目标音乐对应的目标特征向量。
[0158]
本公开的一种示例性实施例中,基于前述实施例,上述特征提取单元312,还被具体配置为:在拼接所述p个频域特征序列对应的片段特征向量之后,对拼接后的片段特征向量进行池化处理,并将池化处理之后的向量作为所述目标音乐对应的目标特征向量。
[0159]
在本公开的一种示例性实施例中,基于前述实施例,该音频推荐模型的训练装置1200还包括:子模型预训练模块1205。
[0160]
其中,上述子模型预训练模块1205被配置为:基于所述s层卷积神经网络层的第一参数对预训练样本音频的频域特征序列进行特征提取,得到样本特征向量,以及与所述样本特征向量存在时域前后关系的正样本特征向量;获取与所述样本特征向量不存在时域前后关系的负样本特征向量;以及,基于所述样本特征向量、所述正样本特征向量和所述负样本特征向量确定三元组损失函数,并基于所述三元组损失函数优化所述第一参数
[0161]
在本公开的一种示例性实施例中,基于前述实施例,上述模型参数优化模块1204被具体配置为:根据所述实际概率分布和所述模拟概率分布确定相对熵函数;以及,通过计算所述相对熵函数的最小值,优化所述音频推荐模型的第二参数。
[0162]
本公开的一种示例性实施例中,基于前述实施例,上述特征提取单元312,还被具体配置为:将所述频域特征序列的第y个音频向量输入门控循环单元的第y个节点,y为不大于p的正整数;基于所述第一参数,根据所述第y个音频向量和第y-1个隐状态确定第y个隐状态,所述第y-1个隐状态为第y-1个节点输出的;以及,将p个节点依次输出的p个隐状态作为所述目标音乐对应的一个目标特征向量。
[0163]
在本公开的一种示例性实施例中,基于前述实施例,上述模型参数优化模块1204,还被具体配置为:根据所述实际概率分布和所述模拟概率分布确定相对熵函数;以及,通过
intelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。
[0174]
需要说明的是,本公开实施例所示的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(erasable programmable read only memory,eprom)、闪存、光纤、便携式紧凑磁盘只读存储器(compact disc read-only memory,cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
[0175]
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0176]
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
[0177]
作为另一方面,本技术还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
[0178]
例如,所述的电子设备可以实现如图5中所示的:步骤s510,获取m组样本数据,每组样本数据包括目标音乐和用户播放所述目标音乐后的n首候选音乐,m、n为正整数;步骤s520,获取用户在播放第j组中目标音乐后播放所述第j组中第i首候选音乐的实际概率,得到关于所述第j组中音乐的实际概率分布,j为不大于m的正整数;步骤s530,基于所述音频推荐模型的待优化模型参数,确定用户在播放所述第j组中目标音乐后播放所述第j组中第i首候选音乐的模拟概率,得到关于所述第j组中音乐的模拟概率分布;以及,步骤s540,根
据所述实际概率分布和所述模拟概率分布确定损失函数,基于所述损失函数优化所述模型参数,得到训练后的音频推荐模型。
[0179]
再例如,所述的电子设备可以实现如其他附图中所示的各个步骤。
[0180]
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
[0181]
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
[0182]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
[0183]
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1