1.本发明实施例涉及通信技术领域,具体涉及一种视频彩铃配乐推荐方法、装置、设备以及计算机存储介质。
背景技术:2.视频彩铃是一种视频形式的彩铃,在用户呼叫时播放给用户。相较传统的音频彩铃而言,视频彩铃内容更丰富,用户体验更佳。现有技术中用户可以自己上传音乐或者选择音乐库中预设的音乐来作为视频彩铃的背景音乐。
3.发明人在实施本发明实施例的过程中发现:现有的视频彩铃的配乐不够智能,存在制作的效率较低、与彩铃的使用者或使用场景的契合度不高等问题,从而导致视频彩铃的用户体验不佳。
技术实现要素:4.鉴于上述问题,本发明实施例提供一种视频彩铃配乐推荐方法,用于解决现有技术中存在的视频彩铃的用户体验不佳的问题。
5.根据本发明实施例的一个方面,提供一种视频彩铃配乐推荐方法,所述方法包括:
6.确定目标用户上传的待配乐视频对应的初始推荐音乐;
7.根据用户历史彩铃数据确定所述目标用户的配乐偏好信息;所述用户历史彩铃数据包括所述目标用户以及所述目标用户的关联用户对应的历史彩铃数据;
8.根据所述配乐偏好信息对所述初始推荐音乐进行调整,得到所述待配乐视频对应的目标推荐音乐。
9.在一种可选的方式中,所述方法还包括:
10.根据所述待配乐视频的目标视频标签在预设的索引中查找,得到所述初始推荐音乐;所述索引包括多个可选音乐与多个可选视频标签的匹配度;所述匹配度根据各个所述可选音乐被全部用户使用的总时间以及在所述总时间内的各个时间单位中在各个所述可选视频标签下被使用的次数确定。
11.在一种可选的方式中,所述方法还包括:
12.根据所述目标用户对应的第一历史彩铃数据确定所述目标用户在所述待配乐视频的目标视频标签下的第一历史匹配音乐以及针对所述第一历史匹配音乐的第一历史兴趣度;
13.根据音频特征提取模型分别提取所述第一历史匹配音乐以及初始推荐音乐的音乐特征向量;所述音频特征提取模型以音频频率向量以及标签文本向量为输入、以音乐特征向量为输出训练得到;
14.根据所述音乐特征向量以及所述第一历史兴趣度确定所述配乐偏好信息。
15.在一种可选的方式中,所述音频特征提取模型基于变分自编码器,所述变分自编码器的隐空间根据全部用户针对所述可选音乐的历史使用数据构建。
16.在一种可选的方式中,所述方法还包括:
17.根据所述音乐特征向量确定所述初始推荐音乐与所述第一历史匹配音乐之间的第一相似度;
18.确定所述目标用户针对所述初始推荐音乐的第二历史兴趣度;
19.根据所述第二历史兴趣度、第一相似度以及第一历史兴趣度确定所述配乐偏好信息。
20.在一种可选的方式中,所述第一历史匹配音乐为多个;所述方法还包括:
21.根据所述第一历史彩铃数据确定多个所述第一历史匹配音乐之间的第二相似度;
22.根据所述第二相似度和第一历史兴趣度确定所述目标用户针对所述第一历史匹配音乐的第一配乐偏好度;
23.根据所述第一相似度和第二历史兴趣度确定所述目标用户针对所述初始推荐音乐的第二配乐偏好度。
24.在一种可选的方式中,所述方法还包括:
25.根据所述关联用户对应的第二历史彩铃数据确定所述关联用户在所述目标视频标签下的第二历史匹配音乐以及针对所述第二历史匹配音乐的第三历史兴趣度;
26.根据所述音频特征提取模型确定所述第二历史匹配音乐与所述目标推荐音乐之间的第三相似度;
27.根据第三相似度和所述第三历史兴趣度确定所述目标用户针对所述第二历史匹配音乐的第三配乐偏好度。
28.根据本发明实施例的另一方面,提供一种视频彩铃配乐推荐装置,包括:
29.第一确定模块,用于确定目标用户上传的待配乐视频对应的初始推荐音乐;
30.第二确定模块,用于根据用户历史彩铃数据确定所述目标用户的配乐偏好信息;所述用户历史彩铃数据包括所述目标用户以及所述目标用户的关联用户对应的历史彩铃数据;
31.调整模块,用于根据所述配乐偏好信息对所述初始推荐音乐进行调整,得到所述待配乐视频对应的目标推荐音乐。
32.根据本发明实施例的另一方面,提供一种视频彩铃配乐推荐设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
33.所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如前述任意一项所述的视频彩铃配乐推荐方法的操作。
34.根据本发明实施例的又一方面,提供一种计算机可读存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使视频彩铃配乐推荐设备执行如前述任意一项所述的视频彩铃配乐推荐方法的操作。
35.本发明实施例通过确定目标用户上传的待配乐视频对应的初始推荐音乐;其中,初始推荐音乐可以根据大数据确定,用于表征当前流行的配乐趋势,根据用户历史彩铃数据确定所述目标用户的配乐偏好信息;所述用户历史彩铃数据包括所述目标用户以及所述目标用户的关联用户对应的历史彩铃数据;根据所述配乐偏好信息对所述初始推荐音乐进行调整,得到所述待配乐视频对应的目标推荐音乐,从而在当前流行的配乐趋势的基础上,
结合用户以及其关联用户的视频彩铃配乐的偏好,综合这三者进行配乐推荐,能够提高用户的视频彩铃体验。
36.上述说明仅是本发明实施例技术方案的概述,为能够更清楚解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
37.附图仅用于示出实施方式,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
38.图1示出本发明实施例提供的视频彩铃配乐推荐方法的流程示意图;
39.图2示出本发明另一实施例提供的视频彩铃配乐推荐方法的流程示意图;
40.图3示出本发明另一实施例提供的视频彩铃配乐推荐方法中的音乐向量索引的示意图;
41.图4示出本发明另一实施例提供的音频特征提取模型的结构示意图;
42.图5示出本发明另一实施例提供的视频彩铃配乐推荐方法的推荐界面示意图;
43.图6示出本发明实施例提供的视频彩铃配乐推荐装置的结构示意图;
44.图7示出本发明实施例提供的视频彩铃配乐推荐设备的结构示意图。
具体实施方式
45.下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。
46.图1示出本发明实施例提供的视频彩铃配乐推荐方法的流程图,该方法由计算机处理设备执行。该计算机处理设备可以包括手机、笔记本电脑等。
47.如图1所示,该方法包括以下步骤:
48.步骤10:确定目标用户上传的待配乐视频对应的初始推荐音乐。
49.在本发明的一个实施例中,待配乐视频是需要为其增加背景音乐的图像内容,其类型可以是视频彩铃,也可以是动图、影视片段等。可以对待配乐视频进行视频特征提取,得到视频标签信息,根据大数据确定该视频标签所对应的推荐音乐作为初始推荐音乐,其中,大数据可以是全网所有或部分用户的历史推荐音乐、历史使用配乐,部分用户可以是与目标用户无关的用户群,也可以是与目标用户存在关联的用户群,如相似用户、历史通话用户或同一地区的用户等。通过大数据来确定初始推荐音乐,从而在为用户推荐配乐时可以结合大众选择的、当前流行的配乐趋势,提高用户体验。
50.因此,在本发明的一个实施例中,步骤10还包括:
51.步骤101:根据所述待配乐视频的目标视频标签在预设的索引中查找,得到所述初始推荐音乐;所述索引包括多个可选音乐与多个可选视频标签的匹配度;所述匹配度根据各个所述可选音乐被全部用户使用的总时间以及在所述总时间内的各个时间单位中在各个所述可选视频标签下被使用的次数确定。
52.在本发明的一个实施例中,考虑到视频一般传达的是一个视觉场景内发生的信
息,因此目标视频标签用于表征待配乐视频的视频内容所表征的场景类型,如可以是“篮球”、“滑冰”以及“海洋”等。目标视频标签可以通过对待配乐视频进行图像识别得到。可选音乐可以是历史推荐过的音乐以及历史被其他用户使用过的音乐。匹配度用于表征在各可选视频标签下,当前的可选音乐的推荐权重,匹配度越大,则该可选音乐越可能被推荐,被推荐后的用户体验佳的概率越大。而为使得匹配度能够反映当前流行的配乐趋势,可以根据各个可选音乐在各个视频标签下的历史使用频次和占比来确定匹配度。
53.在本发明的一个实施例中,根据各个所述可选音乐被全部用户使用的总时间以及在所述总时间内的各个时间单位中在各个所述可选视频标签下被使用的次数确定当前的可选视频标签对于各个可选音乐的整体使用情况的占比以及该占比随着时间推进的变化程度,由此综合考虑可选音乐在某一可选视频标签下的使用的总次数和在最近的时间单位内使用的次数,由此可以让用户获取到当前最流行的音乐和标签匹配方式。
54.具体地,可选音乐与可选视频标签之间的匹配度w的确定方式如下:
[0055][0056]
其中,i表示时间单位的次序,如第i天,sumi表示一可选音乐(如某首歌曲)每个时间单位内,如每天与某一可选视频标签匹配的次数,m表示该可选音乐被使用的总天数,使用softmax函数做权重,将j的初始值设为当前的总天数再依次减去i,从而使得时间越远的次数权重影响越小,all_sum为该可选音乐被使用的总次数,通过all_sum对匹配度进行归一化。
[0057]
步骤20:根据用户历史彩铃数据确定所述目标用户的配乐偏好信息;所述用户历史彩铃数据包括所述目标用户以及所述目标用户的关联用户对应的历史彩铃数据。
[0058]
在本发明的一个实施例中,用户历史彩铃数据包括用户历史所使用和/或被推荐的视频彩铃的音乐数据。关联用户包括目标用户的相似用户、历史通话用户、好友用户等中的至少一个等。
[0059]
配乐偏好信息用于表征目标用户针对某一特定的视频标签下的可选音乐的偏好度,其中可选音乐可以是用户历史使用过的音乐,还可以是前述确定的初始推荐音乐,根据配乐偏好信息可以对初始推荐音乐进行过滤筛选或进行扩充。
[0060]
在确定配乐偏好信息时考虑用户对于其历史使用音乐的兴趣度以及其所认为其历史使用音乐与初始推荐音乐之间的相似度确定,从而使得用户在当前视频标签下感兴趣并且认为与初始推荐音乐较为接近的音乐可以加入初始推荐音乐中,成为目标用户的备选推荐音乐。
[0061]
对应地,针对关联用户,确定关联用户的兴趣度与用户的兴趣度较为接近的音乐,从而使得根据关联用户的配乐偏好进行初始推荐音乐扩充时能够满足目标用户的兴趣爱好。
[0062]
因此,在本发明的再一个实施例中,步骤20还包括:
[0063]
步骤201:根据所述目标用户对应的第一历史彩铃数据确定所述目标用户在所述待配乐视频的目标视频标签下的第一历史匹配音乐以及针对所述第一历史匹配音乐的第一历史兴趣度。
[0064]
在本发明的一个实施例中,第一历史匹配音乐可以是目标用户历史所使用的音乐中与目标视频标签的匹配度前预设位数(如前10或前5)的可选音乐。第一历史兴趣度可以根据该第一历史匹配音乐占目标用户在目标视频标签下历史使用的所有音乐的比例确定。其中,比例可以是次数的比例,也可以是音乐时长的比例。
[0065]
步骤202:根据音频特征提取模型分别提取所述第一历史匹配音乐以及初始推荐音乐的音乐特征向量;所述音频特征提取模型以音频频率向量以及标签文本向量为输入、以音乐特征向量为输出训练得到。
[0066]
在本发明的一个实施例中,标签文本向量可以通过word2vec(词向量)将如“篮球”、“足球”等视频标签转换为预设维数(如200维)的向量。音频频率向量用于表征可选音乐的特征,具体可以是通过lstm(long short-term memory,长短期记忆网络)将音频频率向量转换为前述相同维数的向量。区别于现有技术中的音乐特征向量只表征音乐本身的特征,如频率等,本发明实施例中的音乐特征向量表征音乐内容以及音乐与视频标签之间的关联信息。由此,根据音乐特征向量就可以直接针对特定的视频标签进行音乐推荐。音频特征提取模型可以是神经网络模型、生成对抗网络、自编码器等。
[0067]
在本发明的再一个实施例中,所述音频特征提取模型基于变分自编码器,所述变分自编码器的隐空间根据全部用户针对所述可选音乐的历史使用数据构建。
[0068]
区别于现有技术中的推荐算法一般只是单一地对音乐和视频标签进行协同过滤,在本发明的一个实施例中,通过对变分自编码器进行改进,根据可选音乐的历史使用数据来构造其隐空间,从而使得变分自编码器所输出的音乐特征向量是满足历史使用数据的分布规律的,具体地,该分布规律可以是音乐在不同标签上的关联度的概率分布,由此使得单一的音乐特征向量中包含历史使用数据中所反映的可选音乐和视频标签的历史匹配信息。
[0069]
步骤203:根据所述音乐特征向量以及所述第一历史兴趣度确定所述配乐偏好信息。
[0070]
在本发明的一个实施例中,配乐偏好信息可以包括目标用户对于第一历史匹配音乐以及初始推荐音乐分别的配乐偏好度,其中,根据音乐特征向量之间的距离可以确定初始推荐音乐和第一历史匹配音乐之间的相似度,而根据用户的历史可以确定初始推荐音乐的兴趣度,根据相似度以及兴趣度进行加权求和,得到对应的配乐偏好度。
[0071]
因此,在本发明的一个实施例中,步骤203还包括:
[0072]
步骤2031:根据所述音乐特征向量确定所述初始推荐音乐与所述第一历史匹配音乐之间的第一相似度。
[0073]
在本发明的一个实施例中,根据音乐特征向量之间的距离确定第一相似度,距离越小则第一相似度越大,其中,距离可以采取欧式距离。
[0074]
步骤2032:确定所述目标用户针对所述初始推荐音乐的第二历史兴趣度。
[0075]
在本发明的一个实施例中,针对目标用户历史上使用过的初始推荐音乐,可以直接根据目标用户的历史彩铃数据确定,具体地,根据目标用户针对初始推荐音乐的历史使用频次来确定第二历史兴趣度。可以是在目标视频标签下,该初始推荐音乐的使用频次占目标用户使用过的所有音乐的总使用频次的比例确定第二历史兴趣度。
[0076]
对应地,针对目标用户历史上未使用过的初始推荐音乐,则可以根据初始推荐音乐与用户历史使用过的音乐之间的相似度,将历史使用过的音乐中与初始推荐音乐中最相
似的音乐对应的兴趣度确定为第二历史兴趣度。
[0077]
步骤2033:根据所述第二历史兴趣度、第一相似度以及第一历史兴趣度确定所述配乐偏好信息。
[0078]
在本发明的一个实施例中,可以根据第二历史兴趣度和第一历史兴趣度分别对第一历史匹配音乐以及初始推荐音乐进行末位过滤,
[0079]
可选地,在根据兴趣度进行筛选前,还可以首先筛选出第一相似度排名前预设位且不与初始推荐音乐重复的第一历史匹配音乐。
[0080]
进一步地,除考虑初始推荐音乐与所述第一历史匹配音乐之间的第一相似度,还可以考虑第一历史匹配音乐之间的相似度,该相似度可以表征目标用户认为其所使用的音乐之间的第二相似度,从而在第一兴趣度的基础上结合相似度进行加权求和,得到综合偏好度,根据综合偏好度对第一历史匹配音乐进行筛选,提高对第一历史匹配音乐进行筛选的准确度。
[0081]
因此,在本发明的再一个实施例中,所述第一历史匹配音乐为多个;步骤2033还包括:步骤210:根据所述第一历史彩铃数据确定多个所述第一历史匹配音乐之间的第二相似度。
[0082]
在本发明的一个实施例中,根据第一历史彩铃数据确定每个第一历史匹配音乐出现在同一个视频标签下的频次信息,即根据该共现信息确定第二相似度。例如“篮球”标签中有音乐a和b,计算a和b的第二相似度为1,而“足球”标签中也有音乐a和b,则将音乐a与音乐b之间的第二相似度置为2(即加1)。
[0083]
步骤211:根据所述第二相似度和第一历史兴趣度确定所述目标用户针对所述第一历史匹配音乐的第一配乐偏好度。
[0084]
在本发明的一个实施例中,针对每一个第一历史匹配音乐,计算其针对所有其他第一历史匹配音乐的第二相似度的第一平均值,根据第二相似度与该第一相似度的距离对第一历史匹配音乐剔除,得到处理后第一历史匹配音乐,具体地,可以是将第二相似度与第一相似度相差排列前预设位的第一历史匹配音乐剔除。可选地,根据第一历史兴趣度对第一历史匹配音乐进行筛选,将第一历史兴趣度排列末预设位的第一历史匹配音乐剔除,得到处理后第一历史匹配音乐。最后将处理后第一历史匹配音乐的第一历史兴趣度和第二相似度进行加权求和,得到第一配乐偏好度。
[0085]
步骤212:根据所述第一相似度和第二历史兴趣度确定所述目标用户针对所述初始推荐音乐的第二配乐偏好度。
[0086]
在本发明的一个实施例中,计算各个初始推荐音乐针对其他音乐的第一相似度的第二平均值,将第二平均值和第二历史兴趣度进行加权求和,得到第二配乐偏好度。
[0087]
步骤30:根据所述配乐偏好信息对所述初始推荐音乐进行调整,得到所述待配乐视频对应的目标推荐音乐。
[0088]
在本发明的一个实施例中,根据配乐偏好信息中的第一配乐偏好度以及第二配乐偏好度对初始推荐音乐以及第一历史匹配音乐进行排序,将排序前预设位的音乐确定为目标推荐音乐。
[0089]
对应地,除考虑目标用户的配乐偏好与初始推荐音乐之间的关系,从而对初始推荐音乐进行扩充或筛选之外,还可以考虑与目标用户关联较为紧密、在行为上有共同点的
关联用户的配乐偏好信息,具体地,可以根据关联用户的历史彩铃数据确定关联用户在当前待配乐的目标视频标签下的第二历史匹配音乐,根据第二历史匹配音乐对初始推荐音乐之间的相似度以及关联用户对于第二历史匹配音乐的兴趣度确定目标用户对于第二历史匹配音乐的第三配乐偏好度,从而根据第三配乐偏好度对目标推荐音乐进行进一步调整。
[0090]
因此,在本发明的再一个实施例中,步骤30还包括:
[0091]
步骤301:根据所述关联用户对应的第二历史彩铃数据确定所述关联用户在所述目标视频标签下的第二历史匹配音乐以及针对所述第二历史匹配音乐的第三历史兴趣度。
[0092]
在本发明的一个实施例中,关联用户可以与目标用户历史通话时长或次数到达一定阈值的用户。第二历史匹配音乐可以是关联用户历史与目标视频标签匹配度前预设位的音乐。对应于前述第一兴趣度,第三历史兴趣度可以根据该第二历史匹配音乐的使用频次占关联用户在目标视频标签下历史使用的所有音乐的使用总频次的比例确定。其中,比例可以是次数的比例,也可以是音乐时长的比例。
[0093]
步骤302:根据所述音频特征提取模型确定所述第二历史匹配音乐与所述目标推荐音乐之间的第三相似度。
[0094]
在本发明的一个实施例中,根据音频特征提取模型分别提取第二历史匹配音乐以及目标推荐音乐的音乐特征向量,根据两者分别对应的音乐特征向量之间的距离确定第三相似度,其中,距离可以采用欧式距离。
[0095]
步骤303:根据第三相似度和所述第三历史兴趣度确定所述目标用户针对所述第二历史匹配音乐的第三配乐偏好度。
[0096]
在本发明的一个实施例中,根据第三相似度确定关联用户的所有的第二历史匹配音乐的第三相似度的第三平均值,将第三平均值与第三历史兴趣度进行加权求和,得到各个第二历史匹配音乐对应的第三配乐偏好度。
[0097]
在本发明的一个实施例中,进行视频彩铃配乐推荐的过程可以参考图2。
[0098]
如图2所示,步骤1:接收客户端上传的视频或图片数据。
[0099]
接收的数据结构可以如下:{用户id,{视频/图片二进制字节流}}
[0100]
步骤2:读取步骤1的输出,对上传的视频或图片进行处理,输出视频理解的标签。
[0101]
具体地,可以读取视频/图片二进制字节数据,通过ssd视频检测模型得到视频理解的标签。其中,视频按帧输入,图片则按每一幅图输入(图片输入时先做插值处理,将图片转换为与视频帧一样大小)。
[0102]
另外,标签可以从预设的标签库中选择。例如在体育视频场景中,可以根据用户上传的内容从标签库中选择“篮球”、“足球”、“游泳”、“滑板”等标签作为输出。
[0103]
输出结果的格式可以为:
[0104]
{用户id,标签}
[0105]
例如,如果用户上传的是一段打篮球的视频,则输出的结果为{用户id,篮球};
[0106]
步骤3:根据步骤2计算出的视频内容的标签从后台的音频向量索引中找出合适的备选音乐。
[0107]
音乐向量索引的结构可以如图3所示,音乐向量索引是一个倒排索引,每个标签下都有其倒排项,每一项的结果如下:
[0108]
{音乐id,音乐向量,排序权重}
[0109]
其中,音乐向量由音频特征提取模型求出,该向量不仅能表示音频的特征还能表示出音频与视频标签的关联度。
[0110]
音频特征提取模型的设计如图4所示。
[0111]
该模型改进自变分自编码器,与一般的变分自编码器不同的是:
[0112]
1)该模型的输入不仅仅有经傅立叶变换求出的音频频率向量还有一个标签文本化生成向量,使用word2vec将诸如“篮球”、“足球”等视频标签转换为200维的向量,同时也使用lstm将音频频率向量转换为200维向量,将二者相加作为特征提取层的输入;
[0113]
2)使用音乐和标签的协同过滤矩阵作为变分自编码器的中间层即隐空间,音乐和标签的协同过滤矩阵描述每个标签和音乐的相关度,该矩阵由系统中音乐和标签的匹配日志,即历史匹配数据计算而来
[0114]
3)最后使用原始音乐的特征作为输出层,输出层和输入层的数据不一致;
[0115]
通过该模型可以让音频特征中包含标签的关联度信息,这是因为用音乐和标签的协同过滤矩阵做中间层,使得提取到的特征满足音乐在不同标签上的关联度的概率分布,即在可以用一个向量同时计算标签和音频内容的相似度。在离线训练完成后,只使用包含特征提取的前半部分,如图4中虚线框所示。
[0116]
排序权重即音乐向量在某一个标签下的排序优先级,具体地,可以用堆来组织一个标签下的所有索引项,堆元素的优先级就是上述的排序权重,其计算方式如下:
[0117][0118]
如上式,综合考虑音乐在某一标签下的使用的整体次数和最近使用的次数;其中,i表示时间单位的次序,如第i天,sumi表示一可选音乐(如某首歌曲)每个时间单位内,如每天与某一可选视频标签匹配的次数,m表示该可选音乐被使用的总天数,使用softmax函数做权重,将j的初始值设为当前的总天数再依次减去i,从而使得时间越远的次数权重影响越小,all_sum为该可选音乐被使用的总次数,通过all_sum进行归一化。
[0119]
上式中,综合考虑音乐在某一标签下的使用的整体次数和最近使用的次数,通过该方法可以让用户获取到当前最流行的音乐和标签匹配方式。
[0120]
最终取排序权重排在前10的音乐id,如取如下音乐id:
[0121]
{用户id,标签,{(音乐id,权重),(音乐id,权重),
…
}}
[0122]
可以根据步骤2计算出的“篮球”标签,在索引中的篮球标签下找寻合适的音乐作为备选音乐。
[0123]
步骤4,根据用户过往的视频彩铃制作方式来对步骤3中求出的备选音乐做筛选或扩充。
[0124]
本步骤基于协同过滤矩阵m
mt
,音乐兴趣度矩阵m
ins
,用户个性化的音乐相似度矩阵m
sim
三个矩阵实现:
[0125]
1)针对每个用户的音乐和视频标签的协同过滤矩阵,该矩阵从用过往针对不同视频内容标签选择的背景音的日志计算出用户独特的协同过滤矩阵m
mt
;
[0126]
2)从日志中提取用户使用哪些音乐来制作视频彩铃,计算用户使用某一音乐片段占整个音乐的比重,从而求出音乐兴趣度矩阵m
ins
,其行表示所有音乐,其列表示用户用过
的每首音乐,进而得到用户对于每个用过音乐的兴趣度;
[0127]
3)根据音乐和视频标签的协同过滤矩阵按每一行中的音乐都是用户认为相似的,例如“篮球”标签中有音乐a和b,计算a和b的相似度为1,而“足球”标签中也有音乐a和b,则将a与b的相似度置为2(即加1),最终得到方阵m
sim
,其行和列的数量都为用户使用过的音乐数量,m
sim
为用户个性化的音乐相似度矩阵。
[0128]
相比传统单一的音乐和视频标签协调过滤算法,本发明实施例加入用户个性化的音乐兴趣矩阵和音乐相似度矩阵来提升用户的个性化选择。
[0129]
本步骤的具体处理方式如下:
[0130]
1)通过视频内容标签从音乐和视频标签的协同过滤矩阵m
mt
中提取用户过往使用的音乐中与当前标签最相关的10个音乐(即矩阵中权值最大的10个音乐的id),输出结果为音乐id的集合:
[0131]
{音乐id_1,音乐id_2,
…
,音乐id_10};
[0132]
2)通过上述音乐id获取其具体的音频内容,将其和视频内容标签输入步骤3提出的音频特征提取模型,提取出音频的特征向量vo(向量组),记为原始音乐向量;同时也将步骤3输出的音乐id和视频内容标签输入音频特征提取模型,提取出音频的特征向量vn(向量组),记为备选音乐向量;接着,使用欧氏距离计算出vn中每个向量与vo中每个向量的相似度,结果为如下形式:
[0133]
{v
n1
,d(v
n1
,v
o1
),d(v
n1
,v
o2
)
…
d(v
n1
,v
o10
)
[0134]vn2
,d(v
n2
,v
o1
),d(v
n2
,v
o2
)
…
d(v
n2
,v
o10
)
[0135]
…
[0136]vn10
,d(v
n10
,vo1),d(v
n10
,v
o2
)
…
d(v
n10
,v
o10
)}
[0137]
求出每个备选音乐向量与原始音乐向量的欧式距离,以此来描述这些音乐之间的相似度,因为本发明实施例的模型融合标签和音频内容相似度,本步骤计算出来的相似度也描述不同音乐在标签和音频内容上的相似度;在这里进行第一次过滤,算出vn中每个分量相似度的算术平均和按大小排序剔除最小的两个,不需要与原始音乐向量相似度不高的音乐,只有与原始音乐的相似在一定范围内才能视为备选音乐。
[0138]
3)根据备选音乐向量中剩下的音乐的id,从音乐兴趣度矩阵m
ins
中获取各自的用户兴趣度。此时有两种情况:一种是备选歌曲以前被用户使用过,则可直接取出用户兴趣度的值;另一种是备选歌曲以前未被用户使用过,那么音乐兴趣度矩阵m
ins
不会有这个音乐的兴趣度值,则取备选音乐的向量和对应的视频内容标签查询音乐向量索引,求出与备选音乐近似且存在于音乐兴趣度矩阵m
ins
中的音乐作为替代,取出对应的兴趣度值,因此可以得出如下结果:
[0139]
{v
n1
,ins
[0140]vn2
,ins
[0141]
…
[0142]vn8
,ins}
[0143]
其中ins为获取到的兴趣度的值。在这一步按兴趣度值的大小排序,将最小的三个值剔除,这是因为要使结果更符合用户的兴趣,将用户兴趣不高的音乐剔除才能更凸显用户的个性化属性;
[0144]
4)根据上述的计算结果进行最后一次过滤,将综合考虑用户个性化的兴趣度和相似度。首先,取原始音乐中相似度前5且不与备选音乐重复的音乐,这样达到与备选音乐的个数一致;接着,从用户个性化相似度矩阵msim中取出备选音乐的相似度数值如下:
[0145]vo1
:sim(v
o1
,v
o2
),sim(v
o1
,v
o3
),sim(v
o1
,v
o4
),sim(v
o1
,v
o5
)
[0146]vo2
:sim(v
o2
,v
o1
),sim(v
o2
,v
o3
),sim(v
o2
,v
o4
),sim(v
o2
,v
o5
)
[0147]
…
[0148]
其中,sim(v
o1
,v
o2
)表示v
o1
和v
o2
的个性化相似度;对每一行求算数平均值,得出每个原始音乐的相似权重wo_simi,再各自将每个原始音乐的相似权重与各自的兴趣度相加得到每个原始音乐的最终排序权重woi;对于备选音乐则各自将其相似度的加权平均值与兴趣度相加,得到每个备选音乐的最终排序权重wni;最后,将5个备选音乐和5个原始音乐合在一起,根据排序权重进行从大到小的排序,取权重值前五的音乐作为推荐给用户的个性化背景音,最终结果如下:
[0149]
{用户id,标签,{音乐id_1,音乐id_2,音乐id_3,音乐id_4,音乐id_5}}
[0150]
之所这么做是要综合考虑用户认为的歌曲之间的相似度和用户对歌曲的兴趣度,以此来实现用户背景音的个性化选择。
[0151]
其中音乐id为过滤后的音乐的id,其可以是从步骤3求出的备选音乐,也可以是从音乐和视频标签的协同过滤矩阵中取出的用户已使用过的音乐。通过本步骤的处理,将步骤3一般性相关的音乐筛选或扩展为能体现用户个性相似性和兴趣度的音乐。
[0152]
步骤5,根据与用户联系较多的人对视频彩铃背景音的选择与操作,来进一步优化用户视频彩铃的背景音效果,使其能够在展现用户个性的同时也能兼顾熟人的音乐偏好。
[0153]
用户联系较多的人为用户通讯录中通信次数较高的用户id,通信次数和这些用户id可以从移动大网申请获取。该步骤的详细流程如下:
[0154]
1)从用户的通讯录中获取用户的相关联系人,接着从大网查询这些联系人与当前用户的通话次数,选择排名前5的联系人,得到他们的用户id和与当前用户的通话次数,结果的形式如下:
[0155]
{联系人id,通话次数}
[0156]
2)根据联系人的id查找其相应的音乐和视频标签协同过滤矩阵,使用当前用户的视频标签从联系人的音乐和视频标签协同过滤矩阵中取出相关度前5的音乐作为联系人备选音乐,输出结果如下:
[0157]
{联系人id,音乐id_1,音乐id_2,音乐id_3,音乐id_4,音乐id_5}
[0158]
其中每个联系人都有5首音乐;
[0159]
3)根据联系人的id查找其相应的兴趣度矩阵,通过每个联系人id对应的音乐id从兴趣度矩阵中取出每个联系人对当前音乐的兴趣度,产生如下结果:
[0160]
{联系人id,音乐id_1兴趣度,音乐id_2兴趣度,音乐id_3兴趣度,音乐id_4兴趣度,音乐id_5兴趣度}
[0161]
以此来获得每个联系人对这些歌曲的兴趣度,用于后续考量这些联系人和用户在对相似歌曲的兴趣度上的差异,通过这些值能够过滤出联系人与用户兴趣度相似的音乐,使联系人备选音乐能兼顾当前用户和联系人的兴趣偏好;
[0162]
4)根据联系人备选音乐的id获取每首音乐的特征向量(使用本发明实施例的模型
计算求出);再获取步骤4结果中音乐的特征向量,使用欧氏距离计算出每个联系人的每一首备选音乐和步骤4结果中音乐的相似度,生成结果如下形式:
[0163]
联系人id:
[0164]
{相似度1-1,相似度1-2,相似度1-3,相似度1-4,相似度1-5
[0165]
相似度2-1,相似度2-2,相似度2-3,相似度2-4,相似度2-5
[0166]
…
[0167]
相似度5-1,相似度5-2,相似度5-3,相似度5-4,相似度5-5}
[0168]
其中相似度1-1表示联系人音乐中音乐id_1的音乐与备选音乐中id为1的音乐之间的相似度,而相似度1-2表示联系人音乐中音乐id_1的音乐与备选音乐中id为2的音乐之间的相似度,相似度2-1表示联系人音乐中音乐id_2的音乐与备选音乐中id为1的音乐之间的相似度,以此类推求出所有联系人音乐和备选音乐之间的相似度;
[0169]
5)根据4)的结果求出每个联系人所对应的每首联系人音乐与备选音乐之间相似度的算数平均和,记为c_sumi,其中i表示同一联系人的不同音乐;由3)取出的每个联系人的对音乐的兴趣度记为insi,其中i表示不同的联系人;将上述的c_sumi和insi分别相加,则求出每个联系人的每个音乐的权重值w,将25首音乐(5个联系人,每人5首)按权重值w从大到小排序,取前10首作为联系人备选音乐,输出结果的形式为:
[0170]
{联系人id_1,音乐id_1}
[0171]
{联系人id_2,音乐id_2,音乐id_3}
[0172]
在结果中除音乐id外还保留联系人id;
[0173]
6)通过5)的联系人id获取系统中该联系人对视频彩铃的操作日志,从该日志中提取联系人使用联系人备选音乐制作视频彩铃时都使用哪些特效,将这些特效作为结果参数返回给用户,以提供给用户与自己联系人相同的特效选择。
[0174]
步骤6,根据上述的处理结果,向用户展示生成的用户个性化背景音、用户联系人背景音和用户联系人常用的特效,如图5所示,可以分为3个部分展示,首先个性化音乐展示本发明实施例生成的5首个性化背景音(不够展示则向右滑动);其次好友向您推荐则是根据联系人计算出来的个性化歌曲,这部分是为兼顾用户和联系人好友的兴趣偏好;最后向用户推荐好友使用的特效,使用户能有更合适的选择。
[0175]
本发明实施例的视频彩铃配乐推荐方法通过确定目标用户上传的待配乐视频对应的初始推荐音乐;其中,初始推荐音乐可以根据大数据确定,用于表征当前流行的配乐趋势,根据用户历史彩铃数据确定所述目标用户的配乐偏好信息;所述用户历史彩铃数据包括所述目标用户以及所述目标用户的关联用户对应的历史彩铃数据;根据所述配乐偏好信息对所述初始推荐音乐进行调整,得到所述待配乐视频对应的目标推荐音乐,从而在当前流行的配乐趋势的基础上,结合用户以及其关联用户的视频彩铃配乐的偏好,综合这三者进行配乐推荐,能够提高用户的视频彩铃体验。
[0176]
图6示出本发明实施例提供的视频彩铃配乐推荐装置的结构示意图。如图6所示,该装置40包括:第一确定模块401、第二确定模块402和调整模块403。
[0177]
其中,第一确定模块401,用于确定目标用户上传的待配乐视频对应的初始推荐音乐;
[0178]
第二确定模块402,用于根据用户历史彩铃数据确定所述目标用户的配乐偏好信
息;所述用户历史彩铃数据包括所述目标用户以及所述目标用户的关联用户对应的历史彩铃数据;
[0179]
调整模块403,用于根据所述配乐偏好信息对所述初始推荐音乐进行调整,得到所述待配乐视频对应的目标推荐音乐。
[0180]
本发明实施例提供的视频彩铃配乐推荐装置所执行的操作过程与前述方法实施例大致相同,不再赘述。
[0181]
本发明实施例的视频彩铃配乐推荐装置通过确定目标用户上传的待配乐视频对应的初始推荐音乐;其中,初始推荐音乐可以根据大数据确定,用于表征当前流行的配乐趋势,根据用户历史彩铃数据确定所述目标用户的配乐偏好信息;所述用户历史彩铃数据包括所述目标用户以及所述目标用户的关联用户对应的历史彩铃数据;根据所述配乐偏好信息对所述初始推荐音乐进行调整,得到所述待配乐视频对应的目标推荐音乐,从而在当前流行的配乐趋势的基础上,结合用户以及其关联用户的视频彩铃配乐的偏好,综合这三者进行配乐推荐,能够提高用户的视频彩铃体验。
[0182]
图7示出本发明实施例提供的视频彩铃配乐推荐设备的结构示意图,本发明具体实施例并不对视频彩铃配乐推荐设备的具体实现做限定。
[0183]
如图7所示,该视频彩铃配乐推荐设备可以包括:处理器(processor)502、通信接口(communications interface)504、存储器(memory)506、以及通信总线508。
[0184]
其中:处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。通信接口504,用于与其它设备比如客户端或其它服务器等的网元通信。处理器502,用于执行程序510,具体可以执行上述用于视频彩铃配乐推荐方法实施例中的相关步骤。
[0185]
具体地,程序510可以包括程序代码,该程序代码包括计算机可执行指令。
[0186]
处理器502可能是中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。视频彩铃配乐推荐设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。
[0187]
存储器506,用于存放程序510。存储器506可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
[0188]
程序510具体可以被处理器502调用使视频彩铃配乐推荐设备执行以下操作:
[0189]
确定目标用户上传的待配乐视频对应的初始推荐音乐;
[0190]
根据用户历史彩铃数据确定所述目标用户的配乐偏好信息;所述用户历史彩铃数据包括所述目标用户以及所述目标用户的关联用户对应的历史彩铃数据;
[0191]
根据所述配乐偏好信息对所述初始推荐音乐进行调整,得到所述待配乐视频对应的目标推荐音乐。
[0192]
本发明实施例提供的视频彩铃配乐推荐设备所执行的操作过程与前述方法实施例大致相同,不再赘述。
[0193]
本发明实施例的视频彩铃配乐推荐设备通过确定目标用户上传的待配乐视频对应的初始推荐音乐;其中,初始推荐音乐可以根据大数据确定,用于表征当前流行的配乐趋势,根据用户历史彩铃数据确定所述目标用户的配乐偏好信息;所述用户历史彩铃数据包括所述目标用户以及所述目标用户的关联用户对应的历史彩铃数据;根据所述配乐偏好信
息对所述初始推荐音乐进行调整,得到所述待配乐视频对应的目标推荐音乐,从而在当前流行的配乐趋势的基础上,结合用户以及其关联用户的视频彩铃配乐的偏好,综合这三者进行配乐推荐,能够提高用户的视频彩铃体验。
[0194]
本发明实施例提供一种计算机可读存储介质,所述存储介质存储有至少一可执行指令,该可执行指令在视频彩铃配乐推荐设备上运行时,使得所述视频彩铃配乐推荐设备执行上述任意方法实施例中的视频彩铃配乐推荐方法。
[0195]
可执行指令具体可以用于使得视频彩铃配乐推荐设备执行以下操作:
[0196]
确定目标用户上传的待配乐视频对应的初始推荐音乐;
[0197]
根据用户历史彩铃数据确定所述目标用户的配乐偏好信息;所述用户历史彩铃数据包括所述目标用户以及所述目标用户的关联用户对应的历史彩铃数据;
[0198]
根据所述配乐偏好信息对所述初始推荐音乐进行调整,得到所述待配乐视频对应的目标推荐音乐。
[0199]
本发明实施例提供的计算机可读存储介质所存储的可执行指令所执行的操作过程与前述方法实施例大致相同,不再赘述。
[0200]
本发明实施例的计算机可读存储介质所存储的可执行指令通过确定目标用户上传的待配乐视频对应的初始推荐音乐;其中,初始推荐音乐可以根据大数据确定,用于表征当前流行的配乐趋势,根据用户历史彩铃数据确定所述目标用户的配乐偏好信息;所述用户历史彩铃数据包括所述目标用户以及所述目标用户的关联用户对应的历史彩铃数据;根据所述配乐偏好信息对所述初始推荐音乐进行调整,得到所述待配乐视频对应的目标推荐音乐,从而在当前流行的配乐趋势的基础上,结合用户以及其关联用户的视频彩铃配乐的偏好,综合这三者进行配乐推荐,能够提高用户的视频彩铃体验。
[0201]
本发明实施例提供一种视频彩铃配乐推荐装置,用于执行上述视频彩铃配乐推荐方法。
[0202]
本发明实施例提供一种计算机程序,所述计算机程序可被处理器调用使视频彩铃配乐推荐设备执行上述任意方法实施例中的视频彩铃配乐推荐方法。
[0203]
本发明实施例提供一种计算机程序产品,计算机程序产品包括存储在计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令在计算机上运行时,使得所述计算机执行上述任意方法实施例中的视频彩铃配乐推荐方法。
[0204]
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为披露本发明的最佳实施方式。
[0205]
在此处所提供的说明书中,说明大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
[0206]
类似地,应当理解,为精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求
保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。
[0207]
本领域技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及可以把它们分成多个子模块或子单元或子组件。除这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
[0208]
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。