音乐视频的生成方法和系统的制作方法
【专利摘要】本发明提供一种基于音乐图像之间联系的自动音乐视频的生成方法和系统。所述方法包括:获取用于生成音乐视频的音乐;根据音乐的纹理特征对所述音乐进行时序分割得到音乐片段;获取图片,分析音乐片段与图片之间的相关性,得到与音乐片段对应的相关图片;以所述音乐片段和相关图片为材料生成音乐视频。上述方法和系统根据音乐的纹理特征对音乐进行时序分割,然后通过分析图像与音乐之间的相识程度,并对对图像的内容进行质量和美学评价,在此基础上,对每段音乐自动选取和推荐图像内容,并配以动画效果,自动生成音乐视频。该方法和系统使得无专业知识的业余人员也可以方便的制作音乐视频,提高了音乐视频的制作质量和效率。
【专利说明】音乐视频的生成方法和系统
【技术领域】
[0001]本发明涉及视频处理技术,特别是涉及一种音乐视频的生成方法和系统。
【背景技术】
[0002]人的视觉和听觉有相通之处,人们在聆听音乐和欣赏图片或者视频时会感受到相似的感觉和情感体验。音乐和图片的关系在音乐视频制作中起到关键的作用,同时海量的视频和图像数据库使得音乐视频制作者往往需要花费大量的时间和精力去寻找或是制作与音乐相关的图像或视频,十分浪费人力物力,并需要专业知识,业余人员往往很难制作出自己期望的高质量音乐视频。另一方面,现有对音乐与图像之间语义联系的空白使得现有MV (Music Video,音乐视频)自动生成系统无法准确的寻找到与音乐关联度高的图片,从而令生成的MV质量通常比较低。
【发明内容】
[0003]基于此,有必要针对生成的MV质量较低和效率比较低的问题,提供一种能够提高生成MV的质量和效率的音乐视频的生成方法。
[0004]此外,还有必要提供一种能够提高生成MV的质量和效率的音乐视频的生成系统。
[0005]一种音乐视频的生成方法,包括如下步骤:
[0006]获取用于生成音乐视频的文件;
[0007]根据音乐的纹理特征对所述音乐进行时序分割得到音乐片段;
[0008]获取图片,分析音乐片段与图片之间的相关性,得到与音乐片段对应的相关图片;
[0009]以所述音乐片段和相关图片为材料生成音乐视频。
[0010]一种音乐视频的生成系统,包括:
[0011]音乐获取模块,用于获取用于生成音乐视频的音乐;
[0012]分割模块,用于根据音乐的纹理特征对所述音乐进行时序分割得到音乐片段;
[0013]图片获取模块,用于获取图片,分析音乐与图像之间的相关性,得到与音乐片段对应的相关图片;
[0014]生成模块,用于以所述音乐片段和相关图片为材料生成音乐视频。
[0015]上述音乐视频的生成方法和系统,通过获取用于生成音乐视频的音乐,根据音乐的纹理特征对音乐进行分割得到音乐片段,获取图片,对每段音乐及图片分析相关性,得到与音乐片段对应的相关图片,然后以所述音乐片段和相关图片为材料生成音乐视频,自动根据音乐筛选相关图片来制作音乐视频,减少了音乐视频制作者劳动,提高了制作MV的效率,且生成的MV的质量相比于非专业人员制作的MV的质量要高,提高了 MV的质量。
【专利附图】
【附图说明】
[0016]图1为一个实施例中一种音乐视频的生成方法流程图;[0017]图2为另一个实施例中图1中步骤S150的具体流程图;
[0018]图3为另一个实施例中一种音乐视频的生成方法的流程图;
[0019]图4为一个实施例中图1中步骤S170的具体流程图;
[0020]图5为一个实施例中获取图片的具体流程图;
[0021]图6为一个实施例中音乐视频的生成系统的结构示意图图;
[0022]图7为一个实施例中图片获取模块的内部结构示意图;
[0023]图8为另一个实施例中音乐视频的生成系统的结构示意图;
[0024]图9为另一个实施例中图7中生成模块170的具体结构示意图;
[0025]图10为另一个实施例中音乐视频的生成系统的结构示意图。
【具体实施方式】
[0026]如图1所示,在一个实施例中,一种音乐视频的生成方法,包括如下步骤:
[0027]步骤SI 10,获取用于生成音乐视频的音乐。
[0028]本实施例中,该音乐可以是用户上传的音乐,或者是通过用户输入歌手名和歌曲名所对应的音乐,可以自动通过歌手名和歌曲名从互联网或者音乐数据库中查找对应的音乐。用于生成音乐视频的音乐还可以是来自用户输入的音乐的网络地址,也可以是从网络地址自动下载所得到的音乐。
[0029]步骤S130,根据音乐的纹理特征对音乐进行时序分割得到音乐片段。
[0030]本实施例中,音乐中通常包含有人的感情、情绪、感觉或者语言等,通过统计分析可以知道,带有不同的感情、情绪、感觉或者语言的音乐具有不同的纹理特征,该纹理特征可以是音乐的频谱特征,根据频谱特征分析音乐的音调、音色或者音量等,从而得知音乐中包含的感情、情绪或者语言等,继而得出音乐包含的语义,该语义可以以词语的形式表示。例如,音乐的每种调式都与一固定的表达方式相联系(质朴的、严峻的、得意的、强劲的、庄重的、威严的、尚武的、有教育意义的、崇高的、华丽的、忧郁的、谦恭的、放纵的、色情的)。
[0031]本实施例中,采用根据动态纹理模型分割音乐为音乐片段。动态纹理模型即表达特定语义的声音纹理模型,通过动态纹理模型对音乐片段的纹理再进行细分。
[0032]步骤S150,获取图片,分析音乐片段与图片之间的相关性,得到与音乐片段对应的相关图片。
[0033]本实施例中,获取图片可从图片数据库中获取,或从互联网上搜索等。在图片数据库中包括有大量被人工标记的图片,该标记可以是与图片的中的语义相关的词语。除了从图片数据库中搜索相似的图片外,还可以从互联网上搜索相似的图片,互联网上的图片大都有标题或者描述,根据该标题或者描述即可搜索到图片。需对每个音乐片段分别分析与图片之间的相关性。
[0034]步骤S170,以音乐片段和相关图片为材料生成音乐视频。
[0035]本实施例中,将获取的音乐片段和相关图片合成为音乐视频,合成的过程中可以设置每张图片的显示时间,以及图片之间的动画效果和切换效果等。
[0036]上述音乐视频的生成方法,通过获取用于生成音乐视频的音乐,根据音乐的纹理特征对音乐进行分割得到音乐片段,根据音乐片段获取对应的图片,然后以所述音乐片段和相关图片为材料生成音乐视频,自动根据音乐筛选相关图片来制作音乐视频,减少了音乐视频制作者劳动,提高了 MV的制作效率,且生成的MV的质量相比于非专业人员制作的MV的质量要高,提高了 MV的质量。
[0037]上述音乐视频的生成方法利用已有图像视频,用户上传图像视频,以及由歌词作为关键词从互联网检索而来的图像视频,作为生成音乐视频时候选视觉数据材料;对给定用于生成音乐视频的音乐,根据音乐的纹理特征对音乐进行时序分割。然后通过分析图像视频与音乐之间的相识程度,并对图像视频的内容进行质量和美学评价,在此基础上,对每段音乐自动选取和推荐图像视频内容,并配以动画效果,自动生成音乐视频。 [0038]进一步的,在一个实施例中,可根据语义函数计算音乐片段的语义特征向量。本实施例中,语义函数为对人工标记的音乐进行统计得出的语义函数,用向量表示音乐片段的语义可以表示得更全面,因为向量可以是多维的,每一维都表达一个不同的语义。具体的,每一维的语义可以用语义概率来表示,该概率可以是后验概率,使用后验概率可以表示得更准确。语义概率即音乐片段中的声学特征与语义之间的匹配程度。
[0039]如图2所示,在一个实施例中,上述步骤150包括:
[0040]步骤151,获取图片。
[0041]步骤153,根据预先构建的相似度估计函数计算音乐片段和相关图片之间的相似度。
[0042]步骤155,输出预设数量的相似度最高的相关图片作为候选图片。
[0043]本实施例中,相似度估计函数是预先通过对音乐-图片数据库中经过标记的音乐-图片对进行统计得到的。对音乐片段和对应的各个相似图片进行相似度计算,并根据相似度对相似图片进行排序。将排序靠前且相似度最高的一定数量图片筛选出来作为音乐片段的候选图片,该数量可以是用户或者系统预设的。按相似度从高到低对图片进行排序,并按相似度从高到低选取一定数量的图片。
[0044]在一个实施例中,上述步骤S153之前还包括构建相似度估计函数的步骤。相似度估计函数是对音乐图片数据库中的音乐-图片匹配关系进行统计得出的。根据音乐的声学特征计算音乐特征向量,对图片的内容进行分析计算图片特征向量,构建具有对应关系的音乐图片匹配的数据库,用归一切割算法对所述数据库中音乐进行聚类,并根据音乐图片的对应关系确定图像的类别,对所述对应类别的音乐特征向量和图片特征向量进行排序典型相关分析,获取音乐与图像间的相似度估计函数。可知,音乐和图片的特征空间都有很高的维度和复杂的结构,而且音乐和图像的关系是多对多关系,而不是一对一关系。与图片的特征空间相比,音乐的空间有较少的变化性并且有更简单的类别结构。因此,采用normalized cut (归一切割)算法来对音乐进行聚类,将图片相应地分割为对应类别,使用V1, V2,…,V。来标记这些类别。
[0045]由于音乐和图像的特征向量长度相差很大,利用DtRT (Distance to ReferenceTransformation,距离参照转换)将音乐和图片的原始特征向量转换为新的DtRT表述。在每个类别 Vc 的优化阶段,建立 R-CCA) (ranking Canonical Correlation Analysis,排序典型相关分析)来利用数据库中成对的排序信息。采用V。= {Xi,yj指代一组类别V。中的训练对,引入投影矩阵:
[0046]A= [ajaj …;aj], B = Iib1;b2;…;bj]。
[0047]引入如下R-CCA相似度估计函数:[0048]
【权利要求】
1.一种音乐视频的生成方法,包括以下步骤: 获取用于生成音乐视频的音乐; 根据音乐的纹理特征对所述音乐进行时序分割得到音乐片段; 获取图片,分析音乐片段与图片之间的相关性,得到与音乐片段对应的相关图片; 以所述音乐片段和相关图片为材料生成音乐视频。
2.根据权利要求1所述的音乐视频的生成方法,其特征在于,所述分析音乐片段与图片之间的相关性,得到与音乐片段对应的相关图片的步骤包括: 根据预先构建的相似度估计函数计算所述音乐片段和相关图片之间的语义相似度; 输出预设数量的相似度最高的所述相关图片作为候选图片。
3.根据权利要求2所述的音乐视频的生成方法,其特征在于,所述根据预先构建的相似度估计函数计算所述音乐片段和相关图片之间的语义相似度的步骤之前还包括: 根据音乐的声学特征计算音乐特征向量,根据对图片的内容进行分析计算图片特征向量; 构建具有对应关系的音乐图片匹配的数据库; 用归一切割算法对所述数据库中音乐进行聚类,并根据音乐图片的对应关系确定图像的类别; 对所述对应类别的音乐特征向量和图片特征向量进行排序典型相关分析,获取音乐与图像间的相似度估计函数。
4.根据权利要2所述的音乐视频的生成方法,其特征在于,在所述输出预设数量的相似度最高的所述相关图片作为候选图片的步骤之后,还包括: 根据图片之间的相似度对所述候选图片进行过滤处理; 计算过滤后的剩余图片的质量,将图像质量最高的作为默认展示图片。
5.根据权利要求4所述的音乐视频的生成方法,其特征在于,还包括: 获取用户上传的个人图片; 判断到所述个人图片和默认展示图片之间的相似度超过预设值,则将所述个人图片替换默认展示图片。
6.根据权利要求4所述的音乐视频的生成方法,其特征在于,所述以所述音乐和相关图片为材料生成音乐视频的步骤包括: 动态化展示所述默认展示图片; 当获取到用户修改音乐片段的默认展示图片时,根据相邻两帧默认展示图片的相似度联系,选取后续默认展示图片; 根据所述音乐的音乐片段和选取的所述音乐片段对应的默认展示图片生成音乐视频。
7.根据权利要求1所述的音乐视频的生成方法,其特征在于,所述获取图片的步骤包括: 获取与首乐对应的歌词; 对所述歌词提取关键词; 以动名词组、名词词组、名词的优先级顺序选择最终关键词; 以所述最终关键词从互联网搜索图片。
8.根据权利要求1所述的音乐视频的生成方法,其特征在于,所述以所述音乐和相关图片为材料生成音乐视频的步骤之后,还包括: 根据所述相关图片搜索相似视频片段; 展示动态连接的所述相似视频片段; 根据用户的修改以所述音乐片段和相似视频片段为材料生成音乐视频。
9.一种音乐视频的生成系统,包括: 音乐获取模块,用于获取用于生成音乐视频的音乐; 分割模块,用于根据音乐的纹理特征对所述音乐进行时序分割得到音乐片段; 图片获取模块,用于获取图片,分析音乐与图片之间的相关性,得到与音乐片段对应的相关图片; 生成模块,用于以所述音乐片段和相关图片为材料生成音乐视频。
10.根据权利要求9所述的音乐视频的生成系统,其特征在于,所述图片获取模块包括: 计算单元,用于根据预先构建的相似度估计函数计算所述音乐片段和相关图片之间的相似度; 输出单元,用于输出预设数量的相似度最高的所述相似图片作为候选图片。
11.根据权利要求10所述的音乐视频的生成系统,其特征在于,所述系统还包括: 相似度估计函数构建模块,用于根据音乐的声学特征计算音乐特征向量,根据对图片`的内容进行分析计算图片特征向量,构建具有对应关系的音乐图片匹配的数据库,用归一切割算法对所述数据库中所述音乐特征向量进行聚类,并根据音乐图片的对应关系确定图像的类别,对所述对应类别的音乐特征向量和图片特征向量进行排序典型相关分析,获取音乐与图像间的相似度估计函数,根据所述排序典型相关分析函数构建相似度估计函数。
12.根据权利要求10所述的音乐视频的生成系统,其特征在于,所述系统还包括: 过滤模块,用于根据图片之间的相似度对所述候选图片进行过滤处理; 质量估算模块,用于计算过滤后的剩余图片的质量,将图像质量最高的作为默认展示图片。
13.根据权利要求12所述的音乐视频的生成系统,其特征在于,还包括: 判断模块,用于获取用户上传的个人图片,判断到所述个人图片和默认展示图片之间的相似度超过预设值,则将所述个人图片替换默认展示图片。
14.根据权利要求12所述的音乐视频的生成系统,其特征在于,所述生成模块包括: 展示单元,用于动态化展示所述默认展示图片; 选取单元,用于当获取到用户修改音乐片段的默认展示图片时,根据相邻两帧默认展示图片的相似度联系,选取后续默认展示图片; 生成单元,用于根据所述音乐的音乐片段和选取的所述音乐片段对应的默认展示图片生成音乐视频。
15.根据权利要求9所述的音乐视频的生成系统,其特征在于,所述图片获取模块还用于获取与音乐对应的歌词,对所述歌词提取关键词,以动名词组、名词词组、名词的优先级顺序选择最终关键词,以所述最终关键词从互联网搜索图片。
16.根据权利要求9所述的音乐视频的生成系统,其特征在于,还包括: 搜索模块,用于根据所述相关图片搜索相似视频片段;所述生成模块还用于展示动态连接的所述相似视频片段,并根据用户的修改以所述音乐片段和相似视频片段为材料`生成音乐视频。
【文档编号】G06F17/30GK103793446SQ201310142642
【公开日】2014年5月14日 申请日期:2013年4月23日 优先权日:2012年10月29日
【发明者】汤晓鸥, 吴希宣, 徐冰, 乔宇 申请人:汤晓鸥