一种多媒体文件相关度的确定方法及设备的制造方法
【技术领域】
[0001] 本发明涉及计算机数据挖掘及机器学习技术领域,尤其涉及一种多媒体文件相关 度的确定方法及设备。
【背景技术】
[0002] 随着计算机网络的发展,网络为人类提供越来越多的信息。网络多媒体文件就是 其中一种重要的信息提供方式,多媒体文件可以包括:文本文件、音频文件、视频文件、或者 多种媒体相结合构成的多媒体文件等。用户可以通过网络多媒体文件进行学习、娱乐,获取 自身需要的信息。但是网络上的多媒体文件内容五花八门,用户要获取到自身感兴趣的多 媒体文件需要花大量的时间进行检索,为了提高检索效率,智能推荐系统应运而生。
[0003] 为了缩短用户在进行多媒体文件检索时花费的时间,提高检索效率,智能推荐系 统会根据用户访问过的多媒体文件为用户推荐用户可能感兴趣的多媒体文件,但是,传统 的相关推荐的计算方法是基于多媒体文件内容的相关度为用户确定用户可能感兴趣的多 媒体文件,也就是说,依据多媒体文件内容相关度对多媒体文件进行排序,并优先为用户推 荐多媒体文件内容相关度高的多媒体文件,这种依据多媒体文件内容相关度对多媒体文件 进行排序的方案存在很多弊端,首先,这种依据多媒体文件内容相关度得到的相关度高的 多媒体文件内容单一,很难满足大众口味;其二,依据内容相关度的排序方案(内容越相关 的,排序位置越靠前)是应用开发者主观判断,完全没有考虑用户的真正需求。
[0004] 可见,采用现有技术提供的智能推荐系统采用的多媒体文件相关度确定方法并不 能客观地体现出用户的兴趣,那么,依据这样的相关度进行排序并为用户推荐的多媒体文 件并不能真正基于用户的需求进行推荐,用户依然需要花费大量的时间进行检索,检索效 率低。
【发明内容】
[0005] 本发明实施例提供了一种多媒体文件相关度的确定方法及设备,用以解决现有技 术中用户检索多媒体文件时检索效率低的问题。
[0006] 基于上述问题,本发明实施例提供了一种多媒体文件相关度的确定方法,包括:
[0007] 确定第一多媒体文件与第二多媒体文件的访问相关度度量值、内容相关度度量 值、以及访问相关度和内容相关度对应的多元特征的相关度度量融合参数值;其中,所述第 二多媒体文件为一个或者多个;所述访问相关度用于表征所述第一多媒体文件和所述第二 多媒体文件被关联访问的情况;所述融合参数用于表征访问相关度和内容相关度分别占的 比重;
[0008] 根据确定的所述融合参数值、所述第一多媒体文件与所述第二多媒体文件的访问 相关度度量值、内容相关度度量值,确定所述第一多媒体文件与所述第二多媒体文件的相 关度度量值。
[0009] 本发明实施例提供了一种多媒体文件相关度的确定设备,包括:
[0010] 第一确定模块,用于确定第一多媒体文件与第二多媒体文件的访问相关度度量 值、内容相关度度量值、以及访问相关度和内容相关度对应的多元特征的相关度度量融合 参数值;其中,所述第二多媒体文件为一个或者多个;所述访问相关度用于表征所述第一 多媒体文件和所述第二多媒体文件被关联访问的情况;所述融合参数用于表征访问相关度 和内容相关度分别占的比重;
[0011] 第二确定模块,用于根据确定的所述融合参数值、所述第一多媒体文件与所述第 二多媒体文件的访问相关度度量值、内容相关度度量值,确定所述第一多媒体文件与所述 第二多媒体文件的相关度度量值。
[0012] 本发明实施例的有益效果包括:
[0013] 本发明实施例提供的一种多媒体文件相关度的确定方法及设备,包括:确定第一 多媒体文件与第二多媒体文件的访问相关度度量值、内容相关度度量值、以及访问相关度 和内容相关度对应的多元特征的相关度度量融合参数值;其中,第二多媒体文件为一个或 者多个;访问相关度用于表征第一多媒体文件和第二多媒体文件被关联访问的情况;融合 参数用于表征访问相关度和内容相关度分别占的比重;根据确定的融合参数值、第一多媒 体文件与第二多媒体文件的访问相关度度量值、内容相关度度量值,确定第一多媒体文件 与第二多媒体文件的相关度度量值。本发明实施例提供的一种多媒体文件相关度的确定方 法,在确定第一多媒体文件和第二多媒体文件之间的相关度度量值时,不仅需要依据第一 多媒体文件和该任一第二多媒体文件之间的内容相关度,还需要依据第一多媒体文件和该 任一第二多媒体文件之间的关联访问情况,即访问相关度,并基于内容相关度度量值、访问 相关度度量值、以及表征访问相关度和内容相关度分别占的比重的融合参数的值,确定第 一多媒体文件和该任一第二多媒体文件之间的相关度度量值,与现有技术中的推荐系统采 用的多媒体文件相关度确定方法相比,在确定多媒体文件相关度时不仅考虑了多媒体文件 内容相关度,还考虑了访问相关度,这样得到的多媒体文件相关度考虑了用户行为特征,即 用户的访问行为,而不是应用开发者的主观判断,本发明实施例提供的一种多媒体文件相 关度的确定方法能够准确客观地确定出多媒体文件的相关度,那么,在依据准确客观的多 媒体文件相关度为多媒体文件排序时,能够真正将用户需要的多媒体文件排在前面,用户 可以直接进行访问,而不需要花费大量的时间进行检索,提高了效率。
【附图说明】
[0014] 图1为本发明实施例提供的一种多媒体文件相关度的确定方法的流程图;
[0015] 图2为本发明实施例1提供的一种多媒体文件相关度的确定方法的流程图;
[0016] 图3为本发明实施例提供的生成训练样本的过程示意图;
[0017] 图4为本发明实施例2提供的一种多媒体文件排序方法的流程图;
[0018] 图5为本发明实施例提供的一种多媒体文件相关度的确定设备的结构示意图。
【具体实施方式】
[0019] 本发明实施例提供了一种多媒体文件相关度的确定方法及设备,以下结合说明书 附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和 解释本发明,并不用于限定本发明。并且在不冲突的情况下,本申请中的实施例及实施例中 的特征可以相互组合。
[0020] 本发明实施例提供一种多媒体文件相关度的确定方法,如图1所示,包括:
[0021] S101、确定第一多媒体文件与第二多媒体文件的访问相关度度量值、内容相关度 度量值、以及访问相关度和内容相关度对应的多元特征的相关度度量融合参数值;
[0022] 其中,第二多媒体文件为一个或者多个;访问相关度用于表征第一多媒体文件和 第二多媒体文件被关联访问的情况;融合参数用于表征访问相关度和内容相关度分别占的 比重。
[0023] 进一步地,本步骤中,关联访问可以为被同一用户访问,第一多媒体文件和第二多 媒体文件被关联访问的情况可以通过既访问过第一多媒体文件,又访问过第二多媒体文件 的不同用户的用户数来衡量。详细的讲,关联访问是指:在历史访问记录中,若同时存在第 一多媒体文件和第二多媒体文件,则为第一多媒体文件和第二多媒体文件的关联访问度量 值加1。上述历史记录可以是一个用户的历史访问记录,也可以是多个用户的历史访问记 录。内容相关度是指第一多媒体文件和第二多媒体文件的内容标签的重合程度。
[0024] 进一步地,本步骤中,第二多媒体文件为一个或者多个,如果为多个,则本步骤执 行为:确定第一多媒体文件分别与多个第二多媒体文件的访问相关度度量值、内容相关度 度量值、以及访问相关度和内容相关度对应的多元特征的相关度度量融合参数值。
[0025] S102、根据确定的融合参数值、第一多媒体文件与第二多媒体文件的访问相关度 度量值、内容相关度度量值,确定第一多媒体文件与第二多媒体文件的相关度度量值。
[0026] 进一步地,本发明实施例中,多媒体文件可以指任一类型的多媒体文件,例如:可 以为文本文件、音频文件、视频文件、或者由多种媒体相结合构成的多媒体文件等。
[0027] 下面结合附图,用具体实施例对本发明提供的方法及相关设备进行详细描述。
[0028] 实施例1:
[0029] 本发明实施例1中,提供一种多媒体文件相关度的确定方法,如图2所示,具体包 括如下步骤:
[0030] S201、采用式(1)建立多媒体文件相关度确定模型:
[0031]Yj=h9(Xj)=Xj9 式(1)
[0032]在式⑴中,
【主权项】
1. 一种多媒体文件相关度的确定方法,其特征在于,包括: 确定第一多媒体文件与第二多媒体文件的访问相关度度量值、内容相关度度量值、以 及访问相关度和内容相关度对应的多元特征的相关度度量融合参数值;其中,所述第二多 媒体文件为一个或者多个;所述访问相关度用于表征所述第一多媒体文件和所述第二多媒 体文件被关联访问的情况;所述融合参数用于表征访问相关度和内容相关度分别占的比 重; 根据确定的所述融合参数值、所述第一多媒体文件与所述第二多媒体文件的访问相关 度度量值、内容相关度度量值,确定所