例一起用于解释本申请,并不构成对本申请的限制。在附图中:
[0048] 图1为本申请实施例提供的一种确定业务对象关键词的方法的流程图;
[0049] 图2为本申请实施例提供的一种确定业务对象关键词的装置的结构示意图。
【具体实施方式】
[0050] 为了解决现有技术中存在的确定出的业务对象关键词的准确度比较低的问题,本 申请实施例提供了一种确定业务对象关键词的方法及装置,该技术方案可w应用于当用户 点击了某个指定业务对象后,根据确定的指定业务对象的关键词向用户推荐与关键词相关 的其它业务对象的过程。W下结合说明书附图对本申请的优选实施例进行说明,应当理解, 此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请。并且在不冲突 的情况下,本申请中的实施例及实施例中的特征可W相互组合。
[0051] 当然,本申请技术方案的实施依赖大量用户行为数据的分析,因而需要类似 hadoop之类的并行计算平台。
[0052] 本申请实施例提供了一种确定业务对象关键词的方法,如图1所示,包括步骤 11-15。
[0053] 步骤11,根据用户针对业务对象的操作行为,确定指定业务对象与其它各业务对 象之间的相似度。
[0054] 本申请所述的业务对象可W理解为数据对象,所述数据对象可W是商品信息数 据,也可W是多媒体信息数据(例如音视频内容)。用户对业务对象的操作行为也即用户对 某一数据对象的操作行为,也即用户对某一数据对象的点击行为,包括访问点击(例如浏 览所述数据对象)、存储点击(例如收藏所述数据对象)、转发点击(例如将所述数据对象 推荐给其他用户)等。
[00巧]如果不同业务对象被同一用户执行过点击操作,郝么理论上便可W认为送些业务 对象之间存在相似度。因此,本申请中在确定指定业务对象和其它各业务对象之间的相似 度时,可W按照下述公式(1)来计算:
[0056]
(1)
[0057] 其中,di和dj分别表示两个不同的业务对象,sim(di,山')表示两个不同业务对象 之间的相似度,Wui和W。,分别表示用户U对两个业务对象是否存在所述操作行为,如果两个 业务对象被越多相同的用户执行过所述操作行为,相似度就越高。mii和mij可W使用数字 "0"或"1"进行量化。例如,用户U对业务对象di执行过指定操作,mii记作"1";未对di 执行过所述操作行为,mii记作"0"。
[0058] 步骤12,基于指定业务对象与其它各业务对象之间的相似度,确定指定业务对象 的相似业务对象。
[0059] 具体的,基于指定业务对象与其它各业务对象之间的相似度,从其它各业务对象 中,选取与指定业务对象相似度最高的K个业务对象,确定为指定业务对象的相似业务对 象。
[0060] 本申请实施例中,确定出指定业务对象的相似业务对象之后,即指定业务对象与 最相似的K个业务对象建立了链接关系。
[0061] 步骤13,基于相似业务对象的描述信息,确定指定业务对象的描述信息中包含的 属性词在相似业务对象的描述信息中出现的第一频率;
[0062] 具体的,确定指定业务对象的相似业务对象之后,首先可W统计出指定业务对象 的描述信息中包含的属性词在相似业务对象的描述信息中的出现次数sim_count,然后,出 现次数sim_count除W相似业务对象的个数K,便可W得到第一频率stf。
[0063] 步骤14,根据第一频率,W及预先确定的属性词在指定业务对象所属类目下的业 务对象的描述信息中出现的第二频率,确定属性词的重要度。
[0064] 其中,第二频率的计算方法和上述第一频率的计算方法类似,首先统计出指定业 务对象的描述信息中包含的属性词在指定业务对象所属类目下的业务对象的描述信息中 的出现次数count,然后除W送个类目下的所有业务对象的个数N,得到第二频率P。
[0065] 已知第一频率stf和第二频率P之后,本申请实施例中可W按照如下公式似确 定属性词的重要度:
[0066] stfi壯=stf*log(l/p) ; (2)
[0067] 其中,stfi壯表示属性词的重要度,stf表示属性词在所述相似业务对象的描述信 息中出现的第一频率,P表示属性词在所述指定业务对象所属类目下的业务对象的描述信 息中出现的第二频率。
[0068] 之所W要根据第一频率stf和第二频率P共同确定属性词的重要度,是因为通过 步骤13得到的第一频率stf并不一定能够直接反应出各属性词的重要度,即重要程度。比 如假设有一个商品是"宝马米其林轮胎",在该商品的20个相似商品中,有80%包含"轮 胎",60%包含"米其林",10%包含"宝马",很明显"宝马"出现的频率是比较低的,剩下"米 其林"和"轮胎"。然而在轮胎送个类目下的商品"轮胎"出现的频率是80%,"米其林"出现 的频率是5%,宝马也是5%,所轮胎"在相似商品中出现的频率很高,并不是因为用户 的操作行为,而是在商品中原本就有送么多"轮胎",所轮胎"的重要程度也应该比较低。
[0069] 步骤15,按照重要度从高至低的顺序,将预设个数的属性词确定为指定业务对象 的关键词。
[0070] 在确定出指定业务对象的关键词之后,进一步的,在当前用户对该指定业务对象 执行了指定操作时,该方法还可W进一步包括:
[0071] 根据指定业务对象的关键词,向当前用户推荐描述信息中包含指定业务对象的关 键词的其它业务对象。
[0072] 在实际应用中,如果用户点击了上述商品"宝马米其林轮胎",系统就可W根据"米 其林"来对用户推荐商品。因为根据先验知识,点击了送个商品的用户很可能会再点击"米 其林"的其他商品。
[0073] 因此,该技术方案不仅可W确定出每个指定业务对象的关键词,还可W应用于当 用户点击了某个指定业务对象后,根据确定的指定业务对象的关键词向用户推荐与关键词 相关的其它业务对象的过程。
[0074] 基于同一发明构思,根据本申请上述实施例提供的确定业务对象关键词的方法, 相应地,本申请实施例还提供了一种确定业务对象关键词的装置,其结构示意图如图2所 示,具体包括:
[0075] 相似度确定单元21,用于根据用户针对业务对象的操作行为,确定指定业务对象 与其它各业务对象之间的相似度;
[0076] 相似业务对象确定单元22,用于根据所述相似度确定单元21确定的指定业务对 象与其它各业务对象之间的相似度,确定所述指定业务对象的相似业务对象;
[0077] 第一频率确定单元23,用于基于所述相似业务对象的描述信息,确定所述指定业 务对象的描述信息中包含的属性词在所述相似业务对象确定单元22确定的相似业务对象 的描述信息中出现的第一频率;
[0078] 重要度确定单元24,用于根据所述第一频率确定单元23确定的第一频率,W及预 先确定的所述属性词在所述指定业务对象所属类目下的业务对象的描述信息中出现的第 二频率,确定所述属性词的重要度;
[0079] 关键词确定单元25,用于按照所述重要度确定单元24确定的重要度从高至低的 顺序,将预设个数的属性词确定为所述指定业务对象的关键词。
[0080] 较佳的,所述相似度确定单元21,具体用于:
[0081] 按照如下公式计算指定业务对象与其它各业务对象之间的相似度:
[0082]
[008引其中,di和dj分别表示两个不同的业务对象,sim(di,d^表示两个不同业务对象 之间的相似度,Wui和W。,分别表示用户U对两个业务对象是否存在所述操作行为。
[0084] 较佳的,所述相似业务对象确定单元22,具体用于:
[0085] 基于所述相似度确定单元21确定的指定业务对象与其它各业务对象之间的相似 度,从所述其它各业务对象中,选取与所述指定业务对象相似度最高的K个业务对象,确定 为所述指定业务对象的相似业务对象。
[0086] 较佳的,所述重要度确定单元24,具体用于:
[0087] 按照如下公式确定所述属性词的重要度:
[0088] stfi壯=stf*log(l/p);
[0089] 其中,st