一种确定业务对象关键词的方法及装置的制造方法
【技术领域】
[0001] 本申请涉及互联网技术领域和计算机技术领域,尤其涉及一种确定业务对象关键 词的方法及装置。
【背景技术】
[0002] 在现有的互联网技术中,网站上一般会发布一些业务对象,供登录该网站的用户 浏览,W及进一步的针对指定业务对象的后续处理操作。例如,W电子商务网站为例,业务 对象具体可W是卖家用户发布的产品,业务对象的信息具体可W是产品的描述信息等。登 录电子商务网站的用户可W通过所发布产品的描述信息,比如产品标题来确定所要浏览的 产品,并可W进一步的执行收藏、购买或推荐给其他用户等处理操作。
[0003] 如果网站能够通过用户对业务对象的浏览情况,确定出用户意图和潜在需求,就 能够更好的为用户提供服务。
[0004] 为了实现送一目的,现有技术中提出了根据用户浏览的业务对象的描述信息确定 用户意图和潜在需求的思想。但是目前网站上发布的业务对象的描述信息都是由一些用于 表征产品属性的属性词组成,而送些属性词往往堆砲严重,不符合正常的语法规则,因此如 何从杂乱无章的描述信息中抽取出最能体现用户意图和潜在需求的关键词,目前主要有两 种方式:
[0005] 1、使用词频-返文档频率(Term Rrequen巧-Inverse Do州ment Rrequen巧, TF-ID巧算法(一种用于信息搜索和信息挖掘的常用加权技术)统计出长文本中每个词出 现的次数,并根据出现的次数确定每个词的重要程度。但是,业务对象的描述信息通常是一 个短文本,大部分的属性词只出现一次,因此送种方法的准确度是比较低的。
[0006] 2、通过统计描述信息中每个属性词的词性来计算每个属性词的重要程度,进而将 最重要的属性词确定为关键词。但是送种方法确定出的关键词的准确度比较差。W手机为 例,手机的品牌对手机来说是很重要的,但是对于手机壳来说,手机壳的品牌的重要程度就 比较低,而重要程度较高的是手机壳适用的手机品牌。
【发明内容】
[0007] 有鉴于此,本申请实施例提供一种确定业务对象关键词的方法及装置,用于解决 现有技术中存在的确定出的业务对象关键词的准确度比较低的问题。
[0008] 本申请实施例通过如下技术方案实现:
[0009] -方面提供了一种确定业务对象关键词的方法,包括:
[0010] 根据用户针对业务对象的操作行为,确定指定业务对象与其它各业务对象之间的 相似度;
[0011] 根据所述指定业务对象与其它各业务对象之间的相似度,确定所述指定业务对象 的相似业务对象;
[0012] 基于所述相似业务对象的描述信息,确定所述指定业务对象的描述信息中包含的 属性词在所述相似业务对象的描述信息中出现的第一频率;
[0013] 根据所述第一频率,W及预先确定的所述属性词在所述指定业务对象所属类目下 的业务对象的描述信息中出现的第二频率,确定所述属性词的重要度;
[0014] 按照重要度从高至低的顺序,将预设个数的属性词确定为所述指定业务对象的关 键词。
[0015] 较佳的,根据用户针对业务对象的操作行为,确定指定业务对象与其它各业务对 象之间的相似度,具体包括:
[0016] 按照如下公式计算指定业务对象与其它各业务对象之间的相似度:
[0017]
[001引其中,di和dj分别表示两个不同的业务对象,sim(di,d^表示两个不同业务对象 之间的相似度,Wui和W。,分别表示用户U对两个业务对象是否存在所述操作行为。
[0019] 较佳的,基于所述指定业务对象与其它各业务对象之间的相似度,确定所述指定 业务对象的相似业务对象,具体包括:
[0020] 基于所述指定业务对象与其它各业务对象之间的相似度,从所述其它各业务对象 中,选取与所述指定业务对象相似度最高的K个业务对象,确定为所述指定业务对象的相 似业务对象。
[0021] 较佳的,根据所述第一频率,W及预先确定的所述属性词在所述指定业务对象所 属类目下的业务对象的描述信息中出现的第二频率,确定所述属性词的重要度,具体包 括:
[0022] 按照如下公式确定所述属性词的重要度:
[0023] stfi壯=stf*log(l/p);
[0024] 其中,stfi壯表示属性词的重要度,stf表示属性词在所述相似业务对象的描述信 息中出现的第一频率,P表示属性词在所述指定业务对象所属类目下的业务对象的描述信 息中出现的第二频率。
[00巧]较佳的,所述方法还包括:
[0026] 在当前用户对所述指定业务对象执行了指定操作时,根据所述指定业务对象的关 键词,向所述当前用户推荐描述信息中包含所述指定业务对象的关键词的其它业务对象。
[0027] 另一方面提供了一种确定业务对象关键词的装置,包括:
[0028] 相似度确定单元,用于根据用户针对业务对象的操作行为,确定指定业务对象与 其它各业务对象之间的相似度;
[0029] 相似业务对象确定单元,用于根据所述相似度确定单元确定的指定业务对象与其 它各业务对象之间的相似度,确定所述指定业务对象的相似业务对象;
[0030] 第一频率确定单元,用于基于所述相似业务对象的描述信息,确定所述指定业务 对象的描述信息中包含的属性词在所述相似业务对象确定单元确定的相似业务对象的描 述信息中出现的第一频率;
[0031] 重要度确定单元,用于根据所述第一频率确定单元确定的第一频率,W及预先确 定的所述属性词在所述指定业务对象所属类目下的业务对象的描述信息中出现的第二频 率,确定所述属性词的重要度;
[0032] 关键词确定单元,用于按照所述重要度确定单元确定的重要度从高至低的顺序, 将预设个数的属性词确定为所述指定业务对象的关键词。
[0033] 较佳的,所述相似度确定单元,具体用于:
[0034] 按照如下公式计算指定业务对象与其它各业务对象之间的相似度:
[0035]
[003引其中,di和dj分别表示两个不同的业务对象,sim(di,山')表示两个不同业务对象 之间的相似度,Wui和W。,分别表示用户U对两个业务对象是否存在所述操作行为。
[0037] 较佳的,所述相似业务对象确定单元,具体用于:
[0038] 基于所述相似度确定单元确定的指定业务对象与其它各业务对象之间的相似度, 从所述其它各业务对象中,选取与所述指定业务对象相似度最高的K个业务对象,确定为 所述指定业务对象的相似业务对象。
[0039] 较佳的,所述重要度确定单元,具体用于:
[0040] 按照如下公式确定所述属性词的重要度:
[0041] stfi壯=stf*log(l/p);
[0042] 其中,stfi壯表示属性词的重要度,stf表示属性词在所述相似业务对象的描述信 息中出现的第一频率,P表示属性词在所述指定业务对象所属类目下的业务对象的描述信 息中出现的第二频率。
[0043] 较佳的,所述装置还包括:
[0044] 推荐单元,用于在当前用户对所述指定业务对象执行了指定操作时,根据所述关 键词确定单元确定的指定业务对象的关键词,向所述当前用户推荐描述信息中包含所述指 定业务对象的关键词的其它业务对象。
[0045] 本申请实施例提供的上述至少一个技术方案中,根据用户针对业务对象的操作行 为,确定指定业务对象与其它各业务对象之间的相似度,并W此确定出指定业务对象的相 似业务对象,进而在确定指定业务对象的关键词时,将根据指定业务对象的描述信息确定 关键词抽象成了根据若干个相似业务对象的描述信息确定关键词,从而使得确定出的关键 词的准确度大大提局。
[0046] 本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变 得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明 书、权利要求书、W及附图中所特别指出的结构来实现和获得。
【附图说明】
[0047] 附图用来提供对本申请的进一步理解,并且构成说明书的一部分,与本申请实施