一种基于用户评论的商品属性聚类方法
【专利摘要】本发明涉及基于用户评论的商品属性聚类方法,属于数据挖掘领域。本发明结合用户评论信息以及商品属性信息,对特征类似的商品,根据用户评价计算属性的好评率,将其作为权值计算商品的相似性,再将商品排序,为用户返回包含真实信息的所需商品。能直接筛选出在用户关心的商品属性中,最真实好评的商品,不仅节省了选购商品的时间,也提高了用户的购物体验。
【专利说明】一种基于用户评论的商品属性聚类方法
【技术领域】
[0001]本发明涉及一种基于用户评论的商品属性聚类方法,属于数据挖掘领域。
【背景技术】
[0002]上世纪90年代以来,随着网络、通信和信息技术的突破性进展,Internet在全球爆炸性增长并迅速普及。在这一前提下,电子商务应运而生了。电子商务活动是通过公共计算机通信网络进行商务活动的现代方式,该方式突破传统商务在时间、地域上的限制,成为方便、快捷、安全可靠的新兴电子化商务活动模式。买卖双方可以在开放的网络环境下足不出户的进行网上购物、电子支付等商务活动。
[0003]随着电子商务的不断发展,规模的不断扩大,商品的个数和种类也快速的增加,这使得顾客在挑选所需的商品上,会花费大量的时间,在较短的时间购买到适合自己的商品,已经成为网络购物的发展方向。基于海量数据分析与数据挖掘技术的推荐服务也因此成为各大电子商务网站使用的技术之一。
[0004]由于电子商务是一种不谋面的商务活动,交易的过程中存在着一些不确定性,因而,已交易顾客对商品的评价信息就成为了对商品质量等特性进行参考的关键因素。通过商品的评价信息,顾客可以对商品的适用性有一些基本的了解。由于评价信息的口语化,商品的评价信息中包含很多并未出现的产品特征评价词,但在评价信息中被暗指,我们称其为一个隐式评价对象,通过对隐式评价对象的提取,能更全面的分析商品的特征。目前的个性化推荐系统大致基于用户的购买行为或者产品之间的相似程度,仅仅提供给用户一些隐含需求上的帮助,其产品相似的程度往往是客观的,缺少用户对商品特征的主观评价信息,因而无法反映商品的真实情况。基于评分的推荐在相似度计算过程中很难体现出商品某一方面特征的好坏程度,评分仅仅计算商品的整体分数。因而,在进行推荐时,对于那些购买目标明确的用户,如何向用户推荐带有以往用户评论的真实属性的某些好评产品,提高推荐的准确性,成为了需要解决的问题。
【发明内容】
[0005]本发明提供一种基于用户评论的商品属性聚类方法,以解决现有推荐系统中对于购买目标明确的用户,推荐的商品无法真实反映用户评价的问题,帮助用户快速选择商品。
[0006]为解决上述问题,本发明具体技术方案为:
[0007]步骤一、收集商品的属性信息以及用户对该商品的评论信息;
[0008]步骤二、对商品的评论信息进行预处理,
[0009]1、对商品的评论信息先去除垃圾评论;
[0010]2、对评论进行分词、词性标注,将评论划分为词条;
[0011]3、构建以名词短语和形容词短语为基础搭配的语法模式,抽取出显示评价对象及评价词,获取搭配集合M {评价对象,评价词};
[0012]4、抽取隐式评价对象,手工构建映射集,若在词句的切分中,搭配集合M {评价对象,评价词}左侧没有发现名词,则搜索构建的映射集合,若搜到隐式评价指示词,将隐式评价词映射到相应的评价对象上,以此获取隐式评价对象;
[0013]5、做极性判断,将极性强度分为(好、差),删除中性的评价,利用Hownet计算词汇倾向性,以Hownet提供的正负面评价词语作为基准词,判别待定词与基准词在Hownet中是否为同义词,计算出词汇的倾向性,计算公式如下:
【权利要求】
1.一种基于用户评论的商品属性聚类方法,其特征在于: 步骤一、收集商品的属性信息以及用户对该商品的评论信息; 步骤二、对商品的评论信息进行预处理; 步骤三、使用向量空间模型来处理,计算搭配集合M中评价词&与观点词Oj的联合概率P (fi, 0),以及评价词fi单独出现的概率p (fi),计算评价词fi的权值:
2.如权利要求1所述的一种基于用户评论的商品属性聚类方法,其特征还在于:对商品的评论信息进行预处理过程为: (1)对商品的评论信息先去除垃圾评论; (2)对评论进行分词、词性标注,将评论划分为词条; (3)构建以名词短语和形容词短语为基础搭配的语法模式,抽取出显示评价对象及评价词,获取搭配集合M {评价对象,评价词}; (4)抽取隐式评价对象,手工构建映射集,若在词句的切分中,搭配集合M{评价对象,评价词}左侧没有发现名词,则搜索构建的映射集合,若搜到隐式评价指示词,将隐式评价词映射到相应的评价对象上,以此获取隐式评价对象; (5)做极性判断,将极性强度分为(好、差),删除中性的评价,利用Hownet计算词汇倾向性,以Hownet提供的正负面评价词语作为基准词,判别待定词与基准词在Hownet中是否为同义词,计算出词汇的倾向性,计算公式如下:
【文档编号】G06F17/30GK103778214SQ201410020517
【公开日】2014年5月7日 申请日期:2014年1月16日 优先权日:2014年1月16日
【发明者】闫波, 张也, 宿红毅, 郑宏 申请人:北京理工大学