一种基于评论文本和评分分析的信息推荐方法
【技术领域】
[0001] 本发明属于数据挖掘领域,尤其涉及一种基于评论文本和评分分析的信息推荐方 法。
【背景技术】
[0002] 推荐系统广泛用于在线广告投放、网络购物平台等Web应用领域。推荐系统通过 发现用户喜好,帮助用户发现感兴趣的电影、音乐及各类商品;同时,也为在线广告、商品 等更精确地锁定目标人群。公知的推荐方法主要有两种:基于内容过滤(content-based filtering)和协同过滤(collaborative filtering)。其中,基于内容过滤的推荐方法根据 用户已购商品的特征属性来推荐具有相似属性的商品。然而,该方法推荐的商品种类较为 单一,且缺乏新意。协同过滤方法则按用户浏览、评价商品等行为,推荐具有相似偏好的用 户购买或喜爱的商品。
[0003] 随着互联网的发展,电子商务网站中出现大量用户评论信息。用户通过评论来表 达自己对商品的评价,交流购物心得。一条评论由评分和评论文本组成,评论文本包含丰富 的商品属性描述信息,可看作评分的依据。然而,公知的协同过滤方法并未利用评论文本 进行推荐。另一方面,公知的评论分析方法涵盖了主题发现、情感分析和观点挖掘等领域, 可通过分析评论文本来预测评分。Qu等(Proc ofthe 23rd Int Confon Computational Linguistics. ACL,2010 :913-921)使用观点相关词表示一条评论,对观点描述的属性、阐 述观点的形容词和否定词等进行训练得到一个预测评分的线性模型;Ganu等(12th Int Workshop on the Web and Databases. 2009)对评分建模,得到输入为商品属性和对应观点 正负性的评分预测公式。但这些方法只能分析出已有评论的评分,而无法预测用户对未评 论商品的评分,因此不适用于推荐系统。
[0004] 公知的结合评分和评论文本的推荐方法有McAuley等(Proc ofthe 7thACM Confon Recommender Systems. ACM,2013 :165-172)提出的 HFT(Hidden Factors as Topics),即通过结合评分的隐藏因子和评论文本的评论主题产生商品/用户档案,并使用 SVD模型预测评分。然而,该方法中评论文本每次只和商品/用户中的一个维度关联,也就 是说评论主题只反映了影响评分的一个维度,另一维度则人为地与其保持一致。
[0005] 因此,为了克服上述缺陷,本发明提出了一种基于评论文本和评分分析的信息推 荐方法,以发现评分与评论文本间的潜在关系为出发点,挖掘评论文本中的评论主题以及 评论在主题上的分布,并在此基础上生成用户档案和评论对象档案,从而预测用户对未评 论对象的评分,显著增强了推荐信息与用户偏好之间的潜在关联。
【发明内容】
[0006] 本发明提出了一种基于评论文本和评分分析的信息推荐方法,包括如下步骤:
[0007] 步骤一:获得评论文本的集合,所述集合包括一个以上用户分别对于一个以上已 评论对象做出的评论文本,从所述集合中挖掘得到每一条评论文本关于已评论对象的多个 评论主题以及所述评论文本关于各评论主题的分布数据。步骤二:根据所述每一条评论文 本的分布数据生成用户档案和评论对象档案;所述用户档案是指用户在各评论主题的分布 数据,所述评论对象档案是指已评论对象在评论主题的分布数据。步骤三:建立评分预测模 型,将所述评论文本的分布数据输入所述评分预测模型,直至所述评分预测模型输出的预 测评分与用户在评论文本中做出的实际评分之间的差异在阈值内则停止输入,完成对所述 评分预测模型的训练。步骤四:对于一个用户,根据所述用户的用户档案和评论对象档案估 计所述用户的评论文本关于未评论对象的分布数据,向所述评分预测模型输入所述分布数 据以预测所述用户关于未评论对象的评分,根据所述评分的高低向用户推荐所述未评论对 象的信息。
[0008] 本发明提出的所述基于评论文本和评分分析的信息推荐方法中,在所述步骤一 中,使用LDA文本模型挖掘每一条评论文本的评论主题,并且使用LDA文本模型得到所述评 论文本关于所述评论主题的分布数据。
[0009] 本发明提出的所述基于评论文本和评分分析的信息推荐方法中,在所述步骤二 中,所述用户档案以如下公式表示:
[0011] 其中,pu表示用户U的用户档案,pu]表示用户u在第j个评论主题上的分布数据, Σ i Θ ui]表示用户u对于已评论对象i的评论文本中关于第j个评论主题的分布数据的和, |D U|表示用户u的评论总数,p' u]表示用户u的评论文本中关于第j个评论主题的分布数 据的均值,K表示评论主题的总数。
[0012] 本发明提出的所述基于评论文本和评分分析的信息推荐方法中,在所述步骤二 中,所述评论对象档案以如下公式表示:
[0014] 其中,qi表示第j个已评论对象的评论对象档案,qij表示第i个已评论对象第j 个评论主题上的分布数据,Σ u Θ U1]表示第i个已评论对象关于第j个评论主题的分布数据 的和,也」表示第i个已评论对象的评论总数,q' ^表示第i个已评论对象的评论文本中 关于第j个评论主题的分布数据的均值,K表示评论主题的总数。
[0015] 本发明提出的所述基于评论文本和评分分析的信息推荐方法中,在所述步骤三 中,建立线性回归模型,用于表示分布数据和预测评分之间的关联,利用所述线性回归模型 进行预测的评分以如下公式表示:
[0016]
[0017] 其中,Θ ui表示用户u关于已评论对象i的评论文本的主题分布数据,匕表示用户 u关于已评论对象i的模型预测评分,W表示评论主题的权重向量,Wi表示第j个评论主题 的权重,j e [1,K],WT表示W的转置矩阵,ε U1表示误差变量。
[0018] 本发明提出的所述基于评论文本和评分分析的信息推荐方法中,在所述步骤三 中,建立逻辑回归模型,用于表示分布数据和预测评分之间的多元关联,利用所述逻辑回归 模型进行预测的评分以如下公式表示:
[0019]
[0020] 其中,Θ ui表示用户u关于已评论对象i的评论文本的分主题布数据,β η = ( β nl, β n2···,β nK)是.? = S时的主题权重向量,.表示:? 时e的心」欠方,Pr(/;, =#)表示rM =ΛΓ 的概率,Ν表示评分的最大值。
[0021] 本发明提出的所述基于评论文本和评分分析的信息推荐方法中,在所述步骤四 中,所述用户的评论文本关于未评论对象的分布数据以如下公式表示:
[0022]
[0023] 其中,Θ ' mj表示用户u与未评论对象i在第j个评论主题上的分布数据的乘 积,Pu]表示用户u在第j个评论主题上的分布数据, qi]表示未评论对象i第j个评论主题 上的分布数据,&表示用户u的评论文本关于未评论对象i在第j个评论主题上的分布数 据,j表示第j个评论主题,K表示评论主题的总数,j表示未评论对象。
[0024] 本发明提出的所述基于评论文本和评分分析的信息推荐方法中,所述步骤四进一 步包括:对于推荐的所述未评论对象的信息做进一步衡量与筛选,从中获取更高相关程度 的评论文本同时发送给用户。
[0025] 本发明提出的所述基于评论文本和评分分析的信息推荐方法中,对于一个未评论 对象,计算其评论文本中评论主题与所述未评论对象的相关程度,所述相关程度以如下公 式表不:
[0027] 其中,d(rul,i)表示评论主题与未评论对象i的相关程度,| | 0ui-qi| |2表示0ui-qi 的2-范数,即II=〔Σ,|~ if)那么 θ ui表示用户U关于未评论对象i的评论文本的分布数据,