型得到的主题权重
[0060]
[0061] 最后,利用训练后的评分预测模型进行评分预测。给定一个用户u和一家该用户 U未评论的餐馆i (即未评论对象)。首先根据用户/评论对象档案Pu/Pl估计用户U对餐 馆i的评论主题的分布七,其分布数据以如下公式表示:
[0062]
[0063] 其中,Θ ' m]表示用户u与未评论对象i在第j个评论主题上的分布数据的乘 积,Pu]表示用户u在第j个评论主题上的分布数据, qi]表示未评论对象i第j个评论主题 上的分布数据,I表示用户u的评论文本关于未评论对象i在第j个评论主题上的分布数 据,j表示第j个评论主题,K表示评论主题的总数,i表示未评论对象。
[0064] 然后,把&作为回归模型的输入计算得到预测评分I;最后,把预测评分排名靠前 的餐馆推荐给用户u。例如,对于一个给定餐馆i (即被预测评分的未评论对象),选择与其 评论对象档案Pl有相似主题分布的评论作为具有代表性的评论。使用以下公式度量评论 rul与餐馆i的相关程度,该相关程度以如下公式表示:
[0066] 其中,d(rul,i)表示评论主题与未评论对象i的相关程度,| | 0ui-qi| |2表示0ui-qi
Θ ui表示用户u关于未评论对象i的评论文本的分布数据,表示未评论对象i的评论对 象档案。
[0067] 表4是使用训练逻辑回归模型得到的主题权重预测餐馆评分,推荐给该用户的前 10家餐馆。
[0068] 表4推荐给该用户的前10家餐馆
[0069]
[0070] 此外,由于一些热门餐馆往往具有上百或上千条评论,即存在信息过载以及存在 较多冗余信息的问题,因此需要选择具有代表性的一组评论方便用户阅读以作参考。因此 本发明较佳实施例中对于推荐的未评论对象的信息做进一步衡量与筛选,从中获取更高相 关程度的评论文本同时发送给用户。
[0071] 本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本 领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保 护范围。
【主权项】
1. 一种基于评论文本和评分分析的信息推荐方法,其特征在于,包括如下步骤: 步骤一:获得评论文本的集合,所述集合包括一个W上用户分别对于一个W上已评论 对象做出的评论文本,从所述集合中挖掘得到每一条评论文本关于已评论对象的多个评论 主题W及所述评论文本关于各评论主题的分布数据; 步骤二;根据所述每一条评论文本的分布数据生成用户档案和评论对象档案;所述用 户档案是指用户在各评论主题的分布数据,所述评论对象档案是指已评论对象在评论主题 的分布数据; 步骤Η ;建立评分预测模型,将所述评论文本的分布数据输入所述评分预测模型,直至 所述评分预测模型输出的预测评分与用户在评论文本中做出的实际评分之间的差异在阔 值内则停止输入,完成对所述评分预测模型的训练; 步骤四;对于一个用户,根据所述用户的用户档案和评论对象档案估计所述用户的评 论文本关于未评论对象的分布数据,向所述评分预测模型输入所述分布数据W预测所述用 户关于未评论对象的评分,根据所述评分的高低向用户推荐所述未评论对象的信息。2. 如权利要求1所述的基于评论文本和评分分析的信息推荐方法,其特征在于,在所 述步骤一中,使用LDA文本模型挖掘每一条评论文本的评论主题,并且使用LDA文本模型得 到所述评论文本关于所述评论主题的分布数据。3. 如权利要求1所述的基于评论文本和评分分析的信息推荐方法,其特征在于,在所 述步骤二中,所述用户档案W如下公式表示:其中,Pu表示用户U的用户档案,Ρ。,表示用户U在第j个评论主题上的分布数据, Σ 1 Θ。1,表示用户U对于已评论对象i的评论文本中关于第j个评论主题的分布数据的和, Id」表示用户U的评论总数,P'。,表示用户U的评论文本中关于第j个评论主题的分布数 据的均值,K表示评论主题的总数。4. 如权利要求1所述的基于评论文本和评分分析的信息推荐方法,其特征在于,在所 述步骤二中,所述评论对象档案W如下公式表示:其中,表示第i个已评论对象的评论对象档案,q,,表示第i个已评论对象第j个评 论主题上的分布数据,Σ。Θ。1,表示第i个已评论对象关于第j个评论主题的分布数据的 和,|Di|表示第i个已评论对象的评论总数,q' U表示第i个已评论对象的评论文本中关 于第j个评论主题的分布数据的均值,K表示评论主题的总数。5. 如权利要求1所述的基于评论文本和评分分析的信息推荐方法,其特征在于,在所 述步骤Η中,建立线性回归模型,用于表示分布数据和预测评分之间的关联,利用所述线性 回归模型进行预测的评分W如下公式表示:其中,Θ U1表示用户U关于已评论对象i的评论文本的主题分布数据,?,.表示用户U关 于已评论对象i的模型预测评分,W表示评论主题的权重向量,W,表示第j个评论主题的权 重,je [1,时,WT表示W的转置矩阵,£。1表示误差变量。6. 如权利要求1或5所述的基于评论文本和评分分析的信息推荐方法,其特征在于,在 所述步骤Η中,建立逻辑回归模型,用于表示分布数据和预测评分之间的多元关联,利用所 述逻辑回归模型进行预测的评分W如下公式表示:其中,表示用户U关于已评论对象i的评论文本的主题分布数据,目。=(目。1, 目。2···,目ηκ)是^ = ?时的主题权重向量,e抑表示龙=口时e的说,次方,巧化,=別表示芭= 的概率,N表示评分的最大值。7. 如权利要求1所述的基于评论文本和评分分析的信息推荐方法,其特征在于,在所 述步骤四中,所述用户的评论文本关于未评论对象的分布数据W如下公式表示:其中,Θ '。1,表示用户U与未评论对象i在第j个评论主题上的分布数据的乘积,P。, 表示用户U在第j个评论主题上的分布数据,Qi,表示未评论对象i第j个评论主题上的分 布数据,^表示用户U的评论文本关于未评论对象i在第j个评论主题上的分布数据,j表 示第j个评论主题,K表示评论主题的总数,i表示未评论对象。8. 如权利要求1所述的基于评论文本和评分分析的信息推荐方法,其特征在于,所述 步骤四进一步包括;对于推荐的所述未评论对象的信息做进一步衡量与筛选,从中获取更 高相关程度的评论文本同时发送给用户。9. 如权利要求8所述的基于评论文本和评分分析的信息推荐方法,其特征在于,对于 一个未评论对象,计算其评论文本中评论主题与所述未评论对象的相关程度,所述相关程 度W如下公式表示:其中,dbui,U表示评论主题与未评论对象i的相关程度,II Θ ui-QilIz表 不日ui-Qi 的 2-范数,即 I I 日ui-Qil I2 = ( Σ .j| 日ui.j-qi.j|2)i/2, j E [1,K],郝么θ ui表示用户u关于未评论对象i的评论文本的 分布数据,表示未评论对象i的评论对象档案。
【专利摘要】本发明公开了一种基于评论文本和评分分析的信息推荐方法,包括如下步骤:获得评论文本的集合,从中挖掘得到每一条评论文本关于已评论对象的多个评论主题及其分布数据;根据每一条评论文本的分布数据生成用户档案和评论对象档案;建立并训练评分预测模型;根据用户档案和评论对象档案估计用户的评论文本关于未评论对象的分布数据,以预测用户关于未评论对象的评分,根据评分的高低向用户推荐未评论对象的信息。本发明挖掘评分与评论文本间的潜在关系,挖掘评论文本中的评论主题以及评论在主题上的分布从而预测用户对未评论对象的评分,显著增强了推荐信息与用户偏好之间的潜在关联。
【IPC分类】G06F17/30
【公开号】CN105574003
【申请号】CN201410531592
【发明人】余文喆, 张蓉
【申请人】华东师范大学
【公开日】2016年5月11日
【申请日】2014年10月10日