1.一种网站文章自定义推荐方法,其特征在于,包括:
对文章的内容进行分词并提取标签词组;
通过词频逆文档频率算法计算文章标签向量;
通过计算余弦相似度进行文章在线推荐;
使用协同过滤算法计算文章兴趣度,并进行离线推荐。
2.根据权利要求1所述的网站文章自定义推荐方法,其特征在于,所述对文章的内容进行分词并提取标签词组,包括:
对文章的内容进行分词;
将去除无用词条后的剩余词条作为文章的标签词条。
3.根据权利要求2所述的网站文章自定义推荐方法,其特征在于,所述通过词频逆文档频率算法计算文章标签向量,包括:
计算词频,公式为
计算逆向文件频率,公式为
计算tfidfw=tfw*idfw,得到关键词条;
将标签词条的词条量设为标签向量维度;
将标签词条之外的新的标签向量的值设为0;
输出文章标签向量:vec_a=[0.001,...0.002,..,0],其中a代表文章a。
4.根据权利要求3所述的网站文章自定义推荐方法,其特征在于,所述通过计算余弦相似度进行文章在线推荐,包括:
通过文章标签向量计算余弦相似度,公式为
根据余弦相似度匹配当前文章的相关文章,并过滤掉标题相似的相关文章,得到在线推荐文章;
在线推荐文章按照所述相似度排序,在用户点击刷新或者重新打开网站时优先展示在线推荐文章。
5.根据权利要求1所述的网站文章自定义推荐方法,其特征在于,所述使用协同过滤算法计算文章兴趣度,并进行离线推荐,包括:
利用余弦相似度计算用户两两之间的用户相似度;
公式为:
使用协同过滤算法将相近兴趣的用户分在一组;
为任一用户共享推荐组内成员看过的文章。
6.根据权利要求5所述的网站文章自定义推荐方法,其特征在于,所述方法还包括:
筛选与当前用户的用户相似度匹配较高的若干个用户;
获取所述若干个用户阅读过的离线推荐文章,并过滤掉当前用户阅读过的文章;
将离线推荐文章按照用户相似度加权求和之后排序,并在用户隔天登录时优先展示。
7.根据权利要求1所述的网站文章自定义推荐方法,其特征在于,所述方法还包括:
文章内容存储到mysql数据库,并设置文章id为索引;
记录用户阅读日志并存储到kafka数据库,所述阅读日志包括:用户id和文章id和阅读时间。
8.根据权利要求1所述的网站文章自定义推荐方法,其特征在于,所述方法还包括:
网站按照文章大类进行文章展示,设置类别id表示文章类别。