一种网站文章自定义推荐方法与流程

文档序号:24502149发布日期:2021-03-30 21:31阅读:来源:国知局

技术特征:

1.一种网站文章自定义推荐方法,其特征在于,包括:

对文章的内容进行分词并提取标签词组;

通过词频逆文档频率算法计算文章标签向量;

通过计算余弦相似度进行文章在线推荐;

使用协同过滤算法计算文章兴趣度,并进行离线推荐。

2.根据权利要求1所述的网站文章自定义推荐方法,其特征在于,所述对文章的内容进行分词并提取标签词组,包括:

对文章的内容进行分词;

将去除无用词条后的剩余词条作为文章的标签词条。

3.根据权利要求2所述的网站文章自定义推荐方法,其特征在于,所述通过词频逆文档频率算法计算文章标签向量,包括:

计算词频,公式为

计算逆向文件频率,公式为

计算tfidfw=tfw*idfw,得到关键词条;

将标签词条的词条量设为标签向量维度;

将标签词条之外的新的标签向量的值设为0;

输出文章标签向量:vec_a=[0.001,...0.002,..,0],其中a代表文章a。

4.根据权利要求3所述的网站文章自定义推荐方法,其特征在于,所述通过计算余弦相似度进行文章在线推荐,包括:

通过文章标签向量计算余弦相似度,公式为其中a,b分别代表进行计算的两篇文章;

根据余弦相似度匹配当前文章的相关文章,并过滤掉标题相似的相关文章,得到在线推荐文章;

在线推荐文章按照所述相似度排序,在用户点击刷新或者重新打开网站时优先展示在线推荐文章。

5.根据权利要求1所述的网站文章自定义推荐方法,其特征在于,所述使用协同过滤算法计算文章兴趣度,并进行离线推荐,包括:

利用余弦相似度计算用户两两之间的用户相似度;

公式为:μ,υ为两个不同的用户;

使用协同过滤算法将相近兴趣的用户分在一组;

为任一用户共享推荐组内成员看过的文章。

6.根据权利要求5所述的网站文章自定义推荐方法,其特征在于,所述方法还包括:

筛选与当前用户的用户相似度匹配较高的若干个用户;

获取所述若干个用户阅读过的离线推荐文章,并过滤掉当前用户阅读过的文章;

将离线推荐文章按照用户相似度加权求和之后排序,并在用户隔天登录时优先展示。

7.根据权利要求1所述的网站文章自定义推荐方法,其特征在于,所述方法还包括:

文章内容存储到mysql数据库,并设置文章id为索引;

记录用户阅读日志并存储到kafka数据库,所述阅读日志包括:用户id和文章id和阅读时间。

8.根据权利要求1所述的网站文章自定义推荐方法,其特征在于,所述方法还包括:

网站按照文章大类进行文章展示,设置类别id表示文章类别。


技术总结
本发明提供一种网站文章自定义推荐方法,包括:对文章的内容进行分词并提取标签词组;通过词频逆文档频率算法计算文章标签向量;通过计算余弦相似度进行文章在线推荐;使用协同过滤算法计算文章兴趣度,并进行离线推荐。本发明实现了用户浏览文章之后,通过阅读日志的分析,为用户推荐感兴趣的文章。

技术研发人员:刘青;连恩杨;李朋;李文静;沈洪月;张汉勇
受保护的技术使用者:济南大象信息技术有限公司
技术研发日:2020.12.28
技术公布日:2021.03.30
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1