技术特征:
1.一种基于lda主题模型的文档推荐方法,其特征在于,包括以下步骤:第一步、以文本数据为输入,输出训练好的主题模型,并将用户-主题分布矩阵、文档-主题分布矩阵和计算得到的用户-文档得分矩阵存储至内存;第二步、基于第一步按内容推荐文档。2.如权利要求1所述的方法,其特征在于,第一步具体为:(1)训练文本数据采用lda,以文本数据为输入,输出训练好的主题模型;(2)计算文档-主题分布文档导入时,通过所述主题模型计算得到其主题分布,即文档-主题分布,文档-主题分布矩阵中每一行代表一篇文档,每一列代表一个主题;(3)计算用户-主题分布当用户登录时,从数据库读取用户-主题分布,如果该用户是新用户,则判定用户对所有主题兴趣度一样,并初始化一个的所有值相等的主题分布,用户-主题分布矩阵中每一行代表一个用户,每一列代表一个主题;(4)计算用户-文档得分用户-文档得分矩阵由用户-主题分布矩阵和主题-文档分布矩阵计算得到:用户-文档得分矩阵=用户-主题分布矩阵
×
主题-文档分布矩阵其中,用户-文档得分矩阵中每一行代表一个用户对应各文档的得分,每一列代表一篇文档对应各用户的得分,主题-文档分布矩阵为文档-主题分布矩阵的转置;用户-文档得分是用户-文档得分矩阵中的一个元素,计算用户-文档得分考虑三个因素,分别为用户兴趣、浏览历史、文档热度,用户兴趣体现用户对不同主题的关注度,浏览历史记录用户曾经浏览过的文档,文档热度反映该文档在推荐系统中的火爆程度;将用户-文档得分矩阵中的每个用户-文档得分都加上sigmod(热度值),sigmod(热度值)是指对热度值进行sigmod归一化后的值;最后,根据用户兴趣与文档主题的相似度,综合考虑浏览历史、文档热度,遍历所有用户和文档,计算用户-文档得分;(5)存储结果至内存将用户-主题分布矩阵、文档-主题分布矩阵和最终计算得到的用户-文档得分矩阵存储至内存。3.如权利要求2所述的方法,其特征在于,第二步具体为:(1)计算搜索内容的主题分布获取用户在搜索框中输入的搜索内容,将该搜索内容看作一篇文档放入第一步中已训练好的主题模型中计算得到对应的主题分布;(2)更新用户-主题分布矩阵当用户对输入的搜索内容进行搜索时,则判定用户对本次搜索的主题感兴趣,此时进行用户兴趣的更新,其中将计算得到的搜索内容的主题分布加入到用户-主题分布矩阵中进行用户-主题分布矩阵更新,以此记录用户行为,并在下一次用户进行搜索时推荐用户更感兴趣的文档;(3)通过向量检索工具faiss查找相似向量
引用faiss,从内存中读取已计算好的文档-主题分布矩阵并将其放入faiss作为索引,在创建好包含文档-主题分布的索引后,将用户搜索内容的文档-主题分布当作搜索向量放入faiss中查找相似向量,通过faiss查找得到的相似向量为目标向量;(4)加权随机抽样,得到要推荐的文档通过faiss得到搜索向量与目标向量的距离d以及目标向量的索引,距离越近,则判定搜索向量与目标向量越相似,通过softmax对所有目标向量的距离进行归一化,转化为一组(0,1)之间并且和为1的数值,这些数值被当做每个目标向量被推荐的权重w:w=softmax(-d)假设要抽取n篇文档进行推荐,首先对目标向量的距离从小到大进行排序,然后截取前10n篇文档作为抽样的样本,最后通过加权随机无放回的抽样得到10n篇文档中的n篇文档。4.如权利要求2所述的方法,其特征在于,还包括第三步、基于第一步主动推荐文档。5.如权利要求4所述的方法,其特征在于,第三步具体为:(1)通过用户-文档矩阵获取推荐文档当用户登录系统时,从后端获取当前用户id,并从已保存在内存中的用户-文档得分矩阵中抽取出当前用户的文档及用户-文档得分,然后按得分从大到小的顺序排序,取前10n篇文档作为候选推荐文档;(2)加权随机抽样对每篇文档的得分进行归一化,从而得到每篇文档所对应的权重,然后通过加权随机无放回的抽样得到10n篇候选推荐文档中的n篇文档作为最终推荐文档。6.如权利要求2所述的方法,其特征在于,计算用户-文档得分时,对于每篇文档,浏览文件增加的热度值为1,收藏文件增加的热度值为3,下载文件增加的热度值为2。7.如权利要求2所述的方法,其特征在于,计算用户-文档得分时,每个用户-文档得分都加上sigmod(热度值)后,对于用户已浏览过的文档,最后扣除10%的得分。8.一种利用权利要求1至7中任一项所述方法实现的文档推荐系统。9.一种如权利要求1至7中任一项所述方法在文档推荐系统中的应用。10.一种如权利要求1至7中任一项所述方法在信息技术中的应用。
技术总结
本发明涉及一种基于LDA主题模型的文档推荐方法,属于信息技术领域。本发明使用了LDA主题模型将每个文档进行向量化,并输出该文档的主题概率,将推荐系统中的所有文档主题概率结合起来便能得到一个文档对主题的矩阵。另一方面,通过给新用户初始化来赋予每个用户一个主题概率,并使用户主题概率的维度与文档主题概率的维度保持一致,然后将所有用户主题概率结合起来得到一个用户对主题的矩阵。最后,通过用户和文档的两个主题概率矩阵,计算出用户对文档的兴趣值并将相应文档推荐给用户。这种推荐方法可以广泛运用在文档推荐系统中,并适用于各类文档。于各类文档。于各类文档。
技术研发人员:范昕煜 杨雨婷 王又辰 田宗凯 栾真
受保护的技术使用者:北京计算机技术及应用研究所
技术研发日:2022.05.23
技术公布日:2022/9/6