一种个性化大数据混合推荐系统的制作方法

文档序号:32986421发布日期:2023-01-17 22:48阅读:24来源:国知局
一种个性化大数据混合推荐系统的制作方法

1.本发明属于个性化视频推荐技术领域,更具体地说,尤其涉及一种个性化大数据混合推荐系统。


背景技术:

2.经常刷短视频的人,往往会发现自己对一个视频点赞之后,在随后一段时间内,系统会为自己推送越来越多类似的视频,并且推送的广告信息,也与自己感兴趣的内容接近;个性化推荐有助于改善用户体验,用户不管是喜欢小动物、美食还是美妆,都不用到处去搜索资源,算法会源源不断地推荐;当前一些互联网公司的基于智能语音助手的视频推荐功能采用的推荐策略为千人一面的热门推荐方法,尤其地,申请号为201610712336.x的专利公开了一种个性化视频推荐系统及方法,其中系统包括视频数据库;点击行为记录模块,获取各用户的点击行为,并针对各用户分别将被点击的视频的标识记录于数据库表中;兴趣模型建立模块,从该数据库表中获取每个视频的属性信息,并根据该属性信息提取用户的兴趣标记,建立兴趣模型;候选视频生成模块,根据一相关视频生成规则从视频数据库中生成一候选视频列表;以及视频推荐模块,对该候选视频列表中的每条候选视频根据一权值计算模型进行权值计算,并根据每条候选视频的权值计算结果排序生成推荐列表,输出推荐结果。该发明可根据每个用户的个人兴趣,挖掘出符合个性化需求的内容进行推荐;上述视频推荐系统虽然能将时下最多人关注的视频内容推荐给用户,但无法满足不同用户本身的兴趣与喜好,对于这些用户群体的需求与期望,需要以个性化的推荐策略来满足。


技术实现要素:

3.本发明的目的是为了解决现有技术中存在的缺点,实现通过现有的基于视频的协同过滤算法与基于流行度的算法加上线性加权法来实现内容召回混合功能,再配合贝叶斯平滑方法来计算ctr预估中所需要的参数,最后推荐结果列表格式,输出相对应的接口文件来与后台搜索模块进行交互,并透过在线测试所获得的用户点击率变化来分析本模块可改善优化的方向,以达到提升召回率、准确率与点击率的目标,满足不同用户本身的兴趣与喜好,以个性化的推荐策略满足不同用户群体的需求和期望。
4.为实现上述目的,本发明提供如下技术方案:一种个性化大数据混合推荐系统,包括总体需求单元、需求分析单元和总体设计单元,所述总体需求单元包括功能性需求模块、接口需求模块和非功能性需求模块,所述需求分析单元包括个性化视频推荐模块、外部事件模块和运行场景模块,所述总体设计单元包括总体架构和业务流程;所述功能性需求模块包括数据集导入处理、视频内容召回、内容排序计算和推荐结果输出,所述数据集导入处理可细分为数据集导入和数据集预处理,所述视频内容召回可细分为基于视频的协同过滤计算、基于流行度的计算和混合计算,所述接口需求模块包
括输入内容格式、输入文档格式、文档读取地址、输出内容格式、输出文档格式和文档存储地址,所述非功能性需求模块包括召回率、准确率、点击率、混合比例、运行稳定性和模块化设计;所述个性化视频推荐模块中的视频评分数据集给该模块提供视频标签与用户历史数据所产生的ratings数据集,个性化视频推荐模块获取数据后对数据进行预处理,并随机生成训练集与测试集;所述外部事件模块包括视频评分信息、推荐结果信息、结果评价信息、点击率预估参数信息和模型参数调整事件;所述运行场景模块包括个性化视频推荐、混合比例调参和点击率预估参数返回三个场景。
5.优选的,所述数据集导入处理是将选定的公开数据集,将其导入数据集模块并对数据进行预处理;所述视频内容召回是透过训练集数据来训练模型,根据模型来进行视频内容的召回,并输出成召回推荐表;所述内容排序计算是进行ctr的预估,使用贝叶斯平滑方法进行参数的计算;所述推荐结果输出是将最终的推荐结果输出成智能语音助手后台搜索模块所要求的列表形式。
6.优选的,所述数据集导入将选定的公开数据集导入数据集模块,能成功导入与解析数据,所述数据集预处理将导入的数据集提取出所需内容,并随机拆分成百分之九十的训练集与百分之十的测试集。
7.优选的,所述基于视频的协同过滤计算是对于训练集数据进行视频与视频之间相似度的计算,再计算出用户与视频之间的关联,所述基于流行度的计算是对于训练集数据中每个视频被用户评价过的次数进行统计,所述混合计算是透过上述两种计算所得到的计算结果对其进行线性加权的混合计算。
8.优选的,所述召回率是离线测试中推荐结果的召回率达到15%以上,所述准确率是离线测试中推荐结果的准确率达到8%以上,所述点击率是在线测试中推荐结果的点击率达到20%以上,所述混合比例是制定混合比例参数,调整最佳混合策略,所述运行稳定性是指能长时间稳定的运行,所述模块化设计是指能方便后续优化升级。
9.优选的,所述基于视频的协同过滤算法与基于流行度的算法透过视频评分数据集来进行个别的计算,基于视频的协同过滤计算出视频间的相似度再对视频与用户做连接产生推荐结果;所述基于流行度的算法则是直接按照视频的热门程度获得推荐结果;所述混合计算需要包含基于视频的协同过滤算法与基于流行度的算法的结果以及混合比例参数来进行混合计算,而后进行点击率预估所需的参数计算,完成后透过推荐结果输出进行格式转化并导出。
10.优选的,所述视频评分信息是指个性化视频推荐模块获取视频评分数据集,并对该数据进行导入、分析以及随机拆分;所述推荐结果信息是指个性化视频推荐模块将计算得到的推荐结果输出到推荐结果列表;所述结果评价信息是指个性化视频推荐模块计算推荐结果的评价指标,并将得到的评价结果反馈给运维人员;所述点击率预估参数信息是指个性化视频推荐模块将计算得到的点击率预估参数反馈给运维人员;所述模型参数调整事件将欲调整的混合比例参数修改到混合计算当中,使混合计算依照参数来调整计算过程。
11.优选的,所述个性化视频推荐场景为个性化视频推荐模块进行个性化视频推荐的过程;所述混合比例调参场景为运维人员与本模块的交互;所述点击率预估参数返回场景
为本模块与运维人员的交互。
12.优选的,所述总体架构包括主程序、公共类、数据集模组、基于视频的协同过滤算法模组、基于流行度的算法模组与内容排序模组;所述数据集预处理对视频评分数据集进行处理、视频内容召回包含使用基于视频的协同过滤算法与基于流行度的算法透过线性加权所混合而成、内容排序包含透过贝叶斯平滑方法对点击率预估所需的参数进行计算以及最后将推荐结果输出来得到推荐结果列表。
13.本发明的技术效果和优点:本发明通过现有的基于视频的协同过滤算法与基于流行度的算法加上线性加权法来实现内容召回混合功能,再配合贝叶斯平滑方法来计算ctr预估中所需要的参数,最后推荐结果列表格式,输出相对应的接口文件来与后台搜索模块进行交互,并透过在线测试所获得的用户点击率变化来分析本模块可改善优化的方向,以达到提升召回率、准确率与点击率的目标,满足不同用户本身的兴趣与喜好,以个性化的推荐策略满足不同用户群体的需求和期望。
附图说明
14.图1为本发明的个性化视频推荐模块用例图;图2为本发明的个性化视频推荐顺序图;图3为本发明的混合比例调参顺序图;图4为本发明的点击率预估参数返回顺序图;图5为本发明的总体设计架构图;图6为本发明的主程序业务流程图。
具体实施方式
15.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图和具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
16.请参阅图1-6,本发明提供了一种个性化大数据混合推荐系统,包括总体需求单元、需求分析单元和总体设计单元,所述总体需求单元包括功能性需求模块、接口需求模块和非功能性需求模块,所述需求分析单元包括个性化视频推荐模块、外部事件模块和运行场景模块,所述总体设计单元包括总体架构和业务流程;总体设计单元的设计目标为通过现有的基于视频的协同过滤算法与基于流行度的算法加上线性加权法来实现内容召回混合功能,再配合贝叶斯平滑方法来计算点击率预估中所需要的参数;最后依照智能语音助手后台所要求的推荐结果列表格式,输出相对应的接口文件来与后台搜索模块进行交互。并透过在线测试所获得的用户点击率变化来分析本模块可改善优化的方向,以达到提升召回率、准确率与点击率的目标。
17.所述功能性需求模块包括数据集导入处理、视频内容召回、内容排序计算和推荐结果输出,所述数据集导入处理可细分为数据集导入和数据集预处理,所述视频内容召回可细分为基于视频的协同过滤计算、基于流行度的计算和混合计算,所述接口需求模块包
括输入内容格式、输入文档格式、文档读取地址、输出内容格式、输出文档格式和文档存储地址,所述非功能性需求模块包括召回率、准确率、点击率、混合比例、运行稳定性和模块化设计;所述个性化视频推荐模块中的视频评分数据集给该模块提供视频标签与用户历史数据所产生的ratings数据集,个性化视频推荐模块获取数据后对数据进行预处理,并随机生成训练集与测试集;所述外部事件模块包括视频评分信息、推荐结果信息、结果评价信息、点击率预估参数信息和模型参数调整事件;所述运行场景模块包括个性化视频推荐、混合比例调参和点击率预估参数返回三个场景。
18.所述数据集导入处理是将选定的公开数据集,将其导入数据集模块并对数据进行预处理;所述视频内容召回是透过训练集数据来训练模型,根据模型来进行视频内容的召回,并输出成召回推荐表;所述内容排序计算是进行ctr的预估,使用贝叶斯平滑方法进行参数的计算;所述推荐结果输出是将最终的推荐结果输出成智能语音助手后台搜索模块所要求的列表形式。
19.所述数据集导入将选定的公开数据集导入数据集模块,能成功导入与解析数据,所述数据集预处理将导入的数据集提取出所需内容,并随机拆分成百分之九十的训练集与百分之十的测试集。
20.所述基于视频的协同过滤计算是对于训练集数据进行视频与视频之间相似度的计算,再计算出用户与视频之间的关联,所述基于流行度的计算是对于训练集数据中每个视频被用户评价过的次数进行统计,所述混合计算是透过上述两种计算所得到的计算结果对其进行线性加权的混合计算。
21.所述召回率是离线测试中推荐结果的召回率达到15%以上,所述准确率是离线测试中推荐结果的准确率达到8%以上,所述点击率是在线测试中推荐结果的点击率达到20%以上,所述混合比例是制定混合比例参数,调整最佳混合策略,所述运行稳定性是指能长时间稳定的运行,所述模块化设计是指能方便后续优化升级。
22.所述基于视频的协同过滤算法与基于流行度的算法透过视频评分数据集来进行个别的计算,基于视频的协同过滤计算出视频间的相似度再对视频与用户做连接产生推荐结果;所述基于流行度的算法则是直接按照视频的热门程度获得推荐结果;所述混合计算需要包含基于视频的协同过滤算法与基于流行度的算法的结果以及混合比例参数来进行混合计算,而后进行点击率预估所需的参数计算,完成后透过推荐结果输出进行格式转化并导出,以提供智能语音助手后台搜索模块进行搜索,最后反馈给用户推荐内容;用户与个性化视频推荐模块为间接交互,透过智能语音助手前端连结到智能语音助手后台,再透过搜索模块来获得本模块所计算出的结果,而个性化视频推荐模块的接口需求对象为视频评分数据集与推荐结果列表,运维人员可通过个性化视频推荐模块的模型调参功能来修改混合比例的模型参数,以提供混合计算调整召回内容的结果。
23.所述视频评分信息是指个性化视频推荐模块获取视频评分数据集,并对该数据进行导入、分析以及随机拆分;所述推荐结果信息是指个性化视频推荐模块将计算得到的推荐结果输出到推荐结果列表;所述结果评价信息是指个性化视频推荐模块计算推荐结果的
评价指标,并将得到的评价结果反馈给运维人员;所述点击率预估参数信息是指个性化视频推荐模块将计算得到的点击率预估参数反馈给运维人员;所述模型参数调整事件将欲调整的混合比例参数修改到混合计算当中,使混合计算依照参数来调整计算过程;视频评分信息为当个性化视频推荐模块开始运行后,对视频评分数据集获取需计算的数据,其中该数据集的文档名称与格式需为ratings.dat,内容需包含userid、movieid、rating三项,获得数据后个性化视频推荐模块将对其进行预处理,并将数据集随机拆分为训练集与测试集,为非周期性事件;推荐结果信息为将个性化视频推荐模块所计算出的推荐结果输出成推荐结果列表,以提供智能语音助手后台搜索端来查询资料并反馈给用户;结果评价信息为个性化视频推荐模块将评价结果反馈给运维人员,个性化视频推荐模块对运行结果进行离线测试中的召回率、准确率以及综合评价指标的计算,并将计算结果反馈给运维人员,以提供运维人员参考;点击率预估参数信息为个性化视频推荐模块将点击率预估所需的参数反馈给运维人员,个性化视频推荐模块对点击率预估所需的alpha值与beta值计算完成后,反馈给运维人员参考使用;模型参数调整事件是运维人员对个性化视频推荐模块进行模型参数的调整事件,透过调整不同的混合比例来达到基于流行度的算法以及itemcf算法的混合推荐结果,该结果可以从每次计算完成后所得到评价结果召回率与准确率来得知,此事件由运维人员进行模型参数调整产生,为非周期性事件。
24.所述个性化视频推荐场景为个性化视频推荐模块进行个性化视频推荐的过程;首先个性化视频推荐模块从视频评分数据集获取数据,然后对该数据进行导入以及预处理,随机分成训练集与测试集,透过训练集进行基于视频的协同过滤算法以及基于流行度的算法来获得计算结果,然后经过混合计算来得到视频的内容召回结果。接着,透过点击率预估方法来让内容召回结果重排序,而后将最终得到的视频推荐结果输出成推荐结果列表;所述混合比例调参场景为运维人员与本模块的交互;运维人员可透过个性化视频推荐模块每次评价计算的结果,对召回率与准确率的评分来进行混合参数评估,利用调整参数来达到基于流行度的算法以及itemcf算法不同混合比例的情况与结果,并对多次测试的结果进行分析,来找到最合适的混合参数值,该场景结束后,回到等待状态准备进入下一次的场景;所述点击率预估参数返回场景为本模块与运维人员的交互,个性化视频推荐模块将所计算出来的点击率预估所需之alpha值与beta值反馈给运维人员,提供运维人员进行其他操作。该场景结束后,回到场景1状态继续运行。
25.所述总体架构包括主程序、公共类、数据集模组、基于视频的协同过滤算法模组、基于流行度的算法模组与内容排序模组;所述数据集预处理对视频评分数据集进行处理、视频内容召回包含使用基于视频的协同过滤算法与基于流行度的算法透过线性加权所混合而成、内容排序包含透过贝叶斯平滑方法对点击率预估所需的参数进行计算以及最后将推荐结果输出来得到推荐结果列表。
26.其中,主程序包含数据集导入处理、内容召回、内容排序计算以及推荐结果输出四个部份,透过dataset.py、itemcf.py、mostpopular.py、bayessmooth.py以及公共类来实现
个性化视频推荐模块的功能;公共类是专门为了实现个性化视频推荐模块所写的类与方法,主要分为modelmanager类、logtime类和similarity类,实现了包含文件管理、时间纪录与算法所需的相似度计算过程;数据集模组主要实现dataset类,其中,包含了两个功能,首先,是数据集的导入,从指定地址中找到相对应的资料夹与文件并读取再来是对数据进行分析,取出需要的数据后,将其随机拆分出训练集与测试集;基于视频的协同过滤算法模组主要实现itemcf类,其中使用公共类中的similarity类来计算视频之间的相似度以及视频与用户间的相似度,然后再找出k个用户感兴趣的视频,并推荐n个给用户;基于流行度的算法模组主要实现mostpopular类,其中使用公共类中的similarity类来计算视频被用户评价过的次数,按照被评价次数由多至少排列,并推荐最多评价的n个视频给用户;内容排序模组主要目的是要做点击率预估所需的参数计算,实现了hyperparam类,使用了贝叶斯平滑的方式,透过矩估计来计算出alpha值与beta值,提供运维人员进行后续的内容重排序使用。
27.综上所述,本发明通过现有的基于视频的协同过滤算法与基于流行度的算法加上线性加权法来实现内容召回混合功能,再配合贝叶斯平滑方法来计算ctr预估中所需要的参数,最后推荐结果列表格式,输出相对应的接口文件来与后台搜索模块进行交互,并透过在线测试所获得的用户点击率变化来分析本模块可改善优化的方向,以达到提升召回率、准确率与点击率的目标,满足不同用户本身的兴趣与喜好,以个性化的推荐策略满足不同用户群体的需求和期望。
28.最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1