一种基于作者频繁模式的科技文献推荐方法与流程

文档序号:13672243阅读:148来源:国知局
技术领域本发明属于推荐系统领域,涉及一种基于作者频繁模式的科技文献推荐方法。

背景技术:
互联网的出现和普及给用户带来了大量的信息,但随着网络的迅速发展而带来的网上信息量的大幅增长,使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低了,这就是所谓的信息超载问题。解决信息超载问题一个非常有潜力的办法是推荐系统,它是根据用户的信息需求、兴趣等,将用户感兴趣的信息、产品等推荐给用户的个性化信息推荐系统。关联规则最初提出的动机是针对购物篮分析问题提出的。假设分店经理想更多的了解顾客的购物习惯。特别是,想知道哪些商品顾客可能会在一次购物时同时购买?为回答该问题,可以对商店的顾客事物零售数量进行购物篮分析。该过程通过发现顾客放入“购物篮”中的不同商品之间的关联,分析顾客的购物习惯。这种关联的发现可以帮助零售商了解哪些商品频繁的被顾客同时购买,从而帮助他们开发更好的营销策略。1993年,Agrawal等人首先提出关联规则的概念,同时给出了相应的挖掘算法AIS,但是性能较差。1994年,他们建立了项目集格空间理论,并依据上述两个定理,提出了著名的Apriori算法。至今Apriori仍然作为关联规则挖掘的经典算法被广泛讨论,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。而且算法已经被广泛的应用到商业、网络安全等各个领域。其核心是基于两阶段的频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。众所周知,Apriori算法在产生频繁模式前需要对数据库进行多次扫描,同时产生大量的候选频繁集,这就使Apriori算法时间和空间复杂度较大。而且Apriori算法中有一个很重要的性质:频繁项集的所有非空子集都必须也是频繁的。这个性质导致Apriori算法在挖掘长频繁模式的时候性能低下。为了提高性能,JiaweiHan提出了FP-Growth算法,Fp-growth算法在挖掘频繁模式的时候性能提高10倍以上。FP-growth算法使用了一种紧缩的数据结构来存储找频繁项集所需要的全部信息。Fp-growth方法将发现长频繁模式的问题转换成在较小的条件数据库中递归地搜索一些较短的模式,然后连接后缀。它使用最不频繁的项作后缀,提供较好的选择性。该方法显著地降低了搜索开销。FP-growth算法中涉及到一些概念:项(事物表示的单位)的集合称为项集。包含k个项的项集成为k项集。集合{computer,software
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1