一种基于混合多种模式的废旧行业推荐系统以及其方法与流程

文档序号:12667156阅读:158来源:国知局
一种基于混合多种模式的废旧行业推荐系统以及其方法与流程
本发明涉及计算机应用
技术领域
,尤其涉及一种基于混合多种模式的废旧行业推荐系统以及其方法。
背景技术
:目前,随着网络信息量爆炸式的递增,消费者面临众多选择、未知的领域、过载的信息时,往往无所适从;然而与此同时,产品的商家也在苦苦寻觅合适的用户,寻找最便捷的渠道,而解决这两类矛盾的最好工具就是推荐系统。数据是一切推荐系统的基础。准确的数据对于良好的推荐效果,如同一片文章的标题对于文章内容的作用。基于模型的协同过滤推荐,基于样本的用户喜好信息,训练一个推荐模型,然后根据实时的用户喜好的信息进行预测,计算推荐,这种方法对于一些特殊品味的用户不能给予很好的推荐;基于内容的推荐,它的核心思想是根据推荐物品或内容的元数据,发现物品或者内容的相关性,然后基于用户以往的喜好记录,推荐给用户相似的物品,这种方法物品相似度的衡量标准只考虑到了物品本身,有一定的片面性。因此,单纯使用某一个推荐算法在推荐结果的精度和多样性方面存在不足,针对存在的问题,本发明提出一种基于混合多种模式的废旧行业推荐系统以及其方法,能够使得推荐结果更准确,更能满足用户的需求。技术实现要素:有鉴于此,本发明的主要目的在于提供一种基于混合多种模式的废旧行业推荐系统以及其方法,在用户购买商品时候,给用户推荐感兴趣的商品信息,更能满足用户的个性化需求。为达到上述目的,本发明的技术方案是这样实现的:A模块:关联推荐、热点推荐、TopN推荐三种混合推荐模式;B模块:初始化推荐结果;C模块:过滤、结果排序、推荐解释、最终的推荐结果。其中所述模块A中的关联推荐,根据商品内容的相似性进行推荐,其中根据商品内容进行推荐需要将原来保存在索引中的原始数据导入到现在的数据库中;所述的TopN推荐,也就是浏览历史推荐,每一个用户某一段时间内点击数TopN商品推荐;所述的热点推荐,将实时热销商品推荐给用户,给每一个用户推荐可能感兴趣的数据。对网站常用用户,关联推荐和TopN推荐设置较高权重,热点推荐次之;对无任何记录用户,将热点推荐设置较高的权重,通过分析用户所属的适应人群,也可进行关联推荐。进一步地,所述的TopN推荐主要包括以下两个策略:TopN策略:1)最近30天的点击日志;2)总点击数TopN的数据;3)总点击数不少于某个阈值;4)平均每一个人的点击次数不少于某个阈值;连续递增策略:1)最近30天的点击日志;2)连续若干天的点击呈现递增趋势;3)连续的天数不少于某个阈值;4)平均每一天的点击次数不少于某个阈值。所述模块B初始化推荐结果,返回的推荐结果为推荐解释:resysExplain,供求编号:M_gqinfo.gqid,产品分类:M_gqinfo.classid,供求分类:M_gqinfo.type,信息静态页面地址:M_gqinfo.htmlurl,图片:M_gqinfo.photo,标题:M_gqinfo.title,新旧程度:M_gqinfo.xjcd,供货数量:M_gqinfo.pronum,型号规格:M_gqinfo.proxh,交易价格:M_gqinfo.proprice产品所在地:M_gqinfo.province,存放方式:M_gqinfo.cffs,权限:sys_user.rankid,会员编号:sys_user.uid,用户名:sys_user.uname,企业名称:sys_user.comname,联系人:sys_user.linkman,性别:sys_user.sex,公司所在地:sys_user.comaddress,德保指数:czizhi_rz.frrz,是否通过德保认证:czizhi_rz;所述模块C主要步骤如下:步骤C1、推荐数据的过滤主要包括:过滤掉用户已经访问过的页面,过滤掉用户没有访问权限的页面,过滤掉重复数据;步骤C2、结果排序主要是对推荐的结果进行排序,按照网页的受欢迎程度排序,也就是网页被点击过的次数;步骤C3、推荐解释主要是总的点击次数:totalClickNum;每一个用户的点击数据:List<Entry<User,Integer>>userClickNumForAll;第一天的点击时间:DatesDate;步骤C4、最终的推荐结果主要是经过步骤C1、C2、C3处理过的推荐数据,以更清晰准确的方式呈现给用户。进一步地,本发明对推荐结果进行评估,主要通过以下三个评估标准:1)训练数据与评分:在本发明推荐系统中,提取一小段真实数据作为测试数据来仿真;2)查准率:是top推荐中间有“好”结果的比例;3)查全率:是“好”结果出现在top推荐中的比例。本发明所提供的混合多种模式个性化推荐方法,具有以下优点:1)混合了关联推荐、热点推荐、TopN推荐三种模式,提高了推荐结果的精度;2)更能符合用户需求,使得推荐的商品购买率增加,从而提高商品的订单转化率;3)增加推荐的多样性,使特殊喜好的用户得到推荐。附图说明图1为本发明混合多种模式的废旧行业推荐系统流程示意图;图2为本发明混合多种模式的废旧行业推荐系统制作训练集示意图;图3为本发明混合多种模式的推荐行为交互过程示意图。具体实施方式下面结合附图及本发明的实施例对本发明的混合多种模式的个性化推荐方法作进一步详细的说明。该系统A模块中关联推荐主要采用聚类计算相似商品的方法,主要包含以下几个流程:1)创建一个实体类SimilarityData,设定三个字段row(行)、column(列)、similarityValue(相似度),其中所述实体类SimilarityData主要作用是三元组,矩阵中的某一个元素,用来保存稀疏矩阵;其中所述的相似度在进行聚类计算之前,通过训练集测试得出将最小相似度设定minSimilarity为0.8较为合适;2)创建实例SimilarityData[][]allSimilarityData,用来保存的是所有的相似数据;3)创建数组int[]countArray,用来保存每一条数据相似的数据的总数;4)初始化矩阵;5)计算两两之间的相似度,其中所述的相似度,采用Jaccard系数计算两个向量的相似度;6)和第row条数据相似的数据的总数;7)给相似数据赋值;其中所述的给相似数据赋值的时候,当有一条新的数据的时候:如果所在行的数据还没有填满,则直接插入到最后一个元素的后面;如果所在行的数据已经填满,则用当前数据和所在行的最小元素进行比较,如果大于最小的元素则替换,否则不做任何操作。进一步地,计算相似商品所需数据来源于训练集,训练集制作流程如图2所示,主要包含以下过程:1)数据库读取的数据进行分词,并将分词之后的数据以空格形式存在默认文件夹resys,其中在读取数据之前还需要判断是否需要更新训练集;2)读取分词之后的训练数据;3)使用TF-IDF和LDA混合模型进行特征抽取,用于聚类;其中所述TF-IDF这种语言模型主要是用词汇的统计特征来作为特征集,每个特征都能够说得出物理意义,抽取效果不错,然而,这些特征的一个关键问题,在于并没有对样本特征进行很大程度的压缩,没有提取出关键的信息。也就是训练好的分类器只在训练它的数据集中有效,换一个数据集效果就会很差;所述LDA就是文本的稀疏表示,代表的这一类语言模型叫做TopicModel。认为单词量再大的文本,其文章主题就那么几个。一个K个主题的LDA模型,可以把一个文本压缩成K维的向量:每一个维度就是该文本属于该主题的概率,这个向量也叫做TopicProportion。然后得到压缩后的K维数据集后,再使用任何的分类器,甚至最简单的余弦相似性指标,都可以得到非常好的分类效果;因此,本发明将两者结合起来进行特征抽取效果更佳。4)使用TF对商品进行向量化,同时初始化LDA主题模型,并输出每一个主题对应的所有词;其中文本的特征,可能是topic,也可能是word;5)聚类,计算相似商品。本发明为解决个性化推荐的问题,主要采用了以下技术,下面对这些技术进行简单介绍。1)分词技术。本发明中主要采用IK分词,主要在制作训练集时候使用,其中IK分词使用了“正向迭代最细粒度切分算法”,简单说来就是:Segmenter会逐字识别词元,本发明对IK进行重写,将IKAnalyzerSegmenter类中将useSmart设定true,其中所述的useSmart当其值为false为非智能分词,细粒度输出所有可能的切分结果;当其值为true为智能分词,合并数词和量词,对分词结果进行歧义判断。2)聚类技术。本发明主要用在计算相似商品时候使用了聚类技术,聚类相识度计算商品的算法首先创建一个实体类SimilarityData,设定三个字段row(行)、column(列)、similarityValue(相似度),其中所述实体类SimilarityData主要作用是三元组,矩阵中的某一个元素,用来保存稀疏矩阵,其次初始化矩阵,最后计算商品之间的相似度。3)文本特征抽取技术。本发明主要使用了两种特征抽取方式,一种是使用TF-IDF和LDA混合模型进行特征抽取,用于聚类。4)推荐结果排序技术。本发明将推荐结果按照totalClickNum降序排列,totalClickNum就是按照网页点击次数,也就是受欢迎程度。参考图3,本发明的个性化推荐方法实施例如下。下面介绍该方法的几个典型应用场景:应用场景一:本发明的推荐行为的交互过程,如下表1所示。表1元数据含义举例API接口中的对应词用户名执行此次推荐的用户名用户名是“张三”username推荐时刻系统执行推荐的时刻“张三”在时刻“2016-12-2515:55:00”登陆系统,“15:55:00”即是系统执行推荐的时刻recommendTime被推荐页面针对该次推荐,系统给出的推荐结果页面的ID“张三”在时刻“2016-12-2515:55:00”登陆系统,被推荐页面ID为“1,3,47,556,1007”等recommendPageID被推荐页面排序序号推荐结果呈现给用户时,每个页面的排序序号ID号为“1,3,47,556,1007”的5篇商品作为推荐结果呈现出来时的排序是“556,3,47,1,1007”那么它们对应的排序号为“1,2,3,4,5”recommendPageRankID页面被点击时刻点击推荐结果页面时的时刻用户点击ID号为“556”的时刻是“2012-08-0515:56:24”clickedTime页面驻留时间在每个被点击页面上驻留的时间用户查看ID号为“556”的商品,在时刻“2016-12-2515:57:26”离开,驻留时间为“62”秒用户每次登陆调用setRecommendInfo(),点击推荐页面时调用updateRecommendInfo(),例如:张三在时刻“2016-12-2516:00:00”登陆系统,系统向他推荐了3个页面,其页面序号为“1,3,47”,排序序号为“2,3,1”,此时调用setRecommendInfo(StringuserName,DaterecommendTime,long[]recommendPageID,long[]recommendPageRankID),recommendPageID存储3个页面序号,recommendPageRankID存储3个页面的排序序号。应用场景二:本发明的推荐方法应用在某废旧行业系统详情页展示关联推荐,其中,所述详情页是在该废旧网站搜索框输入关键词,点击搜索,进入废旧网的产品列表页,然后点击某一个商品,进入商品详情页。输入:废钢铁回收,相关推荐结果展示如下:{"isLoolApply":"","applyStatus":1,"lookApply":1,"auctionStatus":"","code":"9cdddb1a9a3146a5984510e7057613e6","pmCode":null,"name":"炼钢废钢斗招标公告","imgUrl":null,"price":null,"valuation":"无","status":null,"time":"2016-11-11","releaseTime":"2016-11-08","num":0,"address":"河北省-邢台市","endTime":"2016-11-1100:00:00","bidCompany":""},{"isLoolApply":"","applyStatus":1,"lookApply":1,"auctionStatus":"","code":"d9e18ea7fbb94a19adf5d8b470cc0d43","pmCode":null,"name":"报废宿营车废钢竞卖公告","imgUrl":null,"price":null,"valuation":"无","status":null,"time":"2016-11-16","releaseTime":"2016-11-08","num":0,"address":"北京市-市辖区","endTime":"2016-11-1600:00:00","bidCompany":""},{"isLoolApply":"","applyStatus":1,"lookApply":1,"auctionStatus":"","code":"c74d9959c6f64b71af8e532107ed0714","pmCode":null,"name":"报废货车废钢竞卖公告","imgUrl":null,"price":null,"valuation":"无","status":null,"time":"2016-11-15","releaseTime":"2016-11-08","num":0,"address":"北京市-市辖区","endTime":"2016-11-1500:00:00","bidCompany":""},{"isLoolApply":"","applyStatus":1,"lookApply":1,"auctionStatus":"","code":"303c762d475d4bb28053ccb270ab00e6","pmCode":null,"name":"煤业公司320吨废钢丝绳芯输送带转让公告","imgUrl":null,"price":null,"valuation":"无","status":null,"time":"2016-11-21","releaseTime":"2016-11-08","num":0,"address":"宁夏回族自治区-银川市","endTime":"2016-11-2100:00:00","bidCompany":""},{"isLoolApply":"","applyStatus":1,"lookApply":1,"auctionStatus":"","code":"5721a3dad2bb4fac94e6c5359bf5cd44","pmCode":null,"name":"300吨废钢丝绳转让公告","imgUrl":null,"price":null,"valuation":"无","status":null,"time":"2016-11-21","releaseTime":"2016-11-08","num":0,"address":"宁夏回族自治区-银川市","endTime":"2016-11-2100:00:00","bidCompany":""},{"isLoolApply":"","applyStatus":1,"lookApply":1,"auctionStatus":"","code":"a3dad8ab200c42ff8d734a2f7ed61b10","pmCode":null,"name":"2000吨废钢(中型)转让公告","imgUrl":null,"price":null,"valuation":"50-100万","status":null,"time":"2016-11-21","releaseTime":"2016-11-08","num":0,"address":"宁夏回族自治区-银川市","endTime":"2016-11-2100:00:00","bidCompany":""},{"isLoolApply":"","applyStatus":1,"lookApply":1,"auctionStatus":"","code":"31e00b9286454f35b70b2f4bce1adbd8","pmCode":null,"name":"物流公司杂废钢630吨报废设备物资一批处置公告","imgUrl":null,"price":null,"valuation":"无","status":null,"time":"2016-11-16","releaseTime":"2016-11-08","num":0,"address":"湖北省-武汉市","endTime":"2016-11-1500:00:00","bidCompany":""}以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。所述领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述到的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,可以采用软件功能单元的形式实现。需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。以上对本发明所提供的基于混合多种模式的废旧行业推荐系统以及其方法进行了详细介绍,本文中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1