本发明涉及大数据挖掘与分析技术领域,更具体地,特别是指一种基于als算法的推荐方法、设备及可读介质。
背景技术:
随着互联网规模的不断增长,互联网中相关应用产生的信息数量每天以几何级别的速度增长,当今是一个由it时代慢慢进入dt时代的过程。面对信息过载这一窘境,如何合理地利用用户行为产生的庞大数据集中的信息给用户提供有价值的参考集是当前企业及各机构争相研究的重要领域,推荐系统在这样一个环境下应运而生。
推荐系统是信息过滤系统的一个子集,目的是预测用户对于一个物品的喜好或者对其评分等级等。推荐系统的基本任务是挖掘用户产生数据中的有用信息,以达到联系用户与信息的作用。一方面帮助用户找到自己感兴趣的并且有价值的信息,另一方面将这些信息以一种方式呈现在用户面前。推荐系统中推荐算法的研究与实现是非常重要的,将直接关系到推荐系统整体性能的好坏。推荐算法归类于机器学习与数据挖掘范畴,针对目前商业运行情况下,海量数据的计算任务进行单机计算,显然不合实际。
技术实现要素:
有鉴于此,本发明实施例的目的在于提出一种基于als算法的推荐方法、设备及介质,将spark计算平台和als算法结合设计一种推荐方法,该方法具有快速、高效、准确率高等特点,能够针对不同的用户给出相应的推荐。
基于上述目的,本发明实施例的一方面提供了一种基于als算法的推荐方法,包括如下步骤:基于云端数据库对若干客户端进行网络收集,并从云端数据库获取用户对商品的评分,以建立用户数据和商品数据;对用户数据和商品数据进行建模,利用als算法迭代求解,并对结果进行筛选;以及响应于结果通过筛选,将结果对应的商品返回相应客户端对用户进行推荐。
在一些实施方式中,对用户数据和商品数据进行建模包括:基于用户数据生成用户矩阵,基于商品数据生成商品矩阵,将用户矩阵转置并与商品矩阵相乘,得到用户评分矩阵;随机生成第一用户矩阵和第一商品矩阵。
在一些实施方式中,利用als算法迭代求解,并对结果进行筛选包括:根据als算法,基于损失函数和用户评分矩阵,对第一用户矩阵和第一商品矩阵进行迭代计算,得到第n用户矩阵和第n商品矩阵;基于用户矩阵、第n用户矩阵、商品矩阵和第n商品矩阵,计算得到用户均方根误差和商品均方根误差;响应于用户均方根误差和商品均方根误差低于误差阈值,筛选出结果。
在一些实施方式中,响应于结果通过筛选,将结果对应的商品返回相应客户端对用户进行推荐包括:对结果进行系统评测;响应于通过系统评测,创建服务器接口,将结果对应的商品作为推荐结果在客户端显示。
在一些实施方式中,还包括:搭建spark计算平台,在计算平台上安装部署计算模块和存储模块;将als算法集成到计算平台的数据库中;基于计算模块、存储模块,并调用数据库中的算法实现推荐方法。
本发明实施例的另一方面,还提供了一种计算机设备,包括:至少一个处理器;以及存储器,存储器存储有可在处理器上运行的计算机指令,指令由处理器执行以实现如下步骤:基于云端数据库对若干客户端进行网络收集,并从云端数据库获取用户对商品的评分,以建立用户数据和商品数据;对用户数据和商品数据进行建模,利用als算法迭代求解,并对结果进行筛选;以及响应于结果通过筛选,将结果对应的商品返回相应客户端对用户进行推荐。
在一些实施方式中,对用户数据和商品数据进行建模包括:基于用户数据生成用户矩阵,基于商品数据生成商品矩阵,将用户矩阵转置并与商品矩阵相乘,得到用户评分矩阵;随机生成第一用户矩阵和第一商品矩阵。
在一些实施方式中,利用als算法迭代求解,并对结果进行筛选包括:根据als算法,基于损失函数和用户评分矩阵,对第一用户矩阵和第一商品矩阵进行迭代计算,得到第n用户矩阵和第n商品矩阵;基于用户矩阵、第n用户矩阵、商品矩阵和第n商品矩阵,计算得到用户均方根误差和商品均方根误差;响应于用户均方根误差和商品均方根误差低于误差阈值,筛选出结果。
在一些实施方式中,响应于结果通过筛选,将结果对应的商品返回相应客户端对用户进行推荐包括:对结果进行系统评测;响应于通过系统评测,创建服务器接口,将结果对应的商品作为推荐结果在客户端显示。
本发明实施例的再一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有被处理器执行时实现如上方法步骤的计算机程序。
本发明具有以下有益技术效果:将spark计算平台和als算法结合设计一种推荐方法,该方法具有快速、高效、准确率高等特点,能够针对不同的用户给出相应的推荐。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明提供的基于als算法的推荐方法的实施例的示意图;
图2为本发明提供的基于als算法的推荐方法的实施例的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
基于上述目的,本发明实施例的第一个方面,提出了一种基于als算法的推荐方法的实施例。图1示出的是本发明提供的基于als算法的推荐方法的实施例的示意图。如图1所示,本发明实施例包括如下步骤:
s1、基于云端数据库对若干客户端进行网络收集,并从云端数据库获取用户对商品的评分,以建立用户数据和商品数据;
s2、对用户数据和商品数据进行建模,利用als算法迭代求解,并对结果进行筛选;以及
s3、响应于结果通过筛选,将结果对应的商品返回相应客户端对用户进行推荐。
在本实施例中,als算法(交替最小二乘法)是统计分析中最常用的逼近计算的一种算法,其交替计算结果使得最终结果尽可能地逼近真实结果。在机器学习中,als特指使用最小二乘法求解的一种协同过滤算法,从协同过滤的分类来说,als算法同时考虑了用户和商品两个方面,既可基于用户进行推荐又可基于商品进行推荐。但是,传统的als模型存在一些缺点,通过本发明的构思的方案可以极大地提高性能。
在一些实施例中,基于als算法的推荐方法首先对若干客户端进行网络收集,从云端数据库获取用户对商品的评分;然后进行建模,可以从mllib算法库中调用可以直接使用的训练算法;最后基于迭代得到的结果,计算其准确率、召回率、覆盖率、最小均方根等参数,并根据计算得到的参数决定是否给出推荐,并将推荐的商品返回客户端对用户进行推荐。
在本发明的一些实施方式中,对用户数据和商品数据进行建模包括:基于用户数据生成用户矩阵u,基于商品数据生成商品矩阵m,将用户矩阵u转置并与商品矩阵m相乘,得到用户评分矩阵r;随机生成第一用户矩阵u1和第一商品矩阵m1。
在本发明的一些实施方式中,利用als算法迭代求解,并对结果进行筛选包括:根据als算法,基于损失函数
(式中,(i,j)∈l表示所有的用户-商品对,lj表示用户集合,li表示物品集合,knn(ui)表示用户ui的n个最近邻,knn(mj)表示物品mj的n个最近邻,
和用户评分矩阵r,对第一用户矩阵u1和第一商品矩阵m1进行迭代计算,固定m1,逐个去更新每个用户的每个特征uki,这里k表示用户的任意一个特征,即对uki求偏导,并令偏导等于0,从而可求得uki;固定u1,逐个去更新每个物品的每个特征mkj,这里k表示物品的任意一个特征,即对mkj求偏导,并令偏导等于0,从而可求得mkj。
即固定第一用户矩阵u1,去求取另一个未随机化的矩阵m。之后利用求取的商品矩阵m对象去求随机化的用户矩阵u。最后两个矩阵相互迭代计算,直到误差达到一定的阀值条件或者达到迭代次数的上限,得到第n用户矩阵un和第n商品矩阵mn;基于用户矩阵u、第n用户矩阵un、商品矩阵m和第n商品矩阵mn,计算得到用户均方根误差和商品均方根误差;响应于用户均方根误差和商品均方根误差低于误差阈值,筛选出结果。本实施方式中的损失函数,考虑了用户与商品之间的相似性关系,训练之后仍可以保持二者的之间的相似性,能够克服在求解u和m矩阵时丢失用户或商品的某些信息的情况,使得计算结果更加准确。
在本发明的一些实施方式中,响应于结果通过筛选,将结果对应的商品返回相应客户端对用户进行推荐包括:对结果进行系统评测;响应于通过系统评测,根据准确率、召回率、覆盖率、最小均方根等参数对结果进行评测,并决定是否向用户推荐;创建api服务器接口,将结果对应的商品作为推荐结果在客户端显示。
其中,准确率决定推荐的商品是否是用户喜欢的,直接关系到用户服务质量的好坏;召回率是指有多少比例的用户评分记录包括在最终给用户推荐的列表中;覆盖率是指推荐出来的商品数量在应用商提供的商品总量中所占的比例;均方根误差是在推荐系统中对评分预测进行评估。
在本发明的一些实施方式中,还包括:基于insight(例如旗舰版)进行spark计算平台的搭建,在计算平台上安装部署计算模块和存储模块等相应组件,其中hdfs进行存储,spark负责数据计算,对大规模数据集进行统计分析;将als算法集成到计算平台的数据库mllib中,实现算法的并行化;根据用户对商品的评分,建模并进行模型训练,再根据结果判定是否向用户推荐某商品。
spark是一种通用的内存并行计算框架,中间结果直接存在内存中,减少了i/o次数,极大地减少了作业的完成时间,满足推荐系统实时服务这一要求。通过搭建spark计算平台,并行化实现推荐系统中的相关推荐算法,来实现为用户实时推荐。将spark和als算法结合设计的推荐方法具有快速、高效、准确率高等特点,能够针对不同的用户给出相应的推荐,一方面吸引更多的关注,另一方面提高销售额。
在一些实施方式中,spark的并行化包括数据并行化和任务并行化:数据并行化是指spark中数据并行化主要通过建立逻辑执行图,即数据流的流向过程。然后根据逻辑执行图划分为物理执行图,来实现任务并行化,最后生成任务分配到节点执行;任务并行化是指spark面对的是复杂的数据处理流程,数据依赖更加灵活,很难将数据流和物理task简单地统一在一起。因此,spark将数据流和具体task的执行流程分开,并设计算法将逻辑执行图转换成task物理执行图。
图2示出的是本发明提供的存储性能优化的方法的实施例的结构框图。如图2所示,在本发明的一些实施例中,包括如下步骤:
基于获取的用户对商品的评分生成用户评分矩阵rdd,随机生成u和m矩阵;分别通过基于u矩阵和rdd计算m矩阵、基于m矩阵和rdd计算u矩阵,不断迭代计算得到最终的训练模型;通过rmse(最小均方根误差)判断最优模型,输出最优模型,将最优模型输入推荐系统评测,决定是否推荐,推荐则输出结果。
需要特别指出的是,上述基于als算法的推荐方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于基于软链接的文件保护的方法也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在实施例之上。
基于上述目的,本发明实施例的第二个方面,提出了一种计算机设备,包括:至少一个处理器;以及存储器,存储器存储有可在处理器上运行的计算机指令,指令由处理器执行以实现如下步骤:s1、基于云端数据库对若干客户端进行网络收集,并从云端数据库获取用户对商品的评分,以建立用户数据和商品数据;s2、对用户数据和商品数据进行建模,利用als算法迭代求解,并对结果进行筛选;以及s3、响应于结果通过筛选,将结果对应的商品返回相应客户端对用户进行推荐。
在一些实施方式中,对用户数据和商品数据进行建模包括:基于用户数据生成用户矩阵,基于商品数据生成商品矩阵,将用户矩阵转置并与商品矩阵相乘,得到用户评分矩阵;随机生成第一用户矩阵和第一商品矩阵。
在一些实施方式中,利用als算法迭代求解,并对结果进行筛选包括:根据als算法,基于损失函数和用户评分矩阵,对第一用户矩阵和第一商品矩阵进行迭代计算,得到第n用户矩阵和第n商品矩阵;基于用户矩阵、第n用户矩阵、商品矩阵和第n商品矩阵,计算得到用户均方根误差和商品均方根误差;响应于用户均方根误差和商品均方根误差低于误差阈值,筛选出结果。
在一些实施方式中,响应于结果通过筛选,将结果对应的商品返回相应客户端对用户进行推荐包括:对结果进行系统评测;响应于通过系统评测,创建服务器接口,将结果对应的商品作为推荐结果在客户端显示。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有被处理器执行时执行如上方法的计算机程序。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,基于als算法的推荐方法的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,程序的存储介质可为磁碟、光盘、只读存储记忆体(rom)或随机存储记忆体(ram)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
此外,根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时,执行本发明实施例公开的方法中限定的上述功能。
此外,上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
此外,应该明白的是,本文的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦写可编程rom(eeprom)或快闪存储器。易失性存储器可以包括随机存取存储器(ram),该ram可以充当外部高速缓存存储器。作为例子而非限制性的,ram可以以多种形式获得,比如同步ram(dram)、动态ram(dram)、同步dram(sdram)、双数据速率sdram(ddrsdram)、增强sdram(esdram)、同步链路dram(sldram)、以及直接rambusram(drram)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里功能的下列部件来实现或执行:通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器,但是可替换地,处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合,例如,dsp和微处理器的组合、多个微处理器、一个或多个微处理器结合dsp和/或任何其它这种配置。
结合这里的公开所描述的方法或算法的步骤可以直接包含在硬件中、由处理器执行的软件模块中或这两者的组合中。软件模块可以驻留在ram存储器、快闪存储器、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、可移动盘、cd-rom、或本领域已知的任何其它形式的存储介质中。示例性的存储介质被耦合到处理器,使得处理器能够从该存储介质中读取信息或向该存储介质写入信息。在一个替换方案中,存储介质可以与处理器集成在一起。处理器和存储介质可以驻留在asic中。asic可以驻留在用户终端中。在一个替换方案中,处理器和存储介质可以作为分立组件驻留在用户终端中。
在一个或多个示例性设计中,功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括ram、rom、eeprom、cd-rom或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(dsl)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、dsl或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(cd)、激光盘、光盘、数字多功能盘(dvd)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。