一种基于大规模机器学习的内容和服务推荐方法及其系统与流程

文档序号:22387884发布日期:2020-09-29 17:51阅读:131来源:国知局
一种基于大规模机器学习的内容和服务推荐方法及其系统与流程

本发明属于数据处理技术领域,尤其涉及一种基于大规模机器学习的内容和服务推荐方法及其系统。



背景技术:

随着互联网的快速发展,信息量呈爆发式增长。虽然庞大的信息量满足了用户在信息时代的需求,但信息量的增速和数据质量远远超过用户处理的速度,导致用户面对海量信息无法快速识别和筛选出需要的信息,使得数据的使用效率因信息量冗余而降低,出现信息过载的情况。

目前,现有技术是采用规则推荐的方式向用户提供感兴趣的内容和服务,普遍存在推荐规则死板、推荐前需要提前制定规则等问题。



技术实现要素:

本发明为了弥补现有技术的不足,提供一种基于大规模机器学习的内容和服务推荐方法及其系统,系统采用bp神经网络(backpropagationneuralnetwork,bpnn)学习规则实现人工智能化深度学习,采用半监督学习的方式对数据进行标引,通过深度学习构建模型以实现智能推荐。本技术将bp神经网络技术与推荐技术相结合,通过大规模的机器训练,实现快速、高效且准确的内容和服务推荐,获得更高的用户满意度。

本发明提供的一种基于大规模机器学习的内容和服务推荐方法,具体实现步骤是:

系统采用半监督学习的方式实现智能推荐。首先,粗粒度定义用户和资源的特征标签,通过计算标签权重对标签进行关联;其次,细粒度挖掘用户和资源的关系,采用bp神经网络学习规则对数据进行机器训练并构建模型,通过计算推荐度对待推荐资源进行打分和排序,从而实现搜索结果、资源内容的关联展示和个性化服务推荐。

进一步地,粗粒度定义用户和资源的特征标签,通过计算标签权重对标签进行关联,具体内容是:系统通过用户的属性和行为、搜索引擎的检索规则分析用户需求,从用户需求中归纳有效数据做预处理去除噪声,对除噪后的数据进行标引,通过计算标签权重对标签进行关联,构建多维标签库(包括用户属性标签、用户行为标签、网站资源属性标签和未录入标签等)。

进一步地,细粒度挖掘用户和资源的关系,采用bp神经网络学习规则对数据进行机器训练并构建模型,通过计算推荐度对待推荐资源进行打分和排序,具体内容是:从多维标签库中提取特征向量,构建特征向量库,采用bp神经网络学习规则对特征向量进行机器训练,根据训练结果构建用户偏好模型和推荐对象模型,将待推荐资源带入模型计算推荐度,根据分数进行排序,将分数最高的资源推送给用户。

进一步地,采用bp神经网络学习规则进行机器训练,其运算过程是:分为两个阶段,第一阶段是信号的前向传播,从输入层经过隐含层,最后到达输出层,依次调节输入层到隐含层的权重和偏置、隐含层到输出层的权重和偏置;第二阶段是误差的反向传播,从输出层经过隐含层,最后到达输入层。

进一步地,计算推荐度是以网络误差平方为目标函数,采用梯度下降规则来计算目标函数的最小值,进而完成推荐值的排序与确认。

进一步地,bp神经网络学习规则包括梯度下降规则、反向传播学习规则、delta学习规则等。

另外,本发明还提供一种基于大规模机器学习的内容和服务推荐系统,该系统包括以下模块:

数据预处理模块:对汇聚的资源进行预处理去除噪声;

标引关联模块:通过分析用户需求,系统自动整理出用户感兴趣的栏目、分类、互动内容等网站内容和服务,标记标签并计算权重将用户与网站资源进行关联;

智能推荐模块:实时监测并记录用户身份、访问和搜索行为,通过分析用户访问和搜索的内容、使用的标签、点击量和转换路径等数据,将用户感兴趣的网站资源主动推送给用户;

人工推送模块:后台根据用户群体划分,主动推送信息内容给手机app用户、手机网站用户、微信用户、市民邮箱用户等群体。

进一步地,标引关联模块还包括关联度计算子模块和多维标签库。

进一步地,智能推荐模块还包括特征提取子模块、特征向量库、建模子模块、模型训练器、推荐度计算子模块和算法库。

进一步地,多维标签库包括:用户属性标签、用户行为标签、网站资源属性标签和未录入标签等。

进一步地,采用bp神经网络学习规则进行机器训练,其结构是:构建三层神经网络层级,包括输入层、隐含层、输出层,且隐含层可以仅设计为一层。

本发明提供的一种基于大规模机器学习的内容和服务推荐方法及其系统,相比于现有技术具有以下优点:

本发明将bp神经网络技术与推荐技术相结合,充分利用积累的网站大数据,通过大规模机器训练实现智能化推荐,具有很强的非线性映射能力和柔性的网络结构,并且网络的隐含层数、各层神经元的节点个数可根据具体情况自行设定,随着结构的差异其性能也有所不同,有效提升了资源发布效率,实现快速、高效且准确的内容和服务推荐,获得更高的用户满意度。

附图说明

图1为实施例一提供的一种基于大规模机器学习的内容和服务推荐方法的流程图。

图2为实施例一提供的一种采用bp神经网络学习规则对特征向量进行机器训练方法的流程图。

图3为实施例一提供的一种采用bp神经网络学习规则对特征向量进行机器训练的变量计算方法的流程图。

图4为实施例二提供的一种基于大规模机器学习的内容和服务推荐系统的示意图。

图5为实施例一提供的bp神经网络学习规则中激活函数的函数图像示意图。

具体实施方式

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可以找说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和有点能够更明显易懂,以下为本发明的具体实施方式。

实施例一

参见图1,为本实施例提供的一种基于大规模机器学习的内容和服务推荐方法,所举实例只用于解释本发明,并非用于限定本发明的范围。该方法具体包括以下步骤:

s1、粗粒度定义用户和资源的特征标签,通过计算标签权重对标签进行关联;

s2、细粒度挖掘用户和资源的关系,采用bp神经网络学习规则对数据进行机器训练并构建模型,通过计算推荐度对待推荐资源进行打分和排序;

s3、将分数最高的资源推荐给前端用户。

其中,s1还包括以下步骤:

s1.1、系统通过用户的属性和行为、搜索引擎的检索规则分析用户需求;

s1.2、从用户需求中汇聚资源;

s1.3、对资源进行预处理去除噪声;

s1.4、对除噪后的资源标记标签;

s1.5、通过计算标签权重对标签进行关联,构建多维标签库。

其中,s1.5中“标签”是指元数据的集合。

其中,s1.5中“多维标签库”包括:用户属性标签、用户行为标签、网站资源属性标签和未录入标签等,其中,所述“用户属性标签”包括:自然人属性标签和法人属性标签,可以由如下元数据集构成:

所述“用户行为标签”是指:用户访问和搜索行为,可以是用户访问和搜索的内容、使用过的标签、点击量和转换路径等相关数据,可以由如下元数据集构成:

所述“网站资源属性标签”是指:栏目、分类、互动内容等相关网站内容和服务,可以由如下元数据集构成:

其中,s2还包括以下步骤:

s2.1、从多维标签库中提取特征向量,构建特征向量库;

s2.2、采用bp神经网络学习规则对特征向量进行机器训练;

s2.3、根据训练结果构建用户偏好模型;

s2.4、将除噪后的资源带入用户偏好模型进行匹配,得到待推荐资源;

s2.5、将待推荐资源带入推荐对象模型计算推荐度;

s2.6、根据分数进行排序。

其中,s2.5中“计算推荐度”是以网络误差平方为目标函数,采用梯度下降规则来计算目标函数的最小值,进而完成推荐值的排序与确认。

其中,s2.2中“bp神经网络学习规则”包括梯度下降规则、反向传播学习规则、delta学习规则等。

其中,s2.2中“采用bp神经网络学习规则对特征向量进行机器训练”参见图2,为本实施例提供的一种采用bp神经网络学习规则对特征向量进行机器训练的方法,还包括以下步骤:

s2.2.1、初始化各层连接权重值,确定目标输出值;

s2.2.2、输入层接收特征向量,乘以连接权重值,计算本层输入值并累加到接收的总输入值中,将输入值与当前阈值进行比较,通过激活函数计算本层输出值;

s2.2.3、隐含层接收来自输入层的输出值,乘以连接权重值,计算本层输入值并累加到接收的总输入值中,将输入值与当前阈值进行比较,通过激活函数计算本层输出值;

s2.2.4、输出层接收来自隐含层的输出值,乘以连接权重值,计算本层输入值并累加到接收的总输入值中,将输入值与当前阈值进行比较,通过激活函数计算实际输出值;

s2.2.5、求实际输出值与目标输出值偏置;

s2.2.6、判断偏置是否在指定阈值范围内,若是,训练结束,固定权重值和阈值;

s2.2.7、否则,计算输入层、隐含层、输出层的误差;

s2.2.8、求误差梯度;

s2.2.9、更新权重值。

其中,s2.2.3中“隐含层”可以仅设计为一层。

其中,s2.2.2、s2.2.3和s2.2.4中“激活函数”可采用sigmoid函数,当函数值超过指定阈值时,标记为“1”,否则标记为“0”。

其中,s2.2中“采用bp神经网络学习规则对特征向量进行机器训练”参见图3,为本实施例提供的一种采用bp神经网络学习规则对特征向量进行机器训练的变量计算方法,具体如下:

假设输入层为d维度的特征向量,隐含层为q维度的特征向量,输出层为l维度的特征向量,输入层神经元的节点数到输出层神经元的节点数是根据输入层的特征向量的维度到输出层的特征向量的维度来确定;

故输入层神经元为d个节点,隐含层神经元为q个节点,输出层神经元为1个节点;

设输入层第i个神经元与隐含层第h个神经元之间的连接权重为vih;

设隐含层第h个神经元与输出层第j个神经元之间的连接权重为whj;

设隐含层第h个神经元的阈值为γh;

设输出层第j个神经元的阈值为θj;

设输入层第i个神经元,其输出值为xi;

则隐含层第h个神经元,其接收到来自输入层的输入值为αh:

其输出值为bh:bh=f(αh-bh)

则输出层第j个神经元,其接收到来自隐含层的输入值为βj:

其输出值为yj:yj=f(βj-θj)

综上,在神经网络中,神经元接收到来自其他神经元的输入信号,这些信号乘以权重累加到神经元接收的总输入值上,随后与当前神经元的阈值进行比较,然后通过激活函数处理,产生神经元的输出;各层神经元的节点个数、网络的隐含层数可根据具体情况自行设定。

其中,“激活函数”参见图5,包括:

sigmoid函数:

sgn阶跃函数:

综上,相比sgn阶跃函数的不连续、不可导且不光滑而言,sigmoid函数具有很强的非线性映射能力和柔性的网络结构。

实施例二

参见图4,为本实施例提供的一种基于大规模机器学习的内容和服务推荐系统,所举实例只用于解释本发明,并非用于限定本发明的范围。该系统具体包括以下模块:

数据预处理模块:对汇聚的资源进行预处理去除噪声;

标引关联模块:通过分析用户需求,系统自动整理出用户感兴趣的栏目、分类、互动内容等相关网站内容和服务,标记标签并计算权重将用户与网站资源进行关联;

智能推荐模块:实时监测并记录用户身份、访问和搜索行为,通过分析用户访问和搜索的内容、使用的标签、点击量和转换路径等相关数据,将用户感兴趣的网站资源主动推送给用户;

人工推送模块:后台根据用户群体划分,主动推送信息内容给手机app用户、手机网站用户、微信用户、市民邮箱用户等相关群体。

其中,该标引关联模块进一步包括以下内容:

关联度计算子模块:对除噪后数据标记标签,通过计算标签权重对标签进行关联,并将标签发给多维标签库进行分类存储;

多维标签库:包括用户属性标签、用户行为标签、网站资源属性标签和未录入标签等。

其中,该智能推荐模块进一步包括以下内容:

特征提取子模块:系统采用半监督学习方式,从多维标签库和预处理后的数据中提取特征向量,并发给特征向量库进行分类,将提取的特征向量发给模型训练器进行特征训练;

特征向量库:存储并分类管理提取的特征向量;

模型训练器:从算法库中调用bp神经网络学习规则,运用规则对特征向量进行训练;

建模子模块:根据训练结果构建模型,包括推荐对象建模和用户建模,以确保特征向量库中特征识别的准确性;

推荐度计算子模块:采用bp神经网络学习规则,将待推荐资源带入模型计算推荐度,根据分数进行排序;

算法库:建立和管理bp神经网络学习规则。

其中,“bp神经网络学习规则”包括:梯度下降规则、反向传播学习规则、delta学习规则,分别是:

梯度下降规则:是对减小实际输出误差和期望输出误差之间方法的数学说明;反向传播学习规则:分为两个阶段,第一阶段是正向传播,将输入数据输入网络,网络从前向后计算每个单元的输出,将每个单元的输出与期望的输出进行比较并计算误差;第二阶段是反向传播,从后向前重新计算误差并修改权重,两个阶段完成后才可以输入新的数据;

delta学习规则:是通过改变单元之间的连接权重来减小系统实际输出与期望输出的误差。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围不局限于此,任何熟悉本技术领域的技术人员在本发明的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1