本发明涉及数据处理技术领域,具体涉及一种新媒体内容推荐方法。
背景技术:
在信息过载的时代,推荐系统的任务就是联系用户和信息,帮助用户发现对自己有价值的信息,同时让信息能够展现在对它感兴趣的用户面前,从而实现信息消费者和信息生产者的双赢。
现有的推荐系统一般采用两种方法:基于内容的推荐方法和协同过滤方法。基于内容的推荐,其基本思想是根据用户浏览或收藏的内容,以及用户的喜好设置,为用户推荐相近的内容。协同过滤方法又分为基于用户的协同过滤和基于模型的协同过滤。基于用户的协同过滤方法会分析用户兴趣,在用户群中找到指定用户的相似用户,综合这些相似用户对某一内容的收藏或浏览情况,形成系统对该指定用户对此内容的喜好程度预测。而基于模型的协同过滤是指m个物品,n个用户的数据,只有部分用户和部分数据之间是有评分数据的,其它部分评分是空白,此时要用已有的部分稀疏数据来预测那些空白的物品和数据之间的评分关系,找到最高评分的物品推荐给用户。无论是基于内容的推荐方法和协同过滤方法都是通过机器学习的思想来建模,通过模型来解决推荐问题,一般建模前需要大量的数据集。
然而,由于新媒体数据更新极快,不断的有新词汇、新概念出现,以及新媒体数据比较口语化,消耗大量人力物力构建的大规模训练数据集往往并不能有效的适应新的测试数据集,导致现有的推荐系统运用在新媒体上时会出现推荐的内容并不是用户感兴趣的内容,即推荐不精准。
技术实现要素:
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种新媒体内容推荐方法,解决了现有推荐系统运用在新媒体内容上时推荐不精准的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明提供一种新媒体内容推荐方法,所述方法由计算机执行,包括以下步骤:
s1、获取新媒体文本数据库;
s2、基于语义神经网络处理所述新媒体文本数据库,获取文本的二维表示;
s3、基于所述文本的二维表示构建三层注意力模型;
s4、构建反馈机制,基于外部知识和所述反馈机制改进所述三层注意力模型,得到推荐模型;
s5、基于所述推荐模型改进深度学习算法,运用改进后的深度学习算法,实现对新媒体内容的智能推送。
优选的,所述步骤s2具体为:
语义神经网络的表达方式为:
g=<v,e>
其中:
v表示有限点的集合;
e表示有限边的集合;
用语义神经网络处理所述新媒体文本数据库,语义神经网络中每个节点vi∈v表示一个词,边eij∈e则表示词vi和vj之间相互关联;
在语义神经网络中,每个节点有四个属性attr(vi)={id,name,status,description};其中id是词vi在新媒体文本数据库中的编号,name是词vi本身,status表示该节点所处的状态,而description则是词vi的语义解释;边eij的权重weight(eij)则表示词vi和vj之间联系的紧密程度。
优选的,所述三层注意力模型包括词语级注意力模型、句子级注意力模型、话题级注意力模型。
优选的,所述词语级注意力模型构建方法包括:
一个注意力e包含一系列的连续或者不连续的词组,定义为e={e1,e2,...,et,...,em},et表示词组的位置;lstm的隐含层的输出可以表示为
其中:α={α1,α2,...,αm},αj是α中第j个自注意力向量,hej是h′中第j个输出,α是整个lstm隐含状态h′为输出的自注意力向量,α可以通过将隐含输出h′导入如下双层获取函数计算得到:
α=softmax(wa2tanh(wa1h′))
其中:
wa2是一个大小为da的参数向量,da是lstm隐含层的单元数量;
wa1是形状如da×2u的权重矩阵;
基于h′的大小为m×2u,注意力向量α的大小为m;
将参数向量wa2扩展为大小为r×dn的矩阵wa2;将注意力向量α也将转化为注意力矩阵a:
α=softmax(wa2tanh(wa1h′))
基于lstm隐含状态h′和注意力矩阵a,构建词语级注意力模型vt;
vt=αh′。
优选的,所述句子级注意力模型构建方法包括:
假定s表示一个长度为l的句子,h=(h1,h2,...,hl)表示lstm的隐含层的输出;把lsmt的隐含层的输出公式代入注意力矩阵a中,通过线性整合隐含向量计算得到:
其中:
β=[βr,1,βr,2,...,βr,l]是句子级注意力矩阵,每一个βr,t对句子s中的短语wt进行编码;
s表示一个长度为l的句子,e表示句子中的词语;
基于拥有一个tanh激活函数的多层神经网络将每一个隐含层的单元ht转变成一个dm维的向量,利用密度softmax函数生成一个在整个句子s上的概率分布,得到句子级注意力模型:
其中:
h′⊙ve是指将ve集中到每一个隐含层的单元ht;
wm是指将注意力权重分配给每一个lstm中的输入值。
优选的,所述话题级注意力模型构建方法为:
给定一个长度为x的交流q,lstm隐含层的输出记为h=(h1,h2,...,hq),得到话题级注意力模型:
其中:
ψ=[ψr,1,ψr,2,...,ψr,x]是注意力矩阵,每一个ψr,x表示讨论j中的表达wx注意力矩阵可以通过以下公式得到:
其中:
wm是指将注意力权重分配给每一个lstm中的输入值;
ve是注意力向量表达式。
优选的,所述s4中,所述反馈机制包括:
假定有k个备选概念,表示为μ={μt,1,μt,2,...,μt,k},反馈机制的表达式如下:
其中:
μ是指备选概念的合集;
μi是指将合集通过词语级注意力模型计算后获得的文本向量。
8、如权利要求1所述的一种媒体内容推荐方法,其特征在于,所述s4中,所述引入外部知识的方法包括:
获取新词,将新词添加到新媒体文本数据之中。
优选的,在s5中,改进后的深度学习算法包括:lstm编码器,其数学表达式为:
ft=σg(wf[xt,ht-1,μt]+bf
it=σg(wi[xt,ht-1,μt]+bi)
ct=ft·ct-1+it·tanh(wc[xt,ht-1]+bc)
ot=σg(wo[xt,ht-1,μt]+bo)
其中:ft是时间t的遗忘门;it是时间t的输入门;ot是时间t输出门;ct是网络节点的状态向量;xt是时间t的输入向量;ht是时间t的输出向量;μt是隐含层的输出向量;σg是sigmoid函数;wf、wi、wc、wo、wco、bf、bi、bc、bo和bco均是相应门的偏差比例向量。
本发明还提供一种媒体内容推荐系统,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
s1、获取新媒体文本数据库;
s2、基于语义神经网络处理所述新媒体文本数据库,获取文本的二维表示;
s3、基于所述文本的二维表示构建三层注意力模型;
s4、构建反馈机制,基于外部知识和所述反馈机制改进所述三层注意力模型,得到推荐模型;
s5、基于所述推荐模型改进深度学习算法,运用改进后的深度学习算法,实现对新媒体内容的智能推送。
(三)有益效果
本发明提供了一种新媒体内容推荐方法和系统。与现有技术相比,具备以下有益效果:
本发明通过基于语义神经网络处理新媒体文本数据库,获取文本的二维表示,然后基于文本的二维表示构建三层注意力模型,通过构建反馈机制和改进外部知识改进三层注意力模型,得到推荐模型,基于推荐模型改进深度学习算法,运用改进后的深度学习算法,实现对新媒体内容的智能推荐。本发明用语义神经网络表示新媒体文本数据库中的文本,不仅反映了现实文本,并且反映了当人看到文本时最可能联想到的知识,该方法一方面有利于引入先验知识,通过引入先验知识对文本内容中缺乏的信息进行补全,另一方面可以缓和自然语言模糊性的问题,增强算法的学习、推理能力。在语义神经网络的基础上,根据新媒体数据的特点,构建三层注意力模型,再利用引进外部知识和反馈机制改进三层注意力模型,得到推荐模型,外部知识和反馈机制中的反馈信息可用于调节深度学习神经元之间的信息传递规则以及注意力分配规则,从而达到提升推荐模型的性能的目的,基于推荐模型改进深度学习算法,运用改进后的深度学习算法,实现对新媒体内容的智能推荐,提高用户感兴趣的新媒体内容的用户之间匹配度,实现精准推送。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种新媒体内容推荐方法的框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种新媒体内容推荐方法和系统,解决了现有推荐系统运用在新媒体内容上时推荐不精准的技术问题,实现高准确度的为用户推荐感兴趣的内容。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明实施例通过基于语义神经网络处理新媒体文本数据库,获取文本的二维表示,然后基于文本的二维表示构建三层注意力模型,通过构建反馈机制和改进外部知识改进三层注意力模型,得到推荐模型,基于推荐模型改进深度学习算法,运用改进后的深度学习算法,实现对新媒体内容的智能推荐。本发明实施例用语义神经网络表示新媒体文本数据库中的文本,不仅反映了现实文本,并且反映了当人看到文本时最可能联想到的知识,该方法一方面有利于引入先验知识,通过引入先验知识对文本内容中缺乏的信息进行补全,另一方面可以缓和自然语言模糊性的问题,增强算法的学习、推理能力。在语义神经网络的基础上,根据新媒体数据的特点,构建三层注意力模型,再利用引进外部知识和反馈机制改进三层注意力模型,得到推荐模型,外部知识和反馈机制中的反馈信息可用于调节深度学习神经元之间的信息传递规则以及注意力分配规则,从而达到提升推荐模型的性能的目的,基于推荐模型改进深度学习算法,运用改进后的深度学习算法,实现对新媒体内容的智能推荐,提高用户感兴趣的新媒体内容的用户之间匹配度,实现精准推送,有效降低了推荐模型将用户不感兴趣的内容推荐给用户的概率。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明实施例提供一种新媒体内容推荐方法,如图1所示,该方法由计算机执行,包括步骤s1~s5:
s1、获取新媒体文本数据库;
s2、基于语义神经网络处理所述新媒体文本数据库,获取文本的二维表示;
s3、基于所述文本的二维表示构建三层注意力模型;
s4、构建反馈机制,基于外部知识和所述反馈机制改进所述三层注意力模型,得到推荐模型;
s5、基于所述推荐模型改进深度学习算法,运用改进后的深度学习算法,实现对新媒体内容的智能推送。
本发明实施例用语义神经网络表示新媒体文本数据库中的文本,不仅反映了现实文本,并且反映了当人看到文本时最可能联想到的知识,该方法一方面有利于引入先验知识,通过引入先验知识对文本内容中缺乏的信息进行补全,另一方面可以缓和自然语言模糊性的问题,增强算法的学习、推理能力。在语义神经网络的基础上,根据新媒体数据的特点,构建三层注意力模型,再利用引进外部知识和反馈机制改进三层注意力模型,得到推荐模型,外部知识和反馈机制中的反馈信息可用于调节深度学习神经元之间的信息传递规则以及注意力分配规则,从而达到提升推荐模型的性能的目的。基于推荐模型改进深度学习算法,运用改进后的深度学习算法,实现对新媒体内容的智能推荐,提高用户感兴趣的新媒体内容的用户之间匹配度,实现精准推送,有效降低了推荐模型将用户不感兴趣的内容推荐给用户的概率。
下面对各个步骤进行详细描述。
在步骤s1中,获取新媒体文本数据库,具体实施过程如下:通过网络爬虫技术获取百度百科、互动百科、在线新华字典等网站上的文本内容,这些内容组合在一起,构成新媒体文本数据库。
在步骤s2中,基于语义神经网络处理上述新媒体文本数据库,获取文本的二维表示。具体实施过程如下:
利用语义神经网络表示新媒体文本数据库中的文本,得到文本的二维表示。语义神经网络的表达方式为:
g=<v,e>
其中:
v表示有限点的集合;
e表示有限边的集合;
用语义神经网络处理上述新媒体文本数据库,语义神经网络中每个节点vi∈v表示一个词,边eij∈e则表示词vi和vj之间相互关联;
在语义神经网络中,每个节点有四个属性attr(vi)={id,name,status,description};其中id是词vi在新媒体文本数据库中的编号,name是词vi本身,status表示该节点所处的状态,而description则是词vi的语义解释;边eij的权重weight(eij)则表示词vi和vj之间联系的紧密程度。
用语义神经网络表示新媒体文本数据库中的文本,不仅反映了现实文本,并且反映了当人看到文本时最可能联想到的知识,该方法以方便有利于引入先验知识,另一方面可以缓和自然语言模糊性的问题。对于新媒体的离散化动态化数据而言,显得尤其重要。
在步骤s3中,基于上述文本的二维表示构建三层注意力模型。上述三层注意力模型包括词语级注意力模型、句子级注意力模型、话题级注意力模型。具体实施过程如下:
s301、构建词语级注意力模型,具体包括:
一个注意力e包含一系列的连续或者不连续的词组,定义为e={e1,e2,...,et,...,em},et表示词组的位置;lstm的隐含层的输出可以表示为
其中:α={α1,α2,...,αm},α是整个lstm隐含状态h′为输出的自注意力向量,α可以通过将隐含输出h′导入如下双层获取函数计算得到:
α=softmax(wa2tanh(wa1h′))
其中:
wa2是一个大小为da的参数向量,da是lstm隐含层的单元数量;
wa1是形状如da×2u的权重矩阵;
基于h′的大小为m×2u,注意力向量α的大小为m;
函数softmax保证了计算得到的权重之和为1。
将参数向量wa2扩展为大小为r×dn的矩阵wa2;将注意力向量α也将转化为注意力矩阵a:
α=softmax(wa2tanh(wa1h′))
基于lstm隐含状态h′和注意力矩阵a,构建词语级注意力模型vt;
vt=αh′
s302、构建句子级注意力模型,具体包括:
假定s表示一个长度为l的句子,h=(h1,h2,...,hl)表示lstm的隐含层的输出;把lsmt的隐含层的输出公式代入注意力矩阵a中,通过线性整合隐含向量计算得到:
其中:
β=[βr,1,βr,2,...,βr,l]是句子级注意力矩阵,每一个βr,t对句子s中的短语wt进行编码;
s表示一个长度为l的句子,e表示句子中的词语。
基于拥有一个tanh激活函数的多层神经网络将每一个隐含层的单元ht转变成一个dm维的向量,利用密度softmax函数生成一个在整个句子s上的概率分布,得到句子级注意力模型:
其中:
h′⊙ve是指将ve集中到每一个隐含层的单元ht;
wm是指将注意力权重分配给每一个lstm中的输入值。
s303、构建话题级注意力模型,与文章或者评论不同,新媒体上的交流具有明显的话题性一段交流往往集中于一个话题(比如,正在讨论某型号的笔记本电脑)。然而,在交流过程中,一些表述可能意义丰富,而另一些则信息量相对较少。考虑到新媒体交流的这一特点,构建了话题级注意力模型来强调交流中有意义、饱含信息量的内容。为了获得话题级注意力,首先需要确定是一个交流的内容是否集中于一个相关话题。为了实现这一目标,引入了主题模型(嵌套分层狄利克雷过程,paisleyetal.2015)。然后,在所有讨论数据的基础上计算了一个主题z的主题嵌入。最后,话题级注意力模型可以通过类似于词语级和语句级注意力模型一样得到。具体包括:
给定一个长度为x的交流q,lstm隐含层的输出记为h=(h1,h2,...,hq),得到话题级注意力模型:
其中:
ψ=[ψr,1,ψr,2,...,ψr,x]是注意力矩阵,每一个ψr,x表示讨论j中的表达wx注意力矩阵可以通过以下公式得到:
其中:
wm是指将注意力权重分配给每一个lstm中的输入值;
ve是注意力向量表达式。
在步骤s4中,构建反馈机制,通过反馈机制和引进外部知识改进上述三层注意力模型,得到推荐模型。为了进一步提供推荐模型的精确度,通过引入外部信息优化改进三层注意力模型。引入外部信息共有两种方法,一种是引入外部知识,比如已经存在的语义网络(比如广泛应用的百度百科、互动百科等)。主要用于知识的补充,以及新词的发现和理解。另一种是增强学习。主要通过反馈机制,获取用户使用信息,改进模型的效果。具体过程如下:
s401、构建反馈机制,利用反馈机制改进上述三层注意力模型,具体为:
假定有k个备选概念,表示为μ={μt,1,μt,2,...,μt,k},那么文本向量可以通过一个简单的注意力模型获得,这个简单的注意力模型即为反馈机制,具体公式如下:
其中:
μ是指备选概念的合集;
μi是指将合集通过词语级注意力模型计算后获得的文本向量。从上式可以看出,反馈机制相当于更新词语级注意力模型。
s402、获取新词,将新词添加到新媒体文本数据库之中,更新新媒体文本数据库,运用反馈机制是通过引入外部信息和外部反馈优化三层注意力模型值的权重,从而提升推荐模型的准确度。
在步骤s5中,基于所述推荐模型改进深度学习算法,运用改进后的深度学习算法,实现对新媒体内容的智能推送。需要说明的是,在本发明实施例中,推荐模型即为改进后的三层注意力模型。
具体为,运用推荐模型调节深度学习算法的计算资源分布,改进深度学习算法,通过改进后的深度学习算法实现对新媒体内容的智能推送。
改进后的深度学习算法包括lstm编码器,其数学表达式可以总结为:
ft=σg(wf[xt,ht-1,μt]+bf)
it=σg(wi[xt,ht-1,μt]+bi)
ct=ft·ct-1+it·tanh(wc[xt,ht-1]+bc)
ot=σg(wo[xt,ht-1,μt]+bo)
其中:ft是时间t的遗忘门;it是时间t的输入门;ot是时间t输出门;ct是网络节点(神经元)的状态向量;xt是时间t的输入向量;ht是时间t的输出向量;μt是隐含层的输出向量;σg是sigmoid函数;wf、wi、wc、wo、wco、bf、bi、bc、bo和bco均是相应门的偏差比例向量。
本发明实施例还提供了一种媒体内容推荐系统,所述系统包括计算机,上述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,上述至少一个存储单元中存储有至少一条指令,上述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
s1、获取新媒体文本数据库;
s2、基于语义神经网络处理上述新媒体文本数据库,获取文本的二维表示;
s3、基于所述文本的二维表示构建三层注意力模型;
s4、构建反馈机制,基于外部知识和所述反馈机制改进所述三层注意力模型,得到推荐模型;
s5、基于所述推荐模型改进深度学习算法,运用改进后的深度学习算法,实现对新媒体内容的智能推送。
可理解的是,本发明实施例提供的上述媒体内容推荐系统与上述媒体内容推荐方法相对应,其有关内容的解释、举例、有益效果等部分可以参考媒体内容推荐方法中的相应内容,此处不再赘述。
综上所述,与现有技术相比,具备以下有益效果:
本发明实施例用语义神经网络表示新媒体文本数据库中的文本,不仅反映了现实文本,并且反映了当人看到文本时最可能联想到的知识,该方法一方面有利于引入先验知识,通过引入先验知识对文本内容中缺乏的信息进行补全,另一方面可以缓和自然语言模糊性的问题,增强算法的学习、推理能力。在语义神经网络的基础上,根据新媒体数据的特点,构建三层注意力模型,再利用引进外部知识和反馈机制改进三层注意力模型,得到推荐模型,外部知识和反馈机制中的反馈信息可用于调节深度学习神经元之间的信息传递规则以及注意力分配规则,从而达到提升推荐模型的性能的目的,基于推荐模型改进深度学习算法,运用改进后的深度学习算法,实现对新媒体内容的智能推荐,提高用户感兴趣的新媒体内容的用户之间匹配度,实现精准推送。有效降低了推荐模型将用户不感兴趣的内容推荐给用户的概率。
需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。