一种基于标签和差分隐私保护的推荐方法与流程

文档序号:17725103发布日期:2019-05-22 02:27阅读:222来源:国知局
一种基于标签和差分隐私保护的推荐方法与流程

网络信息的搜索与处理领域,特别是一种基于标签和差分隐私保护的推荐方法。



背景技术:

随着信息技术和数据挖掘技术的迅猛发展,信息呈爆炸式增长,个性化推荐算法也得到了广泛的发展和应用;其中使用最广泛的效果最好的当属协同过滤算法,基于用户的协同过滤基于项目的协同过滤,这些都是基于用户评分矩阵来进行相似度计算,但是仍面临着数据稀疏性的问题,当评分数据稀疏时很难得到相似用户,推荐质量也会随之下降。上述问题的主要原因就是数据量不够,需要更多的合适且容易获取的数据信息来计算。web2.0时代社会化网络中的重要应用就是标签的使用,标签体现了用户对资源的理解,不仅表达了用户对资源的理解还充分的反映了资源的特征,作为用户和资源之间的纽带,客观反映用户和用户之间的关系和共识度,丰富了评分数据不足的问题。但由于个性化推荐系统收集了大量的用户信息进行兴趣模型的挖掘,这就造成了用户隐私的泄露,因此防止用户隐私泄露是推荐系统中亟待解决的问题,也成为研究的一大热点。

目前推荐系统的隐私保护方法一般被分为:数据扰动,数据加密,和数据泛化三大类;虽然扰动方法较为简便但它存在着保护能力不强的问题;数据加密技术尤以同态加密技术为多,在安全方面多方计算,使得在协同过滤中使用,但其同样存在着加密算法复杂公钥生成后尺寸很大,并且没有对隐私进行严格定义的问题,数据泛化算法并没有对攻击者掌握的背景知识进行定义,当遇到新型攻击时需要不断完善;相较于这些传统的隐私保护方法存在的无法严格证明其隐私保护水平和与攻击者掌握的背景知识相关的安全性两个主要缺陷,提出了严格的可证明的ε-差分隐私保护模型,他的严格可证是建立在严格的定义和坚实的数学基础上的,该模型通过假设攻击者可以掌握最大背景知识,例如攻击者已获得除目标记录以外的所有记录,因此无需在考虑攻击者对背景知识的掌握程度,并且对隐私保护进行了量化评估,通过预算参数可以进行比较。

目前差分隐私应用在推荐算法中的研究和成果较少,最早将其应用到传统协方差矩阵中对其进行评分预测,后来又将其运用到矩阵分解中,这些都是基于评分的预测,目前在标签数据领域这方面的研究和方法基本属于空白,相比于评分泄露的用户隐私,标签泄露的问题更为突出,因此,本发明提出了基于标签的差分隐私保护的方法,旨在通过标签挖掘用户兴趣,提高推荐准确率的同时保护用户的隐私安全。



技术实现要素:

为了解决上述问题,本发明提出了基于标签和差分隐私保护的推荐方法,通过将差分隐私保护思想融入到标签推荐系统中,并对隐私预算参数进行量化,进行带有隐私保护的基于用户兴趣的个性化安全推荐,推荐准确率高,安全性高。

为了达到本发明的目的,本发明提出了如下的具体实现方案:一种基于标签和差分隐私保护的推荐方法,包括标签相似性计算,标签进行差分隐私保护的模糊c均值聚类的过程,计算用户兴趣向量和用户相似度产生topn推荐单元,具体如下:

产生标签关联矩阵,计算标签相似性单元:利用资源标签矩阵计算标签共现矩阵,通过标签共现矩阵得到标签紧密度关联矩阵,通过关联矩阵计算标签相似性。

标签聚类差分隐私保护单元:用标签的相似性代替模糊c均值聚类的欧式距离,在聚类过程中加入符合laplace分布的噪声,保护聚类中心点,产生具有差分隐私保护的聚类结果。

topn推荐单元:根据聚类的标签计算用户对标签的兴趣向量,根据用户的兴趣向量计算用户的相似性,得到k个相似的最近邻用户,对最近邻用户访问的资源进行筛选,对高分的n个资源进行topn推荐,这里的n根据使用者的需求自行设置,参考范围10-20。

计算标签相似性单元具体过程如下:

1)首先假设数据集包含m个资源的集合r={r1,r2,…,rm}和n个标签的集合t={t1,t2,…,tn},建立标签资源矩阵其中trn,m表示资源rm被标签tn标注的次数。

2)遍历资源标签矩阵m,当2个或者2个以上标签同时标注某一资源时符合标签共现规则,记录标签共现的频率得到标签共现矩阵其中矩阵的每一个元素如tfn,1,表示标签tn和标签t1共同标记资源的频率,也就是共现的次数。

3)遍历标签共现矩阵f,计算标签关联矩阵在一定程度上,tfn,1,越大表明标签tn与标签t1之间的相关度就越高,tdn,1通过标签之间的紧密度公式得到,其中fin(tn)表示tn的共现标签个数

4)根据标签关联矩阵和余弦相似度计算方法计算标签相似度。

计算标签基于差分隐私保护的模糊c聚类的过程如下:

1)标签集合t由n个标签组成,同时把集合t分成c个主题,用0-1之间的随机函数初始化隶属矩阵,并且该矩阵满足归一化条件,并特将标签与聚类中心的欧式距离用标签之间的相似度来代替;并且在聚类中心点中加入了符合laplace分布的噪声noise=laplace(δf/ε),其中δf为敏感度参数,ε为差分隐私保护参数,ε值的大小决定了隐私保护的程度;ε越小隐私保护的效果越好,同样数据的可用性变差,综合准确率和隐私保护的程度本发明通过实验取值ε=0.55,且该值在该方法中具有普遍意义;然后根据模糊c均值聚类的方法计算价值函数。

2)聚类的结束取决于2个条件,一个是预先设定的阈值δ,他代表计算的价值函数在这个阈值范围内的误差可以接受,另一个是预先设定的聚类的迭代次数niteration,达到两者之间的任一条件都可以终止该部分,具体判定规则为:价值函数小于预先设定的阈值或者达到预先设定的迭代次数得到最终的隶属矩阵,根据隶属矩阵得到聚类;价值函数大于阈值且未达到预先设定的迭代次数,重新计算添加laplace噪声的聚类中心点和新的隶属矩阵,再次计算价值函数变化和阈值和迭代次数的关系,直到得到最终隶属矩阵。本发明方法中设置的阈值δ=10-5,阈值越小越精确,但是本方法设置该值即可达到效果,迭代次数niteration=10次,迭代次数的设定8-12次范围内取值不会对聚类结果产生较大影响。

topn推荐单元具体过程如下:

1)经过聚类后得到c个隐私保护的标签主题,根据用户在每个主题中使用的标签的权重之和与用户标签总权重的比得出对主题的喜爱程度,最后根据公式得出具体对每个主题的兴趣强度,得到用户的兴趣向量。

2)采用皮尔逊相关系数法计算用户的相似性,得到预先设定的k个最近邻。

3)对最近邻访问的资源进行筛选,对高分的n个资源进行topn推荐。

附图说明

图1模糊c均值聚类算法流程图

图2计算标签相似性算法流程图

图3差分隐私保护的模糊c均值聚类算法流程图

具体实施方式

本发明主要提出了一种基于标签和差分隐私保护的推荐方法,以下为本发明用到的概念。

1.协同标记系统

协同标记系统从概念上可以抽象表示为三元组模型,主要由三个实体构成,他们分别为:用户,标签,资源;这里可以把用户,标签和资源三个实体视为三个独立的集合,每个集合中的元素可以看作一个点,这些点分别被连接起来。一个用户的标记动作则可视为两条边将用户集合,标签集合和资源集合中的元素连接起来的一条路径,可见,其中标签是连接用户和资源的桥梁。

标签由用户为资源标注,借助于标签自身的语义特性,能够为我们提供更多可供分析的信息。主要体现在:标签能够体现用户的兴趣偏好。标签由用户主动为资源标注,那么用户标注资源的动作通常能够反映了用户的认知模式,兴趣偏好;标签能够反映资源内容。因此,将标签引入推荐算法中有助于改善系统推荐的质量。

2.模糊c均值聚类

在传统的聚类算法中通过数值0和1来表示数据对象的隶属度,对于某个数据隶属度为1表示属于该聚类,隶属度为0表示不属于其他聚类,对于边界数据存在着硬聚类的问题。然而模糊聚类通过使用0-1之间的任意数字代表其属于不同聚类的隶属程度,并且数值越大表示其隶属度越高,所有的隶属度之和应该为1。模糊c均值聚类是用隶属度来表示每个数据点对某个聚类隶属程度的一种聚类方法。把n个标签ti(i=l,2,…,n)分成c个模糊标签组,并求每组的聚类中心,使得非相似性指标的价值函数达到最小。其算法步骤如下,流程图见附图1。

1)用0~1的随机数初始化隶属矩阵u,使其满足归一化条件;

2)计算c个聚类中心点c1,c2,...,cc将其作为初始中心点;

3)计算价值函数ja(表示第a次迭代),判断价值函数变化,如果|ja-ja-1|<δ(预先设定的阈值),停止迭代。得到隶属矩阵,否则继续执行(4);

4)计算新的隶属矩阵u,执行步骤(2);

3.差分隐私保护

定义1差分隐私:给定数据集d和d‘,两者之间相差一条记录,给定一个隐私算法z,若算法z在数据集d和数据集d’上任意输出的结果满足pr[z(d)∈s]≤eε*pr[z(d′)∈s]则z满足ε-差分隐私,这里的表示s是算法z输出结果的范围的子集;其中pr[*]代表隐私被暴漏的风险,由算法z的随机性控制;差分隐私保护参数ε代表隐私保护程度的大小,ε值越小引入的噪声越大,保护程度越高。

定义2全局敏感度:对于一个查询函数f,它的形式为:f:d→r,其中d为一数据集,r为查询函数的返回结果。在一对任意的相邻数据集d和d‘上,全局敏感度的定义如下:δf=maxd,d′||f(d)-f(d′)||;全局敏感度δf反映了一个查询函数在一对相邻的数据集上进行查询时最大的变化范围结果,比如在一由用户和身高组成的表中查询满足身高大于170的记录有多少条。那么这个函数返回的结果是一个数字,它的敏感度δf≤1,即:当查询结果当中没有一条满足的时候,查询的敏感度为0,当有一条或者多条满足的时候,敏感度为1。

定义3laplace机制:laplace机制是一种简单的且应用广泛的数值型查询隐私保护机制,对于数值型查询结果,通过在返回的查询结果中加入满足laplace(δf/ε)分布的噪声达到差分隐私保护的效果。laplace(δf/ε)代表的均值为0标准差为的概率密度函数。

因此,将差分隐私保护这一思想应用到标签的模糊c均值聚类算法中,能够有效的提高算法的准确率,并且在损失准确率有限的情况下保护用户的隐私数据不被泄露。

基于以上定义,一种基于标签和差分隐私保护的推荐方法的a模块见附图2,bc模块见附图3,具体步骤如下:

a、计算标签相似性单元具体过程如下:

1)首先假设数据集包含m个资源的集合r={r1,r2,…,rm}和n个标签的集合t={t1,t2,…,tn},建立标签资源矩阵其中trn,m表示资源rm被标签tn标注的次数。

2)遍历资源标签矩阵m,当2个或者2个以上标签同时标注某一资源时符合标签共现规则,记录标签共现的频率得到标签共现矩阵其中矩阵的每一个元素如tfn,1,表示标签tn和标签t1共同标记资源的频率,也就是共现的次数,计算方式如下

3)遍历标签共现矩阵f,计算标签关联矩阵越大表明标签tn与标签t1之间的相关度就越高,紧密度的计算方式如下,其中n为标签总数,fin(tn)表示tn的共现标签个数,在资源r中有多少个标签与标签tn共同标记过资源。

4)根据标签关联矩阵抽象出标签ti的关联向量vi=(tdi,1,tdi,2,…,tdi,n),标签tj的关联向量vj=(tdj,1,tdj,2,…,tdj,n)标签相似度通过标签关联向量进行余弦相似度计算,方法如下

b、计算标签基于差分隐私保护的模糊c聚类过程如下:

1)标签集合t由n个标签组成,同时把集合t分成c个主题c={c1,c2,...cc},则其隶属矩阵u表示如下un,c表示标签tn属于主题cc的程度大小;用0-1之间的随机函数初始化隶属矩阵并添加laplace噪声,添加噪声后的聚类中心点用c′表示,

c′={c1′,c2′,...cc′},c1′=c1+noise,标签与聚类中心的欧式距离用标签之间的相似度来计算;聚类中心点中加入的噪声noise=laplace(δg/ε),其中δf代表的是函数的全局敏感度,由聚类函数在数据集上的聚类结果决定计算方法见上页定义2将其中的查询函数更改为本方法的模糊c均值聚类函数,在任意相邻数据集上最大的聚类结果的差值为1,因此设置敏感度参数为1;ε值本发明中设置为0.55,其中m′为加权指数通常取值为2,计算方式如下:

2)计算价值函数,价值函数小于阈值δ或者大于迭代次数niteration时得到最终的隶属矩阵和聚类中心点,价值函数大于阈值且小于迭代次数,重新计算添加laplace噪声的聚类中心点和新的隶属矩阵,再次计算价值函数变化和阈值和迭代次数的关系,直到得到最终隶属矩阵和聚类中心点,价值函数计算方式如下:这里的dij是与聚类中心点的欧式距离,用标签相似性sim(ti,tj)代替。

c、topn推荐单元具体过程如下:

1)假设用户uk使用过b个标签,其标签集合可以表示为tuser={t1,t2,...,tb},用户的标签权重向量可以表示为tw={tw1,tw2,…,twb},用nk,b表示用户uk使用标签tb标注资源的次数,用nk表示用户使用过的标签的总的次数,nuser表示用户数量,表示用过该标签的用户数,计算用户uk对标签tb的权重twb的方式如下

2)经过聚类后得到c个隐私保护的标签主题集合c′,根据用户在每个主题中使用的标签的权重之和与用户标签总权重的比得出对主题的喜爱程度。计算方法如下,分子代表用户在主题中使用过的标签的权重之和,分母表示用户的总的标签权重,ub,c表示标签tb对主题cc′的隶属度。

3)根据用户对每个主题标签的兴趣度得到用户的兴趣向量

i={interest1,interest2,...,interestc}

4)采用皮尔逊相关系数法对用户兴趣向量进行计算,得到用户的相似性,最终得到k个最近邻。

5)对最近邻访问的资源进行筛选,选出评分最优且用户没有访问过的topn资源推荐

综上所述本发明采用了movielens数据集进行验证,并在实验前对数据集做了数据预处理,删除了使用量小于20的标签,处理后的数据集有用户数5003电影数6037,标签数10739;验证结果显示,当最近邻k的个数为25,聚类个数c为30个,差分隐私保护参数ε设置为0.55时推荐效果最佳,并且高于基础的基于标签的相似性推荐方法。本发明方法旨在推荐的同时进行隐私保护,针对不同的数据集可以通过本方法自行设置出适合该数据集的参数。本发明方法在标签相似性计算和模糊聚类过程中进行的噪声添加在推荐领域属于独创行为,旨在追踪用户的兴趣进行较高准确率推荐的同时保护用户的隐私安全。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1