基于人群画像技术的用户相似度计算方法与流程

文档序号：12177137阅读：来源：国知局

技术特征：

1.基于人群画像技术的用户相似度计算方法，其特征在于：包括标签推荐模块、标签主题类聚模块、用户相似度计算模块；

其中，所述标签推荐模块算法步骤包括：同质性推荐、共现性扩展和消除语义冗余；

其中，所述标签主题类聚模块用于对标签推荐模块产生的标签信息进行聚类分析；

其中，所述用户相似度计算模块用于对标签主题类聚模块产生的用户标签以及聚类分析的结果，进行用户的相似度的计算。

2.根据权利要求1所述的基于人群画像技术的用户相似度计算方法，其特征在于：所述同质性推荐的具体算法步骤包括：

步骤(A)，从目标用户u的互粉好友群体中选出最频繁使用的标签tag作为目标用户u的候选标签；

步骤(B)，通过评分函数score(tag)对候选的标签tag进行排序，评分函数score(tag)是候选的标签tag的分值，利用tf-rw词频打分机制来计算评分函数score(tag)，score(tag)＝tf(tag)×rw(tag)，tf(tag)和rw(tag)的计算公式如公式(1)和(2)所示

其中，在公式(1)中，Ngb(u)表示目标用户u的微博互粉对象集合，n(Ngb(u),tag)是集合Ngb(u)中的用户使用了标签tag的人次，而(Ngb(u))则表示目标用户u的微博互粉对象Ngb(u)使用的全体标签集合；

公式(2)中，N是所有微博用户总数，n(tag)是所有微博用户中使用了标签tag的人数。

3.根据权利要求2所述的基于人群画像技术的用户相似度计算方法，其特征在于：所述步骤(A)前增加标签传播算法对候选的标签t的计算，其具体步骤包括：

步骤(A1)，对于目标用户u的微博互粉好友中没有标签的用户v，使用的tf-rw方法利用用户v的互粉好友的最频繁使用的标签来生成用户v的标签集合；

步骤(A2)，生成目标用户u的ego网络，该ego网络的所有结点为目标用户u和他所有互粉好友，互粉关系编为所有节点之间的连接边，后续的标签传播都局限在该ego网络中。

4.根据权利要求1所述的基于人群画像技术的用户相似度计算方法，其特征在于：所述共现性扩展用于利用标签之间的共现关系来扩充推荐给微博用户的候选标签，使得最终推荐给用户的标签有足够的多样性，多方面刻画用户的属性。

5.根据权利要求4所述的基于人群画像技术的用户相似度计算方法，其特征在于：所述共现性扩展的具体操作步骤包括：

步骤(C)，对候选集合C中每一个候选的标签tag，对其进行共现标签挖掘，然后选出与tag共现关系最强的前k个标签，作为扩展标签。该标签tag为扩展标签的父标签，共现关系的计算公式score(tag,tag’)如公式(3)所示：

score(tag,tag′)＝tf(tag)×rw(tag,tag′) (3)

步骤(D)，用C′来表示共现性扩展结束后得到的候选推荐标签集合，那么C′-C则代表了这一步中新扩展出来的标签，由于C′是通过两种方式推荐排序机制得到的，因此需要对C′中的标签进行统一重新排序，重新排序的核心思路就是要保证C′-C中的新增标签的排序评分和之前一步得到的C集合中的标签既有竞争力，又小于其父标签的排序评分，新的排序评分函数newScore(tag)如公式(5)所示：

其中，p(tag)是tag的父标签，即该tag是由p(tag)通过共现性扩展方法扩展而来；λ∈(0,1)是一个惩罚因子，Z则是标准化因子，一般设为在tag的共现标签中的得分最大值。

6.根据权利要求1所述的基于人群画像技术的用户相似度计算方法，其特征在于：所述消除语义冗余用于鉴别标签列表中的同义标签或近义标签，消除候选标签组中存在的同义标签或近义标签，消除冗余。

7.根据权利要求6所述的基于人群画像技术的用户相似度计算方法，其特征在于：所述消除语义冗余的具体操作为：从在线百科网站上获取的语义实体数据构建中文知识图谱，通过将候选标签组中的所有标签映射到图谱网络中，度量出两个标签之间的语义距离，该距离为两词之间的相似程度，当相似度大于某阈值时，判断两词为近义词或同义词，删除其中一词，删除后的候选标签组为用户预估标签。

8.根据权利要求7所述的基于人群画像技术的用户相似度计算方法，其特征在于：所述语义距离具体计算方式如下，用u和v来表示两个在语义网络中的标签，图谱网络是一个有向网络，用In(u)和In(v)来分别表示指向标签u和标签v的结点，而用Out(u)和Out(v)来分别表示标签u和标签v指向的结点，每个标签的权值weight(u)计算如公式(6)所示：

N是整个语义网络的结点总数，那么两个标签的相似度通过带权值的Jaccard相似度系数来计算，公式如(7)所示：

9.根据权利要求6所述的基于人群画像技术的用户相似度计算方法，其特征在于：所述标签主题类聚模块将标签推荐模块中产生的用户预估标签进行聚类分析，每一个类可以代表一个主题或一个用户群体，从而判断出每位用户所属的类，得到的标签主体分布。

10.根据权利要求7所述的基于人群画像技术的用户相似度计算方法，其特征在于：所述标签主题类聚模块的聚类方法为利用LDA工具对用户预估标签的主题分布进行聚类分析。

11.根据权利要求8所述的基于人群画像技术的用户相似度计算方法，其特征在于：所述用户相似度计算通过利用cosine距离或者Kullback-Leibler距离或者Jensen-Shannon距离来计算两个用户的用户标签和标签主题分布的相似度，利用Noisy-Or模型综合两个用户相似度，得到最终的两个用户的相似度。

完整全部详细技术资料下载

当前第2页1 2 3