显式和隐式兴趣知识的提取方法

文档序号:9826313阅读:1458来源:国知局
显式和隐式兴趣知识的提取方法
【技术领域】
[0001] 本发明涉及网络搜索领域,尤其涉及一种提取显式和隐式兴趣知识的方法。
【背景技术】
[0002] 用户的兴趣提取是指在社交平台中,通过用户在社交平台上的文字活动,挖掘出 与用户相关的兴趣爱好;据《东方早报》报道,2014年是微博活跃用户增幅最快的一年,截至 2014年四季度末,微博月活跃用户达到1.76亿,全年净增4700万,为推出以来的最高纪录; 月活跃用户中来自移动端的比例高达80%。其中去年下半年用户增长速度更为迅速;伴随 着互联网时代的到来,网络社交已经成为交友的新的趋势,基于社交网络的数据挖掘是运 营商了解用户的一种重要的途径。在微博这种基于短文本的社交网络中,由于微博信息很 短,这些文字不像长文本能反应用户的具体兴趣点,同时在用户长期发表的微博本文中,其 中只有很少量的微博文本能反应用户的兴趣点;所以通过文字来挖掘用户信息有着较高的 技术难点,微博中用户的兴趣挖掘是社交平台运营商了解用户的重要途径之一,是通过社 交平台进一步进行商业运作的基础,充分挖掘用户的社交网络信息并分析他们的兴趣爱 好,是社交平台运营商盈利的关键,因此有效的微博用户兴趣提取算法是确保社交平台运 营情况的核心技术。
[0003] 在发明专利"一种基于标签的社交网络用户兴趣挖掘方法与装置"(专利【申请号】 201210249582.8)中提出了一种基于社交网络用户标签的用户兴趣挖掘方法与装置,该方 法通过用户在社交网络上生成的文字性数据包含的所有标签和每个标签所对应地权重构 成用户的兴趣序列,从而达到用户兴趣挖掘的目的,但是在这一技术中,"一种基于标签的 社交网络用户兴趣挖掘方法与装置"(专利【申请号】201210249582.8)提出的社交网络用户 兴趣挖掘方法与装置,建立在以用户生成的文本基础之上,该方法通过用户的兴趣标签作 为挖掘用户兴趣的依据,不能挖掘出用户潜在的兴趣知识,同时,当用户文字信息较少的时 候将无法有效、准确地挖掘出用户的兴趣爱好,只有当用户的文字信息达到一定数量时该 方法才有可能挖掘用户感兴趣的知识。
[0004] 在发明专利"社交网络用户兴趣挖掘方法和系统"(专利【申请号】 201410062761.X)中提出一种基于用户群组的社交网络用户兴趣挖掘方法,该方法通过分 析用户的兴趣广义组对应的兴趣类别,从中挖掘用户的兴趣。该专利所提出的基于兴趣类 别的社交网络用户兴趣挖掘方法和系统,建立在用户关注对象分类的基础之上,该方法需 要首先将用户的关注对象分类,这一过程需要消耗相当多的时间,不能快速、有效地挖掘出 用户的兴趣知识。其次该方法只能挖掘与用户显式的兴趣爱好,不能挖掘出用户未提及的 潜在兴趣知识,限制了对用户兴趣知识挖掘的全面性。在论文"Mining the interests of Chinese microbloggers via keyword extration,> (Z.Y.Liu,X.X.Chen, M. S· Sun.Frontiers of Computer Science,2012,1 (6) ,76-87 ·)中提出了一种基于词频统 计和传统关键词提取方法相结合的用户兴趣挖掘算法,该算法通过对上述两种算法的结果 合并来挖掘出用户的兴趣。该算法只能从当前用户已经发表的微博文本中挖掘用户的显式 兴趣,但无法发现用户潜在的兴趣知识。

【发明内容】

[0005] 为了解决现有技术中的问题,本发明提供了一种热点人物提取方法,解决了现有 技术无法充分、有效挖掘社交平台中用户的兴趣爱好,无法满足运营商搜集用户需求这一 难点问题。
[0006] 本发明提供了一种显式和隐式兴趣知识的提取方法,包括以下步骤:(A)计算用户 之间的相似度;(B)文本实体的提取;(C)构建用户相似度向量及兴趣知识矩阵;(D)获取用 户的兴趣知识。
[0007] 作为本发明的进一步改进,所述步骤(A)进一步中,在获取了用户原始的社交网络 关系图的基础上,利用节点的结构相似度算法,计算出用户与其社交网络中的其他节点的 相似度,并将用户的关系及相似度存入数据库中。
[0008] 作为本发明的进一步改进,所述步骤(B)中,提取用户以及一定阈值以上的社交网 络节点的发表的文本信息,提取出每条文本信息出现的实体,并存入数据库中。
[0009] 作为本发明的进一步改进,所述步骤(C)中,将步骤(A)中提取的用户相似度靠前 的用户,将步骤(B)中提取出来的实体,统计出每个用户发表的文本信息中提到每个实体的 数量,构成用户-兴趣知识矩阵。
[0010] 作为本发明的进一步改进,所述步骤(D)中,将用户的相似度向量与用户-兴趣知 识矩阵进行运算获取用户的兴趣知识。
[0011] 作为本发明的进一步改进,相似度算法公式为:
其中,1是最有效层次数,是衰减因子:
是指在用户的局部社交网络中,从
节点Vx到Vy并且链路长度为i的链路条数,m是在用户的局部社交网络中Vx到其他节点并且 长度为i链路条数,Nodj是节点vy在其全局社交网络中的出度,Ni(Ly是节点vy在其全局社交 网络中的如度,
的归一化因子,其中Minld是全局社交网络中最小的出度, MaxOd是全局社交网络中最大的入度。
[0012] 作为本发明的进一步改进,用户兴趣知识矩阵为:pi p2…pn
其中,W表示"用户-兴趣知识"矩阵,Wij表示节点Vj最近发表的微博当中提及到Pi的微 博的条数,Pl表示兴趣知识并且PleP,Vj表示第j个候选用户并且 Vjev。
[0013] 作为本发明的进一步改进,将用户的相似度向量与用户-兴趣知识矩阵相乘,得出 用户对各个实体的一个分值,得分越高,表明用户对该实体越有兴趣,得分高于某一阈值的 实体则是用户的兴趣。
[0014]本发明的有益效果是:在用户的社交网络中,根据社交网络中用户之间的结构相 似度,提出了一种基于社交网络链路结构的用户相似度计算方法,用于构建用户的高相似 度社交网络;实现了在社交平台上对用户兴趣知识的挖掘与发现,确保了数据来源的确定 性与高相关性。 【【附图说明】】
[0015]图1是本发明流程不意图; 图2是本发明一实施例中节点A的全局社交网络示意图; 图3是本发明一实施例中节点A的局部社交网络示意图; 图4是本发明又一实施例中A的全局社交网络示意图; 图5是本发明又一实施例中A的局部社交网络示意图。 【【具体实施方式】】
[0016] 下面结合【附图说明】及【具体实施方式】对本发明进一步说明: 一种显式和隐式兴趣知识的提取方法,包括以下步骤:(A)计算用户之间的相似度;(B) 文本实体的提取;(C)构建用户相似度向量及兴趣知识矩阵;(D)获取用户的兴趣知识。
[0017] 所述步骤(A)进一步中,在获取了用户原始的社交网络关系图的基础上,利用节点 的结构相似度算法,计算出用户与其社交网络中的其他节点的相似度,并将用户的关系及 相似度存入数据库中。
[0018] 所述步骤(B)中,提取用户以及一定阈值以上的社交网络节点的发表的文本信息, 提取出每条文本信息出现的实体,并存入数据库中。
[0019] 所述步骤(C)中,将步骤(A)中提取的用户相似度靠前的用户,将步骤(B)中提取出 来的实体,统计出每个用户发表的文本信息中提到每个实体的数量,构成用户-兴趣知识矩 阵。
[0020] 所述步骤(D)中,将用户的相似度向量与用户-兴趣知识矩阵进行运算获取用户的 兴趣知识。 相似度算法公式为:
其中,1是最有效层次数,
是衰减因子,\丨是指在用户的局部社交网络中, 从节点Vx到Vy并且链路长度为i的链路条数,m是在用户的局部社交网络中Vx到其他节点并 且长度为i链路条数,Nodj是节点vy在其全局社交网络中的出度,Ni(Ly是节点v y在其全局社 交网络中的如度,
是的归一化因子,其中
是全局社交网络中最小 的出度,MaxOd是全局社交网络中最大的入度。
[0021 ]作为本发明的进一步改进,用户兴趣知识矩阵为:pi p2…pn
其中,W表示"用户-兴趣知识"矩阵,Wij表示节点Vj最近发表的微博当中提及到Pi的微 博的条数,Pl表示兴趣知识并且PleP,Vj表示第j个候选用户并且 Vjev。
[0022] 将用户的相似度向量与用户-兴趣知识矩阵相乘,得出用户对各个实体的一个分 值,得分越高,表明用户对该实体越有兴趣,得分高于某一阈值的实体则是用户的兴趣。
[0023] 目前在社交网络中用户兴趣知识的提取方发大多是基于用户的本身发表内容的 分析,或者是基于第三方知识(如百度百科,维基百科)库进行数据的扩展,随着社交网络的 流行,用户的网络社交活动越来越频繁。当前的用户兴趣挖掘方法无法充分的挖掘社交平 台中用户的兴趣爱好,难以满足运营商对用户了解的需要。
[0024] 本发明采用基于社交网络关系图的方法实现用户兴趣挖掘,充分利用用户及其社 交网络中关系紧密的用户,首先构建了用户的高相似度拒不社交网络,然后基于该社交网 络分别从正面和侧面了解用户的兴趣爱好,本发明适用于任何社交网络,不需通过第三方 数据库对用户进行分析。
[0025] 本发明首先通过构建出目标用户的高相似度局部社交网络,然后从高相似度社交 网络的节点中挖掘出这些节点的兴趣知识,这些兴趣知识从侧面反映出目标用户的兴趣知 识。综上所述,本发明能较好地解决用户发表微博稀疏的问题,能够充分地挖掘用的兴趣知 识。
[0026] 1.方法过程描述 我们将在线社交网络抽象成有向图6=(¥3少),其中¥表示节点的集合4表示变得集 合,eij = ( Vi, Vj)表示节点Vi是节点Vj的跟随者(也就是说两个节点之间存在着有向边Vi- Vj),其中Vi,Vje V,eij eE,而P表示在社交网络中被涉及到的兴趣知识的集合,对于其中pi ,如果?1没有被目标用户所发表的微博所提及,我们称?1为隐式兴趣知识,否则Pl为目标 用户所关注的显式兴趣知识。
[0027]下面描述的方法,用于挖掘社交网络中用户关注的显式和隐式的兴趣知识: 第一,我们从目标用户的全局社将网络中提取他的出局部社交网络(因为局部社交网 络
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1