基于双聚类的微博用户标签自动生成算法

文档序号:8282406阅读:441来源:国知局
基于双聚类的微博用户标签自动生成算法
【技术领域】
[0001]本发明涉及社会化搜索技术领域,特别是涉及基于双聚类的微博用户标签自动生成算法,适用于社会化搜索。
【背景技术】
[0002]随着网络技术的发展,互联网在各个应用领域所积累的信息资源飞速增加,而用户逐渐成为信息的主体,由单一的从互联网查询信息、接受信息,到主动为互联网生产信息,在互联网上进行互动。人们通过各种终端随时随地接入社交网络进行娱乐、发表自己的生活状态以及评论一些新闻等等,社交网络已经渗透到人们的生活、学习、工作的方方面面。
[0003]“微博”即微博客(MicroBlog)的简称,是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过WEB、WAP以及各种客户端组建个人社区,以140字左右的文字更新信息,并实现即时分享。微博作为新兴的社交网络应用,受到了越来越多的人的欢迎,无论是各领域中的名人还是普通的网民,都可以拥有微博账户。据中国互联网信息中心(CNNIC)在2014年7月发布的《第34次中国互联网络发展状况统计报告》中称,截止2014年6月,我国微博用户已达2.75亿。
[0004]在微博社区中,用户标签是自定义描述自己职业、兴趣爱好的关键词,是一组具有概括性的词语或词组的列表,每个标签后面都隐藏着一群志同道合的人。用户通过标签,可以找到更多同类,也可以让更多人找到自己。从对方发布的微博中浏览到自己感兴趣的内容,丰富自己信息获取的渠道。微博服务平台通过用户标签,可以更好地了解用户的兴趣和视角,让服务更加个性化,为用户提供更加精准的推荐和广告服务,为自身带来盈利,让用户获得更佳的用户体验。
[0005]微博平台提供了用户自定义标签的功能,但由于种种原因,大部分微博用户没有为自己添加标签,或者有部分用户自定义的标签往往过于个性化,有些甚至意义不明。如何利用用户以前发表过的微博信息挖掘相关信息,自动生成用户标签,为用户发现相关群体、微博平台进行个性化推荐乃至进行微博营销等提供技术支持,成为目前研宄人员广泛关注的话题。
[0006]随着计算机应用需求的增加,本体被广泛应用到计算机科学的众多领域。从概念上讲,本体是共享概念模型的形式化规范说明,即本体实际上是一组共享的具有公共理解的术语,是一个通用的词汇表,可以供需要共享领域内信息的研宄人员使用。在进行本体构造时,既有手工构造(很准确,但速度较慢),也有利用聚类分析方法进行半自动构造。但传统聚类方法只能在矩阵的行或者列的某一个方向上进行,仅能发现全局信息。而高维数据矩阵中含有大量局部信息,传统聚类方法不能发现。双聚类算法在数据矩阵的行和列两个方向上同时聚类,聚类结果对应由局部行和列信息组成的任意区域,体现的是高维数据中蕴涵的有价值的局部特征信息。双聚类算法不仅能够有效地聚类出全局信息,而且能够有效发现高维数据矩阵中的局部信息,基于双聚类算法的优点,可以利用该算法结合维基百科,自动构建语义本体知识库,即先通过本体矩阵生成标记矩阵,然后构造候选集合,在行和列两个方向上同时进行聚类,最后得到K个双聚类结果,最后构造语义本体。
[0007]维基百科是目前全球最大的网络百科全书,其内容几乎涵盖所有知识领域。维基百科上的每个条目都是一个知识的抽象概括,类似于传统词典中的词语,其对应文章就是该条目的解释说明。文章中包含丰富的语义信息,例如同义词、类别词、歧义词等。同义词即为不同名但同义的词,如“凤梨”与“菠萝”等;类别词为该词所属类别,如“小麦”属于“粮食”、“谷物”等类别;歧义词则为一词多义,如“大学”这个词可能指一种近代高等教育机构、一本著作或一种官职等。
[0008]中国期刊“双聚类算法在本体构建中的应用”,《计算机技术与发展》,第23卷第3期,2013.03,提出了在本体构建中运用双聚类算法。

【发明内容】

[0009]为解决现有技术中的不足,本发明提供一种基于双聚类的微博用户标签自动生成算法,解决了目前微博用户不能自动生成用户标签或生成的用户标签不准确的问题。
[0010]为了实现上述目标,本发明采用如下技术方案:
[0011]一种基于双聚类的微博用户标签自动生成算法,其特征在于:包括以下步骤:
[0012]I)以维基百科为基础,采用双聚类算法构建语义本体;
[0013]2)获取微博用户的微博信息并进行预处理,得到词袋模型;
[0014]3)利用语义本体从词袋模型中提取词,并对有歧义词进行消歧处理;
[0015]4)将消歧后的词映射到维基百科中相应的类别节点上,构造类别子树;
[0016]5)针对用户微博内容收集用户标签;
[0017]6)采用投票策略,最终生成用户标签。
[0018]前述的一种基于双聚类的微博用户标签自动生成算法,其特征是:所述步骤1),以维基百科为基础,采用双聚类算法构建语义本体:包括如下步骤:
[0019]1.1)下载维基百科数据库转储文件;
[0020]1.2)对条目的解释进行分词,采用最大正向匹配方法进行分词;
[0021]1.3)定义语义本体矩阵M,共有η行η列,η为条目的数量,本体矩阵的行向量为Wi= (P !, P2,..., Pn),含义为词Wi由词P P2,...,P1^的若干词解释;列向量为P J =(W1, W2, , Wn),含义为词Pj能解释词W P W2,...,wj的若干词;
[0022]1.4)计算P」对w ^勺重要度M u,给矩阵M赋值,计算规则为:当Pj不能用来解释Wi时,M i,」=O ;当P」可以用来解释w i时,M i;J= TF(j) X ln(n/OF(j)),TF(j)表示词频,为在词Wi的解释中词P斤现的次数,OF(J)为解释词w通到的词P郝数量,In为以e为底的对数;
[0023]1.5)根据本体矩阵M,构造标记矩阵M’,在矩阵M中值为O的位置矩阵M’对应位置值为0,矩阵M中值不为O的位置矩阵M’对应位置值为I ;
[0024]1.6)在标记矩阵M’上构造候选子矩阵集合,得到用于双聚类的子矩阵IXJ ;
[0025]1.7)在语义本体矩阵M中找到对应的子矩阵,运行双聚类算法对候选集合中的子矩阵进行行向量集合的聚类,得到K个双聚类,构建语义本体;
[0026]1.8)定义语义本体存储结构,主要包括:(I)本体名称和对应的本体名映射ID号;(2)语义本体列表,用于存放本体的同义词;(3)父本体名的映射ID,父本体内部ID,以及对自身的描述;(4)语义本体的ID,词性,组成部件本体列表,相关本体/类别/描述列表,子本体列表,实例列表,等价本体列表,近似本体列表,反义/相反本体列表;
[0027]1.9)通过步骤1.7)构建的语义本体,再利用网络资源充实语义本体。
[0028]前述的一种基于双聚类的微博用户标签自动生成算法,其特征是:所述步骤2),获取微博用户的微博信息并进行预处理,包括如下步骤:
[0029]2.1)获取微博用户信息,包括账户信息和微博内容信息D ;
[0030]2.2)利用正则表达式过滤掉微博内容文本中有特殊意义的微博字符组合;
[0031]2.3)对微博内容中的英文字符统一进行小写化处理;
[0032]2.4)使用中文分词组件对文本进行分词处理,得到词袋,在分词的同时标记词性;
[0033]2.5)依照中英文停用词表去除词袋中的停用词;
[0034]2.6)根据标记的词性筛选出词袋中的名词、动名词,得到词袋模型BW⑶=Lbw1, bw2,…,bwn] ο
[0035]前述的一种基于双聚类的微博用户标签自动生成算法,其特征是:步骤2.2)中,所述特殊意义的微博字符组合包括“O用户名”、“[表情符号]”和短链接“http://t.cn/*”内容。
[0036]前述的一种基于双聚类的微博用户标签自动生成算法,其特征是:所述步骤3),利用语义本体从词袋模型中提取词,并对有歧义的词进行消歧处理,包括如下步骤:
[0037]3.1)对步骤2)中生成的词袋模型BW(D),建立记录每个词出现次数的词频词典,避免对屡次出现的词重复计算;
[0038]3.2)遍历词频词典,对于词bw e Bff (D),在语义本体中进行查找,如果找到了名称与词bw等
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1