一种确定微博热门话题的方法及装置的制造方法
【技术领域】
[0001]本发明涉及计算机应用技术领域,具体涉及一种确定微博热门话题的方法及装置。
【背景技术】
[0002]随着web2.0时代的到来,微博的使用人群数量逐渐庞大,状态信息更新频繁、信息传播迅速,并且微博平台媒介用户占有率相对集中,因此基于微博数据的分析研究是十分值得关注的研究方向。
[0003]微博有着广大的用户基础,舆情信息在微博平台快速的产生和传播,微博用户迅猛增长,基于微博数据的分析已经引起社会的广泛关注。
[0004]为了有效地利用微博分析社会舆情,微博数据的获取显得尤为重要。例如新浪微博上活跃着大量的用户,每天产生近I亿的微博内容。微博用户分为普通用户和认证用户,认证用户中拥有众多粉丝、人气较高、具有一定号召力和影响力的名人又被称为意见领袖。他们发布或转发的微博更容易成为热点话题,实时获取意见领袖的微博数据是进行舆情分析的重要方法之一。
[0005]目前获取意见领袖的微博数据非常方便,但是如何实时确定微博热门话题,以对当前舆情进行监管还存在一定的难度。
【发明内容】
[0006]有鉴于此,本发明实施例提供一种确定微博热门话题的方法及装置,以实时提取热门话题,以便对当前舆情进行监管。
[0007]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0008]第一方面,本发明实施例提供了一种确定微博热门话题的方法,包括:
[0009]获取意见领袖的微博;
[0010]对所述微博进行分句提取有效句子,将所述有效句子用语义相近的较短的有效句子替代,以获得新微博形成新微博集合;
[0011]对所述新微博集合中的新微博的有效句子进行聚类确定微博热门话题。
[0012]进一步地,获取意见领袖的微博包括:利用定向网络爬虫获取意见领袖发表的微博,或采用关注模式获取意见领袖发表的微博。
[0013]进一步地,将所述有效句子用语义相近的较短的有效句子替代包括:
[0014]将所述微博句子集合中的有效句子进行正则匹配,将匹配相似的有效句子中较长的有效句子用较短的有效句子替代。
[0015]进一步地,将所述微博句子集合中的有效句子进行匹配包括:
[0016]将较短的有效句子中每个字的前后加入通配符形成匹配条件,判断较长的有效句子是否满足所述匹配条件。
[0017]进一步地,将所述微博句子集合中的有效句子进行匹配包括:遍历所述微博集合,对所述微博集合中所有的有效句子进行两两正则匹配。
[0018]进一步地,对所述新微博集合中的新微博的有效句子进行聚类确定微博热门话题包括:
[0019]对所述新微博集合中各新微博进行遍历,依次对所述各新微博设置编号作为微博的根,根据所述微博的根对所述各新微博中所包含的有效句子进行标号,包括若所述有效句子第一次出现,则将所述有效句子的标号设置为所述有效句子所在的新微博的根,否则将所述有效句子的标号设置为第一个出现所述有效句子的微博的根;
[0020]根据新微博的根以及各有效句子标号,确定所述新微博所属的类别,所述类别至少包括祖先微博和从属微博,其中所述祖先微博为所有的有效句子均第一次出现的新微博,所述从属微博为所包括的有效句子标号除了为所述新微博的根之外其他的有效句子标号属于同一祖先微博的根或所述祖先微博的下面的从属微博的根的新微博;
[0021]查找各从属微博的祖先微博,将祖先微博相同的新微博所对应的原微博进行合并确定微博热门话题。
[0022]进一步地,所述类别还包括噪声微博,所述噪声微博为从属于不同祖先微博的新微博;
[0023]根据新微博的根以及各有效句子标号,确定所述新微博所属的类别包括:
[0024]如果新微博中所有有效句子的标号相同,且均为所述新微博的根,则确定所述新微博为祖先微博;
[0025]如果新微博中有效句子标号除了所述新微博的根之外还有一个有效句子标号,则确定所述新微博属于从属微博,从属于根为所述有效句子标号的新微博;
[0026]如果新微博中有效句子标号中除了所述新微博的根之外还有至少两个不同的句子标号,且根为所述至少两个不同的句子标号的至少两个新微博是同一祖先微博的从属微博,则确定所述新微博为从属微博,且从属于所述同一祖先微博,否则确定所述新微博为噪声微博。
[0027]进一步地,所述方法还包括:对所述新微博集合中的新微博的有效句子进行聚类确定微博热门话题之后还包括:
[0028]对所确定的热门话题所相关的新微博进行句子频率统计,将出现频率最高的有效句子作为所述热门话题的标题。
[0029]进一步地,所述方法还包括:对所述新微博集合中的新微博的有效句子进行聚类确定微博热门话题之后还包括:
[0030]对所确定的热门话题所相关的微博进行统计,根据统计结果确定所述热门话题的热度,根据所述热度对所述热门话题进行排序。
[0031]第二方面,本发明实施例还提供了一种确定微博热门话题的装置,包括:
[0032]微博获取单元,用于获取意见领袖的微博;
[0033]分句单元,用于对所述微博进行分句提取有效句子,将所述有效句子用语义相近的较短的有效句子替代,以获得新微博形成新微博集合;
[0034]热门话题确定单元,用于对所述新微博集合中的新微博的有效句子进行聚类确定微博热门话题。
[0035]本发明实施例提出的技术方案的有益技术效果是:
[0036]本发明实施例通过获取意见领袖的微博,对所述微博进行分句提取有效句子,将所述有效句子用语义相近的较短的有效句子替代,以获得新微博形成新微博集合,对所述新微博集合中的新微博的有效句子进行聚类确定微博热门话题,能实时提取热门话题,以便对当前舆情进行监管。
【附图说明】
[0037]为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本发明实施例的内容和这些附图获得其他的附图。
[0038]图1是本发明具体实施例一所述的确定微博热门话题的方法流程图;
[0039]图2是本发明具体实施例二所述的确定微博热门话题的方法流程图;
[0040]图3是本发明具体实施例三所述的确定微博热门话题的方法流程图;
[0041]图4是本发明具体实施例四所述的确定微博热门话题的装置的结构框图。
【具体实施方式】
[0042]为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本发明实施例的技术方案作进一步的详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0043]下面结合附图并通过【具体实施方式】来进一步说明本发明的技术方案。
[0044]实施例一
[0045]图1是本实施例所述的确定微博热门话题的方法流程图,本实施例可适用于能实时提取热门话题情况,如图1所示,本实施例所述的确定微博热门话题的方法包括:
[0046]步骤S101、获取意见领袖的微博。
[0047]获取意见领袖的微博包括多种,例如可以利用定向网络爬虫获取意见领袖发表的微博,还可以采用关注模式获取意见领袖发表的微博等不同的方式。
[0048]步骤S102、对所述微博进行分句提取有效句子,将所述有效句子用语义相近的较短的有效句子替代,以获得新微博形成新微博集合。
[0049]微博平台通常会对微博的字数进行限制,例如新浪微博要求最多有140个汉字的长度,因此,微博内容具有高度概括,使用的词语简练等特点,语句相似或重复的频度较高,因此,如果两条微博拥有一个相似或相同的句子,就将这两条微博划分到同一话题中去。
[0050]本实施例中,首先对微博进行分句提取有效句子(例如字数多于一定数量的句子)。再将所述有效句子用语义相近的较短的有效句子替代,即将表达相近语义的句子看作相同的句子进行分析。
[0051]将所述有效句子用语义相近的较短的有效句子替代的方法包括多种,例如可将较短的有效句子中每个字的前后加入通配符形成匹配条件,判断较长的有效句子是否满足所