发现论坛热帖的方法和系统的制作方法

文档序号:6547320阅读:275来源:国知局
发现论坛热帖的方法和系统的制作方法
【专利摘要】本发明提供了一种发现论坛热帖的方法和系统,其中,上述方法包括:对论坛帖子源数据的一般特性进行汇总,获得特征化数据;依据所述特征化数据,将内容相似的帖子聚合成帖子簇;综合考虑预设影响因素计算每一个帖子簇的热度值,将热度值较高的帖子簇作为论坛热帖,所述预设影响因素包括:类簇贴子数、网站权重、发帖者等级、帖子浏览量、回帖数量、回帖者等级、发帖时间、最后回帖时间。采用本发明提供的发现论坛热帖的方法,能够综合考虑贴子标题、帖子正文内容、发帖人等级、发帖时间、浏览量、帖子链接、域名、回帖信息等多种因素的影响,更加有效、客观、准确地发现论坛热帖。
【专利说明】发现论坛热帖的方法和系统
【技术领域】
[0001]本发明涉及互联网信息【技术领域】,特别地,涉及一种发现论坛热帖的方法和系统。【背景技术】
[0002]随着互联网的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”。由于网络媒体与传统媒体在传播载体和传播方式上的不同,将导致网络舆论热点、焦点层出不穷,而这些信息的产生将对社会产生巨大影响。因此,有必要对这些热点信息的正确性及传播范围进行有效管理。论坛作为舆情传播最常用的媒介之一,对其更需有效管理。
[0003]目前论坛热帖发现技术主要分为三类:基于频率统计方法,首先对相似帖子进行聚类,如果某类别的帖子数居多,则认为是热帖。基于数学模型的方法,例如“牛顿冷却定律”算法,它将把热贴排名想象成一个"自然冷却"的过程,任一时刻,论坛网站中所有的帖子,都有一个"当前温度",温度最高的帖子就认为是热帖。基于语义的方法,利用自然语言的语义特征发现论坛热帖。
[0004]在实现本发明过程中,发明人发现现有技术中至少存在如下问题:基于频率统计方法虽然操作便利,但是计算方法过于简单,仅仅把类簇中的帖子数作为衡量热度的唯一标准,完全忽视了其他因素对热帖排名的影响。基于数学模型的方法虽然将热帖发现问题转化为更一般的数学问题,更具普遍性,但是计算过程相对复杂。基于语义的方法从语义角度判断,较符合人们的感知逻辑,也是目前该领域的一个研究热点,但基于语义的文本理解技术尚未达到实用程度,所以也仅仅是停留在研究阶段。
[0005]总之,需要本领域技术人员迫切解决的一个技术问题就是:提供一种能够综合考虑贴子标题、帖子正文内容、发帖人等级、发帖时间、浏览量、帖子链接、域名、回帖信息等多种因素的发现热帖的方法。

【发明内容】

[0006]本发明所要解决的技术问题是提供一种发现论坛热帖的方法,能够综合考虑多种影响因素,更加有效、客观、准确地发现论坛热帖。
[0007]为了解决上述问题,一方面提供了一种发现论坛热帖的方法,包括:对论坛帖子源数据的一般特性进行汇总,获得特征化数据;依据所述特征化数据,将内容相似的帖子聚合成帖子簇;综合考虑预设影响因素计算每一个帖子簇的热度值,将热度值较高的帖子簇作为论坛热帖,所述预设影响因素包括:类簇贴子数、网站权重、发帖者等级、帖子浏览量、回帖数量、回帖者等级、发帖时间、最后回帖时间。
[0008]可选的,在执行上述各步骤之前还包括:清理论坛帖子数据源中的不合理数据,保留有效源数据。
[0009]可选的,所述对论坛帖子源数据的一般特性进行汇总,获得特征化数据;具体包括:[0010]对帖子的标题和正文进行分词,将帖子转化为形如〈WpWyWfWn〉的词元序列,其中,Wi表示分词后的词元;
[0011]参照停用词库过滤所述词元序列中的停用词元,获得有效词元序列;
[0012]采用计数方式对所述有效词元序列中的每个有效词元进行计分统计;
[0013]对所述有效词元的计分统计进行归一化处理,获得每个有效词元的概率统计值;
[0014]将所述每个有效词元的概率统计值与预设阈值λ进行比较,保留概率统计值大于预设阈值λ的词元,并将特征提取后的每条帖子记录表示成向量X = (<w1; C1), <w2,c2>, <w3, c3>*“〈wn, cn>),其中:Ci≥λ,Ci表示有效词元的出现频率;Wi表示有效词元。
[0015]可选的,所述依据特征化数据,将内容相似的帖子聚合成帖子簇;具体包括:
[0016]扫描所有特征化后的帖子记录,采用预设计算方法计算帖子之间的相似度;
[0017]基于帖子之间的相似度与预设阈值的比较,对所述特征化后的帖子记录进行聚类,获得不同的帖子簇。
[0018]可选的,计算帖子之间相似度的方法包括:
[0019]余弦值相似度计算法:
[0020]Sim(X,Y) = (Χ*Υ)/(| X |*| Y );或者,
[0021]曼哈顿距离相似度计算法:.η..[0022]
【权利要求】
1.一种发现论坛热帖的方法,其特征在于,包括: 对论坛帖子源数据的一般特性进行汇总,获得特征化数据; 依据所述特征化数据,将内容相似的帖子聚合成帖子簇; 综合考虑预设影响因素计算每一个帖子簇的热度值,将热度值较高的帖子簇作为论坛热帖,所述预设影响因素包括:类簇贴子数、网站权重、发帖者等级、帖子浏览量、回帖数量、回帖者等级、发帖时间、最后回帖时间。
2.根据权利要求1所述的发现论坛热帖的方法,其特征在于,在执行上述各步骤之前还包括: 清理论坛帖子数据源中的不合理数据,保留有效源数据。
3.根据权利要求1所述的发现论坛热帖的方法,其特征在于,所述对论坛帖子源数据的一般特性进行汇总,获得特征化数据;具体包括: 对帖子的标题和正文进行分词,将帖子转化为形如<Wl,W2,的词元序列,其中,Wi表示分词后的词元; 参照停用词库过滤所述词元序列中的停用词元,获得有效词元序列; 采用计数方式对所述有效词元序列中的每个有效词元进行计分统计; 对所述有效词元的计分统计进行归一化处理,获得每个有效词元的概率统计值; 将所述每个有效词元的概率统计值与预设阈值λ进行比较,保留概率统计值大于预设阈值λ的词元,并将特征提取后的每条帖子记录表示成向量X = (<W1; C1), <w2, c2>, <w3,c3>...<wn, cn>),其中:Ci≥λ,Ci表示有效词元的出现频率;Wi表示有效词元。
4.根据权利要求1所述的发现论坛热帖的方法,其特征在于,所述依据特征化数据,将内容相似的帖子聚合成帖子簇;具体包括: 扫描所有特征化后的帖子记录,采用预设计算方法计算帖子之间的相似度; 基于帖子之间的相似度与预设阈值的比较,对所述特征化后的帖子记录进行聚类,获得不同的帖子簇。
5.根据权利要求4所述的发现论坛热帖的方法,其特征在于,计算帖子之间相似度的方法包括: 余弦值相似度计算法: Sim(X,Y) = (X*Y)/(| X 1*1 Y I);或者, 曼哈顿距离相似度计算法:

6.根据权利要求1所述的发现论坛热帖的方法,其特征在于,采用以下公式计算帖子簇的热度值:
7.根据权利要求2所述的发现论坛热帖的方法,其特征在于,所述清理论坛帖子数据源中的不合理数据,保留有效源数据;具体包括: 从论坛帖子数据源中获取由帖子记录组成的帖子数据集,其中,每条所述帖子记录至少包括:帖子标题、帖子正文内容、发帖人等级、发贴时间、浏览量、帖子链接、域名、回帖信息;其中,所述回帖信息至少包括:回帖人等级、回帖时间、回帖评价分数; 参照系统和/或用户定义的问题数据类型,对每条所述帖子记录进行匹配,筛选出问题数据; 按照预设问题数据处理方式处理所述问题数据; 对处理后的数据的标题和正文内容进行一致性判断,清理掉标题与正文内容不符的无效帖子,获得有效源数据。
8.根据权利要求7所述的发现论坛热帖的方法,其特征在于,所述对处理后的数据的标题和正文内容进行一致性判断,清理掉标题与正文内容不符的无效帖子,获得有效源数据;具体包括: 对帖子标题进行分词处理,将标题分解成形如<w1; w2, ?ν...wn>的词元序列,WiQ =I….η)表不分词后的词兀; 判断帖子正文内容是否包含标题的词元Wi,如果包含,则将计数器值增加1,否则计数器值不变; 判断计数器值是否达到预设阈值,如果没有,则认为所述帖子记录的标题与正文内容不一致; 将所述标题和正文内容不一致的帖子记录采用忽略元组法进行处理,获得所述有效源数据。
9.一种发现论坛热帖的系统,其特征在于,包括: 特征提取模块,用于对论坛帖子源数据的一般特性进行汇总,获得特征化数据; 帖子簇聚类模块,用于依据所述特征化数据,将内容相似的帖子聚合成帖子簇; 论坛热帖计算模块,用于综合考虑预设影响因素计算每一个帖子簇的热度值,将热度值较高的帖子簇作为论坛热帖,所述预设影响因素包括:类簇贴子数、网站权重、发帖者等级、帖子浏览量、回帖数量、回帖者等级、发帖时间、最后回帖时间。
10.根据权利要求9所述的发现论坛热帖的系统,其特征在于,还包括: 数据清理模块,用于清理论坛帖子数据源中的不合理数据,保留有效源数据。
11.根据权利要求9所述的发现论坛热帖的系统,其特征在于,所述特征提取模块具体包括:分词单元,用于对帖子的标题和正文进行分词,将帖子转化为形如<Wl,W2,W3-Wn>的词元序列,其中,Wi表示分词后的词元; 有效词元获取单元,用于参照停用词库过滤所述词元序列中的停用词元,获得有效词元序列; 统计单元,用于采用计数方式对所述有效词元序列中的每个有效词元进行计分统计; 归一化处理单元,用于对所述有效词元的计分统计进行归一化处理,获得每个有效词元的概率统计值; 特征帖子记录获取单元,用于将所述每个有效词元的概率统计值与预设阈值λ进行比较,保留概率统计值大于预设阈值λ的词元,并将特征提取后的每条帖子记录表示成向量X = (〈W1; C1), <w2, c2>, <w3, c3>…<wn, cn>),其中:Ci≥λ,Ci表示有效词元的出现频率;Wi表示有效词元。
12.根据权利要求9所述的发现论坛热帖的系统,其特征在于,所述帖子簇聚类模块具体包括: 相似度计算单元,用于扫描所有特征化后的帖子记录,采用预设计算方法计算帖子之间的相似度; 聚类单元,用于基于帖子之间的相似度与预设阈值的比较,对所述特征化后的帖子记录进行聚类,获得不同的帖子簇。
13.根据权利要求12所述的发现论坛热帖的系统,其特征在于,所述相似度计算单元计算帖子之间相似度的方法包括: 余弦值相似度计算法: Sim(X,Y) = (X*Y)/(| X 1*1 Y I);或者, 曼哈顿距离相似度计算法:

14.根据权利要求9所述的发现论坛热帖的系统,其特征在于,所述论坛热帖计算模块采用以下公式计算帖子簇的热度值:

15.根据权利要求10所述的发现论坛热帖的系统,其特征在于,所述数据清理模块具体包括: 帖子记录获取单元,用于从论坛帖子数据源中获取由帖子记录组成的帖子数据集,其中,每条所述帖子记录至少包括:帖子标题、帖子正文内容、发帖人等级、发贴时间、浏览量、帖子链接、域名、回帖信息;其中,所述回帖信息至少包括:回帖人等级、回帖时间、回帖评价分数; 问题数据筛选单元,用于参照系统和/或用户定义的问题数据类型,对每条所述帖子记录进行匹配,筛选出问题数据; 问题数据处理单元,用于按照预设问题数据处理方式处理所述问题数据; 有效源数据获取单元,用于对处理后的数据进行标题、内容一致性判断,清理掉标题与正文内容不符的无效帖子,获得有效源数据。
16.根据权利要求15所述的发现论坛热帖的系统,其特征在于,所述有效源数据获取单元具体包括: 标题分词子单元,用于对帖子标题进行分词处理,将标题分解成形如<Wl,W2, Wf.wn>的词元序列,WiQ = L....η)表示分词后的词元; 计数子单元,用于判断帖子正文内容是否包含标题的词元Wi,如果包含则将计数器值加I,否则值不变; 判断子单元,用于判断计数器值是否达到预设阈值,如果没有,则认为该贴的标题与正文内容不一致; 数据清理子单元,用于将所述标题和正文内容不一致的帖子记录采用忽略元组法进行处理,获得所述有效源数据。
【文档编号】G06F17/30GK103955547SQ201410218382
【公开日】2014年7月30日 申请日期:2014年5月22日 优先权日:2014年5月22日
【发明者】伏峰, 章正道, 林胜通 申请人:厦门市美亚柏科信息股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1