一种热点事件分类方法及装置的制造方法
【技术领域】
[0001] 本发明涉及数据挖掘的计算机应用技术领域,特别涉及一种热点事件分类方法及 装置。
【背景技术】
[0002] 互联网在最近十多年经历了一个飞速发展的时期,并成为超越报纸、广播和电视 三大传统媒体的新媒体。互联网的开放性使其成为人们获取信息的重要渠道,然而互联网 每天都会产生海量的信息数据,如何从这些海量数据中提取有用的关键信息已经成为近年 来研究的热点。
[0003] 网络由于其开放性、实时性和便捷性而成为新媒体的核心。然而,网络用户量庞 大,每天会产生数以亿计的数据,其中充斥着广告、炒作等虚假信息,从这些数据中发现热 点事件,并将热点事件分类,既能方便人们获取重要信息,同时也能帮助政府进行舆论监控 和突发事件检测。
[0004] 而现有技术中,缺少一种热点事件分类的方法。
【发明内容】
[0005] 本发明实施例的目的是提供一种热点事件分类方法及装置,实现对热点事件的分 类。
[0006] 为达到上述目的,本发明实施例公开了一种热点事件分类方法,包括:
[0007] 接收待分类的热点事件;
[0008] 确定该待分类的热点事件与每个聚类的中心点对应的热点事件的距离;
[0009] 将所述待分类的热点事件划分到该距离的最小值对应的聚类中,其中根据以下方 法,确定每个聚类的中心点对应的热点事件:采集每个热点事件,并获取该热点事件对应的 设定时间长度内的转发数量或评论数量;根据每个热点事件对应的设定时间长度内的转发 数量或评论数量,对热点事件进行聚类,将每个热点事件划分到不同的聚类中;在每个聚类 中,针对该聚类中包含的每个热点事件,确定该聚类的中心点对应的热点事件。
[0010] 可选的,所述确定该聚类的中心点对应的热点事件之后,所述方法还包括:
[0011] 针对每个聚类的中心点对应的热点事件,根据如下公式对该中心点对应的热点事 件在设定时间长度内的转发数量或评论数量进行调整:
[0012]
[0013] 其中,AB(t)为设定时间长度内调整后的时间点t的转发量,U(n)为该热点事件 在设定时间长度内的当前时间点η时,在网络中未传播到的用户的个数,ε为采集到的热 点事件中包含的噪声所对应的广告事件和个人事件的数量,S(t)根据以下公式确定:
[0014]
[0015] 其中,nb为该热点事件在设定时间长度内传播到预设的意见领袖的时间点;
[0016] G(t)根据以下公式确定:
[0017] G{t) = a c'";
[0018] 其中,a为该热点事件在设定时间长度内的转发量或者评论数量出现第二峰值时 的幅值,w为该热点事件在设定时间长度内从转发量或者评论数量出现第一峰值到第二峰 值的时间长度,tp为该热点事件在设定时间长度内的转发量或者评论数量出现第二峰值的 时间点;
[0019] ?·(τ)根据以下公式确定:
[0020] f( τ ) = β * τ L5
[0021] 其中β为热点事件传播过程中的传播系数,τ为传播过程中的每个时间点。
[0022] 可选的,所述根据每个热点事件对应的设定时间长度内的转发数量或评论数量, 对热点事件进行聚类,将每个热点事件划分到不同的聚类中之前,所述方法包括:
[0023] 针对每个热点事件,判断该热点事件的平均时间转发量R和意见领袖占有率D是 否都大于相应的平均时间转发量阈值、和意见领袖占有率阈值tD;
[0024] 如果否,则删除该热点事件,如果是,则进行后续对该热点事件进行聚类的过程, 其中根据如下公式确定平均时间转发量R和意见领袖占有率D:
[0025]
[0026]
[0027]I为平均时间转发量,D为意见领袖占有率,Rt为该热点事件的总转发量,T为设 定的时间长度,Vb为该热点事件传播过程中转发该热点事件的意见领袖的个数,Vt为该热 点事件传播过程中转发该热点事件的用户的个数。
[0028] 可选的,所述确定该聚类的中心点对应的热点事件包括:
[0029] 根据属于类别(;的所有热点事件Xi,与中心点对应的热点事件μ^勺 距离d(Xdμk)的和为最小,确定该聚类的中心点对应的热点事件',其中
Xl为属于类别Ck的所有热点事件,μk为中心点对应的热点事件, g为确定的该聚类的中心点对应的热点事件。
[0030] 可选的,确定该待分类的热点事件与每个聚类的中心点对应的热点事件的距离包 括:
[0031] 根据以下公式确定该待分类的热点事件与每个聚类的中心点对应的热点事件的 距离:
[0032]
[0033] 其中,x(t)为该待分类的热点事件X在该设定时间长度内每个时间点t的转发数 量或评论数量,C(t)为聚类中心对应的热点事件C在该设定时间长度内每个时间点t的转 发数量或评论数量,T为设定的时间长度。
[0034] 为达到上述目的,本发明实施例还公开了一种热点事件分类装置,包括:
[0035] 接收模块,用于接收待分类的热点事件;
[0036] 确定模块,用于确定该待分类的热点事件与每个聚类的中心点对应的热点事件的 距离;
[0037] 聚类模块,用于将所述待分类的热点事件划分到该距离的最小值对应的聚类中;
[0038] 所述装置还包括:
[0039] 采集模块,用于采集每个热点事件,并获取该热点事件对应的设定时间长度内的 转发数量或评论数量;
[0040] 所述聚类模块,还用于根据每个热点事件对应的设定时间长度内的转发数量或评 论数量,对热点事件进行聚类,将每个热点事件划分到不同的聚类中;在每个聚类中,针对 该聚类中包含的每个热点事件,确定该聚类的中心点对应的热点事件。
[0041] 可选的,所述装置还包括:
[0042] 调整模块,用于针对每个聚类的中心点对应的热点事件,根据如下公式对该中心 点对应的热点事件在设定时间长度内的转发数量或评论数量进行调整:
[0043]
[0044] 其中,AB(t)为设定时间长度内调整后的时间点t的转发量,U(n)为该热点事件 在设定时间长度内的当前时间点η时,在网络中未传播到的用户的个数,ε为为采集到的 热点事件中包含的噪声所对应的广告事件和个人事件的数量,S(t)根据以下公式确定:
[0045]
[0046] 其中,nb为该热点事件在设定时间长度内传播到预设的意见领袖的时间点;
[0047] G(t)根据以下公式确定:
[0048] G{t) = a eu>,
[0049] 其中,a为该热点事件在设定时间长度内的转发量或者评论数量出现第二峰值时 的幅值,w为该热点事件在设定时间长度内从转发量或者评论数量出现第一峰值到第二峰 值的时间长度,tp为该热点事件在设定时间长度内的转发量或者评论数量出现第二峰值的 时间点;
[0050] f(τ)根据以下公式确定:
[0051] f( τ ) = β * τ L5
[0052] 其中β为热点事件传播过程中的传播系数,τ为传播过程中的每个时间点。
[0053] 可选的,所述装置还包括:
[0054] 过滤模块,用于针对每个热点事件,判断该热点事件的平均时间转发量R和意见 领袖占有率D是否大于相应的平均时间转发量阈值tjP意见领袖占有率阈值tD;如果否, 则删除该热点事件,如果是,则将所述热点事件发送到所述聚类模块,其中根据如下公式确 定平均时间转发量R和意见领袖占有率D:
[0057] I为平均时间转发量,D为意见领袖占有率,Rt为该热点事件的总转发量,T为设 定的时间长度,Vb为该热点事件传播过程中转发该热点事件的意见领袖的个数,Vt为该热 点事件传播过程中转发该热点事件的用户的个数。
[0058] 可选的,所述聚类模块,具体用于根据属于类别(;的所有热点事件Xi,与中心点对 应的热