互联网数据分析系统的制作方法
【技术领域】
[0001] 本发明涉及数据采集与分析,特别涉及一种互联网数据分析系统。
【背景技术】
[0002] 与原有传统互联网形态相比,当今的互联网形态已经发生了巨变,随身移动设备 的不断推新,人们已经脱离了老式台式机的传统有线上网模式,移动设备的功能层出不穷, 拍照、拍摄视频已经是最基本的功能。人们可以通过移动设备拍摄周围发生的事情,并且可 以直接上传到互联网中,其信息的传播速度迅速之极,如果没有合理进行监测,可能会出现 非法信息,错误引导公众的判断,导致舆论走向错误的方向。在在舆情检测中,数据采集功 能尤为重要,所有数据在采集后,因为数据量极大,需要借助技术手段,在有限的时间内,分 析出有用的数据。然而现有的信息监测系统仅应用单一的采集方式,只能满足某种特定的 信息分析,不能满足现在互联网中多元化信息分析的需求。
【发明内容】
[0003] 为解决上述现有技术所存在的问题,本发明提出了一种互联网数据分析系统,包 括:
[0004] 相关性计算模块,用于将随机选择的被选待识别文本和剩余的待识别文本分别作 为观测序列和状态序列,计算被选待识别文本和其余待识别文本间的相关性概率值;
[0005] 分类和识别模块,用于将状态序列中相关性最高的文本和被选待识别文本合并, 表征为第一类型,同时将相关性最低的文本作为第二类型;将第一和第二类型作为新的状 态序列,将剩余的待识别文本作为新的观测序列进行迭代,以实现敏感词汇的识别。
[0006] 优选地,所述相关性计算模块进一步包括:
[0007] 文本表示模块,用于将待识别文本表示为矢量空间模型;其中,所有待识别文本表 示为T n= {tpW^tyW^…;ti,wj,特征词同时出现在待识别文本和词库中,计算其权 重&并为该权重引入敏感系数0 i:
【主权项】
1. 一种互联网数据分析系统,其特征在于,包括: 相关性计算模块,用于将随机选择的被选待识别文本和剩余的待识别文本分别作为观 测序列和状态序列,计算被选待识别文本和其余待识别文本间的相关性概率值; 分类和识别模块,用于将状态序列中相关性最高的文本和被选待识别文本合并,表征 为第一类型,同时将相关性最低的文本作为第二类型;将第一和第二类型作为新的状态序 列,将剩余的待识别文本作为新的观测序列进行迭代,以实现敏感词汇的识别。
2. 根据权利要求1所述的系统,其特征在于,所述相关性计算模块进一步包括: 文本表示模块,用于将待识别文本表示为矢量空间模型;其中,所有待识别文本表示为 Tn={t^w1;t2,w2;…;ti,wj,特征词心同时出现在待识别文本和词库中,计算其权重wi并为该权重引入敏感系数0i:
其中:tfni表示第n个文档中关键词ti出现的频率;K表示总文档数;ki表示含有关键 词h的文档数,并且敏感系数0i表示为: i=-P(Cm)logP(Cm)+P(tt |Cm)logP(tt |Cm)+P(t?i|Cm)logP(t?i|Cm) 其中:表示属于第m类敏感词汇的文本数;P(t」CJ表示属于第m类敏感词汇并 包含关键词h的文本数;P(t'」(;)表示属于第m类敏感词汇但不包含关键词&的文本数。
3. 根据权利要求2所述的系统,其特征在于,所述相关性计算模块进一步用于: 将yi,y2,…,yn作为敏感词汇类型特征,y={y1,yy…,yJ作为矢量空间模型表示 的一个敏感词汇的类型;将XpX2,…,待识别文本的特征,X= {Xi,X2,…,xj是用矢 量空间模型表示的一个待识别文本,观测序列X对应参数集合A={Ai,…,Aj}的指定 状态y的条件概率为:
其中4为特征函数J 通过训练得到的特征函数的权值;Z(x)为正则化系数,并 且:
4. 根据权利要求3所述的系统,其特征在于,所述分类和识别模块进一步配置为: 从K个待识别文本中随机挑出1个作为观测输入序列s,剩余的K-1个待识别文本作为K-1个输出类状态列,计算输入序列中的文档和输出序列中文档之间的概率值,直到识别出 所有敏感词汇的类型: a) 将得到的K-1个概率值排序,最大概率值所对应的文本与输入观测序列中的文本归 并为一类并记做类Q,同时将最小概率值对应的文本记做类C2; b) 将剩余的K-3个待识别文本作为输入观测序列,CdPC2作为输出类状态列,这样得 到待识别文本隶属于CdPC2类的两个概率值; C)对每个待识别文本与输出类状态列的各个概率值求方差并排序; d) 查看最小方差值所对应的文本的所有概率值,若其中最小的概率值小于某一阈值 9,则将其作为一个新的类C3;否则,查看方差值位于第二位的文本,直到找到概率值小于 阈值9的文本,同时将最大方差值所对应的文本归并到最大概率所对应的类型; e) 重复步骤b)~d),直到所有的文本都被归类。
【专利摘要】本发明提供了一种互联网数据分析系统,该系统包括:相关性计算模块,用于将随机选择的被选待识别文本和剩余的待识别文本分别作为观测序列和状态序列,计算被选待识别文本和其余待识别文本间的相关性概率值;分类和识别模块,用于将状态序列中相关性最高的文本和被选待识别文本合并,表征为第一类型,同时将相关性最低的文本作为第二类型;将第一和第二类型作为新的状态序列,将剩余的待识别文本作为新的观测序列进行迭代,以实现敏感词汇的识别。本发明提出了一种信息监测分析系统,对互联网舆情进行多维监测,有效采集和分析出敏感信息,提高了查准率和查全率。
【IPC分类】G06F17-30, G06F17-27
【公开号】CN104809253
【申请号】CN201510257964
【发明人】张鹏
【申请人】成都布林特信息技术有限公司
【公开日】2015年7月29日
【申请日】2015年5月20日