本发明涉及信息技术领域,具体涉及一种面向网络新闻报道的大事记自动生成方法。
背景技术:
大事记作为党政机关、企事业单位、社会团体记载自己重要工作活动或自己辖区所发生的重大事件的一种应用文体,被广泛应用在各大领域。作为一种公务文书,大事记忠实地记载着一个地区、一个部门的重要工作活动和重大事件。因此,它首先可以为本地区、本部门的工作总结、工作检查、工作汇报、工作统计和上级机关掌握面上情况提供系统的、轮廓性的材料;其次,大事记具有史料价值,可以起到录以备查的作用,通过事件的时空关系的串联,可以对该企业或部门有更系统的了解;此外,互联网用户亦可通过关键字搜索了解特定机构大事记,从而快速的了解该企业或部门。
大事记构建的关键在于事件重要度的度量和时间线的生成,其主要步骤包括:(1)收集某一时间区间企业或部门发生的众多事件;(2)采用一定的度量标准挑选出一些显著性或具备重要意义的事件;(3)最后按时间的先后顺序将这些事件串联起来。然而,大事记生成大多采用人工收集和整理的方式,到目前为止,尚未发现采用机器学习技术自动生成大事记的方案。
企业或部门在自行制作大事记时大多由专门的机构或个人采用人工收集和整理的方法,该方法的缺陷为:方案需由专门的机构和个人来收集整理相关材料,耗费人才和物力;材料在收集整理过程中,带有一定的主观性;大事记的构建不够灵活,如时间范围一旦更改则整个过程几乎重新进行。或者企业或部门的大事记生成依托于internet上现有的一些知识平台,如百度百科,维基百科等。这些平台的大事记大多采用众包方式来生成,该方法的缺陷为:尽管网络众包的方式可以节约人力和物力,但此方案仍属于一种人工收集和整理的方式;整个大事记的构建过程由相关的网络知识平台管理,企业或部门缺乏自主性。
技术实现要素:
本发明所要解决的技术问题是提供一种面向网络新闻报道的大事记自动生成方法,解决大事记生成过程中收集和整理不便,企业缺乏自主性的问题。
本发明解决上述技术问题的技术方案如下:一种面向网络新闻报道的大事记自动生成方法,包括以下步骤:
s1、利用分词工具对网络新闻报道数据集d中每篇报道的标题和正文进行分词,得到语料词典中的词条;
s2、计算语料词典中每个词条w的词频-倒排文档频率值,并根据该频率值进行特征词选择,采用向量空间模型表示每篇新闻报道;
s3、基于空间向量模型计算任意两篇新闻报道的余弦相似度;
s4、采用吸引力传播算法的无参聚类方法根据余弦相似度对数据集d进行文本聚类,并得到相应的新闻簇ci;
s5、根据新闻簇ci的重要度评估模型计算每个新闻簇ci的重要度,并根据重要度得到重要新闻簇;
s6、计算每个重要新闻簇的标准时间戳;
s7、计算每个重要新闻簇的代表事件;
s8、将所有重要新闻簇按标准时间戳排序后,将每个重要新闻簇的标准时间和代表事件串接生成大事记。
本发明的有益效果是:在本发明中,采用机器学习的技术自动生成企业或部门在指定时间区间的大事记,数据可以是企业或部门现有的数据集,也可从网络中爬取与企业或部门相关的新闻报道,大事记的生成无需过多的人工干预,本发明不仅可以节省大量的人力和物力,同时数据驱动的方式可以使得大事记的生成效率高,且可以支持各种不同的时间粒度。
附图说明
图1为本发明总流程图;
图2为本发明步骤s2的具体流程图;
图3为本发明步骤s5的具体流程图;
图4为本发明步骤s6的具体流程图;
图5为本发明步骤s7的具体流程图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,一种面向网络新闻报道的大事记自动生成方法,包括以下步骤:
s1、利用分词工具对网络新闻报道数据集d中每篇报道的标题和正文进行分词,得到语料词典中的词条;
s2、计算语料词典中每个词条w的词频-倒排文档频率值,并根据该频率值进行特征词选择,采用向量空间模型表示每篇新闻报道;
s3、基于空间向量模型计算任意两篇新闻报道的余弦相似度;
s4、采用吸引力传播算法的无参聚类方法根据余弦相似度对数据集d进行文本聚类,并得到相应的新闻簇ci;
s5、根据新闻簇ci的重要度评估模型计算每个新闻簇ci的重要度,并根据重要度得到重要新闻簇;
s6、计算每个重要新闻簇的标准时间戳;
s7、计算每个重要新闻簇的代表事件;
s8、将所有重要新闻簇按标准时间戳排序后,将每个重要新闻簇的标准时间和代表事件串接生成大事记。
在本发明实施例中,步骤s1中网络新闻报道数据集的每篇报道包括标题、正文和报道时间等,使用中文分词工具对每篇报道的标题和正文进行分词。
如图2所示,步骤s2具体包括以下步骤:
s21、去除语料词典的停用词;
s22、计算语料词典中每个词条w的词频-倒排文档频率值,并按词频-倒排文档频率值对词条w排序;
s23、选择词频-倒排文档频率值较大的50个词条到特征词集合:
terms={term1,...,term50}(1)
在公式(1)中,terms为特征词集合,term1,...,term50均为词条;
s24、采用向量空间模型表示每篇新闻报道:
doci=(tfidfi,1,...,tfidfi,50)(2)
在公式(2)中,doci为第i篇新闻报道的向量空间模型,tfidfi,1,...,tfidfi,50为对应特征词terms的词频-倒排文档频率值。
在本发明实施例中,步骤s4的具体步骤为:构建新闻报道数据集的相似度矩阵,采用apcluster的无参聚类方法对数据进行文本聚类,得到相应的新闻簇。
如图3所示,所述步骤s5具体包括以下步骤:
s51、统计新闻簇ci中的新闻报道数量count(ci),归一化后得到其报道量得分,计算公式为:
在公式(3)中,rptscore(ci)为新闻簇ci的报道量得分,|d|为数据集中新闻报道总数;
s52、统计新闻簇ci中的报道转发数量fwdcount(ci),归一化后得到其报道转发量得分,计算公式为:
在公式(4)中,fwdscore(ci)为新闻簇ci的报道转发量得分,
s53、计算新闻报道数据集d中各个不同报道来源sitei的重要度,计算公式为:
在公式(5)中,sitescore(sitei)为报道来源sitei的重要度,{doc:doc∈sitei}为来源于sitei的新闻报道数量;
s54、统计新闻簇ci中的报道来源sitei的重要度sitescore(sitei),归一化后得到其报道来源重要度得分,计算公式为:
在公式(6)中,srcscore(ci)为报道来源重要度得分,
s55、根据新闻簇ci的报道量得分、报道转发量得分和报道来源重要度得分计算新闻簇ci的重要度,计算公式为:
salience(ci)=α×rptscore(ci)+β×fwdscore(ci)+γ×srcscore(ci)(7)
在公式(7)中,salience(ci)为新闻簇ci的重要度,α为报道量得分权重,0≤α≤1,β为报道转发量得分权重,0≤β≤1,γ为报道来源重要度得分权重,0≤γ≤1,α、β、γ均采用网格搜索方法确定(搜索步长为0.1);
s56、按新闻簇ci的重要度salience(ci)对新闻簇ci由高到低排序,选取重要度最高的k个新闻簇作为重要新闻簇。
如图4所示,所述步骤s6具体包括以下步骤:
s61、取每个重要新闻簇中每篇新闻的报道时间作为该新闻的时间戳,若无报道时间,则抽取新闻正文中第一次出现的时间作为该新闻的时间戳;
s62、扫描每个重要新闻簇中每篇新闻的时间戳,取最小时间戳作为每个重要新闻簇的标准时间戳。
如图5所示,所述步骤s7具体包括以下步骤:
s71、根据每个重要新闻簇内所有新闻报道每一维特征向量的平均值求取中心特征向量centroidrpt;
s72、计算每个重要新闻簇中每篇新闻报道doci到中心特征向量centroidrpt的余弦相似度sim(doci,centroidrpt),计算公式为:
在公式(8)中,docik为新闻报道doci的第k维向量值,centroidrptk为中心特征向量的第k维向量值;
s73、取余弦相似度最大的新闻报道的标题作为该重要新闻簇的代表事件。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。