本发明涉及新闻评论预测技术领域,具体而言,涉及一种新闻评论的预测方法和一种新闻评论的预测系统。
背景技术:
随着互联网的飞速发展,特别是手机等移动终端的普及,网络空间上随处可见对公众人物、热点事件、网购商品、影视作品等新闻的评论言论。在大型综合门户网站,一篇具有较高评论次数的新闻往往是网民关心的热点,舆论的焦点,舆情的方向标。掌握网民对新闻的评论情况对了解社情民意具有重要意义。
相关技术中,通常采用用户行为数据对新闻评论进行预测,而不考虑新闻的类型和用户的随机性,从而导致对新闻评论的预测不准确。
因此,如何提高新闻频率的预测方案的准确性成为亟待解决的技术问题。
技术实现要素:
本发明正是基于上述技术问题至少之一,提出了一种新的新闻评论的预测方案,通过获取用户对特定领域的新闻的评论记录集合,并结合发布新闻的内容提取关键字和用户评论的随机性概率,提高了对特定领域的发布新闻的评论进行预测的准确度,提高了对互联网的舆论热点新闻的宏观预测能力和调控性。
有鉴于此,根据本发明的第一方面的实施例,提出了一种新闻评论的预测方法,包括:确定发布新闻所属的领域;获取预设时间范围内用户对所述领域的新闻的评论记录集合;根据所述发布新闻的关键字,确定所述发布新闻属于所述评论记录集合的评论概率;在所述评论记录集合中,确 定用户评论过的新闻数量与新闻总数的评论比例;根据所述评论概率和所述评论比例对所述发布新闻的评论数目进行预测。
在该技术方案中,通过获取用户对特定领域的新闻的评论记录集合,并结合发布新闻的内容提取关键字和用户评论的随机性概率,提高了对特定领域的发布新闻的评论进行预测的准确度,提高了对互联网的舆论热点新闻的宏观预测能力和调控性。
其中,发布新闻所属的领域包括体育领域、媒体领域、娱乐领域、政治领域、时尚领域和教育领域等,预设时间范围是自发布新闻的时刻之前的时间段,如发布新闻前一天、一周和一个月等,获取服务器中存储的评论记录集合(包括评论用户id、评论时间、评论内容和评论频率等),通过新闻内容确定关键字,以及相应的用户的评论比例,确定了用户评论的随机性,另外,评论记录集合从一定程度上反映了用户对发布新闻的关注度,从而提高了对互联网的舆论热点新闻的宏观预测能力和调控性。
在上述技术方案中,优选地,获取预设时间范围内用户对所述领域的新闻的评论记录集合,具体包括以下步骤:获取所述预设时间范围内,创建二维评论矩阵作为所述评论记录集合,其中,所述二维评论矩阵中的任一元素表示为xij,所述二维评论矩阵中的行表示一个用户,所述二维评论矩阵的列表示所述领域的一个新闻,所述赋值xij为1时表示所述一个用户对所述领域的一个新闻进行了评论,所述赋值xij为0时表示所述一个用户未对所述领域的一个新闻进行评论。
在该技术方案中,通过创建二维评论矩阵作为评论记录集合,更加直观地反映了用户对发布新闻进行评论的随机概率,其中,二维评论矩阵采用余弦相似度算法进行创建,每个元素xij还包含新闻的关键词等标识信息。
在上述任一项技术方案中,优选地,根据所述评论概率和所述评论比例对所述发布新闻的评论数目进行预测,具体包括以下步骤:计算所述评论概率和所述评论比例的乘积,并作为一个用户对所述发布新闻进行评论的参考概率;对所有用户的参考概率依次进行归一化处理,并进行求和处理,以预测所述发布新闻的评论数目。
在该技术方案中,通过计算评论概率和评论比例的乘积,以及对参考概率进行归一化处理,提高了对发布信息的评论情况的预判性。
在上述任一项技术方案中,优选地,对所有用户的参考概率依次进行归一化处理,并进行求和处理,以预测所述发布新闻的评论数目,具体包括以下步骤:在对所有用户的参考概率依次进行归一化处理,并进行求和处理后,确定参考评论数目;在检测所述参考评论数目大于或等于所述评论阈值后,确定所述参考评论数目与预设放大因子的乘积作为所述评论数目,其中,所述预设放大因子大于或等于1。
在该技术方案中,通过对参考评论数目进行判断,并且增加预设放大因子,充分考虑了用户在新闻评论过程中的从众性,进一步地优化了对发布新闻的评论情况的预判性,其中,预设放大因子的设定因素包括发布新闻的时间、关键字热度和独创性等因素。
在上述任一项技术方案中,优选地,所述预设放大因子的数值范围为1~5。
根据本发明的第二方面的实施例,提出了一种新闻评论的预测系统,包括:确定单元,用于确定发布新闻所属的领域;获取单元,用于获取预设时间范围内用户对所述领域的新闻的评论记录集合;所述确定单元还用于:根据所述发布新闻的关键字,确定所述发布新闻属于所述评论记录集合的评论概率;所述确定单元还用于:在所述评论记录集合中,确定用户评论过的新闻数量与新闻总数的评论比例;所述新闻评论的预测系统还包括:预测单元,用于根据所述评论概率和所述评论比例对所述发布新闻的评论数目进行预测。
在该技术方案中,通过获取用户对特定领域的新闻的评论记录集合,并结合发布新闻的内容提取关键字和用户评论的随机性概率,提高了对特定领域的发布新闻的评论进行预测的准确度,提高了对互联网的舆论热点新闻的宏观预测能力和调控性。
其中,发布新闻所属的领域包括体育领域、媒体领域、娱乐领域、政治领域、时尚领域和教育领域等,预设时间范围是自发布新闻的时刻之前的时间段,如发布新闻前一天、一周和一个月等,获取服务器中存储的评 论记录集合(包括评论用户id、评论时间、评论内容和评论频率等),通过新闻内容确定关键字,以及相应的用户的评论比例,确定了用户评论的随机性,另外,评论记录集合从一定程度上反映了用户对发布新闻的关注度,从而提高了对互联网的舆论热点新闻的宏观预测能力和调控性。
在上述技术方案中,优选地,所述获取单元还用于:获取所述预设时间范围内,创建二维评论矩阵作为所述评论记录集合,其中,所述二维评论矩阵中的任一元素表示为xij,所述二维评论矩阵中的行表示一个用户,所述二维评论矩阵的列表示所述领域的一个新闻,所述赋值xij为1时表示所述一个用户对所述领域的一个新闻进行了评论,所述赋值xij为0时表示所述一个用户未对所述领域的一个新闻进行评论。
在该技术方案中,通过创建二维评论矩阵作为评论记录集合,更加直观地反映了用户对发布新闻进行评论的随机概率,其中,二维评论矩阵采用余弦相似度算法进行创建,每个元素xij还包含新闻的关键词等标识信息。
在上述任一项技术方案中,优选地,还包括:计算单元,用于计算所述评论概率和所述评论比例的乘积,并作为一个用户对所述发布新闻进行评论的参考概率;所述计算单元还用于:对所有用户的参考概率依次进行归一化处理,并进行求和处理,以预测所述发布新闻的评论数目。
在该技术方案中,通过计算评论概率和评论比例的乘积,以及对参考概率进行归一化处理,提高了对发布信息的评论情况的预判性。
在上述任一项技术方案中,优选地,所述确定单元还用于:在对所有用户的参考概率依次进行归一化处理,并进行求和处理后,确定参考评论数目;所述确定单元还用于:在检测所述参考评论数目大于或等于所述评论阈值后,确定所述参考评论数目与预设放大因子的乘积作为所述评论数目,其中,所述预设放大因子大于或等于1。
在该技术方案中,通过对参考评论数目进行判断,并且增加预设放大因子,充分考虑了用户在新闻评论过程中的从众性,进一步地优化了对发布新闻的评论情况的预判性,其中,预设放大因子的设定因素包括发布新闻的时间、关键字热度和独创性等因素。
在上述任一项技术方案中,优选地,所述预设放大因子的数值范围为1~1.5。
通过以上技术方案,通过获取用户对特定领域的新闻的评论记录集合,并结合发布新闻的内容提取关键字和用户评论的随机性概率,提高了对特定领域的发布新闻的评论进行预测的准确度,提高了对互联网的舆论热点新闻的宏观预测能力和调控性。
附图说明
图1示出了根据本发明的实施例的新闻评论的预测方法的示意流程图;
图2示出了根据本发明的实施例的新闻评论的预测系统的示意框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了根据本发明的实施例的新闻评论的预测方法的示意流程图。
如图1所示,根据本发明的实施例的新闻评论的预测方法,包括:步骤102,确定发布新闻所属的领域;步骤104,获取预设时间范围内用户对所述领域的新闻的评论记录集合;步骤106,根据所述发布新闻的关键字,确定所述发布新闻属于所述评论记录集合的评论概率;步骤108,在所述评论记录集合中,确定用户评论过的新闻数量与新闻总数的评论比例;步骤110,根据所述评论概率和所述评论比例对所述发布新闻的评论数目进行预测。
在该技术方案中,通过获取用户对特定领域的新闻的评论记录集合, 并结合发布新闻的内容提取关键字和用户评论的随机性概率,提高了对特定领域的发布新闻的评论进行预测的准确度,提高了对互联网的舆论热点新闻的宏观预测能力和调控性。
其中,发布新闻所属的领域包括体育领域、媒体领域、娱乐领域、政治领域、时尚领域和教育领域等,预设时间范围是自发布新闻的时刻之前的时间段,如发布新闻前一天、一周和一个月等,获取服务器中存储的评论记录集合(包括评论用户id、评论时间、评论内容和评论频率等),通过新闻内容确定关键字,以及相应的用户的评论比例,确定了用户评论的随机性,另外,评论记录集合从一定程度上反映了用户对发布新闻的关注度,从而提高了对互联网的舆论热点新闻的宏观预测能力和调控性。
在上述技术方案中,优选地,获取预设时间范围内用户对所述领域的新闻的评论记录集合,具体包括以下步骤:获取所述预设时间范围内,创建二维评论矩阵作为所述评论记录集合,其中,所述二维评论矩阵中的任一元素表示为xij,所述二维评论矩阵中的行表示一个用户,所述二维评论矩阵的列表示所述领域的一个新闻,所述赋值xij为1时表示所述一个用户对所述领域的一个新闻进行了评论,所述赋值xij为0时表示所述一个用户未对所述领域的一个新闻进行评论。
在该技术方案中,通过创建二维评论矩阵作为评论记录集合,更加直观地反映了用户对发布新闻进行评论的随机概率,其中,二维评论矩阵采用余弦相似度算法进行创建,每个元素xij还包含新闻的关键词等标识信息。
在上述任一项技术方案中,优选地,根据所述评论概率和所述评论比例对所述发布新闻的评论数目进行预测,具体包括以下步骤:计算所述评论概率和所述评论比例的乘积,并作为一个用户对所述发布新闻进行评论的参考概率;对所有用户的参考概率依次进行归一化处理,并进行求和处理,以预测所述发布新闻的评论数目。
在该技术方案中,通过计算评论概率和评论比例的乘积,以及对参考概率进行归一化处理,提高了对发布信息的评论情况的预判性。
在上述任一项技术方案中,优选地,对所有用户的参考概率依次进行 归一化处理,并进行求和处理,以预测所述发布新闻的评论数目,具体包括以下步骤:在对所有用户的参考概率依次进行归一化处理,并进行求和处理后,确定参考评论数目;在检测所述参考评论数目大于或等于所述评论阈值后,确定所述参考评论数目与预设放大因子的乘积作为所述评论数目,其中,所述预设放大因子大于或等于1。
在该技术方案中,通过对参考评论数目进行判断,并且增加预设放大因子,充分考虑了用户在新闻评论过程中的从众性,进一步地优化了对发布新闻的评论情况的预判性,其中,预设放大因子的设定因素包括发布新闻的时间、关键字热度和独创性等因素。
在上述任一项技术方案中,优选地,所述预设放大因子的数值范围为1~5。
图2示出了根据本发明的实施例的新闻评论的预测系统的示意框图。
如图2所示,根据本发明的实施例的新闻评论的预测系统200,包括:确定单元202,用于确定发布新闻所属的领域;获取单元204,用于获取预设时间范围内用户对所述领域的新闻的评论记录集合;所述确定单元202还用于:根据所述发布新闻的关键字,确定所述发布新闻属于所述评论记录集合的评论概率;所述确定单元202还用于:在所述评论记录集合中,确定用户评论过的新闻数量与新闻总数的评论比例;所述新闻评论的预测系统还包括:预测单元206,用于根据所述评论概率和所述评论比例对所述发布新闻的评论数目进行预测。
在该技术方案中,通过获取用户对特定领域的新闻的评论记录集合,并结合发布新闻的内容提取关键字和用户评论的随机性概率,提高了对特定领域的发布新闻的评论进行预测的准确度,提高了对互联网的舆论热点新闻的宏观预测能力和调控性。
其中,发布新闻所属的领域包括体育领域、媒体领域、娱乐领域、政治领域、时尚领域和教育领域等,预设时间范围是自发布新闻的时刻之前的时间段,如发布新闻前一天、一周和一个月等,获取服务器中存储的评论记录集合(包括评论用户id、评论时间、评论内容和评论频率等),通过新闻内容确定关键字,以及相应的用户的评论比例,确定了用户评论 的随机性,另外,评论记录集合从一定程度上反映了用户对发布新闻的关注度,从而提高了对互联网的舆论热点新闻的宏观预测能力和调控性。
在上述技术方案中,优选地,所述获取单元204还用于:获取所述预设时间范围内,创建二维评论矩阵作为所述评论记录集合,其中,所述二维评论矩阵中的任一元素表示为xij,所述二维评论矩阵中的行表示一个用户,所述二维评论矩阵的列表示所述领域的一个新闻,所述赋值xij为1时表示所述一个用户对所述领域的一个新闻进行了评论,所述赋值xij为0时表示所述一个用户未对所述领域的一个新闻进行评论。
在该技术方案中,通过创建二维评论矩阵作为评论记录集合,更加直观地反映了用户对发布新闻进行评论的随机概率,其中,二维评论矩阵采用余弦相似度算法进行创建,每个元素xij还包含新闻的关键词等标识信息。
在上述任一项技术方案中,优选地,还包括:计算单元208,用于计算所述评论概率和所述评论比例的乘积,并作为一个用户对所述发布新闻进行评论的参考概率;所述计算单元208还用于:对所有用户的参考概率依次进行归一化处理,并进行求和处理,以预测所述发布新闻的评论数目。
在该技术方案中,通过计算评论概率和评论比例的乘积,以及对参考概率进行归一化处理,提高了对发布信息的评论情况的预判性。
在上述任一项技术方案中,优选地,所述确定单元202还用于:在对所有用户的参考概率依次进行归一化处理,并进行求和处理后,确定参考评论数目;所述确定单元202还用于:在检测所述参考评论数目大于或等于所述评论阈值后,确定所述参考评论数目与预设放大因子的乘积作为所述评论数目,其中,所述预设放大因子大于或等于1。
在该技术方案中,通过对参考评论数目进行判断,并且增加预设放大因子,充分考虑了用户在新闻评论过程中的从众性,进一步地优化了对发布新闻的评论情况的预判性,其中,预设放大因子的设定因素包括发布新闻的时间、关键字热度和独创性等因素。
在上述任一项技术方案中,优选地,所述预设放大因子的数值范围为 1~1.5。
以体育领域的发布新闻为例,对根据本发明的新闻评论的预测方案进行说明:
(1)首先,特定领域新闻及其评论的训练集获取。例如选择体育类新闻报道领域,需要收集过去一段时期内,门户网站上体育频道的新闻作为正向样本,选取其它新闻频道的新闻作为负向样本。然后,利用支持向量机构造文本分类器,识别新发新闻是否属于体育新闻。
(2)收集过去一段时期内,特定领域新闻的评论数据,例如门户网站上体育频道的新闻以及对应的评论内容数据。假设在一段时间范围内,共有m个用户,n篇新闻。构造用户-新闻评论矩阵x(即上述二维评论矩阵),行是用户,列是新闻,xij元素,为1表示用户ui评论新闻tj,0表示没有评论。用户-新闻评论矩阵x如下所示:
(3)通常综合门户网站上新闻的评论数据很稀疏,网站上浏览某新闻的用户占网站只是小部分用户,而参与评论的用户比浏览用户更少,这造成了用户-新闻评论矩阵x非常稀疏。在特定新闻领域内,用户ui评论新闻集为t(ui)={tj|xij≠0},集合大小记为ni。当用户ui看到该领域新发新闻t时,评论的概率正比于该新闻t来自该用户的评论新闻集t(ui)的模型的概率,评论的概率记作p(ui,t),prob表征求概率函数,计算公式为:
p(ui,t)=prob(t∈t(ui))。
(4)用户看到该领域新发新闻为随机变量s,看到的概率正比于用户-新闻评论矩阵x中该用户所看过的新闻数ni和总的新闻数n之比。那么,所有已知用户对新闻t的参考评论数cr(t)的计算公式如下所示:
(5)由于从众效应,高评论次数的新闻往往吸引更多用户,包含新 用户(相对用户-新闻评论矩阵x中的已有用户)评论新闻,但是随着时间推移,新增评论用户逐渐变少。c0为评论次数的阈值,当参考评论数目cr(t)超过阈值c0时,引入放大因子α,α大于1。预测新发新闻t的评论次数c(t)公式如下:
以上结合附图详细说明了本发明的技术方案,考虑到如何提高新闻频率的预测方案的准确性的技术问题。因此,本发明提出了一种新的新闻评论的预测方案,通过获取用户对特定领域的新闻的评论记录集合,并结合发布新闻的内容提取关键字和用户评论的随机性概率,提高了对特定领域的发布新闻的评论进行预测的准确度,提高了对互联网的舆论热点新闻的宏观预测能力和调控性。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。