新闻热度计算方法、设备及存储介质与流程

文档序号:26793213发布日期:2021-09-29 00:07阅读:361来源:国知局
新闻热度计算方法、设备及存储介质与流程

1.本技术涉及互联网技术领域,尤其涉及一种新闻热度计算方法、设备及存储介质。


背景技术:

2.在信息时代,各类信息呈现井喷式增长,新闻也不例外。对大量的新闻进行分析、筛选,得到热点新闻,并将热点新闻推荐给用户,可便于用户及时了解热点话题,提升新闻阅读效率。
3.现有的新闻热度计算方法通常依赖于用户对新闻的点击量、评论量等等。这种方式较为依赖用户行为,无法得到准确的新闻热度分析结果。因此,有待提出一种新的解决方案。


技术实现要素:

4.本技术的多个方面提供一种新闻热度计算方法、设备及存储介质,用以充分利用新闻,提升新闻热度分析结果的准确性。
5.本技术实施例提供一种新闻热度计算方法,包括:获取事件对应的新闻集合;从所述新闻集合中,确定发布间隔以及发布时间持续性满足设定条件的多个新闻;根据所述多个新闻对应的发布机构,确定所述多个新闻各自的热度权重;根据所述多个新闻各自的热度权重、所述发布间隔以及所述发布时间持续性,计算所述事件对应的新闻热度。
6.进一步可选地,从所述新闻集合中,确定发布间隔以及发布时间持续性满足设定条件的多个新闻,包括:按照时间先后顺序,对所述新闻集合中的新闻的发布时间进行排序,得到发布时间序列;采用第一滑动窗口,在所述发布时间序列上滑动,得到多个时间窗口;所述第一滑动窗口的窗口长度为设定的时间跨度;从所述多个时间窗口中,确定新闻数量满足设定数量要求的时间窗口,作为目标时间窗口;从所述目标时间标窗口中,截取发布间隔满足设定间隔要求的所述多个新闻。
7.进一步可选地,从所述目标时间窗口中,截取发布间隔满足设定间隔要求的所述多个新闻,包括:采用第二滑动窗口,在所述目标时间窗口中滑动,得到多个子窗口;所述第二滑动窗口的长度为设定的数量长度;计算所述多个子窗口各自包含的新闻的平均间隔时长;根据所述平均间隔时长,从所述多个子窗口中确定目标子窗口,所述目标子窗口包含的新闻的平均间隔时间满足所述设定间隔要求。
8.进一步可选地,根据所述多个新闻各自的热度权重以及所述多个新闻之间的时间间隔,计算所述事件对应的新闻热度,包括:确定所述目标子窗口中的每个新闻相对于相邻的前一新闻的时间间隔;将所述时间间隔作为指定底数的指数,计算每个新闻的指数项;根据每个新闻各自的热度权重对每个新闻的指数项进行加权计算,得到加权分数;计算所述加权分数与所述第二滑动窗口的长度的比值,作为所述事件对应的新闻热度。
9.进一步可选地,获取事件对应的新闻集合,包括:采集新闻数据;针对所述新闻数据中的第一新闻文本和第二新闻文本,计算所述第一新闻文本和所述第二新闻文本之间的
文本相似度;对所述第一新闻文本的新闻要素以及所述第二新闻文本的新闻要素进行重合度分析,得到新闻要素重合度;若所述文本相似度以及所述要素重合度满足设定条件,则将所述第一新闻文本和所述第二新闻文本划分到同一事件的新闻集合中。
10.进一步可选地,计算所述第一新闻和所述第二新闻之间的文本相似度,包括:确定所述第一新闻文本包含的第一标题和第一正文,以及所述第二新闻文本包含的第二标题和第二正文;根据所述第一标题和所述第二标题各自对应的文本,计算所述第一标题和所述第二标题之间的标题相似度;根据所述第一正文和所述第二正文各自对应的文本,计算所述第一正文和所述第二正文之间的正文相似度;对所述标题相似度和所述正文相似度进行融合,得到所述第一新闻文本和所述第二新闻文本的相似度。
11.进一步可选地,根据所述第一正文和所述第二正文各自对应的文本,计算所述第一正文和所述第二正文之间的正文相似度,包括:对所述第一正文以及所述第二正文进行分词处理,得到第一正文词条集合以及第二正文词条集合;确定所述第一正文词条集合以及所述第二正文词条集合的交集,得到相同正文词条;确定所述第一正文词条集合以及所述第二正文词条集合中,除所述相同正文词条之外的其他词条,作为相异正文词条;分别计算所述相同正文词条在所述第一正文词条集合以及所述第二正文词条集合中的出现频次,得到第一出现频次和第二出现频次;分别计算所述相异正文词条在所述第一正文词条集合以及所述第二正文词条集合中的出现频次,得到第三出现频次和第四出现频次;根据所述第一正文和所述第二正文各自的文本长度,计算相似度惩罚项;根据所述第一出现频次、所述第二出现频次、所述第三出现频次、所述第四出现频次以及所述相似度惩罚项,计算所述正文相似度。
12.进一步可选地,对所述第一新闻文本的新闻要素以及所述第二新闻文本的新闻要素进行重合度分析,得到新闻要素重合度,包括:分别从所述第一新闻文本以及所述第二新闻文本中提取时间要素、地点要素以及主体要素;计算所述第一新闻文本与所述第二新闻文本的时间要素的重合度、地点要素的重合度以及主体要素的重合度;将所述时间要素的重合度、地点要素的重合度以及主体要素的重合度的总和,作为所述新闻要素的重合度。
13.本技术实施例还提供一种电子设备,包括:存储器和处理器;所述存储器用于存储一条或多条计算机指令;所述处理器用于执行所述一条或多条计算机指令以用于:执行本技术实施例提供的方法中的步骤。
14.本技术实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被处理器执行时能够实现本技术实施例提供的方法中的步骤。
15.本技术实施例提供的新闻热度计算方法中,获取到事件的新闻集合后,从中选择发布间隔以及发布时间持续性满足设定要求的多个新闻,并根据新闻对应的发布机构,确定新闻的热度权重。综合考虑新闻的发布间隔、发布时间持续性以及新闻的发布机构,可充分利用新闻的多维度信息,进而计算得到准确的新闻热度。
附图说明
16.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
17.图1为本技术一示例性实施例提供的新闻热度计算方法的流程示意图;
18.图2为本技术另一示例性实施例提供的新闻热度计算方法的流程示意图;
19.图3为本技术一示例性实施例提供的相似新闻的识别方法的流程示意图;
20.图4为本技术一示例性实施例提供的电子设备的结构示意图。
具体实施方式
21.为使本技术的目的、技术方案和优点更加清楚,下面将结合本技术具体实施例及相应的附图对本技术技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
22.对大量的新闻进行分析、筛选,得到热点新闻,并将热点新闻推荐给用户,可便于用户及时了解热点话题,提升新闻阅读效率。
23.现有的新闻热度计算方法通常依赖于用户对新闻的点击量、评论量等等。这种方式较为依赖用户行为,无法得到准确的新闻热度分析结果。
24.针对上述技术问题,在本技术一些实施例中,提供了一种解决方案,以下结合附图,详细说明本技术各实施例提供的技术方案。
25.图1为本技术一示例性实施例提供的新闻热度计算方法的流程示意图,如图1所示,该方法包括:
26.步骤101、获取事件对应的新闻集合。
27.步骤102、从所述新闻集合中,确定发布间隔以及发布时间持续性满足设定条件的多个新闻。
28.步骤103、根据所述多个新闻对应的发布机构,确定所述多个新闻各自的热度权重。
29.步骤104、根据所述多个新闻各自的热度权重、所述发布间隔以及所述发布时间持续性,计算所述事件对应的新闻热度。
30.其中,事件,指的是新闻报道的对象。当社会中发生新的事件时,会存在多个新闻机构对该事件进行报道。当该事件的重要性较高或者话题持续性较高,则该报道该事件的新闻的数量也较多。对事件的新闻热度进行分析,有利于识别热点话题,并进行热点话题的推荐。
31.其中,事件对应的新闻集合,包含了报道该事件的多篇新闻。在分析新闻热度之前,可基于新闻分类聚合的方式,对大量的新闻数据进行分析,得到不同事件对应的新闻集合。
32.计算新闻热度时,若单独考虑新闻的发布时间或者数量,则无法得到准确的热度计算结果。例如,某一事件的新闻数量多,但新闻之间的时间间隔较大,则可认为该新闻的热门程度较低。同样的,若在极短时间间隔内出现了某个事件的多篇新闻,但后续未出现其他新闻对该事件进行持续性报道,则可认为该新闻的热门程度较低。另外,若某个事件的新闻多来自一些权威性较低的新闻机构,则可认为该新闻的热门程度也较低。
33.为得到准确的热度计算结果,本实施例在计算新闻热度时,综合考虑新闻的发布间隔、发布时间持续性以及新闻的发布机构,以充分利用新闻的多维度信息。
34.其中,新闻的发布间隔,指的是相邻两个新闻的发布时间差,用于表示新闻的发布
频率;新闻的发布时间持续性,用于表示关于事件的新闻报道在时间维度上表现出的数量持续性。新闻的发布机构,指的是新闻的来源,例如门户网站、杂志、报纸等等。
35.通常,新闻的发布机构越权威,则对新闻的热门程度的贡献也越高。基于此,在本实施例中,可根据新闻对应的发布机构,确定新闻的热度权重,进而考虑发布机构对新闻热度的影响,可提升新闻热度计算结果的准确性。
36.在一些可选的实施例中,在计算新闻热度之前,可对大量的新闻进行分类聚合,得到新闻与事件的对应关系。即,以事件为维度,筛选出事件对应的新闻。以下将以任意事件为例,对筛选事件对应的新闻的可选实施方式进行示例性说明。
37.可选地,可采集新闻数据,该新闻数据可包括来自多个不同新闻发布机构的新闻。在对新闻数据中的新闻进行分类聚合时,可判断任意两个新闻是否用于报道相同的事件。
38.如图2所示,以传入的新闻数据中的第一新闻文本和第二新闻文本为例,可计算第一新闻文本和第二新闻文本之间的文本相似度;除此之外,可对第一新闻文本的新闻要素以及第二新闻文本的新闻要素进行重合度分析,得到新闻要素重合度;若该文本相似度以及该要素重合度满足设定条件,则将第一新闻文本和第二新闻文本划分到同一事件的新闻集合中。
39.可选地,计算第一新闻和第二新闻之间的文本相似度时,可确定第一新闻文本包含的第一标题和第一正文,以及第二新闻文本包含的第二标题和第二正文;根据第一标题和第二标题各自对应的文本,计算第一标题和第二标题之间的标题相似度;根据第一正文和第二正文各自对应的文本,计算第一正文和第二正文之间的正文相似度;对标题相似度和正文相似度进行融合,得到第一新闻文本和第二新闻文本的相似度。其中,计算标题相似度和正文相似度的可选实施方式,可参考后续实施例的记载,此处不赘述。
40.其中,新闻要素,是新闻的基本构成成分,常用的是新闻六要素,指的是:时间、地点、人物、事件的起因、经过、结果。在本实施例中,为分析新闻热度,可对新闻中的主要实体进行提取,该主要实体包括:时间、地点、人物(或组织机构等)等,如图2所示。
41.可选地,对第一新闻文本的新闻要素以及第二新闻文本的新闻要素进行重合度分析时,可分别从第一新闻文本以及第二新闻文本中提取时间要素、地点要素以及主体要素;计算第一新闻文本与第二新闻文本的时间要素的重合度、地点要素的重合度以及主体要素的重合度;将时间要素的重合度、地点要素的重合度以及主体要素的重合度的总和,作为新闻要素的重合度。其中,主体要素,包括新闻所描述的人、物、组织机构等等。
42.例如,计算新闻a以及新闻b时,新闻a的三要素为(时间1,地点1,人物1),新闻b的三要素为(时间1,地点1,人物2);即,新闻a的时间要素与新闻b的时间要素相同,且新闻a的主体要素与新闻b的主体要素相同,则可认为新闻要素的重合度为2/3。
43.其中,该文本相似度以及该要素重合度满足设定条件,可包括:文本相似度大于设定的第一相似度阈值,要素重合度大于设定的第二相似度阈值。其中,第一相似度阈值和第二相似度阈值可根据实际需求进行设置,例如,第一相似度阈值可以为80%或者90%,第二相似度阈值可以为2/3或者1,本实施例不做限制。
44.当对新闻数据中的任意两个新闻完成上述计算后,可将新闻数据中的新闻划分到不同事件的新闻集合中。例如,可将新闻a、新闻b划分到事件1的新闻集合中,可将新闻c、新闻d、新闻e、新闻f划分到事件2的新闻集合中。
45.在一些可选的实施例中,从新闻集合中,确定发布间隔以及发布时间持续性满足设定条件的多个新闻时,可从新闻集合中截取得到n条新闻,并结合n条新闻进行具体分析。
46.可选地,可首先按照时间先后顺序,对新闻集合中的新闻的发布时间进行排序,得到发布时间序列。
47.接下来,确定一滑动窗口,该滑动窗口的长度为时间跨度。为便于描述和区分,将该滑动窗口描述为第一滑动窗口。例如,第一滑动窗口的长度为1小时、2小时、24小时等等。
48.接下来,采用第一滑动窗口,在该发布时间序列上滑动,得到多个时间窗口。其中,多个时间窗口具有相同的时间跨度,每个时间窗口内包含一个或者多个新闻。从滑动得到的多个时间窗口中,可确定新闻数量满足设定数量要求的时间窗口,作为目标时间窗口。可选地,该设定数量要求,可以为:数量最多,或者数量大于某一数量阈值,本实施例不做限制。例如,在一些实施例中,从滑动得到的多个时间窗口中,确定新闻数量最多的时间窗口,作为目标时间窗口。
49.在一些实施例中,当滑动得到的时间窗口中,存在多个时间窗口具有相同的新闻数量时,可计算每个窗口中的新闻的平均时间间隔,并取平均时间间隔较小的时间窗口作为目标时间窗口,不再赘述。
50.确定目标时间窗口后,可从目标时间标窗口中,截取发布间隔满足设定间隔要求的多个新闻。可选地,该设定间隔要求,可以为:平均时间间隔最小,或者平均时间间隔小于某一时间阈值,本实施例不做限制。
51.可选地,可确定一滑动窗口,该滑动窗口的长度为设定的数量长度。为便于区分,该滑动窗口可称为第二滑动窗口。
52.接下来,可采用第二滑动窗口,在目标时间窗口中滑动,得到多个子窗口。其中,每个子窗口具有相同的新闻数量,但可能具有不同的时间间隔。例如,假设第二滑动窗口的窗口长度为m,目标时间窗口截取到n条新闻时,可利用第二滑动窗口在n条新闻上滑动,每次滑动时,可从n条新闻中选取m条新闻,m条新闻具有不同的发布时间。
53.接下来,可计算该多个子窗口各自包含的新闻的平均间隔时长,并根据该平均间隔时长,从该多个子窗口中确定目标子窗口。其中,该目标子窗口包含的新闻的平均间隔时间满足该设定间隔要求。例如,该目标子窗口中的新闻的平均间隔时间最小。
54.基于上述实施例,在计算事件对应的新闻热度时,可确定目标子窗口中的每个新闻相对于相邻的前一新闻的时间间隔。
55.接下来,将该时间间隔作为指定底数的指数,计算每个新闻的指数项,并根据每个新闻各自的热度权重对每个新闻的指数项进行加权计算,得到加权分数。获取加权分数后,可计算加权分数与第二滑动窗口的长度的比值,作为事件对应的新闻热度。其中,该指定底数可以任意的常数,例如2、3、4等等,本实施例不做限制。
56.在一些实施例中,该指定底数可以取e(约2.7182818284)。上述新闻热度h的计算过程可参考如下公式所示:
[0057][0058]
在公式1中,n表示目标时间窗口中的新闻的数量,m表示目标子窗口中的新闻集合,|m|表示第二滑动窗口的长度。i表示目标子窗口中的第i个新闻,α表示第i个新闻的热
度权重,通常,主流新闻网站发布的新闻具有较高的权重。interver
i
表示第i个新闻和前一个新闻的时间间隔,interver
i
=t
i

t
i
‑1,其中,t
i
表示第i个新闻的发布时间,i=2,3,

,m,即集合m中的第一条新闻不参与计算。
[0059]
以下将结合一个具体的例子对上述计算新闻热度的方式进行进一步示例性说明。
[0060]
假设,第二滑动窗口滑动得到的目标时间窗口中,包含5条新闻,a1,a2,a3,a4,a5,其发布时间分别为:10:00,10:06,10:07,10:09,10:30,其来源机构的权重分别为:1,2,3,4,5。假设,第二滑动窗口的长度为3,即|m|=3。将第二滑动窗口在目标时间窗口中滑动,计算每个滑动窗口内的新闻的时间间隔,并选择平均时间间隔最小的滑动窗口,可得m={a2,a3,a4},其中,a2,a3,a4这三条新闻平均时间间隔最小。则新闻热度为:
[0061][0062]
基于上述新闻热度计算方法,可综合考虑新闻的发布间隔、发布时间持续性以及新闻的发布机构,可充分利用新闻的多维度信息,进而计算得到准确的新闻热度。计算得到新闻热度后,可根据新闻热度对对新闻事件进行热度排序,或者,可向用户推荐新闻热度较高的新闻事件,本实施例不做限制。
[0063]
前述实施例记载了根据正文相似度以及标题相似度来计算第一新闻文本和第二新闻文本的相似度的实施方式,以下将对这一实施方式进行进一步详细介绍。
[0064]
新闻文本,指的是对事件进行报道或者评论的文本,新闻文本通常发布在杂志、报纸以及各网站上。当存在海量的新闻文本时,可对海量的新闻文本进行相似度识别,并可对相似的新闻文本进行归类或者去重等等。其中,对海量的新闻文本进行相似度识别时,可计算任意两个新闻文本的相似度。
[0065]
在本技术的各实施例中,为便于描述和区分,将待进行相似度识别的任意两个新闻文本,描述为第一新闻文本和第二新闻文本。
[0066]
新闻文本具有一定的数据特性,通常,新闻文本包括至少两个部分,即标题部分和正文部分。新闻的标题是对正文的概括性总结或者评价,因此,无论是简讯还是长篇新闻,报道相同内容时,二者的标题相似度通常较高。在本实施例中,为降低文本长度差异对相似度的影响,将新闻之间的相似度拆分为两个部分,即标题之间的相似度以及文本之间的相似度。
[0067]
本实施例中,为便于描述和区分,将第一新闻文本的标题和正文描述为第一标题和第一文本,将第二新闻文本的标题描述为第二标题和第二文本。
[0068]
基于第一标题和第二标题各自对应的文本,可计算第一标题和第二标题之间相似度,基于第一正文和第二正文各自对应的文本,可计算第一正文和第二正文之间相似度。基于文本计算相似度时,可计算文本的字面相似度,此部分将在后续的实施例中进行详细介绍,此处不赘述。为便于描述和区分,将标题之间的相似度描述为标题相似度,将正文之间的相似度描述为正文相似度。
[0069]
在得到第一文本和正文相似度之后,将标题相似度和正文相似度进行融合处理,得到第一新闻文本和第二新闻文本的相似度。其中,将标题相似度和正文相似度进行融合处理时,可采用算术计算的方式将标题相似度和文本相似度进行融合。例如,可计算标题相似度和正文相似度的平均值,作为两个新闻文本之间的相似度;例如,可计算标题相似度和
正文相似度的乘积,作为两个新闻文本之间的相似度;又例如,可对标题相似度和正文相似度进行求和,作为两个新闻文本之间的相似度。
[0070]
在一些示例性的实施例中,考虑到标题和正文对新闻内容的贡献程度,可为标题和正文分别设预设权重系数,并按照预设的权重系数,对标题相似度和正文相似度进行加权求和,得到第一新闻文本和第二新闻文本的相似度。假设,标题的权重系数为w1,正文的权重系数为w2,标题相似度为s1、正文相似度为s2,则第一新闻文本和第二新闻文本的相似度s=w1*s1+w2*s2,其中,w1与w2的取值可以为经验值,本实施例不做限制。
[0071]
本实施例中,在计算新闻的相似度时,将新闻中的标题与正文进行分开处理,根据标题对应的文本,计算标题的相似度,并根据正文对应的文本,计算文本的相似度,可在一定程度上降低文本长度差异对相似度的影响,有利于计算得到更加准确的相似度。同时,对标题的相似度和正文的相似度进行融合得到新闻的相似度,可快速得到新闻文本的相似度计算结果,降低识别相似新闻所需的时间成本以及计算成本,提升相似新闻的识别效率。
[0072]
在上述实施例中,记载了将新闻的标题和正文进行分开处理的实施方式,以下将分别对计算标题的相似度以及正文的相似度的可选实施方式进行进一步说明。
[0073]
可选地,如图3所示,将第一新闻和第二新闻作为输入数据后,可首先检测输入的文本是否为标题,若为标题,则进入标题处理分支,即执行实施例一;若输入的文本不为标题,则进入正文处理分支,即执行实施例二。
[0074]
实施例一:根据第一标题和第二标题各自对应的文本,计算第一标题和第二标题之间的标题相似度。
[0075]
可选地,可对第一标题以及第二标题进行关键词提取操作,得到第一标题包含的关键词的集合以及第二标题包含的关键词的集合。其中,第一标题包含的关键词的集合,可以描述为第一标题词条集合;第二标题包含的关键词的集合,可以描述为第二标题词条集合。
[0076]
其中,关键词提取操作,可包括:提取实体对应的词条、词性为名词的词条和/或词性为动词的词条的操作。即,提取第一标题中的与实体对应的词条、词性为名词的词条和/或词性为动词的词条,得到第一标题词条集合;提取第二标题中的与实体对应的词条、词性为名词的词条和/或词性为动词的词条,得到第二标题词条集合。
[0077]
其中,实体(entity)是指文本语料中出现的自然界真实存在的事物。实体是具体的事物,可以是一个事物也可以是多个事物的集合”,例如人名、地点、组织结构等实体。
[0078]
接下来,可计算第一标题词条集合以及第二标题词条集合中的相同标题词条的数量;其中,相同标题词条,指的是既位于第一标题词条集合,也位于第二标题词条集合的词条。当标题中的一个相同标题词条重复出现多次时,只标记该相同标题词条的数量为1,而不考虑其重复出现的频次。
[0079]
接下来,可根据该相同标题词条的数量与第一标题词条集合和第二标题词条集合包含的词条总数量的比值,确定标题相似度。上述计算过程可参考如下公式的记载:
[0080][0081]
其中,a表示第一标题词条集合,|a|表示集合a的模长,即集合a中的元素的个数;b表示第二标题词条集合,|b|表示集合b的模长,即集合b中的元素的个数。i表示集合a中的
第i个词条。基于上述公式可知,集合a中的第i个词条也属于集合b时,f(i,b)=1,即第i个词条为a集合与b集合的相同标题词。集合a中的第i个词条不属于集合b时,f(i,b)=0,即第i个词条为a集合与b集合的不同标题词。其中,分子上的系数2,用于确保相似度计算结果s2的最大值为1。基于公式2,可计算得到两个新闻的标题相似度,即标题相似度。
[0082]
实施例二:根据第一正文和第二正文各自对应的文本,计算第一正文和第二正文之间的正文相似度。
[0083]
可选地,可对第一正文以及第二正文进行分词处理,得到第一正文和第二正文各自对应的词条集合。其中,第一正文对应的词条集合,可描述为第一正文词条集合,第二正文对应的词条,可描述为第二正文词条集合。
[0084]
其中,分词处理,指的是对句子、段落进行切分,得到句子包含的词条、单字等等。在一些实施例中,为节省数据空间并提升后续的处理效率,可对分词处理得到的结果进行停用词去除操作,如图3所示。其中,停用词是指不具有实际意义的功能词,例如“的”、“在”、“是”等等。
[0085]
得到第一正文词条集合以及第二正文词条集合之后,可获取第一正文词条集合与第二正文词条集合中的相同文正词条以及相异正文词条。其中,可确定第一正文词条集合以及第二正文词条集合的交集,得到相同正文词条;获取相同正文词条后,可将第一正文词条集合以及所述第二正文词条集合中,除相同正文词条之外的其他词条,作为相异正文词条。
[0086]
针对相同正文词条而言,可计算相同正文词条在第一正文词条集合中的出现频次,得到第一出现频次,并计算相同正文词条在第二正文词条集合中的出现频次,得到第二出现频次。当相同正文词条包含多个词条时,可累加该多个词条在第一正文词条集合中的出现频次,得到第一出现频次,并可累加该多个词条在第二正文词条集合中的出现频次,得到第二出现频次。
[0087]
针对相异正文词条而言,可计算相异正文词条在第一正文词条集合中的出现频次,得到第三出现频次,并可计算相异正文词条在第二正文词条集合中的出现频次,得到第四出现频次。当相异正文词条包含多个词条时,可累加该多个词条在第一正文词条集合中的出现频次,得到第三出现频次,并可累加该多个词条在第二正文词条集合中的出现频次,得到第四出现频次。
[0088]
通常,若两篇新闻报道相同的事情,那么大概率两篇新闻文本的内容具有较高的相似性。若两篇相似新闻的长度不同,则导致计算出来的相似度较小,不符合实际情况。
[0089]
为降低文本长度对相似度的影响,在一些示例性的实施例中,可在计算正文相似度的过程中,进一步增加与文本长度关联的相似度惩罚项。其中,相似度惩罚项可根据第一正文和第二正文各自的文本长度进行计算。
[0090]
在一些可选的实施例中,计算相似度惩罚项时,可计算第一正文和第二正文之间的文本长度差的绝对值;若该文本长度差的绝对值大于或者等于设定阈值,则可将该文本长度差的绝对值与设定系数α的乘积作为相似度惩罚项。若该文本长度差小于该设定阈值,则可设置较小的固定值作为相似度惩罚项,该固定值可以为0。上述相似度惩罚项的计算过程可以参考以下公式所示:
[0091][0092]
公式3中,la表示第一正文的文本长度,lb表示第二正文的文本长度,γ为预设阈值。其中,la可以采用第一正文词条集合包含的元素数量来表示,lb可采用第二正文词条包含的元素的数量来表示。其中,α表示惩罚项的系数,α和γ的值系数为经验值;其中,α的值与文本长度差的绝对值成正相关关系,文本长度的差距越大,则α的取值越大,从而可提升文本长度对相似度计算结果的影响。
[0093]
其中,当数据库中海量的新闻文本中,文本长度最长的新闻文本与文本长度最短的新闻文本之间的文本长度差为上百字时,γ的值可取百为单位;当文本长度最长的新闻文本与文本长度最短的新闻文本之间的文本长度差为上千字时,γ的值可取千为单位。例如,数据库中最短的新闻只有200字,最长的新闻有2000字,那么γ可取千为单位。
[0094]
其中,α可根据实际的文本长度差确定,若文本长度差较大,则可为α取较大的值。若文本长度差较小,则可为α取较小的值,以尽可能降低文本长度差异对相似度计算造成的影响。例如,α的值可取0.01、0.05、0.1等,不再赘述。
[0095]
接下来,可根据第一出现频次、第二出现频次、第三出现频次、第四出现频次以及相似度惩罚项,计算正文相似度。
[0096]
在一些示例性的实施例中,可计算第一出现频次以及第二出现频次中的较小频次;对第一出现频次、第二出现频次、第三出现频次以及第四出现频次进行求和,得到总频次。
[0097]
其中,相似度惩罚项可添加在总频次上,即:在总频次上增加该相似度惩罚项,以更新该总频次。根据该较小频次与更新后的总频次的比值,可得到正文相似度。
[0098]
上述计算过程可参考以下公式的记载:
[0099][0100]
公式4中,n表示相同正文词条的集合,i表示第i个相同正文词条;m表示相异正文词条的集合,j表示第j个相异正文词条;a表示第一正文词条集合,b表示第二正文词条集合。min()表示取最小值的函数,count()表示统计词条频次的函数。f表示相似度惩罚项。其中,分子上的系数2,用于确保相似度计算结果s2的最大值为1,min()用于降低长文本中频繁出现的某些词条对相似度的影响。
[0101]
基于上述各实施方式,在计算新闻的相似度时,将新闻中的标题与正文进行分开处理,可在一定程度上降低文本长度差异对相似度的影响,有利于计算得到更加准确的相似度。除此之外,在进行相似度计算时,进一步添加与文本长度相关的惩罚项,当待识别的两篇新闻的长度差异较大,可进一步降低文本长度对相似度计算的影响,提升字面相似度的计算准确性。
[0102]
需要说明的是,上述实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤201至步骤204的执行主体可以为设备a;又比如,步骤201和202的执行主体可以为设备a,步骤203的执行主体可以为设备b;等等。
[0103]
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行
执行,操作的序号如201、202等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
[0104]
图4是本技术一示例性实施例提供的电子设备的结构示意图,该电子设备适用于执行前述实施例提供的新闻热度计算方法。如图4所示,该电子设备包括:存储器401、处理器402以及通信组件403。
[0105]
存储器401,用于存储计算机程序,并可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
[0106]
其中,存储器401可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
[0107]
处理器402,与存储器401耦合,用于执行存储器401中的计算机程序,以用于:通过通信组件403获取事件对应的新闻集合;从所述新闻集合中,确定发布间隔以及发布时间持续性满足设定条件的多个新闻;根据所述多个新闻对应的发布机构,确定所述多个新闻各自的热度权重;根据所述多个新闻各自的热度权重、所述发布间隔以及所述发布时间持续性,计算所述事件对应的新闻热度。
[0108]
进一步可选地,处理器402在从所述新闻集合中,确定发布间隔以及发布时间持续性满足设定条件的多个新闻时,具体用于:按照时间先后顺序,对所述新闻集合中的新闻的发布时间进行排序,得到发布时间序列;采用第一滑动窗口,在所述发布时间序列上滑动,得到多个时间窗口;所述第一滑动窗口的窗口长度为设定的时间跨度;从所述多个时间窗口中,确定新闻数量满足设定数量要求的时间窗口,作为目标时间窗口;从所述目标时间标窗口中,截取发布间隔满足设定间隔要求的所述多个新闻。
[0109]
进一步可选地,处理器402在从所述目标时间窗口中,截取发布间隔满足设定间隔要求的所述多个新闻时,具体用于:采用第二滑动窗口,在所述目标时间窗口中滑动,得到多个子窗口;所述第二滑动窗口的长度为设定的数量长度;计算所述多个子窗口各自包含的新闻的平均间隔时长;根据所述平均间隔时长,从所述多个子窗口中确定目标子窗口,所述目标子窗口包含的新闻的平均间隔时间满足所述设定间隔要求。
[0110]
进一步可选地,处理器402在根据所述多个新闻各自的热度权重以及所述多个新闻之间的时间间隔,计算所述事件对应的新闻热度时,具体用于:确定所述目标子窗口中的每个新闻相对于相邻的前一新闻的时间间隔;将所述时间间隔作为指定底数的指数,计算每个新闻的指数项;根据每个新闻各自的热度权重对每个新闻的指数项进行加权计算,得到加权分数;计算所述加权分数与所述第二滑动窗口的长度的比值,作为所述事件对应的新闻热度。
[0111]
进一步可选地,处理器402在获取事件对应的新闻集合时,具体用于:采集新闻数据;针对所述新闻数据中的第一新闻文本和第二新闻文本,计算所述第一新闻文本和所述第二新闻文本之间的文本相似度;对所述第一新闻文本的新闻要素以及所述第二新闻文本
的新闻要素进行重合度分析,得到新闻要素重合度;若所述文本相似度以及所述要素重合度满足设定条件,则将所述第一新闻文本和所述第二新闻文本划分到同一事件的新闻集合中。
[0112]
进一步可选地,处理器402在计算所述第一新闻和所述第二新闻之间的文本相似度时,具体用于:确定所述第一新闻文本包含的第一标题和第一正文,以及所述第二新闻文本包含的第二标题和第二正文;根据所述第一标题和所述第二标题各自对应的文本,计算所述第一标题和所述第二标题之间的标题相似度;根据所述第一正文和所述第二正文各自对应的文本,计算所述第一正文和所述第二正文之间的正文相似度;对所述标题相似度和所述正文相似度进行融合,得到所述第一新闻文本和所述第二新闻文本的相似度。
[0113]
进一步可选地,处理器402在根据所述第一正文和所述第二正文各自对应的文本,计算所述第一正文和所述第二正文之间的正文相似度时,具体用于:对所述第一正文以及所述第二正文进行分词处理,得到第一正文词条集合以及第二正文词条集合;确定所述第一正文词条集合以及所述第二正文词条集合的交集,得到相同正文词条;确定所述第一正文词条集合以及所述第二正文词条集合中,除所述相同正文词条之外的其他词条,作为相异正文词条;分别计算所述相同正文词条在所述第一正文词条集合以及所述第二正文词条集合中的出现频次,得到第一出现频次和第二出现频次;分别计算所述相异正文词条在所述第一正文词条集合以及所述第二正文词条集合中的出现频次,得到第三出现频次和第四出现频次;根据所述第一正文和所述第二正文各自的文本长度,计算相似度惩罚项;根据所述第一出现频次、所述第二出现频次、所述第三出现频次、所述第四出现频次以及所述相似度惩罚项,计算所述正文相似度。
[0114]
进一步可选地,处理器402在对所述第一新闻文本的新闻要素以及所述第二新闻文本的新闻要素进行重合度分析,得到新闻要素重合度时,具体用于:分别从所述第一新闻文本以及所述第二新闻文本中提取时间要素、地点要素以及主体要素;计算所述第一新闻文本与所述第二新闻文本的时间要素的重合度、地点要素的重合度以及主体要素的重合度;将所述时间要素的重合度、地点要素的重合度以及主体要素的重合度的总和,作为所述新闻要素的重合度。
[0115]
本技术实施例还提供一种电子设备,包括:存储器和处理器;所述存储器用于存储一条或多条计算机指令;所述处理器用于执行所述一条或多条计算机指令以用于:执行本技术实施例提供的方法中的步骤。
[0116]
本技术实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被处理器执行时能够实现本技术实施例提供的方法中的步骤。
[0117]
本技术实施例提供的新闻热度计算方法中,获取到事件的新闻集合后,从中选择发布间隔以及发布时间持续性满足设定要求的多个新闻,并根据新闻对应的发布机构,确定新闻的热度权重。综合考虑新闻的发布间隔、发布时间持续性以及新闻的发布机构,可充分利用新闻的多维度信息,进而计算得到准确的新闻热度。
[0118]
进一步,如图4所示,该电子设备还包括:显示组件404、电源组件405、音频组件406等其它组件。图4中仅示意性给出部分组件,并不意味着电子设备只包括图4所示组件。
[0119]
其中,通信组件403被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如wifi,2g、3g、4g或
5g,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件可基于近场通信(nfc)技术、射频识别(rfid)技术、红外数据协会(irda)技术、超宽带(uwb)技术、蓝牙(bt)技术和其他技术来实现。
[0120]
其中,显示组件404包括屏幕,其屏幕可以包括液晶显示组件(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
[0121]
其中,电源组件405,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
[0122]
其中,音频组件406,可被配置为输出和/或输入音频信号。例如,音频组件包括一个麦克风(mic),当音频组件所在设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中,音频组件还包括一个扬声器,用于输出音频信号。
[0123]
本实施例中,获取到事件的新闻集合后,从中选择发布间隔以及发布时间持续性满足设定要求的多个新闻,并根据新闻对应的发布机构,确定新闻的热度权重。综合考虑新闻的发布间隔、发布时间持续性以及新闻的发布机构,可充分利用新闻的多维度信息,进而计算得到准确的新闻热度。
[0124]
相应地,本技术实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被执行时能够实现上述方法实施例中可由电子设备执行的各步骤。
[0125]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd

rom、光学存储器等)上实施的计算机程序产品的形式。
[0126]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0127]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0128]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或
其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0129]
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0130]
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0131]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd

rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0132]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0133]
以上所述仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1