一种主题聚合方法、装置及电子设备与流程

文档序号:30789303发布日期:2022-07-16 09:24阅读:135来源:国知局
一种主题聚合方法、装置及电子设备与流程

1.本文件涉及计算机技术领域,尤其涉及一种主题聚合方法、装置及电子设备。


背景技术:

2.随着互联网技术的快速发展,企业用户和个人用户都可以在各大论坛网站或app上发表文章。然而,随着这些文章作者发表的文章的数量越来越多,读者用户则很难快速从同一作者发表的众多较为零散的文章中找到自己想要看的文章。在这种情况下,为方便读者查阅,一些作者则会花费一些时间主动整理其发表过的文章,但大多数作者由于一些主客观原因,可能不会花费额外的时间去整理其发表过的文章。
3.因此,如何提供一种方法以自动整理同一作者的零散文章,以提供给读者更好的阅读体验,仍然需要提供进一步的解决方案。


技术实现要素:

4.本说明书实施例的目的是提供一种文章聚合方法、装置及电子设备,以实现对同一作者的零散文章的自动整理,提供给读者更好的阅读体验。
5.为解决上述技术问题,本说明书实施例是这样实现的:
6.第一方面,提出了一种文章聚合方法,包括:
7.获取待聚合的同一作者的多篇文章的标题;
8.根据所述多篇文章中各文章的标题,生成所述多篇文章中各文章的候选主题,其中,目标文章的候选主题的长度小于或等于所述目标文章的标题;所述目标文章为所述多篇文章中的任意一篇文章;
9.基于预设的主题粒度筛选条件,从所述多篇文章中各文章的候选主题中确定所述多篇文章中各文章的聚合主题;所述预设的主题粒度筛选条件包括从候选主题中筛选出主题长度最长的主题筛选条件;
10.基于所述多篇文章的聚合主题,对所述多篇文章进行聚合。
11.第二方面,提出了一种文章聚合装置,包括:
12.标题获取模块,获取待聚合的同一作者的多篇文章的标题;
13.候选主题生成模块,根据所述多篇文章中各文章的标题,生成所述多篇文章中各文章的候选主题,其中,目标文章的候选主题的长度小于或等于所述目标文章的标题;所述目标文章为所述多篇文章中的任意一篇文章;
14.主题筛选模块,基于预设的主题粒度筛选条件,从所述多篇文章中各文章的候选主题中确定所述多篇文章中各文章的聚合主题;所述预设的主题粒度筛选条件包括从候选主题中筛选出主题长度最长的主题筛选条件;
15.文章聚合模块,基于所述多篇文章的聚合主题,对所述多篇文章进行聚合。
16.第三方面,提出了一种电子设备,包括:
17.处理器;以及
18.被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
19.获取待聚合的同一作者的多篇文章的标题;
20.根据所述多篇文章中各文章的标题,生成所述多篇文章中各文章的候选主题,其中,目标文章的候选主题的长度小于或等于所述目标文章的标题;所述目标文章为所述多篇文章中的任意一篇文章;
21.基于预设的主题粒度筛选条件,从所述多篇文章中各文章的候选主题中确定所述多篇文章中各文章的聚合主题;所述预设的主题粒度筛选条件包括从候选主题中筛选出主题长度最长的主题筛选条件;
22.基于所述多篇文章的聚合主题,对所述多篇文章进行聚合。
23.第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
24.获取待聚合的同一作者的多篇文章的标题;
25.根据所述多篇文章中各文章的标题,生成所述多篇文章中各文章的候选主题,其中,目标文章的候选主题的长度小于或等于所述目标文章的标题;所述目标文章为所述多篇文章中的任意一篇文章;
26.基于预设的主题粒度筛选条件,从所述多篇文章中各文章的候选主题中确定所述多篇文章中各文章的聚合主题;所述预设的主题粒度筛选条件包括从候选主题中筛选出主题长度最长的主题筛选条件;
27.基于所述多篇文章的聚合主题,对所述多篇文章进行聚合。
28.由以上本说明书实施例提供的技术方案可见,本说明书实施例方案至少具备如下一种技术效果:
29.本说明书提供的一种或多个实施例,能够分别确定出待聚合的同一作者的多篇文章的候选主题,所生成的候选主题的长度均不大于原文章主题的长度,再根据预设的主题粒度筛选条件,该预设的主题粒度筛选条件包括从候选主题中筛选出主题长度最长的主题筛选条件,依次从多篇文章中各文章的候选主题中确定多篇文章中各文章的聚合主题,即可以从多篇文章中各文章的候选主题中确定主题长度最长的候选主题,作为多篇文章中各文章的聚合主题,最后依据各文章的聚合主题,对多篇文章进行聚合。能够将具备同一聚合主题的文章聚合到一个合集中,实现对同一作者的多篇文章的聚合处理,从而方便读者查阅同一聚合主题的文章,提高读者的阅读体验。
附图说明
30.为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
31.图1是本说明书的一个实施例提供的一种文章聚合方法的实施流程示意图。
32.图2是根据本说明书的一个实施例提供的文章聚合方法应用于一种实际场景中的
流程示意图。
33.图3是本说明书的一个实施例提供的一种文章聚合装置的结构示意图。
34.图4是本说明书的一个实施例提供的一种电子设备的结构示意图。
具体实施方式
35.为了使得本文件的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本文件的示例实施例。显然,所描述的实施例仅仅是本文件的一部分实施例,而不是本文件的全部实施例,应理解,本文件不受这里描述的示例实施例的限制。
36.下面将参照附图更详细地描述本文件的实施例。虽然附图中显示了本文件的某些实施例,然而应当理解的是,本文件可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本文件。应当理解的是,本文件的附图及实施例仅用于示例性作用,并非用于限制本文件的保护范围。
37.应当理解,本文件的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本文件的范围在此方面不受限制。
38.本文件使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
39.需要注意,本文件中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
40.需要注意,本文件中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
41.本文件实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
42.如背景技术所述,随着一些作者在互联网上发表的文章的数量越来越多,如果这些作者没有对同一主题的文章创建合集,则需要读者用户自行从一个作者发表的零散的多篇文章中查阅其想要看的某一主题的文章。而如果作者本人去为同一主题的文章创建合集,则需要耗费作者本人大量的业余时间。此外,不同作者发表的文章通常在内容和风格上有较大差异,往往很难从不同作者发表的文章中提取出能够用于聚合文章的通用特征。即便能够提取用于聚合不同风格作者的文章的通用特征,在有新作者发表文章后,之前提取的通用特征也未必能用于聚合新作者发表的文章。
43.针对此,本说明书一个或多个实施例提供一种文章聚合方法,以实现对同一作者的零散文章的自动整理,提供给读者更好的阅读体验。具体地,能够分别确定出待聚合的同一作者的多篇文章的候选主题,所生成的候选主题的长度均不大于原文章主题的长度,再根据预设的主题粒度筛选条件,该预设的主题粒度筛选条件包括从候选主题中筛选出主题长度最长的主题筛选条件,依次从多篇文章中各文章的候选主题中确定多篇文章中各文章的聚合主题,即可以从多篇文章中各文章的候选主题中确定主题长度最长的候选主题,作为多篇文章中各文章的聚合主题,最后依据各文章的聚合主题,对多篇文章进行聚合。能够
将具备同一聚合主题的文章聚合到一个合集中,实现对同一作者的多篇文章的聚合处理,从而方便读者查阅同一聚合主题的文章,提高读者的阅读体验。
44.应理解,本说明书实施例提供的文章聚合方法的执行主体,可以但不限于终端设备、服务器、电脑等能够被配置为执行本说明书实施例提供的该方法用户终端中的至少一种。
45.为便于描述,下文以该方法的执行主体为能够执行该方法终端设备为例,对该方法的实施方式进行介绍。可以理解,该方法的执行主体为终端设备只是一种示例性的说明,并不应理解为对该方法的限定。
46.图1是本说明书的一个实施例提供的一种文章聚合方法的实施流程示意图。图1的方法可包括:
47.s110,获取待聚合的同一作者的多篇文章的标题。
48.应理解,虽然不同作者发表的文章在内容和风格上有较大差异,但同一作者发表的文章通常在内容和风格上会有很多共同点。以文章标题为例,同一作者发表的文章在具备同一类主题的文章标题上通常会有一段相似的部分。本说明书实施例基于这一点,可获取待聚合的同一作者的多篇文章的标题,对同一作者的多篇文章的标题进行切割处理,以确定出多篇文章的标题中满足一定条件的相同部分,作为聚合主题,再基于聚合主题对同一作者的多篇文章进行聚合处理。
49.s120,根据多篇文章中各文章的标题,生成多篇文章中各文章的候选主题,其中,目标文章的候选主题的长度小于或等于目标文章的标题;目标文章为多篇文章中的任意一篇文章。
50.应理解,为避免多篇文章的聚合过程中文章主题中的一些字符的干扰,本说明书实施例,可在生成多篇文章中各文章的候选主题之前,对多篇文章中各文章的标题进行预处理。具体地,根据多篇文章中各文章的标题,生成多篇文章中各文章的候选主题,包括:
51.对多篇文章中各文章的标题进行预处理,得到预处理后的多篇文章的标题;
52.根据预处理后的多篇文章的标题,生成多篇文章中各文章的候选主题;
53.其中,预处理包括下述至少一种操作:
54.将多篇文章中各文章的标题中的大写字母转换为小写字母;
55.将多篇文章中各文章的标题中的括号去除;
56.将多篇文章中各文章的标题中与作者名称相同的前缀去除。
57.其中,各文章的标题中与作者名称相同的前缀的长度应大于或等于2。
58.作为一种示例,将多篇文章中各文章的标题中的括号去除,可将一篇文章的标题为“【小王】植物大战僵尸新版困难未来世界”,存在“【”和“】”两个括号字符,去除这两个括号字符后该文章的标题变为“小王植物大战僵尸新版困难未来世界”。
59.作为一种示例,将多篇文章中各文章的标题中与作者名称相同的前缀去除,作者名称为“小王游戏解说”发表的一篇文章的标题为“小王植物大战僵尸新版困难未来世界”,由于文章的标题“小王植物大战僵尸新版困难未来世界”中的前缀“小王”与作者名称有相同的部分,该相同部分的文本长度为2,将其去除后该文章的标题变为“植物大战僵尸新版困难未来世界”。
60.一般来说,同一作者发表的多篇文章的标题往往会有一段相同的部分,该相同的
部分通常位于文章标题的开头至某些特殊的符号位置(即下文所述的预设的切割字符)处,本说明书实施例基于这一点,可对文章的标题进行切割,得到文章的候选主题。可选地,根据多篇文章中各文章的标题,生成多篇文章中各文章的候选主题,包括:
61.基于预设的切割字符,确定多篇文章中各文章的标题的切割位置;
62.基于多篇文章中各文章的标题的切割位置,生成多篇文章中各文章的候选主题。
63.其中,预设的切割字符包括标点符号、阿拉伯数字、中文数字、以及一些表示进程的中文文字,比如“上”、“中”、“下”、“结局”等。
64.作为一种示例,一篇文章的标题为“植物大战僵尸2征程:前奏01节,xxx”,该文章的标题中用于定位切割位置的符号可包括:“2”、“:”、“01”和“,”。基于这些定位切割位置的符号可确定该文章的标题的切割位置为“2”之前、“:”之前、“01”之前和“,”之前。
65.可选地,基于多篇文章中各文章的标题的切割位置,生成多篇文章中各文章的候选主题,包括:
66.基于多篇文章中各文章的标题的第一个字至多篇文章中各文章的标题的切割位置处的字组成的主题,生成多篇文章中各文章的候选主题。
67.作为一种示例,上述示例中文章的标题为“植物大战僵尸2征程:前奏01节,xxx”,确定的文章的标题的切割位置为“2”之前、“:”之前、“01”之前和“,”之前。基于该文章标题的第一个字至多篇文章中各文章的标题的切割位置处的字组成的主题,生成的该文章的候选主题为:“植物大战僵尸”、“植物大战僵尸2征程”和“植物大战僵尸2征程:前奏”。
68.s130,基于预设的主题粒度筛选条件,从多篇文章中各文章的候选主题中确定多篇文章中各文章的聚合主题。
69.其中,预设的主题粒度筛选条件包括从候选主题中筛选出主题长度最长的主题筛选条件。即可以从多篇文章中各文章的候选主题中确定主题长度最长的候选主题,作为多篇文章中各文章的聚合主题。
70.可选地,基于预设的主题粒度筛选条件,从多篇文章中各文章的候选主题中确定多篇文章中各文章的聚合主题,包括:
71.确定多篇文章中各文章的候选主题的频率;
72.基于多篇文章中各文章的标题的切割位置对应的频率阈值、多篇文章中各文章的候选主题的频率,对多篇文章中各文章的候选主题进行筛选,得到筛选后的多篇文章中各文章的候选主题;
73.从筛选后的多篇文章中各文章的候选主题中选择长度满足基于预设的主题粒度筛选条件的候选主题,作为多篇文章中各文章的聚合主题,其中,预设的主题粒度筛选条件包括主题长度最长的筛选条件。
74.例如,某个作者的四篇文章的标题分别为:“植物大战僵尸2征程:前奏01节,xxx”、“植物大战僵尸2征程:前奏02节,yyy”、“植物大战僵尸2梦幻版:主线01节,zzz”、“植物大战僵尸2梦幻版:主线02节,kkk”。“植物大战僵尸2征程:前奏01节,xxx”的候选主题为“植物大战僵尸”、“植物大战僵尸2征程”、“植物大战僵尸2征程:前奏”;“植物大战僵尸2征程:前奏02节,yyy”的候选主题为“植物大战僵尸”、“植物大战僵尸2征程”、“植物大战僵尸2征程:前奏”;“植物大战僵尸2梦幻版:主线01节,zzz”的候选主题为“植物大战僵尸”、“植物大战僵尸2梦幻版”、“植物大战僵尸2梦幻版:主线”;“植物大战僵尸2梦幻版:主线02节,kkk”的候
选主题为“植物大战僵尸”、“植物大战僵尸2梦幻版”、“植物大战僵尸2梦幻版:主线”。
75.其中,候选主题“植物大战僵尸”的频率为4,候选主题“植物大战僵尸2征程”的频率为2,候选主题“植物大战僵尸2征程:前奏”的频率为2,候选主题“植物大战僵尸2梦幻版”的频率为2,候选主题“植物大战僵尸2梦幻版:主线”的频率为2。
76.根据候选主题的频率统计结果,去除频率小于切割位置对应的频率阈值的候选主题。切割位置对应的频率阈值根据用于定位切割位置的符号的不同而不同,根据历史经验值,可设置“:”、“上”、“中”、“下”、“结局”符号的阈值为2,其它符号的阈值为5。在上述例子中,“植物大战僵尸2征程”候选主题用于定位切割位置的符号为冒号,该候选主题出现的频率为2,不小于冒号所对应的最小阈值2,因此不会被去除。
77.作为一种示例,在基于多篇文章中各文章的标题的切割位置对应的频率阈值、多篇文章中各文章的候选主题的频率,对多篇文章中各文章的候选主题进行筛选,得到筛选后的多篇文章中各文章的候选主题之后,可从筛选后的多篇文章中各文章的候选主题中选择长度最长的候选主题,作为多篇文章中各文章的聚合主题,该长度最长的候选主题由于粒度更细,因此基于该长度最长的候选主题聚合得到的文章合集的粒度也更细,聚合效果更好。
78.可选地,为了提高聚合效果,可预先将电影名、综艺名、游戏名等预先能确定的主题的词加入到预设的词典中,如果某个候选主题在该预设的词典中,则将该候选主题保留下来,即在候选主题的筛选条件中添加预设的词典,将在该预设的词典中的候选主题保留下来。具体地,基于多篇文章中各文章的标题的切割位置对应的频率阈值、多篇文章中各文章的候选主题的频率,对多篇文章中各文章的候选主题进行筛选,得到筛选后的所述多篇文章中各文章的候选主题,包括:
79.基于预设的词典、多篇文章中各文章的标题的切割位置对应的频率阈值、以及多篇文章中各文章的候选主题的频率,对多篇文章中各文章的候选主题进行筛选,得到筛选后的多篇文章中各文章的候选主题。
80.例如,候选主题“植物大战僵尸”是一个游戏名,如果预设的词典中包含该候选主题,则可将该候选主题保留下来,再基于预设的主题长度,将小于该预设的主题长度的候选主题去除,最后基于多篇文章中各文章的标题的切割位置对应的频率阈值、以及多篇文章中各文章的候选主题的频率,将频率小于多篇文章中各文章的标题的切割位置对应的频率阈值的候选主题去除,得到筛选后的多篇文章中各文章的候选主题。
81.作为一种示例,在基于预设的词典、多篇文章中各文章的标题的切割位置对应的频率阈值、以及多篇文章中各文章的候选主题的频率,对多篇文章中各文章的候选主题进行筛选,得到筛选后的多篇文章中各文章的候选主题之后,可从筛选后的多篇文章中各文章的候选主题中选择长度最长的候选主题,作为多篇文章中各文章的聚合主题,该长度最长的候选主题由于粒度更细,因此基于该长度最长的候选主题聚合得到的文章合集的粒度也更细,聚合效果更好。
82.可选地,为了避免聚合粒度过小,导致出现的合集较多,而合集中文章较少,造成得到的文章合集过于零散,本说明书实施例还可对主题长度进行筛选,即在候选主题的筛选条件中添加预设的主题长度,将满足该预设的主题长度的候选主题保留下来。具体地,基于预设的词典、多篇文章中各文章的标题的切割位置对应的频率阈值、以及多篇文章中各
文章的候选主题的频率,对多篇文章中各文章的候选主题进行筛选,得到筛选后的多篇文章中各文章的候选主题,包括:
83.基于预设的词典、预设的主题长度、多篇文章中各文章的标题的切割位置对应的频率阈值、以及多篇文章中各文章的候选主题的频率,对多篇文章中各文章的候选主题进行筛选,得到筛选后的多篇文章中各文章的候选主题。
84.作为一种示例,可保留主题长度大于10,并且出现频率大于2的候选主题。比如上述文章标题为“植物大战僵尸2征程:前奏01节,xxx”的候选主题包括:“植物大战僵尸”、“植物大战僵尸2征程”和“植物大战僵尸2征程:前奏”,其中,候选主题“植物大战僵尸”虽然在预设的词典里,但其长度小于10,候选主题“植物大战僵尸2征程”的长度为9也小于10,而候选主题“植物大战僵尸2征程:前奏”的长度为12,并且出现频率大于2,因此,可保留候选主题“植物大战僵尸2征程:前奏”。
85.作为一种示例,上述候选主题的筛选过程中可先基于多篇文章中各文章的标题的切割位置对应的频率阈值、以及多篇文章中各文章的候选主题的频率,对候选主题进行第一次筛选,将多篇文章中各文章的候选主题的频率小于其标题的切割位置对应的频率阈值的候选主题去除,再从剩下的候选主题中筛选出在预设的词典或满足预设的主题长度的候选主题,最后从在预设的词典或满足预设的主题长度的候选主题中筛选出长度最长的候选主题,作为多篇文章中各文章的聚合主题。
86.可选地,上述候选主题的筛选条件还可仅依据预设的词典或预设的主题长度。具体地,基于预设的主题粒度筛选条件,从多篇文章中各文章的候选主题中确定多篇文章中各文章的聚合主题,包括:
87.基于预设的词典或预设的主题长度,对多篇文章中各文章的候选主题进行筛选,得到筛选后的多篇文章中各文章的候选主题;
88.从筛选后的多篇文章中各文章的候选主题中选择长度满足基于预设的主题粒度筛选条件的候选主题,作为多篇文章中各文章的聚合主题。
89.作为一种示例,上述候选主题的筛选过程中可先筛选出在预设的词典或满足预设的主题长度、并且频率大于预设的频率阈值的候选主题,最后从在预设的词典或满足预设的主题长度的候选主题中筛选出长度最长的候选主题,作为多篇文章中各文章的聚合主题,以使得基于该聚合主题聚合得到的文章合集粒度更细。比如,上述文章标题为“植物大战僵尸2征程:前奏01节,xxx”的候选主题包括:“植物大战僵尸”、“植物大战僵尸2征程”和“植物大战僵尸2征程:前奏”,其中,候选主题“植物大战僵尸”在预设的词典里,并且出现频率大于2,候选主题“植物大战僵尸2征程”不在预设的词典里,且其长度为9小于10,而候选主题“植物大战僵尸2征程:前奏”的长度为12大于10,并且出现频率大于2,因此,可先筛选出在预设的词典或满足预设的主题长度、并且频率大于预设的频率阈值的候选主题,即保留候选主题“植物大战僵尸”和“植物大战僵尸2征程:前奏”,再从候选主题“植物大战僵尸”和“植物大战僵尸2征程:前奏”中,筛选出长度最长的候选主题为“植物大战僵尸2征程:前奏”作为聚合主题。
90.s140,基于多篇文章主题的聚合主题,对多篇文章进行聚合。
91.可选地,为便于读者的查阅同一作者的同一类主题的文章,可将具备同一聚合主题的多篇文章加入到一个合集中。具体地,基于多篇文章主题的聚合主题,对多篇文章进行
聚合,包括:
92.从多篇文章中,确定聚合主题对应的文章;
93.将聚合主题对应的文章聚合到一个文章合集中。
94.作为一种示例,可将具备同一聚合主题的两篇文章“植物大战僵尸2征程:前奏01节,xxx”和“植物大战僵尸2征程:前奏02节,yyy”加入到聚合主题为“植物大战僵尸2征程:前奏”的文章合集中;将具备同一聚合主题的两篇文章“植物大战僵尸2梦幻版:主线01节,zzz”和“植物大战僵尸2梦幻版:主线02节,kkk”加入到聚合主题为“植物大战僵尸2梦幻版:主线”的文章合集中。
95.图2是根据本说明书的一个实施例提供的文章聚合方法应用于一种实际场景中的流程示意图,包括:
96.s21,加载目标作者的所有文章的标题。
97.s22,基于预设的切割字符,确定目标作者的所有文章中各文章的标题的切割位置。
98.s23,基于目标作者的所有文章中各文章的标题的第一字至切割位置处的字组成的主题以及预设的主题长度,生成目标作者的所有文章中各文章的候选主题。
99.s24,统计所有候选主题出现的频率。
100.s25,从目标作者的所有文章中各文章的候选主题中,去除频率小于频率阈值的候选主题。
101.s26,从目标作者的所有文章中各文章的候选主题中选择主题长度最长的候选主题作为各文章的聚合主题。
102.s27,将具备同一聚合主题的文章进行聚合。
103.采用本说明书实施例提供的文章聚合方法,能够分别确定出待聚合的同一作者的多篇文章的候选主题,所生成的候选主题的长度均不大于原文章主题的长度,再根据预设的主题粒度筛选条件,该预设的主题粒度筛选条件包括从候选主题中筛选出主题长度最长的主题筛选条件,依次从多篇文章中各文章的候选主题中确定多篇文章中各文章的聚合主题,即可以从多篇文章中各文章的候选主题中确定主题长度最长的候选主题,作为多篇文章中各文章的聚合主题,最后依据各文章的聚合主题,对多篇文章进行聚合。能够将具备同一聚合主题的文章聚合到一个合集中,实现对同一作者的多篇文章的聚合处理,从而方便读者查阅同一聚合主题的文章,提高读者的阅读体验。
104.图3是本说明书的一个实施例提供的一种文章聚合装置300的结构示意图。请参考图3,在一种软件实施方式中,文章聚合装置300可包括:
105.标题获取模块310,获取待聚合的同一作者的多篇文章的标题;
106.候选主题生成模块320,根据所述多篇文章中各文章的标题,生成所述多篇文章中各文章的候选主题,其中,目标文章的候选主题的长度小于或等于所述目标文章的标题;所述目标文章为所述多篇文章中的任意一篇文章;
107.主题筛选模块330,基于预设的主题粒度筛选条件,从所述多篇文章中各文章的候选主题中确定所述多篇文章中各文章的聚合主题;所述预设的主题粒度筛选条件包括从候选主题中筛选出主题长度最长的主题筛选条件;
108.文章聚合模块340,基于所述多篇文章的聚合主题,对所述多篇文章进行聚合。
109.采用本说明书实施例提供的文章聚合装置,能够分别确定出待聚合的同一作者的多篇文章的候选主题,所生成的候选主题的长度均不大于原文章主题的长度,再根据预设的主题粒度筛选条件,该预设的主题粒度筛选条件包括从候选主题中筛选出主题长度最长的主题筛选条件,依次从多篇文章中各文章的候选主题中确定多篇文章中各文章的聚合主题,即可以从多篇文章中各文章的候选主题中确定主题长度最长的候选主题,作为多篇文章中各文章的聚合主题,最后依据各文章的聚合主题,对多篇文章进行聚合。能够将具备同一聚合主题的文章聚合到一个合集中,实现对同一作者的多篇文章的聚合处理,从而方便读者查阅同一聚合主题的文章,提高读者的阅读体验。
110.可选地,在一种实施方式中,所述候选主题生成模块320,用于:
111.基于预设的切割字符,确定所述多篇文章中各文章的标题的切割位置;
112.基于所述多篇文章中各文章的标题的切割位置,生成所述多篇文章中各文章的候选主题。
113.可选地,在一种实施方式中,所述候选主题生成模块320,用于:
114.基于所述多篇文章中各文章的标题的第一个字至所述多篇文章中各文章的标题的切割位置处的字组成的主题,生成所述多篇文章中各文章的候选主题。
115.可选地,在一种实施方式中,所述主题筛选模块330,用于:
116.确定所述多篇文章中各文章的候选主题的频率;
117.基于所述多篇文章中各文章的标题的切割位置对应的频率阈值、所述多篇文章中各文章的候选主题的频率,对所述多篇文章中各文章的候选主题进行筛选,得到筛选后的所述多篇文章中各文章的候选主题;
118.从所述筛选后的所述多篇文章中各文章的候选主题中选择长度满足所述基于预设的主题粒度筛选条件的候选主题,作为所述多篇文章中各文章的聚合主题,其中,预设的主题粒度筛选条件包括主题长度最长的筛选条件。
119.可选地,在一种实施方式中,所述主题筛选模块330,用于:
120.基于预设的词典、所述多篇文章中各文章的标题的切割位置对应的频率阈值、以及所述多篇文章中各文章的候选主题的频率,对所述多篇文章中各文章的候选主题进行筛选,得到筛选后的所述多篇文章中各文章的候选主题。
121.可选地,在一种实施方式中,所述主题筛选模块330,用于:
122.基于预设的词典、预设的主题长度、所述多篇文章中各文章的标题的切割位置对应的频率阈值、以及所述多篇文章中各文章的候选主题的频率,对所述多篇文章中各文章的候选主题进行筛选,得到筛选后的所述多篇文章中各文章的候选主题。
123.可选地,在一种实施方式中,所述文章聚合模块340,用于:
124.从所述多篇文章中,确定所述聚合主题对应的文章;
125.将所述聚合主题对应的文章聚合到一个文章合集中。
126.文章聚合装置300能够实现图1~图2的方法实施例的方法,具体可参考图1~图2所示实施例的文章聚合方法,不再赘述。
127.图4是本说明书的一个实施例电子设备的结构示意图。请参考图4,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(random-access memory,ram),也可能还包括非易失性存储
器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
128.处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是isa(industry standard architecture,工业标准体系结构)总线、pci(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
129.存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
130.处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成文章聚合装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
131.获取待聚合的同一作者的多篇文章的标题;
132.根据所述多篇文章中各文章的标题,生成所述多篇文章中各文章的候选主题,其中,目标文章的候选主题的长度小于或等于所述目标文章的标题;所述目标文章为所述多篇文章中的任意一篇文章;
133.基于预设的主题粒度筛选条件,从所述多篇文章中各文章的候选主题中确定所述多篇文章中各文章的聚合主题;所述预设的主题粒度筛选条件包括从候选主题中筛选出主题长度最长的主题筛选条件;
134.基于所述多篇文章的聚合主题,对所述多篇文章进行聚合。
135.采用本说明书实施例提供的电子设备,能够分别确定出待聚合的同一作者的多篇文章的候选主题,所生成的候选主题的长度均不大于原文章主题的长度,再根据预设的主题粒度筛选条件,该预设的主题粒度筛选条件包括从候选主题中筛选出主题长度最长的主题筛选条件,依次从多篇文章中各文章的候选主题中确定多篇文章中各文章的聚合主题,即可以从多篇文章中各文章的候选主题中确定主题长度最长的候选主题,作为多篇文章中各文章的聚合主题,最后依据各文章的聚合主题,对多篇文章进行聚合。能够将具备同一聚合主题的文章聚合到一个合集中,实现对同一作者的多篇文章的聚合处理,从而方便读者查阅同一聚合主题的文章,提高读者的阅读体验。
136.上述如本说明书图1~图2所示实施例揭示的文章聚合装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随
机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
137.该电子设备还可执行图1~图2的方法,并实现文章聚合装置在图1~图2所示实施例的功能,本说明书实施例在此不再赘述。
138.本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1~图2所示实施例的方法,并具体用于执行以下操作:
139.获取待聚合的同一作者的多篇文章的标题;
140.根据所述多篇文章中各文章的标题,生成所述多篇文章中各文章的候选主题,其中,目标文章的候选主题的长度小于或等于所述目标文章的标题;所述目标文章为所述多篇文章中的任意一篇文章;
141.基于预设的主题粒度筛选条件,从所述多篇文章中各文章的候选主题中确定所述多篇文章中各文章的聚合主题;所述预设的主题粒度筛选条件包括从候选主题中筛选出主题长度最长的主题筛选条件;
142.基于所述多篇文章的聚合主题,对所述多篇文章进行聚合。
143.采用本说明书实施例提供的计算机可读存储介质,能够分别确定出待聚合的同一作者的多篇文章的候选主题,所生成的候选主题的长度均不大于原文章主题的长度,再根据预设的主题粒度筛选条件,该预设的主题粒度筛选条件包括从候选主题中筛选出主题长度最长的主题筛选条件,依次从多篇文章中各文章的候选主题中确定多篇文章中各文章的聚合主题,即可以从多篇文章中各文章的候选主题中确定主题长度最长的候选主题,作为多篇文章中各文章的聚合主题,最后依据各文章的聚合主题,对多篇文章进行聚合。能够将具备同一聚合主题的文章聚合到一个合集中,实现对同一作者的多篇文章的聚合处理,从而方便读者查阅同一聚合主题的文章,提高读者的阅读体验。
144.当然,除了软件实现方式之外,本说明书的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
145.上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
146.总之,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书的保护范围之内。
147.上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放
器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
148.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
149.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
150.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1