一种新闻类事件脉络梳理方法及系统与流程

文档序号:33823856发布日期:2023-04-19 20:52阅读:234来源:国知局
一种新闻类事件脉络梳理方法及系统与流程

本发明涉及互联网大数据领域,更具体地说,涉及一种新闻类事件脉络梳理方法及系统。


背景技术:

1、随着互联网时代的到来,每日的信息量剧增,若想了解一个热点事件的来龙去脉,不仅需要从海量信息中搜寻出事件的相关信息,还需要将其整理、过滤,区分信息的真实性和时间的先后顺序,这很耗费时间,因此一种能够自动挖掘事件脉络的技术显得尤为重要。


技术实现思路

1、本发明要解决的技术问题是提供一种新闻类事件脉络梳理方法及系统,根据聚类的思想从海量数据中提取与我们感兴趣的事件相关的若干历史新闻,并从大量相关新闻中抽取关键句,利用textrank与mmr方法生成事件的摘要,能够使用户一眼纵览事件脉络,得到事件最关键且简洁的信息,同时显著降低人力搜索整合的成本和投入,具有较强的应用价值。

2、为了达到上述目的,本发明采取以下技术方案:

3、一种新闻类事件脉络梳理方法,其特征在于,包括如下步骤:

4、s1:根据今日事件的日期,选取今日及今日往前一段时间内的新闻作为历史新闻备用,并读取历史新闻的新闻json文件;

5、s2:根据tf-idf法提取今日事件的若干个关键词;

6、s3:遍历历史新闻,若有新闻含有至少一个关键词,便将该新闻加入到新闻列表中;

7、s4:遍历新闻列表中每个新闻的每个句子,计算其与今日事件的最小公共子串长度,挑选出该新闻中与今日事件的最小公共子串长度大于3的若干句子,并将其与新闻中上下文各一句拼接,将这若干个初步挑选出的句字及其前后句作为该新闻与今日事件相关的若干备选摘要句;

8、s5:利用textrank法从上一步骤得到的备选摘要句列表中挑选出最重要top k个句子,作为该新闻的摘要句;用同样的方法提取新闻列表所有相关新闻的摘要句,并放入一个摘要列表,作为今日事件的摘要列表;

9、s6:对该摘要列表中的句子进行基于textrank+mmr法的重排,选择前p个摘要句作为今日事件的最终摘要。

10、优选的,s1中,在s1与s2之间还包括步骤:

11、s11:将历史新闻两两计算相似度,把相似度高于预设阈值的历史新闻剔除。

12、优选的,s11中计算相似度方法为三种粒度相似度计算的加权融合,包含字级别、词级别、句向量级别。

13、进一步,s2中的tf-idf法如公式所示:

14、

15、其中,count(d,w)为单词w在今日事件对应的文档d出现的次数,count(d,*)为文档d的总词数,n为总文档数,n(w)为含单词w的文档数;

16、计算每个词的tf-idf值,排序后取值最高的若干个词作为关键词。

17、优选的,所述关键词选取五个。

18、优选的,s6还包括整合今日事件信息,将关键信息提炼并整理到json文件中输出。所述关键信息包括:今日事件的时间、内容、摘要列表;其中摘要列表包括每个摘要句来源新闻的id、来源新闻的时间、来源新闻的标题、摘要句、url。

19、优选的,还包括步骤s7:输入包含所述关键信息的json文件,利用textrank法对关键信息进行摘要提取;对于每条新闻的摘要,取textrank分数最高的两个句子作为摘要句,并将其添加至关于今日事件的新闻原文件中。

20、一种用于实现权利要求1所述方法的新闻类事件脉络梳理系统,包括:

21、读取模块:用于读取历史新闻的json文件;

22、关键词提取模块:用于提取今日事件的关键词;

23、摘要提取模块:用于根据关键词从历史新闻中提取关于今日事件的摘要;

24、整合模块:用于整合关于今日事件的关键信息,所述关键信息包括今日事件的时间、内容、摘要;

25、输出模块:用于输出所述关键信息的json文件。

26、优选的,所述系统还包括:

27、冗余消除模块:用于将历史新闻两两计算相似度,把相似度高于预设阈值的历史新闻剔除。

28、本发明相对于现有技术的优点在于,本发明方法针对事件脉络梳理建立了一个相对完整的系统,其根据今日事件,对往日相关事件进行回溯并融合,达到高覆盖率,同时,对融合新闻内容提取关键信息生成摘要,使用户能轻松获得丰富且精简的信息。



技术特征:

1.一种新闻类事件脉络梳理方法,其特征在于,包括如下步骤:

2.根据权利要求1所述新闻类事件脉络梳理方法,其特征在于,s1中,在s1与s2之间还包括步骤:

3.根据权利要求2所述新闻类事件脉络梳理方法,其特征在于,s11中计算相似度方法为三种粒度相似度计算的加权融合,包含字级别、词级别、句向量级别。

4.根据权利要求1所述新闻类事件脉络梳理方法,其特征在于,s2中的tf-idf法如公式所示:

5.根据权利要求1或4所述新闻类事件脉络梳理方法,其特征在于,所述关键词选取五个。

6.根据权利要求1所述新闻类事件脉络梳理方法,其特征在于,s6还包括整合今日事件信息,将关键信息提炼并整理到json文件中输出。

7.根据权利要求6所述新闻类事件脉络梳理方法,其特征在于,所述关键信息包括:今日事件的时间、内容、摘要列表;其中摘要列表包括每个摘要句来源新闻的id、来源新闻的时间、来源新闻的标题、摘要句、url。

8.根据权利要求7所述新闻类事件脉络梳理方法,其特征在于,还包括步骤s7:输入包含所述关键信息的json文件,利用textrank法对关键信息进行摘要提取;对于每条新闻的摘要,取textrank分数最高的两个句子作为摘要句,并将其添加至关于今日事件的新闻原文件中。

9.一种用于实现权利要求1所述方法的新闻类事件脉络梳理系统,其特征在于,包括:

10.根据权利要求9所述新闻类事件脉络梳理系统,其特征在于,所述系统还包括:


技术总结
本发明公开了一种新闻类事件脉络梳理方法及系统,涉及互联网大数据领域,方法包括步骤:根据TF‑IDF法提取今日事件的若干个关键词;遍历历史新闻,若有新闻含有至少一个关键词,便将该新闻加入到新闻列表中;遍历新闻列表中每个新闻的每个句子,挑选与今日事件相关的若干备选摘要句加入摘要列表;对该摘要列表中的句子进行基于TextRank+MMR法的重排,选择前p个摘要句作为今日事件的最终摘要;系统包括:读取模块、关键词提取模块、摘要提取模块、整合模块。本发明能够使用户一眼纵览事件脉络,得到事件最关键且简洁的信息,可显著降低人力搜索整合的成本和投入。

技术研发人员:林铮宇,沈志岗,唐中柱,周子玙,崔俊交
受保护的技术使用者:苏州新建元数字科技有限公司
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1