一种融合新闻发生时间与语义相似度的事件脉络链路生成方法与流程

文档序号:35916626发布日期:2023-10-30 09:21阅读:120来源:国知局
一种融合新闻发生时间与语义相似度的事件脉络链路生成方法与流程

本发明属于自然语言处理技术,具体涉及融合新闻发生时间与语义相似度的事件脉络链路生成方法。


背景技术:

1、随着互联网的快速发展,各类新闻事件层出不穷,从日益增长的数据中挖掘和分析新闻事件越来越困难。因此,从海量新闻数据中梳理事件脉络对新闻事件的分析和研究是非常重要的。

2、现有技术[1,2,3,4]中,关于新闻的事件脉络生成方法不论是从字词出发计算新闻之间的关联,还是从句子出发计算新闻之间的交互关系,本质上都是仅从文本语义信息的角度进行分析。通过计算新闻事件之间的相似度,再对语义相近的新闻按照发生时间做简单的排序,从而得到新闻事件的脉络。

3、一般,同一主题的新闻事件发生时间在时间轴上是有规律的,但是目前的事件脉络生成方法仅从语义信息角度出发,新闻事件的发生时间仅被作为一种排序手段,忽略了事件发生时间对于新闻事件的相似度衡量以及事件发展演化的影响。此外,现有脉络生成方案缺乏可解释性,模型仅仅给出最终生成结果,缺乏脉络生成过程中的推理链路。并且,对于数量较多的新闻文本集合,现有方法易出现运行效率低下的问题。

4、周小敏,应鸿晖,刁则鸣,聂芹芹,石易,王玉杰,张震,吴飞,卓采标,方四安,李博.一种融入深度语义关系分类的事件脉络生成方法及系统[p].广东省:cn114265932a,2022-04-01.

5、赵崇帅,代旭东,顾成敏,周维,李宝善,陈志刚.事件聚类/脉络构建方法及其相关装置、设备和存储介质[p].安徽省:cn114357159a,2022-04-15.

6、焦梦姝,姚士杰,罗佳,雷玉玲,杜蕾.事件脉络生成方法、设备及介质[p].湖南省:cn115878761b,2023-05-09.

7、林铮宇,沈志岗,唐中柱,周子玙,崔俊交.一种新闻类事件脉络梳理方法及系统[p].江苏省:cn115964495a,2023-04-14.


技术实现思路

1、本发明的目的在于提出融合新闻发生时间与语义相似度的事件脉络链路生成方法,旨在提高新闻事件脉络结果生成的准确性、可解释性以及高效性。

2、实现本发明目的的技术解决方案为:一种融合新闻发生时间与语义相似度的事件脉络链路生成方法,包括如下步骤:

3、步骤1:新闻数据预处理:对新闻文本内容进行嵌入式表征,对新闻发生时间进行数字化表示,完成新闻集合预处理;

4、步骤2:新闻集合窗口划分:对预处理后的新闻集合按照发生时间进行窗口划分,形成若干新闻子集合;

5、步骤3:新闻事件簇计算:结合新闻的发生时间和文本内容信息,对每一个窗口内的新闻子集合使用聚类算法计算事件簇结果并进行评估;

6、步骤4:新闻窗口事件簇融合:在各个窗口下计算得到的事件簇结果中,选择属于同一类的簇进行融合,并在融合后的簇结果中选择事件簇代表节点形成新一轮的新闻集合;

7、步骤5:新闻事件脉络结果迭代更新:针对新形成的新闻集合,重复执行步骤2到步骤4,直至得到最终的事件脉络结果。

8、进一步的,步骤1,新闻数据预处理,具体方法为:

9、使用tf-idf,对新闻文本内容进行嵌入式表征;

10、使用时间戳的方式,将新闻发生时间按照固定格式解析成时间戳。

11、进一步的,步骤2,新闻集合窗口划分,具体方法为:

12、对新闻发生时间戳,按照从小到大排序得到新闻发生的先后顺序;

13、对排序后的新闻集合,按照窗口进行切分,形成若干新闻子集合。

14、进一步的,步骤3,新闻事件簇计算,具体方法为:

15、步骤3.1:计算新闻事件集合之间的语义距离矩阵:经过步骤1的预处理后,新闻集合的文本内容被表示成向量,这里记作x,使用余弦距离计算新闻事件集合的语义距离矩阵,具体计算方式如下:

16、

17、dx=1-x'x't#  (2)

18、其中,x是使用tf-idf表示的新闻文本语义矩阵,矩阵一行表示一条新闻的文本向量,x'表示归一化后的x矩阵,dx表示新闻事件集合的语义距离矩阵;

19、步骤3.2:计算新闻事件之间的时间距离特征矩阵:以天作为最小时间粒度,经过步骤1的预处理,新闻事件的发生时间戳集合记为{t1,t2…tn};

20、首先构建新闻事件集合的时间矩阵:

21、

22、使用阈值threshold剔除掉时间矩阵t中时间跨度过长的元素:

23、

24、计算新闻事件集合的时间距离特征矩阵dt:

25、

26、其中,e表示自然常数,ij表示矩阵下标,w为调整系数,控制时间特征的分布离散程度,默认设置为0.1;

27、步骤3.3:融合语义距离矩阵和时间距离矩阵:将步骤3.1和步骤3.2计算得到的语义距离矩阵和时间距离特征矩阵融合,得到融合特征矩阵dmix,这里使用一种特征融合权重进行计算,记为wt,默认值设置为0.5,计算公式如下:

28、dmix=wtdx+(1-wt)dt#  (6)

29、步骤3.4:使用聚类算法进行事件簇划分并评估划分结果:根据步骤3.3得到的融合特征矩阵dmix,使用层次聚类算法(agglomerative clustering)划分事件簇,层次聚类算法需要设置聚类中心个数,输入预先计算的距离矩阵即可得到聚类划分结果。首先,为层次聚类算法在区间范围内取多值作为聚类中心个数,默认聚类中心个数设置为在区间[2,10]之间。然后,根据设置不同的聚类中心数量,输入融合特征矩阵dmix,生成多种事件簇划分结果。最后,使用轮廓系数对多个新闻事件簇划分结果进行评估,选择得分最高的结果作为该窗口的事件簇输出结果。

30、进一步的,步骤4,新闻窗口事件簇融合,具体方法为:

31、针对各个窗口下计算得到的事件簇结果,选择属于同一类的簇进行融合,并在融合后的簇结果中选择事件簇代表节点替代事件簇本身,形成新一轮的新闻集合,其中事件簇代表节点的选择策略是采用一种基于距离密度的计算方法,假设事件簇中节点个数为n,则代表节点选择策略的计算公式如下:

32、

33、si∈s,s={s1,s2…,sn}#  (8)

34、k=argmax(s)#  (9)

35、其中,i,j表示融合特征矩阵的行、列号,si表示第i个节点的得分,k表示当前事件簇中被选择的节点下标;经过计算,每一个事件簇都会有一个代表节点,将所有事件簇的代表节点合并后形成新的新闻集合。

36、一种融合新闻发生时间与语义相似度的事件脉络链路生成系统,基于所述的融合新闻发生时间与语义相似度的事件脉络链路生成方法,实现融合新闻发生时间与语义相似度的事件脉络链路生成,具体包括如下模块:

37、新闻数据预处理模块:对新闻文本内容进行嵌入式表征,对新闻发生时间进行数字化表示;

38、新闻集合窗口划分模块:对预处理后的新闻集合按照发生时间进行窗口划分,形成若干新闻子集合,完成新闻集合预处理;

39、新闻事件簇计算模块:结合新闻的发生时间和文本内容信息,对每一个窗口内的新闻子集合使用聚类算法计算事件簇结果,并评估其输出结果;

40、新闻窗口事件簇融合模块:在各个窗口下计算得到的事件簇结果中,选择属于同一类的簇进行融合,并在融合后的簇结果中选择事件簇代表节点形成新一轮的新闻集合;

41、新闻事件脉络结果迭代更新模块:针对新形成的新闻集合,重复新闻集合窗口划分、新闻事件簇计算和新闻窗口事件簇融合,保留中间过程链路,直至得到最终的事件脉络结果。

42、一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,基于所述的融合新闻发生时间与语义相似度的事件脉络链路生成方法,实现融合新闻发生时间与语义相似度的事件脉络链路生成。

43、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,基于所述的融合新闻发生时间与语义相似度的事件脉络链路生成方法,实现融合新闻发生时间与语义相似度的事件脉络链路生成。

44、本发明与现有技术相比,其显著优点为:(1)提出了一种新闻事件时间窗口划分方法,支持大量新闻数据并行计算,提高新闻事件脉络生成的效率;(2)提出了一种迭代更新事件脉络生成结果的策略,在融合多窗口输出结果和优化事件脉络结构的同时,还保存了迭代更新过程中模型推理的证据链路,增强了脉络生成结果的可解释性。(3)除了考虑文本语义信息作为事件关联计算的依据,还引入了新闻事件发生的时间特征。一般属于同一主题的新闻事件发生时间具有相近的特征。以运动会为例,运动会期间的赛事新闻也是集中发生在为期16天的比赛期间内,赛后则是热度骤减。因此,利用发生时间来辅助计算新闻事件之间的关联关系有助于筛选具有相同主题的新闻事件,提高生成事件脉络的准确度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1