超长文档级事件抽取方法及系统、计算机可读存储介质与流程

文档序号:34981845发布日期:2023-08-03 14:22阅读:71来源:国知局
超长文档级事件抽取方法及系统、计算机可读存储介质与流程

本技术属于自然语言处理,涉及事件抽取技术,具体涉及超长文档级事件抽取方法及系统、计算机可读存储介质。


背景技术:

1、随着中国经济的增长,国内上市公司的数量不断增长,随之而来的是大量金融公告的出现,这些公告披露了上市公司运营的关键信息,因此在评估公司的时候具有很高的参考价值。然而,海量的公告数据让用户的分析工作耗时耗力,并且公告文本中充斥着大量的冗余信息,使得其中的关键信息难以定位,更进一步提高了公告分析的难度。因此如何对公告进行自动化地简化、过滤、抽取具有很高的研究意义。

2、事件抽取任务是自然语言理解领域中的重要任务,其旨在从无结构的文本信息中抽取出其中重要的信息,将复杂的无结构信息转化为结构化数据。文档级事件抽取任务则是针对于较长的文本信息,要求模型具有更高的上下文理解能力。

3、金融公告的文本长度往往较长,然而现有的文档级事件抽取数据集中的文本长度都较短,与真实场景中的公告文本相差较远,与之对应的是现有的文档级事件抽取模型也都无法处理真实场景中公告的抽取任务,这些模型对文本输入的长度有着严格的限制,而公告文本往往属于超长文档级别,导致无法直接输入到现有的抽取模型中。为了解决这个问题,现有的模型往往都是使用截断的方式来使文本的长度适合于模型的输入,然而这样的方式可能会导致需要进行抽取的信息也同样被截取,在这种情况下模型更不可能抽取到所需的信息。同时,真实场景中的公告文本中有用的信息比较少,只占整体文本信息的很小一部分,因此数据整体的噪声较多,进行抽取也具有较高的难度,现有的抽取模型无法很好的对文本信息进行过滤,对其进行简化,模型面临着抽取难度较大的问题。


技术实现思路

1、为解决上述现有技术问题,本技术提供超长文档级事件抽取方法及系统、计算机可读存储介质。

2、为了实现上述目的,本技术采用的技术方案是:

3、提供一种超长文档级事件抽取方法,具体包括以下步骤,

4、s1:将超长文档级公告进行摘要;

5、s2:将摘要后的公告文档进行分类得到公告类别;

6、s3:根据预定义好的模式,对s2中获得的公告类别下的所有论元角色进行论元的抽取,完成事件抽取。

7、优选的,步骤s1中将超长文档级公告通过摘要模型进行摘要抽取,摘要模型由句子编码器、文档级编码器和摘要选择器构成。

8、优选的,句子级编码器将超长文档级公告d={x1,x2,…,xm}中的每一个句子进行编码,其中,m表示d中句子的数量,表示第i个句子,表示第i个句子的第j个单词,n为第i个句子中单词的数量;

9、句子级编码器使用门控循环神经网络对每一个单词进行编码,如下公式所示,

10、

11、

12、

13、其中,gru表示门控循环神经网络,表示第i个句子正向编码第j步的结果,表示第i个句子反向编码第(n-j+1)步的结果,由以及拼接构成该句子的向量从而得到整个超长文档级公告中每个句子的句向量,s表示句子级别。

14、优选的,文档级编码器对超长文档级公告中每个句子的句向量进行编码,如下公式所示,

15、

16、

17、

18、其中,表示正向编码的第i步的结果,为反向编码的第(m-i+1)步的结果,其中m表示超长文档级公告中句子的数量,由与拼接成具有上下文信息的句向量d表示文档级别。

19、优选的,摘要选择器通过多轮计算,选择出多个句子来构成摘要后的摘要文档,每一轮计算时摘要选择器结合过去选择句子的信息,为超长文档级公告中候选的句子进行打分,得分最高的句子被选择为本轮的结果加入到摘要文档中,如下公式所示,

20、

21、

22、其中,表示第h轮计算时利用过去选择句子的信息计算所得的向量,si表示第t轮计算时句向量所对应的分数,st-1表示上一轮选择的句子对应的句向量,其中w1,w2,w3为参与训练的模型参数,在选择第一句摘要的时候,s0初始化为零向量,则根据如下公式进行计算:

23、

24、其中,表示文档级编码器反向传播最后一步得到的向量,wm和bm表示训练的参数,tanh为激活函数,t表示摘要级别。

25、优选的,步骤s2中,

26、摘要文档为q=[q1,q2,…,qf],qf为摘要文档中的第f个单词,在q前面加上[cls]标签并经过编码器编码后得到摘要文档的隐藏状态hq=[h[cls],h1,h2,…,hf],其中h[cls]表示包含有整个摘要文档信息的向量,将h[cls]输入到一个softmax分类层中即可得到摘要文档类别,如下公式所示,

27、p1=softmax(mlp(h[cls]))

28、其中,p1表示摘要文档类别的概率,mlp为多层感知机,mlp由两个线性变换层和一个tanh激活层构成。

29、优选的,步骤s3中,

30、采用基于生成式模型的方法抽取“单值”论元角色的论元;

31、针对每个论元角色,先构造每个论元角色对应的prompt,将摘要后的摘要文档q和prompt进行拼接后输入到transformer模型中,得到相应的论元y,如下公式所示:

32、

33、其中,transformer表示transformer模型,表示拼接;

34、模型的损失函数l为:

35、l=-∑logp(y|q,prompt)

36、其中,p表示概率。

37、优选的,采用基于判别式模型的方法抽取“多值”论元角色的论元;

38、先对摘要文档进行命名实体识别,再对论元角色下所有可能的实体构造prompt,将摘要文档和prompt以[sep]拼接,并在摘要文档前面拼接上[cls]标签输入到transformer编码器中,得到的隐藏状态表示h=[h[cls],h1,h2,…,h|f|,h[sep],h1,h2,…h|prompt|],同公告分类模型,取h[cls]作为整个输入的表示,并将其作为分类层的输入,最后判断该实体是不是属于该论元角色的论元,如下所示,

39、p=softmax(mlp(h[cls]))

40、其中,p表示概率,mlp为多层感知机,由两个线性变换层和一个tanh激活层构成。

41、超长文档级事件抽取系统,其特征在于,包括,

42、可执行程序,所述可执行程序可执行超长文档级事件抽取方法。

43、计算机可读存储介质,其特征在于,包括,

44、存储模块,所述存储模块用于存储可执行程序,所述可执行程序用于执行超长文档级事件抽取方法。

45、本技术的有益效果体现在,第一:本技术基于门控循环神经网络的抽取式摘要模型和基于prompt的事件抽取方法实现便捷,并且能够利用预训练语言模型强大的自然语言理解能力实现小样本场景下的抽取。第二:本技术对不同属性的论元角色采用不同的抽取方式,极大地提升了正确率,并借助于prompt和预训练语言模型缓解了数据不足对抽取效果的影响。第三:本技术具有广泛的实用意义,能够对超长文档级公告文本进行事件抽取,极大地便利了用户获取公告中的关键信息。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1