一种金融领域事件抽取方法和装置与流程

文档序号:31536241发布日期:2022-09-16 22:35阅读:来源:国知局

技术特征:
1.一种金融领域事件抽取方法,其特征在于,包括:对待抽取文本进行分句、分词处理,得到所述待抽取文本的分句集合和每个分句的分词集合;针对所述分句集合中的每个分句,获取分句中每个分词的词向量和位置向量,并将所述词向量和对应的位置向量累加,得到对应分词的输出向量;根据预定义的元素标注序列,对每个分句执行序列标注,标注出分句中属于事件元素的分词;所述事件元素为对应于金融事件中的相应类型事件角色的实体;获取分句的句向量,将分句中属于事件元素的分词的输出向量与所述分句的句向量累加,得到累加结果;根据所述累加结果,在预设的事件分类模型中,确定所述分句是否属于预设类型金融事件的事件句;所述预设的事件分类模型是根据预先标注的训练文本训练得到的;若是,则输出所述分句对应的结构化事件。2.如权利要求1所述的金融领域事件抽取方法,其特征在于,所述获取分句的句向量,将分句中属于事件元素的分词的输出向量与所述分句的句向量累加,得到累加结果,包括:根据注意力机制,对分句中全部分词的输出向量进行加权求和,得到所述分句的句向量;将分句中属于事件元素的分词的输出向量与所述分句的句向量累加,得到累加结果。3.如权利要求1所述的金融领域事件抽取方法,其特征在于,所述预设的事件分类模型包括前馈神经网络和归一化分类器;所述根据所述累加结果,在预设的事件分类模型中,确定所述分句是否属于预设类型金融事件的事件句,包括:在前馈神经网络中对所述累加结果进行分析,得到一个维度为2的特征向量;在归一化分类器中对所述维度为2的特征向量进行归一化处理,得到对应分句的分类结果,根据所述分类结果,确定所述分句是否属于预设类型金融事件的事件句。4.如权利要求1所述的金融领域事件抽取方法,其特征在于,所述根据预定义的元素标注序列,对每个分句执行序列标注,标注出分句中属于事件元素的分词,包括:根据预定义的元素标注序列,使用预设的事件元素抽取模型,对每个分句执行序列标注,标注出分句中属于事件元素的分词;所述预设的事件元素抽取模型包括全连接层神经网络和条件随机场,是根据所述预先标注的训练文本训练得到的。5.如权利要求1至4中任一项所述的金融领域事件抽取方法,其特征在于,所述预先标注的训练文本通过以下方式得到:生成原始文本集中各原始文本的索引信息;针对每一原始文本,根据预定义的金融事件结构中的各事件角色,分类抽取出原始文本中符合对应类型事件角色的实体,得到候选实体集;所述预定义的金融事件结构包括组成对应金融事件的事件角色和所述事件角色的属性,所述事件角色的属性包括是否为核心事件角色;根据所述预定义的金融事件结构,对候选实体集中的各类实体进行排列组合,组成第一候选事件集;
根据第一候选事件集中的各候选事件在对应原始文本中的文本特征和位置特征,在预设的分类器中,筛选得到所述第一候选事件集中的真实事件;将所述真实事件以及所述真实事件所对应原始文本的索引信息写入金融事件知识库;根据金融事件知识库中的所述原始文本的索引信息,将所述金融事件知识库中的真实事件的各事件角色分别标注到对应原始文本中的对应实体上,得到事件元素标注文本;将所述事件元素标注文本中包含核心事件角色标注且事件角色标注的数量大于预设数量的句子标注为事件句,得到预先标注的训练文本。6.如权利要求5所述的金融领域事件抽取方法,其特征在于,所述根据第一候选事件集中的各候选事件在对应原始文本中的文本特征和位置特征,在预设的分类器中,筛选得到所述第一候选事件集中的真实事件,包括:根据预设过滤条件对第一候选事件集中的候选事件进行筛选,得到第二候选事件集;根据所述第二候选事件集中的各候选事件在对应原始文本中的文本特征和位置特征,在预设的分类器中,筛选得到所述第二候选事件集中的真实事件。7.如权利要求6所述的金融领域事件抽取方法,其特征在于,所述根据所述第二候选事件集中的各候选事件在对应原始文本中的文本特征和位置特征,在预设的分类器中,筛选得到所述第二候选事件集中的真实事件,包括:针对所述第二候选事件集中的每一候选事件,根据候选事件中的各实体在对应原始文本中的词性、词频、词长度、以及所处的位置,构建对应候选事件的特征向量;将所述候选事件的特征向量输入到预设的分类器中,判断对应候选事件是否属于预设类型金融事件,得到所述第二候选事件集中的真实事件。8.如权利要求1所述的金融领域事件抽取方法,其特征在于,所述对待抽取文本进行分句、分词处理,得到所述待抽取文本的分句集合和每个分句的分词集合,包括:设定标准分句长度;根据具有句子意义的标点符号对待抽取文本进行分句;若分句后的句子长度大于所述标准分句长度,则以分句长度小于且最接近标准分句长度的标点符号进行分句;用填充符号将分句后长度不足标准分句长度的句子填充至标准分句长度,得到所述待抽取文本的分句集合;利用分词工具对分句集合中的每个分句进行分词,得到每个分句的分词集合。9.如权利要求8所述的金融领域事件抽取方法,其特征在于,所述对待抽取文本进行分句、分词处理,得到所述待抽取文本的分句集合和每个分句的分词集合,还包括:设定标准分句数量,当对待抽取文本切分出的分句数量达到标准分句数量时,对其余文本进行截断;当对待抽取文本切分出的分句数量少于标准分句数量时,用填充符号补充至标准分句数量。10.一种金融领域事件抽取装置,其特征在于,包括文本预处理模块、词向量生成模块、事件元素抽取模块、句向量累加模块、事件分类模块和事件输出模块,其中:所述文本预处理模块,用于对待抽取文本进行分句、分词处理,得到所述待抽取文本的分句集合和每个分句的分词集合;所述词向量生成模块,用于针对所述分句集合中的每个分句,获取分句中每个分词的
词向量和位置向量,并将所述词向量和对应的位置向量累加,得到对应分词的输出向量;所述事件元素抽取模块,用于根据预定义的元素标注序列,对每个分句执行序列标注,标注出分句中属于事件元素的分词;所述事件元素为对应于金融事件中的相应类型事件角色的实体;所述句向量累加模块,用于获取分句的句向量,并将分句中属于事件元素的分词的输出向量与所述分句的句向量累加,得到累加结果;所述事件分类模块,用于根据所述累加结果,在预设的事件分类模型中,确定所述分句是否属于预设类型金融事件的事件句;所述预设的事件分类模型是根据预先标注的训练文本训练得到的;所述事件输出模块,用于当所述分句属于预设类型金融事件的事件句时,输出所述分句对应的结构化事件。

技术总结
本发明公开了一种金融领域事件抽取方法和装置。所述方法包括:对待抽取文本进行分句、分词;获取分句中每个分词的词向量和位置向量,并将所述词向量和对应的位置向量累加,得到对应分词的输出向量;对每个分句执行序列标注,标注出分句中属于事件元素的分词;获取分句的句向量,将分句中属于事件元素的分词的输出向量与所述分句的句向量累加,得到累加结果;根据所述累加结果,确定所述分句是否属于预设类型金融事件的事件句;若是,则输出所述分句对应的结构化事件。本发明根据事件句来判断文本中的事件类型,与现有技术中通过触发词来判断文本中的事件类型相比,能够减少误判和漏判的情况,提高事件抽取任务的抽取效果。提高事件抽取任务的抽取效果。提高事件抽取任务的抽取效果。


技术研发人员:施震 黄晨 汤文华 文卫东 李旭晖
受保护的技术使用者:中证信用增进股份有限公司
技术研发日:2022.04.29
技术公布日:2022/9/15
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1