文本处理方法、装置、电子设备及存储介质与流程

文档序号:35628889发布日期:2023-10-06 02:15阅读:27来源:国知局
文本处理方法、装置、电子设备及存储介质与流程

本发明涉及数据处理技术,具体涉及一种文本处理方法、装置、电子设备及存储介质。


背景技术:

1、如今,随着互联网科技快速的发展,人们在互联网中产生的交互信息日益剧增,可以随时随地通过互联网获得自己想要的信息。互联网虽然给人们提供越来越快捷、多样化的信息,但它同时也产生了大量的垃圾信息,这就导致人们在寻找自己所需要的信息时耗费大量的精力,甚至无功而返。在大数据时代,如何处理大数据并筛选出有价值的信息成为了一个重要的课题。事件抽取可以帮助机器在文本中发现有价值的事件信息,将语义同指的文本内容归为一类,从而进行事件同指消解。

2、事件同指消解是判断不同描述方法的事件句是否指向现实生活中的同一件事,主要依赖于二者的相似度。难点就在于如何准确的计算出两个事件句之间的相似度值,如何提高相似度计算的准确性。而针对该问题,目前尚无有效解决方案。


技术实现思路

1、有鉴于此,本发明的主要目的在于提供一种文本处理方法、装置、电子设备及存储介质。

2、为达到上述目的,本发明的技术方案是这样实现的:

3、本发明实施例提供一种文本处理方法,包括:

4、获取第一文本中包括的事件对数据;

5、采用依存句法分析工具对所述事件对数据进行处理,得到所述事件对数据对应的事件短句对数据;

6、确定所述事件对数据的第一线性相似度和第一非线性相似度以及确定所述事件短句对数据的第二线性相似度和第二非线性相似度;

7、基于所述事件对数据、所述事件短句对数据、所述第一线性相似度、所述第一非线性相似度、所述第二线性相似度和所述第二非线性相似度确定所述事件对数据的置信度;所述置信度表征所述事件对数据具有同指关系的程度。

8、在上述方案中,所述采用依存句法分析工具对所述事件对数据进行处理,得到所述事件对数据对应的事件短句对数据,包括:

9、采用所述依存句法分析工具确定所述事件对数据中触发词的论元和依存词;

10、确定所述论元与所述触发词的第一距离,以及确定所述依存词与所述触发词的第二距离;

11、对所述第一距离以及所述第二距离进行排序,得到排序结果;

12、确定所述排序结果中距离最大值对应的两个论元或触发词,将所述距离最大值对应的两个论元或触发词作为所述事件短句对数据的起始词和结束词;

13、基于所述起始词和所述结束词对所述事件对数据进行截取,得到所述事件短句对数据。

14、在上述方案中,所述基于所述事件对数据、所述事件短句对数据、所述第一线性相似度、所述第一非线性相似度、所述第二线性相似度和所述第二非线性相似度确定所述第一文本中的事件对数据的置信度,包括:

15、基于所述事件对数据、所述事件短句对数据、所述第一线性相似度、所述第一非线性相似度、所述第二线性相似度和所述第二非线性相似度确定所述第一文本中的事件对数据的置信度向量;

16、基于全连接分类器对所述置信度向量进行处理,得到所述事件对数据的置信度。

17、在上述方案中,所述方法还包括:

18、采用预训练模型(bidirectional encoder representation fromtransformers,bert)对所述事件对数据进行预测,得到所述事件对数据对应的词向量对。

19、在上述方案中,所述事件对数据包括多个单词对数据;所述方法还包括:

20、获取所述事件对数据中多个单词对数据的第一信息对和第二信息对;所述第一信息对表征单词对数据的词性信息对;所述第二信息对表征所述单词对数据的位置信息对;

21、基于所述词向量对、所述事件对数据、所述第一信息对和所述第二信息对,确定所述事件对数据对应的第一事件向量对。

22、在上述方案中,所述方法还包括:

23、采用长短时记忆网络(bi-directional long short-term memory,bi-lstm)对所述第一事件向量对进行抽取,得到所述第一事件向量对对应的全局信息对;

24、采用卷积神经网络(convolutional neural network,cnn)对所述第一事件向量对进行抽取,得到所述第一事件向量对对应的局部信息对;

25、对所述全局信息对和所述局部信息对进行融合,得到所述第一事件向量对对应的融合向量对;

26、对所述融合向量对进行第一全局最大池化层处理,得到所述第一事件向量对对应的第二事件向量对。

27、在上述方案中,所述确定所述事件对数据的第一线性相似度和第一非线性相似度,包括:

28、根据所述第二事件向量对确定所述事件对数据的第一线性相似度和第一非线性相似度;

29、其中,所述第一线性相似度包括第一余弦距离;所述第一非线性相似度包括第一双线性距离和第一单层网络距离中的至少一项。

30、在上述方案中,所述方法还包括:

31、基于所述词向量对和所述事件短句对数据,确定所述事件短句对数据对应的第一事件短句向量对;

32、对所述第一事件短句向量对进行第二全局最大池化层处理,得到所述第一事件短句向量对对应的第二事件短句向量对。

33、在上述方案中,所述确定所述事件短句对数据的第二线性相似度和第二非线性相似度,包括:

34、根据所述第二事件短句向量对确定所述事件短句对数据的第二线性相似度和第二非线性相似度;

35、其中,所述第二线性相似度包括第二余弦距离;所述第二非线性相似度包括第二双线性距离和第二单层网络距离中的至少一项。

36、本发明实施例提供一种文本处理装置,包括:

37、第一获取模块,用于获取第一文本中包括的事件对数据;

38、第一处理模块,用于采用依存句法分析工具对所述事件对数据进行处理,得到所述事件对数据对应的事件短句对数据;

39、第一确定模块,用于确定所述事件对数据的第一线性相似度和第一非线性相似度以及确定所述事件短句对数据的第二线性相似度和第二非线性相似度;

40、第二确定模块,用于基于所述事件对数据、所述事件短句对数据、所述第一线性相似度、所述第一非线性相似度、所述第二线性相似度和所述第二非线性相似度确定所述事件对数据的置信度;所述置信度表征所述事件对数据具有同指关系的程度。

41、本发明实施例提供一种文本处理设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现上述任一项所述的方法。

42、本发明实施例提供一种存储介质,所述存储介质存储有可执行指令,当所述可执行指令被处理器执行时,实现上述任一项所述的方法。

43、本发明实施例提供一种文本处理方法、装置、电子设备及存储介质。其中,所述方法包括:获取第一文本中包括的事件对数据;采用依存句法分析工具对所述事件对数据进行处理,得到所述事件对数据对应的事件短句对数据;确定所述事件对数据的第一线性相似度和第一非线性相似度以及确定所述事件短句对数据的第二线性相似度和第二非线性相似度;基于所述事件对数据、所述事件短句对数据、所述第一线性相似度、所述第一非线性相似度、所述第二线性相似度和所述第二非线性相似度确定所述事件对数据的置信度;所述置信度表征所述事件对数据具有同指关系的程度。通过将所述事件对数据的第一线性相似度和第一非线性相似度以及所述事件短句对数据的第二线性相似度和第二非线性相似度进行结合确定事件对数据的置信度,能够弥补通过线性相似度确定置信度的情况下,仅整体考虑事件对数据造成的缺陷。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1