本技术涉及人工智能,尤其涉及一种文本处理方法和装置、计算机设备及存储介质。
背景技术:
1、目前,在文本处理中会出现代词,且对文本仅从指代消解以将代码转换为专有名词。但是传统对指代消解直接将专有名词和代词转换为隐向量,然后将专有名词和代词的隐向量串联后计算分数,以根据分数确定代词的专有名词。但是传统的方式并没有考虑词与词之间的依存句法关系,所以最后确定代词的专有名词准确性较低。因此,如何提高文本中代词替换专有名词的准确性,成为了亟待解决的技术问题。
技术实现思路
1、本技术实施例的主要目的在于提出一种文本处理方法和装置、计算机设备及存储介质,旨在提高文本中代词替换专有名词的准确性。
2、为实现上述目的,本技术实施例的第一方面提出了一种文本处理方法,所述方法包括:
3、获取原始文本;其中,所述原始文本包括:候选专有名词和目标代词;
4、对所述候选专有名词进行编码处理得到专有名词向量,对所述目标代词进行编码处理得到代词向量;
5、对所述原始文本进行依存句法分析,得到依存句法信息;
6、根据所述依存句法信息和所述候选专有名词对所述原始文本进行关联词语筛选,得到第一键值记忆对,根据所述依存句法信息和所述目标代词对所述原始文本进行关联词语筛选,得到第二键值记忆对;
7、对所述第一键值记忆对和所述专有名词向量进行建模处理,得到第一句法向量,对所述第二键值记忆对和所述代词向量进行建模处理,得到第二句法向量;
8、根据所述专有名词向量、所述第一句法向量、所述代词向量和所述第二句法向量从所述候选专有名词中筛选出目标专有名词,并将所述目标代词替换为所述目标专有名词得到目标文本。
9、在一些实施例,所述根据所述依存句法信息和所述候选专有名词对所述原始文本进行关联词语筛选,得到第一键值记忆对,根据所述依存句法信息和所述目标代词对所述原始文本进行关联词语筛选,得到第二键值记忆对,包括:
10、根据所述依存句法信息和所述候选专有名词对所述原始文本进行关联词语提取,得到专有关联词;
11、获取所述专有关联词和所述候选专有名词的关系类型,得到专有关系类型;
12、根据所述专有关系类型和所述专有关联词构建所述第一键值记忆对;
13、根据所述依存句法信息和所述目标代词对所述原始文本进行关联词语筛选,得到代词关联词;
14、获取所述代词关联词和所述目标代词的关系类型,得到代词关系类型;
15、根据所述代词关系类型和所述代词关联词构建所述第二键值记忆对。
16、在一些实施例,所述根据所述依存句法信息和所述候选专有名词对所述原始文本进行关联词语提取,得到专有关联词,包括:
17、根据所述依存句法信息和所述候选专有名词对所述原始文本进行依存句法关联词语筛选,得到第一关联词语;
18、根据所述依存句法信息获取所述目标代词和所述候选专有名词之间的依存句法路径,得到第一句法路径;
19、根据所述第一句法路径对所述原始文本中进行关联词语提取,得到第二关联词;
20、将所述第一关联词和所述第二关联词进行合并处理,得到所述专有关联词。
21、在一些实施例,所述根据所述依存句法信息和所述目标代词对所述原始文本进行关联词语筛选,得到代词关联词,包括:
22、根据所述依存句法信息和所述目标代词进行依存句法关联词语筛选,得到第三关联词;
23、根据所述依存句法信息获取所述目标代词和所述候选专有名词的依存句法路径,得到第二句法路径;
24、根据所述第二句法路径对所述原始文本进行关联词提取,得到第四关联词;
25、将所述第三关联词和所述第四关联词进行合并处理,得到所述代词关联词。
26、在一些实施例,所述对所述第一键值记忆对和所述专有名词向量进行建模处理,得到第一句法向量,对所述第二键值记忆对和所述代词向量进行建模处理,得到第二句法向量,包括:
27、根据预设的键矩阵将所述第一键值记忆对的所述专有关联词进行键向量转换,得到第一键向量;
28、根据预设的值矩阵将所述第一键值记忆对的所述专有关系类型进行值向量转换,得到第一值向量;
29、根据所述第一键向量和所述专有名词向量进行权重计算,得到第一键值记忆对权重;
30、根据所述第一值向量、所述第一键向量和所述第一键值记忆对权重进行句法整合,得到所述第一句法向量;
31、根据预设的键矩阵将所述第二键值记忆对的所述代词关联词进行键向量转换,得到第二键向量;
32、根据预设的值矩阵将所述第一键值记忆对的所述代词关系类型进行值向量转换,得到第二值向量;
33、根据所述第二键向量和所述代词向量进行权重计算,得到第二键值记忆对权重;
34、根据所述第二值向量、所述第二键向量和所述第二键值记忆对权重进行句法整合,得到所述第二句法向量。
35、在一些实施例,所述根据所述专有名词向量、所述第一句法向量、所述代词向量和所述第二句法向量从所述候选专有名词中筛选出目标专有名词,并将所述目标代词替换为所述目标专有名词得到目标文本,包括:
36、根据所述专有名词向量、所述第一句法向量、所述代词向量和所述第二句法向量进行关联性计算,得到所述目标代词和每一所述候选专有名词的关联分值;
37、根据所述关联分值从所述候选专有名词中筛选出所述目标专有名词;
38、将所述目标代词替换为所述目标专有名词,得到所述目标文本。
39、在一些实施例,所述根据所述专有名词向量、所述第一句法向量、所述代词向量和所述第二句法向量进行关联性计算,得到所述目标代词和每一所述候选专有名词的关联分值,包括:
40、将所述专有名词向量、所述第一句法向量、所述代词向量和所述第二句法向量进行串联,得到串联向量;
41、将所述串联向量输入至预设的解码器进行解码处理,得到所述目标代词和每一所述候选专有名词的所述关联分值。
42、为实现上述目的,本技术实施例的第二方面提出了一种文本处理装置,所述装置包括:
43、文本获取模块,用于获取原始文本;其中,所述原始文本包括:候选专有名词和目标代词;
44、编码处理模块,用于对所述候选专有名词进行编码处理得到专有名词向量,对所述目标代词进行编码处理得到代词向量;
45、句法分析模块,用于对所述原始文本进行依存句法分析,得到依存句法信息;
46、关联词语筛选模块,用于根据所述依存句法信息和所述候选专有名词对所述原始文本进行关联词语筛选,得到第一键值记忆对,根据所述依存句法信息和所述目标代词对所述原始文本进行关联词语筛选,得到第二键值记忆对;
47、建模模块,用于对所述第一键值记忆对和所述专有名词向量进行建模处理,得到第一句法向量,对所述第二键值记忆对和所述代词向量进行建模处理,得到第二句法向量;
48、筛选模块,用于根据所述专有名词向量、所述第一句法向量、所述代词向量和所述第二句法向量从所述候选专有名词中筛选出目标专有名词,并将所述目标代词替换为所述目标专有名词得到目标文本。
49、为实现上述目的,本技术实施例的第三方面提出了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。
50、为实现上述目的,本技术实施例的第四方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。
51、本技术提出的文本处理方法和装置、计算机设备及存储介质,其通过依存句法信息知晓词与词之间的关系,以根据词与词之间的关系构建第一句法向量、第二句法向量,再从候选专有名词中选出目标专有名词,使得目标代词的指代消解更加准确,从而提升了指代消解的性能。