一种文本处理方法、装置、电子设备及存储介质与流程

文档序号:32979640发布日期:2023-01-17 21:51阅读:67来源:国知局
一种文本处理方法、装置、电子设备及存储介质与流程

1.本发明涉及自然语言处理技术领域,尤其涉及一种文本处理方法、装置、电子设备及存储介质。


背景技术:

2.通过对文本进行句法分析,可以对文本进行更加全面的理解。
3.目前,在对文本进行句法分析时,大多是通过更加强大的编码器,而缺乏对文本表征的分析。基于这样的方法得到的分析结果,往往容遗漏文本中的重要信息,也就是说,对文本的句法结构分析不够细致,可能导致对文本的句法分析结果不够准确。
4.为了解决上述问题,需要对文本分析方法进行改进。


技术实现要素:

5.本发明提供了一种文本处理方法、装置、电子设备及存储介质,以解决对文本分析颗粒度大,导致文本的句法成分分析结果不够准确的问题。
6.第一方面,本发明实施例提供了一种文本处理方法,包括:
7.获取待分析文本,并确定与所述待分析文本相对应的原始向量;
8.从所述待分析文本中提取至少一个待使用分词,并确定各待使用分词所对应的待使用向量;
9.根据各待使用向量以及相应的待使用权重,得到所述待分析文本的待拼接向量;
10.将所述待拼接向量与所述原始向量进行拼接处理,得到目标向量,以基于所述目标向量对所述待分析文本进行文本分析。
11.第二方面,本发明实施例还提供了一种文本处理装置,包括:
12.原始向量确定模块,用于获取待分析文本,并确定与所述待分析文本相对应的原始向量;
13.待使用向量确定模块,用于从所述待分析文本中提取至少一个待使用分词,并确定各待使用分词所对应的待使用向量;
14.待拼接向量确定模块,用于根据各待使用向量以及相应的待使用权重,得到所述待分析文本的待拼接向量;
15.目标向量确定模块,用于将所述待拼接向量与所述原始向量进行拼接处理,得到目标向量,以基于所述目标向量对所述待分析文本进行文本分析。
16.第三方面,本发明实施例还提供了一种电子设备,包括:
17.至少一个处理器;以及
18.与所述至少一个处理器通信连接的存储器;其中,
19.所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的文本处理方法。
20.第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的文本处理方法。
21.本发明实施例的技术方案,通过获取待分析文本,并确定与所述待分析文本相对应的原始向量,通过bert模型可以得到与待分析文本相对应的原始向量,以将本技术方案得到的待拼接向量与原始向量进行拼接处理,得到目标向量。从所述待分析文本中提取至少一个待使用分词,并确定各待使用分词所对应的待使用向量,分别确定各待使用分词所对应的分词类别,并基于嵌入函数确定各待使用分词所对应的待使用向量。进一步的,根据各待使用向量以及相应的待使用权重,得到所述待分析文本的待拼接向量,根据各分词类别所对应的权重可以确定相应的待使用向量所对应的待使用权重,以根据各待使用向量以及相应的待使用权重,得到待拼接向量。最后将所述待拼接向量与所述原始向量进行拼接处理,得到目标向量,以基于所述目标向量对所述待分析文本进行文本分析。解决了对文本分析颗粒度大,导致文本的句法成分分析结果不够准确的问题,取到了准确的对文本的句法成分结构进行分析的效果。
22.应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
23.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
24.图1是根据本发明实施例一提供的一种文本处理方法的流程图;
25.图2是根据本发明实施例二提供的一种文本处理的模型结构示意图;
26.图3是根据本发明实施例三提供的一种文本处理装置的结构示意图;
27.图4是实现本发明实施例的文本处理方法的电子设备的结构示意图。
具体实施方式
28.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
29.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
30.实施例一
31.图1为本发明实施例一提供了一种文本处理方法的流程图,本实施例可适用于对
文本的句法成分进行更加细致准确的分析的情况,该方法可以由文本处理装置来执行,该文本处理装置可以采用硬件和/或软件的形式实现,该文本处理装置可配置于可执行文本处理方法的计算设备中。
32.如图1所示,该方法包括:
33.s110、获取待分析文本,并确定与待分析文本相对应的原始向量。
34.其中,待分析文本可以理解为需要进行句法成分分析的文本。原始向量可以理解为对待分析文本进行向量化处理后得到的向量,如可以通过现有的语言表征模型对待分析文本进行向量化处理,得到原始向量。
35.在实际应用中,对文本进行句法成分分析是自然语言处理的基础性工作,在句法成分分析的基础上,可以进一步的对文本进行观点抽取或情感分析等操作。对于简单成分结构的文本进行分析时,通常能够较为准确的得到该文本中的句法成分信息,但是对于结构较为复杂的文本,进行句法分析的难度较高,导致可能遗漏文本中的重要信息。如,现有技术中,可以对文本进行向量化处理,并通过文本所对应的末端向量与首端向量相减,以得到该文本所对应的句法成分信息,但这样的分析方法较为粗糙,难以从文本中得到较为准确的句法成分信息。
36.具体的,获取需要进行句法成分分析的待分析文本,并确定与待分析文本相对应的原始向量。可选的,确定与待分析文本相对应的原始向量,包括:基于语言表征模型,对待分析文本中的至少一个待使用分词进行向量处理,得到相应的待使用隐向量;针对各待使用隐向量,基于相对于当前隐向量的后一隐向量以及当前隐向量的差值,得到待分析文本所对应的原始向量。
37.其中,语言表征模型(bidirectionalencoder representations from transformer,bert)具有强大的语言表征能力和特征提取能力,在本技术方案中,可以基于bert模型对待分析文本进行特征提取,并生成与待分析文本相对应的原始向量。可以理解的是,待分析文本中包括至少一个分词,在本技术方案中,将各分词称为待使用分词。通过对各待使用分词分别进行向量化处理,可以得到相应的待使用隐向量,以基于各待使用隐向量得到与待分析文本相对应的原始向量。
38.在实际应用中,对待分析文本进行分词处理,得到至少一个待使用分词,并基于bert模型对各待使用模型进行编码,得到相应的待使用隐向量,通过各待使用隐向量进行拼接,即可得到与待分析文本相对应的文本向量。具体的,可以通过以下公式确定:
39.h1…hi
…hj
…hn
=bert(x1…
xi…
xj…
xn)
40.其中,hi表示待使用隐向量,xi表示待使用分词。
41.其中,i、j和n为自然数,用于表示待使用隐向量文本向量中的位置,以及待使用分词在待分析文本中的位置。
42.基于上述阐述可知,在上述文本向量中包括至少一个待使用隐向量,针对各待使用隐向量,利用相对于当前隐向量的后一隐向量以及当前隐向量的差值,可以得到相应的差值向量,并将其作为与当前隐向量相对应的原始向量。需要说明的是,在本技术方案中,为了使得对待分析文本的句法成分分析的结果更加准确,可以将待分析文本划分为多个文本区间,每个文本区间内包括至少一个待使用分词,通过各待使用分词所对应的待使用隐向量,可以得到与各待使用分词相对应的原始向量,以基于各待使用分词的原始向量对待
分析文本进行更加细致的分析。
43.具体的,以其中一个待使用隐向量作为当前隐向量为例,可以基于以下公式得到与当前隐向量相对应的原始向量:
44.r
i,j
=h
j-hi45.其中,r
i,j
表示与当前隐向量相对应的原始向量,hj表示相对于当前隐向量的后一隐向量,hj表示当前隐向量。
46.s120、从待分析文本中提取至少一个待使用分词,并确定各待使用分词所对应的待使用向量。
47.需要说明的是,本技术方案对待分析文本进行句法成分分析是在现有的句法分析的基础上,进行进一步的优化,也就是说,本技术方案中的原始向量是基于现有技术对待分析文本进行句法成分分析的结果,而本技术方案是在与待分析文本相对应的原始向量的基础上,更加细致的对待分析文本进行句法成分的分析。由于在确定原始向量时也用到了待使用分词所对应的向量,为了方便区分,将确定原始向量时,待使用分词所对应的向量称为待使用隐向量,将基于本技术方案进行优化时,待使用分词所对应的向量称为待使用向量。
48.其中,待使用向量即为基于本技术方案的向量处理方法对待分析文本进行向量化处理后得到的向量。
49.具体的,对待分析文本进行分析时,需要确定待分析文本中的各待使用分词所对应的待使用向量。在本技术方案中,确定各待使用分词所对应的待使用向量,包括:分别确定各待使用分词所对应的分词类别;针对各分词类别,对当前分词类别中的至少一个待使用分词进行向量处理,得到相应的待使用向量。
50.在本技术方案中,分词类别可以理解为n元组类别,所谓n元组即为基于连续的词语组成的词块。示例性地,待分析文本为“在操场上”,对待分析文本进行分词,可以得到3个待使用分词,分别为“在”、“操场”和“上”,则该待分析文本可对应三个不同的n元组,即一元组:“在”、“操场”和“上”;二元组:“在操场”和“上”,以及“在”和“操场上”;三元组:“在操场上”。进一步的,分别对各n元组类别中的待使用分词进行向量处理,即可得到相应的待使用向量。
51.在本技术方案中,以对当前分词类别中的待使用分词进行向量处理为例,对当前分词类别中的至少一个待使用分词进行向量处理,得到相应的待使用向量,包括:基于嵌入函数,分别对当前分词类别中的至少一个待使用分词进行向量处理,得到相应的待使用向量。
52.在本技术方案中,嵌入函数可以基于预先构建的嵌入矩阵,确定与各待使用分词相对应的待使用向量。具体的,基于嵌入函数,分别对当前分词类别中的至少一个待使用分词进行向量处理,得到相应的待使用向量,包括:调取预先构建的嵌入矩阵,并确定当前分词类别中至少一个待使用分词所对应的矩阵映射元素;基于各矩阵映射元素,确定当前分词类别中相应的待使用分词所对应的待使用向量。
53.其中,矩阵映射元素可以理解为待使用分词所对应的嵌入矩阵中的元素,具体可以为待使用分词所对应的嵌入矩阵的行数序号元素。
54.示例性地,预先构建的嵌入矩阵中可以包括大量的待使用分词,将各待使用分词有序的放置在嵌入矩阵中,并生成相应的矩阵映射元素。需要说明的是,每个待使用分词在
嵌入矩阵中对应唯一的向量,基于此,基于预先构建的嵌入矩阵,以及待使用分词在嵌入矩阵中的所对应的矩阵映射元素,可以确定待使用分词所对应的待使用向量。如,“操场”在嵌入矩阵中所对应的矩阵映射元素为“11”,其表明,“操场”在嵌入矩阵中的第11个位置,即,与该矩阵映射元素所对应的唯一向量即为“操场”所对应的待使用向量。
55.也就是说,在本技术方案中,为了能够确定各待使用分词所对应的待使用向量,可以先确定各待使用分词在预先构建的嵌入矩阵中的矩阵映射元素,以根据各矩阵映射元素所对应的唯一向量,确定相应的待使用分词所对应的待使用向量。
56.s130、根据各待使用向量以及相应的待使用权重,得到待分析文本的待拼接向量。
57.其中,待拼接向量可以用于与原始向量进行拼接,得到目标向量,以基于目标向量对待分析文本进行更加细致的句法成分分析。
58.在本技术方案中,对待分析文本进行分析时,先对待分析文本进行文本区间的划分,得到至少一个文本区间,也就是至少一个分词类别,且不同的分词类别中包括至少一个待使用分词,每个待使用分词对应唯一的待使用向量。需要说明的是,各待使用向量所对应的待使用权重与相应的分词类别所对应的权重相一致。也就是说,若当前分词类别中包括3个待使用分词,且3个待使用分词分别对应不同的待使用向量,若当前分词类别所对应的权重值为0.2,则这3个待使用向量所对应的待使用权重均为0.2。
59.在实际应用中,各分词类别中的待使用分词的数量可以为一个,也可以为多个。以当前分词类别为例,在确定当前分词类别所对应的权重,也即待使用权重时,可以基于以下公式确定:
[0060][0061]
其中,表示待使用权重,exp表示以自然常数e为底的指数函数,r
i,j
表示原始向量,表示n元组的待使用向量,表示n元组的数量。
[0062]
进一步的,根据各待使用向量以及相应的待使用权重,得到待分析文本的待拼接向量,包括:根据各待使用向量以及原始向量,分别确定相应的待使用权重;根据各待使用向量,以及相应的待使用权重进行加权平均处理,得到待分析文本所对应的待拼接向量。
[0063]
具体的,可以通过以下公式得到待拼接向量:
[0064]
首先确定各x元组所对应的加权平均向量
[0065][0066]
其中,表示n元组的加权平均向量,表示待使用权重,表示待使用向量,
·
为向量内积符号。
[0067]
接下来,将所有类别的n元组加权平均向量进行拼接处理,得到包含n元组信息的
向量(即,待拼接向量):
[0068][0069]
其中,a
i,j
表示待拼接向量,为向量拼接符号,表示n元组的加权平均向量。
[0070]
s140、将待拼接向量与原始向量进行拼接处理,得到目标向量,以基于目标向量对待分析文本进行文本分析。
[0071]
其中,目标向量可以理解为基于各待使用向量进行拼接,得到的与待分析文本相对应的向量。
[0072]
具体的,可以基于以下公式确定目标向量:
[0073][0074]
其中,r

i,j
表示目标向量,a
i,j
表示待拼接向量,r
i,j
表示原始向量,为向量拼接符号。
[0075]
可选的,将待拼接向量与原始向量进行拼接处理,得到目标向量,以基于目标向量对待分析文本进行文本分析,包括:基于预先构建的编码器,对待拼接向量和原始向量进行拼接处理,得到目标向量;将目标向量输入预先构建的句法分析模型,以基于句法分析模型对待分析文本进行分析。
[0076]
具体的,在原始向量的基础上,将本技术方案对待分析文本处理得到的目标向量拼接,可以弥补现有技术中对待分析文本的分析较为粗糙,导致分析结果不够准确的问题。也就是说,本技术方案在现有的对待分析文本的向量表征的基础上,添加了各待使用分词所对应的向量表征信息,将两者相结合,可以得到更多的与待分析文本相对应的句法结构信息。因此,基于预先构建的句法分析模型对目标向量进行分析,可以得到更加准确的分析结果。
[0077]
本发明实施例的技术方案,通过获取待分析文本,并确定与所述待分析文本相对应的原始向量,通过bert模型可以得到与待分析文本相对应的原始向量,以将本技术方案得到的待拼接向量与原始向量进行拼接处理,得到目标向量。从所述待分析文本中提取至少一个待使用分词,并确定各待使用分词所对应的待使用向量,分别确定各待使用分词所对应的分词类别,并基于嵌入函数确定各待使用分词所对应的待使用向量。进一步的,根据各待使用向量以及相应的待使用权重,得到所述待分析文本的待拼接向量,根据各分词类别所对应的权重可以确定相应的待使用向量所对应的待使用权重,以根据各待使用向量以及相应的待使用权重,得到待拼接向量。最后将所述待拼接向量与所述原始向量进行拼接处理,得到目标向量,以基于所述目标向量对所述待分析文本进行文本分析。解决了对文本分析颗粒度大,导致文本的句法成分分析结果不够准确的问题,取到了准确的对文本的句法成分结构进行分析的效果。
[0078]
实施例二
[0079]
在一个具体的例子中,本技术方案对待分析文本进行分析的模型如下所图2所示,以待分析文本为“并且在操场上踢球”为例,现有技术对待分析文本进行句法成分分析时,通常采用基于图结构的方法,具体的,可以使用编码器,如bert模型对包含q个待使用分词的待分析文本进行编码,得到相应的隐向量(其中,第i个分词的
待使用隐向量为hi),公式如下:
[0080]
h1…hi
…hj
…hn
=bert(x1…
xi…
xj…
xn)
[0081]
其中,hi表示待使用隐向量,xi表示待使用分词。
[0082]
其中,i、j和n为自然数,用于表示待使用隐向量文本向量中的位置,以及待使用分词在待分析文本中的位置。
[0083]
进一步的,通过以下公式可以得到每个文本区间(xi,xj)=xi…
x
j-1
的向量表征r
i,j

[0084]ri,j
=h
j-hi[0085]
其中,r
i,j
表示与当前隐向量相对应的原始向量,hj表示相对于当前隐向量的后一隐向量,hi表示当前隐向量。
[0086]
接下来,可以使用两个全连接层(其中矩阵w1和偏移向量b1为第一个全连接层的参数;矩阵w2和偏移向量b2为第二个全连接层的参数;relu是激活函数),把r
i,j
映射为向量o
i,j

[0087]oi,j
=w2·
(relu(w1·ri,j
+b1))+b2[0088]
其中,向量o
i,j
的维数等于句法成分类别(例如名词短语(np)、动词短语(vp)、介词短语(pp)等)的数量,该向量的某个维度对应的值,代表了文本区间(xi,xj)属于某个句法成分类别l的分数,分数记为s(i,j,l)。
[0089]
最后,将待分析文本的所有文本区间分数s(i,j,l)输入cocke-younger-kasami(cyk)算法,计算得到分数最高的,最优的合法句法树。
[0090]
本技术方案在上述句法成分分析的基础上,对待分析文本进行进一步的优化分析。具体的,对待分析文本进行文本区间的划分,得到至少一个文本区间,并确定各文本区间所对应的分词类别,即,根据待使用分词的数量,确定相应的分词类别。在实际应用中,可以依据现有的n元组词表n,提取文本区间(xi,xj)中所有匹配的n元组(即,如果一个词表n中的n元组是文本区间(xi,xj)的子串,则提取该n元组)。接下来,依次提取n元组的长度,将各n元组分别对应到不同的分词类别中,记属于第u个类别的第v个n元组为第u个类别里面一共有个n元组。
[0091]
示例性地,待分析文本为“在操场上”,对待分析文本进行分词,可以得到3个待使用分词,分别为“在”、“操场”和“上”,则该待分析文本可对应三个不同的n元组,即一元组:“在”、“操场”和“上”;二元组:“在操场”和“上”,以及“在”和“操场上”;三元组:“在操场上”。
[0092]
进一步的,基于嵌入函数,把n元组映射为n元组嵌入具体的,可以在预先构建的嵌入矩阵中,提取对在嵌入矩阵中所对应的序号的行数(即,矩阵映射元素),并提取行数所对应的向量为待使用分词所对应的待使用向量。
[0093]
进一步的,对于类别u中的n元组,可以通过以下公式确定当前类别的n元组的权重也即待使用权重:
[0094][0095]
其中,表示待使用权重,exp表示以自然常数e为底的指数函数,r
i,j
表示原始向量,表示n元组的待使用向量,表示n元组的数量。
[0096]
通过以下公式,计算类别u的n元组的加权平均向量
[0097][0098]
其中,表示n元组的加权平均向量,表示待使用权重,表示待使用向量,
·
为向量内积符号。
[0099]
接下来,将所有类别的n元组加权平均向量进行拼接处理,得到包含n元组信息的向量(即,待拼接向量):
[0100][0101]
其中,a
i,j
表示待拼接向量,为向量拼接符号,表示n元组的加权平均向量。
[0102]
最后,基于以下公式,将待拼接向量与原始向量进行拼接处理,得到目标向量:
[0103][0104]
其中,r

i,j
表示目标向量,a
i,j
表示待拼接向量,r
i,j
表示原始向量,为向量拼接符号。
[0105]
进一步的,基于目标向量对待分析文本进行句法成分分析可以得到句法成分分析结果。
[0106]
与现有技术相比,本技术方案的优势在于,将待分析文本划分为多个子文本区间,并分别对各文本区间的文本进行n元组的确定,并根据各n元组对句法成分分析的影响设定相应的权重,以在对基于各n元组对待分析文本进行分析时,文本分析的颗粒度更细,对待分析文本的分析结果更加准确。
[0107]
本发明实施例的技术方案,通过获取待分析文本,并确定与所述待分析文本相对应的原始向量,通过bert模型可以得到与待分析文本相对应的原始向量,以将本技术方案得到的待拼接向量与原始向量进行拼接处理,得到目标向量。从所述待分析文本中提取至少一个待使用分词,并确定各待使用分词所对应的待使用向量,分别确定各待使用分词所对应的分词类别,并基于嵌入函数确定各待使用分词所对应的待使用向量。进一步的,根据各待使用向量以及相应的待使用权重,得到所述待分析文本的待拼接向量,根据各分词类别所对应的权重可以确定相应的待使用向量所对应的待使用权重,以根据各待使用向量以及相应的待使用权重,得到待拼接向量。最后将所述待拼接向量与所述原始向量进行拼接处理,得到目标向量,以基于所述目标向量对所述待分析文本进行文本分析。解决了对文本
分析颗粒度大,导致文本的句法成分分析结果不够准确的问题,取到了准确的对文本的句法成分结构进行分析的效果。
[0108]
实施例三
[0109]
图3为本发明实施例三提供的一种文本处理装置的结构示意图。如图3所示,该装置包括:原始向量确定模块210、待使用向量确定模块220、待拼接向量确定模块230和目标向量确定模块240。
[0110]
其中,原始向量确定模块210,用于获取待分析文本,并确定与待分析文本相对应的原始向量;
[0111]
待使用向量确定模块220,用于从待分析文本中提取至少一个待使用分词,并确定各待使用分词所对应的待使用向量;
[0112]
待拼接向量确定模块230,用于根据各待使用向量以及相应的待使用权重,得到待分析文本的待拼接向量;
[0113]
目标向量确定模块240,用于将待拼接向量与原始向量进行拼接处理,得到目标向量,以基于目标向量对待分析文本进行文本分析。
[0114]
本发明实施例的技术方案,通过获取待分析文本,并确定与所述待分析文本相对应的原始向量,通过bert模型可以得到与待分析文本相对应的原始向量,以将本技术方案得到的待拼接向量与原始向量进行拼接处理,得到目标向量。从所述待分析文本中提取至少一个待使用分词,并确定各待使用分词所对应的待使用向量,分别确定各待使用分词所对应的分词类别,并基于嵌入函数确定各待使用分词所对应的待使用向量。进一步的,根据各待使用向量以及相应的待使用权重,得到所述待分析文本的待拼接向量,根据各分词类别所对应的权重可以确定相应的待使用向量所对应的待使用权重,以根据各待使用向量以及相应的待使用权重,得到待拼接向量。最后将所述待拼接向量与所述原始向量进行拼接处理,得到目标向量,以基于所述目标向量对所述待分析文本进行文本分析。解决了对文本分析颗粒度大,导致文本的句法成分分析结果不够准确的问题,取到了准确的对文本的句法成分结构进行分析的效果。
[0115]
可选的,原始向量确定模块包括:隐向量确定子模块,用于基于语言表征模型,对待分析文本中的至少一个待使用分词进行向量处理,得到相应的待使用隐向量;
[0116]
原始向量确定子模块,用于针对各待使用隐向量,基于相对于当前隐向量的后一隐向量以及当前隐向量的差值,得到待分析文本所对应的原始向量。
[0117]
可选的,待使用向量确定模块包括:分词类别确定子模块,用于分别确定各待使用分词所对应的分词类别;其中,分词类别中包括至少一个待使用分词;
[0118]
待使用向量确定子模块,用于针对各分词类别,对当前分词类别中的至少一个待使用分词进行向量处理,得到相应的待使用向量。
[0119]
可选的,待使用向量确定子模块包括:待使用向量确定单元,用于基于嵌入函数,分别对当前分词类别中的至少一个待使用分词进行向量处理,得到相应的待使用向量。
[0120]
可选的,待使用向量确定单元包括:映射元素确定子单元,用于调取预先构建的嵌入矩阵,并确定当前分词类别中至少一个待使用分词所对应的矩阵映射元素;
[0121]
待使用向量确定子单元,用于基于各矩阵映射元素,确定当前分词类别中相应的待使用分词所对应的待使用向量。
[0122]
可选的,待拼接向量确定模块包括:权重确定子模块,用于根据各待使用向量以及原始向量,分别确定相应的待使用权重;
[0123]
待拼接向量确定子模块,用于根据各待使用向量,以及相应的待使用权重进行加权平均处理,得到待分析文本所对应的待拼接向量。
[0124]
可选的,目标向量确定模块包括:目标向量确定子模块,用于基于预先构建的编码器,对待拼接向量和原始向量进行拼接处理,得到目标向量;
[0125]
文本分析子模块,用于将目标向量输入预先构建的句法分析模型,以基于句法分析模型对待分析文本进行分析。
[0126]
本发明实施例所提供的文本处理装置可执行本发明任意实施例所提供的文本处理方法,具备执行方法相应的功能模块和有益效果。
[0127]
实施例四
[0128]
图4示出了本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
[0129]
如图4所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(rom)12、随机访问存储器(ram)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(rom)12中的计算机程序或者从存储单元18加载到随机访问存储器(ram)13中的计算机程序,来执行各种适当的动作和处理。在ram 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、rom 12以及ram 13通过总线14彼此相连。输入/输出(i/o)接口15也连接至总线14。
[0130]
电子设备10中的多个部件连接至i/o接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0131]
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如文本处理方法。
[0132]
在一些实施例中,文本处理方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由rom 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到ram 13并由处理器11执行时,可以执行上文描述的文本处理方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本处理方法。
[0133]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电
路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0134]
用于实施本发明的文本处理方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0135]
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0136]
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0137]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)、区块链网络和互联网。
[0138]
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务中,存在的管理难度大,业务扩展性弱的缺陷。
[0139]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例
如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
[0140]
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1