一种获取近义词的方法和装置与流程

文档序号:12470062阅读:199来源:国知局
一种获取近义词的方法和装置与流程

本发明涉及计算机技术领域,特别涉及一种获取近义词的方法和装置。



背景技术:

在日常生活学习中,很多情况下会需要知道某个词语的近义词,当用户需要获知某个词语的近义词时,可以通过近义词库查询该词语对应的近义词,由此,建立近义词库显得尤为重要。

目前,确定近义词库中互为近义词的词语的方法往往是:需要专业人员对每个词语进行语义分析,然后,确定语义相近的词语,将确定出的语义相近的词语确定为互为近义词的词语。

在实现本发明的过程中,发明人发现现有技术至少存在以下问题:

基于上述处理方式,需要人工判断互为近义词的词语,从而,导致确定近义词的效率较低。



技术实现要素:

为了解决现有技术的问题,本发明实施例提供了一种获取近义词的方法和装置。所述技术方案如下:

第一方面,提供了一种获取近义词的方法,所述方法包括:

获取第一三元组数据,其中,所述第一三元组数据包含的三个元素中的第一元素、第二元素和第三元素分别为主语、谓语和宾语中的一者,所述第一元素为待确定近义词的词语;

在预先存储的参考库包含的所有三元组数据中,确定第二元素、第三元素分别与所述第一三元组数据中的第二元素、第三元素相匹配,且第一元素与所述第一三元组数据中的第一元素不匹配的目标三元组数据;

根据所述目标三元组数据中的第一元素,确定所述第一三元组数据中的第一元素的近义词。

可选的,所述获取第一三元组数据,包括:

获取第一文本信息;

对所述第一文本信息进行自然语言分析处理,确定所述第一文本信息的主语、谓语和宾语,并将所述主语、谓语和宾语作为第一三元组数据的三个元素,得到所述第一三元组数据。

可选的,所述根据所述目标三元组数据中的第一元素,确定所述第一三元组数据中的第一元素的近义词,包括:

如果所述目标三元组数据的数量为一个,或者所述目标三元组数据的数量为多个且多个目标三元组数据中的第一元素互相匹配,则在所述参考库中获取第一元素分别与所述第一三元组数据中的第一元素、每个目标三元组数据中的第一元素匹配的三元组数据;

基于获取到的三元组数据,确定能够组成的第一类三元组数据集合的数量,其中,每个第一类三元组数据集合中存在第一元素与所述第一三元组数据中的第一元素匹配的三元组数据,存在第一元素与所述目标三元组数据中的第一元素匹配的三元组数据,且所述每个第一类三元组数据集合包含的多个三元组数据中的第二元素互相匹配、第三元素互相匹配;

如果所述第一类三元组数据集合的数量满足预设的数量条件,则将所述每个目标三元组数据中的第一元素确定为所述第一三元组数据中的第一元素的近义词。

这样,当第一类三元组数据集合的数量较多时,说明第一三元组数据中的第一元素与目标三元组数据中的第一元素互为近义词的可能性较大,从而,可以提高确定出的近义词的准确性。

可选的,所述如果所述第一类三元组数据集合的数量满足预设的数量条件,则将所述每个目标三元组数据中的第一元素确定为所述第一三元组数据中的第一元素的近义词,包括:

基于获取到的三元组数据中除所述第一类三元组数据集合包含的三元组数据之外的三元组数据,确定能够组成的第二类三元组数据集合的数量,其中,每个第二类三元组数据集合包含的三元组数据中的第一元素均与所述第一三元组数据中的第一元素匹配,且所述每个第二类三元组数据集合包含的三元组数据中的第二元素互相匹配、第三元素互相匹配,或者,所述每个第二类三元组数据集合包含的三元组数据中的第一元素均与所述目标三元组数据中的第一元素匹配,且所述每个第二类三元组数据集合包含的三元组数据中的第二元素互相匹配、第三元素互相匹配;

确定所述第一类三元组数据集合的数量在所述第一类三元组数据集合的数量与所述第二类三元组数据集合的数量的总和中所占的数量比例;

如果所述数量比例达到预设比例阈值,则将每个目标三元组数据的第一元素确定为所述第一三元组数据中的第一元素的近义词。

可选的,所述方法还包括:

如果所述参考库中未包含有所述第一三元组数据,则将所述第一三元组数据添加到所述参考库中。

这样,可以用于后续确定其它三元组数据中的第一元素的近义词。

第二方面,提供了一种获取近义词的装置,所述装置包括:

获取模块,用于获取第一三元组数据,其中,所述第一三元组数据包含的三个元素中的第一元素、第二元素和第三元素分别为主语、谓语和宾语中的一者,所述第一元素为待确定近义词的词语;

第一确定模块,用于在预先存储的参考库包含的所有三元组数据中,确定第二元素、第三元素分别与所述第一三元组数据中的第二元素、第三元素相匹配,且第一元素与所述第一三元组数据中的第一元素不匹配的目标三元组数据;

第二确定模块,用于根据所述目标三元组数据中的第一元素,确定所述第一三元组数据中的第一元素的近义词。

可选的,所述获取模块,包括:

第一获取子模块,用于获取第一文本信息;

第一确定子模块,用于对所述第一文本信息进行自然语言分析处理,确定所述第一文本信息的主语、谓语和宾语,并将所述主语、谓语和宾语作为第一三元组数据的三个元素,得到所述第一三元组数据。

可选的,所述第二确定模块,包括:

第二获取子模块,用于如果所述目标三元组数据的数量为一个,或者所述目标三元组数据的数量为多个且多个目标三元组数据中的第一元素互相匹配,则在所述参考库中获取第一元素分别与所述第一三元组数据中的第一元素、每个目标三元组数据中的第一元素匹配的三元组数据;

第二确定子模块,用于基于获取到的三元组数据,确定能够组成的第一类三元组数据集合的数量,其中,每个第一类三元组数据集合中存在第一元素与所述第一三元组数据中的第一元素匹配的三元组数据,存在第一元素与所述目标三元组数据中的第一元素匹配的三元组数据,且所述每个第一类三元组数据集合包含的多个三元组数据中的第二元素互相匹配、第三元素互相匹配;

第三确定子模块,用于如果所述第一类三元组数据集合的数量满足预设的数量条件,则将所述每个目标三元组数据中的第一元素确定为所述第一三元组数据中的第一元素的近义词。

可选的,所述第三确定子模块,包括:

第一确定单元,用于基于获取到的三元组数据中除所述第一类三元组数据集合包含的三元组数据之外的三元组数据,确定能够组成的第二类三元组数据集合的数量,其中,每个第二类三元组数据集合包含的三元组数据中的第一元素均与所述第一三元组数据中的第一元素匹配,且所述每个第二类三元组数据集合包含的三元组数据中的第二元素互相匹配、第三元素互相匹配,或者,所述每个第二类三元组数据集合包含的三元组数据中的第一元素均与所述目标三元组数据中的第一元素匹配,且所述每个第二类三元组数据集合包含的三元组数据中的第二元素互相匹配、第三元素互相匹配;

第二确定单元,用于确定所述第一类三元组数据集合的数量在所述第一类三元组数据集合的数量与所述第二类三元组数据集合的数量的总和中所占的数量比例;

第三确定单元,用于如果所述数量比例达到预设比例阈值,则将每个目标三元组数据的第一元素确定为所述第一三元组数据中的第一元素的近义词。

可选的,所述装置还包括添加模块,用于:

如果所述参考库中未包含有所述第一三元组数据,则将所述第一三元组数据添加到所述参考库中。

本发明实施例提供的技术方案带来的有益效果是:

本发明实施例中,服务器可以在预先存储的参考库包含的所有三元组数据中,确定第二元素、第三元素分别与第一三元组数据中的第二元素、第三元素相匹配,且第一元素与第一三元组数据中的第一元素不匹配的目标三元组数据,进而,可以根据确定出的目标三元组数据的第一元素,确定第一三元组数据中的第一元素的近义词。这样,服务器可以自动确定第一三元组数据中的第一元素的近义词,无需专业人员对词语进行语义分析,从而,可以提高确定近义词的效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种获取近义词的方法流程图;

图2是本发明实施例提供的一种知识图谱示意图;

图3是本发明实施例提供的一种确定近义词的示意图;

图4是本发明实施例提供的一种获取近义词的装置结构示意图;

图5是本发明实施例提供的一种获取近义词的装置结构示意图;

图6是本发明实施例提供的一种获取近义词的装置结构示意图;

图7是本发明实施例提供的一种获取近义词的装置结构示意图;

图8是本发明实施例提供的一种获取近义词的装置结构示意图;

图9是本发明实施例提供的一种服务器结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种获取近义词的方法,该方法的执行主体为服务器。其中,该服务器可以是具有确定近义词功能的服务器。该服务器中可以设置有处理器、存储器,处理器可以用于确定第一三元组数据中的第一元素的近义词的相关处理,存储器可以用于存储下述处理过程中需要和产生的数据。

下面将结合具体实施方式,对图1所示的处理流程进行详细的说明,内容可以如下:

步骤101,获取第一三元组数据,其中,第一三元组数据包含的三个元素中的第一元素、第二元素和第三元素分别为主语、谓语和宾语中的一者,第一元素为待确定近义词的词语。

在本实施例中,为建立近义词库,服务器可以确定词语的近义词。具体的,服务器中可以预先存储有参考库,其中,参考库中存储有大量三元组数据,三元组数据包括三个元素,三个元素可以分别是主语、谓语和宾语,三个元素可以分别称为第一元素、第二元素和第三元素,参考库中存储的三元组数据可以由预先存储的知识图谱得到,其中,知识图谱是由众多顶点和边构成的网状结构,顶点表示实例,边表示实例之间的关系,由知识图谱得到三元组数据的示意图如图2所示。另外,服务器中还可以存储有预备库,其中,预备库中可以存储有待确定第一元素近义词的三元组数据。

服务器可以获取待确定第一元素近义词的第一三元组数据,其中,服务器可以按照存储顺序依次从预备库中获取其中包含的待确定第一元素近义词的三元组数据(即第一三元组数据),也可以通过对获取的文本信息进行自然语言分析处理,得到第一三元组数据。另外,第一元素可以是主语、谓语和宾语中的任意一个,当第一元素是主语时,第二元素、第三元素分别可以是谓语和宾语,当第一元素是谓语时,第二元素、第三元素可以分别是主语和宾语,当第一元素是宾语时,第二元素、第三元素可以分别是主语和谓语。

可选的,第一三元组数据可以是服务器通过对第一文本信息进行自然语言分析处理得到的,相应的,处理过程可以如下:获取第一文本信息;对第一文本信息进行自然语言分析处理,确定第一文本信息的主语、谓语和宾语,并将主语、谓语和宾语作为第一三元组数据的三个元素,得到第一三元组数据。

在实施中,服务器可以获取某文本信息(即第一文本信息),其中,可以从网络新闻中获取第一文本信息,然后对第一文本信息进行自然语言分析处理,删除虚词,提取第一文本信息中的主语、谓语和宾语,并将其作为第一三元组数据中的三个元素,进而,得到第一三元组数据。具体的,首先可以对第一文本信息进行分词、词性标注处理、句法依存分析或者语义依存分析,最终得到第一文本信息主语、谓语和宾语,即得到第一三元组数据。例如,第一文本信息为“任泉参演神话”,对第一文本信息进行分析、词性标记处理,得到任泉(名词)参演(动词)神话(名词),然后对其进行句法依存分析,得到“任泉”与“参演”是主谓关系,“参演”与“神话”是动宾关系,由此可以确定出第一文本信息的主语、谓语和宾语,另外,服务器还可以对第一文本信息进行语义依存分析,得到“任泉”与“参演”是施事关系,“参演”与“神话”是受事关系,由此可以确定出第一文本信息的主语、谓语和宾语。另外,服务器还可以对第一文本信息进行语义角色标注处理,得到“任泉”为动作执行者,“神话”为动作的影响者,“参演”为动作词,由此也可以确定出第一文本信息的主语、谓语和宾语。另外,服务器还可以综合上述分析处理,得到第一文本信息的主语、谓语和宾语。

此外,服务器也可以按照上述方法,对获取的所有文本信息进行自然语言分析处理,得到多组主语、谓语和宾语,并依次存储到预备库中,以便后续服务器可以从预备库中获取待确定第一元素近义词的三元组数据。

步骤102,在预先存储的参考库包含的所有三元组数据中,确定第二元素、第三元素分别与第一三元组数据中的第二元素、第三元素相匹配,且第一元素与第一三元组数据中的第一元素不匹配的目标三元组数据。

在实施中,服务器获取到第一三元组数据后,可以在参考库中包含的所有三元组数据中,选出第二元素、第三元素分别与第一三元组数据组中的第二元素、第三元素相同或互为近义词的三元组数据,可以将其存储在第一数据库中,然后,服务器可以判断第一数据库中是否为空,如果为空,则此次确定近义词的处理结束,如果不为空,则可以判断第一数据库中是否包含第一元素与第一三元组数据中的第一元素相同或互为近义词的三元组数据,如果包含,可以将其删除,此时,第一数据库中存储的三元组数据即是第二元素、第三元素分别与第一三元组数据的第二元素、第三元素相同或互为近义词,且第一元素与第一三元组数据中的第一元素不相同或不互为近义词的三元组数据(即目标三元组数据)。

例如,第一元素为谓语,第一三元组数据为[A x B],其中,A、x、B分别表示第一三元组数据的主语、谓语和宾语,服务器可以在参考库中的所有三元组数据中,查找主语与A相同或为A的近义词,且宾语为B或者为B的近义词的三元组数据,并将其存储在第一数据库中,比如查找到的三元组数据为[A x B]、[A y B]、[A y1 B]、[A1 x B]、[A1 x1 B1],其中,A1与A互为近义词,B1与B互为近义词,y1与y互为近义词,x1与x互为近义词,此时,第一数据库中包含有谓语与x相同或互为近义词的三元组数据[A x B]、[A1 x B]、[A1 x1 B1],服务器可以将其删除,此时,第一数据库中包含的三元组数据有[A y B]、[A y1 B],即[A y B]、[A y1 B]为确定出的目标三元组数据。

另外,如果删除第一元素与第一三元组数据中的第一元素相同或互为近义词的三元组数据后,第一数据库为空,即第一数据库中不包含目标三元组数据,则此次确定近义词的处理结束。

可选的,服务器还可以将第一三元组数据添加到参考库中,相应的,处理过程可以如下:如果参考库中未包含有第一三元组数据,则将第一三元组数据添加到参考库中。

在本实施例中,服务器还可以判断参考库中是否包含有第一三元组数据,如果参考库中未包含有第一三元组数据,可以将第一三元组数据添加到参考库中,以便后续可以用于确定其他三元组数据中的第一元素的近义词。

步骤103,根据目标三元组数据中的第一元素,确定第一三元组数据中的第一元素的近义词。

在实施中,服务器确定出目标三元组数据后,可以根据目标三元组数据中的第一元素,确定第一三元组数据中的第一元素的近义词。

可选的,确定出目标三元组数据后,服务器还可以根据参考库中的三元组数据,确定第一三元组数据中的第一元素最终的近义词,相应的,步骤103的处理过程可以如下:如果目标三元组数据的数量为一个,或者目标三元组数据的数量为多个且多个目标三元组数据中的第一元素互相匹配,则在参考库中获取第一元素分别与第一三元组数据中的第一元素、每个目标三元组数据中的第一元素匹配的三元组数据;基于获取到的三元组数据,确定能够组成的第一类三元组数据集合的数量,其中,每个第一类三元组数据集合中存在第一元素与第一三元组数据中的第一元素匹配的三元组数据,存在第一元素与目标三元组数据中的第一元素匹配的三元组数据,且每个第一类三元组数据集合包含的多个三元组数据中的第二元素互相匹配、第三元素互相匹配;如果第一类三元组数据集合的数量满足预设的数量条件,则将每个目标三元组数据中的第一元素确定为第一三元组数据中的第一元素的近义词。

在本实施例中,服务器确定出目标三元组数据后,可以判断目标三元组数据的数量,如果目标三元组数据的数量为一个,或者目标三元组数据的数量为多个且多个目标三元组数据中的第一元素相同或互为近义词,则服务器可以在参考库中的所有三元组数据中,获取第一元素分别与第一三元组数据中的第一元素、每个目标三元组数据中的第一元素匹配的三元组数据。

获取到满足条件的三元组数据后,服务器可以在获取到的三元组数据中,确定第二元素互相匹配(第二元素相同或互为近义词)、第三元素互相匹配(第三元素相同或互为近义词)的三元组数据集合,服务器可以进一步在确定出的三元组数据集合中,确定既存在第一元素与第一三元组数据中的第一元素匹配的三元组数据,又存在第一元素与目标三元组数据中的第一元素匹配的三元组数据的第一类三元组数据集合,相应的,服务器即可确定出第一类三元组数据集合的数量,其中,第一类三元组数据集合的数量至少为两个。

确定出第一类三元组数据集合的数量后,服务器可以判断第一类三元组数据集合的数量是否满足预设的数量条件,如果满足,则服务器可以将目标三元组数据的第一元素确定为第一三元组数据中的第一元素的近义词。

例如,第一元素为谓语,第一三元组数据是[A x B],其中,A、x、B分别表示第一三元组数据的主语、谓语和宾语,目标三元组数据为[A y B],其中,A、y、B分别表示目标三元组数据的主语、谓语和宾语,此时目标三元组数量为一个,进而,服务器可以从参考库中取出所有谓语为x、谓语为x的近义词、谓语为y、谓语为y的近义词的三元组数据,比如,取出的三元组数据为[A x B]、[C x D]、[C x E]、[D x E]、[A y B]、[A y1B]、[C y1D]、[C1y E]、[D y E]、[E y F]、[E y1F],其中,C1与C互为近义词,y1与y互为近义词,进而,服务器可以在取出的三元组数据中,按照上述方法确定能够组成的第一类三元组数据集合,其中,确定出的第一类三元组数据集合为{[A x B]、[A y B]、[A y1B]}(说明A对B既进行了x操作,又进行了y或y1操作)、{[C x D]、[C y1D]}、{[C x E]、[C1y E]}、{[D x E]、[D y E]}(其中,第一类三元组数据集合的数量越多,说明x与y互为近义词的可能性越大),进而,服务器可以确定出第一类三元组数据集合的数量为4,如果数量4满足预设的数量条件,则服务器可以将y确定为x的近义词。

另外,如果目标三元组数据的数量为多个,且多个三元组数据中存在第一元素不相匹配的三元组数据,则可以将第一三元组数据添加到临时库中;当后续确定其它三元组数据中的第一元素的近义词时,如果临时库中包含第一元素为确定出的近义词的三元组数据,则可以将该三元组数据从临时库中删除。

可选的,预设的数量条件可以是比例阈值,相应的,处理过程可以如下:基于获取到的三元组数据中除第一类三元组数据集合包含的三元组数据之外的三元组数据,确定能够组成的第二类三元组数据集合的数量,其中,每个第二类三元组数据集合包含的三元组数据中的第一元素均与第一三元组数据中的第一元素匹配,且每个第二类三元组数据集合包含的三元组数据中的第二元素互相匹配、第三元素互相匹配,或者,每个第二类三元组数据集合包含的三元组数据中的第一元素均与目标三元组数据中的第一元素匹配,且每个第二类三元组数据集合包含的三元组数据中的第二元素互相匹配、第三元素互相匹配;确定第一类三元组数据集合的数量在第一类三元组数据集合的数量与第二类三元组数据集合的数量的总和中所占的数量比例;如果数量比例达到预设比例阈值,则将每个目标三元组数据的第一元素确定为第一三元组数据中的第一元素的近义词。

在实施中,服务器确定出第一类三元组数据集合后,可以进一步确定第二类三元组数据集合,其中,第二类三元组数据集合包含的三元组数据的数量可以是一个,也可以是多个。具体的,服务器可以将确定出的第二元素互相匹配(第二元素相同或互为近义词)、第三元素互相匹配(第三元素相同或互为近义词)的三元组数据集合中除第一类三元组数据集合之外的三元组数据集合,确定为第二类三元组数据集合,其中,第二类三元组数据集合包含的三元组数据中的第一元素均与第一三元组数据中的第一元素匹配,且每个第二类三元组数据集合包含的三元组数据中的第二元素互相匹配、第三元素互相匹配,或者,每个第二类三元组数据集合包含的三元组数据中的第一元素均与目标三元组数据中的第一元素匹配,且每个第二类三元组数据集合包含的三元组数据中的第二元素互相匹配、第三元素互相匹配,进而,服务器可以确定第二类三元组数据集合的数量。

例如,服务器从参考库中取出的三元组数据为[A x B]、[C x D]、[C x E]、[D x E]、[A y B]、[A y1B]、[C y1D]、[C1y E]、[D y E]、[E y F]、[E y1F],则第二类三元组数据集合为{[E y F]、[E y1F]},此时,服务器即可确定出第二类三元组数据集合的数量为1个。

确定出第一类三元组数据集合的数量和第二类三元组数据集合的数量后,服务器可以确定第一类三元组数据集合的数量在第一类三元组数据集合的数量与第二类三元组数据集合的数量的总和中所占的数量比例(或者,第一类三元组数据集合的数量与第二类三元组数据集合的数量的数量比例,本发明实施例中,不对数量比例的分子、分母作限定),例如,第一类三元组数据集合的数量为4,第二类三元组数据集合为1个,可以确定出第一类三元组数据集合的数量在第一类三元组数据集合的数量与第二类三元组数据集合的数量的总和中所占的数量比例为0.8。

确定出数量比例后,服务器可以判断确定出的数量比例与预设比例阈值的关系,如果数量比例大于或等于预设比例阈值,则服务器可以将每个目标三元组数据的第一元素确定为第一三元组数据中的第一元素的近义词,并可以将其添加到预先存储的近义词库中,如图3所示,其中,预设比例阈值可以是由技术人员预先设置的。

本发明实施例中,服务器可以在预先存储的参考库包含的所有三元组数据中,确定第二元素、第三元素分别与第一三元组数据中的第二元素、第三元素相匹配,且第一元素与第一三元组数据中的第一元素不匹配的目标三元组数据,进而,可以根据确定出的目标三元组数据的第一元素,确定第一三元组数据中的第一元素的近义词。这样,服务器可以自动确定第一三元组数据中的第一元素的近义词,无需专业人员对词语进行语义分析,从而,可以提高确定近义词的效率。

基于相同的技术构思,本发明实施例还提供了一种获取近义词的装置,如图4所示,该装置包括:

获取模块410,用于获取第一三元组数据,其中,所述第一三元组数据包含的三个元素中的第一元素、第二元素和第三元素分别为主语、谓语和宾语中的一者,所述第一元素为待确定近义词的词语;

第一确定模块420,用于在预先存储的参考库包含的所有三元组数据中,确定第二元素、第三元素分别与所述第一三元组数据中的第二元素、第三元素相匹配,且第一元素与所述第一三元组数据中的第一元素不匹配的目标三元组数据;

第二确定模块430,用于根据所述目标三元组数据中的第一元素,确定所述第一三元组数据中的第一元素的近义词。

可选的,如图5所示,所述获取模块410,包括:

第一获取子模块4101,用于获取第一文本信息;

第一确定子模块4102,用于对所述第一文本信息进行自然语言分析处理,确定所述第一文本信息的主语、谓语和宾语,并将所述主语、谓语和宾语作为第一三元组数据的三个元素,得到所述第一三元组数据。

可选的,如图6所示,所述第二确定模块430,包括:

第二获取子模块4301,用于如果所述目标三元组数据的数量为一个,或者所述目标三元组数据的数量为多个且多个目标三元组数据中的第一元素互相匹配,则在所述参考库中获取第一元素分别与所述第一三元组数据中的第一元素、每个目标三元组数据中的第一元素匹配的三元组数据;

第二确定子模块4302,用于基于获取到的三元组数据,确定能够组成的第一类三元组数据集合的数量,其中,每个第一类三元组数据集合中存在第一元素与所述第一三元组数据中的第一元素匹配的三元组数据,存在第一元素与所述目标三元组数据中的第一元素匹配的三元组数据,且所述每个第一类三元组数据集合包含的多个三元组数据中的第二元素互相匹配、第三元素互相匹配;

第三确定子模块4303,用于如果所述第一类三元组数据集合的数量满足预设的数量条件,则将所述每个目标三元组数据中的第一元素确定为所述第一三元组数据中的第一元素的近义词。

可选的,如图7所示,所述第三确定子模块4303,包括:

第一确定单元43031,用于基于获取到的三元组数据中除所述第一类三元组数据集合包含的三元组数据之外的三元组数据,确定能够组成的第二类三元组数据集合的数量,其中,每个第二类三元组数据集合包含的三元组数据中的第一元素均与所述第一三元组数据中的第一元素匹配,且所述每个第二类三元组数据集合包含的三元组数据中的第二元素互相匹配、第三元素互相匹配,或者,所述每个第二类三元组数据集合包含的三元组数据中的第一元素均与所述目标三元组数据中的第一元素匹配,且所述每个第二类三元组数据集合包含的三元组数据中的第二元素互相匹配、第三元素互相匹配;

第二确定单元43032,用于确定所述第一类三元组数据集合的数量在所述第一类三元组数据集合的数量与所述第二类三元组数据集合的数量的总和中所占的数量比例;

第三确定单元43033,用于如果所述数量比例达到预设比例阈值,则将每个目标三元组数据的第一元素确定为所述第一三元组数据中的第一元素的近义词。

可选的,如图8所示,所述装置还包括添加模块440,用于:

如果所述参考库中未包含有所述第一三元组数据,则将所述第一三元组数据添加到所述参考库中。

本发明实施例中,服务器可以在预先存储的参考库包含的所有三元组数据中,确定第二元素、第三元素分别与第一三元组数据中的第二元素、第三元素相匹配,且第一元素与第一三元组数据中的第一元素不匹配的目标三元组数据,进而,可以根据确定出的目标三元组数据的第一元素,确定第一三元组数据中的第一元素的近义词。这样,服务器可以自动确定第一三元组数据中的第一元素的近义词,无需专业人员对词语进行语义分析,从而,可以提高确定近义词的效率。

需要说明的是:上述实施例提供的获取近义词的装置在获取近义词时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将服务器的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的获取近义词的装置与获取近义词的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

图9是本发明实施例提供的服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。

服务器1900可以包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:

获取第一三元组数据,其中,所述第一三元组数据包含的三个元素中的第一元素、第二元素和第三元素分别为主语、谓语和宾语中的一者,所述第一元素为待确定近义词的词语;

在预先存储的参考库包含的所有三元组数据中,确定第二元素、第三元素分别与所述第一三元组数据中的第二元素、第三元素相匹配,且第一元素与所述第一三元组数据中的第一元素不匹配的目标三元组数据;

根据所述目标三元组数据中的第一元素,确定所述第一三元组数据中的第一元素的近义词。

本发明实施例提供的服务器与上述实施例的获取近义词的方法和获取近义词的装置属于同一发明构思,用于执行上述实施例的获取近义词的方法,其具体实现过程详见方法实施例,这里不再赘述。

本发明实施例中,服务器可以在预先存储的参考库包含的所有三元组数据中,确定第二元素、第三元素分别与第一三元组数据中的第二元素、第三元素相匹配,且第一元素与第一三元组数据中的第一元素不匹配的目标三元组数据,进而,可以根据确定出的目标三元组数据的第一元素,确定第一三元组数据中的第一元素的近义词。这样,服务器可以自动确定第一三元组数据中的第一元素的近义词,无需专业人员对词语进行语义分析,从而,可以提高确定近义词的效率。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1