一种语义识别方法、相关装置以及设备与流程

文档序号:26263587发布日期:2021-08-13 19:15阅读:160来源:国知局
一种语义识别方法、相关装置以及设备与流程

本申请实施例涉及人工智能领域,尤其涉及一种语义识别方法、相关装置以及设备。



背景技术:

在自然语言处理中,一词多义是经常出现的情况,也是许多场景中需要解决的问题。无论是中文还是其他的语言,都会出现一词多义的情形。也即是说,相同的词语在不同的语境或者不同的上下文中,会呈现出不同的含义。如何准确识别多义词的具体含义成为了急需解决的问题。

一种语义识别的方式是,在对待识别多义词进行语义识别时,可以将同一句话中待识别多义词前后几个词作为参考词。由于参考词和待识别多义词在同一句话中,参考词对于待识别多义词的影响较大,因此,可以通过识别参考词的含义,来表征待识别多义词的含义。

在这种语义识别的方法中,若待识别多义词是一个语句中的首个词语或者最后一个词语,那么用来进行语义识别的参考词的数量就会减少,降低了语义识别的准确度。



技术实现要素:

本申请实施例提供了一种语义识别方法、相关装置以及设备,在对待识别多义词进行语义识别时,不仅会将待识别多义词上下文的词语序列作为参考因素,还会参考待识别多义词所在的待识别文本的主题词语,丰富了语义识别的参考因素,从而提高了语义识别的准确度。

本申请实施例一方面提供了一种语义识别方法,包括:

获取待识别文本,其中,待识别文本包括待识别多义词,待识别多义词包括n种语义类型,n为大于1的整数,待识别文本包括至少两个语句;

根据待识别文本获取主题词语其中,主题词语用于表示待识别文本的主题类型;

根据待识别文本获取词语序列,其中,词语序列包括待识别多义词和目标词语,目标词语包括待识别多义词的上文词语和下文词语中的至少一项;

根据主题词语和词语序列,确定待识别多义词对应的语义识别特征;

根据语义识别特征,从n种语义类型中确定待识别多义词在待识别文本中的含义。

本申请另一方面提供了一种语义识别装置,包括:

获取单元,具体用于获取待识别文本,其中,待识别文本包括待识别多义词,待识别多义词包括n种语义类型,n为大于1的整数,待识别文本包括至少两个语句;

处理单元,具体用于:

根据待识别文本获取主题词语,其中,主题词语用于表示待识别文本的主题类型;

根据待识别文本获取词语序列,其中,词语序列包括待识别多义词和目标词语,目标词语包括待识别多义词的上文词语和下文词语中的至少一项;

根据主题词语和词语序列,确定待识别多义词对应的语义识别特征;

根据语义识别特征,从n种语义类型中确定待识别多义词在待识别文本中的含义。

在一种可能的设计中,本申请实施例另一方面的一种实现方式中,处理单元具体用于:

从文本集合的主题词语集合中,确定主题词语对应的关联主题词语;

从文本集合的词语序列集合中,确定词语序列对应的关联词语序列;

根据关联主题词语和关联词语序列,确定待识别多义词的语义识别特征。

在一种可能的设计中,本申请实施例另一方面的一种实现方式中,处理单元还用于:

处理待识别文本,得到至少两个词向量;

将至少两个词向量输入主题模型,得到主题分布向量;

确定至少两个词向量中每一个词向量与主题分布向量之间的距离;

根据距离,确定主题相关词向量;

根据主题相关词向量,确定主题词语特征;并根据主题词语特征,确定主题词语。

在一种可能的设计中,本申请实施例另一方面的一种实现方式中,处理单元,具体用于:若主题相关词向量的数量为一个,则确定主题相关词向量为主题词语特征;若主题相关词向量的数量大于一个,则处理主题相关词向量,得到主题词语特征。

在一种可能的设计中,本申请实施例另一方面的一种实现方式中,处理单元,具体用于:对主题相关词向量求平均值,得到主题词语特征;或者,对主题相关词向量进行加权求和,得到主题词语特征;或者,确定主题相关词向量中的最大值,为主题词语特征。

在一种可能的设计中,本申请实施例另一方面的一种实现方式中,处理单元具体用于:

若主题相关词向量的数量大于一个,则聚类主题相关词,得到主题标签;

若主题标签的数量为一个,则确定主题标签为主题词语特征;

若主题标签的数量大于一个,则对主题标签求平均值,得到主题词语特征;或者对主题标签进行加权求和,得到主题词语特征;或者确定主题标签的最大值,为主题词语特征。

在一种可能的设计中,本申请实施例另一方面的一种实现方式中,处理单元具体用于:

对待识别文本进行分句处理,得到至少两个语句;

获取至少两个语句中目标语句的频繁序列,其中,目标语句包括待识别多义词所在的语句,和待识别多义词所在语句的前x个语句,和待识别多义词所在语句的后y个语句中的至少一项,x≥1,y≥1,且x、y均为整数;

确定支持度大于阈值的频繁序列,为目标频繁序列,支持度用于表示频繁序列在目标语句中的出现的频率;并根据目标频繁序列,确定词语序列。

在一种可能的设计中,本申请实施例另一方面的一种实现方式中,处理单元具体用于:

确定目标语句中的目标词语为一项前缀,目标词语在目标语句中出现的频率满足预设条件;

组合一项前缀,得到二项前缀;

若二项前缀在目标语句中出现的频率满足预设条件,则确定二项前缀为频繁序列。

在一种可能的设计中,本申请实施例另一方面的一种实现方式中,处理单元具体用于:

若目标频繁序列的数量为一个,则确定目标频繁序列为词语序列;

若目标频繁序列的数量大于一个,则处理目标频繁序列,得到词语序列。

在一种可能的设计中,本申请实施例另一方面的一种实现方式中,处理单元具体用于:

对目标频繁序列求平均值,得到词语序列;或者,对目标频繁序列进行加权求和,得到词语序列;或者,确定目标频繁序列的最大值,为词语序列。

在一种可能的设计中,本申请实施例另一方面的一种实现方式中,处理单元具体用于:

对语义识别特征和n种语义类型中的每种语义类型,进行贝叶斯运算;

根据运算结果,确定待识别多义词在待识别文本中的含义。

在一种可能的设计中,本申请实施例另一方面的一种实现方式中,处理单元具体用于:

分别确定n种语义类型中每种语义类型与语义识别特征的互信息;

若互信息的取值大于或者等于预设阈值,则确定待识别多义词在待识别文本中的含义为互信息对应的词义类型。

本申请的另一方面提供了一种计算机设备,包括:存储器、处理器以及总线系统;

存储器用于存储程序代码;

处理器用于用于根据所述程序代码中的指令执行上述任一方面所述的语义识别方法;

总线系统用于连接存储器以及处理器,以使存储器以及处理器进行通信。

本申请的另一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所提供的语义识别方法。

本申请的另一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一方面所提供的语义识别方法。

从以上技术方案可以看出,本申请实施例具有以下优点:

本申请实施例在对待识别多义词进行语义识别时,不仅会将待识别多义词上下文的词语序列作为参考因素,还会参考待识别多义词所在的目标文本的主题词语,丰富了语义识别的参考因素,同时,由于主题词语能够反映待识别文本的语境,对于理解待识别多义词的含义提供了正向支持,因此本申请实施例提供的语义识别方法提高了语义识别的准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1a为本申请实施例中语义识别方法的一个应用场景示意图;

图1b为本申请实施例中语义识别方法的另一个应用场景示意图;

图1c为本申请实施例中语义识别方法的另一个应用场景示意图;

图2为本申请实施例中语义识别方法的一个流程示意图;

图3为本申请实施例中语义识别装置的一个结构示意图;

图4为本申请实施例中计算机设备的一个结构示意图。

具体实施方式

本申请实施例提供了一种语义识别方法、相关装置以及设备,在对待识别多义词进行语义识别时,不仅会将待识别多义词上下文的词语序列作为参考因素,还会参考待识别多义词所在的待识别文本的主题词语,丰富了语义识别的参考因素,从而提高了语义识别的准确度。

本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

随着科技的飞速发展,人工智能(artificialintelligence,ai)逐渐走入人们生活的方方面面。人工智能在文本翻译、智能问答以及情感分析等方面,都具有广泛的实践意义。人工智能的出现,也极大地方便了人们的生活。首先,对人工智能进行简单的说明。人工智能是利用数学计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能是一门综合学科,涉及的领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能的基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统和机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。在自然语言处理技术中,人工智能可以用来处理文本,并对文本中的词语进行合理的解释。本申请实施例提供的语义识别方法就属于自然语言处理技术领域。

自然语言处理(naturelanguageprocessing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能够实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学和数学与一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学有些密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、指示图谱等技术。

应理解,本申请实施例提供的语义识别方法可以应用于终端设备中,也可以是应用于其他的计算机设备中,例如服务器,具体此处不做限定。图1a所示实施例以该语义识别方法应用于服务器为例,进行说明。请参阅图1a,图1a为本申请实施例中语义识别方法的一个应用场景示意图。

如图1a所示,服务器102与终端设备101之间建立通信连接,终端设备101可以接收用户输入的待识别文本,并将待识别文本发送给服务器102。待识别文本中包括至少两个语句,且待识别文本中的待识别多义词包括多种词义类型。终端设备101可以在接收待识别文本的同时,获取到用户确定好的待识别多义词;也可以在获取到待识别文本之后,自行标注该待识别文本中的待识别多义词;终端设备101还可以不标注待识别多义词。用户或者终端设备101是否标注待识别多义词,根据实际应用的需要确定,具体此处不做限定。

若服务器102收到的待识别文本中没有标注待识别多义词,那么服务器102可以自行确定待识别多义词在待识别文本中的位置。服务器102在收到待识别文本之后,可以获取到待识别文本的主题词语和词语序列,其中,词语序列中包括待识别多义词和目标词语,目标词语为待识别多义词的上文词语和下文词语中的至少一项。服务器102还可以根据主题词语和词语序列,确定出待识别多义词的语义识别特征。并结合待识别多义词对应的n种语义类型,确定出待识别多义词的在待识别文本中的含义。

可选的,服务器102在得到待识别多义词在待识别文本中的含义之后,可以将该含义发送给终端设备101。服务器102还可以将待识别文本,以及待识别多义词在待识别文本中的含义发送给公有云103,便于进行数据共享。

可以理解的是,图1a中仅示出了一种终端设备,在实际场景中可以由更多种类的终端设备参与到语义识别的过程中,例如个人电脑(personalcomputer,pc),具体数量和种类因实际场景而定,具体此处不做限定。另外,图1a中示出了一个服务器,但在实际场景中,也可以有多个服务器的参与,特别是在多模型训练交互的场景中,服务器的数量因实际场景而定,具体此处不做限定。

需要注意的是,本实施例中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdeliverynetwork,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,终端设备以及服务器可以连接组成区块链网络,本申请在此不做限制。

可以理解的是,如本申请所公开的语义识别方法、相关设备以及装置,其中多个服务器/终端设备可以组成为一区块链,而服务器/终端设备为区块链上的节点。在实际应用中,可以在区块链中进行节点与节点之间的数据共享,每个节点上可以存储有文本集合和待识别多义词。

可以理解的是,本申请实施例提供的语义识别方法还可以作为基础工具,与其他的自然语言处理技术进行结合,实现更多的功能和用途。下面,对语义识别方法的应用进行说明,请参阅图1b,图1b为本申请实施例提供的语义识别方法的另一个应用场景示意图。

如图1b所示,计算机104可以接收用户105输入的待识别文本,该待识别文本包括至少两个语句,且包括待识别多义词。用户105向计算机104输入待识别文本的方式有多种,可以通过计算机104的键盘输入,也可以采用语音输入的方式,即通过计算机104的麦克风输入语音信息,再经过计算机104的内部处理,使得计算机104得到待识别文本。用户105向计算机104输入待识别文本的方式,根据实际应用的需要确定,具体此处不做限定。

可选的,计算机104还可以接收其他设备发送的待识别文本。如图1b所示,计算机104可以接收智能手机106发送的待识别文本。类似的,智能手机106向计算机104发送待识别文本的方式也有多种,可以通过即时通讯软件发送,也可以通过邮箱发送,除此之外,还可以有其他的方式,例如,将计算机104和智能手机106进行有线连接,计算机104通过读取智能手机106的内存信息,获取到待识别文本。计算机104从智能手机106出获取待识别文本的方式根据实际应用的需要确定,具体此处不做限定。

计算机104在得到待识别文本之后,会对待识别文本进行分析,并将识别结果反馈给用户105或者智能手机106。可选的,计算机104反馈的识别结果,可以包括待识别多义词在待识别文本中的含义,还可以根据需求,包括更多的信息。例如,在词性标注的场景中,计算机104还可以对待识别文本中的词语进行词性标注;在待识别文本为新闻时,计算机104还可以反馈与待识别多义词相关联的其他新闻。识别结果中包含的具体内容,根据实际应用的需要进行确定,具体此处不做限定。

在不同语言(例如中英文)的翻译过程中,由于多义词在不同文本中的具体含义有所不同,为了确保翻译的准确,需要对多义词进行语义识别,便于翻译为正确的结果。接下来,以计算机104对待识别文本进行翻译为例,说明本申请实施例提供的语义识别方法在机器翻译中的应用。请参阅图1c,图1c为本申请实施例提供的语义识别方法的另一个应用场景示意图。

在机器翻译过程中,可以存在如图1c所示的翻译页面。用户可以在待翻译文本区域中输入待翻译文本,该待翻译文本可以为上述待识别文本。用户输入待翻译文本的方式有多种,可以通过语音输入键输入,也可以手动输入,具体此处不做限定。用户还可以选择语言转换的类型,例如输入中文文本,翻译后的文本为英文,具体进行哪些语言之间的翻译,根据实际应用的需要确定,具体此处不做限定。在完成待翻译文本的输入之后,用户可以通过点击“开始翻译”按键,触发机器翻译的过程。机器翻译的结果也可以在翻译页面上显示。用户还可以点击语音输出键,使得机器播放翻译结果。

示例性的,以待翻译文本中的待识别多义词为词语“意思”,且进行的是中文到英文的翻译为例进行说明。

示例性的,“意思”一词的中文含义,词性,以及对应的英文单词,可以如表1所示:

表1

假设待翻译文本的内容为:“我今天逛公园发现许多有意思的事情,公园里的花竞相开放,热热闹闹的,看起来十分有意思。假山上的石头参差不齐,形态各异,也十分有意思。最有意思的是湖边的松树,笔直笔直的,像是河边的守卫。”假设根据本申请实施例提供的语义识别方法,机器确定出待翻译文本的主题词语为“游记”,词语序列为“有意思”,并根据语义识别特征,从“意思”一词的6种词义类型中,确定该词在待翻译文本中的含义为“有趣的”。那么机器在对待识别多义词翻译时,可以将“意思”一词翻译为“interesting”。可选的,为了保证翻译语言的多样性,机器还可以用不同的英文单词表示“有趣的”,避免翻译结果在词语选择上的单一。

下面,对本申请实施例提供的语义识别方法进行说明,请参阅图2,图2为本申请实施例中语义识别方法的一个流程示意图,包括:

201、获取待识别文本,其中,待识别文本包括待识别多义词,待识别多义词包括n中词义类型,n为大于1的整数,待识别文本包括至少两个语句。

在进行语义识别时,计算机设备可以获取到待识别文本,该待识别文本中包含有待识别多义词。其中,计算机设备可以是终端设备,也可以是服务器,终端设备和服务器的种类在图1a所示实施例中已经阐述,此处不再赘述。在进行语义识别过程中采用何种计算机设备根据实际应用的需要确定,具体此处不做限定。该待识别多义词可以是预先标注的,也可以是计算机设备词遍历待识别文本中的词语后识别出的,具体此处不做限定。待识别多义词的含义会存在至少两种词义类型,待识别文本包括有至少两个语句。其中,待识别文本中的语句数量可以根据断句分隔符确定。断句分隔符用于标识语句,在一个语句的末尾,通常会有一个断句分隔符,语句与语句之间通过断句分隔符分开。断句分隔符有多种情况,可以是句号,也可以是问号,还可以是其他的符号,例如感叹号,具体此处不做限定。

202、根据待识别文本获取主题词语,其中,主题词语用于表示待识别文本的主题类型。

计算机设备在获取到待识别文本之后,会对待识别文本进行分词处理,得到至少两个词语。并使用词向量训练模型,将自然语言中的词语转换为词向量的形式,便于机器进行处理,并根据词向量之间的关系确定词语之间的联系。词向量训练模型有多种,可以是word2vec模型,也可以是glove模型,除此之外,还可以是其他的词向量训练模型,例如elmo模型,或者bert模型,具体此处不做限定。

在得到词向量之后,计算机设备可以将词向量输入主题模型中,从而得到主题分布向量。主题模型有多种,可以是隐含狄利克雷分布(latentdirichletallocation,lda)主题模型,也可以是其他能够从待识别文本中确定主题的模型,例如概率隐含语义分析(probabilisticlatentsemanticanalysis,plsa)主题模型,或者标签隐含狄利克雷分布(labellatentdirichletallocation,l-lda)主题模型,具体此处不做限定。

本申请实施例以lda模型为例,进行说明。lda是一种统计模型,用来从文档集合中找出一组潜在的包含特定概率的主体,从而形成词语—主题—文本三层结构。也就是说,主题可以由词语的分布进行表征,从而反映文本的主题分布。lda的核心公式如下:

其中,topic表示主题,p表示概率,wi表示文本dk中的词语,tj为文本中所隐含的主题。本申请实施例中,可以采用期望最大化算法训练lda模型,经过较少的迭代就可以收敛,从文得到文本—主题的分布矩阵,也即主题分布向量。

计算机设备还可以确定待识别文本中每个词向量与主题分布向量之间的距离,并根据距离由近到远的原则,确定出主题相关词向量。每个词向量与主题分布向量之间的距离可以是余弦距离,也可以是正弦距离,除此之外,还可以是其他形式的距离,例如欧式距离,在实际应用中采用何种形式的距离根据需要确定,具体此处不做限定。由于词向量与主题分布向量之间的距离越近,表示该词向量与待识别文本的主题越接近,因此采用由近到远的原则选取主题相关词向量。主题相关词向量的数量根据实际应用的需要进行确定,可以与待识别文本所包含的词语数量有关,可选的,待识别文本包含的词语数量越多,确定的主题相关词向量的数量也越多。例如,一篇千字左右的新闻报道,可以确定10个主题相关词向量。

计算机设备确定出主题相关词向量之后,可以根据主题相关词向量确定出主题词语特征,并根据主题词语特征,得到主题词语。

本申请实施例中,对词语进行向量化训练,以及确定主题分布向量的方式均有多种,可以根据实际应用的需要进行选择,提升了技术方案的灵活性。同时,将待识别文本中的词语转换为词向量的形式,以及通过主题词语特征来确定主题词语,均符合机器的处理逻辑,提升了技术方案的可实现性。

可选的,由于主题相关词向量的数量有多种情况,因此,计算机设备确定主题词语特征的方式也有多种。如果主题相关词向量的数量只有一个,那么计算机设备可以将该主题相关词向量确定为主题词语特征。如果主题相关词向量的数量大于一个,那么计算机设备可以对多个主题相关词向量进行处理,以得到主题词语特征。

可选的,计算机设备处理主题相关词向量的方式有多种,可以是对多个主题相关词向量求平均值,将得到的结果作为主题词语特征;也可以对多个主题相关词向量进行加权求和,将求和的结果作为主题词语特征;还可以是其他的处理方式,例如,将多个主题相关词向量中的最大值作为主题词语特征。计算机设备处理多个主题相关词向量的方式根据实际应用的需要进行确定,具体此处不做限定。其中,如果计算机设备是对多个主题相关词向量进行加权求和得到的,各个主题相关词向量的权重,可以根据主题相关词向量与主题分布向量之间的距离确定。可选的,主题相关词的权重大小可以与距离呈负相关,也就是说,主题相关词距离主题分布向量越近,该主题相关词向量的权重越大。

本申请实施例中,计算机设备可以根据主题相关词向量数量的不同,选择不同的方式确定主题词语特征,提升了技术方案的灵活性。同时,在主题相关词向量有多个的情况下,计算机设备确定主题词语特征的方式也有多种可能,可以根据实际应用的需要灵活选择,也提升了技术方案的灵活性。

可选的,在主题相关词向量有多个的情况下,除了上述方式,计算机设备还可以通过其他的方式获取主题词语特征。例如,计算机设备可以对多个主题相关词向量进行聚类操作,得到主题标签。可选的,计算机设备使用的聚类操作的方式有多种,可以是k均值聚类(k-meansclustering),也可以是其他的聚类方式,例如具有噪声的基于密度的聚类方法(density-basedspatialclusteringofapplicationwithnoise,dbscan),在实际应用中采用何种方式进行聚类,根据需要进行选择,具体此处不做限定。

如果主题标签的数量只有一个,计算机设备可以将该主题标签确定为主题词语特征。如果主题标签的数量大于一个,计算机设备可以对这多个主题标签进行处理,以得到主题词语特征。

可选的,计算机设备处理主题标签的方式有多种,可以是对多个主题标签求平均值,将得到的结果作为主题词语特征;也可以对多个主题标签进行加权求和,将求和的结果作为主题词语特征;还可以是其他的处理方式,例如,将多个主题标签中的最大值作为主题词语特征。计算机设备处理多个主题标签的方式根据实际应用的需要进行确定,具体此处不做限定。

本申请实施例中,在主题相关词向量有多个的情况下,计算机设备还可以根据对主题相关词进行聚类得到的主题标签,得到主题词语特征。同时,在主题标签有多个的情况下,计算机设备确定主题词语特征的方式也有多种可能,可以根据实际应用的需要灵活选择,也提升了技术方案的灵活性。

203、根据待识别文本获取词语序列,其中,词语序列包括待识别多义词和目标词语,目标词语包括待识别多义词的上文词语和下文词语中的至少一项。

计算机设备在获取到待识别文本之后,可以根据断句分隔符对待识别文本进行分句处理,得到至少两个语句。然后将各个语句中的标点符号过滤掉,得到不包含标点符号的语句,便于确定词语序列。其中,可以采用正则过滤的方式,过滤语句中的标点符号。

对待识别文本进行分句处理得到至少两个语句之后,计算机设备会从至少两个语句中确定目标语句,作为待识别多义词的上下文语句。其中,目标语句包括待识别多义词所在的语句,和待识别多义词所在语句的前x个语句,和待识别多义词所在语句的后y个语句中的至少一项。x≥1,y≥1,且x、y均为整数。上下文语句中包含的语句数量根据实际应用的需要进行选择,具体此处不做限定。

可选的,若待识别多义词在待识别文本中是某个段落的首个词语,那么计算机设备可以选择待识别多义词所在的语句和该语句的后若干个句子作为上下文语句;若待识别多义词在待识别文本中是某个段落的最后一个词语,那么计算机设备可以选择待识别多义词所在的语句和该语句的前若干个句子作为上下文语句。

为了说明的清楚,本申请实施例以多义词“苹果”为例,进行说明。假设计算机设备得到确定的目标语句有4个句子,经过正则过滤标点符号后得到的上下文语句如表2所示:

表2

得到上下文语句之后,计算机设备可以基于频繁序列模式,从上下文语句中确定待识别文本的词语序列。在实际应用中,频繁序列模式可以通过多种算法实现,可以是prefixspan算法,也可以是apriori算法,除此之外还可以是其他能够挖掘频繁序列的算法,例如,freespan算法,具体使用何种算法根据实际应用的需要确定,具体此处不做限定。

本申请实施例中,由于文本中的文字是基于一定的先后顺序形成的,采用频繁序列模式获取词语序列,得到的词语序列符合文本的顺序特征,使得模型的处理更符合实际应用的需要,提升了技术方案的实用性。

本申请实施例以prefixspan算法为例,对计算机设备确定词语序列的过程进行说明。prefixspan算法的原理大致如下:

以词语序列作为序列模式挖掘的对象为例,首先可以获取单位长度为1的词语序列,并确定这些词语序列在上下文语句中出现的次数是否满足最小支持度。然后将出现次数高于最小支持度的词语序列添加到数据集中,作为一项前缀,挖掘各个一项前缀的投影数据集。如果投影数据集为空集合,则返回递归;如果投影数据集不是空集合,则会统计投影数据集中各项的最小支持度,将满足最小支持度的单项与一项前缀结合,得到二项前缀,对于不满足最小支持度的单项,则会返回递归。以此类推,得到词语序列集合中所有的频繁词语序列模式。可以理解的是,prefixspan算法中的各个m项前缀均可以理解为一个词语序列,其中,m≥1,且m为整数。

需要注意的是,在实际应用中,也可以将字序列作为序列模式的挖掘对象,在确定词语序列时使用何种挖掘对象,根据实际应用的需要选择,具体此处不做限定。

下面结合表2的上下文语句,对基于prefixspan算法获取词语序列的过程进行说明。

首先,统计所有词语序列在上下文语句中的出现样本数,得到满足最小支持度的词语。假设最小支持度min_sup为1/3,说明词语序列最少要在4个句子中出现2次才能满足最小支持度。其中,最小支持度的计算方法为min_sup=a×n,a为最小支持率,n为上下文语句包含的语句数量。对表2中的词语序列进行过滤后,确定满足最小支持度的词语序列,即各个词语序列的样本数如表3所示:

表3

过滤掉不满足最小支持度的词语序列后,得到的上下文语句如表4所示。具体来说,得到表4所示的上下文语句的过程可以是,根据表3可知,表2中的第一句话和第二句话中,均只有“苹果”一词满足最小支持度。将第一句话或者第二句话中不满足最小支持度的词语过滤之后并不是一个完整的句子,无法用来挖掘频繁序列。因此,能够用来进行频繁序列挖掘的句子不包括表2中的第一句话和第二句话。表2中第三句话中的“最近”一词也不满足最小支持度,因此需要过滤该词,得到表4中的第一句话。类似的,表2中第四句话中的“尤其”、“是”、“山东”等词语也不满足最小支持度,需要过滤这些词语,得到表4中的第二句话。

表4

基于表3和表4,可以得到一项前缀,以及一项前缀对应的后缀,即一项前缀的投影数据集。如表5所示,表5即为一项前缀及其对应的后缀。

表5

由于各个一项前缀在上下文语句中的出现频率均满足最小支持度,因此各个一项前缀会结合得到二项前缀。以一项前缀“苹果”为例,进行下一轮迭代,得到二项前缀和对应的后缀,如表6所示。

表6

以此类推,可以将在上下文语句中的出现频率均满足最小支持度的一项前缀与二项前缀结合,得到三项前缀,以及与各个三项前缀对应的后缀。类似的,基于同样的原理,可以得到m项前缀,其中,m≥1,且m为整数。可以理解的是,m的取值与语句中包含的词语个数。例如,若一个语句中包括5个词语,那么最多能挖掘到该语句的5项前缀。可以理解的是,挖掘到m项前缀时,也就得到了上下文语句中的所有序列模式。并将满足最小支持度的词语序列确定为频繁序列。然后将支持度大于预设阈值的频繁序列,确定为目标频繁序列。

可选的,由于目标频繁序列的数量有多种情况,因此,计算机设备确定词语序列的方式也有多种。如果目标频繁序列的数量只有一个,那么计算机设备可以将该目标频繁序列确定为词语序列。如果目标频繁序列的数量大于一个,那么计算机设备可以对多个目标频繁序列进行处理,以得到词语序列。

可选的,计算机设备处理目标频繁序列的方式有多种,可以是对多个目标频繁序列求平均值,将得到的结果作为词语序列;也可以对多个目标频繁序列进行加权求和,将求和的结果作为词语序列;还可以是其他的处理方式,例如,将多个目标频繁序列中的最大值作为词语序列。计算机设备处理多个目标频繁序列的方式根据实际应用的需要进行确定,具体此处不做限定。

本申请实施例中,计算机设备可以根据目标频繁序列数量的不同,选择不同的方式确定词语序列,提升了技术方案的灵活性。同时,在目标频繁序列有多个的情况下,计算机设备确定词语序列的方式有多种可能,可以根据实际应用的需要灵活选择,也提升了技术方案的灵活性。

需要注意的是,步骤202和步骤203没有必然的先后顺序,可以先执行步骤202,也可以先执行步骤203,还可以同时执行步骤202和步骤203,只要是在步骤301之后执行即可,具体此处不做限定。

204、根据主题词语和词语序列,确定待识别多义词对应的语义识别特征。

计算机设备在获取到主题词语和词语序列之后,可以确定出待识别多义词对应的语义识别特征。该语义识别特征可以包括待识别文本的主题词语和词语序列,语义识别特征可以作为确定待识别多义词在待识别文本中含义的依据。由于文本集合中已有的主题词语和词语序列,与计算机设备的获取到的主题词语和词语序列可能相同也可能不同,因此,计算机设备确定语义识别特征的方式也有所不同。

具体来说,计算机设备在得到主题词语之后,可以确定该主题词语是否与文本集合中的主题词语集合中的词语相同。若待识别文本的主题词语与主题词语集合中的某个词语相同,则计算机设备可以将相同的词语确定为该主题词语对应的关联主题词语。类似的,计算机设备在得到词语序列之后,可以确定该词语序列是否与文本集合中的词语序列集合中的序列相同。若待识别文本的词语序列与词语序列集合中的某个序列相同,则计算机设备可以将相同的序列确定为该词语序列对应的关联词语序列。

若待识别文本的主题词语与主题词语集合中的任一个词语均不相同,那么计算机设备可以从词语集合中,选择与待识别文本的主题词语最接近的词语,并将该最接近的词语作为主题词语对应的关联主题词语。可选的,可以通过计算两个词语之间的距离确定两个词语是否接近,距离越小越接近。距离可以是余弦距离,也可以是正弦距离,除此之外,还可以是其他类型的距离,例如欧式距离,具体此处不做限定。类似的,若待识别文本的词语序列与词语序列集合中的任一个序列均不相同,那么计算机设备可以从词语序列集合中,选择与待识别文本的词语序列最接近的序列,并将该最接近的序列作为词语序列对应的关联词语序列。可选的,可以通过计算两个序列之间的距离确定两个序列是否接近,距离越小越接近。距离可以是余弦距离,也可以是正弦距离,除此之外,还可以是其他类型的距离,例如欧式距离,具体此处不做限定。

本申请实施例中,计算机设备可以根据文本集合中,主题词语集合中的词语与待识别文本的主题词语的关系,以及词语序列集合中的序列与待识别文本的词语序列的关系,灵活选择确定语义识别特征的方式,提升了本申请实施例技术方案的灵活性和可实现性。

计算机设备在得到关联主题词语和关联词语序列之后,可以根据关联主题词语和关联词语序列,确定出待识别多义词的语义识别特征。

具体来说,可以通过主题词语在文本集合中的词语出现概率,词语序列在文本集合中的词语出现概率,以及语义识别特征对应的语义识别概率之间的关系,反映主题词语、词语序列和语义识别特征之间的关系。

具体来说,计算机设备在获取到待识别文本的主题词语之后,可以根据文本集合中的关联主题词语与词语出现概率之间的第一概率映射关系,确定出待识别文本的主题词语的词语出现概率。

其中,关联主题词语在文本集合中的词语出现概率是指,关联主题词语在某个语义类型中出现的概率,可以根据文本集合中,某个语义类型的文本数量,以及该语义类型下包含该关联主题词语的文本数量进行确定。示例的,若文本集合中,有100篇文本中“苹果”一词的语义类型是植物类的苹果,这100篇文本中,有20篇文本的主题词语是“营养”,那么关联主题词语“营养”的词语出现概率就是20÷100=0.2。

计算机设备在获取到待识别文本的词语序列之后,可以根据文本集合中的关联词语序列与序列出现概率之间的第二概率映射关系,确定出待识别文本的词语序列的序列出现概率。

其中,关联词语序列在文本集合中的词语出现概率是指,关联词语序列在某个语义类型中出现的概率,可以根据文本集合中,某个语义类型的文本数量,以及该语义类型下该关联词语序列的文本数量进行确定。示例的,若文本集合中,有100篇文本中“苹果”一词的语义类型是植物类的苹果,这100篇文本中,有30篇文本的词语序列是“苹果甜”,那么关联词语序列“苹果甜”的词语出现概率就是30÷100=0.3。

需要注意的是,在进行推理时,可以将训练语义识别模型使用的文本集合的数量认为是固定值,由此得到的词语出现概率和序列出现概率均是一个确定的值。但是,在使用模型进行推理之后,语义识别模型也可以进行优化,将待识别文本纳入文本集合的范围中,因此,词语出现概率和序列出现概率可能会发生改变。基于此,在对语义识别模型进行优化或者训练的过程中,可以采用一些采样方式,避免样本文本中的主题词语或者词语序列的分布不均衡,使得语义识别模型更加符合实际应用的需要。采样方式有多种,可以是过采样。也可以是欠采样,除此之外,还可以是其他能够均衡样本数据的方式,在模型训练过程中采用何种采样方式,根据实际应用的需要确定,具体此处不做限定。

可选的,可以将词语出现概率记为p(q1),将序列出现概率记为p(q2),那么可以根据如下公式得到语义识别概率p(q)。

205、根据语义识别特征,从n种语义类型中确定待识别多义词在待识别文本中的含义。

可选的,计算机设备可以对语义识别特征和n种语义类型中的每种语义类型,进行贝叶斯运算。然后根据运算结果,确定待识别多义词在待识别文本中的含义。

具体来说,计算机设备可以将语义识别概率和每个分类概率输入贝叶斯模型中,从而从n个语义类型中,确定出待识别多义词在待识别文本中的含义。其中,每个分类概率对应于一种语义类型。由于一个多义词对应有n个语义类型,那么这个多义词的含义为各个语义类型的概率是相等的,即为1/n。也就是说,待识别多义词对应的n个分类概率的取值是相同的。

示例性的,以多义词“苹果”为例,详细说明贝叶斯运算的过程。在实际应用中,“苹果”一词常有两种含义,一种是指植物类的苹果,一种是指科技类的苹果。若将苹果的含义为植物类的苹果记为事件a1,将苹果的含义为科技类的苹果记为事件a2,那么,p(a1)=p(a2)=1/2。

具体的,可以利用贝叶斯公式p(a|q)=p(q|a)p(a)/p(q),从p(a1|q)和p(a2|q)中,确定条件概率最大的事件,并确定该事件对应的语义类型即为待识别多义词在待识别文本中的含义。例如,若p(a1|q)>p(a2|q),则可以确定待识别多义词“苹果”在待识别文本中的含义是植物类的苹果。

其中,p(a|q)表示,在语义识别特征为事件q的条件下,待识别多义词的含义为某一种语义类型a的概率。p(q|a)表示的是,在待识别多义词的含义为某一种语义类型a的条件下,语义识别特征为事件q的概率。p(a)表示的是待识别多义词的含义为某一种语义类型的概率,在上述例子中,p(a)=p(a1)=p(a2)。

其中,

因此,

上述公式中的p(qi,a)表示qi和a同时出现的概率,qi包括主题词语q1、词语序列q2,a表示待识别多义词的某一种语义类型。

本申请实施例中,在构建贝叶斯模型时,将待识别文本的主题词语和待识别多义词上下文的词语序列作为输入特征,并使用不同方式获取主题词语和词语序列,使得输入特征满足贝叶斯公式的独立性假设,符合贝叶斯公式的运算条件,因此能够充分发挥贝叶斯公式的优势,进一步提升语义识别的准确性。

可选的,本申请实施例中,还可以通过互信息的方式确定待识别多义词在待识别文本的含义。也就是说,计算机设备可以分别确定n种语义类型中每种语义类型与语义识别特征的互信息;若得到的互信息的取值大于或者等于预设阈值,则确定待识别多义词在待识别文本中的含义为该互信息对应的词义类型。

具体来说,计算机设备可以分别确定每个分类概率与词语出现概率的第一互信息,以及每个分类概率与序列出现概率的第二互信息。然后将每种词义类型对应的第一互信息和第二互信息求和,得到每种词义类型对应的目标互信息。若某一目标互信息的取值大于或者等于预设阈值,则意味着该目标互信息对应的语义类型即为待识别多义词的在待识别文本中的含义。

以具有两种词义类型的待识别多义词“苹果”为例,并将苹果的含义为植物类的苹果记为事件a1,将苹果的含义为科技类的苹果记为事件a2,词语出现概率记为p(q1),将序列出现概率记为p(q2)。目标互信息可以基于如下所示的公式确定:

其中,i(a,q1)表示第一互信息,i(a,q2)表示第二互信息,i(a,q)表示目标互信息。由于“苹果”一词对应的语义类型有两种,因此可以得到两个目标互信息,i(a1,q)和i(a2,q)。

需要注意的是,由于待识别多义词在待识别文本中的含义是确定某一种语义类型,因此,一般情况下,i(a1,q)和i(a2,q)中大于或者等于预设阈值的目标互信息只有一个。如果出现两个目标互信息都大于或者等于预设阈值,那么,可以确定这两个目标互信息中较大的目标互信息所对应的语义类型,为待识别多义词在待识别文本中的含义。

本申请实施中,使用互信息的方式确定待识别多义词在待识别文本中的含义,提高了语义识别的效率。

基于图2所示的实施例,本申请实施例提供了一种语义识别装置,请参阅图3,图3本申请实施例中语义识别装置300的一个实施例示意图,语义识别装置300包括:

获取单元301,具体用于获取待识别文本,其中,待识别文本包括待识别多义词,待识别多义词包括n种语义类型,n为大于1的整数,待识别文本包括至少两个语句;

处理单元302,具体用于:

根据待识别文本获取主题词语,其中,主题词语用于表示待识别文本的主题类型;

根据待识别文本获取词语序列,其中,词语序列包括待识别多义词和目标词语,目标词语包括待识别多义词的上文词语和下文词语中的至少一项;

根据主题词语和词语序列,确定待识别多义词对应的语义识别特征;

根据语义识别特征,从n种语义类型中确定待识别多义词在待识别文本中的含义。

可选的,在上述图3所对应的实施例的基础上,本申请实施例提供的语义识别装置300的另一个实施例中,语义识别装置300包括:

处理单元302,具体用于:

从文本集合的主题词语集合中,确定主题词语对应的关联主题词语;

从文本集合的词语序列集合中,确定词语序列对应的关联词语序列;

根据关联主题词语和关联词语序列,确定待识别多义词的语义识别特征。

可选的,在上述图3所对应的实施例的基础上,本申请实施例提供的语义识别装置300的另一个实施例中,语义识别装置300包括:

处理单元302,还用于:

处理待识别文本,得到至少两个词向量;

将至少两个词向量输入主题模型,得到主题分布向量;

确定至少两个词向量中每一个词向量与主题分布向量之间的距离;根据距离,确定主题相关词向量;

根据主题相关词向量,确定主题词语特征;并根据主题词语特征,确定主题词语。

可选的,在上述图3所对应的实施例的基础上,本申请实施例提供的语义识别装置300的另一个实施例中,语义识别装置300包括:

处理单元302,具体用于:若主题相关词向量的数量为一个,则确定主题相关词向量为主题词语特征;若主题相关词向量的数量大于一个,则处理主题相关词向量,得到主题词语特征。

可选的,在上述图3所对应的实施例的基础上,本申请实施例提供的语义识别装置300的另一个实施例中,语义识别装置300包括:

处理单元302,具体用于:对主题相关词向量求平均值,得到主题词语特征;或者,对主题相关词向量进行加权求和,得到主题词语特征;或者,确定主题相关词向量中的最大值,为主题词语特征。

可选的,在上述图3所对应的实施例的基础上,本申请实施例提供的语义识别装置300的另一个实施例中,语义识别装置300包括:

处理单元302,具体用于:

若主题相关词向量的数量大于一个,则聚类主题相关词,得到主题标签;

若主题标签的数量为一个,则确定主题标签为主题词语特征;

若主题标签的数量大于一个,则对主题标签求平均值,得到主题词语特征;或者对主题标签进行加权求和,得到主题词语特征;或者确定主题标签的最大值,为主题词语特征。

可选的,在上述图3所对应的实施例的基础上,本申请实施例提供的语义识别装置300的另一个实施例中,语义识别装置300包括:

处理单元302,具体用于:

对待识别文本进行分句处理,得到至少两个语句;

获取至少两个语句中目标语句的频繁序列,其中,目标语句包括待识别多义词所在的语句,和待识别多义词所在语句的前x个语句,和待识别多义词所在语句的后y个语句中的至少一项,x≥1,y≥1,且x、y均为整数;

确定支持度大于阈值的频繁序列,为目标频繁序列,支持度用于表示频繁序列在目标语句中的出现的频率;并根据目标频繁序列,确定词语序列。

可选的,在上述图3所对应的实施例的基础上,本申请实施例提供的语义识别装置300的另一个实施例中,语义识别装置300包括:

处理单元302,具体用于:

确定目标语句中的目标词语为一项前缀,目标词语在目标语句中出现的频率满足预设条件;

组合一项前缀,得到二项前缀;

若二项前缀在目标语句中出现的频率满足预设条件,则确定二项前缀为频繁序列。

可选的,在上述图3所对应的实施例的基础上,本申请实施例提供的语义识别装置300的另一个实施例中,语义识别装置300包括:

处理单元302,具体用于:

若目标频繁序列的数量为一个,则确定目标频繁序列为词语序列;

若目标频繁序列的数量大于一个,则处理目标频繁序列,得到词语序列。

可选的,在上述图3所对应的实施例的基础上,本申请实施例提供的语义识别装置300的另一个实施例中,语义识别装置300包括:

处理单元302,具体用于:

对目标频繁序列求平均值,得到词语序列;或者,

对目标频繁序列进行加权求和,得到词语序列;或者,

确定目标频繁序列的最大值,为词语序列。

可选的,在上述图3所对应的实施例的基础上,本申请实施例提供的语义识别装置300的另一个实施例中,语义识别装置300包括:

处理单元302,具体用于:

对语义识别特征和n种语义类型中的每种语义类型,进行贝叶斯运算;

根据运算结果,确定待识别多义词在待识别文本中的含义。

可选的,在上述图3所对应的实施例的基础上,本申请实施例提供的语义识别装置300的另一个实施例中,语义识别装置300包括:

处理单元302,具体用于:

分别确定n种语义类型中每种语义类型与语义识别特征的互信息;

若互信息的取值大于或者等于预设阈值,则确定待识别多义词在待识别文本中的含义为互信息对应的词义类型。

本申请实施例中,还提供了一种计算机设备,下面对该计算机设备进行说明。请参阅图4,图4是本申请实施例提供的一种计算机设备结构示意图,该计算机设备400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessingunits,cpu)410(例如,一个或一个以上处理器)和存储器420,一个或一个以上存储应用程序431或数据432的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器420和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对计算机设备400中的一系列指令操作。更进一步地,中央处理器410可以设置为与存储介质430通信,在计算机设备400上执行存储介质430中的一系列指令操作。

计算机设备400还可以包括一个或一个以上电源440,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口460,和/或,一个或一个以上操作系统433,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm等等。

上述实施例中由计算机设备所执行的步骤可以基于该图4所示的计算机设备结构。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,互动视频的管理装置,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1