一种文本的分词方法及分词装置与流程

文档序号:22314733发布日期:2020-09-23 01:38阅读:132来源:国知局
一种文本的分词方法及分词装置与流程

本申请涉及中文文本处理技术领域,尤其涉及一种文本的分词方法及分词装置。



背景技术:

在中文自然语言处理的各种各样的场景中,我们通常需要以词作为最小的基本单元进行研究,但是,中文是以字为单位的,词与词之间没有空格之类的标志指示词的边界,所以分词就成为中文文本处理的基础性工作,分词的好坏对后面的中文信息处理起着极其关键的作用。

目前,中文分词采用以隐马尔可夫模型(hiddenmarkmodel,hmm)为代表的基于统计的分词方法,使用动态规划算法对待分词的文本进行词语的序列标注,然而,在海量数据的环境下,这些方法需要标注大量的长文本,时间成本较高。



技术实现要素:

有鉴于此,本申请实施例的目的在于提供一种文本的分词方法及分词装置,用以提升对中文文本进行分词的效率。

主要包括以下几个方面:

第一方面,本申请实施例提供了一种文本的分词方法,所述分词方法包括:

获取待处理的中文文本;

将所述中文文本切分成多个中文短文本;其中每个所述中文短文本包括表征一个语义的连续多个中文字符;

基于切分的多个所述中文短文本和预先训练好的中文分词模型,输出经过分词后的所述中文文本。

在一种可能的实施方式中,所述将所述中文文本切分成多个中文短文本,包括:

将所述中文文本输入至预先定义的正则表达式中进行文本切分,得到多个所述中文短文本;

其中,所述正则表达式用于将所述中文文本中被非中文字符隔离且连续的多个所述中文字符作为一个整体滤出。

在一种可能的实施方式中,在所述将所述中文文本切分成多个中文短文本之后,还包括:

对所述中文短文本中的每个所述中文字符进行特征提取,得到每个所述中文字符的特征向量;

所述基于切分的多个所述中文短文本和预先训练好的中文分词模型,输出经过分词后的所述中文文本,包括:

将每个所述中文短文本中每个所述中文字符的特征向量输入至所述中文分词模型中,输出经过分词后的所述中文短文本。

在一种可能的实施方式中,所述对所述中文短文本中的每个所述中文字符进行特征提取,得到每个所述中文字符的特征向量,包括:

对所述中文短文本中的每个所述中文字符进行特征提取,得到所述中文字符的字符向量、位置向量和笔顺向量;

对所述中文字符的所述字符向量、所述位置向量和所述笔顺向量进行加权求和,得到所述中文字符的特征向量。

在一种可能的实施方式中,所述中文分词模型包括基于转换器的双向编码器bert和条件随机场crf;

所述将每个所述中文短文本中每个所述中文字符的特征向量输入至所述中文分词模型中,输出经过分词后的所述中文短文本,包括:

针对每个所述中文短文本,将所述中文短文本中每个所述中文字符的特征向量输入至所述基于转换器的双向编码器bert中,得到所述中文短文本中每个所述中文字符的全局信息向量;

将所述中文短文本中每个所述中文字符的所述全局信息向量输入至所述条件随机场crf中,输出经过分词后的所述中文短文本。

在一种可能的实施方式中,所述将所述中文短文本中每个所述中文字符的所述全局信息向量输入至所述条件随机场crf中,输出经过分词后的所述中文短文本,包括:

将所述中文短文本中每个所述中文字符的所述全局信息向量输入至所述条件随机场crf中,确定与所述中文短文本中每个所述中文字符分别对应的词语位置标注信息;

根据与所述中文短文本中每个所述中文字符分别对应的词语位置标注信息,输出经过分词后的所述中文短文本。

在一种可能的实施方式中,所述将所述中文短文本中每个所述中文字符的所述全局信息向量输入至所述条件随机场crf中,确定与所述中文短文本中每个所述中文字符分别对应的词语位置标注信息,包括:

将所述中文短文本中每个所述中文字符的所述全局信息向量输入至所述条件随机场crf中,确定所述中文短文本中每个所述中文字符在预设目标位置的概率;

根据所述中文短文本中每个所述中文字符在所述预设目标位置的概率,确定与所述中文短文本中每个所述中文字符分别对应的词语位置标注信息。

在一种可能的实施方式中,所述根据所述中文短文本中每个所述中文字符在所述预设目标位置的概率,确定与所述中文短文本中每个所述中文字符分别对应的词语位置标注信息,包括:

根据所述中文短文本中每个所述中文字符在所述预设目标位置的概率中的最大概率,确定与所述中文短文本中每个所述中文字符分别对应的词语位置标注信息。

在一种可能的实施方式中,所述根据所述中文短文本中每个所述中文字符在所述预设目标位置的概率,确定与所述中文短文本中每个所述中文字符分别对应的词语位置标注信息,包括:

根据所述中文短文本中每个所述中文字符在所述预设目标位置的概率和在对应的所述中文短文本中的位置,确定与所述中文短文本中每个所述中文字符分别对应的词语位置标注信息。

在一种可能的实施方式中,所述预设目标位置,包括:

词语的起始位置、词语的中间位置、词语的结束位置、非词语的位置。

第二方面,本申请实施例还提供一种文本的分词装置,所述分词装置包括:

获取模块,用于获取待处理的中文文本;

切分模块,用于将所述中文文本切分成多个中文短文本;其中每个所述中文短文本包括表征一个语义的连续多个中文字符;

输出模块,用于基于切分的多个所述中文短文本和预先训练好的中文分词模型,输出经过分词后的所述中文文本。

在一种可能的实施方式中,所述切分模块,具体用于根据以下步骤将所述中文文本切分成多个所述中文短文本:

将所述中文文本输入至预先定义的正则表达式中进行文本切分,得到多个所述中文短文本;

其中,所述正则表达式用于将所述中文文本中被非中文字符隔离且连续的多个所述中文字符作为一个整体滤出。

在一种可能的实施方式中,所述分词装置还包括提取模块;

所述提取模块,用于对所述中文短文本中的每个所述中文字符进行特征提取,得到每个所述中文字符的特征向量;

所述输出模块,用于根据以下步骤输出经过分词后的所述中文文本:

将每个所述中文短文本中每个所述中文字符的特征向量输入至所述中文分词模型中,输出经过分词后的所述中文短文本。

在一种可能的实施方式中,所述提取模块,具体用于根据以下步骤提取得到每个所述中文字符的特征向量:

对所述中文短文本中的每个所述中文字符进行特征提取,得到所述中文字符的字符向量、位置向量和笔顺向量;

对所述中文字符的所述字符向量、所述位置向量和所述笔顺向量进行加权求和,得到所述中文字符的特征向量。

在一种可能的实施方式中,所述中文分词模型包括基于转换器的双向编码器bert和条件随机场crf;

所述输出模块,具体用于根据以下步骤输出经过分词后的所述中文短文本:

针对每个所述中文短文本,将所述中文短文本中每个所述中文字符的特征向量输入至所述基于转换器的双向编码器bert中,得到所述中文短文本中每个所述中文字符的全局信息向量;

将所述中文短文本中每个所述中文字符的所述全局信息向量输入至所述条件随机场crf中,输出经过分词后的所述中文短文本。

在一种可能的实施方式中,所述输出模块包括确定模块;

所述确定模块,用于将所述中文短文本中每个所述中文字符的所述全局信息向量输入至所述条件随机场crf中,确定与所述中文短文本中每个所述中文字符分别对应的词语位置标注信息;

所述输出模块,还用于根据与所述中文短文本中每个所述中文字符分别对应的词语位置标注信息,输出经过分词后的所述中文短文本。

在一种可能的实施方式中,所述确定模块,用于根据以下步骤确定每个所述中文字符分别对应的词语位置标注信息:

将所述中文短文本中每个所述中文字符的所述全局信息向量输入至所述条件随机场crf中,确定所述中文短文本中每个所述中文字符在预设目标位置的概率;

根据所述中文短文本中每个所述中文字符在所述预设目标位置的概率,确定与所述中文短文本中每个所述中文字符分别对应的词语位置标注信息。

在一种可能的实施方式中,所述确定模块,还用于根据以下步骤确定每个所述中文字符分别对应的词语位置标注信息:

根据所述中文短文本中每个所述中文字符在所述预设目标位置的概率中的最大概率,确定与所述中文短文本中每个所述中文字符分别对应的词语位置标注信息。

在一种可能的实施方式中,所述确定模块,还用于根据以下步骤确定每个所述中文字符分别对应的词语位置标注信息:

根据所述中文短文本中每个所述中文字符在所述预设目标位置的概率和在对应的所述中文短文本中的位置,确定与所述中文短文本中每个所述中文字符分别对应的词语位置标注信息。

在一种可能的实施方式中,所述预设目标位置,包括:

词语的起始位置、词语的中间位置、词语的结束位置、非词语的位置。

第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线通信,所述机器可读指令被所述处理器运行时执行上述第一方面或第一方面中任一种可能的实施方式中所述的文本的分词方法的步骤。

第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面或第一方面中任一种可能的实施方式中所述的文本的分词方法的步骤。

本申请实施例中,通过获取待处理的中文文本,并将中文文本切分成多个中文短文本,其中每个中文短文本包括表征一个语义的连续多个中文字符,不但可以减小中文文本的长度,还可以过滤掉非中文字符的干扰,进一步地,基于切分的多个中文短文本和预先训练好的中文分词模型,输出经过分词后的所述中文文本,可以提升对中文文本进行分词的效率。

为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例一所提供的一种文本的分词方法的流程图;

图2示出了本申请实施例二所提供的一种文本的分词方法的流程图;

图3示出了本申请实施例三所提供的一种文本的分词装置的功能模块图之一;

图4示出了本申请实施例三所提供的一种文本的分词装置的功能模块图之二;

图5示出了本申请实施例四所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中的附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应当理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。

另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

为了使得本领域技术人员能够使用本申请内容,结合特定应用场景“中文文本的分词”,给出以下实施方式,对于本领域技术人员来说,在不脱离本申请的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。

本申请实施例下述方法、装置、电子设备或计算机可读存储介质可以应用于任何需要进行分词处理的场景,本申请实施例并不对具体的应用场景作限制,任何使用本申请实施例提供的文本的分词方法及分词装置的方案均在本申请保护范围内。

值得注意的是,在本申请提出之前,现有方案中大多是对于全文本进行整体的字典、词库匹配的分词方法,亦或者是使用以hmm为代表的基于模型的分词方法。其中,基于字典的分词方法需由手工构建一个字典,并且需要对字典进行持续的更新,需要极大的人力成本;采用以hmm为代表的基于统计的分词方法,使用动态规划算法对待分词的文本进行词语的序列标注,然而,在海量数据的环境下,这些方法需要标注大量的长文本,时间成本较高。

针对上述问题,本申请实施例提供的文本的分词方法及分词装置,通过获取待处理的中文文本,将中文文本切分成多个中文短文本,其中每个中文短文本包括表征一个语义且连续的多个中文字符,不但可以减小中文文本的长度,还可以过滤掉非中文字符的干扰,进一步地,基于切分的多个中文短文本和预先训练好的中文分词模型,输出经过分词后的所述中文文本,可以提升对中文文本进行分词的效率。

需要说明的是,中文分词(chinesewordsegmentation)指的是将一个汉字序列切分成一个个单独的词,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程,例如,将“我爱蓝天白云”进行分词,得到的分词结果为“我/爱/蓝天/白云”。

基于转换器的双向编码器(bidirectionalencoderrepresentationsfromtransformer,bert),是一种深度学习模型,可以捕捉中文的上下文环境。

条件随机场(conditionalrandomfield,crf),是一种无向图模型,近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。

为便于对本申请进行理解,下面结合具体实施例对本申请提供的技术方案进行详细说明。

实施例一

参见图1所示,本申请实施例一所提供的一种文本的分词方法的流程图,包括以下步骤:

s101:获取待处理的中文文本。

在具体实施中,可以先获取到待进行分词处理的中文文本。

需要说明的是,在中文自然语言处理的各种各样的场景中,我们通常需要以词作为最小的基本单元进行研究,但是,中文是以字为单位的,词与词之间没有空格之类的标志指示词的边界,所以分词就成为中文文本处理的基础性工作,分词的好坏对后面的中文信息处理起着极其关键的作用。

s102:将所述中文文本切分成多个中文短文本;其中每个所述中文短文本包括表征一个语义的连续多个中文字符。

在具体实施中,可以在获取到需要进行分词处理的中文文本后,首先对中文文本进行切分成多个中文短文本的预处理操作,这样,在后续的分词环节,以中文短文本为单位进行分词的处理,不但可以减小中文文本的长度,还可以过滤掉非中文字符的干扰。

这里,每一个中文短文本都是由表征一个语义且连续的多个中文字符组成,例如,中文文本为“我要去城市,他要回农村。”,将该中文文本按照上述预设规则进行切分,得到两个中文短文本,分别为“我要去城市”和“他要回农村”。

s103:基于切分的多个所述中文短文本和预先训练好的中文分词模型,输出经过分词后的所述中文文本。

在具体实施中,基于切分的多个中文短文本和预先训练好的中文分词模型,输出经过分词后的中文文本包括两种实施方式:

实施方式一:可以将多个中文短文本分别输入至预先训练好的中文分词模型中,得到多个经过分词后中文短文本,再将全部经过分词后中文短文本进行拼接,以输出经过分词后的中文文本。

实施方式二:可以将全部中文短文本一起并行输入至预先训练好的中文分词模型中,以输出经过分词后的中文文本。

这里,中文分词模型在进行中文文本的分词前就已经训练好了,可以直接用于中文文本的分词。中文分词模型可以为基于字符串匹配的分词模型、基于理解的分词模型、基于统计的分词模型等等。

在本申请实施例中,通过获取待处理的中文文本,将中文文本切分成多个中文短文本,其中每个中文短文本包括表征一个语义且连续的多个中文字符,不但可以减小中文文本的长度,还可以过滤掉非中文字符的干扰,进一步地,基于切分的多个中文短文本和预先训练的中文分词模型,输出经过分词后的所述中文文本,可以提升对中文文本进行分词的效率。

在一种可能的实施方式中,s102中所述将所述中文文本切分成多个中文短文本,包括以下步骤:

将所述中文文本输入至预先定义的正则表达式中进行文本切分,得到多个所述中文短文本。

其中,所述正则表达式用于将所述中文文本中被非中文字符隔离且连续的多个所述中文字符作为一个整体滤出。

在具体实施中,可以在获取到需要进行分词处理的中文文本后,将中文文本输入至预先定义好的正则表达式中进行切分,进而得到多个中文短文本。这样,在后续进行分词的环节中,以中文短文本为单位进行分词的处理,不但可以减小中文文本的长度,还可以过滤掉非中文字符的干扰。

这里,通过对中文文本进行研究,发现通常中文块是常用的文本单元,至于中文文本中的标点符号、外文字符等,并不参与中文的构词,即这些非中文字符在中文的构词中几乎不起作用,但是,如果将这些非中文字符也同中文字符一起输入至中文分词模型中进行分词,就会增加模型进行分词的复杂度,也会增加分词的时间成本。考虑到在统一的字符编码标准中,中文字符的范围在u4e00和u9fd5之间,因此,通过建立分割中文字符和其他非中文字符的正则表达式,可以将中文文本中的一个个中文短文本切出,具体地,可以将上述范围中的连续字符块作为一个整体,将不在上述范围内的连续字符块作为一个字部分,从而将中文文本转化成多个中文短文本,例如,中文文本为“我要去城市,他要回农村。”,其中“我要去城市”和”他要回农村”是符合统一的字符编码标准范围在u4e00和u9fd5的连续字符块,而“,”和“。”是不符合该范围的字符块,因此,将上述中文文本输入至预先定义的正则表达式中,会得到两个短文本“我要去城市”和“他要回农村”。

需要说明的是,正则表达式(regularexpression,re),又称规则表达式,是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑,对于本申请中的正则表达式是用来将中文文本中被非中文字符隔离且连续的多个中文字符作为一个整体滤出。

实施例二

参见图2所示,本申请实施例二所提供的一种文本的分词方法的流程图,包括以下步骤:

s201:获取待处理的中文文本。

在具体实施中,可以先获取到待进行分词处理的中文文本。

需要说明的是,在中文自然语言处理的各种各样的场景中,我们通常需要以词作为最小的基本单元进行研究,但是,中文是以字为单位的,词与词之间没有空格之类的标志指示词的边界,所以分词就成为中文文本处理的基础性工作,分词的好坏对后面的中文信息处理起着极其关键的作用。

s202:将所述中文文本切分成多个中文短文本;其中每个所述中文短文本包括表征一个语义的连续多个中文字符。

在具体实施中,可以在获取到需要进行分词处理的中文文本后,首先对中文文本进行切分成多个中文短文本的预处理操作,这样,在后续的分词环节,以中文短文本为单位进行分词的处理,不但可以减小中文文本的长度,还可以过滤掉非中文字符的干扰。

这里,每一个中文短文本都是由表征一个语义且连续的多个中文字符组成,例如,中文文本为“我要去东北,他要去南方。”,将该中文文本按照上述预设规则进行切分,得到两个中文短文本,分别为“我要去东北”和“他要去南方”。

s203:对所述中文短文本中的每个所述中文字符进行特征提取,得到每个所述中文字符的特征向量。

在具体实施中,在切分得到多个中文短文本后,可以对多个中文短文本中的每个中文字符进行特征提取,以提取得到每个中文字符对应的特征向量,以便中文分词模型可以更高效地识别出每个中文字符。

s204:将每个所述中文短文本中每个所述中文字符的特征向量输入至所述中文分词模型中,输出经过分词后的所述中文短文本。

在具体实施中,将每个中文短文本中每个中文字符的特征向量输入至中文分词模型中,输出经过分词后的中文文本,包括两种实施方式:

实施方式一:可以将多个中文短文本的特征向量分别输入至预先训练好的中文分词模型中,得到多个经过分词后中文短文本,再将全部经过分词后中文短文本进行拼接,输出经过分词后的中文文本。

实施方式二:可以将全部中文短文本的特征向量一起输入至预先训练好的中文分词模型中,输出经过分词后的中文文本。

这里,中文分词模型在进行中文文本的分词前就已经训练好了,可以直接进行中文分词的使用。中文分词模型可以为基于字符串匹配的分词模型、基于理解的分词模型、基于统计的分词模型等等。

在本申请实施例中,通过将待处理的中文文本切分成多个中文短文本,并对中文短文本中的每个中文字符进行特征提取,以得到每个中文字符的特征向量,进一步地,将每个中文短文本中每个中文字符的特征向量输入至中文分词模型中,可以输出经过分词后的中文短文本。采用上述方式,通过减小中文文本的长度,并过滤掉非中文字符的干扰,可以提升对中文文本进行分词的效率。

在一种可能的实施方式中,s203中所述对所述中文短文本中的每个所述中文字符进行特征提取,得到每个所述中文字符的特征向量,包括以下步骤:

对所述中文短文本中的每个所述中文字符进行特征提取,得到所述中文字符的字符向量、位置向量和笔顺向量;

对所述中文字符的所述字符向量、所述位置向量和所述笔顺向量进行加权求和,得到所述中文字符的特征向量。

在具体实施中,首先,对中文短文本中的每个中文字符进行字符特征、位置特征和笔顺特征的提取,进而得到每个中文字符对应的字符向量、位置向量和笔顺向量;进一步地,通过对每个中文字符对应的字符向量、位置向量和笔顺向量进行向量的加权求和,可以得到每个中文字符对应的特征向量。

需要说明的是,对于输入的中文字符,需要将其转换为模型可以识别的带有中文字符特征的特征向量,通常,可以对中文字符提取出字符向量、位置向量和笔顺向量。考虑到中文字符是象形文字,一个中文字符具有多个笔画,其中,笔画的内容和顺序都可以表征中文字符信息,例如,“大”可以拆解成三个笔画“-”、“丿”、“乀”,考虑到中文象形文字的特性,在中文分词模型的输入部分引入了字符、位置、笔画顺序的信息,在本申请实施例中,通过加权每个中文字符对应的字符向量、位置向量和笔顺向量,可以得到中文字符对应的特征向量,即获得了每个中文字符更全面的特征表示,将每个中文字符对应的特征向量输入至中文分词模型中,可以提升中文分词模型对中文文本分词的准确率。

在一种可能的实施方式中,所述中文分词模型包括基于转换器的双向编码器bert和条件随机场crf。

这里,中文分词模型包括基于转换器的双向编码器bert和条件随机场crf,考虑到现有技术中使用的hmm模型,只考虑中文字符当前位置的状态和该中文字符前一个位置字符的状态,这样,会使hmm模型无法捕捉到中文文本中的长依赖。例如,中文文本“我第一份工作在某某科技发展有限公司”中的公司名“某某科技发展有限公司”是一个整体,这个整体中的中文字符是相互依赖的。因此,本申请实施例利用bert学习crf需要的特征函数,这样,crf无需在通过手工构造特征函数,就可以有效通过bert学习中文短文本级别的全局信息。

s204中所述将每个所述中文短文本中每个所述中文字符的特征向量输入至所述中文分词模型中,输出经过分词后的所述中文短文本,包括以下步骤:

步骤(1):针对每个所述中文短文本,将所述中文短文本中每个所述中文字符的特征向量输入至所述基于转换器的双向编码器bert中,得到所述中文短文本中每个所述中文字符的全局信息向量。

在具体实施中,针对每个中文短文本,将该中文短文本中每个中文字符的特征向量一同输入至bert中,进而可以分别得到每个中文字符的全局信息向量。

需要说明的是,bert所使用的注意力机制的核心思想是去计算一个中文短文本中的每个中文字符对于该中文短文本中所有中文字符的相互关系,然后认为这些中文字符与中文字符之间的相互关系,在一定程度上反应了该中文短文本中不同中文字符之间的关联性以及重要程度,因此再利用这些相互关系来调整表征每个中文字符的新的表达,即中文字符的全局信息向量,这个中文字符的全局信息向量不但蕴含了该中文字符本身,还蕴含了该中文短文本中其他中文字符与该中文字符的关系,因此全局信息向量和特征向量相比是一个更加全局的表达。

步骤(2):将所述中文短文本中每个所述中文字符的所述全局信息向量输入至所述条件随机场crf中,输出经过分词后的所述中文短文本。

在具体实施中,通过将得到的每个中文短文本中每个中文字符的全局信息向量输入至crf中,可以得到经过分词后的每个中文短文本。本申请实施例利用bert学习crf需要的特征函数,这样,crf无需在通过手工构造特征函数,就可以有效通过bert学习中文短文本级别的全局信息。

在一种可能的实施方式中,步骤(2)中所述将所述中文短文本中每个所述中文字符的所述全局信息向量输入至所述条件随机场crf中,输出经过分词后的所述中文短文本,包括以下步骤:

步骤a:将所述中文短文本中每个所述中文字符的所述全局信息向量输入至所述条件随机场crf中,确定与所述中文短文本中每个所述中文字符分别对应的词语位置标注信息。

在具体实施中,将通过bert得到的中文短文本中全部中文字符的全局信息向量输入至crf中,可以通过crf确定出该中文短文本中所有中文字符分别对应的词语位置标注信息。

这里,词语位置标注信息包括词语的起始位置标注信息、词语的中间位置标注信息、词语的结束位置标注信息和非词语的位置标注信息,通常,用b表示一个词语的起始位置,用i表示一个词语的中间位置,用e表示一个词语的结束位置,s表示一个非词语的位置,如一个单独的中文字符。

一示例中,若中文短文本为“我爱高山和湖泊”,将该中文短文本中每个中文字符“我”、“爱”、“高”、“山”、“和”、“湖”、“泊”对应的全部全局信息向量一同输入至crf中,可以输出全部中文字符分别对应的词语位置标注信息,如“ssbesbe”。

步骤b:根据与所述中文短文本中每个所述中文字符分别对应的词语位置标注信息,输出经过分词后的所述中文短文本。

在具体实施中,在通过crf对该中文短文本中全部中文字符分别进行词语位置的标注后,可以根据该中文短文本中全部中文字符分别对应的词语位置标注信息,输出经过分词后的该中文短文本,即该中文短文本的分词结果。

一示例中,若中文短文本为“我爱高山和湖泊”,在经过词语位置标注后显示为“ssbesbe”,则对应该中文短文本的分词结果为“我/爱/高山/和/湖泊”,其中,“/”用来分割词语。

这里,由于将bert的输出全局信息向量作为crf的输入,使crf可以学习到整个中文短文本的信息,进而可以更加准确地对该中文短文本中的每个中文字符进行词语位置信息的标注,可以提升中文分词模型分词的准确性,还可以解决中文短文本中的长依赖问题。

在一种可能的实施方式中,步骤a中所述将所述中文短文本中每个所述中文字符的所述全局信息向量输入至所述条件随机场crf中,确定与所述中文短文本中每个所述中文字符分别对应的词语位置标注信息,包括以下步骤:

步骤a1:将所述中文短文本中每个所述中文字符的所述全局信息向量输入至所述条件随机场crf中,确定所述中文短文本中每个所述中文字符在预设目标位置的概率。

在具体实施中,将通过bert得到的中文短文本中全部中文字符的全局信息向量输入至crf中,可以通过crf确定出该中文短文本中所有中文字符分别对应的在预设目标位置的概率,预设目标位置包括词语的起始位置、词语的中间位置、词语的结束位置和非词语的位置,也就是说,通过crf可以确定出该中文短文本中全部中文字符在不同预设目标位置的概率,通常,用b表示一个词语的起始位置,用i表示一个词语的中间位置,用e表示一个词语的结束位置,s表示一个非词语的位置,如一个单独的中文字符。

一示例中,若中文短文本为“我爱高山和湖泊”,将该中文短文本中每个中文字符“我”、“爱”、“高”、“山”、“和”、“湖”、“泊”对应的全部全局信息向量一同输入至crf中,可以通过crf分别计算出中文字符“我”、“爱”、“高”、“山”、“和”、“湖”、“泊”分别在不同预设目标位置的概率,如,以中文字符“我”为例,可以计算得到“我”在词语的起始位置的概率为5%、“我”在词语的中间位置的概率为4%、“我”在词语的结束位置的概率为1%、“我”在词语的非词语的位置的概率为90%。

步骤a2:根据所述中文短文本中每个所述中文字符在所述预设目标位置的概率,确定与所述中文短文本中每个所述中文字符分别对应的词语位置标注信息。

在具体实施中,通过crf计算得到的该中文短文本中每个中文字符分别在不同预设目标位置的概率,可以对该中文短文本中每个中文字符进行对应的词语位置标注。

一示例中,若中文短文本为“我爱高山和湖泊”,以中文字符“爱”为例,可以通过crf计算得到“爱”在词语的起始位置的概率为3%、“爱”在词语的中间位置的概率为4%、“爱”在词语的结束位置的概率为13%、“爱”在词语的非词语的位置的概率为80%,则可以确定出“爱”在该中文短文本中为非词语的位置,词语位置标注信息为“s”。

这里,由于将bert的输出全局信息向量作为crf的输入,使crf可以学习到整个中文短文本的信息,进而可以在已知该中文短文本信息的前提下,计算该中文短文本中每个中文字符在不同预设目标位置的概率,从而更加准确地对该中文短文本中的每个中文字符进行词语位置信息的标注,可以提升中文分词模型分词的准确性,还可以解决中文短文本中的长依赖问题。

在一种可能的实施方式中,步骤a2中所述根据所述中文短文本中每个所述中文字符在所述预设目标位置的概率,确定与所述中文短文本中每个所述中文字符分别对应的词语位置标注信息,包括以下步骤:

步骤a21:根据所述中文短文本中每个所述中文字符在所述预设目标位置的概率中的最大概率,确定与所述中文短文本中每个所述中文字符分别对应的词语位置标注信息。

在具体实施中,可以通过crf计算出该中文短文本中每个中文字符在不同预设目标位置的概率,进一步地,分别选取每个中文字符的最大概率对应的预设目标位置,对该中文短文本中每个中文字符进行词语位置的标注。

一示例中,若中文短文本为“我爱高山和湖泊”,以中文字符“高”为例,计算得到“高”在词语的起始位置的概率为90%、“高”在词语的中间位置的概率为4%、“高”在词语的结束位置的概率为4%、“高”在词语的非词语的位置的概率为2%,则中文字符“高”在词语的起始位置的概率最大,可以确定出“高”在该中文短文本中对应词语的起始位置,因而应该将“高”标注为“b”。

这里,由于将bert的输出全局信息向量作为crf的输入,使crf可以学习到整个中文短文本的信息,进而可以在已知该中文短文本信息的前提下,计算该中文短文本中每个中文字符在不同预设目标位置的概率,并分别根据该中文短文本中每个中文字符的最大概率对应的预设目标位置,对每个中文字符进行词语位置的标注,可以提升词语位置标注的准确率,进而提升中文分词模型进行分词的准确性,还可以解决中文短文本中的长依赖问题。

在一种可能的实施方式中,步骤a21中所述根据所述中文短文本中每个所述中文字符在所述预设目标位置的概率,确定与所述中文短文本中每个所述中文字符分别对应的词语位置标注信息,包括以下步骤:

根据所述中文短文本中每个所述中文字符在所述预设目标位置的概率和在对应的所述中文短文本中的位置,确定与所述中文短文本中每个所述中文字符分别对应的词语位置标注信息。

在具体实施中,可以通过crf计算出该中文短文本中每个中文字符在不同预设目标位置的概率,进一步地,根据每个中文字符在不同预设目标位置的概率和在该中文短文本中的位置一起,确定与对该中文短文本中每个中文字符进行词语位置的标注。

一示例中,若中文短文本为“我爱高山和湖泊”,以中文字符“我”为例,计算得到“我”在词语的起始位置的概率为4%、“我”在词语的中间位置的概率为4%、“我”在词语的结束位置的概率为50%、“我”在词语的非词语的位置的概率为42%,且“我”在“我爱高山和湖泊”的位置为首位,虽然“我”在词语的结束位置的概率最大,但根据“我”在“我爱高山和湖泊”中的位置,确定出“我”不可能在词语的结束位置,则最终确定“我”在非词语的位置,因此,应该将“我”标注为“s”。

这里,由于本申请实施例将每个中文字符在不同预设位置的概率和在对应的中文短文本的位置,一起作为对每个中文字符进行词语位置进行标注的考量,可以减小词语位置标注的错误率,进而提升词语位置标注的准确率,达到提升中文分词模型分词的准确性的目的。

在一种可能的实施方式中,所述预设目标位置,包括:词语的起始位置、词语的中间位置、词语的结束位置、非词语的位置。

在具体实施中,可以用b表示一个词语的起始位置,用i表示一个词语的中间位置,用e表示一个词语的结束位置,s表示一个非词语的位置,如一个单独的中文字符。

在本申请实施例中,通过将待处理的中文文本切分成多个中文短文本,并对中文短文本中的每个中文字符进行特征提取,以得到每个中文字符的特征向量,进一步地,将每个中文短文本中每个中文字符的特征向量输入至中文分词模型中,可以输出经过分词后的中文短文本。采用上述方式,通过减小中文文本的长度,并过滤掉非中文字符的干扰,可以提升对中文文本进行分词的效率。

实施例三

基于同一申请构思,本申请实施例三中还提供了与实施例一和实施例二提供的文本的分词方法对应的文本的分词装置,由于本申请实施例中的装置解决问题的原理与本申请上述实施例一和实施例二的文本的分词方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。

参见图3所示,为本申请实施例三提供的一种文本的分词装置300的功能模块图之一,参见图4所示,为本申请实施例三提供的一种文本的分词装置300的功能模块图之二,其中,文本的分词装置300包括:

获取模块310,用于获取待处理的中文文本;

切分模块320,用于将所述中文文本切分成多个中文短文本;其中每个所述中文短文本包括表征一个语义的连续多个中文字符;

输出模块330,用于基于切分的多个所述中文短文本和预先训练好的中文分词模型,输出经过分词后的所述中文文本。

在本申请实施例中,通过获取待处理的中文文本,将中文文本切分成多个中文短文本,其中每个中文短文本包括表征一个语义且连续的多个中文字符,不但可以减小中文文本的长度,还可以过滤掉非中文字符的干扰,进一步地,基于切分的多个中文短文本和预先训练的中文分词模型,输出经过分词后的所述中文文本,可以提升对中文文本进行分词的效率。

在一种可能的实施方式中,参见图3和图4所示,所述切分模块320,具体用于根据以下步骤将所述中文文本切分成多个所述中文短文本:

将所述中文文本输入至预先定义的正则表达式中进行文本切分,得到多个所述中文短文本;

其中,所述正则表达式用于将所述中文文本中被非中文字符隔离且连续的多个所述中文字符作为一个整体滤出。

在一种可能的实施方式中,参见图4所示,文本的分词装置300还包括提取模块340;

所述提取模块340,用于对所述中文短文本中的每个所述中文字符进行特征提取,得到每个所述中文字符的特征向量;

所述输出模块330,用于根据以下步骤输出经过分词后的所述中文文本:

将每个所述中文短文本中每个所述中文字符的特征向量输入至所述中文分词模型中,输出经过分词后的所述中文短文本。

在一种可能的实施方式中,参见图4所示,所述提取模块340,具体用于根据以下步骤提取得到每个所述中文字符的特征向量:

对所述中文短文本中的每个所述中文字符进行特征提取,得到所述中文字符的字符向量、位置向量和笔顺向量;

对所述中文字符的所述字符向量、所述位置向量和所述笔顺向量进行加权求和,得到所述中文字符的特征向量。

在一种可能的实施方式中,参见图3和图4所示,所述中文分词模型包括基于转换器的双向编码器bert和条件随机场crf;

所述输出模块330,具体用于根据以下步骤输出经过分词后的所述中文短文本:

针对每个所述中文短文本,将所述中文短文本中每个所述中文字符的特征向量输入至所述基于转换器的双向编码器bert中,得到所述中文短文本中每个所述中文字符的全局信息向量;

将所述中文短文本中每个所述中文字符的所述全局信息向量输入至所述条件随机场crf中,输出经过分词后的所述中文短文本。

在一种可能的实施方式中,参见图4所示,所述输出模块330包括确定模块332;

所述确定模块332,用于将所述中文短文本中每个所述中文字符的所述全局信息向量输入至所述条件随机场crf中,确定与所述中文短文本中每个所述中文字符分别对应的词语位置标注信息;

所述输出模块330,还用于根据与所述中文短文本中每个所述中文字符分别对应的词语位置标注信息,输出经过分词后的所述中文短文本。

在一种可能的实施方式中,所述确定模块332,用于根据以下步骤确定每个所述中文字符分别对应的词语位置标注信息:

将所述中文短文本中每个所述中文字符的所述全局信息向量输入至所述条件随机场crf中,确定所述中文短文本中每个所述中文字符在预设目标位置的概率;

根据所述中文短文本中每个所述中文字符在所述预设目标位置的概率,确定与所述中文短文本中每个所述中文字符分别对应的词语位置标注信息。

在一种可能的实施方式中,参见图4所示,所述确定模块332,还用于根据以下步骤确定每个所述中文字符分别对应的词语位置标注信息:

根据所述中文短文本中每个所述中文字符在所述预设目标位置的概率中的最大概率,确定与所述中文短文本中每个所述中文字符分别对应的词语位置标注信息。

在一种可能的实施方式中,参见图4所示,所述确定模块332,还用于根据以下步骤确定每个所述中文字符分别对应的词语位置标注信息:

根据所述中文短文本中每个所述中文字符在所述预设目标位置的概率和在对应的所述中文短文本中的位置,确定与所述中文短文本中每个所述中文字符分别对应的词语位置标注信息。

在一种可能的实施方式中,所述预设目标位置,包括:词语的起始位置、词语的中间位置、词语的结束位置、非词语的位置。

在本申请实施例中,通过获取待处理的中文文本,将中文文本切分成多个中文短文本,其中每个中文短文本包括表征一个语义且连续的多个中文字符,不但可以减小中文文本的长度,还可以过滤掉非中文字符的干扰,进一步地,基于切分的多个中文短文本和预先训练的中文分词模型,输出经过分词后的所述中文文本,可以提升对中文文本进行分词的效率。

实施例四

基于同一申请构思,参见图5所示,为本申请实施例四提供的一种电子设备500的结构示意图,包括:处理器510、存储器520和总线530,所述存储器520存储有所述处理器510可执行的机器可读指令,当电子设备500运行时,所述处理器510与所述存储器520之间通过所述总线530通信,所述机器可读指令被所述处理器510运行时执行如实施例一,和/或实施例二中任一所述的文本的分词方法的步骤。

具体地,所述机器可读指令被所述处理器510执行时执行如下处理:

获取待处理的中文文本;

将所述中文文本切分成多个中文短文本;其中每个所述中文短文本包括表征一个语义的连续多个中文字符;

基于切分的多个所述中文短文本和预先训练好的中文分词模型,输出经过分词后的所述中文文本。

本申请实施例中,电子设备500通过执行获取待处理的中文文本,将中文文本切分成多个中文短文本,基于切分的多个中文短文本和预先训练的中文分词模型,输出经过分词后的所述中文文本的步骤,不但可以减小中文文本的长度,还可以过滤掉非中文字符的干扰,进一步地,还可以提升对中文文本进行分词的效率。

实施例五

基于同一申请构思,本申请实施例五还供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述实施例一,和/或实施例二中提供的文本的分词方法的步骤。

具体地,所述存储介质能够为通用的存储介质,如移动磁盘、硬盘等,所述存储介质上的计算机程序被运行时,能够执行上述文本的分词方法,不但可以减小中文文本的长度,还可以过滤掉非中文字符的干扰,进而提升中文文本进行分词的效率。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应所述理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的部分可以以软件产品的形式体现出来,所述计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1