一种文本处理方法、装置、计算机设备及存储介质与流程

文档序号:24072927发布日期:2021-02-26 16:06阅读:83来源:国知局
一种文本处理方法、装置、计算机设备及存储介质与流程

[0001]
本公开涉及自然语言处理技术领域,具体而言,涉及一种文本处理方法、装置、计算机设备及存储介质。


背景技术:

[0002]
命名实体识别(named entity recognition,ner)用于识别文本中的命名实体,例如地点、姓名、组织机构,在信息检索、智能问答系统、机器翻译、知识图谱等领域应用广泛。例如在智能问答系统中,通过对用户发送的用户提问信息进行命名实体识别,可以将确定的命名实体作为提问的关键词,并依据提问关键词从标准问答库中匹配与提问的关键词对应的预设问句,并向用户推送与预设问句相对应的答句作为自动回复信息。
[0003]
当前对文本进行命名实体识别的方式存在效率较低的问题。


技术实现要素:

[0004]
本公开实施例至少提供一种文本处理方法、装置、计算机设备及存储介质。
[0005]
第一方面,本公开实施例提供了一种文本处理方法,包括:
[0006]
获取待处理文本;
[0007]
对所述待处理文本进行分词处理,得到多个目标词汇;其中,任一目标词汇包括所述待处理文本中的至少一个字符;
[0008]
基于所述多个目标词汇分别对应的词向量,对所述多个目标词汇进行实体识别,得到所述多个目标词汇分别对应的实体识别结果。
[0009]
一种可选的实施方式中,对所述多个目标词汇进行实体识别,包括:
[0010]
基于所述多个目标词汇分别对应的词向量,构成所述待处理文本的向量矩阵;
[0011]
对所述向量矩阵进行特征提取处理,得到所述向量矩阵的特征数据;
[0012]
基于所述特征数据,得到所述多个目标词汇分别对应的实体识别结果。
[0013]
一种可选的实施方式中,所述对所述待处理文本进行分词处理,得到多个目标词汇,包括:
[0014]
基于所述待处理文本,生成至少一个字符串组;其中,属于不同字符串组的字符串长度不同,属于相同字符串组的字符串长度相同;
[0015]
将所述至少一个字符串组中字符串的字符串向量进行融合处理,得到融合特征数据;
[0016]
利用预先训练的分词模型对所述融合特征数据进行分词处理,得到所述多个目标词汇。
[0017]
一种可选的实施方式中,所述基于所述待处理文本,生成至少一个字符串组,包括:
[0018]
针对所述至少一个字符串组中的每个字符串组,以所述待处理文本中的首个字符为滑动起点,利用与所述每个字符串组对应的滑动窗口,按照预设的移动步长沿着所述待
处理文本的字符构成的字符序列滑动,并将每次滑动后落入滑动窗口内的字符确定为所述每个字符串组中的字符串;
[0019]
其中不同的字符串组,对应的滑动窗口的尺寸不同。
[0020]
一种可选的实施方式中,针对所述字符串组有一个的情况,将所述至少一个字符串组中字符串的字符串向量进行融合处理,得到融合特征数据,包括:
[0021]
将一个所述字符串组中各个字符串的字符串向量顺序拼接,得到所述融合特征数据;
[0022]
针对所述字符串组有多个的情况,将所述至少一个字符串组中字符串的字符串向量进行融合处理,得到融合特征数据,包括:
[0023]
按照所述多个字符串组中,各个字符串所包括的字符在所述待处理文本中的位置,确定所述多个字符串组中各字符串的拼接顺序;
[0024]
基于所述多个字符串组中各字符串的拼接顺序,将所述多个字符串组中字符串的字符串向量进行拼接,得到所述融合特征数据。
[0025]
一种可选的实施方式中,所述利用预先训练的分词模型对所述融合特征数据进行分词处理,得到所述多个目标词汇,包括:
[0026]
利用预先训练的分词模型对所述融合特征数据进行分词处理,得到所述的待处理文本中每相邻的两个字符属于同一词汇的预测概率;
[0027]
基于所述待处理文本中每相邻的两个字符对应的预测概率,从所述待处理文本中确定多个所述目标词汇。
[0028]
第二方面,本公开实施例还提供一种文本处理装置,包括:
[0029]
获取模块,用于获取待处理文本;
[0030]
处理模块,用于对所述待处理文本进行分词处理,得到多个目标词汇;其中,任一目标词汇包括所述待处理文本中的至少一个字符;
[0031]
识别模块,用于基于所述多个目标词汇分别对应的词向量,对所述多个目标词汇进行实体识别,得到所述多个目标词汇分别对应的实体识别结果。
[0032]
一种可选的实施方式中,所述识别模块在对所述多个目标词汇进行实体识别时,用于:
[0033]
基于所述多个目标词汇分别对应的词向量,构成所述待处理文本的向量矩阵;
[0034]
对所述向量矩阵进行特征提取处理,得到所述向量矩阵的特征数据;
[0035]
基于所述特征数据,得到所述多个目标词汇分别对应的实体识别结果。
[0036]
一种可选的实施方式中,所述处理模块在所述对所述待处理文本进行分词处理,得到多个目标词汇时,用于:
[0037]
基于所述待处理文本,生成至少一个字符串组;其中,属于不同字符串组的字符串长度不同,属于相同字符串组的字符串长度相同;
[0038]
将所述至少一个字符串组中字符串的字符串向量进行融合处理,得到融合特征数据;
[0039]
利用预先训练的分词模型对所述融合特征数据进行分词处理,得到所述多个目标词汇。
[0040]
一种可选的实施方式中,所述处理模块在基于所述待处理文本,生成至少一个字
符串组时,用于:
[0041]
针对所述至少一个字符串组中的每个字符串组,以所述待处理文本中的首个字符为滑动起点,利用与所述每个字符串组对应的滑动窗口,按照预设的移动步长沿着所述待处理文本的字符构成的字符序列滑动,并将每次滑动后落入滑动窗口内的字符确定为所述每个字符串组中的字符串;
[0042]
其中不同的字符串组,对应的滑动窗口的尺寸不同。
[0043]
一种可选的实施方式中,所述处理模块在针对所述字符串组有一个的情况,将所述至少一个字符串组中字符串的字符串向量进行融合处理,得到融合特征数据时,用于:
[0044]
将一个所述字符串组中各个字符串的字符串向量顺序拼接,得到所述融合特征数据;
[0045]
所述处理模块在针对所述字符串组有多个的情况,将所述至少一个字符串组中字符串的字符串向量进行融合处理,得到融合特征数据时,用于:
[0046]
按照所述多个字符串组中,各个字符串所包括的字符在所述待处理文本中的位置,确定所述多个字符串组中各字符串的拼接顺序;
[0047]
基于所述多个字符串组中各字符串的拼接顺序,将所述多个字符串组中字符串的字符串向量进行拼接,得到所述融合特征数据。
[0048]
一种可选的实施方式中,所述处理模块在利用预先训练的分词模型对所述融合特征数据进行分词处理,得到所述多个目标词汇时,用于:
[0049]
利用预先训练的分词模型对所述融合特征数据进行分词处理,得到所述的待处理文本中每相邻的两个字符属于同一词汇的预测概率;
[0050]
基于所述待处理文本中每相邻的两个字符对应的预测概率,从所述待处理文本中确定多个所述目标词汇。
[0051]
第三方面,本公开可选实现方式还提供一种计算机设备,处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述处理器用于执行所述存储器中存储的机器可读指令,所述机器可读指令被所述处理器执行时,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
[0052]
第四方面,本公开可选实现方式还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
[0053]
关于上述文本处理装置、计算机设备、及计算机可读存储介质的效果描述参见上述文本处理方法的说明,这里不再赘述。
[0054]
本公开实施例提供的文本处理方法、装置、计算机设备及存储介质,通过将待处理文本进行分词处理,得到多个目标词汇,然后对多个目标词汇对应的词向量进行实体识别,确定各个目标词汇分别对应的实体识别结果;这种方法处理的复杂度低,且效率较高。
[0055]
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0056]
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附
图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0057]
图1示出了本公开实施例所提供的一种文本处理方法的流程图;
[0058]
图2示出了本公开实施例所提供的一种对待处理文本进行分词处理,得到多个目标词汇的具体方法的流程图;
[0059]
图3示出了本公开实施例所提供的一种利用预先训练的分词模型对融合特征数据进行分词处理,得到多个目标词汇的具体方法的流程图;
[0060]
图4示出了本公开实施例所提供的一种基于多个目标词汇分别对应的词向量,对多个目标词汇进行实体识别的方法的流程图;
[0061]
图5示出了本公开实施例所提供的一种对待处理文本进行文本处理的具体执行方法的流程图;
[0062]
图6示出了本公开实施例所提供的一种文本处理装置的示意图;
[0063]
图7示出了本公开实施例所提供的一种计算机设备的示意图。
具体实施方式
[0064]
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
[0065]
经研究发现,命名实体识别在例如信息检索、智能问答系统等多个领域应用广泛。当前的命名实体识别方法通常采用循环神经网络与条件随机场(conditional random field,crf)结合的方法;在该方法中,用户通过终端设备输入提问的文本;进行命名实体识别的设备将文本中的字符转化为字符向量,然后利用循环神经网络对多个字符的字符向量进行特征提取,得到特征数据,然后利用crf基于特征数据进行命名实体预测,得到文本中各个字符是否属于命名实体的命名实体识别结果。在该方法中,无论循环神经网络还是crf模型,要获得处理结果,都需要依赖字符之间的相互关联关系;循环神经网络在对文本的向量进行特征提取时,是在当前处理周期,基于前一处理周期对前一字符的处理结果,对当前处理周期对应的字符进行特征提取;在多个周期完成对所有字符的特征提取后,crf模型利用各个字符之间的关联关系,基于各个字符的特征数据得到每个字符属于命名实体的预测概率。由于循环神经网络对文本的处理时间过长,造成实体检测所需要时间过久;同时由于条件随机场在进行命名实体预测时需要依据特征数据逐一确定文本中各个字符属于命名实体的概率,处理的复杂度较高,所需时间也比较长,进而导致当前的命名实体识别方法存在效率较低的问题。
[0066]
基于上述研究,本公开提供了一种文本处理方法,通过将待处理文本进行分词处
理,得到多个目标词汇,然后对多个目标词汇对应的词向量进行实体识别,确定各个目标词汇分别对应的实体识别结果,从而在基于目标词汇的词向量进行实体识别时,不需要依赖待处理文本中字符之间的关联关系,因此不需要采用循环神经网络预先对各个字符进行特征提取,也不需要依赖crf基于各个字符的特征数据得到各个字符属于命名实体的概率,处理的复杂度低,且效率较高。
[0067]
针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案,都应该是发明人在本公开过程中对本公开做出的贡献。
[0068]
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
[0069]
为便于对本实施例进行理解,首先对本公开实施例所公开的一种文本处理方法进行详细介绍,本公开实施例所提供的文本处理方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:终端设备或服务器或其它处理设备,终端设备可以为用户设备(user equipment,ue)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(personal digital assistant,pda)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该文本处理方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
[0070]
下面对本公开实施例提供的文本处理方法加以说明。
[0071]
参见图1所示,为本公开实施例提供的文本处理方法的流程图,所述方法包括步骤s101~s103,其中:
[0072]
s101:获取待处理文本;
[0073]
s102:对待处理文本进行分词处理,得到多个目标词汇;其中,任一目标词汇包括待处理文本中的至少一个字符;
[0074]
s103:基于多个目标词汇分别对应的词向量,对多个目标词汇进行实体识别,得到多个目标词汇分别对应的实体识别结果。
[0075]
本公开实施例通过将待处理文本进行分词处理,得到多个目标词汇,然后对多个目标词汇对应的词向量进行实体识别,确定各个目标词汇分别对应的实体识别结果;这种方法处理的复杂度低,且效率较高。
[0076]
下面对上述s101~s103加以详细说明。
[0077]
针对上述s101,待处理文本例如为一段语句,并且待处理文本中包含至少一个字符。
[0078]
在一种可能的实施方式中,可以先确定一段直接获取得到的自然文本,再利用自然文本确定待处理文本;或者,可以先确定一段语音信息、一张图片信息或者一段视频信息等,利用ai识别的方式,确定待处理文本。
[0079]
示例性的,可以根据自然文本中的标点符号,确定待处理文本,例如将“句号”作为切分待处理文本的依据;另外,还可以对自然文本进行数据清洗,得到待处理文本;例如,在自然文本中存在无实意字符和/或无实体字符的情况下,例如可以对自然文本进行数据预处理确定待处理文本。其中,无实意字符包括口语化文本,例如“哈”或者“嗯嗯”;无实体字符例如包括元素符号(例如“α”或者“δ”)或者网页域名(例如“url”或者“.com”)。
[0080]
示例性的,在得到的自然文本中包括无实意字符和/或无实体字符的情况下,例如可以删除其中的无实意字符和/或无实体字符以得到待处理文本;或者,在得到的自然文本中仅包括无实意字符和/或无实体字符的情况下,不将此自然文本作为待处理文本。
[0081]
在将本公开实施例提供的文本处理方法应用于不同场景下时,自然文本也有所区别,对应的命名实体也有所区别。例如,在将该文本处理方法应用于信息检索的情况下,可以将用户输入的检索语句作为自然文本,例如用户在搜索数学学科知识点时,在检索框内输入“什么是加权求和运算?”,则将此输入的问句“什么是加权求和运算?”作为自然文本,对应的命名实体例如可以包括“学科”、“计算类型”、以及“其他”;在将该文本处理方法应用于客服回复的情况下,可以将用户输入的对话信息作为自然文本,例如用户在针对留学教育向客服咨询时,向客服发送“想去德国,但口语差”的沟通信息,则将此时的沟通信息“想去德国,但口语差”作为自然文本,对应的命名实体例如可以包括“地点”、“教育”、以及“其他”。
[0082]
另外,待处理文本不限定语言,例如可以包括中文、英文、日语、韩语或者其他语言,也可能是多种语言的组合。示例性的,待处理文本可以包括“how to update my information”。
[0083]
针对上述s102,参见图2所示,本公开实施例提供了一种对待处理文本进行分词处理,得到多个目标词汇的具体方法,包括:
[0084]
s201:基于待处理文本,生成至少一个字符串组;其中,属于不同字符串组的字符串长度不同,属于相同字符串组的字符串长度相同。
[0085]
在具体实施中,在基于待处理文本生成至少一个字符串组时,例如可以采用下述方式:
[0086]
针对至少一个字符串组中的每个字符串组,以待处理文本中的首个字符为滑动起点,利用与每个字符串组对应的滑动窗口,按照预设的移动步长沿着待处理文本的字符构成的字符序列滑动,并将每次滑动后落入滑动窗口内的字符确定为每个字符串组中的字符串;其中不同的字符串组,对应的滑动窗口的尺寸不同。
[0087]
示例性的,在待处理文本包括“想去德国,但口语差”的情况下,待处理文本构成的字符序列包括“想去德国但口语差”,首个字符为“想”。此时,在利用待处理文本生成至少一个字符串时,例如可以生成两个不同的字符串组,分别表示为s1和s2;预设的移动步长例如可以设置为一个字符对应的字符长度。
[0088]
此时,字符串组s1对应的滑动窗口例如可以表示为w1,滑动窗口w1的尺寸可以设置为一个字符对应的字符长度,也即在滑动窗口在滑动后落入滑动窗口内的字符为一个。此时,可以利用滑动窗口确定待处理文本中的多个字符串,多个字符串中的任一字符串例如可以表示为l
1i
,其中,i的取值由待处理文本构成的字符序列中包含的字符数量以及预设的移动步长决定。
[0089]
在字符序列包括“想去德国但口语差”的情况下,字符序列中包含的字符数量为8,因此在滑动窗口的预设移动步长为一个字符对应的字符长度的情况下,字符串l
1i
中i的取值范围为[1,2,

,8],也即可以获取8个字符串,分别为“想”、“去”、“德”、“国”、“但”、“口”、“语”、及“差”,此时,可以基于l
1i
,i∈[1,2,

,8]确定字符串组s1。
[0090]
字符串组s2对应的滑动窗口例如可以表示为w2,滑动窗口w2的尺寸可以设置为两
个字符对应的字符长度,也即在滑动窗口在滑动后落入滑动窗口内的字符为两个。此时,可以利用滑动窗口确定待处理文本中的多个字符串,多个字符串中的任一字符串例如可以表示为l
2i
;同样的,i的取值由待处理文本构成的字符序列中包含的字符数量以及预设的移动步长决定。
[0091]
在字符序列包括“想去德国但口语差”的情况下,字符序列中包含的字符数量为8,因此在滑动窗口的预设移动步长为两个字符对应的字符长度的情况下,字符串l
2i
中i的取值范围为[1,2,

,7],也即可以获取7个字符串,分别为“想去”、“去德”、“德国”、“国但”、“但口”、“口语”、及“语差”,此时,可以基于l
2i
,i∈[1,2,

,7]确定字符串组s2。
[0092]
承接上述s201,对待处理文本进行分词处理,得到多个目标词汇的具体方法还包括:
[0093]
s202:将至少一个字符串组中字符串的字符串向量进行融合处理,得到融合特征数据。
[0094]
在具体实施中,针对字符串组有一个的情况,将至少一个字符串组中字符串的字符串向量进行融合处理,得到融合特征数据,例如可以采用下述方法:
[0095]
将一个字符串组中各个字符串的字符串向量顺序拼接,得到融合特征数据。
[0096]
示例性的,在待处理文本包括“想去德国,但口语差”的情况下,可以仅利用滑动窗口w1确定字符串组s1,具体确定字符串组s1的过程与上述s201中确定字符串组s1的过程相似,在此不再赘述。
[0097]
此时,可以对字符串组s1中包含的多个字符串“想”、“去”、“德”、“国”、“但”、“口”、“语”、及“差”进行编码,确定多个字符串分别对应的字符串向量,例如可以表示为a1、a2、
……
、a8。其中,在对多个字符串进行编码时,可以采用下述至少一种编码方法:语言理解的深度双向变换器(deep bidirectional transformers for language understanding,bert)、全局向量模型(global vectors for word representation,glove)、词向量产生模型(word to vector,word2vec)。
[0098]
在对各个字符串向量进行顺序拼接得到融合特征数据时,例如可以将各个字符串向量按照顺序拼接得到的字符串向量作为融合特征数据,例如可以表示为[a1,a2,

,a8];或者,将各个字符串向量对应位置的元素进行加和,确定融合特征数据。
[0099]
另外,针对字符串组有多个的情况,将至少一个字符串组中字符串的字符串向量进行融合处理,得到融合特征数据,例如可以采用下述方法:
[0100]
按照多个字符串组中,各个字符串所包括的字符在待处理文本中的位置,确定多个字符串组中各字符串的拼接顺序;
[0101]
基于多个字符串组中各字符串的拼接顺序,将多个字符串组中字符串的字符串向量进行拼接,得到融合特征数据。
[0102]
示例性的,在待处理文本包括“想去德国,但口语差”的情况下,可以仅利用滑动窗口w1确定字符串组s1,并利用滑动窗口w2确定字符串组s2。具体确定字符串组s1和s2的过程与上述s201中确定字符串组s1和s2的过程相似,在此不再赘述。
[0103]
其中,可以对字符串组s1中的多个字符串进行编码,得到对应的字符串向量a1、a2、
……
、a8,对应获取字符串向量的方法与上述实施例中确定字符串向量的方法相似,在此不再赘述。在对字符串组s2中的多个字符串进行编码时,可以将多个字符串分别对应的字
符串向量表示为b1、b2、
……
、b7。
[0104]
此时,可以按照多个字符串组中各个字符串所包括的字符在待处理文本中的位置确定多个字符串组中各字符串的拼接顺序。
[0105]
示例性的,可以首先确定字符串组s2中的字符串向量b1,字符串向量b1在字符序列“想去德国但口语差”中对应的两个字符为“想”和“去”,在字符串组s1中对应的字符串向量为a1以及a2。此时,可以在确定拼接顺序时,将字符串向量b1作为a1以及a2的中间向量进行拼接,也即对字符串向量a1、a2、及b1进行拼接时,拼接的顺序为a1、b1、及a2。其余字符串向量的拼接顺序的确定方法与上述确定a1、a2、及b1的拼接顺序的方法相似,在此不再赘述。
[0106]
此时,可以利用确定的拼接顺序,确定各个字符串按拼接顺序进行拼接得到的字符串向量作为融合特征数据,例如可以是多个字符串向量,例如可以表示为[a1,b1,a2]、[a2,b2,a3]、
……
、[a7,b7,a8]。
[0107]
承接上述s202,对待处理文本进行分词处理,得到多个目标词汇的具体方法还包括:
[0108]
s203:利用预先训练的分词模型对融合特征数据进行分词处理,得到多个目标词汇。
[0109]
在具体实施中,在利用分词模型对融合特征数据进行分词处理时,该分词模型例如包括卷积神经网络;利用该卷积神经网络对融合特征数据进行卷积处理,提取得到融合特征数据的目标特征数据,然后基于提取得到的目标特征数据,预测待处理文本中每相邻的两个字符属于同一词汇的预测概率;其中,相邻的两个字符属于同一词汇的预测概率大于预设的阈值,则表征该相邻的两个字符不属于同一词汇;若相邻的两个字符属于同一词汇的预测概率小于或者等于预设的阈值,则表征该相邻的两个字符属于同一词汇。
[0110]
在得到融合特征数据后,参见图3所示,本公开实施例提供了一种利用预先训练的分词模型对融合特征数据进行分词处理,得到多个目标词汇的具体方法,包括:
[0111]
s301:利用预先训练的分词模型对融合特征数据进行分词处理,得到的待处理文本中每相邻的两个字符属于同一词汇的预测概率;
[0112]
s302:基于待处理文本中每相邻的两个字符对应的预测概率,从待处理文本中确定多个目标词汇。
[0113]
其中,预先训练的分词模型例如可以是基于间隔构建的密集块,也即一个含有多层相同卷积核的卷积神经网络,并且卷积神经网络的后序层可利用非线性算子连接相邻前序层的特征映射。
[0114]
在构建出分词模型进行预训练时,例如可以爬取用户的文本信息,然后从中筛选出用于对分词模型进行预训练的多条文本信息,并利用例如命名实体识别方法(named entity recognition,ner)、专家知识鉴别方法、人工打分方法确定多条文本信息中每条文本信息对应的不同实体的分类进行数据标注,得到对应的数据标注信息。
[0115]
此时,可以利用构建的分词模型对多条文本信息进行分词处理,并利用得到的分词结果与每条文本信息对应的数据标注信息确定模型损失,然后利用确定的模型损失对分词模型进行优化,得到预先训练的分词模型。
[0116]
在一种可能的实施方式中,在对构建的分词模型进行训练时,对于用于对分词模型进行预训练的多条文本信息,例如还可以以85%的比例划分用于训练构建的分词模型的
训练集、以及用于对得到的预先训练的分词模型进行测试的测试集,以使得得到的预先训练的分词模型在进行分词处理时的准确性更高。此时,还可以获取信息新的数据集对预先训练的分词模型做验证,以保证预先训练的分词模型在使用时的准确性及稳定性。
[0117]
此时,利用预先训练的分词模型对融合特征数据进行分词处理,可以确定待处理文本中每相邻的两个字符属于同一词汇的预测概率,例如为10%、50%、及90%。
[0118]
在一种可能的实施方式中,还可以预先设置一个预测概率阈值,例如80%,以使得在利用待处理文本中每相邻的两个字符对应的预测概率从待处理文本中确定多个目标词汇时,有较高的可信度,从而提高在确定多个目标词汇时的准确性。
[0119]
示例性的,每相邻的两个字符包括“想去”、“去德”、“德国”、“国但”、“但口”、“口语”、及“语差”的情况下,分别对应的预测概率例如可以包括85%、40%、95%、10%、15%、90%、50%,此时,可以将预测概率较高的两个相邻字符作为目标词汇,其余字符以单字的形式单独分割,划分为“想去”、“德国”、“但”、“口语”、及“差”。
[0120]
在另一种可能的实施方式中,还可以预先设置一个间隙标识,例如“0”和“1”。示例性的,例如可以用“0”表示相邻两个字符间无间隔,则“1”表示相邻两个字符间有间隔。在确定待处理文本中每相邻的两个字符属于同一词汇的预测概率的情况下,可以利用每相邻的两个字符的预测概率确定间隙标识。此时,也可以先设置一个预测概率阈值,例如80%,并将小于预测概率阈值的两个字符中间设置间隙标识“1”,大于或者等于预测概率阈值的两个字符中间设置间隙标识“0”。
[0121]
示例性的,每相邻的两个字符包括“想去”、“去德”、“德国”、“国但”、“但口”、“口语”、及“语差”,并且分别对应的预测概率包括85%、40%、95%、10%、15%、90%、50%的情况下,例如可以得到包含间隙标识的结果“想0去1德0国1但1口0语1差”。此时,可以将间隙标识为“0”的两个相邻字符合并作为目标词汇,将间隙标识为“1”的两个相邻字符在字符间隙位置拆分,得到目标词汇包括“想去”、“德国”、“但”、“口语”、及“差”。
[0122]
此时,即可得到待处理文本对应的多个目标词汇。
[0123]
针对上述s103,参见图4所示,本公开实施例提供了一种基于多个目标词汇分别对应的词向量,对多个目标词汇进行实体识别的具体方法,包括:
[0124]
s401:基于多个目标词汇分别对应的词向量,构成待处理文本的向量矩阵;
[0125]
s402:对向量矩阵进行特征提取处理,得到向量矩阵的特征数据;
[0126]
s403:基于特征数据,得到多个目标词汇分别对应的实体识别结果。
[0127]
在一种可能的实施方式中,可以对得到的多个目标词汇中每个目标词汇进行编码确定对应的词向量,并利用多个词向量确定待处理文本的向量矩阵。
[0128]
示例性的,在得到的多个目标词汇包括“想去”、“德国”、“但”、“口语”、及“差”的情况下,对应编码得到的词向量例如可以表示为p1、p2、
……
、p5。此时,例如可以对多个目标词汇分别对应的词向量p1、p2、
……
、p5进行拼接,构成待处理文本的向量矩阵,例如表示为q,则q=[p1,p2,

,p5]。
[0129]
在确定向量矩阵q=[p1,p2,

,p5]的情况下,即可以对向量矩阵进行特征提取处理,得到向量矩阵的特征数据。向量矩阵的特征数据例如可以包括构成向量矩阵的词向量对应的多个目标词汇,分别对不同实体识别结果的预测概率值;其中不同实体识别结果例如可以包括“教育”、“地点”、及“其他”的分类结果。
[0130]
在一种可能的实施方式中,还可以对特征数据中确定的多个目标词汇分别对不同实体识别结果的预测概率值进行归一化处理,从而更容易依据归一化处理后的预测概率值,判断不同目标词汇分别对应的实体识别结果。
[0131]
此时,可以将特征数据中多个目标词汇分别对不同实体识别结果的预测概率值中最高的预测概率值对应的实体识别结果,作为目标词汇的实体识别结果。
[0132]
示例性的,在特征数据中,对应于目标词汇“德国”,对“教育”分类结果的预测概率例如为20%、对“地点”分类结果的预测概率例如为60%、对“其他”分类结果的预测概率例如为20%,则选取预测概率最高(也即60%)对应的分类结果“地点”作为目标词汇“德国”对应的实体识别结果。
[0133]
确定待处理文本中其他目标词汇分别对应的实体识别结果的方法与上述确定目标词汇“德国”对应的实体识别结果的方法相似,在此不再赘述。此时,即可以得到待处理文本中的多个词汇对应的实体识别结果。
[0134]
示例性的,对应待处理文本“想去德国,但口语差”,可以得到词汇“想去”对应的实体结果为“其他”、“德国”对应的实体结果为“地点”、“但”对应的实体结果为“其他”、“口语”对应的实体结果为“教育”、以及“差”对应的实体结果为“其他”。
[0135]
参见图5所示,本公开实施例提供了一种对待处理文本进行文本处理的具体执行方法的流程图:
[0136]
此时,待处理文本包括提问信息“如何续费数学课程”,预设对应的命名实体结果包括“操作”、“教育”、以及“其他”。利用待处理文本,可以利用不同的滑动窗口确定待处理文本中每个字符对应的字符串511、以及待处理文本中相邻两个字符对应的字符串512。然后,对字符串511以及字符串512进行编码处理,确定字符串511对应的字符串向量521、以及字符串52对应的字符串向量522。此时,即可以对字符串向量521以及字符串向量522进行特征融合处理53,得到融合特征数据。
[0137]
在得到融合特征数据的情况下,利用卷积神经网络54、以及分类器55,得到每个字符分别对应的预测概率。
[0138]
在该示例中,卷积神经网络54包括:第一卷积神经网络和第二卷积神经网络;第一卷积神经网络包括多个卷积层、与卷积层连接的门控线性单元(gated linear units,glu);其中,卷积层的卷积核大小为1,卷积核的数量为512。第二卷积网络包括4个密集块;每个密集块的卷积核大小为3,数量为128。卷积神经网络能够对融合特征数据进行特征提取,得到特征数据。
[0139]
分类器55例如包括softmax分类器,利用分类器对将卷积神经网络得到的特征数据进行分类处理,得到每个字符分别对应的预测概率,并基于预测概率从待处理文本中确定多个目标词汇56。
[0140]
此时,可以得到目标词汇“如何”、“续费”、“数学”、以及“课程”,然后确定目标词汇分别对应的词向量57,并确定待处理文本的向量矩阵。对向量矩阵进行特征提取处理58,可以得到向量矩阵的特征数据,从而利用特征数据得到多个目标词汇分别对应的实体识别结果59,也即“如何”对应“其他”、“续费”对应“操作”、“数学”对应“教育”、“课程”对应“教育”的实体识别结果。
[0141]
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并
不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
[0142]
基于同一发明构思,本公开实施例中还提供了与文本处理方法对应的文本处理装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述文本处理方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
[0143]
参照图6所示,为本公开实施例提供的一种文本处理装置的示意图,所述装置包括:获取模块61、处理模块62、识别模块63;其中,
[0144]
获取模块61,用于获取待处理文本;
[0145]
处理模块62,用于对所述待处理文本进行分词处理,得到多个目标词汇;其中,任一目标词汇包括所述待处理文本中的至少一个字符;
[0146]
识别模块63,用于基于所述多个目标词汇分别对应的词向量,对所述多个目标词汇进行实体识别,得到所述多个目标词汇分别对应的实体识别结果。
[0147]
一种可选的实施方式中,所述识别模块63在对所述多个目标词汇进行实体识别时,用于:
[0148]
基于所述多个目标词汇分别对应的词向量,构成所述待处理文本的向量矩阵;
[0149]
对所述向量矩阵进行特征提取处理,得到所述向量矩阵的特征数据;
[0150]
基于所述特征数据,得到所述多个目标词汇分别对应的实体识别结果。
[0151]
一种可选的实施方式中,所述处理模块62在所述对所述待处理文本进行分词处理,得到多个目标词汇时,用于:
[0152]
基于所述待处理文本,生成至少一个字符串组;其中,属于不同字符串组的字符串长度不同,属于相同字符串组的字符串长度相同;
[0153]
将所述至少一个字符串组中字符串的字符串向量进行融合处理,得到融合特征数据;
[0154]
利用预先训练的分词模型对所述融合特征数据进行分词处理,得到所述多个目标词汇。
[0155]
一种可选的实施方式中,所述处理模块62在基于所述待处理文本,生成至少一个字符串组时,用于:
[0156]
针对所述至少一个字符串组中的每个字符串组,以所述待处理文本中的首个字符为滑动起点,利用与所述每个字符串组对应的滑动窗口,按照预设的移动步长沿着所述待处理文本的字符构成的字符序列滑动,并将每次滑动后落入滑动窗口内的字符确定为所述每个字符串组中的字符串;
[0157]
其中不同的字符串组,对应的滑动窗口的尺寸不同。
[0158]
一种可选的实施方式中,所述处理模块62在针对所述字符串组有一个的情况,将所述至少一个字符串组中字符串的字符串向量进行融合处理,得到融合特征数据时,用于:
[0159]
将一个所述字符串组中各个字符串的字符串向量顺序拼接,得到所述融合特征数据;
[0160]
所述处理模块62在针对所述字符串组有多个的情况,将所述至少一个字符串组中字符串的字符串向量进行融合处理,得到融合特征数据时,用于:
[0161]
按照所述多个字符串组中,各个字符串所包括的字符在所述待处理文本中的位
置,确定所述多个字符串组中各字符串的拼接顺序;
[0162]
基于所述多个字符串组中各字符串的拼接顺序,将所述多个字符串组中字符串的字符串向量进行拼接,得到所述融合特征数据。
[0163]
一种可选的实施方式中,所述处理模块62在利用预先训练的分词模型对所述融合特征数据进行分词处理,得到所述多个目标词汇时,用于:
[0164]
利用预先训练的分词模型对所述融合特征数据进行分词处理,得到所述的待处理文本中每相邻的两个字符属于同一词汇的预测概率;
[0165]
基于所述待处理文本中每相邻的两个字符对应的预测概率,从所述待处理文本中确定多个所述目标词汇。
[0166]
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
[0167]
本公开实施例还提供了一种计算机设备,如图7所示,为本公开实施例提供的计算机设备的结构示意图,包括:
[0168]
处理器71和存储器72;所述存储器72存储有处理器71可执行的机器可读指令,处理器71用于执行存储器72中存储的机器可读指令,所述机器可读指令被处理器71执行时,处理器71执行下述步骤:
[0169]
获取待处理文本;
[0170]
对所述待处理文本进行分词处理,得到多个目标词汇;其中,任一目标词汇包括所述待处理文本中的至少一个字符;
[0171]
基于所述多个目标词汇分别对应的词向量,对所述多个目标词汇进行实体识别,得到所述多个目标词汇分别对应的实体识别结果。
[0172]
上述存储器72包括内存721和外部存储器722;这里的内存721也称内存储器,用于暂时存放处理器71中的运算数据,以及与硬盘等外部存储器722交换的数据,处理器71通过内存721与外部存储器722进行数据交换。
[0173]
上述指令的具体执行过程可以参考本公开实施例中所述的文本处理方法的步骤,此处不再赘述。
[0174]
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的文本处理方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
[0175]
本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的文本处理方法的步骤,具体可参见上述方法实施例,在此不再赘述。
[0176]
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(software development kit,sdk)等等。
[0177]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实
现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0178]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0179]
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0180]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0181]
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1