本申请涉及到计算机领域,特别是涉及到一种基于分词的单词序列获取方法、装置、计算机设备和存储介质。
背景技术:
自然语言处理是计算机领域中的重要组成部分。进行自然语言处理时,需要先对输入的文本进行分词处理,因此分词处理的准确性对自然语言处理具有不可忽视的影响。传统的分词工具(例如腾讯文智、阿里云nlp等),仅能适合于有限场景下的分词任务,例如腾讯文智更适于与处理社交环境的文本,而阿里云nlp更适于处理网购环境的文本。因此,在对于不同场景中的文本,传统方法采用单一的文本分词工具进行分词的方式的分词准确性有待提高。
技术实现要素:
本申请的主要目的为提供一种基于分词的单词序列获取方法、装置、计算机设备和存储介质,旨在提高分词的准确性。
为了实现上述发明目的,本申请提出一种基于分词的单词序列获取方法,包括以下步骤:
获取待分词的指定文本;
执行第一次分词指令,所述第一次分词指令用于指示将所述指定文本分别输入至预设的n个分词工具,以得到所述n个分词工具对应输出的n个第一分词结果,其中所述第一分词结果由第一分词和除所述第一分词之外的第一剩余文本构成;
执行第一次筛选指令,所述第一次筛选指令用于指示根据预设的分词结果筛选方法,从所述n个第一分词结果中筛选出指定第一分词结果,其中所述指定第一分词结果由指定第一分词和指定第一剩余文本构成;
依次执行第二次分词指令和第二次筛选指令、第三次分词指令和第三次筛选指令、...、第m次分词指令和第m次筛选指令,其中所述第m次分词指令用于指示将指定第m-1剩余文本分别输入至所述n个分词工具,以得到所述n个分词工具对应输出的n个第m分词结果,所述第m分词结果由第m分词和除所述第m分词之外的第m剩余文本构成,m为大于1的整数;所述第m次筛选指令用于指示根据预设的分词结果筛选方法,从所述n个第m分词结果中筛选出指定第m分词结果,其中所述指定第m分词结果由指定第m分词和指定第m剩余文本构成;
根据预设的分词判断方法,判断所述指定第m剩余文本是否能够再次分词;
若所述指定第m剩余文本不能再次分词,则将指定第一分词、...、指定第m分词和所述指定第m剩余文本顺序连接,从而得到指定单词序列。
进一步地,所述根据预设的分词结果筛选方法,从所述n个第一分词结果中筛选出指定第一分词结果的步骤,包括:
对所述n个第一分词结果进行聚类处理,从而得到多个类别,其中同一个类别中的第一分词结果相同;
从所述多个类别中选出指定类别,其中所述指定类别中的第一分词结果的数量多于其他类别中的第一分词结果的数量;
将所述指定类别中的第一分词结果记为指定第一分词结果。
进一步地,所述根据预设的分词结果筛选方法,从所述n个第一分词结果中筛选出指定第一分词结果的步骤,包括:
调取预设的权重参数序列w1、w2、...、wn,所述权重参数序列w1、w2、...、wn与所述n个分词工具一一对应;
根据预设的向量映射方法,将所述n个第一分词结果分别映射为n个具有相同维度的初始向量a1、a2、...、an,其中,所述初始向量由一个取值为1的分向量和取值为0的其余分向量构成;
根据公式:m=w1a1+w2a2+...+wnan,计算得到综合向量m;
从所述综合向量m中的所有分向量中选出指定分向量,并获取所述指定分向量在所述综合向量m中的指定位置,其中所述指定分向量的数值大于其他分向量的数值;
根据预设的分向量位置与第一分词结果的对应关系,获取与所述指定位置对应的第一分词结果,并记为指定第一分词结果。
进一步地,所述权重参数序列w1、w2、...、wn通过预设的权重参数预测模型预测得到,所述权重参数预测模型基于神经网络模型训练而成,所述调取预设的权重参数序列w1、w2、...、wn,所述权重参数序列w1、w2、...、wn与所述n个分词工具一一对应的步骤之前,包括:
从预设的数据库中调取指定数据,并将所述指定数据划分为训练数据和验证数据,其中所述指定数据由训练文本和与所述训练文本关联的训练单词序列构成;
构建预设的神经网络模型与所述n个分词工具的连接通道,以使所述神经网络模型在训练时能够获取所述n个分词工具的使用权限;
利用所述训练数据训练所述神经网络模型,从而得到中间模型,利用所述验证数据验证所述中间模型,并判断所述中间模型是否验证通过;
若所述中间模型验证通过,则将所述中间模型记为所述权重参数预测模型。
进一步地,所述根据预设的向量映射方法,将所述n个第一分词结果分别映射为n个具有相同维度的初始向量a1、a2、...、an,其中,所述初始向量由一个取值为1的分向量和取值为0的其余分向量构成的步骤,包括:
将所述n个第一分词结果归类为p个分类,其中同一个分类中第一分词结果相同,其中p为大于1且小于等于n的整数;
统计所述n个第一分词结果的第一分词的字符长度,并根据所述字符长度对所述多个分类进行升序排列,从而得到升序表;
将所述升序表中排名第一的分类映射为分类向量a1,将所述升序表中排名第二的分类映射为分类向量a2,...,将所述升序表中排名第p的分类映射为分类向量ap;所述a1、a2、...、ap均为维度为p的向量,并且a1的第一个分向量取值为1且其余分向量取值为0,a2的第二个分向量取值为1且其余分向量取值为0,...,ap的第p个分向量取值为1且其余分向量取值为0。
进一步地,所述根据预设的分词判断方法,判断所述指定第m剩余文本是否能够再次分词的步骤,包括:
统计所述指定第m剩余文本的字符长度,并判断所述指定第m剩余文本的字符长度是否大于预设的字符阈值;
若所述指定第m剩余文本的字符长度大于预设的字符阈值,则利用所述n个分词工具分别对所述指定第m剩余文本进行分词测试处理,从而得到n个测试结果,其中所述测试结果包括能够再分和不能再分;
统计所述n个测试结果中为不能再分的测试结果的数量,并判断所述不能再分的测试结果的数量是否大于预设的数量阈值;
若所述不能再分的测试结果的数量大于预设的数量阈值,则判定所述指定第m剩余文本不能再次分词。
进一步地,所述若所述指定第m剩余文本不能再次分词,则将指定第一分词、...、指定第m分词和所述指定第m剩余文本顺序连接,从而得到指定单词序列的步骤之后,包括:
分别采用所述n个分词工具单独对所述指定文本进行分词处理,从而得到n个暂时单词序列;
根据预设的序列相似度计算方法,计算所述暂时单词序列与所述指定单词序列的相似程度值,从而得到与所述n个暂时单词序列对应的n个相似程度值;
判断所述n个相似程度值是否大于预设的相似度阈值;
若所述n个相似程度值均不大于预设的相似度阈值,则在所述指定单词序列上标注置疑标识。
本申请提供一种基于分词的单词序列获取装置,包括:
指定文本获取单元,用于获取待分词的指定文本;
第一次分词指令执行单元,用于执行第一次分词指令,所述第一次分词指令用于指示将所述指定文本分别输入至预设的n个分词工具,以得到所述n个分词工具对应输出的n个第一分词结果,其中所述第一分词结果由第一分词和除所述第一分词之外的第一剩余文本构成;
第一次筛选指令执行单元,用于执行第一次筛选指令,所述第一次筛选指令用于指示根据预设的分词结果筛选方法,从所述n个第一分词结果中筛选出指定第一分词结果,其中所述指定第一分词结果由指定第一分词和指定第一剩余文本构成;
依次分词和筛选单元,用于依次执行第二次分词指令和第二次筛选指令、第三次分词指令和第三次筛选指令、...、第m次分词指令和第m次筛选指令,其中所述第m次分词指令用于指示将指定第m-1剩余文本分别输入至所述n个分词工具,以得到所述n个分词工具对应输出的n个第m分词结果,所述第m分词结果由第m分词和除所述第m分词之外的第m剩余文本构成,m为大于1的整数;所述第m次筛选指令用于指示根据预设的分词结果筛选方法,从所述n个第m分词结果中筛选出指定第m分词结果,其中所述指定第m分词结果由指定第m分词和指定第m剩余文本构成;
再次分词判断单元,用于根据预设的分词判断方法,判断所述指定第m剩余文本是否能够再次分词;
指定单词序列获取单元,用于若所述指定第m剩余文本不能再次分词,则将指定第一分词、...、指定第m分词和所述指定第m剩余文本顺序连接,从而得到指定单词序列。
本申请提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的基于分词的单词序列获取方法、装置、计算机设备和存储介质,获取待分词的指定文本;执行第一次分词指令,所述第一次分词指令用于指示将所述指定文本分别输入至预设的n个分词工具,以得到所述n个分词工具对应输出的n个第一分词结果;执行第一次筛选指令,所述第一次筛选指令用于指示根据预设的分词结果筛选方法,从所述n个第一分词结果中筛选出指定第一分词结果;依次执行第二次分词指令和第二次筛选指令、第三次分词指令和第三次筛选指令、...、第m次分词指令和第m次筛选指令;判断所述指定第m剩余文本是否能够再次分词;若所述指定第m剩余文本不能再次分词,则将指定第一分词、...、指定第m分词和所述指定第m剩余文本顺序连接,从而得到指定单词序列。从而提高了分词的准确性。
附图说明
图1为本申请一实施例的基于分词的单词序列获取方法的流程示意图;
图2为本申请一实施例的基于分词的单词序列获取装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种基于分词的单词序列获取方法,包括以下步骤:
s1、获取待分词的指定文本;
s2、执行第一次分词指令,所述第一次分词指令用于指示将所述指定文本分别输入至预设的n个分词工具,以得到所述n个分词工具对应输出的n个第一分词结果,其中所述第一分词结果由第一分词和除所述第一分词之外的第一剩余文本构成;
s3、执行第一次筛选指令,所述第一次筛选指令用于指示根据预设的分词结果筛选方法,从所述n个第一分词结果中筛选出指定第一分词结果,其中所述指定第一分词结果由指定第一分词和指定第一剩余文本构成;
s4、依次执行第二次分词指令和第二次筛选指令、第三次分词指令和第三次筛选指令、...、第m次分词指令和第m次筛选指令,其中所述第m次分词指令用于指示将指定第m-1剩余文本分别输入至所述n个分词工具,以得到所述n个分词工具对应输出的n个第m分词结果,所述第m分词结果由第m分词和除所述第m分词之外的第m剩余文本构成,m为大于1的整数;所述第m次筛选指令用于指示根据预设的分词结果筛选方法,从所述n个第m分词结果中筛选出指定第m分词结果,其中所述指定第m分词结果由指定第m分词和指定第m剩余文本构成;
s5、根据预设的分词判断方法,判断所述指定第m剩余文本是否能够再次分词;
s6、若所述指定第m剩余文本不能再次分词,则将指定第一分词、...、指定第m分词和所述指定第m剩余文本顺序连接,从而得到指定单词序列。
如上述步骤s1所述,获取待分词的指定文本。其中,所述指定文本可以为任意可行语言的文本,例如为汉语、英语、日语等,优选汉语。所述指定文本所处的语言环境可为任意可行环境,例如为社交环境、网购环境、官方文件环境等,或者为未知语言环境。并且,所述指定文本所处的语言环境优选为未知语言环境,而本申请采用的分词方法由于集合了多个分词工具的优点,因此可胜任未知语言环境下的分词任务。
如上述步骤s2所述,执行第一次分词指令,所述第一次分词指令用于指示将所述指定文本分别输入至预设的n个分词工具,以得到所述n个分词工具对应输出的n个第一分词结果,其中所述第一分词结果由第一分词和除所述第一分词之外的第一剩余文本构成。所述第一次分词指令,即是利用n个分词工具,将所述指定文本划分为第一分词和除所述第一分词之外的第一剩余文本。由于不同分词工具的分词方法不同,因此得到的n个第一分词结果可能相同,也可能不同。本申请采用逐次划词的方式,间断式地获取最合适的分词,以得到最准确的分词结果。
如上述步骤s3所述,执行第一次筛选指令,所述第一次筛选指令用于指示根据预设的分词结果筛选方法,从所述n个第一分词结果中筛选出指定第一分词结果,其中所述指定第一分词结果由指定第一分词和指定第一剩余文本构成。所述分词结果筛选方法可采用任意可行方法,例如:对所述n个第一分词结果进行聚类处理,从而得到多个类别,其中同一个类别中的第一分词结果相同;从所述多个类别中选出指定类别,其中所述指定类别中的第一分词结果的数量多于其他类别中的第一分词结果的数量;将所述指定类别中的第一分词结果记为指定第一分词结果。从而指定第一分词结果是综合考虑所有的分词工具之后,得到的最适合的分词结果,从而得到了第一次分词的最优结果。
如上述步骤s4所述,依次执行第二次分词指令和第二次筛选指令、第三次分词指令和第三次筛选指令、...、第m次分词指令和第m次筛选指令,其中所述第m次分词指令用于指示将指定第m-1剩余文本分别输入至所述n个分词工具,以得到所述n个分词工具对应输出的n个第m分词结果,所述第m分词结果由第m分词和除所述第m分词之外的第m剩余文本构成,m为大于1的整数;所述第m次筛选指令用于指示根据预设的分词结果筛选方法,从所述n个第m分词结果中筛选出指定第m分词结果,其中所述指定第m分词结果由指定第m分词和指定第m剩余文本构成。本申请采用逐次划词的方式,间断式地获取最合适的分词,因此,再依次执行第二次分词指令和第二次筛选指令、第三次分词指令和第三次筛选指令、...、第m次分词指令和第m次筛选指令,就能得到综合考虑了所有的分词工具之后,得到的最适合的阶段分词结果,从而得到第二次最优分词、第三次最优分词、...、第m次最优分词。优选地,所述第二次分词指令和第二次筛选指令、第三次分词指令和第三次筛选指令、...、第m次分词指令和第m次筛选指令,是所述第一次分词指令和第一次筛选指令的重复。
如上述步骤s5所述,根据预设的分词判断方法,判断所述指定第m剩余文本是否能够再次分词。在进行了m次分词之后,若剩余文本无法再分,那么就能确定本次分词流程结束。其中,所述判断所述指定第m剩余文本是否能够再次分词可为任意可行方法,例如为判断指定第m剩余文本的字符长度是否大于2,若指定第m剩余文本的字符长度不大于2,则判定不能够再次分词。
如上述步骤s6所述,若所述指定第m剩余文本不能再次分词,则将指定第一分词、...、指定第m分词和所述指定第m剩余文本顺序连接,从而得到指定单词序列。若所述指定第m剩余文本不能再次分词,表明分词结束。而之前的多次阶段性分词得到的指定第一分词、...、指定第m分词均是最优阶段分词结果,再加上剩下的指定第m剩余文本,即组成了由所述指定文本分词而来的指定单词序列。本申请通过综合多个分词工具的优点,无需知晓输入文本的语言环境,即可实现准确分词。
在一个实施方式中,所述根据预设的分词结果筛选方法,从所述n个第一分词结果中筛选出指定第一分词结果的步骤s3,包括:
s301、对所述n个第一分词结果进行聚类处理,从而得到多个类别,其中同一个类别中的第一分词结果相同;
s302、从所述多个类别中选出指定类别,其中所述指定类别中的第一分词结果的数量多于其他类别中的第一分词结果的数量;
s303、将所述指定类别中的第一分词结果记为指定第一分词结果。
如上所述,实现了根据预设的分词结果筛选方法,从所述n个第一分词结果中筛选出指定第一分词结果。本申请是综合利用多个分词工具的优点,以得到最优分词。因此,n个第一分词结果中被所有的分词工具中的绝大部分均认可的第一分词结果,即为最优第一分词结果。具体地,对所述n个第一分词结果进行聚类处理,从而得到多个类别,其中同一个类别中的第一分词结果相同;从所述多个类别中选出指定类别,其中所述指定类别中的第一分词结果的数量多于其他类别中的第一分词结果的数量。因此,指定类别中的第一分词结果的数量最多(即是指定类别中的成员数量比其他类别中的成员数量多),这表明在所有的第一分词结果中,指定类别中的第一分词结果所有的分词工具认可程度最高。据此,将所述指定类别中的第一分词结果记为指定第一分词结果,从而实现了阶段性获得最优分词结果。
在一个实施方式中,所述根据预设的分词结果筛选方法,从所述n个第一分词结果中筛选出指定第一分词结果的步骤s3,包括:
s311、调取预设的权重参数序列w1、w2、...、wn,所述权重参数序列w1、w2、...、wn与所述n个分词工具一一对应;
s312、根据预设的向量映射方法,将所述n个第一分词结果分别映射为n个具有相同维度的初始向量a1、a2、...、an,其中,所述初始向量由一个取值为1的分向量和取值为0的其余分向量构成;
s313、根据公式:m=w1a1+w2a2+...+wnan,计算得到综合向量m;
s314、从所述综合向量m中的所有分向量中选出指定分向量,并获取所述指定分向量在所述综合向量m中的指定位置,其中所述指定分向量的数值大于其他分向量的数值;
s315、根据预设的分向量位置与第一分词结果的对应关系,获取与所述指定位置对应的第一分词结果,并记为指定第一分词结果。
如上所述,实现了根据预设的分词结果筛选方法,从所述n个第一分词结果中筛选出指定第一分词结果。由于不同分词工具的之间良莠不齐,分词效果并不相同,因此若将所有的分词工具进行等同看待,无助于进一步提高分词准确性。据此,本申请引入了权重参数序列w1、w2、...、wn,以进一步提高分词准确性。根据预设的向量映射方法,将所述n个第一分词结果分别映射为n个具有相同维度的初始向量a1、a2、...、an;根据公式:m=w1a1+w2a2+...+wnan,计算得到综合向量m;从所述综合向量m中的所有分向量中选出指定分向量,并获取所述指定分向量在所述综合向量m中的指定位置;根据预设的分向量位置与第一分词结果的对应关系,获取与所述指定位置对应的第一分词结果,并记为指定第一分词结果。从而得到的指定第一分词结果,考虑了不同分词工具之间的差异性,因此得到的指定第一分词结果更准确。
在一个实施方式中,所述权重参数序列w1、w2、...、wn通过预设的权重参数预测模型预测得到,所述权重参数预测模型基于神经网络模型训练而成,所述调取预设的权重参数序列w1、w2、...、wn,所述权重参数序列w1、w2、...、wn与所述n个分词工具一一对应的步骤s311之前,包括:
s3101、从预设的数据库中调取指定数据,并将所述指定数据划分为训练数据和验证数据,其中所述指定数据由训练文本和与所述训练文本关联的训练单词序列构成;
s3102、构建预设的神经网络模型与所述n个分词工具的连接通道,以使所述神经网络模型在训练时能够获取所述n个分词工具的使用权限;
s3103、利用所述训练数据训练所述神经网络模型,从而得到中间模型,利用所述验证数据验证所述中间模型,并判断所述中间模型是否验证通过;
s3104、若所述中间模型验证通过,则将所述中间模型记为所述权重参数预测模型。
如上所述,实现了训练权重参数预测模型,并利用权重参数预测模型获得权重参数序列w1、w2、...、wn。本申请的权重参数序列w1、w2、...、wn可为人为预先设置的,也可以为通过预设的权重参数预测模型预测得到的,优选为通过预设的权重参数预测模型预测得到的。由于所述权重参数序列w1、w2、...、wn的获取,涉及到输入文本、训练单词序列、n个分词工具的阶段性分词过程,因此神经网络模型的不仅需要训练数据(由训练文本和与所述训练文本关联的训练单词序列构成),还需要n个分词工具的使用权限,因此在训练时构建了预设的神经网络模型与所述n个分词工具的连接通道。再利用所述训练数据训练所述神经网络模型,利用所述验证数据验证所述中间模型,若所述中间模型验证通过,则表明训练成功,得到的中间模型能够胜任权重参数序列预测任务,因此将所述中间模型记为所述权重参数预测模型。
在一个实施方式中,所述根据预设的向量映射方法,将所述n个第一分词结果分别映射为n个具有相同维度的初始向量a1、a2、...、an,其中,所述初始向量由一个取值为1的分向量和取值为0的其余分向量构成的步骤s312,包括:
s3121、将所述n个第一分词结果归类为p个分类,其中同一个分类中第一分词结果相同,其中p为大于1且小于等于n的整数;
s3122、统计所述n个第一分词结果的第一分词的字符长度,并根据所述字符长度对所述多个分类进行升序排列,从而得到升序表;
s3123、将所述升序表中排名第一的分类映射为分类向量a1,将所述升序表中排名第二的分类映射为分类向量a2,...,将所述升序表中排名第p的分类映射为分类向量ap;所述a1、a2、...、ap均为维度为p的向量,并且a1的第一个分向量取值为1且其余分向量取值为0,a2的第二个分向量取值为1且其余分向量取值为0,...,ap的第p个分向量取值为1且其余分向量取值为0。
如上所述,实现了将所述n个第一分词结果分别映射为n个具有相同维度的初始向量a1、a2、...、an。本申请将n个第一分词结果分别映射为初始向量,以便于计算。将所述n个第一分词结果归类为p个分类,统计所述n个第一分词结果的第一分词的字符长度,并根据所述字符长度对所述多个分类进行升序排列,从而得到升序表;将所述升序表中排名第一的分类映射为分类向量a1,将所述升序表中排名第二的分类映射为分类向量a2,...,将所述升序表中排名第p的分类映射为分类向量ap。从而,相同的第一分词结果被赋值为相同的分类向量,并且分类向量中的数值不为0的分向量具有特殊含义-代表了第一分词的字符长度,因此利用后续的向量计算得到的综合向量,可确知最优的第一分词结果对应的第一分词的字符长度,从而得到快速确定最优的第一分词结果。
在一个实施方式中,所述根据预设的分词判断方法,判断所述指定第m剩余文本是否能够再次分词的步骤s5,包括:
s501、统计所述指定第m剩余文本的字符长度,并判断所述指定第m剩余文本的字符长度是否大于预设的字符阈值;
s502、若所述指定第m剩余文本的字符长度大于预设的字符阈值,则利用所述n个分词工具分别对所述指定第m剩余文本进行分词测试处理,从而得到n个测试结果,其中所述测试结果包括能够再分和不能再分;
s503、统计所述n个测试结果中为不能再分的测试结果的数量,并判断所述不能再分的测试结果的数量是否大于预设的数量阈值;
s504、若所述不能再分的测试结果的数量大于预设的数量阈值,则判定所述指定第m剩余文本不能再次分词。
如上所述,实现了根据预设的分词判断方法,判断所述指定第m剩余文本是否能够再次分词。本申请仍然借助综合考虑n个分词工具的方法,而无需引入进的判断方法,以实现快速判断。先统计所述指定第m剩余文本的字符长度,并判断所述指定第m剩余文本的字符长度是否大于预设的字符阈值。若所述指定第m剩余文本的字符长度较短,例如仅为1-4字符,那么一般认为这么短的字符无需再分,因此可判定不能够再次分词。反之,则需要进一步判断。若所述指定第m剩余文本的字符长度大于预设的字符阈值,则利用所述n个分词工具分别对所述指定第m剩余文本进行分词测试处理,从而得到n个测试结果,若所述不能再分的测试结果的数量大于预设的数量阈值,表明较多的分词工具认为不可再分,据此判定所述指定第m剩余文本不能再次分词。从而综合利用了n个分词工具实现了准确的分词判断。
在一个实施方式中,所述若所述指定第m剩余文本不能再次分词,则将指定第一分词、...、指定第m分词和所述指定第m剩余文本顺序连接,从而得到指定单词序列的步骤s6之后,包括:
s61、分别采用所述n个分词工具单独对所述指定文本进行分词处理,从而得到n个暂时单词序列;
s62、根据预设的序列相似度计算方法,计算所述暂时单词序列与所述指定单词序列的相似程度值,从而得到与所述n个暂时单词序列对应的n个相似程度值;
s63、判断所述n个相似程度值是否大于预设的相似度阈值;
s64、若所述n个相似程度值均不大于预设的相似度阈值,则在所述指定单词序列上标注置疑标识。
如上所述,实现了进一步核实分词的可靠性。由于所述指定单词序列是综合利用所述n个分词工具,采用阶段式分词法得到的,一般情况下至少要与所述n个分词工具中的一种进行单独分词得到的结果相似。因此,分别采用所述n个分词工具单独对所述指定文本进行分词处理,从而得到n个暂时单词序列;计算所述暂时单词序列与所述指定单词序列的相似程度值;若所述n个相似程度值均不大于预设的相似度阈值,表明所有的分词工具的单独分词结果均与所述指定单词序列不相似,即单独分词法与阶段分词法得到的结果不同,因此可能在分词过程中出现错误,据此在所述指定单词序列上标注置疑标识,以在后续的操作中作为提醒。进一步地,若所述n个相似程度值中至少有一者大于预设的相似度阈值,则表明分词成功,所述指定单词序列可靠。其中,所述计算所述暂时单词序列与所述指定单词序列的相似程度值可采用任意可行方式,例如:获取所述暂时单词序列与所述指定单词序列中相同分词的数量,计算所述相同分词的数量除以所述指定单词序列中所有单词的总数量的商值,将所述商值作为所述相似程度值。
本申请的基于分词的单词序列获取方法,获取待分词的指定文本;执行第一次分词指令,所述第一次分词指令用于指示将所述指定文本分别输入至预设的n个分词工具,以得到所述n个分词工具对应输出的n个第一分词结果;执行第一次筛选指令,所述第一次筛选指令用于指示根据预设的分词结果筛选方法,从所述n个第一分词结果中筛选出指定第一分词结果;依次执行第二次分词指令和第二次筛选指令、第三次分词指令和第三次筛选指令、...、第m次分词指令和第m次筛选指令;判断所述指定第m剩余文本是否能够再次分词;若所述指定第m剩余文本不能再次分词,则将指定第一分词、...、指定第m分词和所述指定第m剩余文本顺序连接,从而得到指定单词序列。从而提高了分词的准确性。
参照图2,本申请实施例提供一种基于分词的单词序列获取装置,包括:
指定文本获取单元10,用于获取待分词的指定文本;
第一次分词指令执行单元20,用于执行第一次分词指令,所述第一次分词指令用于指示将所述指定文本分别输入至预设的n个分词工具,以得到所述n个分词工具对应输出的n个第一分词结果,其中所述第一分词结果由第一分词和除所述第一分词之外的第一剩余文本构成;
第一次筛选指令执行单元30,用于执行第一次筛选指令,所述第一次筛选指令用于指示根据预设的分词结果筛选方法,从所述n个第一分词结果中筛选出指定第一分词结果,其中所述指定第一分词结果由指定第一分词和指定第一剩余文本构成;
依次分词和筛选单元40,用于依次执行第二次分词指令和第二次筛选指令、第三次分词指令和第三次筛选指令、...、第m次分词指令和第m次筛选指令,其中所述第m次分词指令用于指示将指定第m-1剩余文本分别输入至所述n个分词工具,以得到所述n个分词工具对应输出的n个第m分词结果,所述第m分词结果由第m分词和除所述第m分词之外的第m剩余文本构成,m为大于1的整数;所述第m次筛选指令用于指示根据预设的分词结果筛选方法,从所述n个第m分词结果中筛选出指定第m分词结果,其中所述指定第m分词结果由指定第m分词和指定第m剩余文本构成;
再次分词判断单元50,用于根据预设的分词判断方法,判断所述指定第m剩余文本是否能够再次分词;
指定单词序列获取单元60,用于若所述指定第m剩余文本不能再次分词,则将指定第一分词、...、指定第m分词和所述指定第m剩余文本顺序连接,从而得到指定单词序列。
其中上述单元分别用于执行的操作与前述实施方式的基于分词的单词序列获取方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述第一次筛选指令执行单元30,包括:
聚类处理子单元,用于对所述n个第一分词结果进行聚类处理,从而得到多个类别,其中同一个类别中的第一分词结果相同;
指定类别选取子单元,用于从所述多个类别中选出指定类别,其中所述指定类别中的第一分词结果的数量多于其他类别中的第一分词结果的数量;
指定第一分词结果标记子单元,用于将所述指定类别中的第一分词结果记为指定第一分词结果。
其中上述子单元分别用于执行的操作与前述实施方式的基于分词的单词序列获取方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述第一次筛选指令执行单元30,包括:
权重参数序列调取子单元,用于调取预设的权重参数序列w1、w2、...、wn,所述权重参数序列w1、w2、...、wn与所述n个分词工具一一对应;
向量映射子单元,用于根据预设的向量映射方法,将所述n个第一分词结果分别映射为n个具有相同维度的初始向量a1、a2、...、an,其中,所述初始向量由一个取值为1的分向量和取值为0的其余分向量构成;
综合向量计算子单元,用于根据公式:m=w1a1+w2a2+...+wnan,计算得到综合向量m;
指定分向量选取子单元,用于从所述综合向量m中的所有分向量中选出指定分向量,并获取所述指定分向量在所述综合向量m中的指定位置,其中所述指定分向量的数值大于其他分向量的数值;
分词结果标记子单元,用于根据预设的分向量位置与第一分词结果的对应关系,获取与所述指定位置对应的第一分词结果,并记为指定第一分词结果。
其中上述子单元分别用于执行的操作与前述实施方式的基于分词的单词序列获取方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述权重参数序列w1、w2、...、wn通过预设的权重参数预测模型预测得到,所述权重参数预测模型基于神经网络模型训练而成,所述装置,包括:
调取指定数据单元,用于从预设的数据库中调取指定数据,并将所述指定数据划分为训练数据和验证数据,其中所述指定数据由训练文本和与所述训练文本关联的训练单词序列构成;
连接通道构建单元,用于构建预设的神经网络模型与所述n个分词工具的连接通道,以使所述神经网络模型在训练时能够获取所述n个分词工具的使用权限;
中间模型获取单元,用于利用所述训练数据训练所述神经网络模型,从而得到中间模型,利用所述验证数据验证所述中间模型,并判断所述中间模型是否验证通过;
中间模型标记单元,用于若所述中间模型验证通过,则将所述中间模型记为所述权重参数预测模型。
其中上述单元分别用于执行的操作与前述实施方式的基于分词的单词序列获取方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述向量映射子单元,包括:
第一分词结果归类模块,用于将所述n个第一分词结果归类为p个分类,其中同一个分类中第一分词结果相同,其中p为大于1且小于等于n的整数;
升序表获取模块,用于统计所述n个第一分词结果的第一分词的字符长度,并根据所述字符长度对所述多个分类进行升序排列,从而得到升序表;
分类向量映射模块,用于将所述升序表中排名第一的分类映射为分类向量a1,将所述升序表中排名第二的分类映射为分类向量a2,...,将所述升序表中排名第p的分类映射为分类向量ap;所述a1、a2、...、ap均为维度为p的向量,并且a1的第一个分向量取值为1且其余分向量取值为0,a2的第二个分向量取值为1且其余分向量取值为0,...,ap的第p个分向量取值为1且其余分向量取值为0。
其中上述模块分别用于执行的操作与前述实施方式的基于分词的单词序列获取方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述再次分词判断单元50,包括:
字符长度统计子单元,用于统计所述指定第m剩余文本的字符长度,并判断所述指定第m剩余文本的字符长度是否大于预设的字符阈值;
测试结果获取子单元,用于若所述指定第m剩余文本的字符长度大于预设的字符阈值,则利用所述n个分词工具分别对所述指定第m剩余文本进行分词测试处理,从而得到n个测试结果,其中所述测试结果包括能够再分和不能再分;
数量阈值判断子单元,用于统计所述n个测试结果中为不能再分的测试结果的数量,并判断所述不能再分的测试结果的数量是否大于预设的数量阈值;
不能再次分词判定子单元,用于若所述不能再分的测试结果的数量大于预设的数量阈值,则判定所述指定第m剩余文本不能再次分词。
其中上述子单元分别用于执行的操作与前述实施方式的基于分词的单词序列获取方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述装置,包括:
暂时单词序列获取单元,用于分别采用所述n个分词工具单独对所述指定文本进行分词处理,从而得到n个暂时单词序列;
相似程度值获取单元,用于根据预设的序列相似度计算方法,计算所述暂时单词序列与所述指定单词序列的相似程度值,从而得到与所述n个暂时单词序列对应的n个相似程度值;
相似度阈值判断单元,用于判断所述n个相似程度值是否大于预设的相似度阈值;
标注置疑标识单元,用于若所述n个相似程度值均不大于预设的相似度阈值,则在所述指定单词序列上标注置疑标识。
其中上述单元分别用于执行的操作与前述实施方式的基于分词的单词序列获取方法的步骤一一对应,在此不再赘述。
本申请的基于分词的单词序列获取装置,获取待分词的指定文本;执行第一次分词指令,所述第一次分词指令用于指示将所述指定文本分别输入至预设的n个分词工具,以得到所述n个分词工具对应输出的n个第一分词结果;执行第一次筛选指令,所述第一次筛选指令用于指示根据预设的分词结果筛选方法,从所述n个第一分词结果中筛选出指定第一分词结果;依次执行第二次分词指令和第二次筛选指令、第三次分词指令和第三次筛选指令、...、第m次分词指令和第m次筛选指令;判断所述指定第m剩余文本是否能够再次分词;若所述指定第m剩余文本不能再次分词,则将指定第一分词、...、指定第m分词和所述指定第m剩余文本顺序连接,从而得到指定单词序列。从而提高了分词的准确性。
参照图3,本发明实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于分词的单词序列获取方法所用数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于分词的单词序列获取方法。
上述处理器执行上述基于分词的单词序列获取方法,其中所述方法包括的步骤分别与执行前述实施方式的基于分词的单词序列获取方法的步骤一一对应,在此不再赘述。
本领域技术人员可以理解,图中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请的计算机设备,获取待分词的指定文本;执行第一次分词指令,所述第一次分词指令用于指示将所述指定文本分别输入至预设的n个分词工具,以得到所述n个分词工具对应输出的n个第一分词结果;执行第一次筛选指令,所述第一次筛选指令用于指示根据预设的分词结果筛选方法,从所述n个第一分词结果中筛选出指定第一分词结果;依次执行第二次分词指令和第二次筛选指令、第三次分词指令和第三次筛选指令、...、第m次分词指令和第m次筛选指令;判断所述指定第m剩余文本是否能够再次分词;若所述指定第m剩余文本不能再次分词,则将指定第一分词、...、指定第m分词和所述指定第m剩余文本顺序连接,从而得到指定单词序列。从而提高了分词的准确性。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现基于分词的单词序列获取方法,其中所述方法包括的步骤分别与执行前述实施方式的基于分词的单词序列获取方法的步骤一一对应,在此不再赘述。
本申请的计算机可读存储介质,获取待分词的指定文本;执行第一次分词指令,所述第一次分词指令用于指示将所述指定文本分别输入至预设的n个分词工具,以得到所述n个分词工具对应输出的n个第一分词结果;执行第一次筛选指令,所述第一次筛选指令用于指示根据预设的分词结果筛选方法,从所述n个第一分词结果中筛选出指定第一分词结果;依次执行第二次分词指令和第二次筛选指令、第三次分词指令和第三次筛选指令、...、第m次分词指令和第m次筛选指令;判断所述指定第m剩余文本是否能够再次分词;若所述指定第m剩余文本不能再次分词,则将指定第一分词、...、指定第m分词和所述指定第m剩余文本顺序连接,从而得到指定单词序列。从而提高了分词的准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双速据率sdram(ssrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。