文本处理方法、装置、服务器及存储介质与流程

文档序号:24306818发布日期:2021-03-17 00:59阅读:92来源:国知局
文本处理方法、装置、服务器及存储介质与流程

本申请涉及数据处理技术领域,具体涉及一种文本处理方法、装置、服务器及存储介质。



背景技术:

随着科技的发展,很多行业都具备售前和售后的服务,例如快递行业的预约、查单、缴费、投诉等多方位服务,而由于人工客服无法24小时在线,以及人工效率低和成本高等,永远在线的智能客服终端应运而生。

目前,智能客服终端回答问题一般是先分析问题的语义信息,根据语义信息从本地语料库的语料内容查找相关的回答,而简单的语义匹配,使得有些问题无法从语料库得到,或者查找的回答与问题之间的相关性较低,即精准性较低,因此智能客服终端提供的答案不能完全满足用户需求。而且,需要花费大量的时间进行语义匹配,导致智能客服终端的回复存在较明显的滞后性。



技术实现要素:

本申请实施例提供一种文本处理方法、装置、服务器及存储介质,可以提高文本处理的效率和精准性。

第一方面,本申请实施例提供了一种文本处理方法,包括:

获取待处理的文本;

当所述文本的类型为主观类型时,按照预设策略对所述文本进行分词,得到组成所述文本的词语;

根据所述词语计算所述文本与语料库中每一条语料之间的表层相似度;

计算表层相似度大于预设阈值的语料,与所述文本之间的信息熵相似度;

筛选出信息熵相似度最高的语料。

在一些实施方式中,所述计算表层相似度大于预设阈值的语料,与所述文本之间的信息熵相似度包括:

从所述词语中提取出关键词;

筛选出表层相似度大于预设阈值的语料,得到目标语料;

计算所述关键词与所述目标语料之间的词信息熵;

根据所述词信息熵计算所述目标语料与所述文本之间的信息熵相似度。

在一些实施方式中,所述计算所述关键词与所述目标语料之间的词信息熵包括:

获取所述语料库中语料的总数;

确定所述语料库中出现所述关键词的语料的数量;

根据所述总数和数量计算所述关键词与所述目标语料之间的词信息熵。

在一些实施方式中,所述根据所述词语计算所述文本与语料库中每一条语料之间的表层相似度包括:

从所述词语中提取出关键词;

获取语料库的每条语料中包含的词语与所述关键词相同的个数,得到第一数值;

获取分词得到的组成所述文本的所述词语的个数,以及对每条语料分词得到的词语的个数,得到第二数值;

根据所述第一数值和所述第二数值计算所述文本与语料库中每一条语料之间的表层相似度。

在一些实施方式中,所述筛选出信息熵相似度最高的语料包括:

根据信息熵相似度对所述语料进行评分,得到所述语料对应的分值;

对所述语料按照分值从高至低的顺序进行排序,得到排序后的语料;

从排序后的语料中筛选出分值最高的语料,得到信息熵相似度最高的语料。

在一些实施方式中,所述获取待处理的文本之后,所述方法还包括:

获取所述文本中包含的特征信息;

根据所述特征信息确定所述文本的类型。

在一些实施方式中,所述根据所述特征信息确定所述文本的类型之后,所述方法还包括:

当所述文本的类型为客观类型时,获取所述文本中包含的运算参数;

根据所述运算参数通过预设算法计算相应的结果。

在一些实施方式中,所述运算参数包括待运输物品需要运输的起始地址、终止地址和待运输物品的重量,所述预设算法包括运费算法,所述根据所述运算参数通过预设算法计算相应的结果包括:

根据所述起始地址、终止地址和待运输物品的重量,通过所述运费算法计算相应的运费结果。

在一些实施方式中,所述运算参数包括当前日期以及偏移量,所述根据所述运算参数通过预设算法计算相应的结果包括:

根据所述当前日期以及偏移量通过预设算法计算相应的日期结果。

第二方面,本申请实施例还提供了一种文本处理装置,包括:

接收模块,用于获取待处理的文本;

分词模块,用于当所述文本的类型为主观类型时,按照预设策略对所述文本进行分词,得到组成所述文本的词语;

第一计算模块,用于根据所述词语计算所述文本与语料库中每一条语料之间的表层相似度;

第二计算模块,用于计算表层相似度大于预设阈值的语料,与所述文本之间的信息熵相似度;

反馈模块,用于筛选出信息熵相似度最高的语料。

在一些实施方式中,所述第二计算模块包括:

提取单元,用于从所述词语中提取出关键词;

筛选单元,用于筛选出表层相似度大于预设阈值的语料,得到目标语料;

第一计算单元,用于计算所述关键词与所述目标语料之间的词信息熵;

第二计算单元,用于根据所述词信息熵计算所述目标语料与所述文本之间的信息熵相似度。

在一些实施方式中,所述第一计算单元具体用于:

获取所述语料库中语料的总数;

确定所述语料库中出现所述关键词的语料的数量;

根据所述总数和数量计算所述关键词与所述目标语料之间的词信息熵。

在一些实施方式中,所述第一计算模块具体用于:

从所述词语中提取出关键词;

获取语料库的每条语料中包含的词语与所述关键词相同的个数,得到第一数值;

获取分词得到的组成所述文本的所述词语的个数,以及对每条语料分词得到的词语的个数,得到第二数值;

根据所述第一数值和所述第二数值计算所述文本与语料库中每一条语料之间的表层相似度。

在一些实施方式中,所述反馈模块具体用于:

根据信息熵相似度对所述语料进行评分,得到所述语料对应的分值;

对所述语料按照分值从高至低的顺序进行排序,得到排序后的语料;

从排序后的语料中筛选出分值最高的语料,得到信息熵相似度最高的语料。

在一些实施方式中,所述文本处理装置还包括:

确定模块,用于获取所述文本中包含的特征信息,根据所述特征信息确定所述文本的类型。

在一些实施方式中,所述文本处理装置还包括:

获取模块,用于当所述文本的类型为客观类型时,获取所述文本中包含的运算参数;

第三计算模块,用于根据所述运算参数通过预设算法计算相应的结果。

在一些实施方式中,所述运算参数包括待运输物品需要运输的起始地址、终止地址和待运输物品的重量,所述预设算法包括运费算法,所述第三计算模块具体用于:根据所述起始地址、终止地址和待运输物品的重量,通过所述运费算法计算相应的运费结果。

在一些实施方式中,所述运算参数包括当前日期以及偏移量,所述第三计算模块具体用于:根据所述当前日期以及偏移量通过预设算法计算相应的日期结果。

第三方面,本申请实施例还提供了一种服务器,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行本申请实施例提供的任一种文本处理方法。

第四方面,本申请实施例还提供了一种存储介质,所述存储介质用于存储计算机程序,所述计算机程序被处理器加载,以执行本申请实施例提供的任一种文本处理方法。

本申请实施例可以获取待处理的文本,当文本的类型为主观类型时,按照预设策略对文本进行分词,得到组成文本的词语;然后根据词语计算文本与语料库中每一条语料之间的表层相似度,以及计算表层相似度大于预设阈值的语料,与文本之间的信息熵相似度,此时可以筛选出信息熵相似度最高的语料。由于该方案可以计算文本与语料之间的表层相似度,通过表层相似度可以从语料库中先筛选出表层相似度大于预设阈值的语料,实现对语料进行初筛,以及计算表层相似度大于预设阈值的语料与文本之间的信息熵相似度,从而可以仅计算部分语料与文本之间的信息熵相似度,这样可以提高计算速度,然后筛选出信息熵相似度最高的语料,信息熵相似度越大则说明语料和文本之间的相似度越高,从而可以基于文本的类型快速及精准筛选文本对应的语料,因此提高了基于文本处理的效率和精准性。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的文本处理方法的流程示意图;

图2是本申请实施例提供的文本处理方法的另一流程示意图;

图3是本申请实施例提供的不同类型问题处理方法的流程示意图;

图4是本申请实施例提供的客观题计算处理的示意图;

图5是本申请实施例提供的文本处理装置的结构示意图;

图6是本申请实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

请参阅图1,图1是本申请一实施例提供的文本处理方法的流程示意图。该文本处理方法的执行主体可以是本申请实施例提供的文本处理装置,或者集成了该文本处理装置的服务器,其中,该文本处理装置可以采用硬件或者软件的方式实现。该文本处理方法可以包括:

s101、获取待处理的文本。

例如,可以从文本数据库中提取待处理的文本,或者接收客户端发送的文本等。其中,该客户端可以是手机或电脑等终端上的客户端,文本处理装置可以接收用户通过终端上预设的客户端发送的文本。该文本可以包括文字、字母、数字、或标点符号等,该文本可以是招聘过程中发起的问题,或者是宣传过程中发起的问题,或者是做作业过程中发起的问题,或者是做任务过程中发起的问题,或者是购物过程中发起的问题,或者是闲聊发起的问题,或者是寄快递发起的运费咨询问题,还可以是其他类型的文本,具体内容在此处不作限定。

s102、当文本的类型为主观类型时,按照预设策略对文本进行分词,得到组成文本的词语。

在接收到文本后,可以判断文本的类型,例如可以将文本的类型划分为主观类型、客观类型或其他类型等,其中,主观类型可以是问答题类型,客观类型可以是运费计算或日期计算等运算题类型。

在一些实施方式中,获取待处理的文本之后,文本处理方法还可以包括:获取文本中包含的特征信息;根据特征信息确定文本的类型。该特征信息可以包括关键词或语义信息等。

当文本的类型为主观类型时,可以按照预设策略对文本进行分词,得到组成文本的词语。该预设策略可以根据实际需要进行灵活设置,具体内容在此处不作限定。

例如,该预设策略可以是按照字典或词库中的词语进行分词,例如,将“机器人”分为一个词语,将“专利”分为一个词语,等等。该预设策略还可以是使用预设软件中的结巴分词程序包进对接收到的文本进行分词。

对文本进行分词处理后,可以生成组成文本的一个或多个词语,例如,可以得到,得到词集合π(s)={w1,w2,…,wn},其中s表示文本,wi表示文本中的词语,该词语可以包括一个或多个字。

s103、根据词语计算文本与语料库中每一条语料之间的表层相似度。

在一些实施方式中,根据词语计算文本与语料库中每一条语料之间的表层相似度可以包括:从词语中提取出关键词;获取语料库的每条语料中包含的词语与关键词相同的个数,得到第一数值;获取分词得到的组成文本的词语的个数,以及对每条语料分词得到的词语的个数,得到第二数值;根据第一数值和第二数值计算文本与语料库中每一条语料之间的表层相似度。

例如,可以从组成文本的词语中提取出关键词,该关键词可以根据实际需要进行灵活设置,例如,该关键词可以是从分词得到的词语中去掉停用词得到的,然后获取语料库的每条语料中包含的词语与关键词相同的个数,得到第一数值,以及,获取分词得到的组成文本的词语的个数,以及对每条语料分词得到的词语的个数,得到第二数值,该第二数值包括分词得到的组成文本的词语的个数和对每条语料分词得到的词语的个数。然后,可以根据第一数值和第二数值计算文本与语料库中每一条语料之间的表层相似度,计算公式可以如下:

其中,sims为表层相似度,文本为s1,一条语料为s2,∩表示集合之间求交集运算,γ表示求集合中元素的个数,即语料中包含的词语与关键词相同的个数,len表示文本或语料的长度,即文本或语料分词后得到的词语个数,len(s1)为分词得到的组成文本的词语的个数,len(s2)为语料分词得到的词语的个数,计算表层相似度目的是从语料库中筛选出有相同词语的语料。

s104、计算表层相似度大于预设阈值的语料,与文本之间的信息熵相似度。

在一些实施方式中,计算表层相似度大于预设阈值的语料,与文本之间的信息熵相似度可以包括:从词语中提取出关键词;筛选出表层相似度大于预设阈值的语料,得到目标语料;计算关键词与目标语料之间的词信息熵;根据词信息熵计算目标语料与文本之间的信息熵相似度。

例如,可以从组成文本的词语中提取出关键词,该关键词可以根据实际需要进行灵活设置,然后,筛选出表层相似度大于预设阈值的语料,得到目标语料,此时可以计算关键词与目标语料之间的词信息熵,该预设阈值可以根据实际需要进行灵活设置。

在一些实施方式中,计算关键词与目标语料之间的词信息熵可以包括:获取语料库中语料的总数;确定语料库中出现关键词的语料的数量;根据总数和数量计算关键词与目标语料之间的词信息熵。

例如,计算词信息熵的公式可以如下:

其中,h表示词信息熵,w表示关键词,m表示语料库中语料的总数,m表示语料库中出现关键词w的语料的数量,词信息熵值越大,说明该关键词在语料库中出现的频率越低,反之,词信息熵值越小,说明该关键词在语料库中出现的频率越高。

然后,可以根据词信息熵计算目标语料与文本之间的信息熵相似度,计算文本s1和目标语料s2的信息熵相似度可以如下:

simh=∑h(wi)

其中,simh表示信息熵相似度,wi∈{π(s1)∩π(s2)},文本s1和目标语料s2之间的信息熵相似度越大,文本s1和目标语料s2之间的相似度越大,通过筛选出表层相似度大于预设阈值的目标语料,并计算目标语料与文本之间的信息熵相似度,而不需要计算表层相似度小于或等于预设阈值的语料与文本之间的信息熵相似度,这样可以提高计算速度,以及通过信息熵相似度的计算,可以有效抑制停用词(例如得、的、或了等)对文本的作用。

s105、筛选出信息熵相似度最高的语料。

在一些实施方式中,筛选出信息熵相似度最高的语料可以包括:根据信息熵相似度对语料进行评分,得到语料对应的分值;对语料按照分值从高至低的顺序进行排序,得到排序后的语料;从排序后的语料中筛选出分值最高的语料,得到信息熵相似度最高的语料。

具体地,可以建立信息熵相似度与分值之间的映射关系,可以是一个信息熵相似度对应一个分值,或者是,一个信息熵相似度区间对应一个分值,其中,信息熵相似度越大,对应的语料的分值越大,反之,信息熵相似度越小,对应的语料的分值越小。例如,在得到信息熵相似度后,可以确定该信息熵相似度所在的信息熵相似度区间,根据信息熵相似度区间与分值之间的映射关系,确定该信息熵相似度对应的分值。

然后,可以对语料按照分值从高至低的顺序进行排序,得到排序后的语料,此时可以从排序后的语料中筛选出分值最高的语料,得到信息熵相似度最高的语料。在得到信息熵相似度最高的语料后,可以根据实际需求将该语料反馈给客户端,由客户端显示给用户。为了丰富可以语料库中的语料,当语料库中未存在与该文本一致的语料时,可以将该客户端发送的文本存储至语料库中。相对于深度学习等机器学习算法需要训练大量的语料样本,会花费大量的计算资源和时间,导致反馈存在较大的滞后性,本申请可以计算表层相似度大于预设阈值的语料与文本之间的信息熵相似度,筛选出信息熵相似度最高的语料,可以提高计算速度,还可以基于文本的类型快速及精准给予客户端反馈,提高了基于文本反馈的效率和精准性。

在一些实施方式中,根据特征信息确定文本的类型之后,文本处理方法还可以包括:当文本的类型为客观类型时,获取文本中包含的运算参数;根据运算参数通过预设算法计算相应的结果。

当文本的类型为客观类型时,可以从文本中提取运算参数,该运算参数可以根据实际需要进行灵活设置,例如,运算参数可以包括物流运输的起始地址、终止地址、待运输物品的重量、当前日期以及偏移量等。此时可以根据运算参数通过预设算法计算相应的结果。在得到相应的结果后,可以根据实际需求将结果反馈给客户端,该预设算法可以根据实际需要进行灵活设置,例如,预设算法可以包括运费算法或日期算法等。

例如,当接收到客户端发送的文本为:九十–5,可以计算得到90-5=85的计算结果,并将该计算结果反馈给客户端。又例如,当接收到客户端发送的文本为:玖拾贰乘以捌,可以计算得到92*8=736计算结果,并将该计算结果反馈给客户端。

在一些实施方式中,运算参数包括待运输物品需要运输的起始地址、终止地址和待运输物品的重量,预设算法包括运费算法,根据运算参数通过预设算法计算相应的结果可以包括:根据起始地址、终止地址和待运输物品的重量,通过运费算法计算相应的运费结果。

例如,可以接收客户端发送的运费相关的算术问题,当接收到客户端发送的文本为:托寄物流向从北京到深圳,托寄物重量是3kg,从该文本中可以提取出运算参数为:起始地址是北京,终止地址是深圳,待运输物品的重量为3kg,然后,搜索数据库得出北京到深圳这个流向首重为10元,续重为3元,因此可以计算出运费结果:10+(3-1)*3=16,在得到运费结果后,可以根据实际需求将运费结果返回给客户端。

在一些实施方式中,运算参数包括当前日期以及偏移量,根据运算参数通过预设算法计算相应的结果可以包括:根据当前日期以及偏移量通过预设算法计算相应的日期结果。在得到日期结果后,可以根据实际需要将日期结果反馈给客户端。

例如,当接收到客户端发送的文本为:现在下单,快递员什么时候上门揽件?从该文本中可以提取出运算参数为:当前日期是7月6日8:00,以及获取上门揽件的时间范围为下单后1小时内,即偏移量为1小时,然后,计算揽件的时间为7月6日9:00前,因此可以得到日期结果为7月6日9:00前,并将该结果反馈给客户端。

又例如,当接收到客户端发送的文本为:今年的中秋节是什么时候?从该文本中可以提取出运算参数为:今年2019年,中秋节是农历八月十五,然后计算2019年的农历八月十五是9月13日,因此可以将结果9月13日反馈给客户端。

又例如,当接收到客户端发送的文本为:今年是什么年?从该文本中可以提取出运算参数为:今年2019年,然后计算2019年的生肖为猪年,因此可以将结果猪年反馈给客户端。

又例如,当接收到客户端发送的文本为:去年是什么年?从该文本中可以提取出运算参数为:去年2018年,然后计算2018年的生肖为狗年,因此可以将结果狗年反馈给客户端。

本申请实施例可以获取待处理的文本,当文本的类型为主观类型时,按照预设策略对文本进行分词,得到组成文本的词语;然后根据词语计算文本与语料库中每一条语料之间的表层相似度,以及计算表层相似度大于预设阈值的语料,与文本之间的信息熵相似度,此时可以筛选出信息熵相似度最高的语料。由于该方案可以计算文本与语料之间的表层相似度,通过表层相似度可以从语料库中先筛选出表层相似度大于预设阈值的语料(例如具有相同词语的语料),实现对语料进行初筛,以及计算表层相似度大于预设阈值的语料与文本之间的信息熵相似度,从而可以仅计算部分语料与文本之间的信息熵相似度,这样可以提高计算速度,然后筛选出信息熵相似度最高的语料,信息熵相似度越大则说明语料和文本之间的相似度越高,从而可以根据实际需求基于文本的类型快速及精准给予客户端反馈,因此提高了文本处理的效率和精准性。

根据上述实施例所描述的文本处理方法,以下将作进一步详细说明。

请参照图2,图2为本申请实施例提供的文本处理方法的另一流程示意图。该文本处理方法可以应用于服务器,以下将以快递领域中接收用户咨询派送时间、上门揽件时间以及运费等相关问题为例进行详细说明,如图2所示,该文本处理方法的流程可以如下:

s201、服务器接收客户端发送的问题。

其中,该客户端可以是智能客服机器人上的客户端,服务器可以接收用户通过客户端发送的有关快递问题咨询的问题。该问题可以是一个或多个句子等,该句子可以包括一个或多个词语,该词语可以包括一个或多个字符,该字符可以包括文字、字母、数字、或标点符号等。

s202、服务器获取问题的特征信息。

服务器可以从问题中提取的特征信息,该特征信息可以包括关键词或语义信息等,例如,当接收到的问题为“从深圳寄到广州的运费”时,提取出的特征信息可以是运费等。又例如,当接收到的问题为“您好,我叫xxx,你叫什么名字”时,提取出的特征信息可以是“你”、“什么”、“名字”等。

s203、服务器根据特征信息判断问题的类型。

例如,如图3所示,可以将问题的类型划分为主观题和客观题等,其中,主观类型可以是问答题类型,客观类型可以是运费计算或日期计算等运算题类型。在得到特征信息后,可以基于特征信息确定问题的类型,例如,当问题的特征信息为运费时,可以将该问题划分为客观题,当问题的特征信息为名字时,可以将该问题划分为主观题。

s204、当问题的类型为主观题时,服务器对问题进行分词,并提取关键词。

当问题的类型为主观题时,服务器可以按照上述预设策略对问题进行分词,得到组成问题的词语,并从组成问题的词语中提取出关键词,该关键词可以根据实际需要进行灵活设置。例如,当问题为“从深圳寄到广州的运费”时,分词得到的词语可以包括“从”“深圳”“到”“广州”“的”“运费”,可以从中提取出关键词可以包括“深圳”“到”“广州”“运费”等。

s205、服务器根据关键词计算问题与语料库中每一条语料之间的表层相似度。

例如,服务器可以获取语料库的每条语料中包含的词语与关键词相同的个数,获取分词得到的组成问题的词语的个数,以及获取对每条语料分词得到的词语的个数,根据语料中包含的词语与关键词相同的个数、组成问题的词语的个数、以及对语料分词得到的词语的个数,按照上述表层相似度计算公式计算问题与语料库中每一条语料之间的表层相似度。

s206、服务器筛选出表层相似度大于预设阈值的语料,得到目标语料。

例如,如图3所示,服务器筛可以将表层相似度小于或等于预设阈值的语料剔除,并选出表层相似度大于预设阈值的语料,得到目标语料(即候选集),该预设阈值可以根据实际需要进行灵活设置。该表层相似度大于预设阈值的语料是与接收到的问题之间存在相同词语的语料,或存在较多相同词语的语料。

s207、服务器计算关键词与目标语料之间的词信息熵。

在得到目标语料后,服务器可以计算关键词与目标语料之间的词信息熵,例如,可以获取语料库中语料的总数。确定语料库中出现关键词的语料的数量,根据总数和数量,按照上述词信息熵计算公式计算关键词与目标语料之间的词信息熵。

s208、服务器根据词信息熵计算目标语料与问题之间的信息熵相似度。

服务器可以按照上述信息熵相似度的计算公式,根据词信息熵计算目标语料与问题之间的信息熵相似度,这样只需要计算目标语料与问题之间的信息熵相似度,提高了计算速度。

s209、服务器根据信息熵相似度对语料进行评分,得到语料对应的分值。

服务器可以建立信息熵相似度区间与分值之间的映射关系,例如,在得到信息熵相似度后,可以确定该信息熵相似度所在的信息熵相似度区间,根据信息熵相似度区间与分值之间的映射关系,确定该信息熵相似度对应的分值。

或者,服务器可以建立信息熵相似度与分值之间的映射关系,例如,在得到信息熵相似度后,可以根据信息熵相似度与分值之间的映射关系,确定该信息熵相似度对应的分值。

s210、服务器将分值最高的语料反馈给客户端。

例如,服务器可以对语料按照分值从高至低的顺序进行排序,得到排序后的语料,该语料包含于筛选出的目标语料,然后将分值最高的语料(即答案)反馈给客户端,如图3所示,此时可以由客户端对应的智能客服机器人显示给用户。为了丰富可以语料库中的语料,当语料库中未存在于该问题一致的语料时,可以将该客户端发送的问题存储至语料库中。

s211、当问题的类型为客观题时,服务器获取问题中包含的运算参数。

当问题的类型为客观题时,服务器可以从问题中提取运算参数,该运算参数可以根据实际需要进行灵活设置,例如,运算参数可以包括物流运输的起始地址、终止地址、待运输物品的重量、当前日期以及偏移量等。

s212、服务器根据运算参数通过预设算法计算相应的结果,并将结果反馈给客户端。

服务器根据运算参数通过预设算法计算相应的结果,该预设算法可以根据实际需要进行灵活设置,例如,如图4所示,可以接收客户端发送的计算问题,当接收到客户端发送的问题为:托寄物流向从北京到深圳,托寄物重量是3kg,运费多少呢?从该问题中可以提取出运算参数为:起始地址是北京,终止地址是深圳,待运输物品的重量为3kg,然后,搜索数据库得出北京到深圳这个流向首重为10元,续重为3元,因此可以计算出运费结果:10+(3-1)*3=16,并将运费结果(即答案)返回给客户端,由客户端对应的智能客服机器人等终端进行显示。

又例如,如图3所示,可以接收客户端发送的日期相关的算术问题,当接收到客户端发送的问题为:今天下单,快递后天可以到吗?从该问题中可以提取出运算参数为:当前日期是7月6日(即今天),以及偏移量为2天(即后天),然后,计算后天的日期为7月8日,基于正常情况下快递一天就能到达,计算得到7月7日能到,7月7日比7月8日提前,因此可以得到日期结果为后天能达到,并将反馈后天能到达给客户端。

又例如,当接收到客户端发送的问题为:现在下单,快递员什么时候上门揽件?从该问题中可以提取出运算参数为:当前日期是9月6日11:00,以及获取上门揽件的时间范围为下单后1小时内,即偏移量为1小时,然后,计算揽件的时间为9月6日12:00前,因此可以得到日期结果为9月6日12:00前,并将该结果反馈给客户端。

本申请实施例可以接收客户端发送的问题,当问题的类型为主观类型时,可以对问题进行分词,并提取关键词;然后根据关键词计算问题与语料库中每一条语料之间的表层相似度,以及计算表层相似度大于预设阈值的语料,与问题之间的词信息熵,根据词信息熵计算目标语料与问题之间的信息熵相似度,此时可以根据信息熵相似度对语料进行评分,并将分值最高的语料(即答案)反馈给客户端。当问题的类型为客观题时,可以基于问题中包含的运算参数计算相应的结果(即答案),并将结果反馈给客户端。由于该方案可以基于接收到用户咨询派送时间、上门揽件时间以及运费等相关问题,将问题分为客观问题和主观问题,在接收到问题后,可以对问题进行类型判断,从而可以基于问题类型精确定位用户需要咨询的问题,提高搜索速度,以更快的速度给予回复,并根据问题的类型回复相关性较高的答案给用户,提高了答案回复的执行效率,且保证问题和答案保持较高的相关性。此外,由于可以计算问题与答案之间的表层相似度、词信息熵、信息熵相似度为用户问题匹配答案,因此执行效率高于的机器学习模型,并且支持多个用户并发在线提问,短时间内回复用户问题,且保证了问题与答案较高的相关性,节省了人工客服成本。

为便于更好的实施本申请实施例提供的文本处理方法,本申请实施例还提供一种基于上述文本处理方法的装置。其中名词的含义与上述文本处理方法中相同,具体实现细节可以参考方法实施例中的说明。

请参阅图5,图5为本申请实施例提供的文本处理装置的结构示意图,其中该文本处理装置300可以包括接收模块301、分词模块302、第一计算模块303、第二计算模块304及反馈模块305等。

其中,接收模块301,用于获取待处理的文本。

分词模块302,用于当文本的类型为主观类型时,按照预设策略对文本进行分词,得到组成文本的词语。

第一计算模块303,用于根据词语计算文本与语料库中每一条语料之间的表层相似度。

第二计算模块304,用于计算表层相似度大于预设阈值的语料,与文本之间的信息熵相似度。

反馈模块305,用于筛选出信息熵相似度最高的语料。

在一些实施方式中,第二计算模块304可以包括提取单元、筛选单元、第一计算单元和第二计算单元等,具体可以如下:

提取单元,用于从词语中提取出关键词;

筛选单元,用于筛选出表层相似度大于预设阈值的语料,得到目标语料;

第一计算单元,用于计算关键词与目标语料之间的词信息熵;

第二计算单元,用于根据词信息熵计算目标语料与文本之间的信息熵相似度。

在一些实施方式中,第一计算单元具体用于:获取语料库中语料的总数;确定语料库中出现关键词的语料的数量;根据总数和数量计算关键词与目标语料之间的词信息熵。

在一些实施方式中,第一计算模块303具体用于:从词语中提取出关键词;获取语料库的每条语料中包含的词语与关键词相同的个数,得到第一数值;获取分词得到的组成文本的词语的个数,以及对每条语料分词得到的词语的个数,得到第二数值;根据第一数值和第二数值计算文本与语料库中每一条语料之间的表层相似度。

在一些实施方式中,反馈模块305具体用于:

根据信息熵相似度对语料进行评分,得到语料对应的分值;

对语料按照分值从高至低的顺序进行排序,得到排序后的语料;

从排序后的语料中筛选出分值最高的语料,得到信息熵相似度最高的语料。

在一些实施方式中,文本处理装置300还可以包括:

确定模块,用于获取文本中包含的特征信息,根据特征信息确定文本的类型。

在一些实施方式中,文本处理装置300还可以包括获取模块和第三计算模块等,具体可以如下:

获取模块,用于当文本的类型为客观类型时,获取文本中包含的运算参数;

第三计算模块,用于根据运算参数通过预设算法计算相应的结果。

在一些实施方式中,运算参数包括待运输物品需要运输的起始地址、终止地址和待运输物品的重量,预设算法包括运费算法,第三计算模块具体用于:根据起始地址、终止地址和待运输物品的重量,通过运费算法计算相应的运费结果。

在一些实施方式中,运算参数包括当前日期以及偏移量,第三计算模块具体用于:根据当前日期以及偏移量通过预设算法计算相应的日期结果。

以上各个操作的具体实施可参见前面的实施例,在此不再赘述。

本申请实施例可以由接收模块301获取待处理的文本,当文本的类型为主观类型时,由分词模块302按照预设策略对文本进行分词,得到组成文本的词语;然后由第一计算模块303根据词语计算文本与语料库中每一条语料之间的表层相似度,以及由第二计算模块304计算表层相似度大于预设阈值的语料,与文本之间的信息熵相似度,此时可以由反馈模块305筛选出信息熵相似度最高的语料。由于该方案可以计算文本与语料之间的表层相似度,通过表层相似度可以从语料库中先筛选出有相同词语的语料,实现对语料进行初筛,以及计算表层相似度大于预设阈值的语料与文本之间的信息熵相似度,从而可以仅计算部分语料与文本之间的信息熵相似度,这样可以提高计算速度,然后筛选出信息熵相似度最高的语料,信息熵相似度越大则说明语料和文本之间的相似度越高,从而可以基于文本的类型快速及精准给予反馈,因此提高了基于文本反馈的效率和精准性。

本申请实施例还提供一种服务器,如图6所示,其示出了本申请实施例所涉及的服务器的结构示意图,具体来讲:

该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图6中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

其中:

处理器401是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。

服务器还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,服务器中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而执行以下功能,如下:

获取待处理的文本;当文本的类型为主观类型时,按照预设策略对文本进行分词,得到组成文本的词语;根据词语计算文本与语料库中每一条语料之间的表层相似度;计算表层相似度大于预设阈值的语料,与文本之间的信息熵相似度;筛选出信息熵相似度最高的语料。

在一些实施方式中,在计算表层相似度大于预设阈值的语料,与文本之间的信息熵相似度时,处理器401可以执行:

从词语中提取出关键词;筛选出表层相似度大于预设阈值的语料,得到目标语料;计算关键词与目标语料之间的词信息熵;根据词信息熵计算目标语料与文本之间的信息熵相似度。

在一些实施方式中,在计算关键词与目标语料之间的词信息熵时,处理器401可以执行:获取语料库中语料的总数;确定语料库中出现关键词的语料的数量;根据总数和数量计算关键词与目标语料之间的词信息熵。

在一些实施方式中,在根据词语计算文本与语料库中每一条语料之间的表层相似度时,处理器401可以执行:从词语中提取出关键词;获取语料库的每条语料中包含的词语与关键词相同的个数,得到第一数值;获取分词得到的组成文本的词语的个数,以及对每条语料分词得到的词语的个数,得到第二数值;根据第一数值和第二数值计算文本与语料库中每一条语料之间的表层相似度。

在一些实施方式中,在筛选出信息熵相似度最高的语料时,处理器401可以执行:根据信息熵相似度对语料进行评分,得到语料对应的分值;对语料按照分值从高至低的顺序进行排序,得到排序后的语料;从排序后的语料中筛选出分值最高的语料,得到信息熵相似度最高的语料。

在一些实施方式中,在获取待处理的文本之后,处理器401可以执行:获取文本中包含的特征信息;根据特征信息确定文本的类型。

在一些实施方式中,在根据特征信息确定文本的类型之后,处理器401可以执行:当文本的类型为客观类型时,获取文本中包含的运算参数;根据运算参数通过预设算法计算相应的结果。

在一些实施方式中,运算参数包括待运输物品需要运输的起始地址、终止地址和待运输物品的重量,预设算法包括运费算法,在根据运算参数通过预设算法计算相应的结果时,处理器401可以执行:根据起始地址、终止地址和待运输物品的重量,通过运费算法计算相应的运费结果。

在一些实施方式中,运算参数包括当前日期以及偏移量,在根据运算参数通过预设算法计算相应的结果时,处理器401可以执行:根据当前日期以及偏移量通过预设算法计算相应的日期结果。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对文本处理方法的详细描述,此处不再赘述。

本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。

为此,本申请实施例提供一种存储介质,其中存储有计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种文本处理方法。例如,该计算机程序被处理器加载,可以执行如下步骤:

获取待处理的文本;当文本的类型为主观类型时,按照预设策略对文本进行分词,得到组成文本的词语;根据词语计算文本与语料库中每一条语料之间的表层相似度;计算表层相似度大于预设阈值的语料,与文本之间的信息熵相似度;筛选出信息熵相似度最高的语料。

以上各个操作的具体实施可参见前面的实施例,在此不再赘述。

其中,该存储介质可以包括:只读存储器(rom,readonlymemory)、随机存取记忆体(ram,randomaccessmemory)、磁盘或光盘等。

由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种文本处理方法,因此,可以实现本申请实施例所提供的任一种文本处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。

以上对本申请实施例所提供的一种文本处理方法、装置、服务器及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1