一种短文本特征扩展方法、装置及服务器与流程

文档序号:14419271阅读:222来源:国知局
一种短文本特征扩展方法、装置及服务器与流程

本发明实施例涉及语义识别技术领域,尤其涉及一种短文本特征扩展方法、装置及服务器。



背景技术:

随着电子商务(onlinetooffline,简称o2o)、移动交通的发展,以地理位置服务为代表的地球空间信息及应用服务产业已经成为当前it产业的重要组成部分,与国民经济、社会发展各个方面联系紧密。

面对海量的本文信息,用户很难从中找到自己感兴趣的,因此对文本进行解析和分类是非常有必要的。文本解析和分类为处理和组织海量文本数据的关键技术,可以比较有效地解决信息杂乱的问题,方便用户准确地定位所需的信息和分流信息。

但是,地理位置文本信息很多都是篇幅长度不超过200个字符的短文本。由于短文本篇幅短小,计算机不能很好地表征其语义,存在高维稀疏问题。即使短文本语料集利用改进后的信息增益特征选择方法,对特征矩阵进行了初步降维,依然存在维度稀疏,文本语义偏弱的问题。大量的地理位置短文本数据不仅含有丰富的信息,往往还蕴含巨大的潜在商业价值,因此采取适当的方法,对地理位置短文本进行扩展,缓解短文本稀疏问题是当今亟待解决的课题。



技术实现要素:

针对现有技术存在的问题,本发明实施例提供一种短文本特征扩展方法、装置及服务器。

一方面,本发明实施例提供一种短文本特征扩展方法,包括:

对获取的短文本进行特征提取,以得到原主题-单词向量;

利用lda主题模型生成所述短文本的第一文档-主题向量和第一主题-单词向量;

去除所述第一文档-主题向量中的噪声文档-主题向量,以得到第二文档-主题向量;

根据第二文档-主题向量和所述第一主题-单词向量获取第二主题-单词向量;

将所述第二主题-单词向量添加到原主题-单词向量以形成新主题-单词向量

另一方面,本发明实施例提供一种短文本特征扩展装置,包括:

特征提取模块,用于对获取的短文本进行特征提取,以得到原主题-单词向量;

生成模块,用于利用lda主题模型生成所述短文本的第一文档-主题向量和第一主题-单词向量;

第一处理模块,用于去除所述第一文档-主题向量中的噪声文档-主题向量,以得到第二文档-主题向量;

第二处理模块,用于根据第二文档-主题向量和所述第一主题-单词向量获取第二主题-单词向量;

第二处理模块,用于

合成模块,用于将所述第二主题-单词向量添加到原主题-单词向量以形成新主题-单词向量。

再一方面,本发明实施例提供一种服务器,包括如上所述短文本特征扩展装置。

本发明实施例提供的一种短文本特征扩展方法、装置及服务器,通过去除第一文档-主题向量中的噪声文档-主题向量,以得到第二文档-主题向量,根据第二文档-主题向量和第一主题-单词向量获取第二主题-单词向量,并将第二主题-单词向量添加到原主题-单词向量中,,提高了计算机进行语义识别的运算处理的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种短文本特征扩展方法流程示意图;

图2为现有技术提供的lda主题文档生成模型;

图3为本发明实施例提供的一种短文本特征扩展方法整体流程示意图;

图4为本发明实施例提供的一种装置结构示意图;

图5为本发明另一实施例提供的一种装置结构示意图;

图6为本发明又一实施例提供的一种装置的结构示意图;

图7为本发明再一实施例提供的一种装置结构示意图;

图8为本发明实施例提供的一种装置的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1为本发明实施例提供的一种短文本特征扩展方法流程示意图,如图1所示,所述方法,包括:

步骤101:对获取的短文本进行特征提取,以得到原主题-单词向量;

在一种可选实施例中,获取到待扩展的短文本,并对该短文本进行特征提取,得到原主题-单词向量。其中,待扩展的短文本是地理位置短文本,获取短文本的方式可以是从电子地图中获取,也可以是用户提交的关于地理位置短文本,还可以是其他的获取方式,本实施例对此不作具体限定。应当说明的是,对获取到的短文本进行特征提取之前,先对该短文本进行分词、词性过滤、停用词过滤等预处理。

步骤102:利用lda主题模型生成所述短文本的第一文档-主题向量和第一主题-单词向量;

具体地,文档主题生成模型隐含狄利克雷分布(latentdirichletallocation,简称lda)是一种具有层次的贝叶斯模型的文档-主题生成模型,因此也称三层贝叶斯模型,其中所述的三层结构包括文档、主题、词。文档-主题服从狄利克雷(dirichlet)分布,主题-词服从多项分布。lda主题模型能够用于挖掘文本语义。图2为现有技术提供的lda主题文档生成模型,如图2所示,其中α和β是超参数,它们通过dirichlet分布控制文档-主题分布θ和主题-单词分布θ是一个主题分布,表示该文档不同主题发生的概率值,由1*k的列向量进行表示,向量中的值表示在不同主题下发生的概率;z表示当前主题;w表示单词;m表示文档总数,n表示出现的单词总数。

将获取到的地理位置短文本输入lda主题模型中,利用lda主题模型生成地理位置短文本的第一文档-主题向量和第一主题-单词向量。其中从短文本中提出的关键词是经过预处理后,剩下的词组或者短语等,能够代表短文本含义的一类词。其中,文档-主题向量是指文档在n个主题上的概率分布的向量,可以理解为地理位置短文本作为一个文档用多个主题向量来表示;主题-单词向量是指一个主题在n个单词上的概率分布的向量,可以理解为一个主题由多个单词向量来表示。

步骤103:去除所述第一文档-主题向量中的噪声文档-主题向量,以得到第二文档-主题向量;

在一种可选实施例中,去除第一文档-主题向量中的噪声文档-主题向量,利用lda主题模型生成的第一文档-主题向量中会产生部分主题性不明确的文档-主题向量,称为噪声文档-主题向量,去除噪声文档-主题向量的第一文档-主题向量构成了第二文档-主题向量。

步骤104:根据第二文档-主题向量和所述第一主题-单词向量获取第二主题-单词向量;

在一种可选实施例中,根据第二文档-主题向量和第一主题-单词向量,可以获取到与第二文档-主题向量相对应的第二主题-单词向量。

步骤105:将所述第二主题-单词向量添加到原主题-单词向量以形成新主题-单词向量。

在一种可选实施例中,将得到的第二主题-单词向量添加到原主题-单词向量中,形成特征扩展后的新主题-单词向量。应当说明的是,将第二主题-单词向量添加到原主题-单词向量中时,可以加在原主题-单词向量后面,也可以加在原主题-单词向量中的任意位置,此处不做具体限定。还应当说明的是,在将第二主题-单词向量添加到原主题-单词向量前,需要查询第二主题-单词中是否存在原主题-单词向量中已经存在的单词,若在原主题-单词向量中已经存在,则将第二主题-单词向量中的该单词去掉,避免特征重复扩展。

本发明实施例通过去除第一文档-主题向量中的噪声文档-主题向量,以得到第二文档-主题向量,根据第二文档-主题向量和第一主题-单词向量获取第二主题-单词向量,并将第二主题-单词向量添加到原主题-单词向量中,提高了短文本特征扩展的准确性,从而提高了计算机进行语义识别的准确度。

在一种可选实施例中,所述方法,还包括:

计算所述第二主题-单词向量中对应的第一单词和第二单词的编辑距离,若判断所述编辑距离小于第一阈值,则保留所述第一单词并删除所述第二单词,同时选择第一单词概率和第二单词概率中数值较大的作为第一单词概率。

具体地,计算第二主题-单词向量中对应的第一单词和第二单词的编辑距离,应当理解的是,编辑距离是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。若判断第一单词和第二单词的编辑距离小于第一阈值,则说明第一单词与第二单词相似性很大,保留第一单词并删除第二单词,同时选择第一单词概率和第二单词概率之间数值较大的作为第一单词概率。例如:第一单词为大街,第二单词为街道,若通过计算得到第一单词和第二单词的编辑距离为1,设定的第一阈值为2,则第一单词和第二单词的编辑距离小于第一阈值,将第二单词对应的街道删除,若大街的单词概率为0.7,街道的单词概率为0.8,此时选择单词概率较大的0.8作为大街的单词概率,应当说明的是,在一种实施例中,选择删除第一单词还是第二单词可以预先设定,例如在计算机编程实现时,将多个第二单词分别与第一单词比较,此时如果通过计算得到第一单词和多个第二单词的其中一个的编辑距离小于第一阈值,则默认删除该第二单词。

本发明实施例通过将编辑距离小于第一阈值的第二单词替换为第一单词,对第二主题-单词向量做了进一步的优化,使扩展后的特征向量更加准确。

在一种可选实施例中,所述方法还包括:

获取长文本语料库;

根据所述长文本语料库训练得到lda主题模型。

具体地,获取长文本语料库,长文本语料库是通过爬虫工具从网络上爬取的、和地理相关的长文本,这些文本普遍长于短文本,一般均超过200个词。长文本语料库中包含多个地理相关的长文本,对上述长文本进行预处理,其中,预处理与上实施例中短文本的预处理一致,此处不再赘述。将预处理后的多个长文本构成的长文本语料库对lda主题模型进行训练,其中,对lda主题模型训练的目的是为了使lda主题模型趋于稳定,从而当输入一个短文本时,可以得出较为可靠的第一文档-主题向量和第一主题-单词向量。

在一种可选实施例中,所述去除所述第一文档-主题向量中的噪声文档-主题向量,以得到第二文档-主题向量,包括:

计算所述第一文档-主题向量的各主题在所述长文本语料库中的多个长文本上对应的主题概率的方差;

去除对应的方差小于第二阈值的主题,形成第二文档-主题向量。

具体地,通过lda主题模型预测出第一文档-主题向量和第一主题-单词向量,计算第一文档-主题向量对应的各主题在长文本语料库中的多个长文本上的方差,如果某个主题在各个文档的方差都小于第二阈值,就说明各个文档都较高程度上存在这个主题,因此,称此类主题为“伪主题”,需要去除“伪主题”,减少文本中噪声混入,从第一文档-主题向量中去除此类主题后形成第二文档-主题向量,这个过程称为去除“伪主题”。

在一种可选实施例中,所述根据第二文档-主题向量和所述第一主题-单词向量获取第二主题-单词向量,包括:

获取所述第二文档-主题向量中主题概率大于第三阈值的,以得到新第二文档-主题向量;

根据所述新第二文档-主题向量和所述第一主题-单词向量获得满足预设条件的第二主题-单词向量。

具体地,在第二文档-主题向量中,每个主题在每个文档上都对应一个主题概率,获取第二文档-主题向量中的主题概率大于第三阈值的主题,以形成新第二文档-主题向量,根据新第二文档-主题向量和第一主题-单词向量,获得满足预设条件的第二主题-单词向量。

本发明实施例通过获取所述第二文档-主题向量中主题概率大于第三阈值的,从而获得第二主题-单词向量,使第二主题-单词向量与获取到的地理位置短文本的关系更加紧密,在缓解了短文本稀疏问题的同时,提高了计算机进行语义识别的运算处理的准确性。

在一种可选实施例中,所述根据所述新第二文档-主题向量获得满足预设条件的第二主题-单词向量,包括:

获取所述新第二文档-主题向量中的主题在所述第一主题-单词向量中对应的单词的单词概率大于第四阈值的第二主题-单词向量。

具体地,在新第二文档-主题向量对应的第二主题-单词向量中每一个单词都对应一个单词概率,获取在新第二文档-主题向量中的主题在第一主题-单词向量中对应的单词概率大于第四阈值的单词,并形成第二主题-单词向量。

本发明实施例通过第四阈值构成的预设条件,获得第二主题-单词向量,使第二主题-单词向量与获取到的地理位置短文本的关系更加紧密,提高了对短文本分类的准确性。

在一种可选实施例中,所述方法,还包括:

将所述原主题-单词向量做归一化处理。

具体地,对短文本进行预处理及特征提取后得到原主题-单词向量,例如,可以通过信息检索数据挖掘的常用加权技术(termfrequency-inversedocumentfrequency,简称tf-idf)计算出原主题-单词向量中每个单词对应的tf-idf值,,其取值范围很宽泛,而在第二主题-单词向量中,单词的主题分布概率的取值范围为0-1,因此不能直接将第二主题-单词向量添加到原主题-单词向量中。通过对原主题-单词向量进行归一化处理,使得原主题-单词向量的取值范围都在0-1之间,与第二主题-单词向量取值范围匹配。应当说明的是,对短文本的的特征提取获得原主题-单词向量所使用的方法不局限于上述举例,还可以是其他的统计方法,本实施例对此不作具体限定。

本发明实施例通过将获取到的原主题-单词向量进行归一化处理,使其与第二主题-单词向量中的每个单词概率的取值范围都在0-1之间,便于特征扩展。

图3为本发明提供的一种实施例中的短文本特征扩展方法整体流程示意图,如图3所示,所述方法可以由以下步骤完成:

步骤301:长文本处理;通过网络爬虫从网络上爬取和地理相关的长文本,一般均超过200个词,对长文本进行预处理,预处理包括:将短文本进行分词、词性过滤、停用词过滤等预处理,进行步骤302。

步骤302:lda主题模型训练得到训练好的lda主题模型;将预处理后的多个长文本构成的长文本语料库对lda主题模型进行训练,其中,对lda主题模型训练的目的是为了使lda主题模型趋于稳定,从而当输入一个短文本时,可以得出较为可靠的第一文档-主题向量和第一主题-单词向量,进行步骤303。

步骤303:短文本预处理;获取短文本,其中短文本为地理位置短文本,对获取到的短文本进行预处理,其中预处理方式与步骤301中一致,此处不再赘述,短文本处理完成后,进行步骤304。

步骤304:特征提取;将预处理后的短文本进行特征提取,得到原主题-单词向量,进行步骤305。

步骤305:归一化处理;对原主题-单词向量进行归一化处理,使单词的主题分布概率的取值范围在0-1之间,进行步骤306。

步骤306:利用lda主题模型进行预测;利用lda主题模型预测输入的地理位置短文本的第一文档-主题向量和第一主题-单词向量。

步骤307:去除“伪主题”;计算第一文档-主题向量对应的主题概率在长文本语料库中的多个长文本上的方差,如果某个主题在各个文档的方差都小于第二阈值,就说明各个文档都较高程度上存在这个主题,因此,称此类主题为“伪主题”,去除“伪主题”,减少文本中噪声混入,从第一文档-主题向量中去除此类主题后形成第二文档-主题向量,这个过程称为去除“伪主题”,进行步骤308。

步骤308:获取第二主题-单词向量;获取第二文档-主题向量中主题概率大于第三阈值的主题并构成新第二文档-主题向量并获取新第二文档-主题向量对应的第二主题-单词向量中单词概率大于第四阈值的单词并构成第二主题-单词向量,进行步骤309。

步骤309:计算编辑距离;计算第二主题-单词向量中对应的第一单词和第二单词的编辑距离,进行步骤310。

步骤310:合并编辑距离小于第一阈值的两单词;若判断第一单词和第二单词的编辑距离小于第一阈值,则说明第一单词与第二单词相似性很大,将第二单词替换为第一单词,并选择第一单词概率和第二单词概率中数值较大的作为第一单词概率,形成第二主题-单词向量,进行步骤311。

步骤311:添加到原主题-单词向量中;将第二主题-单词向量添加到原主题-单词向量中。

应当说明的是,本发明实施例所描述的短文本特征扩展方法的步骤流程不局限于上述描述,能够实现该方法均可,本实施例对此不作具体限定。

本发明实施例通过去除第一文档-主题向量中的噪声文档-主题向量,以得到第二文档-主题向量,根据第二文档-主题向量和第一主题-单词向量获取第二主题-单词向量,并将第二主题-单词向量添加到原主题-单词向量中,提高了计算机进行语义识别的运算处理的准确性。

图4为本发明实施例提供的一种装置结构示意图,如图4所示,所述装置包括,特征提取模块401、生成模块402、第一处理模块403、第二处理模块404和合成模块405,其中:

特征提取模块401用于对获取的短文本进行特征提取,以得到原主题-单词向量;生成模块402用于利用lda主题模型生成所述短文本的第一文档-主题向量和第一主题-单词向量;第一处理模块403用于去除所述第一文档-主题向量中的噪声文档-主题向量,以得到第二文档-主题向量;第二处理模块404用于根据第二文档-主题向量和所述第一主题-单词向量获取第二主题-单词向量;合成模块405用于将所述第二主题-单词向量添加到原主题-单词向量以形成新主题-单词向量。

具体地,特征提取模块401获取到待扩展的短文本,并对该短文本进行特征提取,得到原主题-单词向量。其中,待扩展的短文本是地理位置短文本,获取短文本的方式可以是从电子地图中获取,也可以是用户提交的关于地理位置短文本,还可以是其他的获取方式,本实施例对此不作具体限定。应当说明的是,对获取到的短文本进行特征提取之前,先对该短文本进行分词、词性过滤、停用词过滤等预处理。生成模块402将获取到的地理位置短文本输入lda主题模型中,利用lda主题模型生成地理位置短文本的第一文档-主题向量和第一主题-单词向量。其中从短文本中提出的关键词是经过预处理后,剩下的词组或者短语等,能够代表短文本含义的一类词。第一处理模块403去除第一文档-主题向量中的噪声文档-主题向量,利用lda主题模型生成的第一文档-主题向量中会产生部分主题性不明确的文档-主题向量,称为噪声文档-主题向量,去除噪声文档-主题向量的第一文档-主题向量构成了第二文档-主题向量。第二处理模块404根据第二文档-主题向量和第一主题-单词向量,可以获取到与第二文档-主题向量相对应的第二主题-单词向量。合成模块405将得到的第二主题-单词向量添加到原主题-单词向量中,形成新主题-单词向量,新主题-单词向量就是进行特征扩展后的。可以理解的是,可以加在原主题-单词向量后面,也可以加在原主题-单词向量中的任意位置,此处不做具体限定。还应当说明的是,在将第二主题-单词向量添加到原主题-单词向量前,需要查询第二主题-单词中是否存在原主题-单词向量中已经存在的单词,若在原主题-单词向量中已经存在,则将第二主题-单词向量中的该单词去掉,避免特征重复扩展。

本发明实施例通过去除第一文档-主题向量中的噪声文档-主题向量,以得到第二文档-主题向量,根据第二文档-主题向量和第一主题-单词向量获取第二主题-单词向量,并将第二主题-单词向量添加到原主题-单词向量中,提高了计算机进行语义识别的运算处理的准确性。

本发明提供的装置的实施例具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。

在一种可选实施例中,图5为本发明另一实施例提供的一种装置结构示意图,如图5所示,所述装置包括,特征提取模块401、生成模块402、第一处理模块403、第二处理模块404、合成模块405和计算模块406,其中:

计算模块406用于计算所述第二主题-单词向量中对应的第一单词和第二单词的编辑距离,若判断所述编辑距离小于第一阈值,则保留所述第一单词并删除所述第二单词,并选择第一单词概率和第二单词概率中数值较大的作为第一单词概率。

具体地,特征提取模块401、生成模块402、第一处理模块403、第二处理模块404和合成模块405与上述实施例一致,此处不再赘述。计算模块406计算第二主题-单词向量中对应的第一单词和第二单词的编辑距离,应当理解的是,编辑距离是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。计算模块406若判断第一单词和第二单词的编辑距离小于第一阈值,则说明第一单词与第二单词相似性很大,将第二单词删除,并选择第一单词概率和第二单词概率之间数值较大的作为第一单词概率。

本发明实施例通过将编辑距离小于第一阈值的第二单词替换为第一单词,对第二主题-单词向量做了进一步的优化,使扩展后的特征向量更加准确。

在一种可选实施例中,图6为本发明又一实施例提供的一种装置结构示意图,如图6所示,所述装置包括:特征提取模块401、生成模块402、第一处理模块403、第二处理模块404、合成模块405、计算模块406、获取模块407和训练模块408,其中:

获取模块407用于获取长文本语料库;

训练模块408用于根据所述长文本语料库训练得到lda主题模型。

具体地,特征提取模块401、生成模块402、第一处理模块403、第二处理模块404、合成模块405和计算模块406与上述实施例一致,此处不再赘述。获取模块407获取长文本语料库,长文本语料库是通过爬虫工具从网络上爬取的、和地理相关的长文本,这些文本普遍长于短文本,一般均超过200个词。长文本语料库中包含多个地理相关的长文本,对上述长文本进行预处理,其中,预处理与上实施例中短文本的预处理一致,此处不再赘述。训练模块408将预处理后的多个长文本构成的长文本语料库对lda主题模型进行训练,其中,对lda主题模型训练的目的是为了使lda主题模型趋于稳定,从而当输入一个短文本时,可以得出较为可靠的第一文档-主题向量和第一主题-单词向量。

在一种可选实施例中,所述第一处理模块,具体用于:

计算所述第一文档-主题向量的各主题在所述长文本语料库中的多个长文本对应的主题概率的方差;

去除对应的方差小于第二阈值的主题,形成第二文档-主题向量。

具体地,第一处理模块403通过lda主题模型预测出第一文档-主题向量和第一主题-单词向量,计算第一文档-主题向量对应的各主题在长文本语料库中的多个长文本上的方差,如果某个主题在各个文档的方差都小于第二阈值,就说明各个文档都较高程度上存在这个主题,因此,称此类主题为“伪主题”,需要去除“伪主题”,减少文本中噪声混入,从第一文档-主题向量中去除此类主题后形成第二文档-主题向量,这个过程称为去除“伪主题”。

在一种可选实施例中,所述第二处理模块,具体用于:

获取所述第二文档-主题向量中主题概率大于第三阈值的主题,以得到新第二文档-主题向量;

根据所述新第二文档-主题向量和所述第一主题-单词向量获得满足预设条件的第二主题-单词向量。

具体地,在第二文档-主题向量中,每个主题在每个文档上都对应一个主题概率,第二处理模块404获取第二文档-主题向量中的主题概率大于第三阈值的主题,以形成新第二文档-主题向量,根据新第二文档-主题向量和第一主题-单词向量,获得满足预设条件的第二主题-单词向量。

本发明实施例通过获取所述第二文档-主题向量中主题概率大于第三阈值的,从而获得第二主题-单词向量,使第二主题-单词向量与获取到的地理位置短文本的关系更加紧密,在缓解了短文本稀疏问题的同时,提高了计算机进行语义识别的运算处理的准确性。

在一种可选实施例中,所述根据所述新第二文档-主题向量获得满足预设条件的第二主题-单词向量,包括:

获取所述新第二文档-主题向量中的主题在所述第一主题-单词向量中对应的单词的单词概率大于第四阈值的第二主题-单词向量。

具体地,在新第二文档-主题向量对应的第二主题-单词向量中每一个单词都对应一个单词概率,获取在新第二文档-主题向量中的主题在第一主题-单词向量中对应的单词概率大于第四阈值的单词,并形成第二主题-单词向量。

本发明实施例通过第四阈值构成的预设条件,获得第二主题-单词向量,使第二主题-单词向量与获取到的地理位置短文本的关系更加紧密,提高了对短文本分类的准确性,从而提高了计算机进行语义识别的运算处理的准确性。

在一种可选实施例中,图7为本发明再一实施例提供的一种装置结构示意图,如图7所示,所述装置,包括:特征提取模块401、生成模块402、第一处理模块403、第二处理模块404、合成模块405、计算模块406、获取模块407、训练模块408和归一化模块409,其中:

归一化模块409用于将所述原主题-单词向量做归一化处理。

具体地,特征提取模块401、生成模块402、第一处理模块403、第二处理模块404、合成模块405、计算模块406、获取模块407和训练模块408与上述实施例一致,此处不再赘述。特征提取模块401对短文本进行预处理及特征提取后得到原主题-单词向量,例如,可以通过信息检索数据挖掘的常用加权技术(termfrequency-inversedocumentfrequency,简称tf-idf)计算出原主题-单词向量中每个单词对应的tf-idf值,其取值范围很宽泛,而在第二主题-单词向量中,单词的主题分布概率的取值范围为0-1,因此不能直接将第二主题-单词向量添加到原主题-单词向量中。归一化模块409通过对原主题-单词向量进行归一化处理,使得原主题-单词向量的取值范围都在0-1之间,与第二主题-单词向量取值范围匹配。应当说明的是,对短文本的的特征提取获得原主题-单词向量所使用的方法不局限于上述举例,还可以是其他的统计方法,本实施例对此不作具体限定。

本发明实施例通过将获取到的原主题-单词向量进行归一化处理,使其与第二主题-单词向量中的每个单词概率的取值范围都在0-1之间,便于特征扩展。

本发明实施例还提供一种服务器,用以执行上述任一实施例中的短文本特征扩展装置。

图8为本发明实施例提供的一种装置的实体结构示意图,如图8所示所述装置可以包括:处理器(processor)801、存储器(memory)802和通信总线803,其中,处理器801,存储器802通过通信总线803完成相互间的通信。处理器801可以调用存储器802中的逻辑指令,以执行如下方法:对获取的短文本进行特征提取,以得到原主题-单词向量;利用lda主题模型生成所述短文本的第一文档-主题向量和第一主题-单词向量;去除所述第一文档-主题向量中的噪声文档-主题向量,以得到第二文档-主题向量;根据第二文档-主题向量和所述第一主题-单词向量获取第二主题-单词向量;将所述第二主题-单词向量添加到原主题-单词向量以形成新主题-单词向量。

此外,上述的存储器802中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1