文本分类方法、电子设备及计算机程序产品与流程

文档序号:16782768发布日期:2019-02-01 19:15阅读:155来源:国知局
文本分类方法、电子设备及计算机程序产品与流程
本申请涉及自然语言处理技术,具体地,涉及一种文本分类方法、电子设备及计算机程序产品。
背景技术
:文本分类问题是自然语言处理领域中一个非常经典的问题,相关研究最早可以追溯到上世纪50年代,当时是通过专家规则(pattern)进行分类,甚至在80年代初一度发展到利用知识工程建立专家系统,这样做的好处是短平快的解决top问题,但显然天花板非常低,不仅费时费力,覆盖的范围和准确率都非常有限。伴随着统计学习方法的发展,特别是90年代后互联网在线文本数量增长和机器学习学科的兴起,逐渐形成了一套解决大规模文本分类问题的经典玩法,这个阶段的主要套路是人工特征工程+浅层分类模型。整个文本分类问题就拆分成了特征工程和分类器两部分。文本分类的分类器中,常用的方法有knn(k-nearestneighbor,邻近算法),朴素贝叶斯,支撑向量机,神经网络,决策树,rocchio等等。技术实现要素:本申请实施例中提供了一种文本分类方法、电子设备及计算机程序产品。根据本申请实施例的第一个方面,提供了一种文本分类方法,包括:从样本文本中获取中心文本;根据中心文本与待分类文本之间的相似度,选择预设数量个中心文本作为相似中心文本;确定各相似中心文本的权重;根据各相似中心文本的权重确定待分类文本所属类别。可选地,从样本文本中获取中心文本,包括:确定每个样本文本的特征词,其中,每个样本文本属于一个类别;计算每个特征词在各样本文本中的权重;根据每个特征词在各样本文本中的权重,将属于同一类别的样本文本进行聚类;将每类中的样本文本合并成一个中心文本。可选地,计算每个特征词在各样本文本中的权重,包括:根据如下公式计算任一特征词t在任一样本文本中的权重:其中,为t在中的权重,为t出现在中的次数,n为样本文本总数,ni为所有样本文本中出现t的样本文本个数,为t出现在所属类别c中的次数,为t出现在所属类别c以外的类别中的次数,为在所属类别c以外的类别中,t出现在非样本文本的次数。可选地,确定每个样本文本的特征词,包括:在预设的分词方法中,确定每个样本文本对应的分词方法;按对应的分词方法对每个样本文本进行分词处理,得到每个样本文本的特征词;去除每个样本文本的特征词中的停用词;将每个样本文本去除后的特征词确定为每个样本文本的特征词。可选地,在预设的分词方法中,确定每个样本文本对应的分词方法,包括:对于任一样本文本,根据如下公式计算分布概率最大的分词方法:j=argmaxp(aj1.aj2,…,ajmx);其中,j为分布概率最大的分词方法标识,mx为任一分词方法j对任一样本文本进行分词后得到的词个数,aj1.aj2,…,ajmx为任一分词方法j对任一样本文本进行分词后得到的词,argmaxp(aj1.aj2,…,ajmx)为函数,函数用于得到使得p(aj1.aj2,…,ajmx)取得最大值所对应的j,p(aj1.aj2,…,ajmx)为分布概率,p(aj1.aj2,…,ajmx)=p(aj1)p(aj2|aj1)p(aj3|aj2)…p(ajmx|ajmx-1),p(aj1)为词aj1在预设的标准语料库中出现的概率,p(aj2|aj1)为条件概率,p(aj2|aj1)=freq(aj1,aj2)/freq(aj1),freq(aj1,aj2)为词aj1和aj2在标准语料库中相邻出现的次数,freq(aj1)为词aj1在标准语料库中出现的次数,p(aj3|aj2)为条件概率,p(aj3|aj2)=freq(aj2,aj3)/freq(aj2),freq(aj2,aj3)为词aj2和aj3在标准语料库中相邻出现的次数,freq(aj2)为词aj2在标准语料库中出现的次数,p(ajmx|ajmx-1)为条件概率,p(ajmx|ajmx-1)=freq(ajmx-1,ajmx)/freq(ajmx-1),freq(ajmx-1,ajmx)为词ajmx-1和ajmx在标准语料库中相邻出现的次数,freq(ajmx-1)为词ajmx-1在标准语料库中出现的次数;将分布概率最大的分词方法确定为任一样本文本对应的分词方法。可选地,确定各相似中心文本的权重,包括:按相似中心文本与待分类文本之间的相似度从大到小,对相似中心文本进行排序;根据如下公式确定各相似中心文本的权重:其中,b和b’均为相似中心文本在序列中的位置标识,为wb为位置为b的相似中心文本的权重,wb-1为位置为b-1的相似中心文本的权重,wb'为位置为b’的相似中心文本的权重,k为预设数量。可选地,根据各相似中心文本的权重确定待分类文本所属类别,包括:确定各相似中心文本所属类别;按类别将相似中心文本分类;确定每一类中相似中心文本的权重之和以及相似中心文本的数量;将每一类的相似中心文本的权重之和与相似中心文本的数量的积作为该类的加权频率;将加权频率最大的类作为待分类文本的所属类别。可选地,根据中心文本与待分类文本之间的相似度,选择预设数量个中心文本作为相似中心文本之前,还包括:对于任一中心文本,确定任一中心文本与待分类文本相同的特征词;将相同的特征词在任一中心文本中的权重,形成第一权重向量;将相同的特征词在待分类文本中的权重,形成第二权重向量;将第一权重向量和第二权重向量的余弦确定为任一中心文本与待分类文本之间的相似度。根据本申请实施例的第二个方面,提供了一种电子设备,所述电子设备包括:显示器,存储器,一个或多个处理器;以及一个或多个模块,所述一个或多个模块被存储在所述存储器中,并被配置成由所述一个或多个处理器执行,所述一个或多个模块包括用于执行上述第一个方面任一所述方法中各个步骤的指令。根据本申请实施例的第三个方面,提供了一种计算机程序产品,所述计算机程序产品对用于执行一种过程的指令进行编码,所述过程包括上述第一个方面中任一项所述的方法。采用本申请实施例中提供的方法,在选择预设数量个相似中心文本之后,不再简单的根据每类中相似中心文本的数量确定待分类文本的所属类别,而是确定各相似中心文本的权重,根据各相似中心文本的权重确定待分类文本所属类别,该方案可以提升文本分类的准确性。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请一实施例提供的一种文本分类方法的流程示意图;图2为本申请一实施例提供的一种文本分类方法的实现结构图;图3为本申请一实施例提供的一种电子设备结构示意图。具体实施方式在实现本申请的过程中,发明人发现,现有的文本分类方法中存在一个样本数据(如样本文本)集合,也称为训练样本集,并且样本集中每个数据都存在标签,即知道样本集中每一数据与所属分类对应的关系。输入没有标签的数据后,将新数据中的每个特征与样本集中数据对应的特征进行比较,提取出样本集中特征最相似数据(最近邻)的分类标签。一般来说,只选择样本数据集中前k个最相似的数据,通常k是不大于20的整数。最后选择k个最相似数据中出现次数最多的分类作为新数据的分类。然而上述方法在应用于数量不平衡的样本中时,预测偏差较大,同时还存在计算复杂性高,计算量大的问题。因此,在训练文本较多的情况下,如何提高分类准确率,减小计算量,提高分类速度是几个关键性问题。为了解决上述问题,本提案提供一种文本分类方法,该方法从样本文本中获取中心文本;根据中心文本与待分类文本之间的相似度,选择预设数量个中心文本作为相似中心文本;确定各相似中心文本的权重;根据各相似中心文本的权重确定待分类文本所属类别。该方法选择预设数量个相似中心文本之后,不再简单的根据每类中相似中心文本的数量确定待分类文本的所属类别,而是确定各相似中心文本的权重,根据各相似中心文本的权重确定待分类文本所属类别,该方案可以处理文本分类中类别不平衡问题,提升文本分类的准确性,提高算法效率。为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。参见图1,本实施例所示的文本分类方法的实现流程如下:s101,从样本文本中获取中心文本。本步骤在实现时可以采用如下的方式:步骤1.1,确定每个样本文本的特征词。其中,每个样本文本属于一个类别。通过本步骤会对每个样本文本进行拆词处理,拆出的每个词均是一个特征词,这样即可得到每个样本文本的特征向量。其中特征向量为特征词组成的向量。具体的,实现方案包括但不限于:步骤1.1.1,在预设的分词方法中,确定每个样本文本对应的分词方法。对于任一样本文本,1)根据如下公式计算分布概率最大的分词方法:j=argmaxp(aj1.aj2,…,ajmx);其中,j为分布概率最大的分词方法标识,mx为任一分词方法j对任一样本文本进行分词后得到的词个数,aj1.aj2,…,ajmx为任一分词方法j对任一样本文本进行分词后得到的词,argmaxp(aj1.aj2,…,ajmx)为函数,函数用于得到使得p(aj1.aj2,…,ajmx)取得最大值所对应的j,p(aj1.aj2,…,ajmx)为分布概率,p(aj1.aj2,…,ajmx)=p(aj1)p(aj2|aj1)p(aj3|aj2)…p(ajmx|ajmx-1),p(aj1)为词aj1在预设的标准语料库中出现的概率,p(aj2|aj1)为条件概率,p(aj2|aj1)=freq(aj1,aj2)/freq(aj1),freq(aj1,aj2)为词aj1和aj2在标准语料库中相邻出现的次数,freq(aj1)为词aj1在标准语料库中出现的次数,p(aj3|aj2)为条件概率,p(aj3|aj2)=freq(aj2,aj3)/freq(aj2),freq(aj2,aj3)为词aj2和aj3在标准语料库中相邻出现的次数,freq(aj2)为词aj2在标准语料库中出现的次数,p(ajmx|ajmx-1)为条件概率,p(ajmx|ajmx-1)=freq(ajmx-1,ajmx)/freq(ajmx-1),freq(ajmx-1,ajmx)为词ajmx-1和ajmx在标准语料库中相邻出现的次数,freq(ajmx-1)为词ajmx-1在标准语料库中出现的次数;2)将分布概率最大的分词方法确定为任一样本文本对应的分词方法。例如,对于由n个样本文本组成的训练数据集t:{t1,t2,…tn}中的每一个样本文本,有nj种预设的分词方法,任一种分词方法对任一个样本文本进行分词后会得到mx个词。如对任一样本文本,每种分词方法与对应词的关系如表1所示:表1分词方法标识对应的词1a11.a12,…,a1mx2a21.a22,…,a2mx............jaj1.aj2,…,ajmx............njanj1.anj2,…,anjmx其中,每种分词方法对同一样本文本进行分词之后得到的词的数量可以相同也可以不同,本实施例不进行限定。另外,本实施例不对预设的分词方法具体指何种方法进行限定,只要能够对文本进行分词即可,如正最大匹配法、逆向最大匹配法、双向匹配分词法、基于神经网络的分词器等。将对应统计分布概率最大的分词方法确定为该样本文档的最优分词方法,将其确定为对应样本文本的分词方法。对任一样本文本,各分词方法的统计分布概率通过如下公式计算:j=argmaxp(aj1.aj2,…,ajmx)。其中,argmaxp(aj1.aj2,…,ajmx)为一个函数(可简化为argmaxf(x))。设函数y=f(x),x0=argmaxf(x)的意思就是参数x0满足f(x0)为f(x)的最大值。换句话说就是argmaxf(x)是使得f(x)取得最大值所对应的变量x。arg即argument,意为“自变量”。也就是说,argmaxp(aj1.aj2,…,ajmx)函数用于得到使得p(aj1.aj2,…,ajmx)取得最大值所对应的j。p(aj1.aj2,…,ajmx)为分布概率,j为分布概率最大的分词方法标识,mx为任一分词方法j对任一样本文本进行分词后得到的词个数,aj1.aj2,…,ajmx为任一分词方法j对任一样本文本进行分词后得到的词。为了兼顾计算简化和分词精确度,本实施例采用马尔科夫假设,使每一个分词出现的概率和前一个分词有关,即:p(aj1.aj2,…,ajmx)=p(aj1)p(aj2|aj1)p(aj3|aj2)…p(ajmx|ajmx-1)通过预设的标准语料库,则可以近似的计算出所有分词之间的二元条件概率,例如任意两个词w1和w2的条件概率分布可以近似的表示为:p(w2|w1)=p(w1,w2)/p(w1)≈freq(w1,w2)/freq(w1);p(w1|w2)=p(w2,w1)/p(w2)≈freq(w1,w2)/freq(w2)。其中freq(w1,w2)表示w1和w2在语料库中相邻一起出现的次数,freq(w1)和freq(w2)分别表示w1和w2在语料库中出现的统计次数。对于本例子,p(aj1)为词aj1在预设的标准语料库中出现的概率,p(aj2|aj1)为条件概率,p(aj2|aj1)=freq(aj1,aj2)/freq(aj1),freq(aj1,aj2)为词aj1和aj2在标准语料库中相邻出现的次数,freq(aj1)为词aj1在标准语料库中出现的次数,p(aj3|aj2)为条件概率,p(aj3|aj2)=freq(aj2,aj3)/freq(aj2),freq(aj2,aj3)为词aj2和aj3在标准语料库中相邻出现的次数,freq(aj2)为词aj2在标准语料库中出现的次数,p(ajmx|ajmx-1)为条件概率,p(ajmx|ajmx-1)=freq(ajmx-1,ajmx)/freq(ajmx-1),freq(ajmx-1,ajmx)为词ajmx-1和ajmx在标准语料库中相邻出现的次数,freq(ajmx-1)为词ajmx-1在标准语料库中出现的次数。步骤1.1.2,按对应的分词方法对每个样本文本进行分词处理,得到每个样本文本的特征词。步骤1.1.3,去除每个样本文本的特征词中的停用词。步骤1.1.3可以通过加载预先存储的停用词表,去除常见停用词。步骤1.1.4,将每个样本文本去除后的特征词确定为每个样本文本的特征词。通过步骤1.1,可以为每一个样本文本选择合适的分词方法进行分词,保证了分词的准确性和分词方法对样本文本的针对性。另外,在得到每个样本文本的特征词之后,还可以根据语料库建立词典。步骤1.2,计算每个特征词在各样本文本中的权重。本实施例通过引进类别的信息,提高特征词的权重,因此,步骤1.2的计算方法为:根据如下公式计算任一特征词t在任一样本文本中的权重:其中,为t在中的权重,为t出现在中的次数,n为样本文本总数,ni为所有样本文本中出现t的样本文本个数,为t出现在所属类别c中的次数,为t出现在所属类别c以外的类别中的次数,为在所属类别c以外的类别中,t出现在非样本文本的次数。通过以上公式更能反映特征词汇的重要程度。步骤1.3,根据每个特征词在各样本文本中的权重,将属于同一类别的样本文本进行聚类。本实施例不对步骤1.3中的聚类算法进行限定,例如k-means方法等,只要可以实现聚类即可。由于每个样本文本属于一个类别,因此,可以得到每个类别对应的样本文本。例如,由n个样本文本组成的训练数据集t:{t1,t2,…tn}共涉及c个类别,任一个类别有cl个样本文本,对每个类设置初始中心点个数为k’,采用k-means方法,基于各样本中各词的权重计算各样本文件之间的相似度,再根据相似度进行聚类,将cl个样本文本中有较大相似度的样本文本合并成一个簇,共形成k’个簇,则整个训练数据集有c*k’个簇。步骤1.4,将每类中的样本文本合并成一个中心文本。对步骤1.3的聚类结果形成的簇,可以看成为一个合并的新文本,对这k’个新文本重新建立向量空间模型,由此构建对分类模型中只存在语义中心文本。具体来讲,是将多个样本文本合并成一个“中心文本”,这样后续需要搜索的中心文本数就减少了若干倍,而训练集的规模仍然不变。具体合并方案,包括但不限于:将每类中的样本文本的特征词进行合并。s102,根据中心文本与待分类文本之间的相似度,选择预设数量个中心文本作为相似中心文本。在本步骤之前会先计算每个中心文本与待分类文本之间的相似度,基于该相似度再选择预设数量个中心文本作为相似中心文本。对于计算中心文本与待分类文本之间的相似度的过程,包括但不限于:对于任一中心文本,如该任一中心文本的特征词为a1,b1,c1,d1。步骤2.1,确定任一中心文本与待分类文本相同的特征词。其中,待分类文本的特征词确定方法与步骤1.1确定每个样本文本的特征词的方法相似,仅将任一样本文本替换为待分类文本即可。如:1)对于待分类文本,计算分布概率最大的分词方法。2)将分布概率最大的分词方法确定为待分类文本对应的分词方法。3)按对应的分词方法对待分类文本进行分词处理,得到待分类文本的特征词。4)去除待分类文本的特征词中的停用词。5)将去除后的特征词确定为待分类文本的特征词。具体实现方法参见步骤1.1,此处不再赘述。例如,待分类文本的特征词为a1,b2,c1,d2。则该任一中心文本与待分类文本相同的特征词为a1和c1。步骤2.2,将相同的特征词在任一中心文本中的权重,形成第一权重向量。步骤1.2中会得到相同的特征词在该任一样本文本中的权重,如形成的权重向量为步骤2.3,将相同的特征词在待分类文本中的权重,形成第二权重向量。相同的特征词在待分类文本中的权重的计算方法可以与步骤1.2类似,仅将任一样本文本替换为待分类文本即可。具体实现方法详见步骤1.2,此处不再赘述。其中第一权重向量和第二权重向量中各权重对应的特征词相同。即按相同的特征词顺序构建第一权重向量和第二权重向量。步骤2.4,将第一权重向量和第二权重向量的余弦确定为任一中心文本与待分类文本之间的相似度。假设第一权重向量第二权重向量其中r为相同的特征词的数量。第一权重向量和第二权重向量的余弦为:通过每一个中心文本与待分类文本之间相同的特征词及其权重,并按照相同特征词的顺序,重新构造两个特征词都相同的特征向量对应的权重向量和通过这种处理方法,不必每次都计算待分类文本与每一个样本文本的相似度,只需比较通过一次计算得到的特征向量的权值相似度,从而大大减轻计算量。除此之外,还可以将第一权重向量和第二权重向量的欧式距离确定为任一中心文本与待分类文本之间的相似度。假设第一权重向量第二权重向量其中r为相同的特征词的数量。第一权重向量和第二权重向量的欧式距离为:在得到每个中心文本与待分类文本之间的相似度之后,会选根据中心文本与待分类文本之间的相似度,选择预设数量个中心文本作为相似中心文本。具体可以选择余弦值最大的预设数量(如k)个中心文本作为相似中心文本。若在执行步骤102之后,统计相似中心文本所属类别,将属于同一类别的相似中心文本最多的那个类别确定为待分类文本所属类别。此种方法在类别不平衡样本中,k值的选取对分类结果影响很大,若k值选择过小,则模型太复杂。k值选取的太大,则会导致分类模糊。因此,本实施例不采用该种方式,而是通过添加一个权值系数(和该样本距离小的邻居权值大)来对该算法进行改进。详见s103和s104。s103,确定各相似中心文本的权重。本步骤的实现过程包括但不限于:步骤3.1,按相似中心文本与待分类文本之间的相似度从大到小,对相似中心文本进行排序。步骤3.2,根据如下公式确定各相似中心文本的权重:其中,b和b’均为相似中心文本在序列中的位置标识,为wb为位置为b的相似中心文本的权重,wb-1为位置为b-1的相似中心文本的权重,wb'为位置为b’的相似中心文本的权重,k为预设数量。当b或b’取值越小(越靠近测试样本)时,通过上述权重公式可以取得越大的权值。通过这种方法,可以在k值较大时,提高离测试样本较近的训练样本的影响,防止分类模糊。s104,根据各相似中心文本的权重确定待分类文本所属类别。本步骤的实现过程可以为:步骤4.1,确定各相似中心文本所属类别。步骤4.2,按类别将相似中心文本分类。步骤4.3,确定每一类中相似中心文本的权重之和以及相似中心文本的数量。步骤4.4,将每一类的相似中心文本的权重之和与相似中心文本的数量的积作为该类的加权频率。步骤4.5,将加权频率最大的类作为待分类文本的所属类别。例如,相似中心文本有5个,分别为相似中心文本1、相似中心文本2、相似中心文本3、相似中心文本4、相似中心文本5。其中,相似中心文本1属于类别c1,相似中心文本2属于c2,相似中心文本3属于c2,相似中心文本4属于c3,相似中心文本5属于c2。虽然属于c2的相似中心文本数量最多,但待分类文本不一定属于c2。需要计算每类中的相似文本权重和与相似文本数量的积。如相似中心文本1的权重*1=z1,(相似中心文本2的权重+相似中心文本3的权重+相似中心文本5的权重)*3=z2,相似中心文本5的权重*1=z3。若z3>z2>z1,则待分类文本属于c3。本实施例提供的上述方法,可以通过图2所示的过程实现。在训练过程中执行s101进行训练库文本(即样本文本)预处理、训练库中文本特征词提取、训练库中文本计算特征词权重形成特征向量。在获得测试文本(即待分类文本)表示成的特征向量后,进行分类过程,通过分类算法实现s102、s103和s104,最后输出分类结果。本实施例提供的方法,在选择预设数量个相似中心文本之后,不再简单的根据每类中相似中心文本的数量确定待分类文本的所属类别,而是确定各相似中心文本的权重,根据各相似中心文本的权重确定待分类文本所属类别,该方案可以提升文本分类的准确性。基于同一发明构思,本实施例提供了一种电子设备,参见图3,包括存储器301、处理器302、总线303以及存储在存储器301上并可在处理器302上运行的计算机程序,所述处理器302执行所述程序时实现如下步骤。从样本文本中获取中心文本;根据中心文本与待分类文本之间的相似度,选择预设数量个中心文本作为相似中心文本;确定各相似中心文本的权重;根据各相似中心文本的权重确定待分类文本所属类别。可选地,从样本文本中获取中心文本,包括:确定每个样本文本的特征词,其中,每个样本文本属于一个类别;计算每个特征词在各样本文本中的权重;根据每个特征词在各样本文本中的权重,将属于同一类别的样本文本进行聚类;将每类中的样本文本合并成一个中心文本。可选地,计算每个特征词在各样本文本中的权重,包括:根据如下公式计算任一特征词t在任一样本文本中的权重:其中,为t在中的权重,为t出现在中的次数,n为样本文本总数,ni为所有样本文本中出现t的样本文本个数,为t出现在所属类别c中的次数,为t出现在所属类别c以外的类别中的次数,为在所属类别c以外的类别中,t出现在非样本文本的次数。可选地,确定每个样本文本的特征词,包括:在预设的分词方法中,确定每个样本文本对应的分词方法;按对应的分词方法对每个样本文本进行分词处理,得到每个样本文本的特征词;去除每个样本文本的特征词中的停用词;将每个样本文本去除后的特征词确定为每个样本文本的特征词。可选地,在预设的分词方法中,确定每个样本文本对应的分词方法,包括:对于任一样本文本,根据如下公式计算分布概率最大的分词方法:j=argmaxp(aj1.aj2,…,ajmx);其中,j为分布概率最大的分词方法标识,mx为任一分词方法j对任一样本文本进行分词后得到的词个数,aj1.aj2,…,ajmx为任一分词方法j对任一样本文本进行分词后得到的词,argmaxp(aj1.aj2,…,ajmx)为函数,函数用于得到使得p(aj1.aj2,…,ajmx)取得最大值所对应的j,p(aj1.aj2,…,ajmx)为分布概率,p(aj1.aj2,…,ajmx)=p(aj1)p(aj2|aj1)p(aj3|aj2)…p(ajmx|ajmx-1),p(aj1)为词aj1在预设的标准语料库中出现的概率,p(aj2|aj1)为条件概率,p(aj2|aj1)=freq(aj1,aj2)/freq(aj1),freq(aj1,aj2)为词aj1和aj2在标准语料库中相邻出现的次数,freq(aj1)为词aj1在标准语料库中出现的次数,p(aj3|aj2)为条件概率,p(aj3|aj2)=freq(aj2,aj3)/freq(aj2),freq(aj2,aj3)为词aj2和aj3在标准语料库中相邻出现的次数,freq(aj2)为词aj2在标准语料库中出现的次数,p(ajmx|ajmx-1)为条件概率,p(ajmx|ajmx-1)=freq(ajmx-1,ajmx)/freq(ajmx-1),freq(ajmx-1,ajmx)为词ajmx-1和ajmx在标准语料库中相邻出现的次数,freq(ajmx-1)为词ajmx-1在标准语料库中出现的次数;将分布概率最大的分词方法确定为任一样本文本对应的分词方法。可选地,确定各相似中心文本的权重,包括:按相似中心文本与待分类文本之间的相似度从大到小,对相似中心文本进行排序;根据如下公式确定各相似中心文本的权重:其中,b和b’均为相似中心文本在序列中的位置标识,为wb为位置为b的相似中心文本的权重,wb-1为位置为b-1的相似中心文本的权重,wb'为位置为b’的相似中心文本的权重,k为预设数量。可选地,根据各相似中心文本的权重确定待分类文本所属类别,包括:确定各相似中心文本所属类别;按类别将相似中心文本分类;确定每一类中相似中心文本的权重之和以及相似中心文本的数量;将每一类的相似中心文本的权重之和与相似中心文本的数量的积作为该类的加权频率;将加权频率最大的类作为待分类文本的所属类别。可选地,根据中心文本与待分类文本之间的相似度,选择预设数量个中心文本作为相似中心文本之前,还包括:对于任一中心文本,确定任一中心文本与待分类文本相同的特征词;将相同的特征词在任一中心文本中的权重,形成第一权重向量;将相同的特征词在待分类文本中的权重,形成第二权重向量;将第一权重向量和第二权重向量的余弦确定为任一中心文本与待分类文本之间的相似度。本实施例提供的电子设备,在选择预设数量个相似中心文本之后,不再简单的根据每类中相似中心文本的数量确定待分类文本的所属类别,而是确定各相似中心文本的权重,根据各相似中心文本的权重确定待分类文本所属类别,该方案可以提升文本分类的准确性。基于同一发明构思,本实施例提供了一种计算机存储介质,其上存储有计算机程序所述程序被处理器执行时实现如下步骤。从样本文本中获取中心文本;根据中心文本与待分类文本之间的相似度,选择预设数量个中心文本作为相似中心文本;确定各相似中心文本的权重;根据各相似中心文本的权重确定待分类文本所属类别。可选地,从样本文本中获取中心文本,包括:确定每个样本文本的特征词,其中,每个样本文本属于一个类别;计算每个特征词在各样本文本中的权重;根据每个特征词在各样本文本中的权重,将属于同一类别的样本文本进行聚类;将每类中的样本文本合并成一个中心文本。可选地,计算每个特征词在各样本文本中的权重,包括:根据如下公式计算任一特征词t在任一样本文本中的权重:其中,为t在中的权重,为t出现在中的次数,n为样本文本总数,ni为所有样本文本中出现t的样本文本个数,为t出现在所属类别c中的次数,为t出现在所属类别c以外的类别中的次数,为在所属类别c以外的类别中,t出现在非样本文本的次数。可选地,确定每个样本文本的特征词,包括:在预设的分词方法中,确定每个样本文本对应的分词方法;按对应的分词方法对每个样本文本进行分词处理,得到每个样本文本的特征词;去除每个样本文本的特征词中的停用词;将每个样本文本去除后的特征词确定为每个样本文本的特征词。可选地,在预设的分词方法中,确定每个样本文本对应的分词方法,包括:对于任一样本文本,根据如下公式计算分布概率最大的分词方法:j=argmaxp(aj1.aj2,…,ajmx);其中,j为分布概率最大的分词方法标识,mx为任一分词方法j对任一样本文本进行分词后得到的词个数,aj1.aj2,…,ajmx为任一分词方法j对任一样本文本进行分词后得到的词,argmaxp(aj1.aj2,…,ajmx)为函数,函数用于得到使得p(aj1.aj2,…,ajmx)取得最大值所对应的j,p(aj1.aj2,…,ajmx)为分布概率,p(aj1.aj2,…,ajmx)=p(aj1)p(aj2|aj1)p(aj3|aj2)…p(ajmx|ajmx-1),p(aj1)为词aj1在预设的标准语料库中出现的概率,p(aj2|aj1)为条件概率,p(aj2|aj1)=freq(aj1,aj2)/freq(aj1),freq(aj1,aj2)为词aj1和aj2在标准语料库中相邻出现的次数,freq(aj1)为词aj1在标准语料库中出现的次数,p(aj3|aj2)为条件概率,p(aj3|aj2)=freq(aj2,aj3)/freq(aj2),freq(aj2,aj3)为词aj2和aj3在标准语料库中相邻出现的次数,freq(aj2)为词aj2在标准语料库中出现的次数,p(ajmx|ajmx-1)为条件概率,p(ajmx|ajmx-1)=freq(ajmx-1,ajmx)/freq(ajmx-1),freq(ajmx-1,ajmx)为词ajmx-1和ajmx在标准语料库中相邻出现的次数,freq(ajmx-1)为词ajmx-1在标准语料库中出现的次数;将分布概率最大的分词方法确定为任一样本文本对应的分词方法。可选地,确定各相似中心文本的权重,包括:按相似中心文本与待分类文本之间的相似度从大到小,对相似中心文本进行排序;根据如下公式确定各相似中心文本的权重:其中,b和b’均为相似中心文本在序列中的位置标识,为wb为位置为b的相似中心文本的权重,wb-1为位置为b-1的相似中心文本的权重,wb'为位置为b’的相似中心文本的权重,k为预设数量。可选地,根据各相似中心文本的权重确定待分类文本所属类别,包括:确定各相似中心文本所属类别;按类别将相似中心文本分类;确定每一类中相似中心文本的权重之和以及相似中心文本的数量;将每一类的相似中心文本的权重之和与相似中心文本的数量的积作为该类的加权频率;将加权频率最大的类作为待分类文本的所属类别。可选地,根据中心文本与待分类文本之间的相似度,选择预设数量个中心文本作为相似中心文本之前,还包括:对于任一中心文本,确定任一中心文本与待分类文本相同的特征词;将相同的特征词在任一中心文本中的权重,形成第一权重向量;将相同的特征词在待分类文本中的权重,形成第二权重向量;将第一权重向量和第二权重向量的余弦确定为任一中心文本与待分类文本之间的相似度。本实施例提供的计算机存储介质,在选择预设数量个相似中心文本之后,不再简单的根据每类中相似中心文本的数量确定待分类文本的所属类别,而是确定各相似中心文本的权重,根据各相似中心文本的权重确定待分类文本所属类别,该方案可以提升文本分类的准确性。本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1