本申请涉及文章分类技术领域,尤其涉及一种文章分类方法、装置、计算机设备及存储介质。
背景技术:
文章的标签有助于文章的搜索以及分类,目前常用的方式是手动打标签,即作者为自己的文章打标签,但是并非所有作者都为自己的文章打标签。若海量的未打标签的文章都通过手动打标的方式来实现标签的添加之后在进行分类,而不是在无标签或智能化添加标签后进行分类,则效率极其低下,而且大大的增加了人力成本。
技术实现要素:
本申请提供了一种文章分类方法、装置、计算机设备及存储介质,旨在解决现有技术中海量的未打标签的文章都通过手动打标的方式来实现标签的添加之后在进行分类,导致效率极其低下,而且大大的增加了人力成本的问题。
第一方面,本申请提供了一种文章分类方法,其包括:
将待打标签文章对应的词语-文档矩阵输入至预先构建的lda模型进行训练,得到对应的主题-词语矩阵及文档-主题矩阵;
通过文档-主题矩阵,获取与待打标签文章中每一文档对应的主题,并对每一文档对应增加主题标签,得到已打标签文章;
按主题标签对已打标签文章进行分类,得到文章分类结果。
第二方面,本申请提供了一种文章分类装置,其包括:
lda模型训练单元,用于将待打标签文章对应的词语-文档矩阵输入至预先构建的lda模型进行训练,得到对应的主题-词语矩阵及文档-主题矩阵;
主题标签增加单元,用于通过文档-主题矩阵,获取与待打标签文章中每一文档对应的主题,并对每一文档对应增加主题标签,得到已打标签文章;
文章分类单元,用于按主题标签对已打标签文章进行分类,得到文章分类结果。
第三方面,本申请又提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请提供的任一项所述的文章分类方法。
第四方面,本申请还提供了一种存储介质,其中所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行本申请提供的任一项所述的文章分类方法。
本申请提供一种文章分类方法、装置、计算机设备及存储介质。该方法将待打标签文章对应的词语-文档矩阵输入至预先构建的lda模型进行训练,得到对应的主题-词语矩阵及文档-主题矩阵;通过文档-主题矩阵,获取与待打标签文章中每一文档对应的主题,并对每一文档对应增加主题标签,得到已打标签文章;按主题标签对已打标签文章进行分类,得到文章分类结果。该方法将文章分词后,取文档-主题矩阵便可得到各篇文章所属的主题,利用主题给文章分类,采用自动学习代替手动分类,节省人力成本,提高了分类效率。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文章分类方法的示意流程图;
图2是本申请实施例提供的一种文章分类方法的另一示意流程图;
图3为本申请实施例提供的一种文章分类装置的示意性框图;
图4为本申请实施例提供的一种文章分类装置的另一示意性框图;
图5为本申请实施例提供的一种计算机设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1是本申请实施例提供的一种文章分类方法的示意流程图。该方法应用于台式电脑、手提电脑、平板电脑等终端中。如图1所示,该方法包括步骤s101~s103。
s101、将待打标签文章对应的词语-文档矩阵输入至预先构建的lda模型进行训练,得到对应的主题-词语矩阵及文档-主题矩阵。
本实施例中,待打标签文章是已预先存储至指定路径的多篇文章或是从互联网上爬取的多篇文章,这多篇文章则是作为lda模型的输入进行处理。例如终端上有一任务文件夹,可通过手动拷贝文件的方式将文章拷贝进任务文件夹,也可以是通过编写的自动拷贝脚本将文章自动拷贝进任务文件夹。将任务文件夹中的待打标签文章分词预处理而得到对应的词语-文档矩阵,通过lda模型对词语-文档矩阵进行训练后,得到对应的主题-词语矩阵及文档-主题矩阵。
如图2所示,所述步骤s101之前还包括:
s1001、对待打标签文章进行分词,得到分词后文本。
在本实施例中,是基于概率统计模型的分词方法对待打标签文本进行分词。基于概率统计模型的分词方法的步骤如下:
s10011、对一个待分词的子串s,按照从左到右的顺序取出全部候选词w1,w2,…,wi,…,wn;
s10012、到词典中查出每个候选词的概率值p(wi),并记录每个候选词的全部左邻词;
s10013、计算每个候选词的累计概率,同时比较得到每个候选词的最佳左邻词;
s10014、如果当前词wn是字串s的尾词,且累计概率p(wn)最大,则wn就是s的终点词;
s10015、从wn开始,按照从右到左顺序,依次将每个词的最佳左邻词输出,即s的分词结果。
s1002、对分词后文本包括的分词一一设置加权值。
在本实施例中,以已进行分词的待打标签文本中分词来进行加权处理,也就是已进行分词的待打标签文本中是可以视作由多个分词组成,此时对整篇已进行分词的待打标签文本从头至尾按位置、词性、长度等因素对文本中的各分词进行加权处理,按如下规则:
文本第一个词是标题,赋予权值8*;段首第一个词等于“摘要”,则赋予权值5*;段首第一个词等于“关键词”或“结论”,则赋予权值5*;词语长度等于2,赋予权值3*;词性为名词,赋予权值2*;其他,每段首赋予权值1*。
s1003、删除分词后文本中的停用词,并统计各分词的词频,得到第一三元组。
三元组<wi,frei,vi>表示待打标签文本经处理后的结果集,其中wi是词语,frei是词语wi加权后出现的次数,vi是词语在文本中的位置权重;其中,当对分词后文本包括的分词一一设置加权值后,需删除其中的停用词(停用词包括虚拟词、语气组词、副词、符号、一个字的词,这些停用词不会作为关键词的候选词),能准确的筛选出候选的关键词进行后续处理。
s1004、获取第一三元组中词频大于预设词频阈值所对应的分词之间的词语相似度。
其中,通过词语相似度计算,计算第一三元组<wi,frei,vi>中词频frei>2的所有词语相似度simij;当simij>0.9则认为两个词语的相似度极高,在文本中可以替换,将返回四元组<wi,wj,simij,frei+frej>,并删除第一三元组里的词语wj。四元组<wi,wj,simij,frei+frej>表示对三元组中部分词语计算相似度后的集合,其中simij表示词语wi、wj的相似度,frei+frej表示两个词语的词频之和。
s1005、若分词之间的词语相似度大于预设词语相似度阈值,保留其中任意一个分词,得到第二三元组,并将第二三元组作为预处理文本。
其中,在第一三元组<wi,frei,vi>中,查找四元组<wi,wj,simij,frei+frej>中的词语;当三元组的frei替换为四元组中的frei+frej,重新组成第二三元组<wi,frei+frej,vi>,该第二三元组<wi,frei+frej,vi>即为预处理文本。
s1006、根据预处理文本中所包括词语,及与每一词语的词频,获取词语-文档矩阵。
其中,得到了三元组<wi,frei+frej,vi>后,就能根据每一词语wi及其对应的加权后出现的次数frei得到一个词语-文档矩阵。
为了更清楚的理解本申请的技术方案,下面对lda模型进行介绍。
lda模型(英文全称是latentdirichletallocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。
通过lda模型对m份包含n个单词的文档(m和n均为正整数)进行训练时,主要通过以下步骤:
把每篇文章看成一个向量,词为特征,假设总共有n个词,则m篇文章组成n*m的矩阵,该lda模型使用下面方法生成1个文档,
chooseparameterθ~p(θ);
foreachofthenwordsw_n:
chooseatopicz_n~p(z|θ);
chooseawordw_n~p(w|z);
其中,chooseparameter表示选择参数,chooseatopic表示选择主题,chooseaword表示选择词语,foreachofthenwordsw_n表示将每篇文档的n个词用w_n简记;其中,θ是一个主题向量,向量的每一列表示每个主题在文档出现的概率,该向量为非负归一化向量;p(θ)是θ的分布,具体为狄利克雷分布;n和w_n同上;z_n表示选择的主题,p(z|θ)表示给定θ时主题z的概率分布,具体为θ的值,即p(z=i|θ)=θ_i;p(w|z)表示给定主题z时词语n的概率分布。
上述lda模型首先选定一个主题向量θ,确定每个主题被选择的概率;然后在生成每个单词时,从主题分布向量θ中选择一个主题z,按主题z的单词概率分布生成一个单词。
在一实施例中,所述lda模型具体如下:
其中,θ是主题向量,z是主题,w是单词,p(θ,z,w|α,β)是词语-文档矩阵对应的概率分布矩阵,p(θ|α)是θ关于α的狄利克雷分布,p(zn|θ)是主题-词语矩阵对应的概率分布矩阵,p(wn|zn,β)是主题-文档矩阵对应的概率分布矩阵,α和β分别是lda模型从给定的输入语料中学习训练得到第一控制参数、及第二控制参数。
其中,α和β表示语料级别的参数,也就是每个文档都一样,因此生成过程只采样一次;θ是文档级别的变量,每个文档对应一个θ,也就是每个文档产生各个主题z的概率是不同的,所有生成每个文档采样一次θ;z和w都是单词级别变量,z由θ生成,w由z和β共同生成,一个单词w对应一个主题z。
从上可知,lda模型主要是从给定的输入语料中学习训练两个控制参数α和β,学习出了这两个控制参数就确定了模型,便可以用来生成文档。其中α和β分别对应以下各个信息:
α,分布p(θ)需要一个向量参数,即dirichlet分布(即狄利克雷分布)的参数,用于生成一个主题θ向量;
β,各个主题对应的单词概率分布矩阵p(w|z);
其中给定的输入语料则是相当于训练出lda模型中两个控制参数α和β的历史数据,即给定的输入语料也就是已打好标签的多篇文章。将已打好标签的多篇文章作为lda模型的输入,不断进行训练,就能确定控制参数α和β。
在一实施例中,所述lda模型中将w当做观察变量,θ和z当做隐藏变量,通过最大期望算法学习得到第一控制参数α、及第二控制参数β。若求解过程中遇到后验概率p(θ,z|w)无法直接求解,通过em算法(即最大期望算法)来近似求解;每次e-step(e-step为lda模型中的变分推断)输入α和β,计算似然函数,m-step最大化这个似然函数,算出α和β,不断迭代直到收敛,从而对应得到主题-词语矩阵、及文档-主题矩阵。
其中,要生成一篇文档,它里面的每个词语出现的概率为:
上述公式可以用矩阵表示,即文档-词语矩阵=主题-词语矩阵×文档-主题矩阵;其中,文档-词语矩阵表示每个文档中每个单词的词频,即每个单词出现的概率;主题-词语矩阵表示每个主题中每个单词的出现概率;文档-主题矩阵表示每个文档中每个主题出现的概率。
给定一系列文档,通过对文档进行分词,计算各个文档中每个单词的词频就可以得到左边的文档-词语矩阵。主题模型就是通过左边这个矩阵进行训练,学习出右边两个矩阵。
s102、通过文档-主题矩阵,获取与待打标签文章中每一文档对应的主题,并对每一文档对应增加主题标签,得到已打标签文章。
在本实施例中,获取了文档-主题矩阵后,就获取了该文档的主题,也可以理解为获取了该文章的关键词,这一关键词就能直接作为该文章的标签以作分类使用。由于通过lda模型对将待打标签文章进行训练而得到词语-文档矩阵,这一过程会随着训练数据计算的增大,输出的文档-主题矩阵越来越精确,能更精准的根据主题(即文章的最佳关键词)对文章进行分类。
s103、按主题标签对已打标签文章进行分类,得到文章分类结果。
在本实施例中,是将具有相同主题的文档归到同一类后,得到文章分类结果。通过上述分类,实现了文章的自动化和智能化的分类,无需手动分类。
在一实施例中,所述步骤s1001之前还包括:
s1000、爬取待打标签文章,并将待打标签文章传输至指定路径存储。
即原始数据从网上爬取,得到待打标签文章,存放到mongodb数据库。通过爬取数据,可设置一筛选条件,即爬取未设置标签的文本从而进行打标签,以进行文章分类。
可见,该方法将文章分词后,取文档-主题矩阵便可得到各篇文章所属的主题,利用主题给文章分类,采用自动学习代替手动分类,节省人力成本,提高了分类效率。
本申请实施例还提供一种文章分类装置,该文章分类装置用于执行前述任一项文章分类方法。具体地,请参阅图3,图3是本申请实施例提供的一种文章分类装置的示意性框图。文章分类装置100可以安装于台式电脑、平板电脑、手提电脑、等终端中。
如图3所示,文章分类装置100包括lda模型训练单元101、主题标签增加单元102、文章分类单元103。
lda模型训练单元101,用于将待打标签文章对应的词语-文档矩阵输入至预先构建的lda模型进行训练,得到对应的主题-词语矩阵及文档-主题矩阵。
本实施例中,待打标签文章是已预先存储至指定路径的多篇文章或是从互联网上爬取的多篇文章,这多篇文章则是作为lda模型的输入进行处理。例如终端上有一任务文件夹,可通过手动拷贝文件的方式将文章拷贝进任务文件夹,也可以是通过编写的自动拷贝脚本将文章自动拷贝进任务文件夹。将任务文件夹中的待打标签文章分词预处理而得到对应的词语-文档矩阵,通过lda模型对词语-文档矩阵进行训练后,得到对应的主题-词语矩阵及文档-主题矩阵。
如图4所示,所述文章分类装置100还包括:
分词单元1001,用于对待打标签文章进行分词,得到分词后文本。
在本实施例中,是基于概率统计模型的分词方法对待打标签文本进行分词。基于概率统计模型的分词方法如下:
1)对一个待分词的子串s,按照从左到右的顺序取出全部候选词w1,w2,…,wi,…,wn;
2)到词典中查出每个候选词的概率值p(wi),并记录每个候选词的全部左邻词;
3)计算每个候选词的累计概率,同时比较得到每个候选词的最佳左邻词;
4)如果当前词wn是字串s的尾词,且累计概率p(wn)最大,则wn就是s的终点词;
5)从wn开始,按照从右到左顺序,依次将每个词的最佳左邻词输出,即s的分词结果。
加权单元1002,用于对分词后文本包括的分词一一设置加权值。
在本实施例中,以已进行分词的待打标签文本中分词来进行加权处理,也就是已进行分词的待打标签文本中是可以视作由多个分词组成,此时对整篇已进行分词的待打标签文本从头至尾按位置、词性、长度等因素对文本中的各分词进行加权处理,按如下规则:
文本第一个词是标题,赋予权值8*;段首第一个词等于“摘要”,则赋予权值5*;段首第一个词等于“关键词”或“结论”,则赋予权值5*;词语长度等于2,赋予权值3*;词性为名词,赋予权值2*;其他,每段首赋予权值1*。
统计单元1003,用于删除分词后文本中的停用词,并统计各分词的词频,得到第一三元组。
三元组<wi,frei,vi>表示待打标签文本经处理后的结果集,其中wi是词语,frei是词语wi加权后出现的次数,vi是词语在文本中的位置权重;其中,当对分词后文本包括的分词一一设置加权值后,需删除其中的停用词(停用词包括虚拟词、语气组词、副词、符号、一个字的词,这些停用词不会作为关键词的候选词),能准确的筛选出候选的关键词进行后续处理。
相似度获取单元1004,用于获取第一三元组中词频大于预设词频阈值所对应的分词之间的词语相似度。
其中,通过词语相似度计算,计算第一三元组<wi,frei,vi>中词频frei>2的所有词语相似度simij;当simij>0.9则认为两个词语的相似度极高,在文本中可以替换,将返回四元组<wi,wj,simij,frei+frej>,并删除第一三元组里的词语wj。四元组<wi,wj,simij,frei+frej>表示对三元组中部分词语计算相似度后的集合,其中simij表示词语wi、wj的相似度,frei+frej表示两个词语的词频之和。
删词单元1005,用于若分词之间的词语相似度大于预设词语相似度阈值,保留其中任意一个分词,得到第二三元组,并将第二三元组作为预处理文本。
其中,在第一三元组<wi,frei,vi>中,查找四元组<wi,wj,simij,frei+frej>中的词语;当三元组的frei替换为四元组中的frei+frej,重新组成第二三元组<wi,frei+frej,vi>,该第二三元组<wi,frei+frej,vi>即为预处理文本。
其中,得到了三元组<wi,frei+frej,vi>后,就能根据每一词语wi及其对应的加权后出现的次数frei得到一个词语-文档矩阵。
词语-文档矩阵获取单元1006,用于根据预处理文本中所包括词语,及与每一词语的词频,获取词语-文档矩阵。
其中,得到了三元组<wi,frei+frej,vi>后,就能根据每一词语wi及其对应的加权后出现的次数frei得到一个词语-文档矩阵。
在一实施例中,所述lda模型具体如下:
其中,θ是主题向量,z是主题,w是单词,p(θ,z,w|α,β)是词语-文档矩阵对应的概率分布矩阵,p(θ|α)是θ关于α的狄利克雷分布,p(zn|θ)是主题-词语矩阵对应的概率分布矩阵,p(wn|zn,β)是主题-文档矩阵对应的概率分布矩阵,α和β分别是lda模型从给定的输入语料中学习训练得到第一控制参数、及第二控制参数。
其中,α和β表示语料级别的参数,也就是每个文档都一样,因此生成过程只采样一次;θ是文档级别的变量,每个文档对应一个θ,也就是每个文档产生各个主题z的概率是不同的,所有生成每个文档采样一次θ;z和w都是单词级别变量,z由θ生成,w由z和β共同生成,一个单词w对应一个主题z。
从上可知,lda模型主要是从给定的输入语料中学习训练两个控制参数α和β,学习出了这两个控制参数就确定了模型,便可以用来生成文档。其中α和β分别对应以下各个信息:
α,分布p(θ)需要一个向量参数,即dirichlet分布(即狄利克雷分布)的参数,用于生成一个主题θ向量;
β,各个主题对应的单词概率分布矩阵p(w|z);
其中给定的输入语料则是相当于训练出lda模型中两个控制参数α和β的历史数据,即给定的输入语料也就是已打好标签的多篇文章。将已打好标签的多篇文章作为lda模型的输入,不断进行训练,就能确定控制参数α和β。
在一实施例中,所述lda模型中将w当做观察变量,θ和z当做隐藏变量,通过最大期望算法学习得到第一控制参数α、及第二控制参数β。若求解过程中遇到后验概率p(θ,z|w)无法直接求解,通过em算法(即最大期望算法)来近似求解;每次e-step(e-step为lda模型中的变分推断)输入α和β,计算似然函数,m-step最大化这个似然函数,算出α和β,不断迭代直到收敛,从而对应得到主题-词语矩阵、及文档-主题矩阵。
其中,要生成一篇文档,它里面的每个词语出现的概率为:
上述公式可以用矩阵表示,即文档-词语矩阵=主题-词语矩阵×文档-主题矩阵;其中,文档-词语矩阵表示每个文档中每个单词的词频,即每个单词出现的概率;主题-词语矩阵表示每个主题中每个单词的出现概率;文档-主题矩阵表示每个文档中每个主题出现的概率。
给定一系列文档,通过对文档进行分词,计算各个文档中每个单词的词频就可以得到左边的文档-词语矩阵。主题模型就是通过左边这个矩阵进行训练,学习出右边两个矩阵。
主题标签增加单元102,用于通过文档-主题矩阵,获取与待打标签文章中每一文档对应的主题,并对每一文档对应增加主题标签,得到已打标签文章。
在本实施例中,获取了文档-主题矩阵后,就获取了该文档的主题,也可以理解为获取了该文章的关键词,这一关键词就能直接作为该文章的标签以作分类使用。由于通过lda模型对将待打标签文章进行训练而得到词语-文档矩阵,这一过程会随着训练数据计算的增大,输出的文档-主题矩阵越来越精确,能更精准的根据主题(即文章的最佳关键词)对文章进行分类。
文章分类单元103,用于按主题标签对已打标签文章进行分类,得到文章分类结果。
在本实施例中,是将具有相同主题的文档归到同一类后,得到文章分类结果。通过上述分类,实现了文章的自动化和智能化的分类,无需手动分类。
可见,该装置将文章分词后,取文档-主题矩阵便可得到各篇文章所属的主题,利用主题给文章分类,采用自动学习代替手动分类,节省人力成本,提高了分类效率。
上述文章分类装置可以实现为一种计算机程序的形式,该计算机程序可以在如图5所示的计算机设备上运行。
请参阅图5,图5是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500设备可以是终端。该终端可以是平板电脑、笔记本电脑、台式电脑、个人数字助理等电子设备。
参阅图5,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种文章分类方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种文章分类方法。
该网络接口505用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下功能:将待打标签文章对应的词语-文档矩阵输入至预先构建的lda模型进行训练,得到对应的主题-词语矩阵及文档-主题矩阵;通过文档-主题矩阵,获取与待打标签文章中每一文档对应的主题,并对每一文档对应增加主题标签,得到已打标签文章;按主题标签对已打标签文章进行分类,得到文章分类结果。
在一实施例中,处理器502还执行如下操作:对待打标签文章进行分词,得到分词后文本;对分词后文本包括的分词一一设置加权值;删除分词后文本中的停用词,并统计各分词的词频,得到第一三元组;获取第一三元组中词频大于预设词频阈值所对应的分词之间的词语相似度;若分词之间的词语相似度大于预设词语相似度阈值,保留其中任意一个分词,得到第二三元组,并将第二三元组作为预处理文本;根据预处理文本中所包括词语,及与每一词语的词频,获取词语-文档矩阵。
在一实施例中,所述lda模型为:
其中,θ是主题向量,z是主题,w是单词,p(θ,z,w|α,β)是词语-文档矩阵对应的概率分布矩阵,p(θ|α)是θ关于α的狄利克雷分布,p(zn|θ)是主题-词语矩阵对应的概率分布矩阵,p(wn|zn,β)是主题-文档矩阵对应的概率分布矩阵,α和β分别是lda模型从给定的输入语料中学习训练得到第一控制参数、及第二控制参数。
在一实施例中,处理器502还执行如下操作:爬取待打标签文章,并将待打标签文章传输至指定路径存储。
在一实施例中,所述lda模型中将w当做观察变量,θ和z当做隐藏变量,通过最大期望算法学习得到第一控制参数α、及第二控制参数β。
本领域技术人员可以理解,图5中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图5所示实施例一致,在此不再赘述。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(centralprocessingunit,cpu),该处理器502还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本申请的另一实施例中提供一种存储介质。该存储介质可以为存储介质。该存储介质存储有计算机程序,其中计算机程序包括程序指令。该程序指令被处理器执行时实现:将待打标签文章对应的词语-文档矩阵输入至预先构建的lda模型进行训练,得到对应的主题-词语矩阵及文档-主题矩阵;通过文档-主题矩阵,获取与待打标签文章中每一文档对应的主题,并对每一文档对应增加主题标签,得到已打标签文章;按主题标签对已打标签文章进行分类,得到文章分类结果。
在一实施例中,该程序指令被处理器执行时实现:对待打标签文章进行分词,得到分词后文本;对分词后文本包括的分词一一设置加权值;删除分词后文本中的停用词,并统计各分词的词频,得到第一三元组;获取第一三元组中词频大于预设词频阈值所对应的分词之间的词语相似度;若分词之间的词语相似度大于预设词语相似度阈值,保留其中任意一个分词,得到第二三元组,并将第二三元组作为预处理文本;根据预处理文本中所包括词语,及与每一词语的词频,获取词语-文档矩阵。
在一实施例中,所述lda模型为:
其中,θ是主题向量,z是主题,w是单词,p(θ,z,w|α,β)是词语-文档矩阵对应的概率分布矩阵,p(θ|α)是θ关于α的狄利克雷分布,p(zn|θ)是主题-词语矩阵对应的概率分布矩阵,p(wn|zn,β)是主题-文档矩阵对应的概率分布矩阵,α和β分别是lda模型从给定的输入语料中学习训练得到第一控制参数、及第二控制参数。
在一实施例中,该程序指令被处理器执行时实现:爬取待打标签文章,并将待打标签文章传输至指定路径存储。
在一实施例中,所述lda模型中将w当做观察变量,θ和z当做隐藏变量,通过最大期望算法学习得到第一控制参数α、及第二控制参数β。
所述存储介质可以是前述设备的内部存储单元,例如设备的硬盘或内存。所述存储介质也可以是所述设备的外部存储设备,例如所述设备上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,所述存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。