文本分类方法、装置、计算机设备和存储介质与流程

文档序号:17264480发布日期:2019-03-30 09:54阅读:140来源:国知局
文本分类方法、装置、计算机设备和存储介质与流程

本申请涉及计算机技术领域,特别是涉及一种文本分类方法、装置、计算机设备和存储介质。



背景技术:

文本分类是指将自然语句分类到某一指定类别中的技术,该技术被广泛运用于互联网技术领域中。新闻推送时可以通过文本分类技术对新闻文本进行筛选,具体的,在将新闻文本推送到指定平台时,需要从各个新闻来源获取新闻文本,然后将新闻文本发布在指定平台中,以便平台访问者阅读。为了保证平台中发布的新闻文本的质量,需要对新闻文本进行审核。以政府金融平台为例,需要发布的为金融类的新闻,在从各个新闻来源获取新闻文本之后,需要对新闻文本的内容进行审核,审核主要包括:内容是否可信、是否包含广告、主要内容是否涉及金融以及是否为社会关注的金融新闻等,以此来判断是否要将新闻文本发布在平台上。然而,为了保证新闻文本推送的效率,可以通过现有算法模型对新闻文本进行分类,但是利用现有算法模型分类时很难达到新闻文本推送时准确性的要求。



技术实现要素:

基于此,有必要针对上述技术问题,提供一种能够解决新闻文本推送时分类准确性低问题的文本分类方法、装置、计算机设备和存储介质。

一种文本分类方法,所述方法包括:

从预先设置的文本特征库中选择文本特征组合,从待分类文本中提取与所述文本特征组合相应的融合特征;

根据所述文本特征组合,从预先设置的分类器库中选择多个预先训练的分类器;

根据所述融合特征选择所述分类器,得到融合分类器;

将所述融合特征输入所述融合分类器,得到多个预设标签的概率;所述预设标签对应一个文本类型;

根据概率最大的预设标签,确定所述待分类文本的文本类型。

在其中一个实施例中,训练分类器的步骤,包括:从预先设置的语料库中选择已标注文本;根据所述已标注文本的目标标签和预先设置的终止条件,训练分类器;当所述分类器输出所述目标标签的概率均满足所述终止条件时,得到已训练的所述分类器。

在其中一个实施例中,还包括:

提取所述已标注文本对应的多种所述文本特征组合;

将每一种所述文本特征组合依次输入所述分类器库中的各个已训练的所述分类器;

对所述各个已训练的所述分类器输出所述目标标签的概率进行排序,筛选出满足预设条件的分类器,建立所述文本特征组合与所述多个分类器的对应关系;;根据所述文本特征组合查询所述对应关系,从预先设置的分类器库中选择多个预先训练的分类器。

在其中一个实施例中,所述文本特征库中包括:文本长度特征、关键词词频、词向量相似度特征、tf-idf权重特征、lda模型的概率分布特征和消息来源特征;还包括:从文本特征库的文本特征中选择文本长度特征、关键词词频特征、词向量相似度特征、tf-idf权重特征、lda模型的概率分布特征以及消息来源特征中的两个以上,得到文本特征组合;从待分类文本中提取所述文本特征组合中的各个文本特征;对所述各个文本特征进行组合,得到融合特征。

在其中一个实施例中,所述待分类文本包括:标题文本和正文文本;还包括:获取所述待分类文本的标题文本长度和正文文本长度;根据所述标题文本长度和所述正文文本长度,分别得到标题长度向量和正文长度向量;将所述标题长度向量和所述正文长度向量进行拼接,得到待分类文本的文本长度特征;或,获取预先设置的关键词表,根据所述关键词表匹配所述标题文本和所述正文文本,得到所述待分类文本中包含关键词表中关键词的词频;对所述词频进行向量化,得到关键词词频特征;或,获取所述标题文本的标题特征向量和正文文本的正文特征向量,对所述标题特征向量和所述正文特征向量进行拼接,得到词向量相似度特征;或,获取所述待分类文本中各个所述关键词在预设语料库中的tf-idf权重,根据所述各个关键词的tf-idf权重的均值,得到待分类文本的平均tf-idf权重,对所述平均tf-idf权重向量化,得到所述待分类文本的tf-idf权重特征;或,将所述待分类文本输入预先设置的lda模型,得到所述待分类文本属于各个预设主题的概率分布,将所述概率分布向量化,得到所述待分类文本的lda模型的概率分布特征;或,获取所述待分类文本的消息来源,根据预先设置的编号规则,得到所述消息来源的来源编号,对所述来源编号进行向量化,得到消息来源特征。

在其中一个实施例中,还包括:根据预先设置的加权算法,计算所述分类器中各个分类器的权值;根据所述权值,对各个分类器进行加权得到所述融合分类器。

在其中一个实施例中,还包括:对所述标题文本和所述正文文本分别进行分词,得到所述标题文本的第一特征词集合以及所述正文文本的第二特征词集合;

根据预先设置的正反关键词库以及预先设置的词向量工具,得到所述第一特征词集合中每个特征词的第一词向量,以及所述第二特征词集合中每个特征词的第二词向量;根据所述第一词向量求均值得到标题特征向量,以及根据所述第二词向量求均值得到正文特征向量。

一种文本分类装置,所述装置包括:

特征融合模块,用于从预先设置的文本特征库中选择文本特征组合,从待分类文本中提取与所述文本特征组合相应的融合特征;

分类器选择模块,用于根据所述文本特征组合,从预先设置的分类器库中选择多个预先训练的分类器;

分类器融合模块,用于根据所述分类器,得到融合分类器;

输出模块,用于将所述融合特征输入所述融合分类器,得到多个预设标签的概率;所述预设标签对应一个文本类型;

分类模块,用于根据概率最大的预设标签,确定所述待分类文本的文本类型。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

从预先设置的文本特征库中选择文本特征组合,从待分类文本中提取与所述文本特征组合相应的融合特征;

根据所述文本特征组合,从预先设置的分类器库中选择多个预先训练的分类器;

根据所述分类器,得到融合分类器;

将所述融合特征输入所述融合分类器,得到多个预设标签的概率;所述预设标签对应一个文本类型;

根据概率最大的预设标签,确定所述待分类文本的文本类型。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

从预先设置的文本特征库中选择文本特征组合,从待分类文本中提取与所述文本特征组合相应的融合特征;

根据所述文本特征组合,从预先设置的分类器库中选择多个预先训练的分类器;

根据所述分类器,得到融合分类器;

将所述融合特征输入所述融合分类器,得到多个预设标签的概率;所述预设标签对应一个文本类型;

根据概率最大的预设标签,确定所述待分类文本的文本类型。

上述文本分类方法、装置、计算机设备和存储介质,通过构建文本特征库,可以针对不同类别的待分类文本,适应性选择不同的文本特征组合,提高特征选择准确性,另外,将文本特征组合作为待分类文本的特征,输入预先设置的分类器库,分类器可以对应选择分类器组合对文本特征组合进行分类预测,保证选择最佳的分类器,整个过程无需人工操作,也可以准确的对文本进行分类预测。

附图说明

图1为一个实施例中文本分类方法的应用场景图;

图2为一个实施例中文本分类方法的流程示意图;

图3为一个实施例中提取融合特征步骤的流程示意图;

图4为另一个实施例中文本分类方法的流程示意图;

图5为又一实施例中文本分类方法的流程示意图;

图6为一个实施例中文本分类装置的结构框图;

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请提供的文本分类方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

其中,终端102可以通过http请求从服务器104获取待分类文本。待分类文本可以是微博文章、公众号文章、博客以及新闻平台渠道的资讯等,终端102获取上述待分类文本后,可以将每条待分类文本存储在终端102的数据库中。

进一步的,将终端102中的待分类文本推送至平台进行发布之前,需要对待分类文本进行分类,符合预设监管要求的待分类文本才能被发送至平台中,以此完成平台内容的监管。

具体的,终端102在进行文本分类时,通过提取待分类文本的融合特征,然后根融合特征,选择对应的分类器进行融合,得到融合分类器,然后将融合特征输入融合分类器,由于融合分类器中的分类器根据平台的监管要求进行训练,因此,融合分类器可以输出融合特征针对各个预设标签的概率,而预设标签对应了文本类型,通过预设标签的概率大小,可以确定待分类文本的文本类型。因此,终端102可以将符合监管要求的文本类型对应的文本推送值平台进行发布,完成平台内容的监管。

在一个实施例中,如图2所示,提供了一种文本分类方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:

步骤202,从预先设置的文本特征库中选择文本特征组合,从待分类文本中提取于文本特征组合相应的融合特征。

其中,文本特征库中包括多个预先构造的文本特征,若输入待分类文本时,终端决策时,选择了对应的文本特征库中预先构造的文本特征,则会输出待分类文本的该文本特征。因此,文本特征即可以根据终端决策而选定,例如:对于新闻标题的待分类文本,在进行决策是,优选选择文本长度特征、关键词词频特征、词向量相似度特征等文本特征。通过这种方式,可以进一步提高分类器预测的准确性。

进一步的,可以预设限制决策模型,将文本特征库训练为特征决策模型。

具体的,在进行分类时,终端中输入特征决策模型,然后特征决策模型输出若干个文本特征组合,特征决策模型的训练逻辑可以是根据待分类文本的类别,例如:新闻类、故事类、议论类的,选择合适的文本特征,以确保分类的准确性。终端中可以识别出待分类文本的类型,以此可以自动输出文本特征组合,因此,从整体上看,本实施例的方案做了模型的两层堆叠,从而提高模型的预测效率。

具体的,提取待分类文本出针对文本特征组合中的各个文本特征时,可以通过特征融合的方式,将多个文本特征融合为融合特征。

步骤204,根据文本特征组合,从预先设置的分类器库中选择多个预先训练的分类器。

其中,分类器库中包含多个不同类型的分类器,根据预先设置的监管要求,设置不同监管要求的文本类型,以不同的分类器标签对应不同的文本类型,通过对分类库中的分类器进行训练,可以对输入的待分类文本进行分类。

分类器库中包括了各种不同类型的分类器,各个分类器针对不同文本特征效果不同,因此,在输入融合特征时,可以选择多个分类器进行分类,以此提高分类的准确性。

进一步的,终端中预先建立融合特征中文本特征组合与分类器库中分类器的对应关系,即通过识别一个文本特征组合,即可以自动从分类器库中选择出对应的分类器。

值得说明的是,分类器库和文本特征库均为预先存储在终端中的工具,终端根据相应的逻辑,可以选择调用分类器库和文本特征库中的工具。

步骤206,根据分类器,得到融合分类器。

其中,在得到融合分类器时,可以从分类器结构上进行融合,得到融合分类器,结构融合即对各个分类器的输出进行融合。另一种方式是不对分类器进行处理,由终端采集各个分类器输出的结果,然后由终端计算最终的结构,以此得到融合分类器。

步骤208,将融合特征输入融合分类器,得到融合分类器输出的多个预设标签的概率。

其中,在进行分类器训练时,将预设标签对应一个文本类型,例如:违规文本对应一个预设标签,在分类器输出该预设标签的概率为20%时,表示待分类文本为违规文本的概率为20%。

具体的,分类器的输出可以由softmax输出,因此可以得到各个预设标签的概率大小,便于文本的准确分类。

步骤210,根据概率最大的预设标签,确定待分类文本的文本类型。

其中,在得到各个预设标签的概率大小时,可以采用排序的方式,确定概率最大的标签,然后根据预设标签确定待分类文本的文本类型。

上述文本分类方法中,通过构建文本特征库,可以针对不同类别的待分类文本,适应性选择不同的文本特征组合,提高特征选择准确性,另外,将文本特征组合作为待分类文本的特征,输入预先设置的分类器库,分类器可以对应选择分类器组合对文本特征组合进行分类预测,保证选择最佳的分类器,整个过程无需人工操作,也可以准确的对文本进行分类预测。

在一个实施例中,如图3所示,提供一种提取融合特征步骤的示意性流程图,其中,文本特征库中包括:文本长度特征、关键词词频、词向量相似度特征、tf-idf权重特征、lda模型的概率分布特征和消息来源特征,具体步骤如下:

步骤302,从文本特征库中选择文本长度特征、关键词词频特征、词向量相似度特征、tf-idf权重特征、lda模型的概率分布特征以及消息来源特征中的两个以上,得到文本特征组合。

步骤304,从待分类文本中提取文本特征组合中的各个文本特征。

步骤306,对各个文本特征进行组合,得到融合特征。

本实施例中,通过设置多种文本特征,可以针对各种待分类文本,准确提取出特征,以此提高文本分类的准确性。

针对图3中提到的待分类文本,在一实施例中,该待分类文本包括:标题文本和正文文本,因此,可以通过获取待分类文本的标题文本长度和正文文本长度;根据标题文本长度和正文文本长度,分别得到标题长度向量和正文长度向量;将标题长度向量和正文长度向量进行拼接,得到待分类文本的文本长度特征;通过获取预先设置的关键词表,根据关键词表匹配标题文本和正文文本,得到待分类文本中包含关键词表中关键词的词频;对词频进行向量化,得到关键词词频特征;通过获取标题文本的标题特征向量和正文文本的正文特征向量,对标题特征向量和正文特征向量进行拼接,得到词向量相似度特征;或,通过获取待分类文本中各个关键词在预设语料库中的tf-idf权重,根据各个关键词的tf-idf权重的均值,得到待分类文本的平均tf-idf权重,对平均tf-idf权重向量化,得到待分类文本的tf-idf权重特征;或,通过将待分类文本输入预先设置的lda模型,得到待分类文本属于各个预设主题的概率分布,将概率分布向量化,得到待分类文本的lda模型的概率分布特征;或,通过获取待分类文本的消息来源,根据预先设置的编号规则,得到消息来源的来源编号,对来源编号进行向量化,得到消息来源特征。

该实施例中,由于文本特征组合中至少包括两个上述文本特征,在得到待分类文本时,首先需要解析出其中的标题文本和正文文本,然后通过各个文本特征工具进行特征提取。

在一个实施例中,训练分类器的步骤,包括:

从预先设置的语料库中选择已标注文本,根据已标注文本的目标标签和预先设置的终止条件,训练分类器,当分类器输出目标标签的概率满足终止条件时,得到已训练的分类器。

在另一个实施例中,分类器库中包括:决策树、随机森林、extratree、梯度提升树、逻辑斯蒂回归、全连接网络和自适应连接树;通过训练上述分类器,可以得到分类器库。

在另一个实施例中,提取已标注文本对应的多种文本特征组合;将每一种文本特征组合依次输入分类器库中的各个已训练的分类器;对各个分类器输出目标标签的概率进行排序,筛选出满足预设条件的分类器,建立文本特征组合与多个分类器的对应关系。那么,在根据文本特征组合,从预先设置的分类器库中选择多个预先训练的分类器的步骤包括:根据文本特征组合查询对应关系,从预先设置的分类器库中选择多个预先训练的分类器。

综合以上几个实施例,在又一实施例中,如图4所示,以融合特征为文本长度特征、词向量相似度特征以及lda模型的概率分布特征融合而成,并且融合分类器为决策树、随机森林以及逻辑斯蒂回归融合而成为例,从图4中,可以清楚的展现本发明实施例的分类流程。

在一个实施例中,得到融合分类器的步骤可以是:根据预先设置的加权算法,计算多个分类器中各个分类器的权值;根据权值,对各个分类器进行加权得到融合分类器。

具体的,加权算法的工作流程如下:提取已标注文本的融合特征,给各个分类器赋予初始权值,将融合特征输入各个分类器中,根据初始权值计算最终预设标签的概率,将预设标签的概率与目标标签进行对比,若差值大于预设值,则调整初始权值,直至差值小于预设值,从而得到各个分类器的权值,然后跟据该权值进行加权得到融合分类器。

值得说明的是,不同组合的分类器进行融合时,其权值不同,因此,在训练阶段,需要对每种组合的分类器分别计算其进行融合时的权值。

另外,在一实施例中,获取标题文本的标题特征向量和正文文本的正文特征向量的步骤可以是:对标题文本和正文文本分别进行分词,得到标题文本的第一特征词集合以及正文文本的第二特征词集合;根据预先设置的正反关键词库以及预先设置的词向量工具,得到第一特征词集合中每个特征词的第一词向量,以及第二特征词集合中每个特征词的第二词向量;根据第一词向量求均值得到标题特征向量,以及根据第二词向量求均值得到正文特征向量。

本实施例中,正反关键词可以强化特征词匹配的结果,不仅可以匹配到正向结果,通过设置对应的反向词,在没有匹配到特征词时,可以匹配到该特征词对应的反向词,从而提高特征词的匹配效率,因此,在构建特征向量时,结果更加准确。

在一个实施例中,如图5所示,提供一种基于文本分类方法的平台新闻推送方案的示意性流程图,具体步骤如下:

步骤502,接收待推送新闻文本,新闻文本包括新闻标题和新闻正文。

可以预先设置新闻文本来源,如新浪、新华网等,然后以新闻文章为单位,在终端中保存为一条新闻文本。

步骤504,提取新闻文本的文本长度特征、关键词词频特征、词向量相似度特征、tf-idf权重特征、lda模型的概率分布特征和消息来源特征。

步骤506,根据文本长度特征、关键词词频特征、词向量相似度特征、tf-idf权重特征、lda模型的概率分布特征和消息来源特征,得到新闻文本的融合特征。

其中,融合的方式可以首先将各个文本特征进行向量化后,对向量进行拼接,得到融合特征。

步骤508,将融合特征输入分类器库,根据分类器库中各个分类器输出预设标签的概率对各个分类器进行排序,选择概率靠前的三个分类器进行融合得到融合分类器。

其中,可以采用加权的方式进行融合,即为各个分类器设置权值,对分类器输出的结果进行加权。

步骤510,根据融合分类器的输出结果,对新闻文本进行分类预测,若新闻文本的分类符合平台监管要求,则在平台中发布该新闻文本,若新闻文本的分类不符合凭条监管要求,则不发布该新闻文本。

本实施例中,通过对新闻文本进行分类,实现对平台新闻发布的监控,保证平台新闻的质量。

在另一实施例中,在该新闻文本推送时,还可以设置修正策略,修正策略可以是敏感词过滤,通过检测新闻文本中是否包括敏感词,从而确定是否推送该新闻文本至平台。

应该理解的是,虽然图2、3、5流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、3、5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图6所示,提供了一种文本分类装置,包括:特征融合模块602、分类器选择模块604、分类器融合模块606、输出模块608和分类模块610,其中:

特征融合模块602,用于从预先设置的文本特征库中选择文本特征组合,从待分类文本中提取与所述文本特征组合相应的融合特征。

分类器选择模块604,用于根据所述文本特征组合,从预先设置的分类器库中选择多个预先训练的分类器。

分类器融合模块606,用于根据所述分类器,得到融合分类器。

输出模块608,用于将所述融合特征输入所述融合分类器,得到多个预设标签的概率;所述预设标签对应一个文本类型。

分类模块610,用于根据概率最大的预设标签,确定所述待分类文本的文本类型。

在一个实施例中,从预先设置的语料库中选择已标注文本;根据所述已标注文本的目标标签和预先设置的终止条件,训练分类器;当所述分类器输出所述目标标签的概率满足所述终止条件时,得到已训练的所述分类器。

在一个实施例中,分类器选择模块604还用于提取所述已标注文本对应的多种所述文本特征组合;将每一种所述文本特征组合依次输入所述分类器库中的各个已训练的所述分类器;对所述各个已训练的所述分类器输出所述目标标签的概率进行排序,筛选出满足预设条件的分类器,建立所述文本特征组合与所述多个分类器的对应关系;根据所述文本特征组合查询所述对应关系,从预先设置的分类器库中选择多个预先训练的分类器。

在一个实施例中,所述文本特征库中包括:文本长度特征、关键词词频特征、词向量相似度特征、tf-idf权重特征、lda模型的概率分布特征和消息来源特征;特征融合模块602还用于从文本特征库中选择文本长度特征、关键词词频特征、词向量相似度特征、tf-idf权重特征、lda模型的概率分布特征以及消息来源特征中的两个以上,得到文本特征组合;从待分类文本中提取所述文本特征组合中的各个文本特征;对所述各个文本特征进行组合,得到融合特征。

在一个实施例中,所述待分类文本包括:标题文本和正文文本;特征融合模块602还用于获取所述待分类文本的标题文本长度和正文文本长度;根据所述标题文本长度和所述正文文本长度,分别得到标题长度向量和正文长度向量;将所述标题长度向量和所述正文长度向量进行拼接,得到待分类文本的文本长度特征;或,获取预先设置的关键词表,根据所述关键词表匹配所述标题文本和所述正文文本,得到所述待分类文本中包含关键词表中关键词的词频;对所述词频进行向量化,得到关键词词频特征;或,获取所述标题文本的标题特征向量和正文文本的正文特征向量,对所述标题特征向量和所述正文特征向量进行拼接,得到词向量相似度特征;或,获取所述待分类文本中各个所述关键词在预设语料库中的tf-idf权重,根据所述各个关键词的tf-idf权重的均值,得到待分类文本的平均tf-idf权重,对所述平均tf-idf权重向量化,得到所述待分类文本的tf-idf权重特征;或,将所述待分类文本输入预先设置的lda模型,得到所述待分类文本属于各个预设主题的概率分布,将所述概率分布向量化,得到所述待分类文本的lda模型的概率分布特征;或,获取所述待分类文本的消息来源,根据预先设置的编号规则,得到所述消息来源的来源编号,对所述来源编号进行向量化,得到消息来源特征。

在一个实施例中,输出模块608还用于根据预先设置的加权算法,计算所述多个分类器中各个分类器的权值;根据所述权值,对各个分类器进行加权得到所述融合分类器。

在一个实施例中,特征融合模块602还用于对所述标题文本和所述正文文本分别进行分词,得到所述标题文本的第一特征词集合以及所述正文文本的第二特征词集合;根据预先设置的正反关键词库以及预先设置的词向量工具,得到所述第一特征词集合中每个特征词的第一词向量,以及所述第二特征词集合中每个特征词的第二词向量;根据所述第一词向量求均值得到标题特征向量,以及根据所述第二词向量求均值得到正文特征向量。

关于文本分类装置的具体限定可以参见上文中对于文本分类方法的限定,在此不再赘述。上述文本分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待分类文本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本分类方法。

本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:

从预先设置的文本特征库中选择文本特征组合,从待分类文本中提取与所述文本特征组合相应的融合特征;

根据所述文本特征组合,从预先设置的分类器库中选择多个预先训练的分类器;

根据所述分类器,得到融合分类器;

将所述融合特征输入所述融合分类器,得到多个预设标签的概率;所述预设标签对应一个文本类型;

根据概率最大的预设标签,确定所述待分类文本的文本类型。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:从预先设置的语料库中选择已标注文本;根据所述已标注文本的目标标签和预先设置的终止条件,训练分类器;当所述分类器输出所述目标标签的概率满足所述终止条件时,得到已训练的所述分类器。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:提取所述已标注文本对应的多种所述文本特征组合;将每一种所述文本特征组合依次输入所述分类器库中的各个已训练的所述分类器;对所述各个已训练的所述分类器输出所述目标标签的概率进行排序,筛选出满足预设条件的分类器,建立所述文本特征组合与所述多个分类器的对应关系;根据所述文本特征组合查询所述对应关系,从预先设置的分类器库中选择多个预先训练的分类器。

在一个实施例中,所述文本特征库中包括:文本长度特征、关键词词频特征、词向量相似度特征、tf-idf权重特征、lda模型的概率分布特征和消息来源特征;处理器执行计算机程序时还实现以下步骤:从文本特征库中选择文本长度特征、关键词词频特征、词向量相似度特征、tf-idf权重特征、lda模型的概率分布特征以及消息来源特征中的两个以上,得到文本特征组合;从待分类文本中提取所述文本特征组合中的各个文本特征;对所述各个文本特征进行组合,得到融合特征。

在一个实施例中,所述待分类文本包括:标题文本和正文文本;处理器执行计算机程序时还实现以下步骤:获取所述待分类文本的标题文本长度和正文文本长度;根据所述标题文本长度和所述正文文本长度,分别得到标题长度向量和正文长度向量;将所述标题长度向量和所述正文长度向量进行拼接,得到待分类文本的文本长度特征;或,获取预先设置的关键词表,根据所述关键词表匹配所述标题文本和所述正文文本,得到所述待分类文本中包含关键词表中关键词的词频;对所述词频进行向量化,得到关键词词频特征;或,获取所述标题文本的标题特征向量和正文文本的正文特征向量,对所述标题特征向量和所述正文特征向量进行拼接,得到词向量相似度特征;或,获取所述待分类文本中各个所述关键词在预设语料库中的tf-idf权重,根据所述各个关键词的tf-idf权重的均值,得到待分类文本的平均tf-idf权重,对所述平均tf-idf权重向量化,得到所述待分类文本的tf-idf权重特征;或,将所述待分类文本输入预先设置的lda模型,得到所述待分类文本属于各个预设主题的概率分布,将所述概率分布向量化,得到所述待分类文本的lda模型的概率分布特征;或,获取所述待分类文本的消息来源,根据预先设置的编号规则,得到所述消息来源的来源编号,对所述来源编号进行向量化,得到消息来源特征。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据预先设置的加权算法,计算所述多个分类器中各个分类器的权值;根据所述权值,对各个分类器进行加权得到所述融合分类器。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:对所述标题文本和所述正文文本分别进行分词,得到所述标题文本的第一特征词集合以及所述正文文本的第二特征词集合;根据预先设置的正反关键词库以及预先设置的词向量工具,得到所述第一特征词集合中每个特征词的第一词向量,以及所述第二特征词集合中每个特征词的第二词向量;根据所述第一词向量求均值得到标题特征向量,以及根据所述第二词向量求均值得到正文特征向量。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

从预先设置的文本特征库中选择文本特征组合,从待分类文本中提取与所述文本特征组合相应的融合特征;

根据所述文本特征组合,从预先设置的分类器库中选择多个预先训练的分类器;

根据所述分类器,得到融合分类器;

将所述融合特征输入所述融合分类器,得到多个预设标签的概率;所述预设标签对应一个文本类型;

根据概率最大的预设标签,确定所述待分类文本的文本类型。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:从预先设置的语料库中选择已标注文本;根据所述已标注文本的目标标签和预先设置的终止条件,训练分类器;当所述分类器输出所述目标标签的概率满足所述终止条件时,得到已训练的所述分类器。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:提取所述已标注文本对应的多种所述文本特征组合;将每一种所述文本特征组合依次输入所述分类器库中的各个已训练的所述分类器;对所述各个已训练的所述分类器输出所述目标标签的概率进行排序,筛选出满足预设条件的分类器,建立所述文本特征组合与所述多个分类器的对应关系;根据所述文本特征组合查询所述对应关系,从预先设置的分类器库中选择多个预先训练的分类器。

在一个实施例中,所述文本特征库中包括:文本长度特征、关键词词频特征、词向量相似度特征、tf-idf权重特征、lda模型的概率分布特征和消息来源特征;计算机程序被处理器执行时还实现以下步骤:从文本特征库中选择文本长度特征、关键词词频特征、词向量相似度特征、tf-idf权重特征、lda模型的概率分布特征以及消息来源特征中的两个以上,得到文本特征组合;从待分类文本中提取所述文本特征组合中的各个文本特征;对所述各个文本特征进行组合,得到融合特征。

在一个实施例中,所述待分类文本包括:标题文本和正文文本;计算机程序被处理器执行时还实现以下步骤:获取所述待分类文本的标题文本长度和正文文本长度;根据所述标题文本长度和所述正文文本长度,分别得到标题长度向量和正文长度向量;将所述标题长度向量和所述正文长度向量进行拼接,得到待分类文本的文本长度特征;或,获取预先设置的关键词表,根据所述关键词表匹配所述标题文本和所述正文文本,得到所述待分类文本中包含关键词表中关键词的词频;对所述词频进行向量化,得到关键词词频特征;或,获取所述标题文本的标题特征向量和正文文本的正文特征向量,对所述标题特征向量和所述正文特征向量进行拼接,得到词向量相似度特征;或,获取所述待分类文本中各个所述关键词在预设语料库中的tf-idf权重,根据所述各个关键词的tf-idf权重的均值,得到待分类文本的平均tf-idf权重,对所述平均tf-idf权重向量化,得到所述待分类文本的tf-idf权重特征;或,将所述待分类文本输入预先设置的lda模型,得到所述待分类文本属于各个预设主题的概率分布,将所述概率分布向量化,得到所述待分类文本的lda模型的概率分布特征;或,获取所述待分类文本的消息来源,根据预先设置的编号规则,得到所述消息来源的来源编号,对所述来源编号进行向量化,得到消息来源特征。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据预先设置的加权算法,计算所述多个分类器中各个分类器的权值;根据所述权值,对各个分类器进行加权得到所述融合分类器。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对所述标题文本和所述正文文本分别进行分词,得到所述标题文本的第一特征词集合以及所述正文文本的第二特征词集合;根据预先设置的正反关键词库以及预先设置的词向量工具,得到所述第一特征词集合中每个特征词的第一词向量,以及所述第二特征词集合中每个特征词的第二词向量;根据所述第一词向量求均值得到标题特征向量,以及根据所述第二词向量求均值得到正文特征向量。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1