一种文本分类方法及装置与流程

文档序号:14774324发布日期:2018-06-23 02:38阅读:152来源:国知局
一种文本分类方法及装置与流程

本发明涉及分类技术领域,尤其涉及一种文本分类方法及装置。



背景技术:

现有技术中实现文本分类的方法为:提取待分类文本的文本特征,并根据文本特征实现对待分类文本的分类。

基于现有技术中公开的文本分类方法,在对新闻进行分类时,由于新闻属于长文本,在提取待分类的新闻的文本特征时,往往需要投入大量的人力和时间去设计有效的文本特征来帮助分类,费时又费力。

而深度学习由于可以自动学习文本特征,因此可以解决对新闻这类长文本分类时文本特征提取困难的问题。在深度学习中常用的为卷积神经网络模型(CNN)。

利用CNN模型实现文本分类的方法包括:对待分类的文本进行预处理,得到若干个句子;将每个句子输入训练好的CNN模型的卷积层和采样层,将采样层输出的结果输入到SVM分类器中,实现对文本的分类。

但是,发明人发现现有基于CNN模型实现文本分类的方法中存在准确性低的问题。



技术实现要素:

有鉴于此,本发明的目的在于提供一种文本分类方法及装置,以解决现有技术中基于CNN模型实现文本分类的方法中准确性低的问题。

技术方案如下:

本发明提供一种文本分类方法,包括:

对待分类文本进行预处理,得到多个句子;

将所述句子输入预先建立的CNN分类模型的输入层;

提取所述句子的word2vec特征,获取输入矩阵;

将所述输入矩阵输入卷积层,通过卷积操作提取特征;其中,所述卷积层的权重采用高斯分布参数值进行初始化;

将所述特征输入分类器进行分类。

优选地,所述对待分类文本进行预处理,得到多个句子包括:

判断所述待分类文本的长度是否大于预设长度;

判断所述待分类文本的长度大于预设长度,则将所述待分类文本按照所述预设长度进行截断,得到多个句子;

判断所述句子的长度是否小于预设长度;

判断所述句子的长度小于预设长度,则按照所述待分类文本中包括的内容顺序拼接在所述句子的后面,直至拼接后形成的新句子的长度等于所述预设长度。

优选地,所述CNN分类模型的训练方法包括:

获取数据集以及未清洗数据;其中,所述未清洗数据中包括预设分类标记;

利用所述数据集,对所述CNN分类模型进行初始训练;

利用初始训练后的CNN分类模型对所述未清洗数据进行分类预测,得到所述未清洗数据的预测分类标记以及预测概率;

判断所述未清洗数据的预测概率是否大于预设概率值;

判断所述未清洗数据的预测概率大于预设概率值,则判断所述未清洗数据的预测分类标记与所述未清洗数据的预设分类标记是否相同;

判断所述未清洗数据的预测分类标记与所述未清洗数据的预设分类标记不同,则将所述未清洗数据的预设分类标记修改为所述预测分类标记,得到清洗后的数据;

利用所述清洗后的数据,训练所述CNN分类模型。

优选地,所述将所述未清洗数据的预设分类标记修改为所述预测分类标记包括:

按照预设规则,从判断得到所述未清洗数据的预测分类标记与所述未清洗数据的预测分类标记不同的未清洗数据中,选择待处理的未清洗数据;

将所述待处理的未清洗数据的预设分类标记修改为所述预测分类标记。

优选地,所述CNN分类模型的训练方法还包括:

若训练样本的数量小于预设样本数量,则利用预先训练的CNN分类模型;

利用所述训练样本,对所述预先训练的CNN分类模型进行训练。

本发明还提供了一种文本分类装置,包括:

预处理单元,用于对待分类文本进行预处理,得到多个句子;

输入单元,用于将所述句子输入预先建立的CNN分类模型的输入层;

第一处理单元,用于提取所述句子的word2vec特征,获取输入矩阵;

第二处理单元,用于将所述输入矩阵输入卷积层,通过卷积操作提取特征;其中,所述卷积层的权重采用高斯分布参数值进行初始化;

分类单元,用于将所述特征输入分类器进行分类。

优选地,所述预处理单元包括:

第一判断单元,用于判断所述待分类文本的长度是否大于预设长度;

截断单元,用于当所述第一判断单元判断所述待分类文本的长度大于预设长度时,将所述待分类文本按照所述预设长度进行截断,得到多个句子;

第二判断单元,用于判断所述句子的长度是否小于预设长度;

拼接单元,用于当所述第二判断单元判断所述句子的长度小于预设长度时,按照所述待分类文本中包括的内容顺序拼接在所述句子的后面,直至拼接后形成的新句子的长度等于所述预设长度。

优选地,还包括:

获取单元,用于获取数据集以及未清洗数据;其中,所述未清洗数据中包括预设分类标记;

训练单元,用于利用所述数据集,对所述CNN分类模型进行初始训练;

预测单元,用于利用初始训练后的CNN分类模型对所述未清洗数据进行分类预测,得到所述未清洗数据的预测分类标记以及预测概率;

第三判断单元,用于判断所述未清洗数据的预测概率是否大于预设概率值;

第四判断单元,用于当所述第三判断单元判断所述未清洗数据的预测概率大于预设概率值时,判断所述未清洗数据的预测分类标记与所述未清洗数据的预设分类标记是否相同;

修改单元,用于当所述第四判断单元判断所述未清洗数据的预测分类标记与所述未清洗数据的预设分类标记不同时,将所述未清洗数据的预设分类标记修改为所述预测分类标记,得到清洗后的数据;

所述训练单元,还用于利用所述清洗后的数据,训练所述CNN分类模型。

优选地,所述修改单元包括:

选择子单元,用于按照预设规则,从判断得到所述未清洗数据的预测分类标记与所述未清洗数据的预测分类标记不同的未清洗数据中,选择待处理的未清洗数据;

修改子单元,用于将所述待处理的未清洗数据的预设分类标记修改为所述预测分类标记。

优选地,还包括:

复用单元,用于若训练样本的数量小于预设样本数量,则复用预先训练的CNN分类模型;

所述训练单元还用于利用所述训练样本,对所述预先训练的CNN分类模型进行训练。

与现有技术相比,本发明提供的上述技术方案具有如下优点:

从上述技术方案可知,本申请中在预先建立的CNN分类模型的基础上,改进了对卷积层的权重初始化的方式,具体为根据高斯分布对权重初始化,相较于现有基于CNN分类模型实现文本分类的方法,提高了分类结果的准确性。且相较于比较朴素贝叶斯,SVM等机器学习算法也提高了分类结果的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种文本分类方法的流程图;

图2是本发明实施例提供的另一种文本分类方法的流程图;

图3是本发明实施例提供的CNN分类模型的训练方法的流程图;

图4是利用本发明实施例提供的一种文本分类装置的结构示意图;

图5是利用本发明实施例提供的另一种文本分类装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本实施例公开了一种文本分类方法,应用在长文本分类的场景中,例如,新闻分类的场景,参见图1,该实施例包括以下步骤:

S101、对待分类文本进行预处理,得到多个句子;

待分类文本是长文本时,需要先将待分类文本截断为多个预设长度的文本,每一个特定长度的文本是一个句子,得到多个句子。其中,预设长度可以根据实际需要进行设置。

S102、将所述句子输入预先建立的CNN分类模型的输入层;

本实施例中预先建立并训练得到CNN分类模型,所述CNN分类模型具有两个并联的输入层,每个输入层对应一个输入通道。

对应第一输入通道的输入层采用word2vec算法初始化,不参与CNN分类模型的训练,而是对第一输入通道输入的内容进行分类;对应第二输入通道的输入层采用随机初始化,不仅对第二输入通道输入的内容进行分类而且参与CNN分类模型的训练。

将句子通过输入通道输入所述CNN分类模型的输入层。

S103、提取所述句子的word2vec特征,获取输入矩阵;

S104、所述输入矩阵输入卷积层,通过卷积操作提取特征;其中,所述卷积层的权重采用高斯分布参数值进行初始化;

选择用零均值、小标准差的高斯分布来初始化卷积层的权重。

S105、将所述特征输入分类器进行分类。

本实施例中提取到的特征维数为256维,分类器为softmax分类器。通过外接的softmax分类器,根据提取到的256维特征进行分类。

从上述技术方案可知,本实施例中在预先建立的CNN分类模型的基础上,改进了对卷积层的权重初始化的方式,具体为根据高斯分布对权重初始化,相较于现有基于CNN分类模型实现文本分类的方法,提高了分类结果的准确性。且相较于比较朴素贝叶斯,SVM等机器学习算法也提高了分类结果的准确性。

本实施例公开了另一种文本分类的方法,详细介绍了对待分类文本进行预处理的方法,参见图2,该实施例包括以下步骤:

S201、判断所述待分类文本的长度是否大于预设长度;其中,待分类文本包括标题以及正文;

判断所述待分类文本的长度大于预设长度,则执行步骤S202;

S202、将所述待分类文本按照所述预设长度进行截断,得到多个句子;

例如,待分类文本为“shenqingwenjian”,预设长度为4,则对shenqingwenjian”进行截断,得到的截断结果为“shen”、“qing”、“wenj”、“ian”;每个截断结果为一个句子,通过对待分类文件执行截断操作,得到了多个句子。

S203、判断所述句子的长度是否小于预设长度;

判断所述句子的长度小于预设长度,则执行步骤S204;

否则,执行步骤S205;

通过对待分类文件执行截断操作可以得到多个句子,其中,由于待分类文本的长度可能不是预设长度的整数倍,因此,通过截断操作得到的最后一个句子(“ian”)的长度可能并不等于预设长度,且小于预设长度,则对最后一个句子(“ian”)执行步骤S204;

本实施例中,由于对待分类文本的截断是按照预设长度截断的,得到的多个句子中,只有最后一个句子的长度可能不等于预设长度,因此执行判断所述句子的长度是否小于预设长度的步骤时,可以只判断所述句子的长度是否小于预设长度。

S204、按照所述待分类文本中包括的内容顺序拼接在所述句子的后面,直至拼接后形成的新句子的长度等于所述预设长度;

“ian”的长度小于预设长度4,因此,需要执行拼接操作。对“ian”拼接可以利用待分类文本“shenqingwenjian”的内容执行拼接操作,得到的拼接结果为“ians”,当然也可以利用自身内容执行拼接操作,得到的拼接结果为“iani”,拼接后句子的长度等于预设长度。

本步骤中拼接操作的对象为对待分类文本执行截断操作后得到的句子,但是,本实施例中通过步骤S201判断所述待分类文本的长度不大于预设长度时,存在待分类文本的长度本身就小于预设长度的情况,则不需要执行截断操作,需要执行拼接操作。其中,拼接操作的具体实现方式与对截断结果执行拼接操作的实现方式类似。

具体地,当待分类文本的长度小于预设长度时,则通过拼接操作将待分类文本拼接为长度等于预设长度的新待分类文本。

例如,待分类文本为“shenqing”,待分类文本的长度为8,预设长度为10,则按照待分类文本中包括的内容顺序拼接在“shenqing”后面。

“shenqing”的顺序为s、h、e、n、q、i、n、g,拼接方法为先将“s”拼接在“shenqing”后面,拼接后得到的新待分类文本为“shenqings”,拼接后的长度为9,仍然小于预设长度,继续拼接;将“h”拼接在“shenqings”后面,拼接后得到的新待分类文本为“shenqingsh”,拼接后的长度为10,与预设长度相同,完成拼接操作。最终得到的新待分类文本为“shenqingsh”。

预设长度为20时,按照上述拼接方法得到的新待分类文本为“shenqingshenqingshen”。

此外,本实施例中通过步骤S201判断所述待分类文本的长度不大于预设长度时,还存在待分类文本的长度等于预设长度的情况,则不仅不需要对待分类文本执行截断操作,也不需要对待分类文本执行拼接操作。

S205、将所述句子输入预先建立的CNN分类模型的输入层;

S206、提取所述句子的word2vec特征,获取输入矩阵;

S207、所述输入矩阵输入卷积层,通过卷积操作提取特征;其中,所述卷积层的权重采用高斯分布参数值进行初始化;

S208、将所述特征输入分类器进行分类。

本实施例中,步骤S205-步骤S208的实现方式与上一实施例中步骤S102-步骤S105的实现方式类似,此处不再赘述。

从上述技术方案可知,本实施例中在预先建立的CNN分类模型的基础上,对输入CNN分类模型的输入内容进行预处理,具体为对待分类文本的长度超过预设长度的待分类文本按照预设长度截断,对待分类文本的长度小于预设长度的待分类文本利用待分类文本的内容进行循环填充,将预处理后的内容输入到CNN分类模型中,并且改进了CNN分类模型中对卷积层的权重初始化的方式,具体为根据高斯分布对权重初始化,相较于现有基于CNN分类模型实现文本分类的方法,提高了分类结果的准确性。

上述实施例中公开的文本分类方法是基于预先建立并训练得到的CNN分类模型实现的,下面详细介绍CNN分类模型的训练方法,参见图3,所述CNN分类模型的训练方法包括以下步骤:

S301、获取数据集以及未清洗数据;其中,所述未清洗数据中包括预设分类标记;

数据集由原始训练数据、人工标注数据以及外站数据这三类数据组成,其中,不同类型的数据所占数据集总量的比重不同,优选地,原始训练数据的数量占数据集总量的80%,人工标注数据的数量占数据集总量的5%,外站数据的数量占数据集总量的15%。数据集的总量设置为30万左右。

本实施例中原始训练数据指的是用户网站的入库文本;例如,搜狐本身的入库新闻,将其存储在分布式集群中。

人工标注数据指的是人工编辑分类标记的数据。

外站数据指的是从区别于用户网站的其他网站或者公众号中抓取的文本。

本实施例中未清洗数据可以直接是从获取到的数据集中抽样得到的。当然,也可以是区别于数据集而获取到的数据。但是,无论未清洗数据是从何处获取到的,都需要保证未清洗数据为已经包含预设分类标记的数据。

在实际应用中,在未清洗数据的数量很多的情况下,可以使用过滤规则对未清洗数据进行过滤,例如,设置关键词的黑名单,通过这一过滤规则选择出部分未清洗数据,并对选择出的未清洗数据执行后续清洗步骤。

S302、利用所述数据集,对所述CNN分类模型进行初始训练;

S303、利用初始训练后的CNN分类模型对所述未清洗数据进行分类预测,得到所述未清洗数据的预测分类标记以及预测概率;

以新闻分类为例,得到的预测分类标记为待分类新闻所属分类对应的标号,其中,新闻所属分类的标号可以根据实际业务场景进行设置,在本实施例中设置的新闻所属分类对应的标号从1至101,即不同的标号对应不同的新闻类别。例如,体育新闻对应标号1,金融新闻对应标号2,娱乐新闻对应标号3。

预测概率为CNN分类模型对所述未清洗数据进行分类预测结果正确的可能性。例如,对新闻A这一待清洗数据进行分类预测后,得到的预测分类标记为1,即预测新闻A为体育新闻,得到的预测概率为0.9,则说明CNN分类模型判断新闻A属于体育新闻的可能性是90%。

S304、判断所述未清洗数据的预测概率是否大于预设概率值;

判断所述未清洗数据的预测概率大于预设概率值,则执行步骤S305;

判断所述未清洗数据的预测概率不大于预设概率值,则不做任何的处理,即说明此次预测的结果并不可信;

预设概率值为99.5%,即CNN分类模型得出的预测概率大于99.5%时,说明此次CNN分类模型预测的结果可信,执行步骤S305;

若CNN分类模型得出的预测概率不大于99.5%,则说明此次CNN分类模型预测的结果并不可信,进而更无需关注CNN分类模型得出的预测分类标记了。

S305、判断所述未清洗数据的预测分类标记与所述未清洗数据的预设分类标记是否相同;

判断所述未清洗数据的预测分类标记与所述未清洗数据的预设分类标记不同,则执行步骤S306;

判断所述未清洗数据的预测分类标记与所述未清洗数据的预设分类标记相同,则不修改所述未清洗数据的预设分类标记。

在CNN分类模型预测的结果可信时,判断未清洗数据的预测分类标记与所述未清洗数据的预设分类标记是否相同;

对于未清洗数据而言,若预测分类标记与预设分类标记相同,则说明未清洗数据初始的预设分类标记是正确的,无需修改;若预测分类标记与预设分类标记不同,则说明未清洗数据初始的预设分类标记是不正确的,执行步骤S306;

S306、将所述未清洗数据的预设分类标记修改为所述预测分类标记,得到清洗后的数据;

将未清洗数据的分类标记修改为预测分类标记,完成清洗步骤,得到清洗后的数据。

例如,新闻B的预测分类标记为2,且预测概率大于99.5%,则CNN分类模型对新闻B的分类预测是可信的,新闻B的分类标记就应该是2。但是,新闻B的预设分类标记为1,与预测分类标记2不同,则说明新闻B的预设分类标记有噪音,是错误的,因此将新闻B的预设分类标记修改为预测分类标记,修改后的新闻B的分类标记将为2。

S307、利用所述清洗后的数据,训练所述CNN分类模型。

利用完成了清洗步骤的数据更新CNN分类模型的训练集,以增加训练样本,并从更新前的训练集中同比例抽取数据,放入测试集,并利用CNN分类模型进行分类预测。即通过利用初始CNN分类模型清洗数据,并利用清洗后的数据辅助进一步的CNN分类模型的训练,一层一层递进的方式实现对数据的清洗。

本实施例中,为了进一步提高分类的准确性,并不是对所有的预测概率大于99.5%,且预测分类标记与预设分类标记不同的新闻分类标记都进行修改,而是按照预设规则,从预测概率大于99.5%,且预测分类标记与预设分类标记不同的未清洗数据中,选择待处理的未清洗数据;并对选择的待处理未清洗数据的分类标记进行修改。

优选地,预设规则为均匀分布。

采用上述CNN分类模型的训练方法,当采用大量训练样本训练CNN分类模型时,可以实现对大量的训练样本的分类标记是否正确的判断,并将不正确的分类标记修改为正确的分类标记。利用具有正确分类标记的训练样本再对CNN分类模型进行训练,以得到分类准确性高的CNN分类模型。

在实际训练CNN分类模型时,还会存在训练样本数量少的情况,当训练样本数量少时,直接利用小规模的训练样本对CNN分类模型训练,容易导致发生过拟合现象,造成分类结果的错误。

基于此,本实施例中判断训练样本的数量小于预设样本数量,则复用预先训练的CNN分类模型;然后再利用所述训练样本,对所述预先训练的CNN分类模型进行训练。

其中,预先训练的CNN分类模型为与此训练样本的场景相近的场景下,训练完成的CNN分类模型。

例如,本实施例中需要对新闻这一长文本进行分类,需要训练得到能够对新闻进行分类的CNN分类模型,但是此时具有准确分类标记的新闻数量少。但是,已经训练得到了用于对小说这一长文本进行分类的CNN分类模型,由于新闻和小说都属于长文本,两者的主要结构和特征表示相差不大,因此可以复用预先训练的用于对小说分类的CNN分类模型;然后在利用具有准确分类标记的新闻训练用于对小说分类的CNN分类模型。通过复用对小说分类的CNN分类模型,不需要重新学习CNN分类模型中的所有参数,只需要利用小规模的新闻样本在迭代过程中对复用的CNN分类模型中的部分参数进行调整,即可训练得到用于新闻分类的CNN分类模型。解决了由于样本数量不足,对模型训练导致的过拟合问题。

对应上述文本分类方法,本实施例还公开了一种文本分类装置,所述文本分类装置的结构示意图请参阅图4所示,本实施例中文本分类装置包括:

预处理单元401、输入单元402、第一处理单元403、第二处理单元404和分类单元405;

预处理单元401,用于对待分类文本进行预处理,得到多个句子;

其中,预处理单元401包括:

第一判断单元、截断单元、第二判断单元和拼接单元;

所述第一判断单元,用于判断所述待分类文本的长度是否大于预设长度;

所述截断单元,用于当所述第一判断单元判断所述待分类文本的长度大于预设长度时,将所述待分类文本按照所述预设长度进行截断,得到多个句子;

所述第二判断单元,用于判断所述句子的长度是否小于预设长度;

所述拼接单元,用于当所述第二判断单元判断所述句子的长度小于预设长度时,按照所述待分类文本中包括的内容顺序拼接在所述句子的后面,直至拼接后形成的新句子的长度等于所述预设长度。

输入单元402,用于将所述句子输入预先建立的CNN分类模型的输入层;

第一处理单元403,用于提取所述句子的word2vec特征,获取输入矩阵;

第二处理单元404,用于将所述输入矩阵输入卷积层,通过卷积操作提取特征;其中,所述卷积层的权重采用高斯分布参数值进行初始化;

分类单元405,用于将所述特征输入分类器进行分类。

从上述技术方案可知,本实施例中在预先建立的CNN分类模型的基础上,对输入CNN分类模型的输入内容进行预处理,具体为对待分类文本的长度超过预设长度的待分类文本按照预设长度截断,对待分类文本的长度小于预设长度的待分类文本利用待分类文本的内容进行循环填充,将预处理后的内容输入到CNN分类模型中,并且改进了CNN分类模型中对卷积层的权重初始化的方式,具体为根据高斯分布对权重初始化,相较于现有基于CNN分类模型实现文本分类的方法,提高了分类结果的准确性。

在上一实施例公开的文本分类装置的基础上,本实施例还公开了另一种文本分类装置,所述文本分类装置的结构示意图请参阅图5所示,本实施例中文本分类装置还包括:

获取单元501、训练单元502、预测单元503、第三判断单元504、第四判断单元505、修改单元506和复用单元507;

获取单元501,用于获取数据集以及未清洗数据;其中,所述未清洗数据中包括预设分类标记;

训练单元502,用于利用所述数据集,对所述CNN分类模型进行初始训练;

预测单元503,用于利用初始训练后的CNN分类模型对所述未清洗数据进行分类预测,得到所述未清洗数据的预测分类标记以及预测概率;

第三判断单元504,用于判断所述未清洗数据的预测概率是否大于预设概率值;

第四判断单元505,用于当所述第三判断单元判断所述未清洗数据的预测概率大于预设概率值时,判断所述未清洗数据的预测分类标记与所述未清洗数据的预设分类标记是否相同;

修改单元506,用于当所述第四判断单元判断所述未清洗数据的预测分类标记与所述未清洗数据的预设分类标记不同时,将所述未清洗数据的预设分类标记修改为所述预测分类标记,得到清洗后的数据;

判断所述未清洗数据的预测分类标记与所述未清洗数据的预设分类标记相同,则不修改所述未清洗数据的预设分类标记;

训练单元502,还用于利用所述清洗后的数据,训练所述CNN分类模型;

其中,修改单元506,包括:

选择子单元和修改子单元;

选择子单元,用于按照预设规则,从判断得到所述未清洗数据的预测分类标记与所述未清洗数据的预测分类标记不同的未清洗数据中,选择待处理的未清洗数据;

修改子单元,用于将所述待处理的未清洗数据的预设分类标记修改为所述预测分类标记;

复用单元507,用于若训练样本的数量小于预设样本数量,则复用预先训练的CNN分类模型;

训练单元502,还用于利用所述训练样本,对所述预先训练的CNN分类模型进行训练。

训练得到CNN分类模型后,可以在文本分类中使用此训练得到的CNN分类模型。

从上述技术方案可知,本实施例中在预先建立的CNN分类模型的基础上,对输入CNN分类模型的输入内容进行预处理,具体为对待分类文本的长度超过预设长度的待分类文本按照预设长度截断,对待分类文本的长度小于预设长度的待分类文本利用待分类文本的内容进行循环填充,将预处理后的内容输入到CNN分类模型中,并且改进了CNN分类模型中对卷积层的权重初始化的方式,具体为根据高斯分布对权重初始化,相较于现有基于CNN分类模型实现文本分类的方法,提高了分类结果的准确性。且,在训练CNN分类模型时,对大量的训练样本先进行清洗,然后在利用清洗后的训练样本对CNN分类模型进行训练,可以训练得到准确的CNN分类模型,同时,在训练样本数量少时,复用已经训练好的其他CNN分类模型,然后在利用训练样本对复用的CNN分类模型进行训练,可以避免过拟合问题的产生。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例提供的装置而言,由于其与实施例提供的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1