本发明涉及文本分类领域,特别是涉及一种基于非光滑函数类型的文本分类方法及系统。
背景技术:
传统的文本分类方法在解决基于非光滑函数的文本区分问题时,存在速度较慢且分类结果不精准等问题,同时,由于大多数传统的文本分类方法的解都以加权平均和的方式输出,且目标函数未添加正则化项,不仅破坏了原本的稀疏性,而且泛化能力差,不能较好的应用于实际问题中,文本分类类型准确度大大降低。
技术实现要素:
本发明的目的是提供一种基于非光滑函数类型的文本分类方法及系统,以解决传统的文本分类方法文本分类类型准确度低的问题。
为实现上述目的,本发明提供了如下方案:
一种基于非光滑函数类型的文本分类方法,包括:
获取样本文本的损失函数以及正则化项;
根据所述损失函数以及所述正则化项构建第一目标函数;
获取迭代次数,并根据所述迭代次数确定变步长;
根据所述变步长构建k次迭代模型;
根据所述k次迭代模型以及所述变步长确定优化权重向量;
根据所述优化权重向量确定第二目标函数;
根据所述第二目标函数确定样本文本类型。
可选的,所述根据所述损失函数以及所述正则化项构建第一目标函数,具体包括:
根据公式
可选的,所述根据所述变步长构建k次迭代模型,具体包括:
根据公式
可选的,所述根据所述第二目标函数确定样本文本类型之后,还包括:
判断所述样本文本类型是否达到预期分类类型,得到第一判断结果;
若所述第一判断结果表示为所述样本文本类型达到预期分类类型,确定所述样本文本类型为正确的样本文本类型;
若所述第一判断结果表示为所述样本文本类型未达到预期分类类型,重新调整所述优化权重向量。
一种基于非光滑函数类型的文本分类系统,包括:
参数获取模块,用于获取样本文本的损失函数以及正则化项;
第一目标函数构建模块,用于根据所述损失函数以及所述正则化项构建第一目标函数;
迭代次数获取模块,用于获取迭代次数,并根据所述迭代次数确定变步长;
k次迭代模型构建模块,用于根据所述变步长构建k次迭代模型;
优化权重向量确定模块,用于根据所述k次迭代模型以及所述变步长确定优化权重向量;
第二目标函数确定模块,用于根据所述优化权重向量确定第二目标函数;
样本文本类型确定模块,用于根据所述第二目标函数确定样本文本类型。
可选的,所述第一目标函数构建模块具体包括:
目标函数构建单元,用于根据公式
可选的,所述k次迭代模型构建模块具体包括:
k次迭代模型构建单元,用于根据公式
可选的,还包括:
第一判断模块,用于判断所述样本文本类型是否达到预期分类类型,得到第一判断结果;
样本文本类型确定模块,用于若所述第一判断结果表示为所述样本文本类型达到预期分类类型,确定所述样本文本类型为正确的样本文本类型;
优化权重向量调整模块,用于若所述第一判断结果表示为所述样本文本类型未达到预期分类类型,重新调整所述优化权重向量。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供了一种基于非光滑函数类型的文本分类方法及系统,由于传统的文本分类方法的解大多以加权平均和的方式输出,使得稀疏性遭到破坏,导致泛化能力差,不能较好的应用于实际问题中,区分精度效果也未能如意;本发明选取较好的变步长,直接得到了个体输出的最优解,较好的保留了稀疏性,改善了传统优化方法中以加权平均和的输出方式对稀疏性的破坏。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的基于非光滑函数类型的文本分类方法流程图;
图2为本发明所提供的以二分类为例的基于非光滑函数类型的文本分类方法流程图;
图3为本发明所提供的基于非光滑函数类型的文本分类系统结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于非光滑函数类型的文本分类方法及系统,在文本分类的背景下能够更为精确的进行文本区分。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明所提供的基于非光滑函数类型的文本分类方法流程图,如图1所示,一种基于非光滑函数类型的文本分类方法,包括:
步骤101:获取样本文本的损失函数以及正则化项。
步骤102:根据所述损失函数以及所述正则化项构建第一目标函数。
如图2所示,以二分类为例,对于独立同分布的文本分类样本集
其中,f(wi,y)为损失函数,λr(x)为正则化项;m为大于0的整数。
步骤103:获取迭代次数,并根据所述迭代次数确定变步长。
步骤104:根据所述变步长构建k次迭代模型。
步骤105:根据所述k次迭代模型以及所述变步长确定优化权重向量。
初始化正则化参数及变步长,即:α0=1,β0=1,x0=x1=0;按照以下方式执行k次迭代:
其中,
步骤106:根据所述优化权重向量确定第二目标函数。
步骤107:根据所述第二目标函数确定样本文本类型。
所述步骤107之后,还包括:判断所述样本文本类型是否达到预期分类类型,若是,确定所述样本文本类型为正确的样本文本类型;若否,重新调整所述正则化项。
图3为本发明所提供的基于非光滑函数类型的文本分类系统结构图,如图3所示,一种基于非光滑函数类型的文本分类系统,包括:
参数获取模块301,用于获取样本文本的损失函数以及正则化项。
第一目标函数构建模块302,用于根据所述损失函数以及所述正则化项构建第一目标函数。
所述第一目标函数构建模块302具体包括:目标函数构建单元,用于根据公式
迭代次数获取模块303,用于获取迭代次数,并根据所述迭代次数确定变步长。
k次迭代模型构建模块304,用于根据所述变步长构建k次迭代模型。
所述k次迭代模型构建模块304具体包括:k次迭代模型构建单元,用于根据公式
优化权重向量确定模块305,用于根据所述k次迭代模型以及所述变步长确定优化权重向量。
第二目标函数确定模块306,用于根据所述优化权重向量确定第二目标函数。
样本文本类型确定模块307,用于样本文本类型根据所述第二目标函数确定样本文本类型。
本发明还包括:第一判断模块,用于判断所述样本文本类型是否达到预期分类类型,得到第一判断结果;样本文本类型确定模块,用于若所述第一判断结果表示为所述样本文本类型达到预期分类类型,确定所述样本文本类型为正确的样本文本类型;正则化项调整模块,用于若所述第一判断结果表示为所述样本文本类型未达到预期分类类型,重新调整所述正则化项。
本发明所提供的基于非光滑函数类型的文本分类方法及系统实际为改进heavy-ball方法的基于非光滑函数类型的文本分类方法及系统,由于heavy-ball方法的惯性因子,能在处理大规模文本分类问题上较快速的找到全局最优解,从而更为快速精准的达到较为优异的文本分类效果。
目前大多数优化方法采用平均输出方式输出,稀疏性较差,本发明以个体输出形式输出,速率达到理论上的最优且具备较好的稀疏性,在文本分类的背景下能够较为精确的进行文本区分。
本发明利用正则化项从而具有较好的泛化能力,具有普遍的适用性,同时也能推广至其他类似的基于机器学习优化问题的应用中。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。