一种基于分布式环境的海量数据快速分类方法

文档序号:6525529阅读:305来源:国知局
一种基于分布式环境的海量数据快速分类方法
【专利摘要】本发明提供一种基于分布式环境的海量数据快速分类方法,从训练、分类及分布式部署三个模块进行开发实施。该一种基于分布式环境的海量数据快速分类方法和现有技术相比,大大降低算法的复杂度,可以在损失很小准确率甚至不减少准确率的情况下,大大减少时间消耗;实用性强,适用范围广泛,易于推广。
【专利说明】一种基于分布式环境的海量数据快速分类方法
【技术领域】
[0001]本发明涉及计算机应用【技术领域】, 具体的说是一种基于分布式环境的海量数据快速分类方法。
【背景技术】
[0002]在信息数据爆发式发展的今天,人们更希望用计算机帮助分析数据和理解数据,帮助他们基于丰富的数据做出决策。于是,数据挖掘——从大量数据中以非平凡的发现有用的知识就成为一种自然的需求。正是这种需求引起人们的关注,导致了数据挖掘研究的蓬勃发展。互联网及科研设备的不断发展,越来越多的海量高维数据不断产生,如果对这些数据进行挖掘也是一个巨大的挑战。分类问题作为数据挖掘中一个最重要问题,面临的问题和挑战也自然更多。针对此问题,本发明提出了一种分布式环境下的海量高维数据的快速分类方法,具有较高的参考价值和实现意义。

【发明内容】

[0003]本发明的技术任务是解决现有技术的不足,提供一种基于分布式环境的海量数据快速分类方法。
[0004]本发明的技术方案是按以下方式实现的,该一种基于分布式环境的海量数据快速分类方法,其具体分类步骤包括:
一、训练阶段;
二、分类阶段,该阶段的详细过程为:
该分类阶段的目的是形成一颗分类k叉树,树中的叶子结点对应数量相对较少的训练样本,而树干结点对应的是以此结点为根的子树包含的所有训练样本的均值样本;对于每个结点,如果样本数目大于某个阈值T,则利用K均值算法对所有训练样本进行聚类,形成k个簇,即对应该结点的k个子树;
对于新的分类样本,首先对根节点下的子树计算距离,计算方法是与该结点对应的均值样本计算距离,选择其中距离最小的一颗子树迭代此过程,直至达到某个叶子结点;
分类样本和叶子结点中的所有训练样本,计算距离,然后将距离归一化之后作为权重,进行分类投票,以投票最高的子类作为该分类样本的分类结果;
在具体样本分类时,通过主节点进行任务的分配,此外,主节点可根据一段时间每个子节点的表现及任务的完成数量指标对节点进行任务的重新分配。
[0005]所述距离归一化公式为:
【权利要求】
1.一种基于分布式环境的海量数据快速分类方法,其特征在于其具体分类步骤包括: 一、训练阶段; 二、分类阶段,该阶段的详细过程为: 该分类阶段的目的是形成一颗分类k叉树,树中的叶子结点对应数量相对较少的训练样本,而树干结点对应的是以此结点为根的子树包含的所有训练样本的均值样本;对于每个结点,如果样本数目大于某个阈值T,则利用K均值算法对所有训练样本进行聚类,形成k个簇,即对应该结点的k个子树; 对于新的分类样本,首先对根节点下的子树计算距离,计算方法是与该结点对应的均值样本计算距离,选择其中距离最小的一颗子树迭代此过程,直至达到某个叶子结点; 分类样本和叶子结点中的所有训练样本,计算距离,然后将距离归一化之后作为权重,进行分类投票,以投票最高的子类作为该分类样本的分类结果; 在具体样本分类时,通过主节点进行任务的分配,此外,主节点可根据一段时间每个子节点的表现及任务的完成数量指标对节点进行任务的重新分配。
2.根据权利要求1所述的一种基于分布式环境的海量数据快速分类方法,其特征在于:所述距离归一化公式为:屺,该算法的复杂度为Odoglr 兰 + T) = iCKlog| Ji)。
3.根据权利要求2所述的一种基于分布式环境的海量数据快速分类方法,其特征在于:各个节点之间的通信通过socket完成,各个节点之间可以是异构的。
4.根据权利要求1?3中任一所述的一种基于分布式环境的海量数据快速分类方法,其特征在于:在进行模板匹配时,距离的定义采用欧氏距离、曼哈顿距离或余弦距离。
【文档编号】G06K9/66GK103744899SQ201310725398
【公开日】2014年4月23日 申请日期:2013年12月25日 优先权日:2013年12月25日
【发明者】付兴旺 申请人:浪潮电子信息产业股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1