基于物联网的数据挖掘方法
【技术领域】
[0001] 本发明设及物联网,特别设及一种基于物联网的数据挖掘方法。
【背景技术】
[0002] 物联网实现了用户对信息的传感、收集与感知。但利用物联网进行信息交换与通 信的过程中会产生海量的数据如射频数据、传感器数据等,该些数据不断的增多加大了用 户从中获取有用信息的难度。为了提高物联网的数据处理功能,现有技术结合应用云计算、 大数据技术,构建百万计算机集群的云模式,W分布式计算技术与存储机制,增强物联网的 计算功能。然而,现有的物联网在面对海量业务数据方面仍然不够快速地进行分析、处理、 存储、挖掘,从而无法实现有价值信息的快速提取,物联网商业决策因此尚未得到最快的服 务。
【发明内容】
[0003] 为解决上述现有技术所存在的问题,本发明提出了一种基于物联网的数据挖掘方 法,包括:
[0004] 一种基于物联网的数据挖掘方法,用于处理物联网中的射频标签数据进行分类, 其特征在于,包括:
[0005] 在数据预处理过程中将样本属性量化为数值类型,通过属性类对训练样本进行 K-means聚类,在不同类别的子集之间进行类间调整;根据落入不同分类区域的样本,采用 相应的处理过程来分类样本。
[0006] 优选地,所述在不同类别的子集之间进行类间调整,进一步包括:
[0007] 若聚类后的子集存在空间重叠,则;
[000引 step1设一个集合U=空集0。
[0009] Step2对于任意两个不属于同一类的子集A和B,若存在实例集{xi,X2,. . .,x。}属 于子集A,且每一个实例X有IX,A|>IX,B|,其中IX,A|表示实例X到子集A的马氏距离, 其中n是子集的实例数,或者存在实例集{xi,X2,. . .,X。}属于B,且实例集中{xi,X2,..., X。}的每一个实例X有IX,AI<IX,BI,若实例集{xi,X,,. . .,X。}的实例数大于设置的参数 阔值0,则将A和B集合加入集合U;
[0010] Step3如果U=0,算法结束;否则转Step4 ;
[0011] Step4将U集合中的子集按属性类分别聚类为2个子集,若已分类实例集{xi, X2,...,X。},则保留两个新子集,置集合U为空,转至St巧2,若没有分类,跳转至St巧4。 [001引steps若类域空间中的子集所有样本的{xi,X,,...,X。}都相同,则将该子集空间 称为稳定区域;若子集所有样本的{Xi,X,,...,X。}属于不同的类别,则将该子集的空间确 定为临界区域,将样本空间中,除了稳定区域和临界区域剩下的所有空间,称为增量处理区 域;
[0013] 对于临界区域,统计落入各个临界区域内每一个类别的实例数,用其中最大样本 实例数的类别代表该临界区域的类别;对于稳定区域直接分类给该稳定子集所代表的类 域;对于增量处理区域,利用增量处理过程来分类样本。
[0014] 优选地,所述对于增量处理区域,利用增量处理方法来分类样本,进一步包括:
[0015] 步骤1 ;对于落入增量处理区域的样本集合S,若不是首次处理,跳转至步骤2,若 是第一次处理,则将集合S按照属性类,使用欧式距离作为度量方式,求出中屯、向量集合P, 对集合S分类,生成错误分类集合a,随机地W集合a中的实例X为新增加的中屯、向量,再 次分类集合S,若新增加的中屯、向量的适应度r〉o,则实例X为新的中屯、向量,加入集合P, 从集合S中去除正确分类的所有实例,重复该步骤,直到查找所有的新增中屯、向量;
[0016] 步骤2 ;判断落入增量处理区域空间的实例总数SUM是否达到预设的样本总数阔 值〇,若达到,落入增量处理区域的实例总数SUM= 0,对代表样本集合J分类,重新进行区 域划分,若没有达到阔值〇,重新计算落入增量处理区域的实例总数SUM,在已有的中屯、向 量集合P基础上,分类集合以得到错误分类集合n,将代表样本集合加入新训练集合,随机 地W集合n中的实例X作为新增加的中屯、向量,再次分类新训练样本,若实例X的中屯、向 量适应度r〉〇,则实例X作为新的中屯、向量加入集合P,直到查找所有的新增中屯、向量;
[0017] 步骤3,重新从落入增量处理区域的样本,选取代表样本,最后保留代表样本。
[001引本发明相比现有技术,具有W下优点:
[0019] 本发明提出了一种基于物联网的数据挖掘方法,采用分布式处理方式实现物联网 海量数据的分析和挖掘,有效提高了物联网中的数据处理效率。
【附图说明】
[0020] 图1是根据本发明实施例的基于物联网的数据挖掘方法的流程图。
【具体实施方式】
[0021] 下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描 述。结合该样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权 利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节 W便提供对本发明的透彻理解。出于示例的目的而提供该些细节,并且无该些具体细节中 的一些或者所有细节也可W根据权利要求书实现本发明。
[0022] 本发明的一方面提供了一种基于物联网的数据挖掘方法。图1是根据本发明实施 例的基于物联网的数据挖掘方法流程图。
[0023] 处理物联网海量数据挖掘中的射频标签动态异构数据,需要基于云计算技术与数 据挖掘技术,W化doop为平台,利用Map/Re化ce模式来实现数据挖掘处理。具体的操作流 程包括;①过滤、转换、合并物联网中的射频标签数据,在分布式系统中保存。应用副本策略 将数据文件的副本在同一机构的不同节点上保存,或在不同机构的某一节点上保存。②主 程序在执行任务中负责创建与管理控制的任务,空闲状态的工作程序会得到相关分配任务 且结合Map/Re化ce进行操作处理,之后通过主程序汇总最终结果及向用户反馈结果。
[0024] 本发明的数据分析系统包括数据层、处理策略层、处理层。系统的主控节点是主程 序,任务是交互用户、调度与管理整个系统节点。系统Map/Re化ce化的数据处理策略被存 储在一部分的节点中,利于实现挖掘的高效性。在分布式存储系统中,由1个主节点、若干 计算节点构成,其中名字节点负责接收用户的请求,同时向用户返回存储数据的计算节点 的IP地址,并向其它接收副本的计算节点发送通知。
[0025] 数据分析处理中的算法都进行了Map/Re化ce化,算法都集成在系统处理策略层 的策略存储节点中。在使用过程中借助云计算平台,利用主程序来进行控制与管理,根据客 户需求向相关节点传送算法来计算。
[0026] 处理层即任务调度层,主程序可调度系统中所有的分析程序。具体的数据任务 处理流程;①利用主程序查找空闲的计算节点,并将其放置在空闲节点列表中;②由主程 序来接收用户请求,并获取计算节点各个数据块中的存储信息;⑨主程序向处理策略存储 节点申请需要的处理策略,而后通过处理策略存储节点将所需算法传送给计算节点;④在 皿FS服务器中根据计算任务启动工作,将工作完成结果传送给主程序,主程序经过汇总生 成最终结果并反馈给用户,该过程因不必进行数据重组与传送,所W系统每一节点的计算 和存储的文件传输效率大大提高。
[0027] 在上述处理层中,数据计算和存储的整合及迁移处理过程借助Map/Re化ce模式, 具体的实施策略是在本地计算机上进行操作,Map在每一节点上的操作都具有独立性且不 存在数据传输,只在Re化ce过程中需要将计算结果传送给主程序,利于实现计算和数据的 同步密集及计算向存储的迁移,数据传输时间大大加快。同时,结合应用文件副本策略,预 防出现节点失效时计算节点存有一个副本节点提供给主程序,该副本节点会实现计算迁移 (该过程中数据不会在计算节点间相互传递)并重新开启数据处理,如此不必重启全部的 工作,数据传输效率大大提高。
[002引具体的Map/Re化ce操作过程如下;
[0029] ①依据