一种网络物理系统混合数据分类方法
【技术领域】
[0001] 本发明涉及一种网络物理系统数据分类方法,解决资源限制对网络物理系统不同 类型数据分类低效问题,属于计算机技术、物联网、网络物理系统交叉应用领域。
【背景技术】
[0002] 网络物理系统利用网络实现计算进程与物理进程之间的交互,一个集成计算,网 络,控制的下一代智能系统。通过3C融合和协作,实现大型工程的实时感知,动态控制,信 息传递。它注重计算资源与物理资源的紧密结合与协调,主要用于一些智能系统上如机器 人,智能导航、医疗、能源等多个重要发展领域等。
[0003] 数据挖掘是一种在海量数据中发现有用信息的技术,是现在计算机技术中热门的 方向。数据挖掘通过统计,检索,机器学习等技术实现从大量的数据中发现隐藏信息的目 标。决策树是数据挖掘分类算法的一个重要方法,是直观运用概率分布的一种图解法。决 策树的建立是用来辅助决策,是一种特殊的树型结构,在机器学习中,决策树是一个预测模 型,代表的是对象属性与对象值之间的一种映射关系。决策树中每个节点表示某个对象,而 每个分叉路径则代表的某个可能的属性值,而每个叶节点则对应从根节点到该叶节点所经 历的路径所表示的对象的值。在分类问题中使用决策树模型有很多的优点,根据决策树可 以很容易地构造出规则,而规则通常易于解释和理解。决策树模型也有一些缺点,比如处理 缺失数据时的困难,过度拟合问题的出现,以及忽略数据集中属性之间的相关性等。
【发明内容】
[0004] 技术问题:本发明目的是给出一种网络物理系统混合数据分类方法,解决在较少 的时间和空间条件下对网络物理系统不同类型数据分类低效问题,减小资源限制对于分类 效率的影响。本发明利用决策树解决网络物理系统数据分类问题。
[0005] 技术方案:本发明所述的网络物理系统混合数据分类方法包含如下过程:收集用 户输入网络物理系统数据,根据相关的逻辑判断条件,利用决策树进行数据分类。所述网络 物理系统数据可以是离散值,也可以是连续值。
[0006] 本发明所述的网络物理系统混合数据分类方法包括以下步骤:
[0007] 步骤1)收集用户输入的网络物理系统的数据记录,并设定数据记录的类型。所述 的数据记录包括数据值、属性名称、属性值,这里数据记录中不同的属性由用户指定,不同 的属性对应特定的值。所述数据记录的类型是指离散型数据和连续型数据。
[0008] 步骤2)依次选择网络物理系统数据记录构建决策树。
[0009] 步骤21)当数据记录是离散型数据,则进行如下步骤:
[0010] 步骤211)创建一个根节点,该节点包括网络物理系统当前所有离散型的数据记 录。
[0011] 步骤212)当根节点中所有数据记录的属性值都相同,则将根节点标记为叶子节 点C,并返回根节点。
[0012] 步骤213)当根节点中所有数据记录的属性值不相同,则计算每种属性的数据在 所有数据记录中出现的次数与总的数据个数的比值,将这个比值作为该种属性的信息增 益,选择具有最大信息增益的属性作为分裂属性,根据这个分裂属性将根节点分为两部分。 所述的信息增益是一种选择方式,看属性能够为分类系统带来多少信息,带来的信息越多, 该特征越重要。所述的分裂属性是指节点分裂成不同节点所依据的原则,是一个判断逻辑。
[0013] 步骤214)按照步骤211)至步骤213),对于新生成的节点递归进行相同的步骤。
[0014] 步骤215)向用户返回所生成决策树的根节点,该根节点代表所生成的决策树,这 个决策树完成对网络物理系统中离散型数据记录的分类。
[0015] 步骤22)当数据记录是连续型数据,则进行如下步骤:
[0016] 步骤221)创建一个根节点,该节点包括网络物理系统当前所有连续型的数据记 录;
[0017] 步骤222)分别计算各个数据记录作为分隔点的残差平方和。所述的计算残差平 方和的具体步骤为首先计算每一个数据记录的数据值与当前作为分隔点的数据记录的数 据值的差,再计算所有数据记录的数据值的平均值,然后计算每一个数据记录的数据值与 所有数据记录的数据值的平均值的差,最后将每一个数据记录的数据值与作为分隔点的数 据记录的数据值的差、每一个数据记录的数据值与所有数据记录的数据值的平均值的差这 两个值之间的差的平方和作为当前作为分隔点的数据记录的残差平方和。
[0018] 步骤223)选择残差平方和最小的数据记录作为最佳分隔点。所述的最佳分隔点 是指分裂节点的一种原则。
[0019] 步骤224)将小于分隔点的数据数据记录作为该分隔点的左子树;
[0020] 步骤225)将大于分隔点的数据数据记录作为该分隔点的右子树。
[0021] 步骤226)依据步骤221)至步骤224)对左子树进行构建决策树;
[0022] 步骤227)依据步骤221)至步骤224)对右子树进行构建决策树;
[0023] 步骤228)当该节点属性完全相同或只剩一个数据记录,则将该节点标记为叶节 占 .
[0024] 步骤229)选择两个相邻叶子节点,计算这两个相邻叶子节点的残差平方和,再计 算这两个相邻叶子节点合并后的残差平方和,然后比较这两个相邻叶子节点合并前后的残 差平方和,当合并后的小于合并前的,则将两个叶子节点合并为一个节点;
[0025] 步骤2210)重复步骤229),当所有相邻叶子节点都通过步骤229)进行处理完毕, 向用户返回所生成决策树的根节点,该根节点代表所生成的决策树,这个决策树完成对网 络物理系统中连续型数据记录的分类。
[0026] 有益效果:本发明提供了一种基于决策树的网络物理系统混合数据分类方法,具 有如下的有益效果:
[0027] (1)本发明所述的基于决策树的数据分类方法因为决策树算法利用分而治之的思 想,递归式地对高维度数据降维,分成一个个很容易处理的块。
[0028] (2)本发明所述的基于决策树的数据分类方法,可以将海量的数据进行数据分类, 为后续的决策判断提供科学依据,作为后续开发的基础。
[0029] (3)本发明所述的基于决策树的数据分类方法,虽然是用于最初的分析阶段,但是 相比于其他的分类方法,比较高效。
【附