一种异构特征混合提取方法

文档序号:27913929发布日期:2021-12-11 10:11阅读:225来源:国知局
一种异构特征混合提取方法

1.本发明属于模式识别和机器学习领域,特指特征提取。
技术背景
2.特征提取是进行模式识别和机器学习的预处理步骤,只有准确提取了数据特征才能进行正确的分类。同构数据的特征提取操作比较容易,但是,对于数值特征属性和类别特征属性共同组成的异构数据在特征提取上就需要混合提取方法。


技术实现要素:

3.本发明的目的是提供一种异构特征混合提取方法,以解决模式识别和机器学习领域中数据混合特征的提取问题。
4.本发明为实现上述目的,采取的技术方案如下:异构数据属性决策表中有数值特征属性和类别特征属性,将异构数据属性划分成数值特征属性空间和类别特征属性空间,计算样本在两个空间并集上的粒度,再计算目标子集的近似上限和近似下限,进而可以提取混合特征。
5.本发明相对于现有技术的有益效果是:可以解决异构特征数据的混合提取,为数据分类做好预处理准备工作。
附图说明
6.图1是异构决策表。
具体实施方式
7.一种异构特征混合提取方法,该方法具体为:一个结构化数据信息系统的决策表可以表示为:
8.dt=<u,a〉
ꢀꢀꢀꢀꢀꢀꢀ
(1)
9.其中,全域u是一个非空有限样本集{x1,x2,

x
n
},a是一个特征属性集合{a1,a2,

a
m
},n和m是任意自然数。
10.令:a=c∪d,其中,c是条件属性合计,d是决策属性。对于任意的x
i
∈u和则x
i
在特征空间b上的邻域δ
b
(x
i
)可以表示为:
11.δ
b
(x
i
)={x
j
|x
j
∈u,δ
b
(x
i
,x
j
)≤δ}
ꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
12.其中,δ是距离函数,这个距离函数可以是manhattan距离、 euclidean距离和chebychev距离,视决策表里具体属性情况决定使用哪一种距离函数;δ是门限值,取值为任意的非负实数,门限值决定了邻域的粒度尺度;i和j是任意的正整数。
13.异构特征属性集合和分别表示数值特征属性集合和类别特征属性集合,则样本x在特征属性集合b1、b2和b1∪b2上的邻域粒度可以表示为:
[0014][0015][0016][0017]
其中,操作∧表示合取,i是任意的正整数;式(3)表示数值特征属性,式(4)表示类别特征属性,式(5)表示数值和类别的混合属性;根据式(3)和公式(4),样本在类别特征上具有相同的值,而在数值特征上的距离小于门限值δ。
[0018]
对于任意的则x在决策表<u,a>中目标的两个子集,即上限和下限近似可表示为:
[0019][0020][0021]
即为提取的特征集。
[0022]
一个异构决策表,数据集由数值特征属性和类别特征属性组成,如图1表中所示,numerical_attri为数值特征属性,categorical_attri 为类别特征属性,decision为决策属性。
[0023]
数值特征属性类别特征属性门限值δ=0.1,采用euclidean距离,按照式(1)在数值特征属性上计算样本的邻域粒度:征属性上计算样本的邻域粒度:
[0024]
按照式(2)在类别特征属性上计算样本的邻域粒度:
[0025]
决策属性的两个子集分别为:x1={x1,x3,x6},x2={x2,x4,x5};
[0026]
按照式(3)在数值特征属性和类别特征属性上计算样本的邻域粒度:按照式(3)在数值特征属性和类别特征属性上计算样本的邻域粒度:按照式(3)在数值特征属性和类别特征属性上计算样本的邻域粒度:
[0027]
按照式(4)和式(5)在数值特征属性和类别特征属性上计算x1和x2的近似上限和近似下限:ax1={x1,x3,x6},ax2={x2,x4,x5},
[0028]
和为提取的特征集。
[0029]
以上所述,仅为本发明的较佳的具体实现方式,但本发明的保护范围不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,
都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。


技术特征:
1.一种异构特征混合提取方法,其特征在于:该方法具体为:异构特征属性集合和分别表示数值特征属性集合和类别特征属性集合,则样本x在特征属性集合b1、b2和b1∪b2上的邻域粒度可以表示为:上的邻域粒度可以表示为:上的邻域粒度可以表示为:其中,操作∧表示合取,i是任意的正整数;式(1)表示数值特征属性,式(2)表示类别特征属性,式(3)表示数值和类别的混合属性;根据式(1)和式(2),样本在类别特征上具有相同的值,而在数值特征上的距离小于门限值δ;对于任意的则x在决策表<u,a>中目标的两个子集,即上限和下限近似表示为:则x在决策表<u,a>中目标的两个子集,即上限和下限近似表示为:则x在决策表<u,a>中目标的两个子集,即上限和下限近似表示为:即为提取的特征集。

技术总结
本发明公开了一种异构特征混合提取的方法,属于模式识别和机器学习领域。异构数据属性决策表中有数值特征属性和类别特征属性,将异构数据属性划分成数值特征属性空间和类别特征属性空间,计算样本在两个空间并集上的粒度,再计算目标子集的近似上限和近似下限,进而可以提取混合特征。该异构特征混合提取的方法是模式识别和机器学习领域关键的预处理步骤,能够为异构特征属性数据的正确分类提供准确的混合特征。确的混合特征。确的混合特征。


技术研发人员:乔付 刘瑶 郝博麟 刘忠艳 姜微 熊建芳
受保护的技术使用者:岭南师范学院
技术研发日:2021.08.24
技术公布日:2021/12/10
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1