一种基于多阶段分层采样的层次聚类方法和系统的制作方法
【专利摘要】本发明公开一种基于多阶段分层采样的层次聚类方法和系统,该方法包括:将随机采样得到的初始样本集作为种子构建分层查询策略,并基于分层的估计方差被最小化原则,为每层查询策略分配相应的样本个数;利用分层查询策略对数据源进行分层采样,得到样本代表性较高的代表性样本集;对代表性样本集中的样本进行聚类,基于聚类所得簇的边界点对数据源进行二次采样,得到样本不确定性较高不确定性样本集;基于由初始样本集、代表性样本集及不确定性样本集构成的合集进行聚类,以估计数据源的聚类中心。可见,本发明通过多阶段分层采样保证了样本具有较高的代表性、不确定性,规避了随机采样样本代表性较差的问题,进而提高了数据源聚类的准确度。
【专利说明】一种基于多阶段分层采样的层次聚类方法和系统【技术领域】
[0001]本发明属于De印Web (深度网络)数据处理【技术领域】,尤其涉及一种基于多阶段分层采样的层次聚类方法和系统。
【背景技术】
[0002]近年来,作为数据传播的一种方式,Deep Web (数据源)变得越来越流行,相对于Surface Web (表层网络),Deep Web中蕴含了更高质量的数据,从而在Deep Web上进行数据挖掘更具价值。而聚类作为数据挖掘研究领域一个非常活跃的研究课题,可便于了解数据的分布情况,进而可以为后续对De印Web数据的应用提供参考依据,因此对De印Web数据源进行聚类成为该领域的研究热门。
[0003]Deep Web数据存储在后台数据库,只能通过查询接口提交查询获取相应数据,无法直接获取后台全部数据。基于此种情况,当前,对Deep Web数据源进行聚类一般采用如下方式:首先从Deep Web中进行随机采样,然后在随机采样获得的样本上执行传统的聚类算法,例如K-Means或者层次聚类等,以估算出Deep Web数据源的聚类中心。但该方式由于采用随机采样导致获取的样本代表性较差、信息含量较低、进而导致聚类准确度较低。
【发明内容】
[0004]有鉴于此,本 发明的目的在于提供一种基于多阶段分层采样的层次聚类方法和系统,以克服现有由于采用随机采样而导致的样本代表性较差、聚类准确度较低的问题。
[0005]为此,本发明公开如下技术方案:
[0006]一种基于多阶段分层采样的层次聚类方法,包括:
[0007]基于预设的输入属性集,从数据源中随机采样预设个数的样本,所采集的预设个数的样本构成的集合标记为初始样本集;
[0008]利用所述初始样本集,构建基于所述输入属性集的M层查询策略,并基于分层的估计方差被最小化原则,为所述M层查询策略中的每层查询策略分配相应的样本个数,其中,所述估计方差基于估计均值获取,所述估计均值具体为所述初始样本集输出属性值的平均值,所述M为大于I的自然数;
[0009]利用所述M层查询策略,对所述数据源进行分层采样,得到代表性较高的样本,每层采样的样本个数为该层采样所使用的查询策略被分配的样本个数,所述分层采样得到的所有样本构成代表性样本集;
[0010]对所述代表性样本集中的各样本进行聚类,得到k个簇,其中,每个簇包括至少一个样本,所述k为大于I的自然数;
[0011]基于所述k个簇的边界点,对所述数据源进行边界点采样,得到不确定性较高的样本,所述边界点采样得到的所有样本构成不确定性样本集;
[0012]对由所述初始样本集、代表性样本集以及不确定性样本集构成的合集中的样本进行聚类,并估计聚类中心,估计出的聚类中心作为所述数据源的聚类中心。[0013]优选的,所述利用所述初始样本集构建基于所述输入属性集的M层查询策略之前还包括:
[0014]设置迭代参数X,并为X赋值I。
[0015]优选的,所述对所述k个簇进行边界点采样,得到不确定性样本集之后,还包括:
[0016]判断X的值是否小于预设的迭代次数β ;
[0017]当判断结果为小于时,则X值加1,将所述初始样本集、所述代表性样本集以及所述不确定性样本集进行合集,将所述合集替代所述初始样本集作为新的初始样本集,并转至执行步骤:利用所述初始样本集,构建基于所述输入属性集的M层查询策略;
[0018]当判断结果为不小于时,则转至执行步骤:对由所述初始样本集、代表性样本集以及不确定性样本集构成的合集中的样本进行聚类,并估计聚类中心,估计出的聚类中心作为所述数据源的聚类中心。
[0019]优选的,所述利用所述初始样本集,构建基于所述输入属性集的M层查询策略具体包括:
[0020]利用所述初始样本集,构建基于所述输入属性集的策略树,所述策略树中根节点除外的各层与所述输入属性集中的各输入属性 对应,所述策略树中每一节点对应相应输入属性的一个域值,策略树每层中各节点对应的输入属性域值不同;
[0021]获取所述策略树中每一根节点至叶子节点的路径上包括的各个输入属性及所述输入属性对应的域值,将所述各个输入属性及其对应的域值标记为该叶子节点对应的查询策略。
[0022]优选的,所述方法,还包括:
[0023]抑制策略树构建过程中对策略树层次的过度分层。
[0024]优选的,所述数据源具体为De印Web数据源。
[0025]一种基于多阶段分层采样的层次聚类系统,包括:
[0026]随机采样模块,用于基于预设的输入属性集,从数据源中随机采样预设个数的样本,所采集的预设个数的样本构成的集合标记为初始样本集;
[0027]分层查询策略构建模块,用于利用所述初始样本集,构建基于所述输入属性集的M层查询策略,并基于分层的估计方差被最小化原则,为所述M层查询策略中的每层查询策略分配相应的样本个数,其中,所述估计方差基于估计均值获取,所述估计均值具体为所述初始样本集输出属性值的平均值,所述M为大于I的自然数;
[0028]分层采样模块,用于利用所述M层查询策略,对所述数据源进行分层采样,得到代表性较高的样本,每层采样的样本个数为该层采样所使用的查询策略被分配的样本个数,所述分层采样得到的所有样本构成代表性样本集;
[0029]初始聚类模块,用于对所述代表性样本集中的各样本进行聚类,得到k个簇,其中,每个簇包括至少一个样本,所述k为大于I的自然数;
[0030]边界采样模块,用于基于所述k个簇的边界点,对所述数据源进行边界点采样,得到不确定性较高的样本,所述边界点采样得到的所有样本构成不确定性样本集;
[0031]聚类模块,用于对由所述初始样本集、代表性样本集以及不确定性样本集构成的合集中的样本进行聚类,并估计聚类中心,估计出的聚类中心作为所述数据源的聚类中心。
[0032]优选的,所述系统还包括:[0033]设置模块,用于设置迭代参数X,并为X赋值1,所述设置模块与所述随机采样模块以及所述分层查询策略构建模块相连;
[0034]判断模块,用于判断X的值是否小于预设的迭代次数β,若判断结果为是,则X值加1,将所述初始样本集、所述代表性样本集以及所述不确定性样本集进行合集,将所述合集替代所述初始样本集作为新的初始样本集,并转至执行所述分层查询策略构建模块;若判断结果为否,则转至执行所述聚类模块。
[0035]优选的,所述分层查询策略构建模块具体包括:
[0036]策略树构建单元,用于利用所述初始样本集,构建基于所述输入属性集的策略树,所述策略树中根节点除外的各层与所述输入属性集中的各输入属性一一对应,所述策略树中每一节点对应相应输入属性的一个域值,策略树每层中各节点对应的输入属性域值不同;
[0037]查询策略获取单元,用于获取所述策略树中每一根节点至叶子节点的路径上包括的各个输入属性及所述输入属性对应的域值,将所述各个输入属性及其对应的域值标记为该叶子节点对应的查询策略。
[0038]优选的,所述分层查询策略构建模块还包括:
[0039]抑制单元,用于抑制策略树构建过程中对策略树层次的过度分层。
[0040]由于本发明采用多阶段分层采样,通过将随机采样所得的初始样本集作为种子,利用该初始样本集构建用于对数据源进行分层采样的分层查询策略,以及基于分层的估计方差被最小化原则,为每层查询策略分配相应的样本个数,保证了对数据源进行分层采样所得样本的代表性;并通过对代表性样本集进行聚类发现聚类所得簇的边界点,基于边界点对数据源进行二次采样,保证了采集样本的不确定性;最终采集的样本包括了初始样本集、代表性样本集以及不确定性样本集。可见,本发明采用的多阶段分层采样获得的样本代表性较高、不确定性较高,具有较高的信息含量,规避了现有由于采用随机采样获取样本而导致样本代表性较差的问题,后续基于由初始样本集、代表性样本集以及不确定性样本集构成的合集进行聚类,估计数据源的聚类中心,提高了数据源聚类的准确度。
【专利附图】
【附图说明】
[0041]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0042]图1是本发明实施例一提供的基于多阶段分层采样的层次聚类方法的一种流程图;
[0043]图2是本发明实施例一提供的查询策略的构建过程流程图;
[0044]图3是本发明实施例一提供的策略树的实例示意图;
[0045]图4是本发明实施例二提供的基于多阶段分层采样的层次聚类方法的另一种流程图;
[0046]图5是本发明实施例四提供的基于多阶段分层采样的层次聚类系统的一种结构示意图;[0047]图6是本发明实施例四提供的基于多阶段分层采样的层次聚类系统的另一种结构示意图。
【具体实施方式】
[0048]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0049]本发明公开一种基于多阶段分层采样的层次聚类方法和系统,适用于对Deep Web数据源进行聚类,估算De印Web数据源的聚类中心。
[0050]由于De印Web的后台数据库无法直接获得,想要获得整个De印Web数据源的数据并不现实,因此,对Deep Web进行聚类必须建立在采样获得的样本之上,本发明旨在通过从Deep Web中采集信息含量较高的、能够反映Deep Web数据分布的样本,对采集的样本进行聚类,来估算Deep Web的聚类中心,以提高聚类的准确度。由于一个样本的代表性越高,此样本对于提高聚类的效果就越有帮助,而一个样本的不确定性越大时,表明该样本的信息含量越高,能有效提高聚类的准确度、精度,因此,本发明以样本的代表性、不确定性作为衡量样本信息含量的指标。
[0051]在Deep Web环境下,考虑输出属性OS=IO1, O2,...,0q}的分布时,一般将OS认为是统计变量。因此,当一个样本的输出属性平均值与真实环境下输出属性的平均值非常接近时,可认为此样本为代表性样本。由于Deep Web数据只能通过查询接口提交查询获取,无法直接获取后台全部数据,从而导致输出属性的真实平均值无法直接获取,所以目标转化为寻找对输出属性平均值的一个较好的估计。以下将通过各实施例对本发明的方法和系统进行详细说明。
[0052]实施例一
[0053]本发明实施例一公开了一种基于多阶段分层采样的层次聚类方法,如图1所示,该方法包括:
[0054]S1:基于预设的输入属性集,从数据源中随机采样预设个数的样本,所采集的预设个数的样本构成的集合标记为初始样本集。
[0055]其中,数据源可以是无法直接获取、而需要通过查询接口提交查询获取的后台数据,本实施例中,数据源具体为Deep Web数据源。
[0056]本步骤SI从Deep Web中随机采集预设个数的样本,一般情况下,此阶段的随机采样的样本个数为实现聚类共需采样样本个数的一半。本实施例中,假设实现对目标DeepWeb (数据源)进行聚类共需采集2X个样本,则此阶段从该Deep Web中随机采样X个样本,其中,X为大于I的自然数。
[0057]S2:利用所述初始样本集,构建基于所述输入属性集的M层查询策略,并基于分层的估计方差被最小化原则,为所述M层查询策略中的每层查询策略分配相应的样本个数,其中,所述估计方差基于估计均值获取,所述估计均值具体为所述初始样本集输出属性值的平均值,所述M为大于I的自然数。
[0058]其中,请参见图2,利用初始样本集,构建基于输入属性集的M层查询策略具体包括:
[0059]S201:利用所述初始样本集,构建基于所述输入属性集的策略树,所述策略树中根节点除外的各层与所述输入属性集中的各输入属性一一对应,所述策略树中每一节点对应相应输入属性的一个域值,策略树每层中各节点对应的输入属性域值不同;
[0060]具体地,对于目标Deep Web, IS=U1, I2,..., IpI表不输入属性的集合,OS=IO1, O2, , OJ表示输出属性的集合,其中,每个输入属性关联相应的属性取值领域(包括一定个数的域值)。
[0061]本步骤S2以随机采样所得的初始样本集为种子,利用该初始样本集构建用于对Deep Web进行分层采样的各层查询策略。具体地,利用初始样本集通过对输入属性进行分层构建一棵查询空间的策略树,最终查询策略在该树的叶子节点上获取,策略树的构建过程如下:
[0062]首先,创建根节点,其中,根节点对应包含全部查询策略的查询空间。
[0063]其次,通过分裂上层节点的查询空间获取下层节点,实现获取策略树的各层节点,最终实现构建策略树。策略树构建过程中,对于树中待分裂的某一节点(待分裂时刻,该节点为当前树中的叶子节点),Q表示其对应的查询空间,它由输入属性的集合组成,记为:SI,该叶子节点LN关联的潜在分裂输入属性PI=IS-SI, PI包含那些没有包含在Q中的输入属性的集合。在LN的查询子空间下,输出属性Oj e OS的方差可以通过公式(I)计算:
[0064]
【权利要求】
1.一种基于多阶段分层采样的层次聚类方法,其特征在于,包括: 基于预设的输入属性集,从数据源中随机采样预设个数的样本,所采集的预设个数的样本构成的集合标记为初始样本集; 利用所述初始样本集,构建基于所述输入属性集的M层查询策略,并基于分层的估计方差被最小化原则,为所述M层查询策略中的每层查询策略分配相应的样本个数,其中,所述估计方差基于估计均值获取,所述估计均值具体为所述初始样本集输出属性值的平均值,所述M为大于I的自然数; 利用所述M层查询策略,对所述数据源进行分层采样,得到代表性较高的样本,每层采样的样本个数为该层采样所使用的查询策略被分配的样本个数,所述分层采样得到的所有样本构成代表性样本集; 对所述代表性样本集中的各样本进行聚类,得到k个簇,其中,每个簇包括至少一个样本,所述k为大于I的自然数; 基于所述k个簇的边界点,对所述数据源进行边界点采样,得到不确定性较高的样本,所述边界 点采样得到的所有样本构成不确定性样本集; 对由所述初始样本集、代表性样本集以及不确定性样本集构成的合集中的样本进行聚类,并估计聚类中心,估计出的聚类中心作为所述数据源的聚类中心。
2.根据权利要求1所述的方法,其特征在于,所述利用所述初始样本集构建基于所述输入属性集的M层查询策略之前还包括: 设置迭代参数X,并为X赋值I。
3.根据权利要求2所述的方法,其特征在于,所述对所述k个簇进行边界点采样,得到不确定性样本集之后,还包括: 判断X的值是否小于预设的迭代次数β ; 当判断结果为小于时,则X值加1,将所述初始样本集、所述代表性样本集以及所述不确定性样本集进行合集,将所述合集替代所述初始样本集作为新的初始样本集,并转至执行步骤:利用所述初始样本集,构建基于所述输入属性集的M层查询策略; 当判断结果为不小于时,则转至执行步骤:对由所述初始样本集、代表性样本集以及不确定性样本集构成的合集中的样本进行聚类,并估计聚类中心,估计出的聚类中心作为所述数据源的聚类中心。
4.根据权利要求1-3任意一项所述的方法,其特征在于,所述利用所述初始样本集,构建基于所述输入属性集的M层查询策略具体包括: 利用所述初始样本集,构建基于所述输入属性集的策略树,所述策略树中根节点除外的各层与所述输入属性集中的各输入属性对应,所述策略树中每一节点对应相应输入属性的一个域值,策略树每层中各节点对应的输入属性域值不同; 获取所述策略树中每一根节点至叶子节点的路径上包括的各个输入属性及所述输入属性对应的域值,将所述各个输入属性及其对应的域值标记为该叶子节点对应的查询策略。
5.根据权利要求4任意一项所述的方法,其特征在于,还包括: 抑制策略树构建过程中对策略树层次的过度分层。
6.根据权利要求1所述的方法,其特征在于,所述数据源具体为DeepWeb数据源。
7.一种基于多阶段分层采样的层次聚类系统,其特征在于,包括: 随机采样模块,用于基于预设的输入属性集,从数据源中随机采样预设个数的样本,所采集的预设个数的样本构成的集合标记为初始样本集; 分层查询策略构建模块,用于利用所述初始样本集,构建基于所述输入属性集的M层查询策略,并基于分层的估计方差被最小化原则,为所述M层查询策略中的每层查询策略分配相应的样本个数,其中,所述估计方差基于估计均值获取,所述估计均值具体为所述初始样本集输出属性值的平均值,所述M为大于I的自然数; 分层采样模块,用于利用所述M层查询策略,对所述数据源进行分层采样,得到代表性较高的样本,每层采样的样本个数为该层采样所使用的查询策略被分配的样本个数,所述分层采样得到的所有样本构成代表性样本集; 初始聚类模块,用于对所述代表性样本集中的各样本进行聚类,得到k个簇,其中,每个簇包括至少一个样本,所述k为大于I的自然数; 边界采样模块,用于基于所述k个簇的边界点,对所述数据源进行边界点采样,得到不确定性较高的样本,所述边界点采样得到的所有样本构成不确定性样本集; 聚类模块,用于对由所述初始样本集、代表性样本集以及不确定性样本集构成的合集中的样本进行聚类,并估计聚类中心,估计出的聚类中心作为所述数据源的聚类中心。
8.根据权利要求7所述的系统,其特征在于,还包括: 设置模块,用于设置迭代参数X,并为X赋值1,所述设置模块与所述随机采样模块以及所述分层查询策略构建模块相连; 判断模块,用于判断X的值是 否小于预设的迭代次数β,若判断结果为是,则X值加1,将所述初始样本集、所述代表性样本集以及所述不确定性样本集进行合集,将所述合集替代所述初始样本集作为新的初始样本集,并转至执行所述分层查询策略构建模块;若判断结果为否,则转至执行所述聚类模块。
9.根据权利要求7或8任意一项所述的系统,其特征在于,所述分层查询策略构建模块具体包括: 策略树构建单元,用于利用所述初始样本集,构建基于所述输入属性集的策略树,所述策略树中根节点除外的各层与所述输入属性集中的各输入属性一一对应,所述策略树中每一节点对应相应输入属性的一个域值,策略树每层中各节点对应的输入属性域值不同;查询策略获取单元,用于获取所述策略树中每一根节点至叶子节点的路径上包括的各个输入属性及所述输入属性对应的域值,将所述各个输入属性及其对应的域值标记为该叶子节点对应的查询策略。
10.根据权利要求9所述的系统,其特征在于,所述分层查询策略构建模块还包括: 抑制单元,用于抑制策略树构建过程中对策略树层次的过度分层。
【文档编号】G06F17/30GK103699678SQ201310752850
【公开日】2014年4月2日 申请日期:2013年12月31日 优先权日:2013年12月31日
【发明者】赵朋朋, 刘袁柳, 吴健, 鲜学丰, 崔志明 申请人:苏州大学