一种用于拟合变量联合分布的分层采样树方法及装置与流程

文档序号:28916885发布日期:2022-02-16 11:26阅读:来源:国知局

技术特征:
1.一种用于拟合变量联合分布的分层采样树方法,其特征在于,至少包括如下步骤:获取样本数据集中所有0-1取值的特征变量,并按照预设编号顺序对所述特征变量进行排列,创建对应的初始节点结构;遍历所述样本数据集中的每一个样本,按照特征变量顺序检查该样本每个特征的取值,直至检查完所述样本数据集的所有样本,生成对应的初始分层采样树;对所述初始分层采样树进行节点修正,直至所述初始分层采样树中所有节点均被遍历,得到修正后的分层采样树;通过所述修正后的分层采样树每次生成对应的一个样本,重复该采样过程,直至生成所需的样本个数,得到模拟样本数据集。2.根据权利要求1所述的用于拟合变量联合分布的分层采样树方法,其特征在于,所述遍历所述样本数据集中的每一个样本,按照特征变量顺序检查该样本每个特征的取值,直至检查完所述样本数据集的所有样本,生成对应的初始分层采样树,具体为:当检查任一特征的取值为1时,则新建一个节点并进行初始化,将当前游标指针指向的节点所对应的特征变量的域的孩子节点指针指向该新建节点,对该特征变量的域的计数字段增1,并将当前游标指针下移指向该新节点,直至检查完所述样本数据集的所有样本,生成对应的初始分层采样树。3.根据权利要求1所述的用于拟合变量联合分布的分层采样树方法,其特征在于,所述对所述初始分层采样树进行节点修正,直至所述初始分层采样树中所有节点均被遍历,得到修正后的分层采样树,包括:将所述初始分层采样树中的每个节点的计数字段修正为(0,1]的小数;对所述初始分层采样树中的每一层的各个节点的每个域所对应的计数字段值均进行求和修正;在各个节点完成所述求和修正后,分别对各个节点所对应的若干个孩子节点进行修正,直至所有节点均被遍历,得到修正后的分层采样树。4.根据权利要求3所述的用于拟合变量联合分布的分层采样树方法,其特征在于,所述求和修正,具体为:对所述初始分层采样树中的每一层中各个节点的每个域所对应的计数字段值进行求和;若和值非零,则将每个域所对应的计数字段值除以该和值进行修正;若和值为零,则跳过该节点,对下一个节点进行修正。5.根据权利要求1所述的用于拟合变量联合分布的分层采样树方法,其特征在于,所述通过所述修正后的分层采样树每次生成对应的一个样本具体为:通过所述修正后的分层采样树新建一个初始样本,其中每个特征取值为0;将当前游标指针指向分层采样树的第一个节点;随机生成一个随机数,查找该随机数在当前节点所对应的域,将初始样本的对应的域的特征值赋值为1,将当前游标指针指向该域的孩子节点;重复上一步,直至当前游标指针指向的节点为空值,完成该条样本的采样过程。6.根据权利要求1所述的用于拟合变量联合分布的分层采样树方法,其特征在于,在创建对应的节点结构之后,还包括:
对所述初始节点结构中的每个节点进行初始化操作,将每个特征变量对应的域内的指针设为空值,以及对该特征变量的域的计数字段赋值为0。7.根据权利要求1所述的用于拟合变量联合分布的分层采样树方法,其特征在于,在所述遍历所述样本数据集中的每一个样本步骤之前,还包括:将树根指针指向初始节点结构的第一层节点,并将当前游标指针指向该节点。8.一种用于拟合变量联合分布的分层采样树装置,其特征在于,包括:初始节点模块,用于获取样本数据集中所有0-1取值的特征变量,并按照预设编号顺序对所述特征变量进行排列,创建对应的初始节点结构;遍历样本模块,用于遍历所述样本数据集中的每一个样本,按照特征变量顺序检查该样本每个特征的取值,直至检查完所述样本数据集的所有样本,生成对应的初始分层采样树;节点修正模块,用于对所述初始分层采样树进行节点修正,直至所述初始分层采样树中所有节点均被遍历,得到修正后的分层采样树;模拟样本生成模块,用于通过所述修正后的分层采样树每次生成对应的一个样本,重复该采样过程,直至生成所需的样本个数,得到模拟样本数据集。9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

技术总结
本发明公开了一种用于拟合变量联合分布的分层采样树方法、装置、设备及介质,其中方法包括:获取样本数据集所有0-1取值的特征变量,按照编号顺序对特征变量进行排列,创建初始节点结构;遍历样本数据集的样本,按照特征变量顺序检查该样本每个特征的取值,直至检查完样本数据集所有样本后生成初始分层采样树;对初始分层采样树进行节点修正,直至所有节点均被遍历,得到修正后的分层采样树;通过修正后的分层采样树每次生成一个样本,重复该采样过程,直至生成所需的样本个数,得到采样样本数据集。本发明能够在拟合阶段高效捕捉样本数据集中多个0-1变量的联合分布信息,在后续推理阶段精确生成与目标样本集相同联合分布的模拟样本数据集。拟样本数据集。拟样本数据集。


技术研发人员:林熙东 杨青
受保护的技术使用者:度小满科技(北京)有限公司
技术研发日:2021.08.31
技术公布日:2022/2/15
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1