影响分类业务的特征组合确定方法、装置、设备及介质与流程

文档序号:38238201发布日期:2024-06-06 19:12阅读:31来源:国知局
影响分类业务的特征组合确定方法、装置、设备及介质与流程

本技术涉及信息,特别是涉及一种影响分类业务的特征组合确定方法、装置、设备及介质。


背景技术:

1、分类模型是机器学习中常用的一种模型,它用于将数据集中的样本分成不同的类别,广泛应用于各种领域。例如在生物学范畴内,分类模型可以通过对温度、土壤矿物质含量、植物体内生长激素含量、土壤湿度等信息进行分析来判断植物生长情况或者农作物是否可以丰收等分类结果;还可以通过动物的栖息环境、体重、体内激素含量等来分析动物的健康情况等。然而在分类业务中,尤其是针对一些较为复杂的分类业务,输入至分类模型中的特征数据有许多种类,人们往往无法有效确定影响该分类业务的数据有哪些种类,分类模型需要对每一种特征数据进行分析处理,会造成分类模型的运算量巨大,影响分类模型的预测效率。因此如何确定影响分类业务的特征数据,成为亟待解决的问题。


技术实现思路

1、本技术实施例的目的在于提供一种影响分类业务的特征组合确定方法、装置、设备及介质,以用以实现确定影响分类业务的特征数据。具体技术方案如下:

2、在本技术实施例的第一方面,提供一种影响分类业务的特征组合确定方法,所述方法包括:

3、获取多个样本对象的特征数据及标签信息,其中,所述特征数据包括多个生物标志物项目的生物信息及多个属性项目的属性信息,所述标签信息表示所述样本对象在目标分类业务上分类结果的真值;

4、在所述多个生物标志物项目及所述多个属性项目中,通过排列组合的方式进行项目组合的选取,得到多组项目组合;

5、获取待训练的分类模型;

6、针对每一组项目组合,将所述样本对象在该组项目组合下的特征数据作为分类模型的输入,将所述样本对象的标签信息作为分类模型预测的真值,对分类模型进行训练,得到该组项目组合下训练后的分类模型;

7、分别确定各项目组合下训练后的分类模型的第一准确率,将第一准确率最高的分类模型训练所使用的项目组合作为目标项目组合。

8、在一种可能的实施方式中,所述方法还包括:

9、将所述多个样本对象划分为样本训练集和样本测试集;

10、所述针对每一组项目组合,将所述样本对象在该组项目组合下的特征数据作为分类模型的输入,将所述样本对象的标签信息作为分类模型预测的真值,对分类模型进行训练,得到该组项目组合下训练后的分类模型;包括:

11、针对每一组项目组合,在所述样本训练集中选取样本对象,将当前选取的样本对象在该组项目组合下的特征数据输入到分类模型中,得到当前分类结果;

12、根据当前选取的样本对象的标签信息及当前分类结果,调整分类模型的参数,得到该组项目组合下训练后的分类模型;

13、所述分别确定各项目组合下训练后的分类模型的第一准确率,包括:

14、针对每一组项目组合,利用所述样本测试集中各样本对象在该组项目组合下的特征数据及分类标签,确定该项目组合下训练后的分类模型的第一准确率。

15、在一种可能的实施方式中,所述样本训练集包括n个样本训练子集,所述方法还包括:

16、在所述n个样本训练子集中,选取第i个样本训练子集得到超参数验证子集,其中,所述n个样本训练子集中除当前的超参数验证子集外的其他样本训练子集为超参数训练子集,i的初始值为1;

17、针对每一组项目组合,利用当前超参数训练子集中各样本对象在该组项目组合下的特征数据及分类标签,分别对不同超参数下的分类模型进行训练,得到该项目组合的不同超参数下分类模型;

18、利用当前超参数验证子集中各样本对象在该项目组合下的特征数据及分类标签,分别确定该项目组合的不同超参数下分类模型的第二准确率;

19、将i增加1,返回执行步骤:针对每一组项目组合,利用当前超参数训练子集中各样本对象在该组项目组合下的特征数据及分类标签,分别对不同超参数下的分类模型进行训练,得到该项目组合的不同超参数训练的分类模型,直至i=n;

20、针对每一组项目组合,分别计算该项目组合的各超参数下分类模型第二准确率的平均值,选取平均值最高的分类模型的超参数,作为该项目组合下分类模型的超参数。

21、在一种可能的实施方式中,所述分类模型包括第一分类模型、第二分类模型及第三分类模型,所述第一分类模型采用线性分类算法分类器,所述第二分类模型采用非线性分类算法分类器,所述第三分类模型采用多层感知器分类器。

22、在一种可能的实施方式中,所述多个生物标志物项目的生物信息包括多个生物标志物项目的生物标志物浓度,其中,所述多个生物标志物项目的生物标志物浓度包括aβ40、aβ42、p-tau181、p-tau217、nfl中的至少两种;所述多个属性项目的属性信息包括性别信息、年龄信息和受教育程度信息中的至少两种。

23、在一种可能的实施方式中,所述方法还包括:

24、针对每一组项目组合,将该组项目组合下中的非连续属性项目进行数值化转换,和/或将该组项目组合下的生物标志物项目进行比值计算,得到预处理后的特征数据;

25、其中,所述分类模型是利用预处理后的特征数据训练的。

26、在本技术实施例的第二方面,提供一种影响分类业务的特征组合确定装置,所述装置包括:

27、信息获取模块,用于获取多个样本对象的特征数据及标签信息,其中,所述特征数据包括多个生物标志物项目的生物信息及多个属性项目的属性信息,所述标签信息表示所述样本对象在目标分类业务上分类结果的真值;

28、排列组合模块,用于在所述多个生物标志物项目及所述多个属性项目中,通过排列组合的方式进行项目组合的选取,得到多组项目组合;

29、分类模型获取模块,用于获取待训练的分类模型;

30、分类模型训练模块,用于针对每一组项目组合,将所述样本对象在该组项目组合下的特征数据作为分类模型的输入,将所述样本对象的标签信息作为分类模型预测的真值,对分类模型进行训练,得到该组项目组合下训练后的分类模型;

31、目标特征组合确定模块,用于分别确定各项目组合下训练后的分类模型的第一准确率,将第一准确率最高的分类模型训练所使用的项目组合作为目标项目组合。

32、在一种可能的实施方式中,所述装置还包括:

33、样本对象划分模块,用于将所述多个样本对象划分为样本训练集和样本测试集;

34、所述分类模型训练模块;包括:

35、样本对象选取子模块,具体用于针对每一组项目组合,在所述样本训练集中选取样本对象,将当前选取的样本对象在该组项目组合下的特征数据输入到分类模型中,得到当前分类结果;

36、参数调整子模块,具体用于根据当前选取的样本对象的标签信息及当前分类结果,调整分类模型的参数,得到该组项目组合下训练后的分类模型;

37、所述目标特征组合确定模块,包括:

38、第一准确率计算子模块,具体用于针对每一组项目组合,利用所述样本测试集中各样本对象在该组项目组合下的特征数据及分类标签,确定该项目组合下训练后的分类模型的第一准确率。

39、在一种可能的实施方式中,所述样本训练集包括n个样本训练子集,所述装置还包括:

40、超参数验证子集选取模块,用于在所述n个样本训练子集中,选取第i个样本训练子集得到超参数验证子集,其中,所述n个样本训练子集中除当前的超参数验证子集外的其他样本训练子集为超参数训练子集,i的初始值为1;

41、分类模型超参训练模块,用于针对每一组项目组合,利用当前超参数训练子集中各样本对象在该组项目组合下的特征数据及分类标签,分别对不同超参数下的分类模型进行训练,得到该项目组合的不同超参数下分类模型;

42、第二准确率计算模块,用于利用当前超参数验证子集中各样本对象在该项目组合下的特征数据及分类标签,分别确定该项目组合的不同超参数下分类模型的第二准确率;

43、交叉验证模块,用于将i增加1,返回执行步骤:针对每一组项目组合,利用当前超参数训练子集中各样本对象在该组项目组合下的特征数据及分类标签,分别对不同超参数下的分类模型进行训练,得到该项目组合的不同超参数训练的分类模型,直至i=n;

44、超参数确定模块,用于针对每一组项目组合,分别计算该项目组合的各超参数下分类模型第二准确率的平均值,选取平均值最高的分类模型的超参数,作为该项目组合下分类模型的超参数。

45、在一种可能的实施方式中,所述分类模型包括第一分类模型、第二分类模型及第三分类模型,所述第一分类模型采用线性分类算法分类器,所述第二分类模型采用非线性分类算法分类器,所述第三分类模型采用多层感知器分类器。

46、在一种可能的实施方式中,所述多个生物标志物项目的生物信息包括多个生物标志物项目的生物标志物浓度,其中,所述多个生物标志物项目的生物标志物浓度包括aβ40、aβ42、p-tau181、p-tau217、nfl中的至少两种;所述多个属性项目的属性信息包括性别信息、年龄信息和受教育程度信息中的至少两种。

47、在一种可能的实施方式中,所述装置还包括:

48、数据处理模块,用于针对每一组项目组合,将该组项目组合下中的非连续属性项目进行数值化转换,和/或将该组项目组合下的生物标志物项目进行比值计算,得到预处理后的特征数据;

49、其中,所述分类模型是利用预处理后的特征数据训练的。

50、本技术实施例的另一方面,提供了一种电子设备,包括处理器、存储器;

51、存储器,用于存放计算机程序;

52、处理器,用于执行存储器上所存放的程序时,实现上述任一所述的影响分类业务的特征组合确定方法步骤。

53、本技术实施例的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的影响分类业务的特征组合确定方法步骤。

54、本技术实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的影响分类业务的特征组合确定方法。

55、本技术实施例有益效果:

56、本技术实施例提供的一种影响分类业务的特征组合确定方法、装置、设备及介质,可以通过将多个生物标志物项目及多个属性项目中的特征数据进行排列组合,获得多个项目组合,将每个项目组合输入至训练后的分类模型中,通过各项目组合对应的训练后的分类模型的准确率,确定准确率最高的项目组合,从而将准确度最高项目组合确定为目标项目组合,相应的,目标项目组合中的各特征数据种类,作为影响所述目标分类业务的目标特征数据种类,完成对特征数据种类的筛选。

57、当然,实施本技术的任一产品或方法并不一定需要同时达到以上所述的所有优点。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1