分类阈值确定方法、装置、电子设备及存储介质与流程

文档序号:21729496发布日期:2020-08-05 01:23阅读:来源:国知局

技术特征:

1.一种分类阈值确定方法,其特征在于,所述方法包括:

将标注有分类标签的样本输入预先训练好的二分类模型,得到由所述二分类模型输出的正样本及负样本,所述分类标签包括正样本标签及负样本标签;

将所述正样本、所述负样本与自身对应的分类标签进行对比,筛选出分类结果与所述分类标签不一致的难样本;

对所述样本进行特征提取,并根据提取出的特征训练基础网络至收敛状态,得到三分类模型;

将所述样本输入所述三分类模型,得到每个样本的分类概率;

从所述分类概率中确定出与所述难样本对应的分类概率分布区间的范围端点值;

将所述范围端点值确定为所述三分类模型的分类阈值。

2.根据权利要求1所述的方法,其特征在于,在所述将标注有分类标签的样本输入预先训练好的二分类模型之前,所述方法还包括:

对原始样本进行处理,得到与原始样本对应的概率热图,并将所述概率热图确定为所述样本。

3.根据权利要求2所述的方法,其特征在于,所述对所述样本进行特征提取,包括:

将所述样本作为python的skimage.measure函数的输入,得到与所述样本对应的最大直径、细胞数目、概率热图噪声,其中,所述最大直径、所述细胞数目以及所述概率热图噪声为所述提取出的特征。

4.根据权利要求1所述的方法,其特征在于,在所述将标注有分类标签的样本输入预先训练好的二分类模型之前,所述方法还包括:

对标注有所述分类标签的所述样本进行预特征提取;

根据所述预特征训练基础网络至收敛状态,得到所述二分类模型,所述提取出的特征与所述预特征不同。

5.根据权利要求1所述的方法,其特征在于,所述三分类模型包括激活函数,所述将所述样本输入所述三分类模型,得到每个样本的分类概率,包括:

针对每个样本,根据所述激活函数,计算该样本被预测为正样本的概率值、被预测为负样本的概率值;

针对每个样本,根据其被预测为正样本的概率值、其被预测为负样本的概率值确定该样本在所述三分类模型中的反向传播过程中的梯度值,并将所述梯度值确定为所述分类概率。

6.根据权利要求5所述的方法,其特征在于,所述根据所述激活函数,计算该样本被预测为正样本的概率值、被预测为负样本的概率值,包括:

当所述激活函数为softmax函数时,基于公式计算得到所述样本被预测为正样本的概率值、被预测为负样本的概率值;其中,p0、p1分别表示样本被预测为负样本的概率值、被预测为正样本的概率值,所述x0、x1分别表示所述三分类模型的输出层预测该样本为负样本的预测值、预测该样本为正样本的预测值,e表示自然常数;

当所述激活函数为sigmoid函数时,基于公式计算得到该样本被预测为正样本的概率值、被预测为负样本的概率值;其中,p0、p1分别表示样本被预测为负样本的概率值、被预测为正样本的概率值,x1表示所述三分类模型的输出层预测该样本为正样本的预测值,e表示自然常数。

7.根据权利要求1所述的方法,其特征在于,所述方法还包括:

将新的样本输入设置有所述分类阈值的三分类模型;

由所述设置有所述分类阈值的三分类模型确定出所述新的样本中的正样本、负样本及难样本。

8.一种分类阈值确定装置,其特征在于,所述装置包括:

获取模块,用于将标注有分类标签的样本输入预先训练好的二分类模型,得到由所述二分类模型输出的正样本及负样本,所述分类标签包括正样本标签及负样本标签;

筛选模块,用于将所述正样本、所述负样本与自身对应的分类标签进行对比,筛选出分类结果与所述分类标签不一致的难样本;

训练模块,用于对所述样本进行特征提取,并根据提取出的特征训练基础网络至收敛状态,得到三分类模型;

所述获取模块,还用于将所述样本输入所述三分类模型,得到每个样本的分类概率;

确定模块,用于从所述分类概率中确定出与所述难样本对应的分类概率分布区间的范围端点值;

所述确定模块,还用于将所述范围端点值确定为所述三分类模型的分类阈值。

9.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器和所述处理器连接;

所述存储器用于存储程序;

所述处理器调用存储于所述存储器中的程序,以执行如权利要求1-7中任一项所述的方法。

10.一种存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被计算机运行时执行如权利要求1-7中任一项所述的方法。


技术总结
本发明涉及一种分类阈值确定方法、装置、电子设备及存储介质,属于数据挖掘领域。该方法包括:将标注有分类标签的样本输入二分类模型,确定出正样本及负样本,将正样本、负样本与自身对应的分类标签进行对比,筛选出分类结果与分类标签不一致的难样本;对样本进行特征提取,训练得到三分类模型;将样本输入三分类模型,得到每个样本的分类概率;从分类概率中确定出与难样本对应的分类概率分布区间的范围端点值;将范围端点值确定为三分类模型的分类阈值。在确定出分类阈值后,可以将对样本的分类由二分类转化为三分类。在三分类中,正样本与负样本的准确性得到提升。

技术研发人员:杜君;孙丰龙;郑闪;陈灿灿;马建辉;郭蕾;郭强;邱亭林
受保护的技术使用者:中国医学科学院肿瘤医院
技术研发日:2020.04.08
技术公布日:2020.08.04
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1