基于半监督深度学习的分子云团块证认方法

文档序号:36649473发布日期:2024-01-06 23:33阅读:21来源:国知局
基于半监督深度学习的分子云团块证认方法

本发明涉及分子云团块检测,具体涉及一种基于半监督深度学习的分子云团块证认方法。


背景技术:

1、现代天文学已经确认,恒星的形成场所是在分子云团块内部,检测分子云团块,确定分子云团块的各项参数,以及对分子云团块的统计分析,对恒星演化规律的研究具有重要的意义。随着国内外众多的大型co巡天项目的开展,从海量的分子云数据中检测出分子云团块是一个巨大的挑战。传统的分子云团块检测算法检测的分子云团块候选体,需要结合人工证认剔除候选体中的虚假目标,从而保障用于科学分析的团块目标的可靠性。在大型巡天项目中,分子云团块候选体的数量往往以万为单位,大范围的人工证认是不切实际的。因此,亟需一种能够替代人工检查的自动化分子云团块认证算法。

2、目前广泛应用于分子云团块检测的算法有gaussclumps,clumpfind,fellwalker等。gaussclumps算法采用迭代的方式,不断将最大峰值位置的数据做三维高斯拟合并把满足条件的拟合区域视为分子云团块,该方法耗时较长。clumpfind检测算法采用等高线的方式,将包含极值点的等高线的像素划分给该极值点作为一个分子云团块,该算法应用较为广泛。fellwalker算法从数据强度较低的点出发,沿着梯度最大的方向向上寻找局部极大值,将交汇于同一个峰值位置的所有路径上的点划分给同一个分子云团块,该算法的综合表现较好。

3、这些算法在应用的过程中,可以通过对数据和观测仪器的先验知识,结合需要查找的目标的形态特征来人工选择算法的检测参数,从而达到较好的检测效果。然而,算法参数的设定建立在数据充分的先验知识以及对检测结果的分析上,往往需要反复调参才能满足检测需求。通常,研究人员首先会根据经验设计算法检测的初始参数,然后观察检出的候选体是否满足需求,如果检测结果不理想再修改参数重新检测,反复调参直至达到最佳的检测效果。但是,针对大规模巡天数据,这样的做法效率较低,无法满足实际应用的需求。如果参数设置的不合理,将导致检测结果中出现大量由于背景噪声或其他干扰引入的虚假分子云团块,往往还需要人工检查来对分子云团块的候选体进一步删选,否则虚假团块的存在将对后续的科学分析产生不利的影响。


技术实现思路

1、为解决上述技术问题,本发明提供一种基于半监督深度学习的分子云团块证认方法,该方法利用3d卷积神经网络提取分子云团块的特征,并采用半监督学习来训练模型,旨在提高其泛化能力和数据利用率。本发明解决了传统监督学习中标记样本不足的问题,并使模型能够更好地适应新的、未标记的样本,在分子云团块的验证中实现高准确率。

2、本发明采取的技术方案为:

3、基于半监督深度学习的分子云团块证认方法,包括以下步骤:

4、步骤1:获取分子云团块候选体;

5、步骤2:基于分子云团块候选体训练ss-3d-clump模型,输出分子云团块的概率值;

6、步骤3:确定概率阈值,当输出的概率值超过概率阈值时,则认为该候选体为一个分子云团块;否则,该候选体不是分子云团块。

7、所述步骤1中,采用clumpfind算法获取分子云团块候选体,包括以下步骤:

8、s1.1:对分子云团块数据的尺寸进行预处理:

9、将分子云团块候选体放到体积为30×30×30像素的立方体中,然后从实测数据中提取没有分子云团块的数据作为背景数据,并填充到掩码值为0的立方体区域中;

10、s1.2:分子云团块候选体强度归一化处理:

11、单个分子云团块候选体经过归一化处理后,分子云团块数据的强度值经线性变化映射到[0,1]的范围,归一化公式如下:

12、

13、其中,x表示三维分子云团块数据的强度,xmax表示强度的最大值,xmin表示强度的最小值。

14、所述步骤2包括以下步骤:

15、s2.1:利用ss-3d-clump模型中的3d卷积神经网络cnn来提取分子云团块候选体的特征;

16、s2.2:基于s2.1提取的特征,使用constrained-kmeans算法对提取的特征进行聚类,获得分子云团块的伪标签;

17、s2.3:利用ss-3d-clump模型中的分类器网络,对分子团块候选体进行分类,产生模型分类标签;

18、s2.4:利用步骤s2.2和步骤s2.3中获取的伪标签和分类标签计算损失;

19、采用二元交叉熵计算损失,损失计算公式如下:

20、

21、其中,n是样本总数;表示第i个样本的伪标签,取值0或者1;i=1,2,3,…,n;是分类器输出标签的概率。

22、s2.5:ss-3d-clump模型采用在训练过程中监测相邻两轮的模型对分子云团块候选体数据集的证认结果的差异来衡量模型的收敛程度;

23、使用归一化互信息(normalized mutual information,nmi)来度量同一数据的两个不同赋值a和b之间共享的信息,定义为:

24、

25、其中,mi(a;b)为变量a和b的互信息;h(a)表示a的熵;h(b)表示b的熵;当nmi(a;b)近于1时,表示a和b没有任何差异,说明模型在前后两轮训练后的证认结果一致,表明模型收敛。

26、s2.6:当模型收敛或达到终止条件时,完成训练。

27、所述2.2中,constrained-kmeans算法原理如下:

28、给定样本集x={x1,x2,…,xm},其中,xi表示第i个样本,该样本可以由一个向量或矩阵来描述。

29、假定少量的有标记样本的集合为其中,sj为隶属于第j个聚类簇的非空样本集。k表示聚类簇的个数,表示s1,s2,…,sk的并集,即集合s中包含k个类别的样本。

30、直接将集合s作为“种子集”,用来初始化kmeans算法的k个聚类中心,并且在聚类簇迭代更新过程中不改变种子样本的簇隶属关系。这样就得到了约束种子constrained-kmeans。

31、所述步骤3中,当ss-3d-clump模型训练收敛后,对于分子云团块候选体,按照步骤1中s1.1的数据预处理方式,得到预处理的数据;将预处理的数据输入到ss-3d-clump模型中,ss-3d-clump模型根据输入数据提取特征,分类器基于特征进行分类,最后输出属于分子云团块的概率;用户根据工作需求确定概率阈值,当输出的概率值超过用户的阈值时,则认为该候选体为一个分子云团块;否则,该候选体不是分子云团块。

32、本发明一种基于半监督深度学习的分子云团块证认方法,技术效果如下:

33、1:ss-3d-clump模型在分子云团块证认过程中实现了高准确率,主要优点如下:

34、(1)经过在三个不同密度区域构建的数据集上训练,ss-3d-clump模型在相应的测试数据集上表现出准确率为0.933,召回率为0.955,精确率为0.945,f1为0.950。

35、(2)ss-3d-clump模型通过3d卷积神经网络有效捕捉了分子云团块的关键特征,例如强度、旋转角度和背景噪声。

36、(3)ss-3d-clump模型表现出强大的泛化能力,能够适应新的未标记样本,并在不同区域分子云团块数据上始终保持高准确率。

37、(4)ss-3d-clump模型可以与现有的分子团检测算法集成,形成一个用于分子云团块的自动检测和证认的框架。

38、2:本发明设计和开发一种能够替代人工检查的自动化分子云团块证认算法,在自动化分子云团块证认准确率较高的情况下,前端分子云团块的检测算法可以在初始参数设置下完成检测,获得分子云团块的候选体此。由于未曾进行人工调参,候选体中不可避免的引入了部分虚假团块,再通过自动化的认证过程,来实现对错误目标的剔除。这样,可以极大的提高分子云团块的检测效率,并且保障检测结果的正确性。

39、3:联合半监督聚类算法和深度特征的方法作为半监督深度学习的一种,可以充分利用有限的标签数据和大量的无标签数据,提高分子云团块证认的效果。这种方法能够减轻人工标记数据的负担,同时提高分子云团块证认的准确性和可扩展性。本发明的主要目标是开发一种用于分子云团块候选体的自动化证认方法,该方法利用3d卷积神经网络提取分子云团块的特征,并采用半监督学习来训练模型,旨在提高其泛化能力和数据利用率。它解决了传统监督学习中标记样本不足的问题,并使模型能够更好地适应新的、未标记的样本,在分子云团块的验证中实现高准确率。并且,该模型可以与任何检测算法集成,构建一个用于分子云团块的自动检测和证认的框架。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1