一种基于深度学习和重加权的太阳黑子McIntosh分类方法

文档序号:35003916发布日期:2023-08-04 02:28阅读:103来源:国知局
一种基于深度学习和重加权的太阳黑子McIntosh分类方法

本发明属于图像处理与天文,具体涉及一种基于深度学习和重加权的太阳黑子mcintosh分类方法。


背景技术:

1、太阳黑子mcintosh分类中某些类别与耀斑爆发有着紧密联系而被越来越多的国际机构与天文单位使用,以此作为预测太阳活动的重要依据。随着观测设备与技术的更迭,数据量呈爆发式增长。以往传统依靠人工分类太阳黑子的方式早已无法满足需求,如何自动化进行太阳黑子mcintosh分类成为迫切需要。

2、以往自动分类mcintosh方法由于主要使用全日面图像而将分类任务分成了太阳黑子识别、聚类/分组、分类等任务分步进行,其中分类任务主要根据mcintosh-zpc分类规则作为决策树的决策标准完成,但前期需要大量专家提取数据特征使得该方法实际操作复杂且精度较低。其次,以往工作中使用的数据时间跨度远远短于11年太阳黑子周期,其包含的黑子种类和数据较少,无法涵盖足够的黑子特征,模型可利用的样本较少,使得最终分类结果缺乏可信度。此外,以往工作未考虑太阳黑子连续演化而具有相似性的问题,仅简单地随机分配数据往往造成分类结果精度虚高。太阳黑子长尾分布导致的类别不均衡问题也使得模型容易过拟合,这也是目前太阳黑子mcintosh分类工作数量不多的主要原因。


技术实现思路

1、针对上述目前技术所存在的问题,本发明提出一种基于深度学习和重加权的太阳黑子mcintosh分类方法,旨于在数据和方法两个方面进行改进:数据方面,建立至少一个太阳黑子周期的太阳黑子数据库并进行数据清洗;方法方面,将太阳黑子图像进行0-padding、视场统一化等预处理,后按活动区编号进行数据集划分,并使用重加权减少长尾分布和类别不均衡对模型分类的影响,使得模型可以高效进行自动化mcintosh分类任务。

2、本发明采用的技术方案是:一种基于深度学习和重加权的太阳黑子mcintosh分类方法,包含以下步骤:

3、步骤s1:收集并建立太阳黑子数据库;

4、步骤s2:太阳黑子数据预处理;

5、步骤s3:选择可靠的数据分配方式和评价指标;

6、步骤s4:选择最优分类神经网络模型;

7、步骤s5:利用重加权对步骤s4的神经网络模型进行优化;

8、步骤s6:利用基于重加权的神经网络模型进行太阳黑子mcintosh分类。

9、进一步地,步骤s1所述的太阳黑子数据库建立过程为:

10、s1.1首先选择可靠的局部可见光图像数据来源和mcintosh图像标签来源;

11、s1.2然后下载并收集不少于一个太阳黑子周期11年的数据和标签信息,以保证数据库拥有足够多太阳黑子特征;

12、s1.3对数据库进行数据清洗,删除其中黑图、受污染严重等无法使用的数据,以保证数据库中拥有足够多且有效的太阳黑子特征。

13、进一步地,步骤s2所述的太阳黑子数据预处理过程为:

14、s2.1考虑到数据库中包含日面边缘的黑子图像,对数据进行0-padding处理,以避免宇宙背景对模型产生影响;

15、s2.2对太阳黑子数据进行视场统一化处理,以还原每张图像的真正大小,便于模型正确分类。

16、进一步地,步骤s3所述的选择可靠数据分配方式和评价指标过程为:

17、s3.1由于太阳黑子不断演化,连续收集的太阳黑子图像具有连续性和相似性,随机分配数据会造成分类结果精度虚高,因此按照数据活动区编号进行分配数据集;

18、s3.2太阳黑子数据呈现长尾分布,具有类别不均衡的特点,因此使用基于类别数量的weighted-f1 score作为评价指标以同时平衡查准率和查全率:

19、

20、

21、

22、其中:f1代表用来调和平均模型查准率和查全率的f1分数,p代表查准率,r代表查全率,tp表示正样本被正确预测为正样本,fp表示正样本被错误预测为负样本,fn表示负样本被错误预测为正样本;而weighted-f1 score在每一类的f1 score基础上乘以该类数量占总量的比例,最后将每类加权f1分数相加。

23、进一步地,步骤s4所述的选择最优分类神经网络模型主要基于步骤s1的数据库和步骤s2、步骤s3的操作方法,然后使用多种卷积神经网络进行分类实验,选择其中分类效果最好的网络模型。

24、进一步地,步骤s5所述的利用重加权技术对分类神经网络模型进行优化的过程为:

25、s5.1计算每个类别的样本数量占总样本数量的比例,并从小到大排序;

26、s5.2按照每个类别的样本数量从大到小分别将各类的损失值赋予步骤s5.1中的权重(如最多样本的类别赋予最小的权重)。

27、进一步地,步骤s6所述的利用基于重加权的神经网络模型进行太阳黑子mcintosh分类的过程为:

28、s6.1使用步骤s1的数据库、步骤s2的视场统一化、步骤s3的按活动区编号分配数据方式和weighted-f1 score作为评价指标;

29、s6.2使用步骤s4中的最优神经网络模型和步骤5中各类损失值的初始重加权值,进行mcintosh分类实验;

30、s6.3在实验结果中,根据每一类各自的加权f1分数结果进行权值调整,例如样本数量最大和最小的类别加权f1分数差距依然很大,则降低最大数量类别的损失值权重,同时增加最小数量类别的损失值权重,使模型更加关注少类的表现,以此往复,最终得到一组效果最好的分类结果。

31、本发明原理在于:一种基于深度学习和重加权的太阳黑子mcintosh分类方法,包括以下步骤:

32、步骤s1:首先选择可靠的局部可见光图像数据来源和mcintosh图像标签来源;其次下载并收集不少于一个太阳黑子周期11年的数据和标签信息,以保证数据库拥有足够多太阳黑子特征;最后对数据库进行数据清洗,删除其中黑图、受污染严重等无法使用的数据,以保证数据库中拥有足够多且有效的太阳黑子特征。

33、步骤s2:考虑到数据库中包含日面边缘的黑子图像,对数据进行0-padding处理,以避免宇宙背景对模型产生影响;其次对太阳黑子数据进行视场统一化处理,以还原每张图像的真正大小,便于模型正确分类。

34、步骤s3:由于太阳黑子不断演化,连续收集的太阳黑子图像具有连续性和相似性,随机分配数据会造成分类结果精度虚高,因此按照数据活动区编号进行分配数据集;太阳黑子数据呈现长尾分布,具有类别不均衡的特点,因此使用基于类别数量的weighted-f1score作为评价指标以同时平衡查准率和查全率:

35、

36、

37、

38、其中:p代表查准率,r代表查全率,tp表示正样本被正确预测为正样本,fp表示正样本被错误预测为负样本,fn表示负样本被错误预测为正样本;而weighted-f1 score在每一类的f1 score基础上乘以该类数量占总量的比例,最后将每类加权f1分数相加。

39、步骤s4:基于步骤s1的数据库和步骤s2、步骤s3的操作方法,然后使用多种卷积神经网络进行分类实验,选择其中分类效果最好的网络模型。

40、步骤s5:计算每个类别的样本数量占总样本数量的比例,并从小到大排序;按照每个类别的样本数量从大到小分别将各类的损失值赋予初始权重(如最多样本的类别赋予最小的权重)。

41、步骤s6:使用步骤s1的数据库、步骤s2的视场统一化、步骤s3的按活动区编号分配数据方式和weighted-f1 score作为评价指标;使用步骤s4中的最优神经网络模型和步骤5中各类损失值的初始重加权值,进行mcintosh分类实验;在实验结果中,根据每一类各自的加权f1分数结果进行权值调整,例如样本数量最大和最小的类别加权f1分数差距依然很大,则降低最大数量类别的损失值权重,同时增加最小数量类别的损失值权重,使模型更加关注少类的表现,以此往复,最终得到一组效果最好的分类结果。

42、本发明提出的一种基于深度学习和重加权的太阳黑子mcintosh分类方法,相对于目前已有的技术,本发明具有如下的优点和创新性:

43、1.本发明建立了至少一个太阳黑子周期的可靠太阳黑子数据库,提供足够且有效的太阳黑子特征,具有较高可信度。

44、2.针对太阳黑子图像特点,本发明采用0-padding、视场统一化、按活动区编号划分数据集等预处理操作。一方面还原了黑子真实大小,另一方面避免了黑子连续演化的相似性使得数据集交叉污染。

45、3.针对长尾分布和类别不平衡容易导致模型过拟合问题,本发明采用重加权方法,对每个类的损失值进行重新赋权,使得本来偏向样本数量多的模型更加关注样本数量少的类别,因此达到减少过拟合的作用。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1