本发明涉及单脉冲搜索,具体为基于spark的单脉冲搜索方法及其并行化研究方法。
背景技术:
1、脉冲星是高度磁化的旋转致密星。1967年,hewish等人发现了第一颗射电脉冲星psrb1919+21[1],1974年hewish因在脉冲星发现等方面做出的贡献获得诺贝尔物理学奖。脉冲星具有大质量、小半径、超强引力、超强磁场、伴随恒星演化和超新星爆发过程、自传周期高度稳定等极端物理特征,这使得脉冲星在研究引力场、磁层粒子加速机制、高能辐射、射电辐射、超新星爆发理论以及航天器导航等领域具有极其重要的意义。
2、早期的脉冲星搜索方法是通过周期搜索实现,而与第一颗脉冲星同年发现的蟹云脉冲星一开始并未表现出规律的自转特性,是通过捕获到的巨脉冲探测到的。因此,对于非周期信号的搜索也日益成为射电天文界的重点。1999年,受发现蟹云脉冲星的启发,davidj.nice利用阿雷西博望远镜的数据借助单脉冲搜索发现了新的脉冲星psrj1918+08[2]。2004年与2007年,duncanlorimer等人通过单脉冲搜索技术分别发现了旋转射电暂现源(rotatingradiotransients,rrat)和快速射电暴(dastradiobursts,frb)[3][4]。
3、随着硬件和软件上的突破,单个巡天项目采集的观测数据总量再不断增大。早期的观测数据总量通常介于gb与tb之间,2021年,贵州500米口径射电望远镜(fast)正式运行,2017年7月~2018年5月,500m口径球面射电望远镜多科学目标同时扫描巡天(thecommensalradioastronomyfastsurvey,crafts)观测数据已达数pb,预计500m口径球面射电望远镜在射电脉冲星领域采集的数据总量在10~100pb,巡天数据已迈入pb时代。[5][6]如此“天文级”的数据体量,对数据的分析和处理提出了巨大的挑战。传统的基于单机和串行模式的处理程序已无法满足对于时效性的要求的问题,为此,我们提出一种实用性更高的基于spark的单脉冲搜索方法及其并行化研究方法。
技术实现思路
1、本发明的目的在于提供基于spark的单脉冲搜索方法及其并行化研究方法,解决了现有的问题。
2、为实现上述目的,本发明提供如下技术方案:基于spark的单脉冲搜索方法及其并行化研究方法,包括以下步骤:
3、步骤s1、消色散:去除由色散效应引起的延迟响应;
4、步骤s2、匹配滤波:搜索每个消色散时间序列或“dm信道”,查找幅度高于某些s/n阈值的脉冲,阈值根据可接受的假阳性样本数量来选择;
5、步骤s3、候选体诊断:对判断为单脉冲候选体的数据进行人工检查。
6、优选的,所述步骤s2中具体的包括以下步骤:
7、对于长时间的观测,强脉冲的检测水平会受到抑制,可通过分段线性拟合作为平滑方法对信号进行去趋势处理以达到对最佳检测的有效近似;
8、在脉冲展宽参数未知的情况下
9、
10、其中σ为时间序列均方根噪声,wn为噪声相关时间,ai为本征脉冲面积,wi为脉冲固有宽度;对于严重散射的脉冲,测量的形状将由脉冲展宽函数控制,则
11、
12、其中wb为净脉冲宽度。
13、基于spark的单脉冲搜索并行化研究方法,包括以下步骤:
14、步骤(1)、presto搜索单脉冲信号使用single_pulse_search.py程序;
15、步骤(2)、单脉冲搜索并行化实现的系统架构,主要分为三层,最上层为数据源层,使用hdfs文件系统,用来存储消色散后生成的dat文件;
16、中间层为任务调度层,主要完成对一组计算任务的分配,通过将不同dm信道的搜索任务分配到不同的计算节点以实现dm信道并行搜索;
17、最下层为数据处理层,主要完成单脉冲搜索数据处理任务。
18、与现有技术相比,本发明的有益效果如下:
19、本发明分析了spark相比于主流分布式架构的优势,对现有脉冲星搜索程序中的单脉冲搜索模块,完成了基于spark的并行优化,构建了分布式集群,同时结合批处理应用场景,基于负载均衡的理念设计了面向分布式集群的任务分配算法;通过实验对系统性能进行评估,结果表明本系统在大规模数据处理应用场景具有显著优势,为后续运用到实际环境中提供有效的数据支撑。
20、本发明对比原搜索程序加速效果显著,并且加速效果会随着计算数据量的增大而愈发突出,并且系统扩展性强,能够兼容不同性能,不同架构的计算节点,充分利用已有资源实现分布式并行搜索,适用于大规模的单脉冲搜索场景。同时,对后续将单脉冲搜索中去干扰和消色散部分与搜索部分进行整合具有重要参考意义。
1.基于spark的单脉冲搜索方法,其特征在于,包括:
2.根据权利要求1所述的基于spark的单脉冲搜索方法,其特征在于:所述步骤s2中具体的包括以下步骤:
3.根据权利要求1所述的基于spark的单脉冲搜索并行化研究方法,其特征在于,包括以下步骤: