一种脉冲星候选信号的多模态特征融合方法

未命名 08-22 阅读:157 评论:0


1.本发明属于天文技术领域,具体来说涉及一种脉冲星候选信号的多模态特征融合方法。


背景技术:

2.脉冲星搜寻的步骤本质是保留值得筛查的信号,忽略可能由噪声或rfi引起的信号。因此,候选体特征的提取对于最大限度地分离rfi与脉冲星候选体非常重要,需使用一系列能够很好描述脉冲星候选体的特征属性。这些特征属性可用于训练基于机器学习的脉冲星候选体分类方法,以构建高度精确的候选体分类器。脉冲星搜寻论坛已经开发出许多这样的特征,并且可能会继续开发更多的特征。但是,其中哪一类特征可以更有助于正负样本的划分,以及特征值之间是通过线性组合进行相加还是各自分离。例如,部分特征对单脉冲可能会有较好的区分度,然而并不适用于周期性候选体的筛选(反之亦然)。
3.脉冲星候选体分类方法建立在脉冲星搜索流程的基础上。当前,500米口径球面射电望远镜(fast)的脉冲星搜索流程基于“处理脉冲星搜索模式数据的标准化软件包(plusar exploration and search toolkit,presto)”,主要包含如下步骤:第一步,消除脉冲星搜索数据中存在的明显干扰信号,如噪声信号和辐射信号等;第二步,根据观测频率范围内不同的频率通道依赖的色散延迟时间取一系列的色散量dm值对数据进行消色散处理,得到每个dm值对应的时间序列;第三步,将消色散后的数据对每一时间序列做快速傅里叶变换,找出高信噪比、带有周期性的信号,进一步找出其周期p与色散量dm;第四步,执行accel_sifting程序对文本文件进行统计排序,并筛选出所有可能是脉冲星信号的周期和色散的组合,并输出到一个后缀名为pfd的文件中;第五步,在时间上按周期进行叠加(称之为折叠)并输出候选体图像;第六步,通过图像筛选候选体,找出符合脉冲星的候选体并确认。其中,脉冲星候选体分类筛选主要从第四步和第五步的接入。
4.目前基于人工智能的脉冲星候选体分类方法可以根据其原理分为:传统的评分方法、基于机器学习的信号分类器、针对诊断图的图像识别模型或包含图像识别的多方法混合模型。其中,基于机器学习的信号分类器所使用的特征严重依赖于人类经验,如果使用不合理,会对分类方法的分类性能产生不良影响。随着射电环境的日益复杂,基于机器学习的信号分类器仅通过统计特征来有效区分脉冲星候选和非脉冲星候选变得更加困难。实际上,只需人类专家仔细地观察相应的诊断图,也可以成功识别出脉冲星,因此,针对诊断图的图像识别模型可通过训练深度学习模型,从诊断子图中自动学习“类脉冲星”模式,该方法近几年已深入应用于脉冲星搜索管道。例如,朱炜炜等人提出基于fast漂移扫描测的神经网络群方法(wang h,zhu w w,guo p,et al.pulsar candidate selection using ensemble networks for fast drift-scan survey.science china-physics mechanics&astronomy,2019,62(5):1-10.),标志着深度神经网络图像模式识别系统(pulsar image-based lassification system,pics)的进一步发展。相比之下,针对诊断图的图像识别模型或包含图像识别的多方法混合模型泛化能力好、提取特征的鲁棒性强,但模型也更加复
杂。目前,上述脉冲星候选体分类方法大都基于单模态,然而,脉冲星搜索过程中通常存在多视图异构候选体数据,这些数据包含各种类型和属性,在实际应用中很难通过单模态候选体筛选方法挖掘出这些数据中隐藏的深层特征。因此,需要寻求一种能进一步提高脉冲星搜索流程中类脉冲星侯选体筛选效率的方法。


技术实现要素:

5.本发明的目的在于克服上述缺点而提供的一种构建高精确度和灵敏度的候选体分类方法的前端输入的脉冲星候选信号的多模态特征融合方法。
6.本发明目的及解决其主要技术问题是采用以下技术方案来实现的:
7.本发明的一种脉冲星候选信号的多模态特征融合方法,包括以下步骤:
8.步骤1:fast所收集的原始观测数据文件经过基于presto的脉冲星搜索管道的傅立叶变换、频域搜寻周期信号和筛选周期信号,得到候选体pfd文件;
9.步骤2:候选体pfd文件经过pulsarfeature lab程序提取出相对应的一组8
×
1统计属性特征向量,包括8个重要的统计特征,分别是脉冲轮廓的均值、脉冲轮廓的标准差、脉冲轮廓的超额峰度、脉冲轮廓的偏度、dm-s/n曲线的均值、dm-s/n曲线的标准差、dm-s/n曲线的超峰额度和dm-s/n曲线的偏度;
10.步骤3:候选体pfd文件经过基于pics模型的特征提取程序提取出候选体的4个主要特征图,其中包括64
×
64的二维时间相位(time versus phase,tvp)和频率相位(frequencyversus phase,fvp)的特征矩阵;
11.步骤4:tvp和fvp图通过微调的卷积自编码器(contractive autoencoder,cae)进一步降维和特征提取,形成8
×
8特征矩阵,转换为64
×
1向量;
12.步骤5:从同一候选体pfd文件提取的多模态特征,包括8
×
1特征向量和64
×
1向量,通过判别相关分析dca(discriminant correlation analysis)方法进行融合形成新的候选体数据。
13.上述的一种脉冲星候选信号的多模态特征融合方法,其中步骤1中得到候选体pfd文件的方法为:第一步,消除脉冲星搜索数据中存在的明显干扰信号,如噪声信号和辐射信号等,通过rfifind命令执行,产生若干个输出文件;第二步,根据观测频率范围内不同的频率通道依赖的色散延迟时间取一系列的色散量dm值对数据进行消色散处理,得到每个dm值对应的时间序列;第三步,将消色散后的数据对每一时间序列做快速傅里叶变换,找出高信噪比、带有周期性的信号,进一步找出其周期p与色散量dm;第四步,执行accel_sifting程序对文本文件进行统计排序,并筛选出所有可能是脉冲星信号的周期和色散的组合,并输出到一个后缀名为pfd的文件中。
14.上述的一种脉冲星候选信号的多模态特征融合方法,其中:dca方法按照已知脉冲星pfd文件和非脉冲星pfd文件为1:5的比例进行训练。
15.本发明同现有技术相比,具有明显的优点和有益效果,由以上技术方案可知,本发明针对presto的数据处理流程中经折叠后生成的pfd文件,使用特征提取程序pulsarfeature lab和pics模型分别提取候选体多个模态的不同特征。本发明的多维输入包含了更多的信息和可能性,融合从单一候选信号中提取的多模态特征,能够进一步细化具有更高辨识度的特征。因此,本发明多模态异构候选体数据特征融合方法与先进的侯选
classification system,pics)的集成模型将脉冲轮廓曲线、时间-相位、频率-相位和色散曲线4个主要特征属性作为输入参数,从中提取候选体的4个主要特征图参见图2,其中分别是一维(1-d)数据阵列:子图

脉冲轮廓、子图

dm曲线,二维(2-d)特征矩阵:子图

时间相位(time versus phase,tvp)、子图

频率相位数组(frequency versus phase,fvp),对于子图

、子图

和子图

,脉冲相位缠绕两次以显示两个重复的脉冲,模型中使用的一维输入阵列的尺寸为64
×
1,而二维输入阵列的尺寸为64
×
64;
32.步骤4:搭建卷积自编码器(contractive autoencoder,cae)模型参见图3;模型训练完成后,将后半部分的解码器舍弃,仅保留编码器对fvp进行压缩降维;即保留的编码器能够将一个64
×
64规模大小的输入矩阵fvp,压缩降维至8
×
8规模大小的抽象特征矩阵,最后转化为64
×
1向量;
33.步骤5:从同一候选体pfd文件提取的不同模态特征,包括8
×
1特征向量和64
×
1向量,通过按照已知脉冲星pfd文件和非脉冲星pfd文件1:5的比例训练判别相关分析dca(discriminant correlation analysis)方法进行融合形成新的候选体数据,其融合过程参见图4:x为n个一维向量(8
×
1)组成,y为利用cae提取的n个fvp特征图进行降维得到的(64
×
1)向量;
34.dca具体融合方法描述如下:
35.步骤i:将x和y两个n列特征集矩阵分为c个单独的类。假设x
ij
∈x表示第i类中第j个样本的p维特征向量,表示第i类的均值,表示整体特征集的均值。类间散射矩阵s
bx
的定义如下:
[0036][0037][0038]
如果特征级的维数p远大于类的数量c,那协方差矩阵(φ
bxt
φ
bx
)c×c的计算难度要小于(φ
bx
φ
tbx
)
p
×
p
,并且对φ
bxt
φ
bx
的特征向量进行映射后可以有效找到φ
bx
φ
tbx
的最显著特征向量,从而将问题转化为求解协方差矩阵(φ
bxt
φ
bx
)c×c的特征向量。由于φ
bxt
φ
bx
为对称矩阵,所以可通过规范正交基p对其进行对角化变换如下:
[0039][0040]
式中,是非负实特征值按降序排列的斜对角矩阵。
[0041]
步骤ii:假设q
(c
×
r)
由矩阵p中的前r个特征向量组成,对应于矩阵中的r个最大非零特征值,如3-9式所示。
[0042]qt

bxt
φ
bx
)q=λ
(r
×
r)
ꢀꢀꢀꢀ
(4)
[0043]
将q映射为φ
bx
q便能够得到s
bx
的r个最显著特征向量:
[0044]

bx
q)
tsbx

bx
q)=λ
(r
×
r)
ꢀꢀꢀꢀ
(5)
[0045]
转移矩阵w
bx
=φ
bx
qλ-1/2
不仅能够对s
bx
进行单位化变换,还能将输入特征集x的维度由p降低至r,如(6)式和(7)式所示。
[0046]
[0047][0048]
第二个特征集y的处理流程与x相同,找一个转移矩阵对第二个模态特征集y的类间散射矩阵s
by
进行单位化变换,同时将y的维度由q降低至r:
[0049][0050][0051]
步骤iii:为了最大化特征集x'和y'之间的成对相关性,使用奇异值分解(singular value decomposition,svd)对变换特征集的集间协方差矩阵s'
xy
进行对角化变换:
[0052][0053]
假设w
cx
=uσ-1/2
、w
cy
=vσ-1/2
,则可得:
[0054]
(uσ-1/2
)
t
s'
xy
(vσ-1/2
)=i
ꢀꢀꢀꢀ
(11)
[0055]
步骤iv:将特征集作如下转换:
[0056][0057][0058]
式中,w
x
和wy分别为特征集x与y的转换矩阵。
[0059]
步骤v:早期的特征级融合是对两个变换后的特征矩阵进行求和来执行的,即z=[x
*
;y
*
]或z=[x
*
+y
*
],其中,z被称为典型相关判别特征(canonical correlation discriminant features,ccdfs)。
[0060]
对比例:用pulsar feature lab特征提取程序单独提取的aod-fast数据集特征用于脉冲星候选体分类
[0061]
采用一种并行混合聚类方法(见“基于并行混合聚类的大规模脉冲星候选体初步研究”,《宇宙》,2022,8(9):461.zhi ma;zi-yi you;ying liu;shi-jun dang;dan-dan zhang;ru-shuang zhao;pei wang;si-yao li;ai-jun dong;a preliminary study of large scale pulsar candidate sifting based on parallel hybrid clustering,universe,2022,8(9):461.),以pulsar feature lab特征提取程序单独提取aod-fast数据集形成的一维统计属性特征向量作为输入,对脉冲星候选体进行分类。共进行了5轮,采用精确度(precision)、召回率(recall)和f1-分数(f1-score)3个指标对平均分类结果进行评估。
[0062]
结果表明:单轮识别的脉冲星正样本最多达到69/78,平均每轮识别67颗脉冲星正样本(recall为85.9%,precision为82.5%,f1分数为83.8%)。
[0063]
实验例:经实施例1方法特征融合后的aod-fast数据集用于脉冲星候选体分类
[0064]
采用一种并行混合聚类方法(同对比例),以经过实施例1方法特征融合后的aod-fast数据集的候选体数据作为输入进行分类,共进行了5轮,采用精确度(precision)、召回率(recall)和f1-分数(f1-score)3个指标对平均分类结果进行评估。分类效果参见图5-1、5-2、5-3、5-4,分别显示所研究的半监督混合聚类算法在不同数据块上的聚类结果,可见数
量极少的待检测脉冲星正样本均被清晰的划分在已知脉冲星正样本簇中。
[0065]
结果表明:单轮识别的脉冲星正样本最多达到76/78,平均每轮识别75颗脉冲星正样本(recall为96.1%,precision为89.1%,f1分数为92.7%)。
[0066]
与达到了脉冲星筛选应用要求的pics(召回率95%)和pics-resnet(召回率98%)相比,本发明性能表现与其相似。与对比例相比,recall、precision、f1分数都有明显提升。
[0067]
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,任何未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

技术特征:
1.一种脉冲星候选信号的多模态特征融合方法,包括以下步骤:步骤1:fast所收集的原始观测数据文件经过基于presto的脉冲星搜索管道的傅立叶变换、频域搜寻周期信号和筛选周期信号,得到候选体pfd文件;步骤2:候选体pfd文件经过pulsar feature lab程序提取出相对应的一组8
×
1统计属性特征向量,包括8个重要的统计特征;步骤3:候选体pfd文件经过基于pics模型的特征提取程序提取出候选体的4个主要特征图,其中包括64
×
64的二维的时间相位和频率相位特征矩阵;步骤4:tvp和fvp图通过微调的卷积自编码器进一步降维和特征提取,形成8
×
8特征矩阵,转换为64
×
1向量;步骤5:从同一候选体pfd文件提取的多模态特征,包括8
×
1特征向量和64
×
1向量,通过判别相关分析dca方法进行融合形成新的候选体数据。2.如权利要求1所述的一种脉冲星候选信号的多模态特征融合方法,其中:包括8个重要的统计特征,分别是脉冲轮廓的均值、脉冲轮廓的标准差、脉冲轮廓的超额峰度、脉冲轮廓的偏度、dm-s/n曲线的均值、dm-s/n曲线的标准差、dm-s/n曲线的超峰额度和dm-s/n曲线的偏度。3.如权利要求1或2所述的一种脉冲星候选信号的多模态特征融合方法,其中步骤1中得到候选体pfd文件的方法为:第一步,消除脉冲星搜索数据中存在的明显干扰信号,如噪声信号和辐射信号等,通过rfifind命令执行,产生若干个输出文件;第二步,根据观测频率范围内不同的频率通道依赖的色散延迟时间取一系列的色散量dm值对数据进行消色散处理,得到每个dm值对应的时间序列;第三步,将消色散后的数据对每一时间序列做快速傅里叶变换,找出高信噪比、带有周期性的信号,进一步找出其周期p与色散量dm;第四步,执行accel_sifting程序对文本文件进行统计排序,并筛选出所有可能是脉冲星信号的周期和色散的组合,并输出到一个后缀名为pfd的文件中。4.如权利要求3所述的一种脉冲星候选信号的多模态特征融合方法,其中:dca方法按照已知脉冲星pfd文件和非脉冲星pfd文件为1 : 5的比例进行训练。

技术总结
本发明公开了一种脉冲星候选信号的多模态特征融合方法,包括:FAST所收集的原始观测数据文件经过基于PRESTO的脉冲星搜索管道,得到候选体PFD文件;候选体PFD文件经过Pulsar Feature Lab程序提取出相对应的一组8


技术研发人员:游子毅 支启军 马智 王培 李思瑶
受保护的技术使用者:贵州师范大学
技术研发日:2023.05.19
技术公布日:2023/8/21
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐