低分辨率恒星光谱的[α/Fe]估计方法研究∗

2018-08-20 08:12瑜李乡儒林扬涛邱凯斌
天文学报 2018年4期
关键词:星团恒星残差

卢 瑜李乡儒 林扬涛 邱凯斌

(华南师范大学数学科学学院广州510631)

1 引言

化学元素O、Mg、Si、Ca和Ti等称为α元素.α元素丰度与Fe元素丰度的相对比值称为[α/Fe].在银河系中,不同星族的恒星具有不同的[α/Fe],它可以作为一个观测探针追踪恒星的演化过程[1].因此,[α/Fe]对深入探索银河系的组成成分、形成和演变具有重要的意义.随着Gaia(盖亚天文卫星)和SDSS(Sloan Digital Sky Survey)等巡天项目的陆续展开,特别是LAMOST(Large Sky Area Multi-Object Fibre Spectroscopic Telescope)项目的正式巡天,我们拥有的恒星光谱数量正以惊人的速度增长[2].例如:SDSS发布了1075113个恒星光谱(DR14)[3],LAMOST发布了8171443个恒星光谱(DR5)[4].这些海量光谱数据在使恒星性质的大尺度研究成为可能的同时,也给我们带来了新的挑战.如何对中低分辨率恒星光谱的[α/Fe]进行自动测量是当前巡天项目需要解决的问题.

当前,中低分辨率恒星光谱的[α/Fe]估计方法主要有模板匹配方法、线性回归方法等.Li等[1]针对LAMOST低分辨率恒星光谱采用LSP3(北京大学LAMOST恒星参数测量程序包)方法研究了[α/Fe]的估计问题,该方法的基本原理是:首先构建一个恒星光谱模板库(如KURUCZ模板库),库中每条光谱的[α/Fe]参数值是已知的;然后将待测光谱和模板库光谱进行匹配,以χ2最小值来确定待测光谱的[α/Fe]估计值.当光谱的信噪比SNR大于20时,精度小于0.1 dex.Lee等[5]采用模板匹配方法对425条ELODIE和91条SDSS光谱样本的[α/Fe]进行测量,精度分别为0.062 dex和0.069 dex.卜育德等[6]提出了一种基于LASSO算法(Least Absolute Shrinkage and Selection Operator)的[α/Fe]测量方法,该方法对ELODIE光谱样本(分辨率R=2100)的[α/Fe]进行测量,精度为0.067 dex,而SDSS光谱样本的精度为0.097 dex.Xiang等[7]探讨了多元线性回归和KPCA(核主成分分析)方法在[α/Fe]参数估计中的应用,首先采用KPCA非线性方法从高维的LAMOST恒星光谱中提取特征,然后运用多元线性回归方法对恒星大气参数(表面温度Teff、表面重力加速度lg g、化学丰度[Fe/H])和[α/Fe]等进行估计.当光谱的信噪比大于50时,[α/Fe]的精度小于0.05 dex.

本文提出了一个基于Haar小波+LASSO算法的多元线性回归模型(简称HLM模型).该模型的基本思路是:首先,使用Haar小波对原始光谱进行四级小波分解,去除高频成分,以抑制高频噪声干扰;然后,基于光谱数据成分与[α/Fe]的相关性和LASSO算法选择光谱最优特征;最后,基于MARCS恒星光谱库和多元线性回归方法对[α/Fe]进行测量.

2 方法

2.1 合成光谱

为了快速精确地对恒星光谱的[α/Fe]进行测量,我们利用已有的MARCS模板库.库中包含大约52000个F、G、K类型的恒星光谱[8−9].MARCS光谱库给出了分辨率R=20000和R=2000的两套模板库[10].我们选取了R=2000的低分辨率模板库中的4524条光谱做训练样本.每条光谱的波长范围为3000–10000˚A,步长为1˚A,共7001个特征点.Teff的范围为[2500 K,8000 K],其中,[2500 K,4000 K]区间的步长为100 K,[4000 K,8000 K]区间的步长为250 K.lg g的范围为[–0.5 dex,3.5 dex],步长0.5 dex.[Fe/H]的范围为[–5.0 dex,1.0 dex].[α/Fe]参数的范围为[0 dex,0.4 dex], 步长0.1 dex.训练样本的[α/Fe]分布如图1所示.

2.2 光谱数据预处理

因为MARCS合成光谱和待测光谱是不同源的,它们的流量定标标准不相同,所以,我们需要对光谱进行连续谱归一化处理.首先,我们采用分段线性插值方法将MARCS合成光谱的流量点插值到待测光谱的波长处,使得MARCS合成光谱和待测光谱具有相同步长,而且波长范围相同;然后,利用多项式迭代方法提取连续谱,删除大于3σ的点;最后,将光谱除以连续谱,得到谱线光谱.在对ELODIE、SDSS和LAMOST光谱样本的[α/Fe]进行估计时,我们分别对光谱进行了6、13和16次多项式拟合,获得连续谱.

图1 MARCS训练样本的[α/Fe]分布图.在该数据集中,[α/Fe]有5个取值.Fig.1 Distribution of the MARCS training sample in[α/Fe].In this data set,[α/Fe]has 5 optional values.

2.3 特征提取

谱线光谱中含有丰富的数据成分,既有与本文参数紧密相关的信息,也有冗余和噪声,且丰富的谱线特征表现出明显的多分辨特点[11].为了根据光谱数据的上述特点给出更有效的参数估计方案,我们采用小波变换方法对数据进行预处理.小波变换具有多分辨分析能力,能够将数据按照频率进行分解,其时分辨能力在恒星参数估计中体现为对光谱特征的波长位置分析能力.而噪声影响往往表现出高频特点.小波变换方法在理论上适用于对噪声和光谱有效特征的分离以及不同光谱特征的整合.因此,基于小波的光谱特征分解和提取有望提升光谱参数的估计效果,且本文的综合实验结果亦表明了其有效性.我们通过Haar小波基函数对光谱信号进行四级分解,提取第四级的低频成分作为候选特征[12].

本文研究表明,如上提取的候选特征中仍然存在大量的冗余特征.为此,我们运用LASSO算法进一步对候选特征进行筛选,去除冗余成分[13].给定训练集D=其中是第i个样本的候选特征,yi是参数[α/Fe]. 则LASSO算法的惩罚函数为:

其中,βj是候选特征的回归系数,t是调和系数,通过调节t,使少数βj非零,从而获取与[α/Fe]相关的最优特征[14],β0为常数项.如何求解回归系数是LASSO算法的关键问题.我们选择LARS算法对进行求解[15].

2.4 回归模型

按照以上步骤提取最优特征之后,我们采用多元线性回归模型对[α/Fe]进行估计.给定训练集则

其中,xi=(xi1,xi2,···,xip)是第i个训练样本的最优特征,每个样本有p个特征.yi是参数[α/Fe],wj为回归系数,bj为常数项.我们通过对所有训练样本进行最小化误差的平方和寻找的最佳值,计算公式如下所示:

3 实验结果

为了验证HLM模型的可行性,我们对ELODIE、SDSS和LAMOST恒星光谱的[α/Fe]进行估计.另外,我们又估计了M13、M15两个球状星团和NGC2420、M67两个疏散星团成员的[α/Fe]平均值.

为了评估HLM模型的性能,我们选择系统偏差µ和精度σ作为评价准则.系统偏差是测量值误差的平均值.精度是误差的标准差,反映了误差的离散度,是评价模型的稳定性和鲁棒性的重要指标[16].

3.1 ELODIE光谱样本

ELODIE光谱库是法国Observatoire de Haute-Provence天文台通过1.93 m口径望远镜观测所获得的数据,该数据集包含1388颗恒星的1962个光谱,波长覆盖范围为390–680 nm,平均信噪比SNR=130.12[17].Lee等[5]给出了425条光谱的[α/Fe]参数值,我们从中选取了参数范围在[0.04 dex,0.35 dex]的317条光谱.光谱样本的数据来自R=42000高分辨率光谱库.为了检验HLM模型在低分辨率ELODIE光谱样本的效果,我们采用高斯卷积方法将ELODIE光谱样本的分辨率降为2100.

图2显示了HLM模型的[α/Fe]测量值与文献值的比较结果.图中ELODIE表示文献值,它是来自Lee等[5]文献的高分辨率光谱的估计值,HLM表示HLM模型的测量值,N表示光谱个数.左图是HLM测量值与文献值的对比图,图中虚线和实线显示0.04 dex零点偏移修正之后的一一对应关系.右图是残差(HLM测量值和文献值之间差值)的频数直方图,图中黑色曲线是残差的高斯拟合线.从图中可知,测量结果的系统偏差为0.04 dex,精度为0.064 dex.Lee等[5]采用模板匹配方法对425条ELODIE光谱样本的[α/Fe]进行测量,系统偏差为–0.01 dex,精度为0.062 dex.Li等[1]采用LSP3方法对与Lee相同的样本进行测量,系统偏差为–0.125 dex,精度为0.071 dex.从上述比较可以看出,HLM模型的测量结果优于LSP3方法,但是比Lee的模板匹配方法稍微差一点.

为了探讨物理参数对[α/Fe]测量精度的影响,图3显示了[α/Fe]的残差随[α/Fe]、Teff、lg g和[Fe/H]变化的分布图.图中实线是精度变化曲线,虚线是系统偏差变化曲线.图3(a)显示了残差与[α/Fe]之间的关系.从图可以看出,当[α/Fe]靠近MARCS模板库参数范围的边界时,残差比较大.在ELODIE光谱样本中,大约有80条光谱的[α/Fe]参数值在[0.04 dex,0.06 dex]之间,占总样本的25%.这些样本的误差比较大,影响了估计精度.因此,我们下一步的工作是完善MARCS模板库,扩大[α/Fe]参数范围,提高测量精度.图3(b)显示了残差与Teff之间的相关性,当Teff大于5800 K时,精度为0.051 dex,当Teff小于5800 K时,精度为0.076 dex.从图3(c)可以看出,残差和lg g之间没有很明显的相关性.图3(d)显示了残差与[Fe/H]之间的关系,当[Fe/H]小于–1.5 dex时,精度为0.044 dex,当[Fe/H]大于–1.0 dex时,精度为0.065 dex.从图中的变化趋势可以看出,残差与Teff和[Fe/H]之间有一定的相关性,高温贫金属光谱的精度相对较小.

为了检验HLM算法的鲁棒性,我们给ELODIE光谱样本分别加入不同信噪比(50 db、30 db、25 db、20 db、15 db)的高斯白噪声,实验结果如表1所示.从表中可以看出,当信噪比大于20 db时,测量结果比较好,精度小于0.1 dex.当信噪比小于20 db时,测量结果比较差.因此,HLM模型适用于信噪比大于20 db的低分辨率恒星光谱的[α/Fe]丰度的估计.

图2 ELODIE样本的[α/Fe]的HLM测量值与文献值的比较.左图是HLM测量值与文献值的对比图,右图是HLM测量值和文献值之间差值的频数直方图Fig.2 Comparison of[α/Fe]between the measurements of HLM and values from the literature for the ELODIE sample stars.The left panel plots the measurements of HLM against values from the literature,while the right panel is a Gaussian fi t to the residuals between the measurements of HLM and values from the literature

表1 加入不同信噪比噪声的光谱的[α/Fe]测量结果(系统偏差,精度)Table 1 Results of the spectra with different SNR noises(system deviation,accuracy)

3.2 SDSS光谱样本

我们从低分辨率SDSS-DR13光谱库中选取了与APOGEE(Apache Point Observatory Galactic Evolution Experiment)高分辨率光谱库同源的412条恒星光谱样本[18].光谱样本的信噪比分布如图4(a)所示.由于多普勒效应,SDSS/SEGUE(Sloan Extension for Galactic Understanding and Exploration)实测光谱在真空传播中存在红移[19−20].根据SSPP(SEGUE Stellar Parameter Pipeline)提供的视向速度,我们去除光谱红移[21−22].所有样本共同的静止对数波段范围为[3.6176,3.9539],步长0.0001,共3364个采样点.[α/Fe]参数值来自APOGEE光谱库.由于APOGEE只提供了单个α元素丰度,而且每个α元素丰度的线强度不同,所以我们对每个α元素丰度设置不同的权重,然后通过计算加权平均值得到[α/Fe],计算公式如下所示:

其中,xi分别是[Mg/Fe]、[Ti/Fe]、[Ca/Fe]、[Si/Fe], 对应的Wi分别为5、3、1、1[5].412条光谱样本的[α/Fe]参数范围为[0.05 dex,0.35 dex].

图3 ELODIE样本的[α/Fe]残差随[α/Fe]、Teff、lg g和[Fe/H]变化的分布图Fig.3 Variations of[α/Fe]for the ELODIE spectra as functions of[α/Fe],Teff,lg g,and[Fe/H]from upper to lower panels,respectively

图4 SDSS和LAMOST光谱样本的信噪比分布Fig.4 Signal-to-noise ratio distributions of the SDSS and LAMOST samples

图5 显示了SDSS光谱样本的HLM模型的测量值与来自APOGEE光谱库的测量值的比较结果.图中HR表示来自APOGEE光谱库的测量值.实验结果的系统偏差为0.16 dex,精度为0.065 dex.Lee等[5]对91条SDSS光谱样本的[α/Fe]进行估计,也发现估计值与文献中的高分辨率值之间存在0.13 dex的系统偏差,精度为0.069 dex.因此,HLM算法对SDSS光谱样本的预测结果是可信的并且精度优于模板匹配算法.

图5 SDSS样本的[α/Fe]的HLM测量值与APOGEE测量值的比较.左图是HLM测量值与APOGEE测量值的对比图,右图是HLM测量值和APOGEE测量值之间差值的频数直方图.Fig.5 Comparison of[α/Fe]between the measurements of HLM and values from the APOGEE for the SDSS sample stars.The left panel plots the measurements of HLM against values from the APOGEE,while the right panel is a Gaussian fitting to the residuals between the measurements of HLM and values from the APOGEE.

图6 是残差分布图.残差与[α/Fe]、Teff、lg g和[Fe/H]之间的关系同3.1节的结论相同.因为SDSS光谱样本的[α/Fe]靠近MARCS模板库参数边界的比较少,所以,SDSS光谱样本的实验结果比较好.

图6 SDSS样本的[α/Fe]残差随[α/Fe]、Teff、lg g和[Fe/H]变化的分布图Fig.6 Variations of[α/Fe]for the SDSS spectra as functions of[α/Fe],Teff,lg g,and[Fe/H]from upper to lower panels

3.3 球状和疏散星团

在SDSS/SEGUE巡天中,已经有多个球状星团和疏散星团被发现.我们选择了M13、M15两个球状星团和M67、NGC2420两个疏散星团.4个星团成员的光谱数据均来自SDSS-DR13.光谱样本的信噪比分布如图7所示.Smolinski等[23]和Lee等[24]在文章中介绍了选择星团成员的方法,并且给出了这些星团的[α/Fe]平均值.

表2列出了4个星团的估计结果.第2列Number是星团成员的个数,第3列文献值是高分辨率光谱的估计值,第4列是SSPP测量结果,两者均来自Lee等[5]文献,第5列是本文方法估计星团的[α/Fe]平均值和标准差,其中平均值是去除系统偏差0.16 dex之后的估计值.从表2可以得出:HLM算法对M13、M67和NGC2420星团的估计结果与文献值差距不大,优于SSPP测量值.但是,M15星团的估计结果与文献值差距较大,比SSPP测量结果稍微差一点.另外,4个星团测量结果的精度均小于0.055 dex,弥散度比较小.该实验进一步验证了HLM模型测量低分辨率恒星光谱的[α/Fe]丰度的可行性.

3.4 LAMOST光谱样本

通过APOGEE光谱库与低分辨率LAMOST-DR3光谱库的交叉匹配,我们获得了6000多条LAMOST光谱的[α/Fe]参数值. 我们从中选取了1276条低噪音(403–533 nm波段的信噪比SNRG大于20)光谱样本.光谱样本的信噪比分布如图4(b)所示.根据LAMOST给出的视向速度消除光谱红移之后,所有样本共同的静止对数波段范围为[3.5843,3.9556],步长0.0001,共3714个采样点.4个恒星大气参数范围为:Teff∈[3553.7 K,6355.3 K];lg g ∈[0.4481 dex,3.9840 dex];[Fe/H]∈[–2.1727 dex,0.4206 dex];[α/Fe]∈[0.06 dex,0.34 dex].

图8显示了LAMOST光谱样本的测量值与来自APOGEE光谱库的测量值的比较结果.实验结果的系统偏差为0.05 dex,精度为0.062 dex.Li等[1]采用LSP3方法对98条LAMOST(信噪比大于30)恒星光谱样本的[α/Fe]进行测量,系统偏差为–0.120 dex,精度为0.090 dex.从这可以看出,HLM算法比LSP3算法的精度高.

LAMOST光谱样本的[α/Fe]系统偏差比SDSS光谱样本小很多.这主要是由于两组样本的波长范围不相同.LAMOST光谱的对数波长范围是[3.5843,3.9556],SDSS光谱的对数波长范围是[3.6176,3.9539].由此导致最终获得的光谱特征及其对噪声等因素的敏感性均有差异.因此,二者的系统偏差存在明显差异.如果我们将LAMOST样本的波长范围也截取为SDSS光谱的[3.6176,3.9539],则其实验结果的系统偏差为0.128 dex,二者差异明显缩小.因此,光谱样本的波长范围对系统偏差有较大的影响.

表2 星团的[α/Fe]的估计结果的平均值Table 2 Average estimated values of[α/Fe]for clusters

图7 M13、M15、M67和NGC2420星团成员的信噪比分布Fig.7 Signal-to-noise ratio distributions of the member stars of M13,M15,M67,and NGC2420

图8 LAMOST样本的[α/Fe]的HLM测量值与APOGEE测量值的比较.左图是HLM测量值与APOGEE测量值的对比图,右图是HLM测量值和APOGEE测量值之间差值的频数直方图Fig.8 Comparison of[α/Fe]between the measurements of HLM and values from the APOGEE for the LAMOST sample stars.The left panel plots the measurements of HLM against values from the APOGEE,while the right panel is a Gaussian fit to the residuals between the measurements of HLM and values from the APOGEE

图9 显示了[α/Fe]残差随Teff、lg g、[Fe/H]和SNRG变化的趋势.[α/Fe]残差与Teff和[Fe/H]的相关性同3.1节的ELODIE光谱结论相反.这是由于二者提取的特征分布不同所造成的.ELODIE、SDSS和LAMOST光谱样本提取的特征分布如图10所示.图中黑色曲线是具有不同参数值的恒星光谱,黑色标记是提取的特征位置.ELODIE光谱样本和SDSS光谱样本的特征分布在各个不同的频段,而LAMOST光谱样本的特征主要分布在380–530 nm波段范围.Teff和[Fe/H]的变化对谱线的线性峰值具有较大的影响,从而影响了[α/Fe]的测量精度.因为LAMOST和ELODIE光谱样本的特征分布相差较大,由此导致二者获得的谱线存在很大差异,所以Teff、[Fe/H]对二者[α/Fe]精度的影响也不同.

残差与SNRG的关系如图9(d)所示.当光谱样本的SNRG在30 db附近时,精度为0.071 dex,当SNRG在50 db附近时,精度为0.054 dex,当SNRG达到70 db附近时,精度为0.047 dex.从图可以看出,随着SNRG的增加,精度变小.实验结果表明:光谱信号的噪声对测量精度有一定的影响.

图9 LAMOST样本的[α/Fe]残差随Teff、lg g、[Fe/H]和SNRG变化的分布图Fig.9 Variations of[α/Fe]for the LAMOST spectra as functions of Teff,lg g,[Fe/H],and SNRG from upper to lower panels,respectively

图10 ELODIE、SDSS和LAMOST光谱样本提取的特征分布图Fig.1 0 Detected features for estimating the ELODIE,SDSS,and LAMOST samples

4 总结

我们开发了一个基于Haar小波+LASSO算法的多元线性回归模型.我们使用该模型测量了ELODIE、SDSS和LAMOST的低分辨率恒星光谱的[α/Fe]丰度,都获得了较好的结果.

HLM模型的一个特点是稀疏性.例如:LAMOST原始光谱信号中有3714个特征,我们采用Haar小波+LASSO算法从光谱信号中选取与[α/Fe]相关的特征,提取的特征维数为15,只占原有特征的0.4%.我们提取的每个特征都对应原始光谱的相应波段,具有很强的物理意义.从这些特征中,我们能够得出影响[α/Fe]的重要谱线.

HLM模型的另一个特点是运算速度快,精度高.本文方法占用计算机内存比较少,运算速度快,适用于海量的光谱数据的处理.同相关文献的实验结果相比较,HLM模型的精度高,例如:采用HLM算法对1276条LAMOST光谱样本的[α/Fe]进行估计,测量精度为0.062 dex.Li等[1]采用LSP3方法对98条LAMOST光谱样本的[α/Fe]进行估计,测量精度为0.090 dex.

猜你喜欢
星团恒星残差
基于双向GRU与残差拟合的车辆跟驰建模
(18)刺杀恒星
恒星
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
恒星的演化
恒星不恒
昴星团
宇宙中的拓荒者——球状星团
综合电离层残差和超宽巷探测和修复北斗周跳