The Cannon:一种基于光谱数据的恒星参数测量方法

2020-05-16 08:21黄轶琦侯金良
天文学进展 2020年1期
关键词:低分辨率训练样本波长

黄轶琦,钟 靖,侯金良

(1.中国科学院 上海天文台 星系与宇宙学重点实验室,上海 200030; 2.中国科学院大学,北京 100049)

1 引言

近年来,人们在中低分辨率的光谱巡天观测取得了举世瞩目的成就。郭守敬望远镜(Large Sky Area Multi-Object Fiber Spectroscopy Telescope,LAMOST)为代表的望远镜获取的千万量级光谱数据为银河系天文学的研究提供了巨大的数据支持,也对目前的数据分析和参数测量提出了巨大的挑战。如何快速准确地求得恒星参数,成为当前天文大数据时代一个亟待解决的问题。

传统的恒星参数测量方法主要基于恒星大气模型,通过特定参数条件下理论光谱与观测光谱的拟合来确定其恒星参数。然而,该参数测量方法通常受限于拟合光谱参数所用到的恒星大气模型以及观测光谱的谱分辨率,一般只适用于中高分辨率恒星光谱,且参数处理的效率低下。随后发展起来的模板匹配方法虽然实现了大规模中低分辨率光谱的统一参数测量,但是该方法受光谱模板的限制十分明显,其模板的参数范围、光谱范围以及光谱分辨率直接决定了参数求解的精度和适用的恒星类型。考虑到光谱模板主要来源于实测光谱,其参数空间很难做到均匀,模板光谱的参数间隔较大,需要进行插值来满足与目标光谱的匹配要求。而插值的算法往往具有很大的不确定性,从而导致参数测量结果的不确定度进一步增大。此外,由于不同类型恒星具有不同的表面温度,因此其光谱特征的差异十分明显。用于斯隆数字巡天(Sloan Digital Sky Survey,SDSS)的恒星参数测量程序(Sloan extension for galactic understanding and exploration stellar parameter pipeline,SSPP)[1,2]和法国里昂大学光谱分析软件(university of Lyon spectroscopic analysis software,ULYSS)为代表的恒星参数测量方法,主要对原子谱线的测量(如H的巴尔末线、CaⅡ三重线等)进行了优化,并进一步丰富了恒星光谱的参数网格。利用该类测量方法,虽然人们对A-F-G-K型恒星取得了较好的测量结果,但由于方法及模板类型的限制,对于更低温的晚型M型星以及更高温的OB型星的参数测量精度仍然差强人意,甚至无法给出参数估计结果。值得注意的是,随着巡天光谱数据的不断增加,越来越多基于数据的参数估计方法开始应用到大规模巡天数据中,如支持向量机(support vector machine,SVM)[3],The Payne[4,5],t-SNE(stochastic neighbor embedding,SNE)[6]等,在处理特定参数测量问题时都有各自的优势。

随着多目标光纤光谱仪的运用,越来越多的大望远镜参与了光谱巡天计划,中高分辨率光学/红外光谱的观测数据积累也达到了百万量级。虽然高分辨率光谱的波长范围很短,难以作为光谱模板进行全谱拟合,但其相对准确的参数测量结果对于低分辨率光谱仍然具有较高的参考价值。在这样的背景下,一种完全基于数据驱动的方法——The Cannon[7]应运而生。这一名称来源于天文学家A J Cannon,她是推动无物理模型恒星分类的先驱。该算法完全从数据出发,不直接基于任何物理模型或假设,且光谱处理速度快,参数测量准确度高,能够很好地将高分辨率光谱的参数结果应用于低分辨率光谱的测量,十分适合于大样本低分辨率光谱的参数求解,以及不同巡天数据之间的交叉定标。

作为一种数据驱动方法,The Cannon首先需要建立一批已知恒星大气参数的光谱训练样本,并利用计算机的大规模运算能力来构建恒星参数与光谱流量的函数关系,进而将这一关系应用到所有恒星光谱数据中,实现对恒星光谱的大气参数求解。由于这一过程不直接依赖于任何物理假设,而是类似于利用事物特征进行分类命名的方法,故而本文将各种恒星大气参数的集合表述为“恒星标签”,The Cannon的核心就是基于光谱特征为恒星贴上具有不同大气参数的恒星标签。

2 The Cannon简介

2.1 第一步:训练样本的建立

为了使用The Cannon对恒星参数进行求解,首先需要构建一个已知大气参数值的光谱训练样本。训练样本的光谱质量和参数测量精度直接影响了光谱模型的建立以及后续恒星参数的求解,因而合理选择具有高信噪比流量和高精度参数的光谱作为训练样本尤为重要。此外,该训练样本还必须经过一定的预处理,以方便后续光谱特征的分析和建模,主要包括:(1)视向速度改正,移至静止坐标系;(2)所有光谱波长范围确保一致;(3)对光谱进行流量归一化处理。

2.2 第二步:光谱模型的建立

基于训练样本,The Cannon建立了每个波长点的光谱流量值与恒星参数之间的函数关系。这是一个概率生成模型,即在恒星光谱的每个波长点生成其流量的概率分布函数,从而得到该波长点流量的期望值和方差。它满足以下两条基本假设:

(1)在不考虑观测误差的情况下,相同大气参数的归一化连续谱在每个波长点的流量值相同(实际上这只是一个近似,例如,具有相同Teff,lgg,[Fe/H]的恒星,它们的光谱可能不同,因为它们的年龄和旋转速度可能不同)。

(2)在每个波长点的流量值随大气参数的变化是平滑的。简言之,光谱模型是光谱每个波长点的流量值作用于恒星大气参数的平滑函数。该函数不是唯一的,能够根据实际需要选择函数的复杂程度,这也是The Cannon灵活度的表现。

假设有N个训练样本,每个样本n在波长点λ有流量值fnλ,每个样本都有由K个参数组成一组恒星标签ℓnk,并表示成一个参数矢量ℓn。根据基本假设,每个样本在每个波长点λ的流量值fnλ可以表示为相应恒星标签ℓnk(Teff,lgg,[Fe/H],···)的连续性方程,与广义线性模型相似,特征向量θλ表示方程在每个波长点的系数向量。在已知特征向量θλ的光谱模型中,给定恒星标签ℓn的流量值fnλ一般用线性函数来表示:

其中,波长λ处的噪声项(n)主要由仪器效应和光子计数导致的误差σnλ和光谱模型在拟合过程中产生的弥散sλ这两部分组成。该噪声模型可以表示为n=[s2λ+σ2nλ]ξnλ,其中ξnλ是一个均值为0,方差为1的高斯随机数。

首先考虑最简单的一阶光谱模型,标签矢量ℓn为线性,其参数矢量表示为:

这里的第一个元素“1”意味着拟合过程中允许进行线性平移。ℓk通常选取训练样本的参数平均值,从而使得光谱模型能够在参数空间的合理范围内震荡。此模型在每个波长点满足如下对数似然函数方程:

其中,矢量fλ是所有样本在波长点λ流量的集合。式(3)也是恒星标签ℓn和特征向量θλ在每个波长点λ的概率密度分布函数。

可见,基于训练样本,在已知光谱流量fnλ和恒星标签ℓn的情况下,可以解算得到光谱模型的特征向量θλ及其弥散sλ:

相应地,二阶的光谱模型对应的标签矢量可以表示为:

在基于训练样本求解特征向量θλ和弥散sλ时,二阶标签矢量的求解过程和一阶标签矢量类似,需要解算的光谱模型都是线性的;但是,后续对恒星标签的求解过程会比较复杂,需要通过非线性拟合来确定恒星参数。

2.3 第三步:恒星参数的求解

如上所述,基于训练样本的光谱流量和恒星参数,The Cannon能够解算得到一个覆盖了一定参数空间范围的光谱模型(概率生成模型)。该模型可以在给定每个波长点光谱流量的前提下解算其对应的恒星参数。对于目标光谱,在进行了包括归一化、红移改正和波长范围对齐等预处理操作后,基于求得的光谱模型特征向量和弥散[θλ,s2λ],以及所有波长点的流量值fmλ,最终可通过积分得到它的恒星标签值:

3 The Cannon使用实例

3.1 利用The Cannon求解LAMOST DR2 K巨星大气参数

Ho等人[8]利用The Cannon这一数据驱动方法对LAMOST K巨星光谱中4个恒星参数进行了求解。他们结合APOGEE提供的高分辨率光谱恒星参数(Teff,lgg,[Fe/H],[α/M]),对4.5×105条LAMOST DR2光谱数据中的K巨星恒星参数进行了重新的解算,结果显示对于K巨星来说,The Cannon对恒星参数的测量精度要明显优于LAMOST的恒星参数处理程序得到的参数结果(对于信噪比大于50的光谱,The Cannon的恒星参数测量误差为Teff≈70 K,lgg≈0.1,[Fe/H]≈0.1,[α/M]≈0.04)。

作为一个低分辨率(R≈1800)光谱巡天望远镜,LAMOST的第二次数据释放(DR2[9])包含约410万条光谱和220万颗恒星的大气参数(Teff,lgg,[Fe/H]),其中K巨星约50万颗[10]。LAMOST 1D光谱由LAMOST 2D流水线处理程序统一处理,恒星参数来自于LASP恒星参数处理程序[11,12]。以SDSS DR9公共星的流水线参数为标准,LAMOST大气参数的测量偏差和弥散为Teff≈(−91±111)K,lgg≈(0.16±0.22),[Fe/H]≈(0.04±0.15)[13]。

阿帕奇顶点天文台星系演化实验(the Apache Point Observatory galactic evolution experiment,APOGEE)是一个高分辨率(R≈22500)和高信噪比(S/N≈100)的近红外(1.514∼1.696µm)光谱巡天计划[14,15]。APOGEE巡天使用位于美国新墨西哥州阿帕奇波因特天文台的2.5 m斯隆望远镜进行观测,拥有300条光纤,主要观测目标是位于银河系核球、银盘和银晕的红巨星(K/M巨星)。其释放的DR12[16,17]包含约1×105颗红巨星光谱的高精度大气参数和化学丰度值。

3.1.1 LAMOST光谱预处理

利用The Cannon进行恒星参数求解之前,Ho等人[8]首先对LAMOST光谱进行了预处理:利用每条LAMOST光谱头文件中的红移值把光谱移至静止坐标系,然后将所有光谱的波长范围调整为3905∼9000,最后将每条光谱进行归一化。归一化光谱为:

这里,fi是波长点i的流量,σi是波长点i的测量误差,权重ωi(λ0)由高斯函数得到:

其中,L是自由参数,表征了高斯平滑的范围。考虑到LAMOST的分辨率以及K巨星光谱的主要特征,该工作的L取50,因此其平滑范围远大于一般原子谱线宽度。

3.1.2 The Cannon的应用及结果检验

为了从LAMOST DR2和APOGEE DR12的11057个公共源中挑选出可靠的训练样本,Ho等人[8]根据描述的不可靠条件或者是有ASPCAPFLAG标记的星,剔除了677个不可靠参数的样本,剩下10380个源。随后,Ho等人[8]把这10380个源全部作为训练样本并重新测量它们的恒星参数值,并剔除了参数值与APOGEE标准值的差值大于4σ的428个源(小于0.5%),然后把剩下的9952个源作为最终的训练样本。

图1显示了9952个源在Teff-lgg空间的分布情况。黑点表示所有LAMOST DR2中的源,图1a)中的彩色点表示具有LAMOST参数的训练样本,图1b)中的彩色点表示具有APOGEE参数值的训练样本。由于分辨率和光谱信噪比的限制,LAMOST在参数空间的弥散度比APOGEE更大,尤其对于巨星。

图1 9952个公共源在Teff-lgg空间的分布情况[8]

为了得到K巨星的光谱模型,Ho等人使用了二阶标签矢量:

该标签矢量主要包括有效温度Teff、表面重力加速度lgg、金属丰度[Fe/H]、α元素丰度[α/M]以及k波段消光Ak这5个恒星参数。

基于训练样本的LAMOST流量和APOGEE恒星参数,通过对数似然函数方程可以得到每个波长点的特征向量和弥散[θλ,s2λ]。图2展示了光谱模型中每个波长点的一阶特征向量和弥散值。该一阶特征向量直观显示了每个波长点对不同恒星参数的敏感程度。

图2 通过9952个训练样本得到的光谱模型[8]

为了检验光谱模型的可信度,Ho等人[8]首先对训练样本进行了检验。具体过程如下:把9952个源均分成8组,编号为0―7,分8次实验,每次拿走一组记为k,再用剩下的7组训练出一个光谱模型,并用它来求解k组的恒星参数值。如此求解8次,最终得到全部训练样本的参数值。将The Cannon得到的恒星参数值(Teff,lgg,[Fe/H],[α/M],Ak)与ASPCAP得到的恒星参数值进行对比,Ho等人[8]发现所有参数的系统偏差和弥散均在合理范围之内,如图3所示。

图3 The Cannon得到的恒星参数值与ASPCAP得到的恒星参数值对比[8]

此外,Ho等人[8]还进一步比较了不同方法所求得的K巨星样本参数结果的分布情况,结果如图4所示。对于同一批公共星样本,3幅图比较了LASP,The Cannon和ASPCAP三种方法所得到的测量结果在赫罗图上的分布。虽然使用的是LAMOST低分辨率光谱,但The Cannon的结果明显好于同样基于LAMOST光谱的LASP结果,其红团簇星的分布更接近采用APOGEE光谱的ASPCAP结果。

图4 同一批公共星样本的来自三种方法的测量结果在赫罗图上的分布[8]

为了验证The Cannon的优势,Ho等人[8]还详细讨论了The Cannon与LASP所得各参数结果的对比情况,结果均显示基于同样的LAMOST光谱,The Cannon结果比LASP结果明显提高。

3.2 利用The Cannon求解LAMOST M巨星大气参数

相比于K巨星,M巨星的表面温度更低,光度更高,相同条件下的可探测距离大大超越其他类型恒星。如果能够可靠地获得包含大气参数、视向速度和距离信息在内的大样本M巨星统计数据,其遥远的示踪范围将能够进一步扩展人们基于现有A-F-G-K型恒星样本对银河系外盘及银晕的认识,为深入研究银河系结构和演化提供关键性依据:譬如,银河系的外盘结构和星族特征、银河系暗物质晕的密度轮廓和整体质量、已知星流的化学动力学演化以及银河系晕中星流结构的发现和证认等。

LAMOST DR5数据发布了超过5×105条M型星数据,其中包括约4×104条M巨星光谱数据[19]。但是,与具有恒星参数测量值的A-F-G-K型恒星星表相比,LAMOST发布的M型星星表并没有列出大气参数(Teff,lgg,[Fe/H])的测量结果,而只包括位置、光谱类型、Hα等值宽度、多条分子谱线的谱指数,以及用来标定M矮星金属丰度的ζ指数等少数光谱观测量。由于缺乏M巨星基本恒星参数的测量,无法构建相应的增值星表,这一M巨星样本难以被有效地应用到银河系相关的各类前沿研究中。

APOGEE仅对K/M巨星进行了高分辨率的光谱观测,因此其参数测量结果具有较高的准确性和可靠性。由Ho等人[8]对LAMOST DR2数据中K巨星恒星参数进行求解的工作可知,The Cannon能够很好地结合LAMOST光谱与APOGEE参数,对晚型恒星进行有效的恒星参数求解。通过搜寻LAMOST和APOGEE的M巨星公共星,我们将能够建立具有LAMOST光谱和APOGEE恒星参数的M巨星训练样本,构建光谱模型,然后利用The Cannon求解所有LAMOST DR5光谱中的M巨星恒星参数。

我们将LAMOST DR5中的M巨星光谱[18](42151颗M巨星)与APOGEE DR14的恒星参数星表进行了交叉认证,共匹配到2909个样本。由于M型星光谱主要表现为红端的分子谱线,因此谱线特征受光谱信噪比和天光发射线的影响较大。为了尽可能确保光谱特征和恒星参数的可靠性,我们从公共源中挑选了温度范围在3580∼4220 K,ASPCAP等于0或129(尽量扩大样本数量),LAMOST光谱信噪比和APOGEE光谱信噪比都高于100的717个源作为训练样本,其参数分布如图5所示。

图5 训练样本的参数分布

相比于K巨星光谱,M巨星光谱缺少原子谱线,且光谱在蓝端流量很低,对α元素丰度的测量精度十分有限。为此,我们只测量了恒星有效温度Teff、表面重力加速度lgg和金属丰度[Fe/H]这3个基本大气参数,给定的恒星标签矢量为:

为了检验LAMOST和APOGEE的训练样本得到的光谱模型的可信度,我们对训练样本进行了类似K巨星的检验,具体是把717个源分成7组,编号为0―6,分7次实验,每次拿走一组记为k,再用剩下的6组训练出一个光谱模型,并用它来求解k组的恒星参数值。如此求解7次,最终得到全部训练样本的新参数值。我们将由The Cannon得到大气参数值和由ASPCAP得到的大气参数进行了对比,结果如图7所示。相比于K巨星的The Cannon结果,M巨星的参数测量弥散度更大。这主要是因为M巨星表现为大量的分子吸收谱线,在光谱归一化过程中很难真正将连续谱剔除干净;此外,由于缺乏蓝端的原子谱线,其视向速度改正的精度也明显低于K巨星,从而导致参数测量精度有所下降。考虑到LAMOST低分辨率的限制,M巨星参数测量精度与LAMOST标准化恒星参数处理程序LASP对A-F-G-K型星的测量精度接近,也进一步验证了The Cannon处理此类低分辨率光谱参数问题的有效性。

图6 训练样本得到的光谱模型

图7 The Cannon得到的大气参数与ASPCAP得到的大气参数的对比

图8显示了LAMOST和APOGEE的2909颗公共星样本的赫罗图分布,图8a)为The Cannon的结果,图8b)为ASPCAP的测量结果。The Cannon结果的参数分布基本符合预期,与ASPCAP给出的M巨星参数类似。可见在3600 K附近的低温端结果与APOGEE结果出现了一定程度的偏差,出现此问题的原因可能有2个:(1)APOGEE的M巨星参数在该参数空间区域附近出现了截止,由于边界效应导致3600 K附近训练样本的数量和测量精度均有所欠缺,从而使训练结果的可靠性下降;(2)此温度范围内的恒星分子带进一步加强,如何正确构建伪连续谱成为一个难题,从而导致特征向量的不确定度增大。

图8 2909个公共源的赫罗图分布

最后,我们对所有42151颗M巨星的温度进行了外部检验,将Zhong等人[19]给出的M巨星光谱类型M0―M6与利用The Cannon得到的温度进行对比,结果符合预期,如图9所示。

图9 42151颗M巨星The Cannon温度结果与光谱类型[19]的对比

4 结论

本文介绍了The Cannon的基本原理,然后利用The Cannon,并结合APOGEE参数对LAMOST光谱中K/M巨星进行参数求解。由前人求解K巨星的结果可知,The Cannon对于LAMOST光谱中K巨星的测量精度比传统的模板匹配方法(LASP)明显提高。此外,我们对于M巨星参数求解的结果也进一步表明,The Cannon的适用范围更广,尤其对于传统方法很难给出参数测量值的低分辨率晚型星光谱,The Cannon也能给出符合预期的参数测量结果。

The Cannon的优势在于其不直接依赖于恒星物理模型来重构恒星光谱和推导恒星参数。由于使用了全谱流量信息来构建光谱模型,很大程度上避免了由于某些谱线信噪比低导致参数测量精度下降等问题。该方法尤其适用于低分辨率光谱的大气参数求解,把高分辨率光谱的参数测量结果与低分辨率光谱在观测深度和光谱数量上的优势有效地结合了起来,进一步提高了低分辨率光谱的测量精度,扩大了对不同类型恒星参数测量的适用范围,具有十分广阔的应用前景。

从The Cannon的工作原理可知,其适用范围完全受训练样本限制,训练样本的参数范围和样本数目直接影响了测量光谱的参数范围和测量精度。一般而言,训练样本的恒星参数来自于比待求解光谱样本具有相似或者更高分辨率的光谱测量结果。由于中高分辨率的光谱相对难以获得,有效获取具有公共星观测的训练样本成为The Cannon在低分辨率光谱测量中进一步推广运用中遇到的最大困难。不过,随着20∼30 m级望远镜的建成使用,未来6∼8 m级望远镜将更多承担中高分辨率的光谱巡天工作,大量的中高分辨率光谱将为The Cannon的应用提供更好的数据支持。

猜你喜欢
低分辨率训练样本波长
红外热成像中低分辨率行人小目标检测方法
一种波长间隔可调谐的四波长光纤激光器
杯中“日出”
基于边缘学习的低分辨率图像识别算法
人工智能
基于针孔阵列型的单次曝光双波长叠层成像*
树木的低分辨率三维模型资源创建实践
基于小波神经网络的网络流量预测研究
宽带光谱成像系统最优训练样本选择方法研究