基于DBSCAN聚类的毕星团成员星识别方法

2021-06-07 07:05张双寒王珊王特
现代信息科技 2021年24期

张双寒 王珊 王特

摘  要:毕星团成员星的判定始终是天文学中一项重要的任务。文章根据依巴谷卫星的观测数据来判别毕星团的成员星。在此问题中,根据毕星团中心密度大,恒星数量多的特点,采用DBSCAN密度聚类算法来判断恒星是否属于毕星团成员星,由于三维聚类计算消耗较大,于是首先利用二维投影替代三维图像。考虑到二维可能出现判断重叠的现象,又对其他变量进行聚类对结果进行修正得到了最终的成员星组成和赫罗图,结果显示模型应用性和准确性能够满足要求。

关键词: DBSCAN聚类;毕星团;视差法;赫罗图

中图分类号:TP391        文献标识码:A文章编号:2096-4706(2021)24-0146-04

Abstract: It is always an important task in astronomy to determine the member stars of Hyades. Based on the observation data of Hipparcos, this paper discriminates the member stars of Hyades. In this problem, according to the characteristics of high density and large number of stars in the center of Hyades, the DBSCAN density clustering algorithm is adopted to judge whether the stars belong to the member stars of Hyades. Due to the high consumption of 3D clustering calculation, the two-dimensional projection is first used to replace 3D image. Considering that judgment overlap may occur in two dimensions, the final member star composition and Hertzsprung-Russell diagram are obtained by clustering other variables and revising the results. The results show that the applicability and accuracy of the model can meet the requirements.

Keywords: DBSCAN clustering; Hyades; parallax method; Hertzsprung-Russell diagram

0  引  言

天體测量学是天文学的一个重要分支,对于离地较近天体的测量,视差法是一种较为通用的方法。依巴谷卫星(High Precision Parallax Collecting Satellite)全称为“依巴谷高精度视差测量卫星”,主要用于精确测量恒星的视差和自行,之后可以通过视差数据推断出恒星距地球的距离。

毕星团是位于金牛座的离地球最近的疏散星团,形状近似球形,它大约有三百多个成员星,总质量约为三百个太阳的质量。而且其具有中心聚度高的特征,约有一半质量位于半径为6秒差距所形成的球内[1]。根据依巴谷卫星的高精度观测数据,可以了解到相关各星的距离以及运动情况。其中已知恒星的视星等,赤经,赤纬,视差角,自行情况和色指数等参数,分别解释如下:

(1)视星等:指观测者用肉眼看到的星体亮度,数值越小,亮度越高,其与绝对星等存在如下函数关系:

M=m+5-lgr      (1)

其中:r为距离(秒差距);M为绝对星等;m为视星等;

(2)赤经,赤纬:指天体对应于天球上的坐标;

(3)视差角:如下图所示,指采用三角式差法测量恒星距离时,三角形中对应1Au边的角度大小,如图1所示;

(4)恒星自行:指恒星垂直于视向的运动;

(5)色指数:指同一个天体在任意两个波段之内的星等差;

(6)赫罗图:是指以恒星的色指数作为横坐标,以其绝对星等作为纵坐标而作出的散布图。

需要根据这些数据建立合理的数学模型,在数据中确认毕星团的成员星并绘制出毕星团成员星的赫罗图。

1  方法分析

从介绍中可以看出,从这些恒星中区分出属于hyderite星团的恒星是一个成员恒星识别问题。为了建立成员星的识别模型,需要知道以哪些物理性质作为判断依据,然后用数学模型表示成员星与场星的区别,并对其进行识别。

可以直接测量的恒星的物理性质一般分为两类:亮度和运动。因此,目前的成员星识别方法主要分为光度法和运动学[2]法。运动学方法需要知道恒星的运动数据,如自走速度或径向速度数据,并做一些运动学假设。例如,之前成熟的vasilevski-sanders方法[2]利用运动学特征来识别开放星团的成员。该方法需要在以下三个假设中应用:

(1)天域内的恒星仅分为两部分:星团成员星和场星;

(2)星团和场星在各自的空间都满足二元正态分布;

(3)用二维圆形正态分布函数拟合星团成员星在自身空间的分布[2]。

虽然在实际应用中会受到许多因素的影响,例如当自精度较差或远低于场星时,该方法的结果并不理想,经常会出现一些误差,但它仍然是一种成熟和应用最广泛的经典模型。

在测光方法中,研究人员利用测光数据进行经验判断,但对色幅图的形状很难建立严格的数学模型,因此测光数据往往得不到充分利用。根据上述方法中存在的问题,结合Hyderite集群的特点,这是一个近似球形疏散星团,根据已知的数据[1],它有大约300成员恒星中央收敛和大约一半的高质量位于范围6秒差距。本文提出了利用DBACAN聚类模型来识别成员星的方法。高新华等[3]首次使用DBACAN方法分别确定开放星团NGC 6971和NGC 2682的隶属度,表明DBACAN聚类算法是一种有效的隶属度确定方法,具有一些传统隶属度确定方法所不具备的优点。由于三维聚类难以实现,且计算量过大,本文首先将其简化为二维问题。为了弥补二维聚类精度的不足,采用多场三维聚类的方法对结果进行校正,最终得到毕星团成员星的完整信息和赫罗图。

2  模型假设

在本文工作中,对模型建立做出如下假设:

(1)依巴谷卫星观测数据可靠精确;

(2)不考虑相对论效应;

(3)认为三角视差法测距带来的误差对结果影响可以忽略。

3  定义与符号说明

文中涉及的定义与符号说明如表1所示。

4  模型建立与求解

4.1  数据预处理

4.1.1  误差离群点检测

从已有观测数据中可以看到,有的数据存在着比较大的测量误差,因此对整体数据做如下的离群点检测,将检测出的误差偏离过大的离群点剔除,以保证判别星团成员星的效果和精确性,如图2所示。从图中可得:所有數据误差均值为1.627,绝大部分数据集中在这附近,但有少数偏离过大,故将其筛选掉。

4.1.2  数据基本统计

由各个恒星的赤经,赤纬数据,可得恒星在天球上的大致分布,首先以二维形式作图,以赤经为横坐标,赤纬为纵坐标,得出分布如图3所示。

从图中可以看到,整体恒星分布较为均匀,某些位置较为稠密,初步判断可能是属于毕星团的成员星。但实际上恒星的位置信息,二维并不足以表达,需要根据视差角得到距离信息,它们之间有如下换算关系:

x=rcos(DE)sin(RA)    (2)

y=rcos(DE)sin(RA)    (3)

z=rsin(DE)(4)

在三维坐标轴中,以1秒差距为基本单位,将球坐标系转换为直角坐标系,通过以上关系得到三个维度的信息,便得到如下的空间位置分布,如图4所示。

接着同样也对恒星的视星等信息和色指数进行统计,将其由低到高排序,得到如下分布,如图5、6所示。

4.2  二维DBSCAN模型

DBSCAN算法是一种基于密度的聚类算法,它主要原理是通过统计每个点邻域内包含的点个数来确定该点的密度,不像VS方法这样的参数方法需要对数据进行模型假设,因而它可以发现任意形状的簇,另外,此算法也不需要复杂的数学计算,适用于高维数据的聚类,根据毕星团中心密度集中,恒星数量分布多的特点,可将恒星看作在空间中分布的点,那么这种算法可以较好地将属于毕星团的点判别出来。

最近,天文学家逐渐意识到DBSCAN算法的潜力。Castro-ginard等人[4]提出了一种DBSCAN算法与神经网络相结合的方法来检测开放的聚类成员。他们将该方法应用于Tycho-Gaia Astrometric Solution (TGAS)[5]数据,并通过GAIA-DR2中的光度数据验证了该方法的可靠性。

4.2.1  基本概念

(1)聚类:将某组数据的对象划分为若干个子集的过程,划分的每个子集是一个类或者簇,在同一类中的对象有着较高的相似度,反之,不同类之间的对象相似度较低;

(2)r邻域:指以某一个点为圆心,以半径为r画圆所包含的范围;

(3)MinPts:某个点的r邻域内所包含的点的数量阈值;

(4)核心对象:假如某个点所定义的密度达到算法设定的阈值,那么算法认为其为核心点;

(5)直接密度可达:假如点a在点b的r邻域内,且b是核心点,则认为a-b直接密度可达。

(6)密度可达:假如有一个点的序列,对其中任意相邻的两个点直接密度可达,则首尾点密度可达。

4.2.2  模型求解

由于DBSCAN模型对于输入值极度敏感,不同的输入值可能会使结果有着很大的差别,因此需要首先确定r和MinPts,在这里根据查阅的毕星团相关资料,设定r为1.1秒差距,MinPts为6。根据之前得到的恒星的三维坐标信息,将其投影到xoy,yoz,zox平面,分别进行聚类,结果如图7、8、9所示。

5  模型修正

毕星团恒星和其它恒星不仅仅在空间位置上有所区别,在其他的信息上也会呈现出相关的特征,因此将其他信息也加以考虑,三维聚类分析并与前述结果对照修正得到三维聚类分析对比图和以及赫罗图,如图10、11所示。

6  结  论

本文根据毕星团中心密度大,恒星数量多的特征,采用DBSCAN密度聚类算法来判断恒星是否属于毕星团成员星,首先利用二维数据进行聚类,但二维信息可能出现判断重叠的现象,因此对其他变量进行聚类得到了最终的成员星组成和赫罗图,结果显示模型应用性和准确性能够满足要求。

需要指出的是:DBSCAN算法在应用中也有其无法满足要求的地方, 如在确定疏散星团成员时,算法无法计算出每一颗恒星所具有的成员概率,而且DBACAN算法对已知测量数据的测量精度要求比较高,而且由于此算法的两个输入参数(Eps和MinPts)针对全局所有的数据,那么当数据集中或者数据分布不均匀时,有些相对松散的簇可能在计算时会被遗漏掉。因此此方法仍在研究和完善当中,之后将根据其缺点和不足对以上工作继续完善和改正。

参考文献:

[1] CHUMAK Y O, RASTORGUEV A S,AARSET S J. Numerical Simulations of the Hyades Dynamics and the Nature of the Moving Hyades Cluster [J].Astronomy Letters,2005,31(5):308-314.

[2] 谢安琪,齐朝祥.星团成员辨认方法研究进展 [J].天文学进展,2018,36(1):17-28.

[3] 高新华,陈力,侯振杰.一种新的疏散星团成员判定方法 [J].天文学报,2013,54(5):439-446.

[4] GINARD A C,JORDI C,LURI X,et al. A new method for unveiling Open Clusters in Gaia: new nearby Open Clusters confirmed by DR2 [J/OL].arXiv:1805.03045 [astro-ph.GA].(2018-05-08).https://arxiv.org/abs/1805.03045.

[5] LINDEGREN L,LAMMERS U,BASTIAN U. Gaia Data Release 1 Astrometry:one billion positions,two million proper motions and parallaxes [J/OL].A&A,2016,595:A4[2021-09-24].https://doi.org/10.1051/0004-6361/201628714.

[6] 张会彦.卫星光学测量方法与精密定轨研究 [D].西安:中国科学院研究生院(国家授时中心),2014.

[7] 许伟维,廖新浩,周永宏,等.天体测量法探测系外行星 [J].天文学报,2016,57(4):422-436.

[8] 丁成宇.天体测量卫星Gaia第二批数据中类星体天体测量性质研究 [D].南京:南京大学,2020.

[9] 雷伟伟,张捍卫,李凯.天体测量与空间科学中的时间尺度及其转换 [J].飞行器测控学报,2016,35(3):212-221.

[10] 金文敬.天体测量星表与巡天观测的进展 [J].天文学进展,2009,27(3):247-269.

[11] 孙一鸣.疏散星团的空间分布 [D].上海:上海师范大学,2009.

[12] 高新华,王超,顾晓清,等.基于DBSCAN聚类算法的疏散星团NGC 188的3维运动学成员判定 [J].天文学报,2017,58(5):67-74.

作者简介:张双寒(2000—),女,汉族,河北邢台人,本科在读,研究方向:深度学习;王珊(2000—),女,汉族,河北保定人,本科在读,研究方向:深度学习;王特(2000—),男,漢族,河北廊坊人,本科在读,研究方向:深度学习。