周光荣,曾祥云*,曾曙光,黄 瑶,郑 胜,罗骁域,陈志维,江治波
(1. 三峡大学天文与空间科学研究中心,湖北 宜昌 443002;2. 三峡大学理学院,湖北 宜昌 443002;3. 中国科学院紫金山天文台,江苏 南京 210023)
在紫外线波段探测到星际氢分子[1]和在2.6 mm波长处探测到CO[2]开创了研究分子星际介质的新时代,而有机分子介质的发现促进了分子天体物理学科的诞生。分子云是构成星际介质的基本成分之一,主要由混合着少量原子、离子、尘埃和其他成分的分子气体组成[3]。星系中的分子云存在一个广泛尺度的结构,其结构致密的部分称为分子云核[4-5]。现代天文学认为,恒星形成于分子云核的内部[6-7]。因此,分子云核是建立星系中恒星形成观测特征理论模型的关键[8],有助于进一步研究恒星的形成与演化[9]。
银河画卷巡天项目第1阶段计划对经度-10°~+250°和纬度-5°~+5°银道面采用12CO(J=1-0),13CO(J=1-0)和18CO(J=1-0)谱线进行大规模的观测,目前获得了10 941个单元格数据,每个单元格大小为30′ × 30′,速度方向包含16 384个通道[10]。项目第2阶段任务已经开始,该阶段任务中纬度的观测范围扩展到-10.25°~+10.25°,观测数据更加丰富,涵盖分子云广泛的空间尺度、不同的进化阶段和不同的环境[11]。探索这些数据的价值,检测数据中的分子云核并分析其物理性质,为恒星形成早期阶段的研究提供科学的数据支撑。
随着银河画卷巡天项目推进,分子云数据正在快速积累,人工检测和验证是一项费时费力的工作。为了更加快捷方便地对分子云数据做科学分析,本文设计开发了针对银河画卷巡天项目实测数据的分子云核仿真与检测系统。本系统将分子云核的仿真、检测、核表匹配、参数还原、三维可视化和存储串联形成一个整体,提供友好的交互界面,便于科研人员使用。系统采用三维高斯数学模型生成仿真数据[12],用于验证检测算法的有效性。分子云核检测算法采用文[13]提出的密度局部聚类(Local Density Clustering, LDC)算法。参数还原算法采用多高斯拟合模型(Modified Gaussian Model, MGM)[13],进一步校正分子云核的相关参数。三维可视化可以直观展示分子云核的位置、形状和尺寸。最后使用MySQL数据库对分子云核数据以及结果进行归档存储,为相关科学研究提供数据支撑,加速科研产出。
目前,系统所有模块的基本功能都已实现,从生成仿真数据到最后数据存储,中间包括分子云核检测、核表匹配、参数还原和三维可视化等功能使分子云核的研究变得更加直观。系统主要包含5个模块,每个模块包含若干子模块。系统功能结构框架如图1。
图1 系统功能结构图Fig.1 System function chart
该系统采用Python编程语言实现,系统界面设计采用PyQt5框架,并采用面向对象的编程思想实现系统的所有功能。PyQt5继承了Qt的优点,能够降低各模块之间的耦合度,方便系统的拓展和维护,同时与Python结合可以大大提高研发效率。
数据生成包含两个不同的模式:仿真数据生成和合成数据生成。银河画卷数据是三维数据,其中包括银经、银纬和速度,根据文[14]对M17 SW的研究结果,分子云核在空间坐标和速度坐标上都是高斯形状的分布,其柱密度也满足高斯分布。三维高斯数学模型方便还原分子云核的相关参数,因此仿真数据采用三维高斯模型,针对给定的分子云核参数,采用数学计算和插值等方式,生成仿真的分子云核,合成数据通过向真实数据中随机加入仿真云核生成。
2.1.1 仿真数据生成
针对给定的分子云核参数,采用三维高斯数学模型,生成一些特定的分子云核数据,在特定的实验需求中,可以实现相关检测算法的验证和优化。同时大量的仿真数据也可以减小实验对真实数据的依赖,仿真数据与真实数据相互补充,可以实现检测算法及数据交叉验证与认证,更加全面地评价和检测算法的性能。通过对真实数据的分析,对分子云核相关物理参数进行一定约束,建立分子云核三维高斯模型。生成仿真数据时,若两个分子云核满足
|vi-vj|≥σvi+σvj,
(1)
(2)
中的任意一个,则认为两个分子云核没有相互重叠。其中,(xi,yi,vi)和(xj,yj,vj)分别表示第i个和第j个云核的质心坐标;(σxi,σyi,σvi)和(σxj,σyj,σvj)分别表示第i个和第j个云核在主轴、次轴和速度轴的轴长。为了仿真数据更加符合真实数据,基于真实数据的背景噪声,系统可以给仿真数据添加同等水平的高斯噪声。
仿真核表反映分子云核的一些基本信息。图2是云核峰值流量范围为0.46~3,主轴、次轴的轴长范围均为2~4,速度轴的范围为1~7,旋转角范围为0~180°,信噪比为0.23的仿真分子云在3个轴向的积分图。表1是仿真分子云核的核表(本文只显示前5行),其中Size1,Size2和Size3表示相应轴向的半高全宽;Peak1~Peak3和Cen1~Cen3分别为云核中心坐标和质心坐标;θ表示分子云核在银经面和银纬面的旋转角;Peak,Sum和Volume分别表示云核的峰值流量、总流量和体积。云核的中心坐标通过检测算法计算得出,所以在仿真核表中云核中心坐标值与其质心坐标值相同。
图2 仿真数据在3个方向的积分图,从左至右依次是主轴、次轴和速度轴
表1 仿真数据的核表(前5行)Table 1 The clump table of simulated data (The first five lines)
2.1.2 合成数据生成
检验云核检测算法在某天区的云核探测率需要使用合成数据进行实验测试。合成数据是通过向真实数据中随机添加若干个仿真云核生成的,达到扩充实验数据集的目的。在产生合成数据的过程中,为了不改变真实云核数据的整体分布,添加的仿真云核在峰值流量和总流量上尽可能接近真实数据。因此,首先对真实数据中云核的峰值流量和总流量进行统计分析,得出它们的分布区间以及分布规律。根据峰值流量和总流量的统计分析结果,向真实数据中添加仿真数据时,所添加的分子云核数据的峰值流量和总流量在整体上应该满足同样的分布。按照2.1.1描述的方式生成的仿真数据,统计仿真数据中云核的峰值流量和总流量分布,加入真实数据构成合成数据,如图3,对应的核表如表2。
图3 合成数据在3个方向的积分图Fig.3 The integral diagrams of synthetic data in three directions
表2 合成数据中加入的仿真云核核表(前5行)Table 2 The simulated clump table added to the synthetic data (The first five lines)
检测分子云数据中的云核是为了生成分子云核核表,进而开展分子云核相关科学研究。采用局部密度聚类算法检测分子云数据中的云核,检测结果通过系统界面展示。为检验分子云核检测算法的稳定性,针对仿真数据或合成数据的检测结果,本文采用核表匹配的方法计算分子云核检测的召回率和正确率,从而评判检测算法的稳定性和可靠性。
2.2.1 分子云核检测
分子云核检测的主要功能是检测仿真数据、合成数据和真实数据中的云核,采用基于局部密度聚类的分子云核检测算法。使用系统检测分子云核数据的结果显示在系统界面的 “The number of clump” 和 “Detection time” 两个文本框中,它们分别表示检出的分子云核个数和检测花费的总时间,如图4,对2.1.1节中生成的仿真数据进行检测,检出的云核个数为45个,花费时间为15.87 s。系统同时显示原始数据、检测得到的掩膜,以及通过掩膜在原始数据中取出的云核积分图,通过右下角的Aix0,Aix1和Aix2按钮可以切换数据的积分方向。每个数据在检测完毕之后生成一个检测核表文件,表中每列参数的含义与仿真核表一一对应,如表3。检测结果的核表中主轴、次轴、速度轴和体积检出的结果偏小的原因在于为降低噪声的影响,背景截断导致部分形状参数值偏小,而总流量偏大则是因为加性噪声的影响。缺少的旋转角属性值和主轴、次轴、速度轴在参数还原模块做相应的修正。
图4 仿真数据的检测结果Fig.4 The detection results of simulated data
表3 检测结果的核表(前5行)Table 3 The clump table of detected results (The first five lines)
2.2.2 核表匹配
核表匹配是用于评判分子云核检测算法的好坏,其中评价指标为归一化的F1、召回率(Recall)和准确率(Precision)[15],算法性能正比于3个指标,各指标的计算公式为
(3)
(4)
(5)
以上各式中,NC为检测出正确云核的个数;ND为检测出云核的个数;NE为仿真云核的个数;P为准确率;R为召回率。
该模块可以接受单个文件或者文件夹作为输入参数。单个文件是指一个仿真核表和一个检测核表,单个文件夹是指仿真核表文件夹和检测核表文件夹,核表匹配结果分为匹配正确、匹配错误以及检测算法漏检3部分。图5为核表匹配的结果,经计算,2.1.1中仿真数据的核表和检测核表匹配结果中准确率为1,召回率为0.9,F1为0.947。
图5 仿真数据的核表匹配Fig.5 The clump table matching of simulated data
为降低噪声对分子云核检测结果的影响,分子云核检测算法在对云核检测时,采用背景截断处理,这导致检测分子云核的主轴、次主轴、速度轴、峰值流量与真实值存在一定偏差,同时在检测时并不计算每个云核对应的旋转角,而是通过多高斯拟合,对检测的分子云核进行拟合,反演分子云核主轴、次主轴、速度轴和峰值流量等参数,并计算其对应的旋转角,计算的旋转角与仿真核表中的旋转角满足相等关系或者互补关系。表4展示了2.2.1节中检测核表通过参数还原修正后的结果。
表4 参数还原(前5行)Table 4 Parameter reproduction (The first five lines)
分子云核数据作为三维数据,仅通过观察云核在各个方向的积分图像来理解云核并不能获得最好的效果,三维可视化可以弥补二维无法显示空间信息的不足,有助于研究人员对分子云核的理解。系统平台对检测得到的分子云核进行多元展示,其中三维立体图像展示方便研究人员在空间上鉴别不同形态的分子云核,而不同方向的积分图、切片图则有利于研究人员查看不同分子云核的细节信息,从而发现不同分子云核迥异的外在表现,引导研究人员挖掘分子云核内禀的物理特性差异。图6显示了单个分子云核的三维立体图、积分图和切片图。
图6 分子云核的三维显示Fig.6 The 3D display of molecular clump
仿真和合成分子云核数据在分子云核相关技术算法的研究中具有重要意义,而真实分子云数据中分子云核的检测为研究人员提供可靠的分析资料。银河画卷巡天项目分子云实测数据中存在海量分子云核数据,数字化归档存储为珍贵的分子云核数据提供可靠保障,为相关科学研究提供可靠支撑。实测分子云核数据可以看作是一个三维矩阵,而三维矩阵直接存储到数据库中会丢失数据内部的关系。为了将分子云核三维数据、分子云核核表等数据安全存储于数据库中,我们首先对分子云核数据做二进制转换,进而将核表及数据对应存储于数据库中。如图7为分子云核数据表和分子云核信息表之间的关系图。
图7 数据库关系表图Fig.7 The relational table of database
M16天区是银河画卷巡天项目的一小部分区域,其银经范围为15°15′~18°15′,银纬范围为0°~1°30′。本系统对M16天区进行分子云核检测的结果及分析如图8,图中红点代表检出的分子云核位置,共658个核,对应的核表如表5。对M16的检测核表做统计分析可以得出在M16天区中分子云核峰值流量和总流量的分布如图9,其中纵轴表示分子云核个数百分比,横轴分别表示分子云核的峰值流量和总流量。由图9可见,分子云核峰值流量在4左右的比例最高,总流量在300左右最大。
图8 M16天区的检测图Fig.8 The detection result of M16 area
表5 M16天区检测结果的核表Table 5 The clump table of detected results in M16 area
图9 (a)M16真实数据的分子云核峰值流量分布;(b)M16真实数据的分子云核总流量分布Fig.9 (a) Peak value distribution curve of M16 real data; (b) total flux distribution curve of M16 real data
目前,系统已经完成所有模块的建设,面对以后日益增多的分子云实测数据,本系统可以充分减少分子云核数据的处理时间。采用仿真分子云与合成分子云等多源数据的交叉校验,系统分子云核检测准确率达0.947,可以为相关科学研究提供可靠、科学的数据支撑,加速相关科研成果产出,夯实我国分子云核实测基础。M16天区实测分子云数据共检出658个分子云核,为该天区相关科学研究提供可靠的数据支撑。后期我们将着力研究分子云核检测算法以及生成仿真数据模型,完善已有模块的功能,为我国分子云核及相关科学研究提供有力的技术支撑。
致谢:本文采用银河画卷巡天项目的数据,该项目利用PMO-13.7 m望远镜沿北星系面在12CO/13CO/18CO的多线巡天。感谢银河画卷巡天项目组的所有成员,特别是PMO-13.7 m望远镜工作人员的长期支持。