杨哲睿,段凯凯,藏京京,2,李翔,高娜 ,刘梁
1.中国科学院紫金山天文台,江苏 南京 210008 2.临沂大学,山东 临沂 276000
依据《中国科学院“十三五”信息化发展规划》,中国科学院在“科研信息化应用工程”设立了一类面向研究所“一三五”规划的科研信息化应用示范的课题,通过对前沿计算方法、信息化工具等研究引领学科快速发展,着力解决研究所重大突破科研活动中关键问题,力争取得有国际影响力的应用成果。
暗物质粒子探测卫星(以下简称DAMPE)在轨运行与科学研究就是面向研究所重大突破的科研信息化应用示范支持的一项研究内容,基于暗物质粒子探测卫星的观测数据,应用信息化手段,深入解决该重大突破中的关键性问题——伽马射线数据的科学研究,提升核心竞争力,研制行业共享的应用软件系统、分析系统等,完成科学数据顺利发布和及时分析,完善地面科研信息系统的建设,为开展暗物质、宇宙线等前沿领域的研究提供信息化支撑。
暗物质粒子探测卫星(DAMPE)是中国科学院战略先导专项——空间科学专项的首发星,卫星旨在通过高分辨、宽波段的观测宇宙线粒子来间接探测暗物质粒子[1]。DAMPE 于2015年12月17日由酒泉卫星发射基地成功发射,目前已在轨运行千余天,获取了数十亿个高能宇宙线粒子。DAMPE 卫星设计寿命3年,从卫星平台与载荷的各项性能指标来分析,卫星寿命延寿超过2年。科学应用系统的各项指标均依据卫星3年寿命进行设计,面对2年以上的延寿,需要对科学应用系统进行相应优化。同时,倘若DAMPE 发布科学数据,科学应用系统同样需要进行升级以满足数据发布的需要。
卫星在轨运行由北京空间中心的地面支撑系统和南京紫金山天文台的科学应用系统及相关卫星测控单位共同完成。经过一年多的运行,相关的运控机制已经非常成熟。当前,卫星最重要的任务是对获取的科学数据进行研究,以期获得高质量的物理成果,完成卫星的科学目标。而卫星探测数据中,伽马射线数据有其特殊性,其占总数据的比重特别低,数据量极少;伽马射线不带电,传播过程中不会受到银河系中磁场影响,方向不发生变化,到达地球时依然携带了源的方向信息;伽马天体物理对象具有高度各向异性、稳定源与变源并存、源距离亮度尺度跨度大、变源光变时标跨度大、复杂的天体物理起源等特征。其特殊性也需要具有精确的定点曝光计算,精确的多参数仪器响应计算,针对性的低统计量数据统计分析方法的应用。
因为天体物理过程很难产生伽马射线线谱,所以伽马射线线谱信号是暗物质间接探测中的重要特征信号[2]。前人曾利用Fermi-LAT 数据进行伽马射线线谱搜寻的工作,但没有发现明显的信号[3]。DAMPE 优异的能量分辨率对于伽马射线线谱的搜寻具有独特的优势,对暗物质间接探测具有重要的意义。
按照国际惯例卫星将发布伽马射线光子的数据,需要相应的伽马射线数据发布平台,同时需要开发一套面向外界伽马射线光子高级数据产品的软件(DAMPE Science Tools,以下简称DmpST),以确保用户能够正确地使用和分析DAMPE 的伽马数据。
在国际上,美国国家航空和航天局(NASA)发射的费米卫星已建设稳定运行的科学支持中心(FSSC),费米卫星科学支持中心提供数据获取、数据分析、科学新闻发布等功能,建立伽马射线数据发布平台并开发伽马射线数据分析软件。暗物质粒子探测卫星是我国第一颗空间天文卫星,DAMPE科研信息化应用系统是我国在伽马射线领域第一个数据共享、分析的科研数据发布平台,并集成了科研资源审批的功能,对科研团队提供全面的信息化支撑。
基于暗物质粒子探测卫星的科学数据,针对卫星超过2年的延寿和数据发布的需求,对地面科学应用系统进行升级完善,开发科学数据发布系统和伽马射线分析软件,为暗物质粒子探测卫星提供的科学研究提供专业的信息化支撑,为暗物质粒子探测卫星科学目标的实现提供强有力的数据管理和分析方向的帮助。
为了给DAMPE 的科学研究提供更加专业的支撑,系统建设的核心任务包括:
(1)建立暗物质卫星伽马数据库和暗物质卫星科研信息化服务平台,发布科研动态,实现数据精确检索,形成数据从入库、发布到获取的高速标准化流程。
(2)建设科研成果提交、查看、审核的电子化处理流程和统一管理的框架。
(3)针对DAMPE 伽马射线数据,开发伽马射线数据分析软件(以下简称DmpST),使全世界科学家能够方便快捷地利用卫星数据对感兴趣的伽马射线源进行科学分析。
预期效果可以概述为:为科学家用户提供数据服务平台和DmpST 软件,使科学家用户能够方便、正确、高效地理解和使用卫星伽马数据,为科学家用户的科学分析提供强有力的保障。
通过该项目将建设暗物质卫星科研信息化应用系统,完善暗物质卫星信息处理系统,进一步管理科研资源,提升数据分析能力,提高并规范化数据的共享,提升科研效率。
建立基于Web 的数据统一访问接口,通过Web方式可以对科学数据进行高速的检索,而且可以免去客户端软件的各种问题,比如兼容性问题,维护问题。
开发专门的伽马射线数据分析软件(DmpST),使得广大科研工作者在不直接接触复杂的原始数据的情况下,能够方便快捷地利用DAMPE 卫星的伽马射线数据对感兴趣的伽马射线源进行科学分析,并进一步研究其物理性质。
建立明确的科研资源的统一汇聚管理、统一运行服务,明确科研资源在不同角色的责权利、工作流及其电子操作规范。对卫星数据资源加强整合与集成应用,对科研成果建立规范化的审批流程,形成暗物质科学数据整合、科研管理、公共服务和持续发展的协调机制和自动流程。
结合暗物质卫星科研资源特征,制定卫星信息系统资源整合建设方案,支撑数据的有序处理和统一管理。明确数据处理技术部署实现的工作计划与进度要求,通过整合服务平台建设,实现暗物质卫星多级科研数据资源的有效集成和应用,将暗物质卫星数据资源体系和质量控制标准规范统一化,推进数据汇聚和整编,通过技术整合和运行支撑,为暗物质卫星数据持续科学分析、公共服务和重要应用提供统一技术支撑。
加强暗物质卫星信息支撑系统运行服务建设,对卫星至少两年的延寿,升级存储备份。在全面保障已有暗物质卫星科学系统的正常服务情况下,对新增数据内容、服务功能应在项目实施过程中动态发布,及时运行服务。依托数据云服务环境,不断提升暗物质卫星伽马数据应用与分析效果,推动暗物质卫星的科学研究和公共服务。
采用LAMP 架构搭建科研信息化应用Web 系统,应用Linux 操作系统、Apache 服务器、MySQL数据库、PHP 语言。通过php 将数据读取入库。通过MySQL 数据库对数据属性、文件索引的存储和php 对数据库接口的执行实现对科学资源的检索、管理。应用python 的astropy[4]工具包实现对卫星数据的封装和格式转换。面向大规模卫星观测数据的检索和实时获取数据产品的需求,系统在Web 框架下融合php 的动态交互和python 的天文数据处理,系统在数据检索中通过php 接口从mysql 数据表中搜寻符合参数需求的百万至千万量级数据纪录并拼接成为初级数据文件,同时php 直接调用python 的天文封装接口将初级数据文件转化成为符合用户标准的天文数据产品。整套海量数据搜寻、拼接、封装的大量计算和复杂流程均在用户在线一键操作中直接完成,首次实现了DAMPE 伽马射线数据在标准数据表的存储模式下一键提供精确定制化的整合式数据产品。
在伽马射线数据分析中,使用fits 格式纪录光子信息、卫星运行状态、仪器响应函数,使用YAML 标记语言格式记录模型文件,利用Python 丰富的科学软件包,可以方便的操作fits 和YAML 格式文件。同时Python 数据分析包如NumPy,SciPy,AstroPy 等,为数据分析提供了基础工具,基于此可以实现较为复杂的数据分析算法。
针对不同触发类型、不同能量、不同角度入射到探测器的伽马射线进行大量模拟,利用模拟数据经过与在轨数据相同的事例重建和光子挑选过程,得到不同触发类型、不同能量、不同入射角度的伽马射线详细的仪器响应函数,包括有效面积、点扩散函数、能量弥散函数。
由于卫星运行到不同的地理维度时,数据获取系统对原始数据进行了不同倍率的分频,以及卫星可能处于不同的工作模式而影响伽马射线的观测,需要根据卫星的运行状态,统计得到卫星从各个角度对于不同天区的观测时间。对不同天区进行并行化处理,提高伽马射线数据分析的运算速度。
针对伽马射线点源和弥散源的分析需要,提供了对于多种投影方式的支持,从在轨数据中挑选出的伽马射线数据出发,结合DAMPE 卫星对于伽马射线的仪器响应函数,和对于不同天区的曝光情况,用极大似然估计方法分析伽马射线源的流量、能谱、空间分布、光变等性质及相应的置信度。
课题通过对多样化科研资源的汇集和统一部署,建设形成支撑暗物质卫星伽马射线的科学研究的统一应用服务平台——暗物质卫星科研信息化应用系统。系统提供科学数据发布的平台,包括用户界面、数据库、数据下载、工具集成的功能。提供一体化的科研管理平台和美观便捷的访问页面,收集大规模暗物质卫星观测数据的科学数据库和对数据精确检索的数据接口,实现卫星数据从接收、处理、入库、发布到下载的安全可靠的自动化处理流程。集成原始处理、数据封装、数据分析等科研工具,建立具有标准访问接口的数据共享机制,为科研人员提供一套完整的科研成果提交、查看、审核的智能化处理流程和统一的管理准则。为公众及学科爱好者提供良好的卫星动态、科普资源。图1 为暗物质卫星科研信息化应用系统的主页(http://159.226.71.25/dampe/),通过页面导航可以进入系统的数据发布、数据分析、公众科普等各项功能区域。
图1 暗物质卫星科研信息化应用系统首页Fig.1 Home page of DAMPE e-science application system
如图2 的系统架构图所示,暗物质卫星科研信息化应用系统具有3 个主体模块:数据发布平台(详见第4 节伽马数据发布平台)、数据分析软件(详见第6 节伽马射线数据分析软件)、科研成果审批管理(详见第5 节科研成果审批系统)。科研用户对数据发布平台发送数据需求,发布平台返回数据产品给用户,用户将数据产品作为数据分析软件的输入,软件计算得到物理结果反馈给用户。科研成果审批模块可以对用户的文章、项目报告、工具等科研资源进行一个统一的汇聚和管理。系统还包含科研动态、公众科普、数据工具等辅助应用模块。
图2 暗物质卫星科研信息化应用系统架构Fig.2 Architecture of DAMPE e-science application system
系统建设了具备便捷web 界面的伽马数据发布平台,实现了具有高效访问接口的数据共享机制,提供对暗物质卫星共享数据的精确检索,建立了暗物质卫星伽马数据库。建立从暗物质卫星数据初步处理到入库发布、在线封装的一套安全可靠的处理流程,并形成科学数据的精确自检、异地同步的智能一体化生命周期。图3 即为平台的数据检索界面之一,以供用户在线发送检索需求。
如图4,最终的数据发布系统包含两个数据发布节点,紫金山天文台发布节点和国家空间科学中心发布节点,每个发布节点都包含完整的数据共享功能。系统还将提供一个原始数据备份节点,达到异地的多点多级数据备份。未来将实现节点之间的自动同步。每个发布节点的完整数据共享系统介绍如下。
暗物质卫星伽马数据库包含了3 种数据:伽马射线光子数据、设备观测状态数据、飞船数据(观测设备的各种参数),其中光子数据为关键数据。初始数据为文件形式,通过初步处理和数据校检后,入库模块会将文件中的数据记录提取出来,导入到关系型数据库中,完成数据入库。用户要使用数据的时候,在检索窗口中可以根据方向坐标、范围、坐标系、时间、能量等不同参数发送个性化的检索请求给数据库,检索模块根据用户的需求将相应范围的数据精确提取出来并生成数据文件,标准封装模块将数据文件封装转化为标准天文格式的数据产品,提供给用户下载。如单次检索数据很大,希望提高检索速度,用户可以选择文件型检索方式,系统通过索引方式将检索范围内的全部单日数据文件找出并将多个文件拼接和封装为标准格式的数据产品。整个检索和封装过程高度集成化,仅在一次操作内完成。
图3 数据发布平台检索窗口Fig.3 Data publishing platform retrieval window
图4 伽马数据发布系统体系结构Fig.4 Architecture of gamma data release system
庞大的DAMPE 科研团队中有很多科研材料、工具、文献等资源需要进行一些内部审核与讨论,而零散的对接和管理带来很多不便。为研究推进形成暗物质卫星科学研究的智能一体化科研管理,形成科研资源的统一汇聚管理、统一运行服务,明确科研资源在不同角色的责权利、工作流及其操作规范,课题建设了科研成果提交、查看、审核的电子化处理流程和统一管理的框架。该科研成果审批系统分成两个模块——科研资源汇聚系统和文章审稿系统,分别对暗物质卫星科研团队内多样的应用资源和最重要的研究成果进行电子化的高效管理,使科学家免除了大量繁琐的关于科研对象的零碎一对一对接过程,提升科研效率。
课题建立科研资源的统一管控和共享,完善科研管理体系、质量控制标准、用户交互窗口,实现科研资源的多级审批电子化管理流程和统一汇聚系统。
资源汇聚系统为科研团队中各种文档、工具等普通科研资源提供一个电子化的管理。该系统界面友好、功能划分明晰,分成进行共享应用的前台和用于管理的后台。科学家用户在系统前台将自己的各种文档、工具等进行在线提交或直接在线撰写编辑,系统可自动通知管理员。管理员(项目组长、首席等)登陆系统后台对提交的材料进行检查和审批。根据不同类型资源的重要性区别可以对资源区分栏目,并为不同栏目定制相应的多级审批工作流,审批工作流的审批级数和各级审批的管理员组都可以自由设定。每级审批退稿之后普通用户需要进行修改和再提交,再提交后重新经历审批工作流。通过审批的资源进入栏目展示,栏目的展现具有直接列举和直接检索的方式,并且可以自动推荐热度更高的资源。用户可以对资源进行不同权限的查阅、评论、收藏等,并具备个人资源中心。管理员可以在后台对栏目内容、用户进行权限控制、排序、组别设置等精细化管理。
图5 科研资源汇聚系统体系结构Fig.5 Architecture of research resource aggregation system
课题形成了重要科学文章的定向审阅机制,建立根据研究方向进行即时性审稿流指派和智能提醒的统一运行管理,实现动态选择性审稿机制及其自动化交互平台。
文章是最重要的科研成果,暗物质卫星科研合作组的文章在正式投稿前都需要在组内进行细致的审核,不同于普通资源的审批流程提前确定,文章的审稿人需要根据文章内容进行单独设置,且对修改意见需要进行定点反馈。系统专门对科研团队中最重要的文章进行动态的组内审阅和共享。系统具备即时设定审核角色、跟踪反馈的精确审核流程和对稿件完善过程的清晰呈现。
图6 文章审稿系统Fig.6 Article review system
图7 文章审稿系统体系结构Fig.7 Architecture of article review system
系统包含共享窗口和用户中心,用户中心汇集用户个人的文献和权限管理范围,集成在线的提交、审稿模块。图6 为成功登陆后的共享窗口,提供对文章的多样化检索和用户中心的入口。系统用户中设置了最高管理权限的编审组。审稿流程如图7所示,科学家用户在用户中心提交模块中将文章进行提交,编审在审稿模块能看到新投稿件,并根据文章内容(研究方向等)在团队中实时分配适合该文的不固定数量的审稿人组。审稿人在审核模块决定通过或退修,如文章被退修则暂时不可再被审,需作者对修改意见进行反馈更新后才可再被审稿。当所有审稿人都完成审批通过后,文章标记为已审稿状态。而编审可在文章初提交、在审和已审稿的任何状态对文章提出退修或决定其最终过审。团队成员在全流程可以在共享窗口精确检索、下载和评论文章。文章全生命周期的修改意见和反馈纪录可完整呈现,且审稿流程中实现全步骤智能提醒。一体化实现动态形成审稿角色的科研团队统一内审流程。
DAMPE 卫星的原始数据与探测器的设计、参数直接相关,具有高度的复杂性,直接分析原始数据的要求比较高,需要用户对探测器的性能和运行状态有深入的理解,不适合DAMPE 项目组之外的科学家直接使用分析。目前并没有相应软件供DAMPE 项目组之外的科学家使用。为了解决这个问题,使得广大科研工作者在不直接接触复杂的原始数据的情况下,能够方便快捷地利用DAMPE 卫星的伽马射线数据对感兴趣的伽马射线源进行科学分析,并进一步研究其物理性质,课题开发了一套专门的伽马射线数据分析软件(DmpST)。
其主要任务是:
(1)建立高度提炼的伽马高级数据产品。
(2)提炼且准确反映卫星和探测器工作状态。
(3)得到探测器的精确仪器响应函数。
(4)利用一些针对性的统计分析方法,结合卫星和探测器的工作状态及探测器的仪器响应函数,对伽马高级数据产品进行基于源的分析。
最终目标是使得科学家用户在不接触到探测器底层复杂的原始数据的情况下,能够正确而高效地对DAMPE 的伽马射线数据进行分析[5],保证伽马射线相关的科学尤其是暗物质间接探测相关的科学的顺利产出。
如图8 的概括性数据流程所示,数据分析软件利用对于伽马射线的仪器响应函数对光子数据产品进行分析,进而得到伽马射线源的物理结果。光子数据产品是由DAMPE 卫星收集的在轨数据中经过光子挑选得到,仪器响应函数也是用模拟数据经过相同的光子挑选算法得到的。仪器响应函数是利用大量的伽马射线模拟数据建立的,包括有效面积、点扩散函数和能量弥散函数。
图8 伽马射线研究分析的数据流Fig.8 Data stream of Gamma-ray studies and analysis
根据不同的科学需求需要探索不同的光子挑选算法和仪器响应函数。课题针对伽马射线点源分析的需求,开发了高效的光子挑选算法,生产光子数据产品,为后续的科学分析提供了基础保障[6],并建立仪器响应函数,其分析目标是探测不同的物理对象。课题也进一步主要针对伽马射线线谱搜寻的科学需求,研究、生产、建立相应的光子挑选算法、光子数据产品、仪器响应函数,其目标是间接探测暗物质粒子。
图9 伽马射线分析软件(DmpST)的组织结构Fig.9 Architecture of DmpST
如图9 所示,伽马射线分析软件DmpST 的输入数据有四部分,分别是飞船文件、光子文件、仪器响应文件、模型文件。光子文件由在轨数据经过光子挑选程序而得到,记录光子信息,包括到达时间、重建能量、重建方向、触发模式、事例分类等信息。同时记录所选光子对应的卫星运行时间信息。飞船文件从卫星工程数据库中获取,记录卫星运行状态,飞行过程中详细的时间、卫星位置、卫星指向、卫星工作状态、有效工作时间等信息。仪器响应文件由模拟数据分析得到,记录卫星的仪器响应函数,其中有效面积以数据表的形式给出,点扩散函数和能量弥散函数存储经过参数化后的参数。模型文件记录伽马射线源的能谱和空间分布函数形式及参数信息,包括参数名称、是否参与模型拟合、参数取值和误差等。
软件分析流程为:由有效时间和仪器响应函数计算得到卫星对天空各个方向的曝光,再结合由空间模型和能谱模型组成的源模型,计算卫星预计观测天图,与由光子事例得到的天图构造似然函数形式,进行极大似然分析,得到能谱模型中参数的值和误差,进一步分析得到源的流量、能谱、光变等各种物理性质,还可以由卫星对天空的曝光和源模型进行观测模拟。
通过充分整合暗物质粒子探测卫星科学研究资源,提供精确标准的伽马数据产品,支持伽马数据的分析处理,建设形成支撑科研活动的统一应用服务平台——DAMPE 科研信息化应用系统,为紫金山天文台“十三五”发展规划的重点突破方向之一暗物质粒子探测卫星在轨运行与科学研究提供全面的信息化支撑和保障,为其科技创新和持续发展奠定重要的信息化支撑。在该系统的汇聚资源和分析软件的支持下,DAMPE 科学团队利用DAMPE 三年观测的伽马射线数据,搜寻到143 个显著性高于4个标准差的明亮点源,与Fermi-LAT 第四期伽马射线源表[7]做对应,初步确定了源的类型,其中包括100 个活动星系核,27 个脉冲星,9 个超新星遗迹或脉冲星风云,2 个伽马射线双星,1 个球状星团,另外4 个没有其他波段对应体,初步建立了伽马射线亮源表,多种类型的伽马射线源对于研究伽马射线辐射机制具有重要意义[8]。团队利用光子数据产品对几颗亮脉冲星做了重点分析,根据脉冲星的星历信息折叠得到脉冲相位分布,并分析得到了脉冲星的流量和能谱信息[9];还利用DAMPE 伽马射线数据进行伽马射线线谱搜寻从而进行暗物质间接探测,得益于DAMPE 优异的能量分辨,利用DAMPE3年观测的数据得到的暗物质湮灭到伽马射线的截面限制与利用Fermi-LAT 5.8年数据得到的限制相当[10]。另外团队还对伽马射线数据分析发现了5 例活动星系核的爆发现象,在天文学家电报上进行了报道[11-15]。
针对紫金山天文台“十三五”发展规划的重点突破方向之一暗物质粒子探测卫星在轨运行与科学研究对科研信息化应用需求,完成建设一体化的科研信息化应用系统,提供多功能、便捷的用户访问界面,集成数据库、检索中心、分析工具、科学软件,汇聚科学资源、提供科研用户服务、实现多样化成果审批、提升数据发布、完善分析方法、提升科研管理。为科学家用户的科研创新提供了强有力的信息化支撑,使科学家用户能够脱离底层的原始数据,方便高效地对DAMPE 的伽马射线数据进行分析,保证了伽马射线相关的科学尤其是暗物质间接探测相关的科学的顺利产出。未来将持续进行DAMPE伽马射线数据的更新和检索算法的升级,并将开放范围扩大到全世界科学界,在面向更多科学需求的情况下进行数据分析软件的性能优化,拓展伽马射线科研资源的科学应用,为下一代伽马射线望远镜做技术积累,进一步推动高能天体物理的发展。
致谢
感谢中国科学院计算机网络信息中心科研信息化应用工程项目组老师给予的大力支持和耐心指导。
利益冲突声明所有作者声明不存在利益冲突关系。