如何处理FAST天文大数据

2019-08-26 05:43
大众科学 2019年5期
关键词:脉冲星色散波束

今天演讲的内容包括三方面:FAST早期科学数据中心、网络传输的问题、我们自主知识产权FAST分布式计算软件架构和具体处理的问题。最后还有一些天文普及。

2014年9月中国科学院国家天文台与贵州师范大学共同签署了FAST早期科学数据中心,耗费1年半的时间建立,我们早期科学数据中心是在FAST运行阶段探索FAST数据的创术、存储、计算、安全和管理的最高效、最穩定、最经济的方法。

数据的网络传输

数据的网络传输非常重要,FAST建好以后,就有大量的数据要来,首先要解决的就是传输的问题。FAST数据传输的通讯结构并不简单,从贵阳到FAST现场一共是300公里,这300公里,要跨省,要跨州、跨县,一共有21个周转节点,当时是2个G的专线直接拉到我们实验室。传输结构主要包括两条线,一旦出现问题,数据保证不会中断,这是我们通讯的结构。

FAST脉冲性搜索分布式超算硬件机构,我们走的路还是有借鉴意义的。在FAST计算里面,我们有四种计算节点,A计算节点在每一台服务器里面加8块GPU卡,其中2个CPU,一共有10台,这个计算节点我们的理论峰值可以到664T浮点预算。

第二种计算节点B,每一台PC级加2块GPU卡,一个CPU,一共有60台,峰值我们可以达到1.02的浮点计算。

第三种计算节点,我们是每一台服务器我们两块GPU再加一个CPU,一共是14台,总的计算结果是235P浮点预算。

第四种可以看得更简单,很一般的PC机,每一台PC机只有一块GPU加一个CPU,最高峰值是378的浮点预算。所有144个节点的理论峰值2.16P浮点预算,就是每秒2000万亿次浮点预算。

CPU+GPU的计算节点是有自主知识产权设置定制的,从这个角度来说,我们这个还是非常经济和低成本的运转,我们觉得非常非常合适贵州的实际情况。

FAST分布式计算软件架构

我们数量级的提高了脉冲星的搜索速度,原来一台计算机单线程要用6004秒,但是我们用自主设定的设备计算只需36秒,计算速度提高了200倍。在搜索速度方面,FAST要求我们的计算要求压力越来越大,但是我们只要再增加设备把架构一扩充,还可以上百倍增加这个速度。

数据计算出来以后,得到一些侯选题,从这些候选题里就可以找到我们需要的东西。以前用人的眼睛来找,现在利用计算机能不能找出来,这关系到人工智能深度学习的问题。

FAST脉冲星搜索

计算处理是怎样一个过程呢?从FAST下线以后到现在,我们一共收到的数据是1.436PB,也就是10的15次方。现在大概收到2个PB不到,数据量很大,而且这些数据越往后面会越多。

拿到数据,我们第一件事儿就是要消除观测数据中的干扰信号。搜索脉冲星形,必须消除观测数据中的干扰信号。第二就是消色散,脉冲星发出的射电信号在星际介质中会产生色散,就像阳光通过棱镜会散开成彩色光带,这是因为不同的频率的信号在介质中传播速度不同而导致的。从脉冲星发出脉冲信号,经过漫长的时间,再通过复杂而遥远的星际介质,频率高的先到达FAST的接收天线,频率低的后到,整个信号波长就会被拉开了,我要消色散就是要解决这一问题。

消色散以后,我们在通过快速傅里叶变换计算消色散信号中包含的周期信号,从而得到一个正确投射。

最后就是折叠的问题,为了增加信号,我们需要将消色散后的信号按周期叠加,在这些周期信号里面信号很弱,但是叠加能让它们增强。这其中有很大的工作量,人工去做要花很长的时间,所以现在人工智能很火,深度机器学习很火,我们用深度机器学习来找,效果很不错。目前我们中心的19个波束接收机已经全部投入使用,产生的观测数据量每天至少19TB,搜索计算任务艰巨。

FAST找到脉冲星开启了中国重大的科学基础设备系统研创性的脉冲星,这是中国天眼首先发现两颗脉冲星,第一颗脉冲星距我们地球是1.6万光年,我记得周期是1.83秒,第二颗距我们地球是4.1万光年,周期是590毫秒。最近我们协助国家天文台发现90多颗新脉冲星候选体,证实了65个新脉冲星,其中包含了FAST发现的首个毫秒脉冲星,是至今发现的射电流量最弱的高能毫秒脉冲星之一。如果我们能够找到毫秒级以上的脉冲星,那就是诺贝尔成就。

FAST的科学普及

刚才在休息的时候,我问了欧阳院士,我说你怎么看流浪地球,欧阳院士说那是胡扯。为啥呢?太阳是恒星,它是有寿命的。当太阳已经走到主星系的这个地方,再过50亿年,我们太阳要变成红际星,最后消亡。时间应该是50亿年的嘛,怎么就是70年了呢?太阳最后变成超红际星,有可能变成中继星,还有另一种可能变成黑洞。

我们做了脉冲星及候选体数据库平台,我们为关心脉冲星的天文学家和天文爱好者提供脉冲星的候选体等等有关方面的信息。我们建设天文网络社区,非常欢迎天文学家或者同学们来访问,这个社区里面有很多新的东西。

天文大数据的挑战及应用

根据我们最近的了解,我们使用19个波束接收机接收数据,已是原来单波束的4倍,随着调试顺利进行,观测时间在逐步增多,数据量至少是单波束数据量的19乘4倍,也就是19个波束接收的数据每秒是38G,一年要接收19个PB,经过处理至少要存储10到15个PB,就我们现在的计算处理能力,要满足这么大的数据量,我们理论上的2.16PF的峰值预算还不够,所以我们还在扩大。但是未来发射的数据量可以到多少,如果是1ZB,那么数据量就非常非常惊人了。所以既然这么大的数据量,将来从FAST现场到贵阳,就不是100G光纤解决问题,而是400G光纤。

我们要大力支持FAST的科学研究,所以我们早期科学数据中心大力支持天文台做这个工作,我觉得有以下几条意义。

第一,它符合全省大数据战略及大数据产业发展规划。

第二,天文科学将是展示贵州文化旅游形象的珍贵名片。

第三,这有助于帮助我省科研大数据方面取得突破和树立典型。

第四,它有助于帮助我国、世界科学家通过数据中心的计算资源和数据资源获得诺贝尔奖级发现。

第五,这助于贵州培养、吸引和积聚大数据处理和分析方面的科研型和应用型的人才。(编辑/侯帮虎)

猜你喜欢
脉冲星色散波束
一种相控阵天线波束指向角计算方法
5G网络扫描波束规划方案探讨
60 GHz无线通信系统中临近波束搜索算法研究
三支L上口镜头
宇宙时钟——脉冲星
让脉冲星来导航
被自己砸伤的脉冲星
浅谈波分系统的光纤色散及补偿
“光的折射”“光的色散”练习
均匀线阵阵元缺损对波束方向图影响的分析