黄家声
大数据天文学并不神秘,我们可以用简单问题回答我们与天文的问题。
第一个问题,天上有多少颗星星?我们小时候经常会问这样的问题。成为父母时,我们的孩子也常常会这样问我们。这是一个大数据技术问题,因为天上星星很多。我们经常想糊弄孩子:天上有很多很多星星。这个问题其实很深奥。因为宇宙并不是无穷无尽的,它有开始,不知道有没有终结。如果宇宙有开始,我们就会问从宇宙开始到现在有多少星星,这是天文学家一直在做的事。
第二个问题,我们能数到多少星星?从我们的老祖宗就开始数天上的星星,他们记载在龟背上或者牛骨上,这是最早的天文学。现在数星星的方式跟老祖宗几乎一样,只是用的材料不一样——我们现在用了望远镜,用了硬盘。在技术上,我们还用了望远镜和巡天望远镜。天文数据从最早开始到现在,大概有几个TB的数据量,而整个银河系周围的星系的数目大概有几百TB。按能量巡天大概到了PB量级,如果是8米望远镜,数据就到了PB的量级。天文数据是不断地增加,所以它是一个大数据的问题。
关于天文学,我们以前用眼睛直接观察,然后是换成胶片,再后来就是电子化。不过这些方式的观察,我们观察到的都只是天体的一部分。于是我们后来还从另外一个维度对天文学开展了研究——波。
天文学是全波的天文学,地面上能看到的是两个波段,一个射电波段,一个光学波段。这主要是因为地球有一层大气,一方面大气防止了我们受到天外来的高能量伤害,但另一方面,它也就直接妨碍了我们对天文的观测。从这一角度而言,有的研究在地面上都不能做,只能到太空。所以在地面研究的天文学分两块,一个是射电天文学,另一个是光学天文学。
Arecibo(阿雷西博射电望远镜)在国外非常有名,它拍过电影“007”系列的电影,拍电影的时候放了很多水,而这个望远镜并没有被泡坏,因为它是有孔的,放了水之后很快就泄掉了,对望远镜的影响很小。
Arecibo望远镜硬盘数据非常大,目前总量1Pb,磁带2Pb,FAST现在还在观测,没有总数量。VLA(美国新墨西哥州的甚大天线阵)每个月下载数据量是70Tb。要做观测的话必须要有这么大数据量才能完整理解这个物理过程。射电天文学发展和大数据密不可分。
射电天文学观测到的波长很长,分辨率比较低,如果两个天体靠得很近,而你只有一个望远镜,两个天体就很可能被看成一个。这不难理解,就像是很远的地方你看到两个车灯,很容易把两个车灯看成一个车灯,道理是一样的。天文学还引入了另一种技术——射电天文干涉阵。
ALMA(阿塔卡玛大型毫米波/亚毫米波阵列),这一项目耗费巨大,是美国、欧盟、日本这三个国家合起来做的项目。智利提供了台址,并没有出钱。亚毫米波是科技的未来,它对于天线的精度要求都超过了我们现有的射电天文学。中国没有参与这个项目,但是如今我们也把部分数据引到了中国。
射电天文学从长波到短波,从单天线到天线阵,从原子气体到分子气体(分子气体一定要到亚毫米波才能看到)。为什么分子体积很重要?举个例子,我们寻找地外文明、生物,第一步要做的不是找到人、生物,第一个要找到的是水。从地球来理解,没有水就没有生物,所以第一个要找到的是水。这是从地球本身的出发来理解生命,地外生物可能不依赖水也是有可能的。不过我们从已知探索未知,这是一个依据。
在习近平总书记的指导下,中国科学院在“走出去”相关的方针指导下,南美天文研究中心是中科院实施国际科教合作拓展工程的第一个海外项目。目前,数据中心已与华为合作,华为为我们提供免费服务。我们的数据中心与智利的合作,是在李克强总理和智利总统的见证下签的合约。
智利的望远镜资源非常丰富,这是为什么我们要去智利的原因。智利非常干燥,这对于天文特别有利,于是智利成为了世界上最好的天文观测点。
我们的数据中心2015年正式挂牌,硬件服务商是华为,还得到了ALMA支持,同时我们还和智利的大学合作,他们为我们提供技术支持。
ALMA观测下来之后,分散到欧洲中心、美国中心、日本中心。现在我们多建了一个中心,和ALMA直接联系,数据直接拷到我们的服务器里面去。这个服务器是南美中心和智利一索大学共建的,我們有数据检测源,进行数据处理后,这些数据能够在计算机里被中国天文学家来运用。
整个平台预计2021年6月就会建立起来。目前,我们正在和贵州师范大学合作,我们把镜像建立起来之后,就可以让亚毫米波的数据为中国天文学家服务。我们现在整个数据量740个Tb,不到1Pb。FAST早期科学数据中心主任谢晓尧教授讲他们有10PB以上的容量,容量上不是很大的问题。
目前,我们在智利的科研人员已经合作开发了搜寻平台,你可以把天文坐标放进去,你可以找到相应的天体。现在是第一阶段,这一阶段的任务是在内部征集项目,正在测试当中。我们同时承载了智利虚拟天文台,天文学里有这样一个概念,要知道天上的星星有多少,你除了直接看着天上数之外,还可以把已有数据放到计算机里变成一个虚拟天文台,在计算机里看你能找到你想看的星星或者其他天体,这叫虚拟天文台。智利现在没有能力做这个事,所以我们承载了智利虚拟天文台的服务。
近期,我们的任务最关键一点和贵州师范大学合作,使得中国天文学家能够更好利用ALMA数据。所以我认为我们中国科学院南美天文研究中心和贵州师范大学的合作,使得贵州不光和中国天文相联系起来,更是和世界联系在一块了,让贵州能走向世界,走向国际。
未来我希望可以把更多的数据放到中心来,在平台上为中国天文学家服务。
(编辑/侯帮虎)