中国科学院高能物理研究所 陈刚大数据技术在高能物理中的应用
现代大科学的标志为大科学机构、大科学工程和大科学装置。大科学装置常产生海量的数据,因此在大数据技术领域提出了巨大挑战。国内外高能物理实验研究是典型的大科学装置,同时在不断推动大数据技术及应用的发展。在应用需求的引导下,高能物理领域积累了大量的大数据存储、计算处理和共享等技术和经验。
高能物理的目标就是探索物质微观结构、宇宙起源等自然规律。目前已经证明微观世界有六种夸克(quarks),还有六种轻子(leptons),这些一起组成了宇宙万物。这些粒子之间的相互组合主要有三种相互作用力:电磁相互作用力、强相互作用力以及热相互作用力,当然,还有第四种力,那就是万有引力。
高能物理,也叫粒子物理。我国也有很多高能物理的实验,其中一个就是BEPCII/BESIII对撞机,它是世界先进的双环对撞机,5年内将积累5PB的数据,需要万个CPU用于数据分析,中国、美国、德国、俄罗斯、日本等36个研究所参与合作。
另外,在亚湾反应堆做中微子实验,有38个研究所300多名科学家参与合作,产生了4PB以上数据。在2012年发现中微子第三种震荡,精确测量θ13同时,利用西藏羊八井得天独厚的优势,中意、中日合作进行宇宙线实验,每年产生超过200TB的原始数据,数据需从羊八井传回高能所,在传到日本、意大利进行分析处理,合作单位能够实时访问数据。
图1 典型的本地集群架构
在高能物理领域,实验数据采集之后,还要面临数据的传输、保存,以及计算等一系列的挑战。这将会产生大量的数据,这个大数据的特点是随机变量空间很大,产生的末态粒子极其丰富;精确测量需要大样本。在计算过程中,也是非常复杂的,末态的模式复杂(随机变量)。物理图像还原非常复杂,如图像处理、模式识别技术;拟合及误差估计。
高能物理大数据的处理过程如下:第一,数据获取与记录。从探测器获取Raw Data、蒙特卡洛产生数字化的二进制格式的电子信号;第二,数据处理。处理后Raw/MC Raw产生相关物理信息,如动量、对撞顶点等;第三,数据挖掘。由上千个属性组成的DST事例文件,提供物理学家进行分析,并最后产生物理结果。
在“大数据(big data)”时代,PB级甚至EB的科学研究数据尤其需要在存储模式、技术架构、共享传输、全球协同、高效处理等方面有所突破。
计算平台的发展历程,与计算机发展历程是完全一致的,经历了从大型机,经集群,到网格,再到云计算的演变。本地计算集群是基础,计算网格是“集群之集群”,需要整合计算资源。而云计算更注重平台的通用性,提高资源利用率。因此需要对云计算与网格计算加以整合。
图1是一个典型的本地集群架构。这个系统目前也仍在使用,但是随着CPU的计算能力、存储量越来越大的时候,系统就会出现问题。
目前世界上最成功的一个网格系统,实际上就是用来做高能物理的。它有若干分层,0级、1级、2级、3级,甚至一直到4级,这样一个分布式的计算环境。0级中心主要接收原始数据,保存在磁带系统中,并进行第一遍数据重建,向Tier1分发数据;一级中心(13个)主要提供原始数据备份,执行数据重建、分析等任务,并提供数据分发等网格服务;二级中心(〉160个)主要执行模拟、数据分析等任务。
当然,计算集群或网格存在不足之处,如CPU资源利用率不足、遗留程序与操作系统不匹配、调度不灵活、运维成本高等问题。这时,就需要引入虚拟化和云计算。
虚拟计算集群在物理机和RMS(资源管理系统)之间构造虚拟层,将物理机虚拟化,形成多个虚拟机。同时,将RMS安装在虚拟机上,对用户完全透明,减少运维工作量,提高资源利用率。
欧洲核子研究中心的“CERN Cloud”是世界最大的虚拟集群之一,它基于Openstack构建,并于2013年开始运行。统一管理两个数据中心(日内瓦与布达佩斯),其规模为4600个物理机,12.5万颗CPU核,15000个虚拟机,2016年还将扩充资源。根据集群任务动态创建或删除虚拟机,平均10秒钟创建/删除一个虚拟机。据了解,CERN团队获得Openstack巴黎峰会SuperUser大奖。
在国内,我们有自己的实验和计算环境。例如,之前提到的BESIII分布式计算系统,采用Pilot与计算插件技术,整合合作单位的计算资源,能够根据用户作业的数目进行实时的虚拟机动态创建和删除,实现资源弹性管理。共14个站点,分布在中国,美国,俄罗斯和意大利。
在先进信息化环境的支撑下,BESIII实验一直领跑全球tau-粲物理研究。2013年3月宣布发现了奇特态候选者——带电类粲偶素Zc(3900);2013年6月18日,《自然》(nature)杂志就此发表了题为“夸克‘四重奏’打开了物质世界一扇崭新的大门)”的新闻报道;这一成果被国际物理学顶级期刊、美国物理学会主编的《物理》杂志选为2013年国际物理学领域重要成果,在11个入选项目中位列第一;《粒子物理手册》2014版收录Zc(3900),是唯一收录的在我国发现的新粒子!
高能物理的应用不同于互联网文本数据挖掘,它具有以下特点:数据以对象方式存储,使用C++库访问;非〈key,value〉类型计算;随机访问;复杂的数据类型。
高能物理领域,实际上是一个大科学、大需求、大数据、大计算、大发现的过程。它要求多种计算技术,推动了信息化技术的发展。同时,多种信息化支撑手段也在推动高能物理科学的进步,这是一个相辅相成的过程。
(本文整理自中国科学院高能物理研究所副所长陈刚在第四届中国科研信息化发展研讨会上的演讲“高能物理中的大数据技术”)