文/张洋 陈文波
PRAGMA(Pacific Rim Applications and Grid Middleware Assembly,环太平洋网格应用与中间件联盟)是一个开放的国际合作组织,致力于在太平洋周边地区相关领域内的重要学术机构之间建立起持续的合作,并推进信息技术在不同学科的应用[1]。PRAGMA于2002年3月成立,获得美国自然基金会(NSF)的支持,截至2017年PRAGMA有正式成员29个,来自14个国家和地区的大学和科研机构,如美国加州大学圣地亚哥分校(UCSD)、美国佛罗里达大学、美国印第安纳大学、日本产业技术综合研究所(AIST)、大阪大学、韩国科学信息技术研究所(KISTI)、中国科学院、吉林大学、兰州大学等。
PRAGMA集中开发、部署实际的网络基础设施来帮助一个长期的科研团体之间的合作。目前PRAGMA的研究主要有生物多样性、淡水生态学、SDN、电信科学、教育、生物科学和地理科学。PRAGMA探索各领域科学家和网络基础设施专家如何在很长一段时间内一起工作,同时开发满足科学需求的解决方案,并让它们更广泛地应用。
为了实现这个目标,PRAGMA目前的活动主要包括:通过打造一个能够开发和测试信息技术的专业科学家和信息技术设施研究者组成的团队来培育一个国际的科学探索团体,去解决具体的科学问题,并建立一个可用的、国际规模的网络信息环境;通过共享资源、专业知识以及软件来建立和改进一个基础的、用于测试的国际信息基础设施。
PRAGMA每年举办两次工作研讨会,研讨会由不同的成员组织轮流主办。它是不同工作小组、研究人员和工作人员之间信息交流的主要工具,提供一个让所有成员认识并讨论研究兴趣的论坛。同时他们还提供绝佳的机会让新研究人员和学生参与进来,为PRAGMA带来新的视角、应用、技术以及资源。在研讨会上大家各自汇报在项目上取得进展,并制定行动计划,以及在下一阶段完成任务,极大地促进研究的可持续性。PRAGMA目前有四个工作小组,分别是Resources、Biosciences、Telescience和Cyberlearning。Resources主要研究PRAGMA分布式资源平台上的各种应用;Biosciences从事如何创建一个稳定的信息基础设施执行基因组分析,并整合许多技术建立一个能够促进传染疾病药物筛选的计算架构。Telescience主要研究如何利用和开发高分辨率显示技术对远程设备进行接入。Cyberlearning主要集中在使用技术手段来改善对一些计算科学的理解,从事基于仿真的学习技术研究。除此之外,PRAGMA还有一个关于如何培养从事国际跨学科研究的学生项目PRAGMA学生团队,帮助学生加强学术研究的能力和经验。
PRAGMA-ENT是PRAGMA的网络实验床,其目标是给PRAGMA的研究者和合作者建立一个软件定义网络(SDN/OpenFlow)的网络测试床。它给研究者提供一个完全免费的可接入网络资源来开发、测试以及评估基于SDN的网络,而且它给PRAGMA的多个云平台提供网络支持,通过在环太平洋地区的研究所之间建立新的合作和基础设施来促进e-Science的长期发展。目前接入PRAGMA-ENT资源的有美国佛罗里达大学、加州大学圣地亚哥分校、印第安纳大学、日本奈良科技研究院(NAIST)、日本国立先进工业科技研究院、大阪大学。由日本JNG公司提供的RISE(Research Infrastructure for large-Scale network Experiments)被用来连接所有站点的OpenFlow交换机,并且建立控制器来管理整个测试床。目前已经成功部署了基于RISE的交换机,并开始连接美国、日本,它将有助于优化这些国家的路由,并提高PRAGMA-ENT的性能。接下来PRAGMA将和泰国大学进行合作,研究开展管理和可视化的PRAGMAENT OpenFlow网络,这对帮助研究者理解PRAGMA-ENT非常有帮助。而且PRAGMA正在将ENT主干网扩展到马来西亚和日本的JOSE(一个虚拟的研究室平台由AIST提供),并利用该环境部署一个分布式的软件定义存储系统,以此来确定未来在虚拟网络和计算资源上使用分布式存储的研究挑战。另外,PRAGMA还在美国和日本通过SINET(国家研究与教育网络)建立一条国际链路,使用多条国际路径来改善ENT主干网的带宽,这样可以帮助PRAGMA在未来执行大规模和高性能的网络实验。
PRAGMA的云测试平台为用户提供了一个持久的分布式国际信息基础设施,可以用来运行应用程序实验,不同的应用程序环境以虚拟集群映像的方式提供给用户。
目前有基于Rocks和Centos7的BioLinux, GRAPLEr以及DOCK 应用虚拟镜像,这些镜像可以运行在PRAGMA的云站点,也可以通过pragma_boot工具运行在本地。最初虚拟镜像由于建立在不同的地方格式也不尽相同,因此在PARGAM不同的站点需要手动调整镜像文件以适应不同的运行环境。为了能够使虚拟镜像文件具有统一的格式,PRAGMA开发了一个工具clonezilla,它可以将镜像文件输出成统一的格式,同时另外一个工具cziso提供命令行的界面完成这种转换,并实例化这些镜像文件。他们在google drive建立了一个仓库(存放镜像的地方),最后把这些镜像文件上传到google drive上。
为了使用这些镜像,PRAGMA增加了新的cziso仓库,并为pragma_boot增加了一个新的同步功能,它可以完成从google driver下载cziso镜像,并运行cziso工具将镜像恢复成适合本地文件的格式。Pragma_tool可以定期在晚上检查本地镜像和google driver 的时间戳,如果本地文件是旧的,它会自动下载更新镜像。这种共享镜像文件的方法目前在圣地亚哥大学、印第安纳大学和NAIST使用,下一步将部署到AIST和NCHC。
对物种多样性的分析和建模以及它们如何在当地以及全球范围的可持续性仍然是生物地理研究的核心。理解这些过程以及由此导致的自然结构变化对于维持和保护生物的多样性至关重要。
对物种多样性的分析和建模以及它们如何在当地以及全球范围的可持续性仍然是生物地理研究的核心。理解这些过程以及由此导致的自然结构变化对于维持和保护生物的多样性至关重要。
Lifemapper是美国NFS支持的一个项目,它使用所有在线地理空间物种出现的数据来创建它们的分布,从而进一步地根据它所记录的位置来预测单个物种的存在[2]。Lifemapper通过将物种的出现数据与全球气候、地形和土地覆盖信息相结合,来确定物种与周围环境的相关性。用Lifemapper项目开发的工具以及合适的模型结合全世界收集来的物种出现的数据就可以寻找物种的分布和栖息地。它的分析和模拟结果对解决环境、全球天气对物种分布的影响以及如何维持物种的生存有着非常重要的作用。它提供的服务能够让学生了解全球气候生态的变化对生态系统的影响。所以该项目可以解决这个时代的重要环境问题,特别是全球气候变化对野生物种的分布和可持续性的潜在影响。项目整合了数据科学框架、模型、互联网技软、硬件技术,另外它的Web接口可以让用户从分布的站点浏览、操作和下载数据。Lifemapper是一个便携式、可部署的系统,很容易安装在物理机或者虚拟机上。它运行在NSF的虚拟cluster和pragma的cloud(NAIST)平台上,现在被弗吉利亚理工大学的本科生和研究生用来理解全球气候变化和水的营养化对海藻花的影响,学生通过对模型的训练清楚的理解气候变化对湖泊的影响。XSEDE是由美国NSF资助的一个虚拟系统,它整合并共享包括超级计算机和高端可视化和数据分析资源,可以让全美国的研究人员一起开展科学研究[3]。科学家利用它来交互式地共享计算资源、数据和服务。在XSEDE资源上安装的Lifemapper,利用高吞吐、低延迟的网络交换连接到数据服务器可以观察高分辨率的北美物种分布。
全球对能源、食品和饮用水的需求正在给世界湖泊和水库带来前所未有的压力。目前全球社会正在经历着水资源供应的减少和水质的恶化,这些将影响地球未来几十年提供所需自然资源的能力。对淡水资源的智能管理需要近乎实时,高频率的湖泊和水库信息,这个项目既是数据密集型又是计算密集行问题,需要对每个湖泊运行上千次的模拟。为了解决计算问题,PRAGMA的计算机科学家建立了一项服务,使用户可以轻松地访问庞大的分布式计算机,利用具有高吞吐量计算能力的分布式计算资源来运行大量模型的模拟。
GRAPLEr是基于 R 的开放源码软件,将分布式计算的力量带到了湖泊生态学建模者的指尖, 使他们能够提交成百上千的一般湖泊模型 (GLM2), 有效运行这些湖泊模型模拟, 并检索和可视化模型输出。
在这个项目中,湖泊生态学家和计算机科学家们联合起来,共同应对如何在土地和气候变化的条件下准确地对世界各地湖泊进行生态水动力学模拟。PRAGMA Lake项目是计算机科学家和与全球湖泊生态观测网络(Global Lake Ecological Observatory Network,GLEON)的研究者之间的跨学科合作项目。这一合作的成就在于通过对湖泊水动力学的批量模拟来理解目前海水富营养化和气候变化对有害藻华的影响,同时也不断地改善并使用最先进的模型来预测水的质量。这个项目的成果给用户提供一个端到端的集成环境GRAPLEr[4],用户使用简单的API就可以在这个环境建立、运行和检索,还能从上千次的模拟中可视化结果。这个软件被PRAGMA的研究者和学生广泛使用。GRAPLEr使用IPOP连接了不同机构的云资源,如佛罗里达大学、圣地亚哥超级计算中心、PRAGMA云虚拟机,并使用一个开源的HTCondor系统来调度和管理大量的模型运行。GRAPLEr是基于 R 的开放源码软件, 将分布式计算的力量带到了湖泊生态学建模者的指尖,使他们能够提交成百上千的一般湖泊模型 (GLM2), 有效运行这些湖泊模型模拟, 并检索和可视化模型输出。
系统利用从三千个稻米基因的项目中筛选出的单核苷酸基因型分型数据集,让研究者进行全组基因研究,检查遗传变异体和特性之间的关系。
PRAGMA的生物科学工作组目前为蛋白质组学和遗传基因的研究寻找一种新的信息基础设施。虽然虚拟筛选被认为是确定潜在新药的研究方法并活跃在PRAGMA的许多研究者中,但是PRAGMA正在努力建立一个基因分析平台,并将水稻基因作为一个新的研究领域,这对全球而言都有重要的意义。在马尼拉举行的PRAGMA30次会议上,他们和国际稻米研究所 (IRRI) 进行合作,旨在帮助水稻种植者以环境可持续的方式提高稻米的产量和质量。
该项研究的任务是通过合作研究、伙伴关系来加强农业研究, 减少贫穷和饥饿、改善稻米农民和消费者的健康并确保环境的可持续发展。IRRI 的许多研究都集中在数据获取、数据标准、数据重现性和数据管理方面,还有包括育种管理系统,共享高通量测序和基因分型数据。PRAGMA部署了一个基因分析工具于一体的虚拟机BioLinux8,它有一个友好的界面和一个改进的用于大米基因研究的可再生工作流软件-Galaxy。这个系统利用从三千个稻米基因的项目中筛选出的单核苷酸基因型分型数据集,让研究者进行全组基因研究,检查遗传变异体和特性之间的关系。这种分析框架不仅可以让稻米研究者进行实验的验证和决策制定,而且方便IRRI使用它来收集不同研究者的研究结果。这个基因工作流成功的部署在PRAGMA云资源平台,并为IRRI的生物科学家建立一个可扩展的、易于使用的密集型基因分析平台。这项工作也让PRAGMA利用数据认证服务和PRAGMA数据仓库来给计算实验的可重复性和数据共享研究迈出了重要的一步。而且这种分布式的架构和科学工具还可以被扩展到生物医学领域的科学家使用,帮助他们利用工作流来处理和分析大量的生物学相关的数据集。
如今,可视化在更好地理解科学研究数据中扮演着非常重要的作用。
现在越来越多的数据通过传感设备获得,这些数据经过高性能计算来加速分析后更容易可视化的显示。将不同领域专家的专业知识汇聚到一起对我们的科学研究非常重要,从这个角度,我们需要开发一个科学家易于使用的平台,允许科学家在一个高分辨的显示系统下形成一个协作环境,但并不强迫他们拥有更高的知识、技术或专业知识。
目前PRAGMA将可视化场景应用在灾难管理。他们在弹性的软件定义架构中部署一些灾难管理应用,在不同的PRAGMA机构中连接多个高分辨率显示墙进行灾难场景的可视化。它可以连续的、不间断的在自然灾难发生时传输信息给决策者以便他们能够采取有效的行动。目前该应用已经连接日本多个机构,并计划连接其他的PRAGMA站点来测试更多的全球场景。随着近来不断增长的城市传感数据,AIST使用沉浸显示和交互技术如虚拟现实(VR)开发下一代的信息可视化环境。
平台可以在灾害发生期间将相关信息传送给多个地点的决策者,同时结合VR改变了灾害管理人员查看不同异构数据集的方式。他们下一步将建立一个2D或3D的沉浸平台能够让决策者在灾害发生期间快速了解这些信息。
在PRAGMA32次会议上,AIST展示了一个VR应用,它利用从17000个不同地方收集到的日本河流传感数据,然后通过一个沉浸式3D虚拟设备展示该场景。它可以让用户拥有一个全国性的视图。初步的测试说明这个应用在提供全局视图上非常有效。AIST还在继续努力利用大屏幕的显示墙来创造一种不同类型的沉浸式环境。他们基于SAGE2开发了一个灾害管理平台,允许用户在一个共享合作的环境以不同的内容进行交互。该平台可以在灾害发生期间将相关信息传送给多个地点的决策者,同时结合VR改变了灾害管理人员查看不同异构数据集的方式。他们下一步将建立一个2D或3D的沉浸平台能够让决策者在灾害发生期间快速了解这些信息。
EDISON是Cyberlearning工作组从事的项目[5]。它是一个创新的网络学习平台,也是一个免费开源的项目,是由KISTI在2011年发开的。通过这个平台,各种高性能计算模拟程序可以在线获得,可以被广大的韩国研究者和学生以及PRAGMA的成员使用。该项目受到韩国国家科学技术部和韩国未来计划资助,是由KISTI和几个计算科学与工程领域的研究机构共同进行的一个联合项目。这些专业机构的领域来自计算流体力学、计算化学、纳米物理学、计算结构力学、计算机辅助设计、计算药学以及计算电磁学等。这个平台目前提供340个科学Apps和568个教学内容,过去六年间给来自韩国和世界其他国家提供42852次服务。该平台的日益流行和技术优势增强了它的国际认可,还获得了韩国多个奖项。
PRAGMA学生团体,建立与2012年,目标是帮助学生在PRAGMA信任的社交和网络中获得专业的经验。作为一个学生组织,它由一个委员会领导,并接受PRAGMA研究者的指导。
到目前为止,该团体组织的活动包括PRAGMA一年两次会议中各成员学生的会议,举办在线的研讨会等。PRAGMA以一种独特的模式,为学生提供多种机会,让他们参与PRAGMA的合作项目研究,如到其他成员单位参加短期的项目研究;可以在PRAGMA的研究者中寻找合作的导师,参与导师最新的科研项目,提高他们研究和科学探索的能力;参加各种国际会议,帮助他们激发灵感,共享信息,参与合作。另外,PRAGMA学生团体在近期的会议期间中组织“Lightening talk”,给学生机会反馈他们在研究中获得的经验和结果,每次受邀请的学生将基于他们相关的研究做短暂的报告。所有这些活动不仅让学生的科学研究水平和领导能力得到提高,而且对于理解其他成员国家的文化也起到了增进作用,也让PRAGMA各成员之间的关系也越来越密切。
截至目前,PRAGMA项目由其成员和美国国家科学基金会(NSF OCI 1234983)支持,包括加州大学圣地亚哥分校、佛罗里达大学、印第安纳大学、弗吉尼亚理工大学、威斯康星-麦迪逊大学。另外还有来自美国国家自然基金办公室的信息基础设施、国际科学和工程学院办公室、计算机与信息科学与工程理事会的信息和智能系统部以及新兴的生物科学理事会的大力支持。PRAGMA在环太平洋地区建立了一个值得信赖的合作者网络,这种信任关系使得PRAGMA对影响PRAGMA成员发生的事件能够快速的响应。
2017年是PRAGMA成立十五周年,在这期间,所有的成员在合作研究上一直保持着密切的联系,不断利用信息技术创新未来科学的研究模式。尤其是面对面的会议不断建立和加强成员之间的必要信任,使之成为PRAGMA成功的关键。让信息基础设施变得容易接入,让目标研究团体使用更加方便一直是PRAGMA努力前行的目标。这种共享、长期、开放的国际科研合作模式必将对创新型科学研究产生深远的影响和意义。