常 珊, 曾 玲, 万 华
(1.江苏理工学院 电气信息工程学院,生物信息与医药工程研究所,江苏 常州 213001;2.华南农业大学 信息学院,广东 广州 510642)
·实验教学与创新·
生物信息学高性能教学平台的建立与实践
常 珊1,2, 曾 玲2, 万 华2
(1.江苏理工学院 电气信息工程学院,生物信息与医药工程研究所,江苏 常州 213001;2.华南农业大学 信息学院,广东 广州 510642)
随着生命科学实验数据的高速积累和增长,生物信息学成为生命科学研究型人才必须掌握的重要技能。从高性能计算和生物信息学的关系入手,简述了生物信息学教学中采用高性能计算设备的必要性。根据农业院校的具体情况,在生物信息学教学中建立了高性能计算平台,帮助学生熟悉相关并行计算环境,更好地理解生物信息学重要的理论和算法。在课程安排上,理论课、实验课以及课程设计的内容围绕生物信息学案例展开。基于Moodle教学系统进行在线课程管理,培养学生的自主学习能力和团队协作意识,提高了学生运用高性能计算解决实际生物信息学问题的能力。
高性能计算; 案例教学; 生物信息
进入21世纪,生物学研究的重点和潜在的研究热点已经由20世纪的实验分析和数据积累,转移到数据分析及其指导下的实验验证上来。随着生物学实验数据的高速积累和增长,生命科学的研究步入了大数据时代,计算分析方法以及网络技术成为生命科学研究人员必备的工具,由此产生的生物信息学技术正推动着生命科学的迅猛发展。生物信息学所提供的研究工具对生物学发展至关重要,因此成为生命科学研究型人才必须掌握的重要技能[1]。
随着生物学数据和计算复杂度的增加,生物信息学中越来越多的研究和问题需要用到高性能计算设备[2]。近年来,高性能计算技术已被广泛应用于国家命脉、百姓民生等方方面面,2013 年6月,国防科技大学等单位研制的“天河二号”问鼎全球最快超级计算机,标志着中国在超级计算机研制的自主可控方面又迈出了重要的一步。目前国内多所高校和科研院所也纷纷开始采购大型的高性能计算集群。通过高性能计算集群,为校内的教师、学生以及校外的科研工作者提供高质量的计算服务,对学校科研和教学的发展都具有积极的作用[3-4]。
华南农业大学属于农业院校,农业院校有很多生命科学相关的专业。在农业院校中开设生物信息学课程,将有助于培养生物学相关专业学生的科研创新能力,推进生物信息学在农学领域的广泛应用。在生物信息学教学特别是研究生的教学中尝试进行案例驱动教学,采用Moodle学习管理平台进行在线课程管理,让不同专业的学生组成团队共同协作解决问题,有利于学科交叉和协同创新。通过建立信息学院的高性能计算平台,帮助学生熟悉相关计算环境,有针对性的培养学生处理实际问题的能力,同时通过并行计算的训练,也可以更好的了解生物信息学的一些理论和算法。
生物信息学是生物学、物理学、统计学、信息科学等多个学科交叉的课程,因此对师资的要求比较高。目前在农业院校中开设生物信息学课程的教师,有些是从计算机或数学物理专业毕业,他们缺乏生物学学习的经历;有些则是从生物学专业毕业,他们往往缺乏数学和计算机学科的背景,需要补充一些理论方面的知识[5]。笔者曾在美国密苏里大学哥伦比亚分校(University of Missouri-Columbia)进行了为期1年的学习访问,发现国外的生物信息学课程的设置方式也有很多种类。有些学校由单一系科派生出生物信息学专业,这些系包括计算机系、生物系、物理系、统计系等。而以密苏里大学为例,该校成立了跨系的研究中心或学院,其中的师资由各系的教授来兼任,教学非常注重学生的团队协作,共同解决具体的生物信息学问题[1]。
近年来,国内生物信息学研究也有了很大的进步[6],但多数高校尚未形成成熟的课程体系。很多学校虽然采用了多媒体教学,但仍然是“以课堂为中心,以教材为中心”的传统教学模式,学生缺乏实际操作和科研能力的培养。随着生命科学实验数据的增加,越来越多的生物信息学计算分析软件都基于高性能平台进行了并行版本的开发,在实际研究工作中往往需要通过并行来提升计算速度,节省计算时间,因此,传统的教学模式需要根据实际需要进行改革。为了提升教学效果,结合多年的教学和科研经验,对生物信息学的课程教学进行了改良和实践。
2.1 高性能计算平台架构方案
进行生物信息学软件的并行计算,首先需要搭建高性能计算平台。对于不同的高校,可以根据学校具体情况,采用不同的策略,既可以购置专用的高性能设备,也可以将多台普通电脑连接来组建并行计算平台。在教学中采用专用的高性能服务器进行平台搭建,硬件方面,一台I620服务器作为管理服务器,计算服务器则采用了2.6 GHz intel计算核心,共计6个CB60-G15刀片节点(2CPU-8 kernel),计算核数达到96核,系统基于线速千兆以太网互联,计算全部采用Infiniband高性能网络。
图1 高性能计算平台的网络拓扑结构
软件方面,选择使用Rocks集群管理系统[7]。Rocks管理系统基于RedHat Linux,是开放源代码的软件包,而且该软件包可以高效率地创建和维护高性能集群。同时为方便生物学研究和学习使用,系统也集成了大量的生物信息学相关软件。见图1,搭建好的高性能计算平台由计算服务器和管理服务器两个部分构成。管理服务器和计算服务器通过交换机连接在一起。采用OpenSSH构建SSH服务器,学生可以通过SSH客户端软件登录到系统。
2.2 基于案例的教学课程设计
生物信息学课程的实践性非常强,如果只采用理论讲授的方法进行教学,很容易使学习者陷入学不会,或者学了理论却不知道有什么用的尴尬境地。针对这些情况,需要使用更贴近于实际的教学方式。生物专业的学生计算机能力普遍不高,组织起来在课堂上从头开始学习程序设计与并行算法显然不合适,因此采用案例教学的方式,使学生能够快速运用知识来解决问题。案例教学法也叫案例研究教学法,是一种教师和学生共同参与,就某一具体案例进行分析、探讨、解决具体问题的教学方法。该方法注重培养学习者对于实际问题的解决,将知识应用于实践,培养创新思维以及团队协作的能力。案例教学法已经注意到学生对于知识获取的主动性,生成性、创造性的作用,有着传统教学方法所不具备的特殊功能[8]。在美国密苏里大学进行为期1年的学习访问过程中,发现国外的生物信息学课程非常注重团队协作,共同解决具体问题,因此也有针对性地对生物信息学的教学内容进行改良。
在教学内容安排上,生物信息学课程既有理论课又有实验课,理论课和实验课的教学内容也围绕案例展开。设置理论课32学时、实验课16学时,课程设计在课外完成实际案例,不占学时数。具体教学内容安排如表1所示。理论课程注重讲解案例涉及的算法原理,如序列比对算法,蛋白质结构预测算法等。有了这些知识的积累后,学生对生物信息学理论有了一定的认识。通过实验课程训练,使学生熟悉Linux环境下的基本操作以及高性能计算任务提交等基本步骤和过程。在课程设计中设计了不同的案例,学生可以根据自己的兴趣和今后的研究方向,自由组织团队,选择适合的案例进行研究。如序列分析方面重点了解 Blast 科学计算软件[9],进行基因的多序列比对和序列进化分析;蛋白质结构分析方面重点了解蛋白质折叠软件Rossetta程序包[10],通过一级序列预测蛋白质的三维结构;药物设计方面重点了解分子对接和虚拟药物筛选,练习使用Autodock软件[11];多尺度分子模拟方面重点了解分子动力学模拟软件NAMD[12]。这种理论与实践相结合、将案例教学贯穿整门课程、以实践和案例强化理论教学的模式取得了很好的教学效果。
表1 教学内容安排
2.3 基于Moodle的网络教学实践
在教学实施过程中,采用了Moodle教学系统进行网络课程管理。Moodle系统是教育技术领域的一个基于建构主义的,自由开源课程管理系统,其界面简单,易于使用,目前在我国各类学校被广泛采用[13]。根据课程设计的内容,在Moodle教学系统上创建了不同的学习案例。
为了更好地进行案例教学,采用Moodle教学系统中的WebQuest模块对学生进行引导学习。WebQuest是1995年由美国圣地亚哥州立大学教授伯尼·道奇博士和汤姆马奇所创立的一种基于网络资源的新型教学手段[14],它更强调学生在教学过程中的主体地位。WebQuest的核心是采用案例驱动,教师引导学生进入一个富有趣味性的学习情景,激发学生的创造力,完成自主探究式学习。以生物信息学课程中的药物设计和筛选为例,在WebQuest模块下要求学生对Autodock软件进行代码分析,根据软件的算法特点建议了3种并行任务的提交:包括方案一并行分子构象局部搜索,方案二并行了传统遗传算法即全局搜索,方案三并行对接次数上。见图2。
通过WebQuest模块,引导学生从并行进程数量的影响,不同输入参数负载特征等多个角度对程序进行了分析和比较[15]。见图3。学生通过案例学习发现,计算方案一中,由于涉及并行的部分仅为分子构象的局部搜索,程序的并行效率受局部搜索频率的限制,因此,随着计算进程数的增加程序很快达到了并行性能的极限,继续增加进程,通信量增加明显,而总时间没有显著的降低。方案二与方案一类似,由于仅并行了遗传算法的能量计算,程序的并行效率受到种群数量的限制,因此,随着进程数的增加程序也很快达到了并行性能的极限,而且由于遗传算法在计算中所占的比重不大,因此并行的效率表现得比方案二更低。方案三由于并行的是整体对接过程,进程间通信量较少,因此当进程数少于对接次数时,能明显的减少运行时间,但当进程数量增加到超过对接次数时,运行时间也不再减少。通过测试和分析,学生不仅学会了高性能环境下并行任务的提交,而且可以更好地理解计算机辅助药物筛选软件Autodock的算法原理。
图2 采用WebQuest进行任务设定
图3 不同方案的加速比和并行效率
2.4 课外拓展
为了让学生更好地体会高性能计算给生物信息学研究的帮助,还积极联系相关的校外单位,包括广州超算中心和深圳超算中心。广州超算中心的“天河二号”是目前世界上最快的高性能计算系统,“天河二号”拥有16 000个运算节点,共312万个计算核心。因为广州超算中心距离华南农业大学比较近,且和课题组建立了较好的合作关系,课后可以带学生参观广州超级计算中心。“天河二号”系统要获得良好的应用,还需要大量专业人才,特别是既有专业知识又懂高性能计算的跨学科人才,因此可以通过参观提升学生的学习兴趣,并为学生后续的就业选择做好准备。
针对高性能计算平台,改进了教学模式和教学方法,也取得了较好的教学效果。
(1) 学生学习兴趣的提升。高性能平台对很多学生而言是新鲜事物,而且通过多核并行计算可以大幅提升程序的运行速度。通过学校教务系统的调查反馈发现,大部分学生通过课程设计的训练,对生物信息学研究产生了浓厚的兴趣,并愿意更多的在高性能计算平台上进行实验和计算。
(2) 提高了学生自主学习能力和创新意识。采用高性能计算平台提升了学生的学习兴趣,但实验的学时相对较少,为了能够在计划时间内完成项目任务,学生在课余时间也通过校园网登陆访问高性能计算平台进行计算任务提交。因为课程设计都是有一定难度的综合性课题,在完成的过程中,书本上找不到现成的答案,在碰到难题时学生会主动的通过网络上的技术论坛和其它各种途径去寻找解决方法。很多生物信息软件是国外课题组开发的,使用说明也是英文的,学生会逐步培养英文阅读能力,并练习写英文邮件进行问题咨询。因此通过训练,学生的自主学习能力和创新意识都得到了较大的提高,一些研究生还发表了相关领域的学术论文[16]。
(3) 团队协作和就业方向的指导。在完成课程设计的过程中,不同专业的学生组成一个小组,共同完成选择的项目。在共同完成项目的过程中,学生之间不仅在专业上能够互补,而且当一个小组遇到难题时,其他小组的成员都会积极的给予帮助,团队意识和协作精神得到锻炼。同时因为交叉学科的协作,小组的成员都会学习到对方专业的一些知识,综合能力也得到了提升。既有专业知识又懂高性能计算的学生将会是今后非常抢手的综合性人才,因此这些训练也为学生的就业提供了一些帮助。
生物信息学是一门综合型学科,随着实验数据的增长,越来越多的问题需要运用高性能计算工具进行解决,因此在生物信息学教学中需要针对高性能计算进行训练,培养学生的实际操作和科研能力。介绍了华南农业大学信息学院高性能计算平台的构建,并基于该平台对生物信息学课程进行教学实践研究。在教学过程中,采用案例驱动教学法,理论课讲解案例中的生物信息算法基础,实验课熟悉案例中软件提交所需要的高性能计算环境。通过Moodle学习管理平台进行课程管理和案例驱动的课程设计,让各专业的学生混合组成团队,协同完成各种实际生物信息学问题。经过上述教学实践,学生对生物信息学课程提高了兴趣,培养了自主学习能力和团队协作意识,为后续科研工作的开展以及就业奠定了良好的基础。
[1] 许 东. 生物信息学与计算机科学[J]. 计算机教育, 2006(4): 41-43.
[2] 李 斌, 李义兵. 生物信息学中的分布式计算[J]. 生物信息学, 2006, 4(4): 178-181.
[3] 孙建青. 网格技术及其对现代远程教育的影响[J]. 中国远程教育, 2006(3): 26-29.
[4] 罗智超, 陈志煌, 张 强. 并行计算集群在经济学实验室中的应用[J]. 实验室研究与探索, 2011, 30(3): 174-178.
[5] 王益军. 农学专业生物信息学课程教学改革探析[J]. 现代农业科技, 2010(5): 15-16.
[6] 刘宏生, 郑方亮, 艾海新, 等. 强化生物信息学实践教学的探索与成果[J]. 生物信息学, 2010, 8(4): 368-370.
[7] 张予倩, 周 健, 翁红明, 等. Rocks高性能计算集群的建立和管理[J]. 实验室研究与探索, 2006, 25(4): 450-453.
[8] 孙红梅, 贾瑞生. 基于网络的软件工程案例教学资源平台建设[J]. 实验室研究与探索, 2010, 29(11): 48-51.
[9] Altschul S F, Gish W, Miller W,etal. Basic local alignment search tool[J]. Journal of Molecular Biology, 1990, 215(3):403-410.
[10] Leaver-Fay A, Tyka M, Lewis S M,etal. ROSETTA3: an object-oriented software suite for the simulation and design of macromolecules[J]. Methods in Enzymology, 2011, 487:545-74.
[11] Morris G M, Goodsell D S, Halliday R S,etal. Automated docking using a lamarckian genetic algorithm and an empirical binding free energy function[J]. Journal of Computational Chemistry, 1998, 19(14): 1639-1662.
[12] Kalé L, Skeel R, Bhandarkar M,etal. NAMD2: Greater scalability for parallel molecular dynamics[J]. Journal of Computational Physics, 1999, 151:283-312.
[13] 秦 健, 杜晓辉, 马红亮. Moodle学习管理平台交互性的实证分析[J]. 中国电化教育, 2011(2): 86-90.
[14] 奚晓霞, 罗会棣. 基于WebQuest的建构探究学习模式[J]. 电化教育研究, 2004(2): 41-43.
[15] 常 珊, 孔 韧, 李春华, 等. 基于MPI 的分子对接并行算法[J]. 计算物理, 2008, 25(2): 241-246.
[16] 刘董敏, 常 珊, 胡建平, 等. 蛋白质-核酸对接方法研究进展[J]. 现代生物医学进展,2012(5): 979-983.
Construction and Practice of Teaching Platform of Bioinformatics High Performance
CHANGShan1,2,ZENGLing2,WANHua2
(1. Institute of Bioinformatics and Medical Engineering, School of Electrical and Information Engineering,Jiangsu University of Technology, Changzhou 213001, China;2. College of Informatics, South China Agricultural University, Guangzhou 510642, China)
With the rapid increasing of the biologic experiment data, the bioinformatics becomes an important technology for the research personnel in the life science. This article elaborated on the relationship between the high performance computing and bioinformatics, and introduced the necessary of the high performance computing facilities in the teaching of bioinformatics. Based on the situation of agricultural university, the high performance computing platform was built in the teaching of bioinformatics. This platform can help the students to be familiar with the corresponding environment and understand the important theories and algorithms. In the course plans, the theory course, the experiment course and the curriculum design were implemented round the bioinformatics cases. On the basis of the Moodle teaching system, the online course was managed. These teaching practices developed the autonomic learning ability and team cooperation of students, and enhanced the abilities of students to resolve an actual bioinformatics problem by using the high performance computation.
high performance computation; case teaching; bioinformatics
2014-10-13
国家自然科学基金(31200990);全国教育信息技术研究“十二五”规划2012年度专项课题(126230657);广东省优秀青年教师培育计划项目(Yq2013027);华南农业大学信息学院教育教学改革与研究项目(INFJG1009)
常 珊(1982-),男,湖南岳阳人,博士,副教授,硕士生导师,研究方向为生物信息学和高性能计算。
Tel.:13585336450,E-mail:schang@jsut.edu.cn
G 434;Q-331
A
1006-7167(2015)10-0152-05