陈前军 刘杰 胡昀
[摘 要] 该文基于某省部共建的大学本科生物信息学的实验教学建设与改革实践,从实验教学内容设计、实验教学平台搭建、教学模式改革等方面进行了研究与探索,并就一些难点问题提出思考和解决方案,以期为相关类似专业课程的实验教学平台建设提供参考。
[关键词] 云环境;实验教学;教学改革;生物信息学;虚拟化
[基金项目] 云环境下高校计算机虚拟实验的建设与实践省级教学改革项目
[作者简介] 陈前军(1980—),男,博士,湖北大学生命科学学院/生物催化与酶工程国家重点实验室高级实验师,主要从事生物信息学研
究;刘 杰(1981—),男,博士,湖北大学生命科学学院/生物催化与酶工程国家重点实验室教授,博士生导师,主要从事蜘蛛分类学研究;胡 昀(1983—),女,博士,湖北大学生命科学学院/生物催化与酶工程国家重点实验室实验师,主要从事实验管理研究。
[中图分类号] G647 [文献标识码] A [文章编号] 1674-9324(2020)23-0005-03 [收稿日期] 2019-12-24
生物信息学作为一门信息科学,是研究生物信息的采集、处理、存储、传播、分析和解释等各方面的学科。该学科集生物科学、计算机科学和数学之大成,是当下最为火热专业之一,也注定是未来热门、高产出的学科之一,是一个交叉性极强的学科。然而,生物信息学所需处理的数据具备明显的大数据特征,其对数据存储容量、计算能力和实验环境要求极高,这给大学生物信息学实验教学带来了诸多挑战。本文以生物信息学实验教学在云环境下实验教学内容设计和平台建设等相关问题为主题进行探索与研究[1-2]。
一、生物信息学实验教学课程特点分析
生物信息学是建立在基因/蛋白质(本文以基因为例)序列文本研究基础上,综合利用多种数据分析方法挖掘海量数据中暗藏的生物学问题或规律的一门学科,归纳起来可将实验过程划分为样本文库建立、上机测序和数据处理分析三个阶段。形象描述为生物组织是原料、序列是半成品、算法是工具、“知识”是预测结论,从这个“生产线”可知,生物与计算机实验贯穿整个生产线全过程、全要素。
样本文库建立,通常可按①研究目标组织的制样,通过特异的探针库提取目标DNA或RNA,②纯化目标DNA或RNA,③采用EmPCR或桥式PCR扩增之后建立待测文库。样本库建立过程是传统的生化过程,一般生物学实验室便可完成,但整个过程成本较高,如外显子测序、RNA-Seq测序、ChIP-Seq测序都需要相应的探针试剂来对细胞核中的DNA、RNA等目标进行筛选,这些试剂盒成本和操作的精准性要求高、流程性强,且有些理论不够直观、晦涩难以理解[3]。
上机测序目的是获取DNA或RNA的序列数据,测序仪器属于高科技产品,目前市场价格比较昂贵。根据调研,国内基本交由测序公司完成,如华大基因等科技公司,也就是说国内高校基本不具备这样的实验设备和条件。关于生物信息学中的测序技术只能讲授理论部分,对学生来说是一个“黑盒子”过程。上机测序最终产生大量的测序数据,尤其NGS(Next Generation Sequencing),一次测序都能产生10GB、上百GB甚至达到TB级别的数据,这对数据的存储、计算带来了不小的挑战,如Illumina的HighSeq2000一次测序便可产生200GB的有效数据,其数据增长明显加速,其增长规律已经不符合摩尔定律。另外一方面上机测序产生的数据明显符合大数据的4V特征,如何借助新的技术和新的思想处理这些新的问题,成了比较现实的问题[4-6]。
数据分析作为生物信息学非常重要的组成部分,在生物信息学整个生态中占据着非常重要的位置。根据目前调研看,生物信息学相关软件不下1000个,大部分运行在Linux环境下,且对计算资源、内存资源要求极高。对组装40GB的序列数据,建议内存不小于64GB,如序列合并组装步骤,大部分都采用命令行来操作,甚至有些工具和数据必须采用在线模式,实验过程需要访问国际互联网,也就是说即便一些实验步骤都熟悉的情况下,如果网络速度很慢或者国际互联网不通,也能导致分析实验失败。这使得学生在验证知识的正确性可能无法在实验教学过程中完成,而对于更高层次的知识灵活应用和创新就显得不具现实性[7]。因而需要采用新的模式建立实验平台,满足日益增长的本科生理论学习、实验教学要求。
二、变换思路构建新一代实验室
(一)生物信息学实验平台构建的困境
根据生物信息学实验教学的目标,以及前文分析的学科特征,在现有的软、硬件条件下,很难再按照传统的模式来设计实验教学内容、搭建实验教学平台。
传统实验平台建设,对于生物信息学实验室建设必定围绕三个方面展开,即建立传统的生物学实验室,以完成样品的制备过程;建立测序平台,以完成上机测序动作;构建大规模超算中心,以完成数据处理分析。作为本科教学,这些投入和产出比显然难以接受、不切实际。
(二)学习模式革新
另一方面,学生学习的方式、知识获取途径发生着深刻的变化,互联网思维日益广泛地被学生所接受。学生更倾向于通过手机等移动产品通过类似于游戏的方式快速、随时随地获取知识;以导航式、身临其境的方式参与学习过程;并希望能够根据自身特征接受个性教学,接受个性化定制教育[8]。
(三)虚拟仿真技术的应用
《教育部关于一流本科課程建设的实施意见》一文中,提出“双万工程”,加强一流本科建设,明确提出构建“实验金课”要求。实施意见中,指出通过虚拟仿真技术,搭建实验教学平台,通过线上、线下或混合模式的方式来完成实验教学目标[9]。
生物信息学课程实验教学中,在样品制备、上机测序等步骤完全符合虚拟仿真技术的应用场景,具备构建线上虚拟仿真实验室的先天优势,如实验耗材损耗大、过程重复率高、实验流程性强、选项多等特征。这两部分通过虚拟仿真技术,借助HTML5(Flash在2020年后将不被Chrome等浏览器所支持)、B/S、数据库等一系列信息技术能够准确地实现场景重现、流程定制、短视频教学、智能问答、在线评测教学功能,必将成为一个顺应时代潮流、符合学科特征的较优的实验教学解决方案。
(四)云环境虚拟化实验教学平台应用
生物信息学实验数据处理分析方面,也是本专业教学的落脚点,其教学的成功影响专业教学质量。根据前文分析,生物信息数据处理信息量大、计算要求高且繁杂,但作为本科实验教学,不需做到面面俱到,因而在实验内容设计、软件工具的选取、实验平台搭建方面存在一定独特性。
1.实验内容设计。实验内容设计对于实验教学也是至关重要的环节,实验内容设计需综合考虑所讲授的课程对象、学科特征和实验环境。目前生物信息学关于测序,研究的模式生物比较多,如人类基因组,而人类全基因组含有30亿个碱基,也就是3Gb数据,这个数据规模对于本科实验教学并不合适;另外一个模式生物,如大肠杆菌,它只有470万个碱基,也就是4.7Mb,这个基因数量只是人类基因的1/638,在NCBI上有大量的SRA短片测序数据,从数据分析来看,大肠杆菌对于数据模拟、分析,耗费的计算和存储资源比人类基因小,因而作为本科教学是合适的实验对象,适合在虚拟环境下完成的计算任务。
2.工具集的集成是实验流程梳理。目前生物信息学软件不下1000种,而且有很多软件功能类似,这要求实验设计和系统集成密切配合,负责教学的教师积极参与实验设计,过滤、归纳实验教学中用到的软件,并研究设计实验完整流程和步骤。如RNA-seq数据分析,需考虑是否需要进行序列组装,是有指导组装还是独立组装等问题;如何进行序列比对,比对结果数据如何阅读、如何分析;甚至是否需要引进AI技术等等。表1所示,列举部分常用软件:
3.虚拟化实验室的发布。生物信息学虚拟化在线实验平台最后一个问题就是实验环境发布问题。通过分析,不管采用何种技术,目前最终给学生看到的人机界面可归纳为三个层次,即应用级别的虚拟化、容器級别虚拟化和操作系统级别虚拟化。应用级别虚拟化如虚拟仿真,即为一个软件模拟实验环境,但实际并没有调用相关的软件进行实际计算、分析;容器级别虚拟化,如Docker,即在Docker模式下运行生物信息学软件,可以形象认为是瘦虚拟化。操作系统级别虚拟化,即基于VMware等虚拟化平台搭建的虚拟化,可直接提供Linux等实验环境,并在此实验环境下搭建生物信息学真实的计算平台,以满足教学要求,可以形象地认为是胖虚拟化。生物信息学很多实验、实验数据存在上下文关系,采用Docker对于学生综合分析能力的培养不是最优解决方案,采用直接VMware级别的虚拟化能够让学生直接接触真实生产环境,且可以通过扩展虚拟化资源无缝将教学实验环境迁移到科研实验环境,但缺点明显,如在性能、资源难以支撑科研实验。如图1、图2所示,胖虚拟化实验环境下实验平台软件运行情况:
采用胖虚拟化模式,需要优化虚拟化实验室对学生提供服务的途径和方式。当下主流是基于Web的虚拟化管理模式,也是容易被学生接受的模式。经过调查和研究,采用B/S的模式,按照学生需求预设多套虚拟化实验室虚拟机模板。根据课程设计和教学方案,可以提供学生申请资源、下载虚拟化镜像、管理虚拟化主机需求,并且可以错峰提供虚拟化计算服务[ 10 ]。
三、总结和展望
生物信息学是一个新型的信息学科,截至到2018年全国开设该专业的学校只有24所,开设该专业的学校分布在理、农、林、牧、医等类型学校。从现状看,课程建设还处在建设起步和上升期。笔者所在的学校开设该专业三年,但根据课程合理性需求,期间已修改过一次培养方案,实验教学中还存在诸多不确定因素,也无可参照的成熟模式。本文通过生物信息课程特征分析入手,剖析传统实验教学所存在的问题,提出借助虚拟化技术的解决思路,重点研究胖环境下的实验虚拟化思路,并得到初步的验证。也以此抛砖引玉,供大家探讨,未来我们也将进一步拓展相关的改革思路、解决实验教学中存在的问题。
参考文献
[1]范丙友,贾小平,胥华伟,等.生物信息学课程教学改革与探索[J].大学教育,2013(16):61-62.
[2]马明月,曾垂省,解增言,等.生物信息学大实验教学改革的探索与实践[J].生物化工,2018,4(02):103-105+108.
[3]李宗玮.基于高通量测序的微生物辨识、进化与耐药性生物信息学分析[D].中国人民解放军军事医学科学院,2016.
[4]郝爱平,国会艳,薛巨坤,等.大数据时代提高生物专业研究生科研创新实践能力教学改革探索——以“生物信息学”课程为例[J].安徽农学通报,2017,23(17):140-141.
[5]杨帅.面向组学大数据的生物信息学研究[D].中国人民解放军军事医学科学院,2016.
[6]李广林.大数据背景下的生物信息学教学探索[J].教育教学论坛,2015,(29):210-211.
[7]张渝洁,邢晋祎.生物信息学实验教学中的网络资源及其利用[J].安徽农业科学,2019,47(11):276-278.
[8]钟玉珍.“互联网+”时代的计算机教学新模式[J].计算机产品与流通,2019(12):210.
[9]教育部发文推进本科课程改革 理直气壮为本科生“增负”[J].西部素质教育,2019,5(22):154.
[10]Serdar Yegulalp,Serdar Yegulalp.VMware dresses up Docker for the enterprise[J].InfoWorld.com,2016.
Exploration and Practice of the Course Reform of Experimental Teaching of Bioinformatics in Cloud Environment
CHEN Qian-Jun,LIU Jie,HU Yun
(State Key Laboratory of Biocatalysis and Enzyme Engineering,School of life Sciences,Hubei University,Wuhan,Hubei 430062,China)
Abstract:The paper is based on the construction and reform of the experimental teaching of Bioinformatics for undergraduate students in a university co-sponsored by Hubei Province and the Ministry of Education.It makes a study on the content design,platform construction,and teaching model reform of this course.Meanwhile,it points out some problems which may happen during the teaching process and provides corresponding solutions as a reference to the experimental teaching of similar professional courses.
Key words:Cloud environment;experimental teaching;teaching reform;Bioinformatics;virtualization