郭丽 胡栋 王俊 吴建盛 汤丽华
(南京邮电大学,江苏南京210023)
生物医学大数据背景下学习生物信息学的学科特点分析*
郭丽 胡栋 王俊 吴建盛 汤丽华
(南京邮电大学,江苏南京210023)
大数据时代,特别是几乎无穷无尽的生物医学大数据,给生物信息学及统计学带来了新的机遇和挑战,同时也形成对生物学、统计学和计算机信息科学交叉领域中富有经验的专业人才的高度需求。生物信息学在大数据时代的重要性不言而喻,因此其教学也显得尤为重要。文章通过分析生物统计学专业学生在学习生物信息学课程的优势和劣势,旨在结合生物统计学专业的特点,为生物信息学教学内容及教学方式的调整提供参考,从而激发学生的学习兴趣,提高教学效果。
生物信息学;生物统计学;大数据;优势和劣势
人类已经进入大数据时代,作为一个热点,大数据代表的是一种潮流,一个时代,越来越受到重视。大数据(big data),指由于容量太大和过于复杂,而无法在一定时间内用常规软件对其内容进行抓取、管理、存储、检索、共享、传输和分析的数据集[1]。其中,生物医学大数据,作为最活跃的科学研究领域之一,备受关注,尤其是基于生命的整体性和疾病的复杂性,伴随着高通量技术的发展和基因组测序成本的不断下降,以及医院信息化和IT业的迅速发展,生物医学数据不断积累,促使科学家的思维方式已经从数据的生成,转变为对数据的分析,如何整理堆积如山的信息,让其对科学家和临床医生具有意义[2],已是迫在眉睫的问题,从而对生物信息学家提出了新的挑战和机遇。作为伴随生命科学和计算机科学的迅猛发展而产生的生物信息学(Bioinformatics),基于快速积累的庞大的生物医学数据,以研究生物信息的采集、处理、存储、传播,分析和解读等为研究目的,是当今生命科学和自然科学的重大前沿领域之一,亦是21世纪自然科学的核心领域之一[3]。生物信息学的研究内容主要集中在核酸和蛋白质序列,综合运用诸如应用数学、计算机科学以及统计学等多学科的方法和技术,分析序列中所蕴含的生物信息,解读生命的奥秘。
生物统计学是应用统计学的原理和方法探讨如何从不完整的信息中获取科学可靠的结论从而进一步进行生物学实验研究的设计,取样,分析,资料整理与推论的科学[4]。生物统计专业通常设在公共卫生学院和医学院,林学院,农学院,生命科学学院等,是统计的一个应用方向。医学院校生物统计学专业教育目标之一,是为生物医药等领域培养合格的统计分析应用型人才,而统计学亦是生命科学、预防医学、临床医学、基础医学等专业的重要工具。随着大数据时代的到来,基于数据间内在的本质联系,决定了统计学与大数据的必然联系,同时,大数据对统计学的发展提出了新的机遇和挑战[5]。对海量大数据特别是生物医学大数据进行整合和分析,其实可认为是一种新型的数据分析方法,随着生物医学大数据的快速积累,统计学的大数据化是必然的发展趋势。
作为一门方法学,生物统计学是应用概率论和数理统计原理来研究生物界数量变化等领域的一门交叉应用学科。它亦是典型的交叉学科,需要具有公共卫生、临床医学、生命科学、药学、数学、计算机等方面的基本素质并要融会贯通,对从业者的要求相对较高。生物统计学专业的培养,需要开设数学、计算机、概率论和数理统计、生物医学及统计等相关方面的基础课程,而这些课程内容之间并非是独立的,其具有一定的交叉融合。因此,生物统计学专业的知识背景极具交叉学科的特点,而生物信息学专业课程设置以数学、计算机、算法等课程为主,并辅以生物学专业理论和实验课程,旨在培养学生处理生物学具体问题时的分析问题和解决问题的能力[6]。故而,统计专业开展的很多基础知识也是生物信息学所应该具备的基础知识,该专业学生可尽快的学习和融入生物信息学课程。
具体地说,生物信息学可包括3个主要部分:(1)新算法和统计学方法研究;(2)各类数据的分析和解释;(3)研制有效利用和管理数据新工具[7]。从事生物信息学相关的研究工作,除了具备生物学基础知识外,还应有编程基础,了解数据结构及算法,具备统计学基础知识,熟悉多种统计及生物学相关软件,而生物统计专业中,计算机、数学及统计相关知识是最为基础的内容,因此,学生会比较轻松的接受生物信息学相关知识及背景,从而轻松学习生物信息学课程。
生物信息学通过综合利用生物学,计算机科学和信息技术而揭示海量复杂的生物数据所赋有的生物学奥秘,其核心内容之一就是针对海量生物大数据的分析,而生物统计专业的主要从事工作之一,亦是数据分析相关的工作,因此,从事相似的工作也具有相似的分析思维方式,从而更容易对生物信息学产生兴趣,轻松学习这门课程。
作为旨在培养学生处理生物学具体问题时的分析问题和解决问题的能力的生物信息学专业,生物信息学是用数理和信息科学的观点、理论和方法去研究呈现指数增长的生物学数据的一门学科。以遗传物质的载体DNA及其编码的大分子蛋白质为核心,通过系统分析逐步认识生命的起源、进化、遗传和发育的本质,破译隐藏在DNA序列中的遗传语言,揭示人体生理和病理过程的分子基础,为人类疾病的预测、诊断、预防和治疗提供最合理和有效的途径[8]。生物统计专业中,虽具有一定的生物医学及公共卫生等基础,但生命科学系统性较强且发展迅速,这些生物学基础可能还是比较单薄的。尤其是生物信息学一直关注生命医学领域最前沿的科学问题,因此,了解一定的生物基础知识对学习生物信息学是十分有必要的。
此外,随着大数据时代的到来,海量生物医学数据对统计学提供了机遇的同时,也提供了极大的挑战,尤其是如何将“大数据”转变为“小数据”,如何基于大数据适当作出相应的调整,在利用统计方法处理问题的同时,尽可能利用更多的数据,从而将统计学的长处和大数据的优点有效结合起来[5]。尤其是,包括基因组、蛋白质组等多组学数据是生物医学大数据中的重要组成部分,如何系统地了解不同分子层次上的联系和相互作用,从系统生物学的角度开展相关的研究,以揭示大量而复杂的生物数据所赋有的生物学奥秘,是当前需要解决的问题。基于此,可在授课的过程中,特别强调相关的知识模块和相应背景,并着重结合实际组学数据,增加相应上机实践的内容,为熟悉生物医学大数据提供基础。
作为一门基础研究学科,生物信息学具有重大的科学意义,同时,它也是一门应用性学科,具有巨大的经济效益。生物信息学的迅猛发展对生命科学产生的革命性影响,将极大地促进生命科学领域,及其他相关领域的进步,亦是当前基因组学,转录组学,蛋白质组学及代谢组学等研究的直接推动力[9,10]。很多专业将生物信息学课程选为必修或选修课程[11],其教学应充分结合不同专业特点,分析其学习生物信息学课程的优势和劣势,适当调整教学内容及方法,以提高学生学习兴趣及教学效果。针对生物统计专业,结合该专业数理统计背景和思维方式,学习掌握生物信息学相关知识相对较为轻松,但理解生物医学问题方面可能较为吃力,因此应从生物知识模块的特点在授课过程中加强生物学背景知识,尤其是不同分子层次多组学之间的联系,以系统地学习生物信息学,并提高教学效果,在生物医学大数据的时代背景下,培养复合型人才并提升学生就业能力。
[1]王波,吕筠,李立明.生物医学大数据:现状与展望[J].中华流行病学杂志,2014,6:617-619.
[2]Levine A G.An explosion of bioinformatics careers[J].Science,2014,344(6189):1303-1306.
[3]孙啸,陆祖宏,谢建明.生物信息学基础[M].清华大学出版社,2005.
[4]李春喜,王志和,等.生物统计学(第二版)[M].北京:科学出版社,2000.
[5]游士兵,张佩,姚雪梅.大数据对统计学的挑战和机遇[J].珞珈管理评论,2013,2:165-171.
[6]郭丽,赵杨,柏建岭,等.医学院校生物统计学专业生物信息学教学探索[J].南京医科大学学报:社会科学版,2013(5):457-460.
[7]张春霆.生物信息学的现状与展望[J].世界科技研究与发展,2000,22(6):17-20.
[8]周毅,刘燕,张元亭,等.医学信息学的研究领域及人才培养[J].医学信息,2005,18(8):856-858.
[9]王英超,党源,李晓艳,等.蛋白质组学及其技术发展[J].生物技术通讯,2010(1):139-144.
[10]赵屹,谷瑞升,杜生明.生物信息学研究现状及发展趋势[J].医学信息学杂志,2012,5:4.
[11]虢毅,胡德华,邓昊.生物信息学课程“开放式,研究性”教学模式的探讨[J].生物信息学,2009,7(3):227-229.
The era of big data,especially almost infinite biomedical big data,brings new opportunities and challenges for bioinformatics and statistics,also provides high demands on experienced professional talents in crossing field of biology,statistics and computer science.The importance of bioinformatics is quite evident in big data era,and the teaching of bioinformatics is also quite important.The study aimed to analyze the advantages and disadvantages of studying bioinformatics for biostatistics.The analysis can provide reference for improving content and method of bioinformatics according to characteristics of biostatistics,which will contribute to motivating learning interest and improving teaching effect.
bioinformatics;biostatistics;big data;advantages and disadvantages
G642
A
2096-000X(2016)19-0048-02
国家自然科学基金项目(编号:61301251);南京邮电大学教学改革项目(编号:JG03215JX86);南京邮电大学2016年实验室工作研究课题(编号:2016XSG12)。
郭丽(1980,09-),女,河南安阳人,工学博士,南京邮电大学地理与生物信息学院教师,研究方向:生物医学信息学。