汤在祥
大数据背景下医学统计学教学的思考
汤在祥
(苏州大学医学部公共卫生学院,江苏苏州215006)
在现今大数据时代的背景下,医学统计学的发展以生命科研相关的数据信息为核心,无疑这对统计学这门工具学科产生了大量的需求。近年来,大数据所具有的数据特征使得部分传统统计方法不再适用,迫切需要针对大数据的特征,以服务和满足各领域需求为目标,不断创新和发展数据分析方法与理论。在医学统计学的教学过程中,迫切需要把新的统计学技术方法应用于教学实践,使得学生们能够迅速适应生命科学大数据的时代。
大数据;医学统计学;统计方法
近年来,大数据已成为各个行业领域,包括医学研究,健康医疗行业的热门词汇,医学大数据孕育着巨大的价值,驱动着医学科学的进步。在医学研究和医疗行业,借助先进的科学技术手段,以及创新的数据收集方式,已经积累并正在迅速积累着大量的数据,这些医学大数据必将转化为医学科技进步的巨大动力。然而在这一进程中,统计学工具如何进步,特别是医学统计学教学如何变革,如何在教学内容教学方法上适应医学大数据的到来是医学统计教学改革思考的重点。
大数据并不具备一个十分明确的概念,大数据起源于计算机和互联网领域。在信息量逐步增多的情况下,使得计算机的存储空间不足。另外,随着新的数据收集和数据处理技术的产生,如大规模的测序分析技术,在生物医学的组学技术,互联网的搜索,智能手机的各种应用,智能手环等,这些技术不仅能够大规模地收集生产数据,也能够对复杂的数据进行程序化处理,极大程度地提升了人们可处理的数据量。
在维基百科中,大数据被定义为所涉及的数据量巨大且复杂,以至于无法通过传统的数据处理工具和手段将其整理为人类所能解读的信息。目前,被普遍接受的大数据定义是3V定义,即Volume、Variety以及Velocity,即要求数据产生速度快,变量多,类型复杂,数据体量大,而且处理速度快[1]。后来,人们又增加了Veracity(真实性)及Value(有价值)两个特性[2]。由以上的概念可以看出,大数据的定义并不严密。首先,对于“多大的数据量算是大数据”没有清晰的定义;其次,“传统工具和方法的处理能力”这个参照也不是一个明确的标准,因为随着技术的不断进步和时间的变化,处理数据的能力会随之提高,所谓现代工具也将成为传统方法,再次,所谓数据产生的速度,体量,价值等都是相对的概念,不同的人从不同的角度都会有不同的认识。尽管没有关于大数据的明确概念,但对大数据所具备的特征已有一定的判断,对大数据的认识在不断加深。
在医学领域,医学大数据包括:生物信息数据、医疗数据、卫生数据、药物数据、人类健康数据等,这些大数据的产生主要得益于下一代测序技术、生物信息学,电子临床工具发展,以及数字医疗的兴起。特别是生物信息数据,不仅仅来源于高通量的基因组和转录组测序,其他高通量组学数据,例如单细胞表型数据、动态生物医学图像等数据量也正在急剧增长。生命科学的快速进步,使得大数据贯穿从基础研究到药物开发到临床诊疗到健康管理的所有环节。基于目前生物医学大数据的现状我们可以发现,生物医学大数据的研究正处于蓄势待发状态,然而,适应于生物医学大数据的软件平台、大数据分析挖掘的统计方法等还不成熟,制约着生物大数据的开发和利用。一旦适应与大数据的一整套统计策略获得突破,生物医学大数据将会全方位地支撑生物医学研究的深入,进而有助于对医学现象的分析和预测,不仅有利于基础研究的迅速进展,更将有利于公共卫生,医疗与医药开发等方面,大数据将以其自有的价值服务于广泛生物医学研究与应用。
(一)假设驱动与数据驱动的思维模式
传统统计研究过程包括统计设计、收集数据、整理数据和分析数据四个基本环节。统计推断是数据分析的关键,而假设检验是统计推断的核心。以假设为基础的研究可统称为假设驱动型研究。假设驱动型研究有其特定的发展历史背景。一般而言,某学科领域的初期研究一般是从大量的实验现象的观测开始的。此时,研究者对整个学科的认识缺少系统全面的认识,不同研究者只是在各自的研究角度发现各种自然现象,这些现象间很可能存在一致性,也可能存在冲突。不同的研究者似乎在盲人摸象,而各个研究者的认识往往离所要认识对象的本来面目可能相去甚远。这一时期的科学研究被称为假设驱动型研究,即通过若干实验现象来验证某一个科学假设。此时期的研究非常强调对实验现象的客观性描述,强调实证主义研究风格。假设驱动是科学研究的一般模式,生物医学研究当前基本处在这一阶段,适应这一阶段需求的统计学分析工具,也以此为基础而诞生。
生命科学领域的数据驱动,是一个崭新的命题,它涉及很多新的概念和术语,也催生了各种新的统计学方法。借助具有广度和深度的生物医学大数据,人们能够对生命科学中的各种现象重新认识,在新的方向助力人类健康。随着生物信息学技术的进步,数据的体量和变量类型不断增加,且可获性越来越便利,又极大地促进了数据收集技术和数据分析方法的发展,包括数据整个生命周期中涉及的所有技术,如数据的收集、存储、处理、分析等。
假设驱动和数据驱动,在本质上有这显然的不同,然而目前的医学统计学的教科书基本上二十年没有变化,与时俱进的教学改革十分迫切。
在医学统计的四个工作步骤中,研究设计,数据收集,数据整理,数据分析还基本围绕这假设驱动的框架,以假设为前提,设计研究方案,然后收集整理分析数据。统计学的基本步骤依然是我们执行研究的纲领,然而在内涵上需要拓展与深化。在研究方案的制定上,要考虑到影响生命医学现象的关键要素,也要考虑到相关联的其他要素。在数据类型上,除了常规以数据形式记录到的数据外,图像,音频,文本形式的数据也要纳入思考。在数据收集上,要能够借助先进的电子化数据采集策略。在分析方法上,教科书上现有的统计分析方法,可能已经捉襟见肘,需要介绍当前流行的适用于大数据的统计分析新方法。无论我们面对的数据是已经积累到的大数据,还是将要收集的大数据,要全面的建立大数据总体统计思维,而不再是基本“小样本”的简单考虑[3]。在现有的教材中,对大数据本身往往介绍得比较少,对大数据相关的统计学方法更鲜见介绍。而在大数据背景下,数据驱动的教学改进方向,就是教学内容以全数据模式为研究对象,强调对所有的数据进行分析,而不仅仅是开展随机抽样;关注变量之间的相互关联,而不仅仅是强调因果推断[4]。总的来说,大数据时代的统计学教学,首要改进教材,要能够突破固有思维限制,建立基于数据驱动的统计新思维[5]。
(二)课程与教学模式的设置
在医学院校,本科阶段的统计学课程多数以“医学统计学”或“卫生统计学”课程的形式出现,在医学院校的课程体系中,一般以专业基础课的形式存在。教学内容根据课时数的不一样,一般覆盖到相关回归分析,或多元统计的内容。在部分院校,建立了生物统计系,或预防医学的专业,统计相关课程一般会涉及专业基础课程,专业基础课程主要是指数学类的基础理论课程(如高等代数、概率论和数理统计等)。作为专业基础,其课程设置一般是理论课和实验课的标配形式,其课时数的配比一般为3:1。其教学模式一般采用的还是以理论教学为主,上机练习为辅,但是教师主要还是依托于教材,对相关理论和方法逐一进行介绍,对涉及的公式和方法进行演示。学生听和记,真正理解的内容并不多,真正付诸实际应用的就更少了。在如此课程设置下,不同专业和不同年级的学生都对医学统计学课程形成了难学,难懂,难通过考试的印象,学生对这门课程的学习不仅兴趣不高,一旦遇到困难,容易对课程产生抵触心理[6]。此外,现有的教学内容也与大数据时代脱节。
大数据时代要求培养复合型人才,不仅对本身的专业精通,更要对统计学工具有深刻的认识和了解。因此医学统计学的教学课程和模式的设置,要从单一课程的讲解,向复合型转变。医学统计学课程的教学目标,不仅要让同学具备基本的数据收集、处理和分析的能力,还要对统计学应用领域的背景知识有一定的了解,让学生熟悉了解海量数据信息的背景知识以及掌握深度开发和利用海量数据信息的分析方法。在课程设置上,需要对现有教学体系中的专业基础课程重新进行调整和设计。对于预防医学专业,医学统计学作为专业基础课,可以设置为两门到三门课程,内容覆盖现有的基于假设驱动的统计学基本方法,加强复杂多元统计,时间序列分析等课程内容,增加机器学习或统计学习、模拟研究、数据挖掘、统计软件等处理复杂大数据的方法的课程[7]。在教学模式上,全面地加强统计软件的使用,甚至把软件教学也作为单独的课程,不仅介绍基本的统计学方法,更要介绍基于大数据的统计学新方法。通过这样的课程和教学模式的设置,使得学生不仅很好地掌握基本的统计学方法,而且对大数据时代的统计学有全面的认知,通过不断地教学讲解和演示,培养医学生的应用能力和大数据思维。
(三)突破实践教学环节薄弱点
医学统计学是一门工具学科,具有较强的实践应用性。尽管与过去相比,现有的专业教学体系中已经增加了实践教学环节,或设置专门的在计算机房进行授课的课程,或在课堂中进行了统计软件的实践演示。然而,现有的实践教学仍然是医学统计学教学体系中的薄弱环节。主要表型在三个方面:(1)实践教学的思维模式,现有的实践教学内容并不是从数据自身出发,而是从假设出发,通过模型来说明假设的是否有统计学意义,这种思维方式与大数据背景下的数据驱动思想不相适应,因为创造模型的目的是适应数据,而不是由假设驱动。在大数据背景下,以假设驱动为主的实践教学模式已不适应大数据时代的要求;(2)没有重视数据整理的过程[8]。大数据时代收集到的数据往往是非结构化数据,变量类型复杂,已经不是一般意义上的定性数据和定量数据两种类型,此外还可能存在这大量缺失或异常值,如何对大规模的数据实施数据清理在过去的实践教学中常常被忽视[9]。通过数据整理,获得可分析的数据,是处理大数据必备的能力;(3)现有的实践教学中,医学生课程主要讲授的统计软件是SPSS和SAS,尽管这两种软件功能强大,发展成熟,但是,大数据时代数据是海量的,变量类型是复杂的,传统的教学软件已无法便利地处理这些大数据[10]。
针对这些实践教学的薄弱环节,有必要进行相关教学内容的改进,在时间中培养大数据的统计思维,对常常忽视的数据清理教学环节要予以足够的重视,设计相关的教学内容。在软件教学方面,要分配一定的学时,讲解新的统计软件,如当前流行的R软件。R软件是统计领域广泛使用的开源软件,R软件包括了各种常用的数学计算、统计计算的函数和模型,更包括了大量新的适用于大数据分析的统计模型和分析方法,能灵活机动的进行数据分析,甚至创造出符合需要的新的统计计算方法。在大数据背景下,与时俱进地改革实践教学内容,突破当前实践教学的瓶颈,在掌握已有基本统计学基础知识的基础上,适应大数据时代的要求十分必要。
大数据时代的来临,无论是课程的理论内容还是教学方法均通过不断改革而实现,医学统计学教学的最大的考验就是大数据背景下,如何训练培养学生的统计思维。在大数据时代,人们应该关注数据的全面性,思维方式应该从样本思维转向总体思维,因为随着现代互联网技术和人工智能技术的发展,电子化的实时数据采集已经成为可能,人们科学获得海量的数据,甚至是与之相关的所有数据,并进一步采用新的统计分析技术对数据进行分析,发现大数据背景下,生命医学现象背后的数据关系和机制。这种采用全数据思维方式进行思考问题、解决问题,可以带来对生命医学现象更全面的认识,可以更清楚地发现样本无法揭示的细节信息,更加立体、全面、系统地认识总体状况。可见,大数据背景下的统计新思维首要的就是总体思维,要习惯于从更高更广阔的角度思考问题[11]。
在统计推断的技术方法上,传统的统计推断分析过程是以分布理论为基础,通过概率计算,对总体进行推断,通常是根据样本特征去推断总体特征,检验模型的假设。现在,大数据的统计分析过程变成了以实际分布为基础,直接根据总体的特征进行概率的判断,大数据所处理的对象几乎就是总体数据,不强调根据分布理论进行推断。这里需要说明的是学习大数据的分析方法,不是否定现有统计教材的基本架构,教科书上的基本统计方法仍然是每一个学生必须掌握的内容。
此外,在大数据时代,得益于计算机和网络技术的突破,大量的生物医学数据能够得到及时的储存和分析。然而,海量信息避免不了数据点的不精确性,这就要求我们在处理数据时,一方面要有容错思维,即面对大数据时,不再追求绝对的精准性,适当忽略微观层面上的精确度,容许一定程度的错误与混杂[3];另一方面,要具备足够的数据清洗能力,有效筛选目标数据,获得精准的统计分析结果,挖掘出大数据的正真价值[9]。
统计学是门工具学科,除了生物统计学相关专业的学生外,医学生学习统计学的目的主要是应用。因此,医学统计学教学要围绕满足应用这个主题来进行。怎样在大数据时代背景下培养出适应医学教学研究需求的医学生?怎样把当下流行的大数据理念和处理技术与传统的医学统计学课程教学有机的结合?如何以培养学生对高维医学数据处理与分析的认识,兴趣和能力?这些都是我们在医学统计学课程教学中不得不思考的问题。为适应大数据时代的客观要求,笔者对大数据背景下的教学改革的思考提出以下几点想法。
(一)以鲜活的案例为基础,开展案例教学
当前,绝大多数高校的教学一直采用传统的教学模式,即教师围绕学生,针对书本知识进行教学,这种教学模式存在以下三方面问题:(1)课堂教学以理论授课为主,书本知识体系更新较慢,学生兴趣不高;(2)教学内容与实践结合不紧密,课程学习结束后,学生分析数据的能力仍然薄弱;(3)学生的创新能力没有得到培养[6]。这种传统的教学模式,显然与大数据背景下的教学要求不相适应。在生物医学研究领域,有许多大数据的实际数据和案例,也有现成的软件程序,借助鲜活的案例,不仅能够调动学生的积极性和参与热情,更能够让学生在案例中体会理解大数据的意义。
如在肿瘤基因组图谱计划(TCGA)的数据库中,有近40余种癌症的数据,这些数据包括全基因组约2万个基因的表达数据和临床数据,利用这样一个变量类型相对单一的数据,展示R软件glmnet包中lasso算法的应用,必然引起学生的兴趣,不仅掌握的软件算法有应用,而且对于大数据的处理分析也有了直观的认识和理解。这样的鲜活案例,不仅有助于讲解大数据的数据清理过程,软件算法的含义,而且会激发学生不断探索求新创新的热情。以案例为中心的大数据教学,不只是纯粹的理论宣导,而是强化大数据分析全过程的训练。
(二)以项目式为抓手,开展大数据分析训练
传统的教学方法以老师讲授为主,学生记背,兼有少量练习。这种模式在现代信息高度发达的社会环境显然不能够吸引学生主动参与学习的兴趣和热情。项目教学法就是教学改革的方向之一,项目教学法不仅有利于培养学生的综合才能,而且能够培养学生团队合作的精神[12]。大数据的整合分析常常不是一个人能够独立完成,更多时候需要计算机技术,统计技术,甚至图像文本识别技术等多学科技术人员同理合作才能完成。以项目为抓手,在老师的指导下,将一个相对独立的大数据分析项目交由学生自行组织的团队,学生自行讨论信息的收集、方案的设计、项目实施及最终评价。学生通过该项目的进行,了解并把握大数据分析的整个过程,了解大数据产生,数据的清理,模型的应用,研究设计的制定,软件编程,报告的编写等诸多方面。
项目教学法最显著的特点是以项目为主线、教师为引导、学生为主体。注重理论与实践相结合,注重多学科领域知识的整合,在项目式教学的过程中,学生通过各种途经方法获取信息和知识,学生是被允许、甚至是被期待去犯错误,让学生自由探索大数据的奥秘,由此,他们变成了主动的学习者,并且得以培养团队技能。项目教学法的开展,需要完善的课程计划、足够的灵活度和一个可以开展团队协作,数据资源共享利用的环境[13]。
(三)创新实践教学模式,加强实践教学的开展
计算机和网络技术迅速发展,在处理数据的时候,根据数据的特征创造出新的计算方法来满足实际需要。当前的实践教学需要从传统的假设驱动下的实践教学转变到数据驱动下的实践教学,构造以课堂案例教学和课后项目式训练为主,校外实习和网络学习并重的全面创新型实践教学模式。在实践教学的过程中,要强调统计学工具、计算机编程以及统计分析软件的结合。目前,以R软件为代表开源统计软件显示了强大的大数据分析能力,特别是其中有关高维大数据的部分,填补了其他软件的不足。在实践教学过程中,将计算机软件的应用与课堂的理论教学有机结合,项目式训练和实习实践可以带动学生了解和掌握整个大数据分析流程,激发学生学习的兴趣,增强学生对大数据的理解,逐渐培养学生大数据观。
实践教学的关键环节是加强和规范统计软件应用,强化统计计算。在教学上能够让学生熟练掌握一款统计软件的程序语言并进行编程操作,那么学生在实践当中就能得心应手地进行数据的整理和分析。R软件是免费软件,统计建模和统计计算功能强大,也是最新统计计算方法发布的主要平台,非常有利于培养学生的编程能力和知识更新能力。当然,实践教学中也可以使用其他专业统计软件,如Stata等。但总而言之,基于非编程的统计软件,进行统计方法讲授的时代应该结束。
回顾医学统计学的发展历史可以发现,从小样本的t检验,到多元分析,医学统计学的发展史实际上都是以实际需求为驱动,伴随着需求和数据的改变逐步向前发展。在现今大数据时代的背景下,医学统计学的发展以生命科研相关的数据信息为核心,无疑这对统计学这门工具学科产生了大量的需求。近年来,大数据所具有的数据特征使得部分传统统计方法不再适用,迫切需要针对大数据的特征,以服务和满足各领域需求为目标,不断创新和发展数据分析方法与理论[13]。
[1]朱建平,李秋雅.大数据对大学教学的影响[J].中国大学教学,2014(9):41-44.
[2]郭晓科.大数据[M].北京:清华大学出版社,2013
[3]和志英.大数据时代对统计学的影响[J].商务必读,2016(10):153-154.
[4]邱东.大数据时代对统计学的挑战[J].统计研究,2014(1):16-22.
[5]李金昌.大数据与统计新思维[J].统计研究,2014(1):10-15.
[6]陈秀芬.大数据时代下统计学课程教学改革的思考[J].高教学刊,2015(20):106-107.
[7]王想.大数据对统计学本科专业课程设置的影响分析[J].高教学刊,2016(5):199-202.
[8]耿直.大数据时代统计学面临的机遇与挑战[J].统计研究,2014(1):5-9.
[9]朱建平,张悦涵.大数据时代对传统统计学变革的思考[J].统计研究,2016(2):3-9.
[10]薛艳.大数据时代统计学专业教学体系的改革[J].教育教学论坛,2015(4):110-111.
[11]马双鸽,刘蒙阕,周峙利,等.大数据时代统计学发展的若干问题[J].统计研究,2017(1):5-11.
[12]宗亚妹,李建启.系列化项目教学的研究与实践[J].中国大学教学,2013(11):44-46.
[13]林江湧,魏农建,段明明.项目教学:应用型教学模式的选择[J].中国大学教学,2010(10):33-35.
Thinking on Medical Statistics Teaching under the Background of Big Data
TANG Zai-xiang
(School of Public Health,Medical College,Suzhou University,Suzhou 215006,China)
Under the background of big data,the development of medical statistics takes life scientific research related data as the core,which no doubt causes a lot of demand in the statistical discipline.In recent years,the characteristics of the big data makes some traditional statistical methods no longer applicable,and there is urgent need for innovation and development of data analysis methods to aim to serve and meet requirements of different fields according to the characteristics of big data.In the process of teaching of medical statistics,the urgent need for the application of this new method of statistical techniques in teaching practice may make students quickly adapt to life science.
big data;medical statistics;statistical methods
G642.4
A
1009-4318(2017)03-0069-05
2017-06-30
国家自然科学基金资助(81573253;81773541)
汤在祥(1981-),男,江苏扬州人,苏州大学医学部公共卫生学院副教授,博士,主要从事生物统计学方面的研究。