基于R语言的医学院校生物信息学专业统计课程教学探索

2021-12-24 08:13段巍巍成佳雯吕飒丽

科技风 2021年33期

段巍巍成佳雯吕飒丽

关键词：R语言;统计学;生物信息学;教学

21世纪以来，随着生物医学研究技术的蓬勃发展，生物医学相关领域，包括临床医疗、公共卫生、生物学、环境监测等，产生的多层面数据出现井喷式增长。生物医学数据的分析离不开生物医学、计算机科学、数理统计学和信息科学等多个领域的交叉融合。而生物信息学（bioinfor-matics）就是在生物组学数据爆发增长的基础上应运而生的一门新兴交叉学科。它包含了对核酸（DNA、RNA）和蛋白质的序列和结构信息的获取、整理、存储、分析和解释等多方面内容，用以揭示生物体生理病理过程的分子机制，探索生命奥秘。生物信息学算法的开发为后续分析提供强大的技术支撑，而概率统計构成了大多数软件算法的理论基础。

统计学作为一门收集、整理、分析数据的一门科学，已经广泛应用到生物医学研究的各个领域，包括生物信息在内的生物医学相关专业的基础课程。以笔者所在专业为例，主要设置了概率论与数理统计、生物统计和多元统计三门课程，亦会在后续专业课中穿插讲解生物信息领域主流的统计学方法。然而，与其他医学基础课程不同的是，统计学教学过程中不可避免地涉及复杂的公式和抽象的定义，这成为针对医学院校学生的教学难点。针对这一共性问题，很多学者给出了一些解决方案，较为一致的观点就是充分利用统计学软件的数据模拟和图形可视化功能。本文将借助于R语言强大的数据模拟和绘图功能对统计教学支撑做了初步探讨，并给一些应用实例和建议。

一、R语言介绍

R语言是一种专门用于统计分析和作图的编程语言和软件环境。相较于其他权威商业化统计软件，如SAS、STATA、SPSS，R语言具有小巧、免费、开源、易扩展、功能强大、接口丰富和更新快等诸多优势，尤其是其强大的图形可视化功能让人津津乐道。不仅如此，R语言拥有丰富的帮助文档、强大学者交流社区资源，使得初学者更容易上手;此外R语言还可以直接调用c、c++或Fortran语言进行分析。这一系列优良的特点使得它不仅在科研领域里叱咤风云，近些年在国内外教学领域里也得到广泛的重视和应用。R语言中的统计教学常用模块包括：分布函数、统计函数、数据管理、统计作图和统计分析。然而现有R语言的上机教学主要倾向于统计方法在数据展示和分析中的应用（包括统计绘图、基本统计分析、回归、聚类分析等），较少讲解软件的统计模拟应用，而这一部分对于学生升入理解统计学的抽样理论大有裨益。

二、R语言和生物信息学

医学类院校的生物信息学专业培养的生物信息人才应具有坚实生物医学理论基础和扎实生物信息学分析技术，可快速服务于精准医学产业。而完成这样的目标必不可缺的就是计算机实践教学，其中R语言又是生信分析最主要的工具之一，它广泛应用于基因组、转录组、表观遗传组、蛋白质组、代谢组等各个组学数据的分析。例如，用ShortRead程序包对RNA-seq数据的序列质量进行评估，使用DESeq2包进行差异表达基因的筛选，使用clusterProfile包进行基因功能富集分析。还有针对肿瘤研究领域特定问题的R包，如基于转录组数据计算样本肿瘤纯度的Estimate包。此外，各生信相关R包还自带有丰富的可视化模块。

三、R语言辅助统计教学的探索和实践

当前统计学课程教学过程中依然存在诸多问题，其中一个典型问题是：与其他医学课程相比，统计学本身深奥的理论知识和抽象的概念增加了学生的学习难度，降低了学习兴趣。医学院校的统计教学通常对统计理论的推导不作要求，更多的是要求学生能够理解基本概念和相关理论并灵活运用统计方法。而充分利用统计软件进行教学辅助可以在很大程度上解决概念抽象化的问题，有助于培养学生的统计学思维。针对此，相关研究者提出开发模拟软件用以验证统计学的一些概念和抽象理论。此外，R语言中亦有辅助统计教学的R包，如TeachingDemos包、animation包。然而，这些封装好的软件或函数并不利于学生对统计概念或方法的深层次理解，不利于学生编程能力的培养。

该数据模拟步骤展示了统计量的随机属性，验证了中心极限定理的内容，对于学生难以区分的标准误和标准差概念亦有很好的说明。学生还可以自行更改样本量的大小来查看标准误与样本量的关系。相对于理论推导各种抽样分布，使用数据模拟的方式验证理论结果更容易让数学基础薄弱的同学们接受。上述代码可以封装成更为“专业”的自定义函数，但我们认为这不利于学生通过每一步代码来深刻理解抽样分布的概念。

实例2：可信区间的含义

参数的可信区间（置信区间）估计是总体参数估计的内容之一，表示按照一定的可信度（1-d）用一个区间来估计总体参数所在范围。以正态分布总体均数的95%可信区间估计为例，其计算公式比较简单。然而在学生学习过程中，真正的困难在于理解可信区间的含义。在算得某总体参数的95%可信区间，学生会误以为“有95%的总体参数在该区间内”或是“总体参数有95%的可能落在该区间”。在总体方差已知时，总体均数95%可信区间为由于x是随机变量，因此该区间是一个随机区间。当根据手头样本来计算可信区间时，此时的x就是确定的常数，该区间就变成了一个固定区间，其是否包含总体均数就不再是随机事件了。因此，95%这个可信度是针对于构建可信区间的方法而言的，而非针对某一个已估计出来的区间。可以通过R代码的方式来解释该概念：

从图中可以看出，基于100次重复抽样算得总体均数100个可信区间，有95个区间包含了总体均数0，还有5个不包含，即95%的可信度允许有5%的错误。而实例分析中基于手头随机样本算得的95%可信区间，就可以认为是图中100个区间的某一个，该区间要么包含总体均数要么不包含，二者必居其一，是确定性事件。学生就能清晰地认识到实例中算得的一个区间，其背后对应的是重复抽样的思想，而可信度是从整体角度评价方法的可靠程度。

四、结语

统计学课程本身的特点使得学生在学习过程中存在各种各样的困难，而如何让学生学好统计、对统计学感兴趣，还需要统计教育工作者不断探索和努力。在统计教学中引入专业的统计软件——R语言，借助于其强大的模拟和绘图功能，通过程序设计将统计中晦涩难懂的概念和方法程序化、可视化，从而促进学生的学习和理解，激发兴趣，同时也有助于提升学生的统计编程能力、解决实际问题的能力。正是由于R语言、统计学和生物信息学环环相扣的关系，在统计学课程中开展R语言上机实验课程不仅可以辅助于统计教学，也可以为后续生物信息学各专业课的学习打下实践操作基础。