广西民族师范学院化学与生物工程学院 汪国海
随着经济社会的快速发展,生物学实验数据的收集方法更趋向于综合化和复杂化,致使获得的实验数据信息呈现爆发式增长并不断积累,对深度挖掘实验数据的软件和数据可视化的需求越来越高。将R 语言应用于生物统计图形的可视化中,既能满足学生对数据可视化分析的需求,又能提高学生对实验数据动态变化的理解和课程兴趣。
生物统计学是一门理论知识丰富且实践性很强的课程,其主要以概率论、线性代数为基础推断并解释生物学现象,该课程的开设有利于培养学生分析和解决实际生物学问题的能力,为后期数据分析和科研能力的提升打下坚实的基础[1]。但由于生物统计学课程公式推导复杂,对学生的数学基础要求高,易使学生缺少兴趣[2];同时随着大数据技术的快速发展,实验数据的类型和收集方法更倾向于综合化和复杂化,对数据挖掘的深度和图形可视化的要求越来越高,需要不断的引入新的数据分析软件才能全面综合的反映出实验数据的动态变化。
R 语言是一个能兼容多种类型的数据格式并具备交互式的数据分析能力的开源软件[3],尤其是强大的扩展能力和丰富的功能选项,使其能独立完成不同类型的生物统计数据分析和可视化过程,降低了不同软件间的频繁切换程度[4]。ggplot2 是R 语言中最为强大的作图程序包,其核心理念是将绘图与数据分离,数据相关的绘图与数据无关的绘图分离,是按图层作图,同时它保有命令式作图的调整函数,使其更具灵活性,绘制出来的图形美观,同时避免繁琐细节,从而使数据分析者更能将注意力集中于数据分析本身[5]。本文通过使用R 语言中的ggplot2 程序包实现生物统计学常见图形的可视化过程,并附上相关的代码以便为生物统计学的课程发展与改革提供参考。
条形图由一组宽度相同,高度与频数成比例的长方形组成,表示研究对象数据的大小,如图1 所示。
图1 啮齿动物对不同微生境中种子的搬运率Fig.1 .Seed transport rates of rodents in different microhabitats
代码如下:
散点图是指在回归分析中将两组数据构成的多个坐标点标记在直角坐标系中,可以用来描述2 个连续型变量间的关系即因变量与自变量的变化关系,并对数据点进行拟合,如图2 所示。
图2 单性木兰幼苗密度与岩石裸露率间的关系Fig.2 Relationship between seedling density and rock exposure
代码如下:
小提琴图用于展示多组数据的分布状态及概率密度,因其形状酷似小提琴而得名,是优于箱线图的一种统计图形。它结合了箱线图与密度图的特征,是核密度图以镜像的方式在箱线图上的叠加,图中的白点代表中位数,黑色的竖条状为数据的下四分位点到上四分位点,两侧的细黑线代表95%置信区间,外部曲线形状为核密度估计,如图3 所示。
图3 不同处理下种子续存变化Fig.3 Changes of seed survival under different treatments
代码如下:
面积图显示每个数值所占大小随类别变化的趋势,可显示部分与整体的关系。使用面积图可以分析不同年份间果实数量的分布情况进而了解植物的物候变化及其种群发展潜能,如图4 所示。
图4 不同年份间植物果实数量变化Fig.4 Changes of fruit quantity in different years
代码如下:
4.ggplot(cd,aes(x=Year,y=Sea))+geom_area(colou r="black",fill="blue",alpha=0.2)#绘制基础图形并设置相应的参数
二维密度图显示了两个数值变量之间的关系,一个在x 轴上表示,另一个在Y 轴上表示,与散点图类似,然后计算二维空间中特定区域内的观测数,并用颜色梯度表示,如图5 所示。
图5 单性木兰空间分布图Fig.5 Spatial distribution of monosexual magnolias
代码如下:
使用R 语言可对类别型变量和连续型变量进行深度分析的同时绘制出精美的图形,一直是科研工作者追求的目标。美观且实用的可视化图形含有大量的信息,在提高科研工作效率的同时还能不断丰富作图代码。但在生物统计学课程中使用R 语言进行教学时,还需要考虑学生的前期基础和个人的思维习惯,不断因材施教提高学生对R 语言可视化图形代码的理解和实际应用能力。
引用
[1] 童婷,刘春燕,谢文华,等.生物统计学混合教学模式的探索与实践[J].科技文汇,2021,29:62-64.
[2] 关天霞,张有富,张芬琴.“生物统计学”课堂教学和考核体系改革的探索[J].教育教学论坛,2021(19):89-92.
[3] 张哲,张豪.浅谈R语言在生物统计学教学中的应用[J].教育教学论坛,2013(27): 54-55.
[4] 张智杰,牛青山.R语言在法庭科学DNA检验中的应用现状[J].中国法医学杂志,2021,36(6):637-637+645.
[5] 袁佳.R语言及ggplot2在环境空气监测数据可视化中的应用[J].中国高新技术企业,2015(16):88-91.