烟草学术论文的统计学表达与展示

2013-01-26 02:46杨锦忠宋希云
中国烟草学报 2013年4期
关键词:曲线图表格图表

杨锦忠,宋希云

青岛农业大学/山东省旱作农业技术重点实验室,青岛 266109

生物统计学作为一种研究工具,在烟草学中有着不可或缺的作用,体现在数据的收集、整理和分析、结果展示等各个方面。学术论文是研究人员开展学术交流的主要形式,恰如其分地表达与展示统计学内容,有助于提升文章档次、提高交流效率、扩大学术影响力。一般而言,烟草学术论文应该在方法和结果这两个部分,围绕研究主题,给读者提供系统的、全面的、恰当的统计学信息,同时还要避免容易引起误解的统计学信息。根据作者多年从事生物统计学教学和咨询的经验,本文对烟草学术论文中的统计学表达与展示问题进行剖析,分别阐述在学术论文中方法和结果部分的统计学功能、撰写技巧和注意事项,权作抛砖引玉。限于篇幅,本文不介绍应用计算机软件绘制统计图表的内容,读者可以参照电子表格软件或数据绘图软件的专门文献了解有关的详细内容。

1 全面披露数据获取与采集的统计学信息

如果我们把一篇试验研究论文所展示的研究成果抽象为数据流,则链条如下:提出数据的获取方法(试验计划与设计)→收集数据(试验组织与实施)→加工数据(试验结果整理与分析)→编制图表(试验成果的展示)→归纳与推论(试验结论)。在一篇学术论文中,材料与方法部分的主要功能就是提供具有说服力的信息,从统计学角度向读者展示足够的试验设计与统计分析细节,让同行觉得研究收集到的试验数据是可靠的、充分的和有效的,采用的统计方法是恰当的。而且,对于文章提出的一些重大科学发现,同行能够根据作者提供的试验细节开展验证性研究。反之,由于重要的方法信息不完整,可能导致同行的验证出现相左的结论,甚至因此蒙羞学术造假之嫌。国内学术论文一般特别重视结果与结论,却不重视材料与方法部分。这既不符合国际惯例,也不符合学术交流之道,不利于学术进步。为此,我们要首先从学术刊物做起,从现在开始,在作者指南、编辑和审稿人员组成等诸方面重申材料与方法的统计学要求,建立更加完善的学术论文规范,尽快提升学术交流水平,尽早实现国际一流刊物的目标。建议每篇稿件应该有一人专门负责统计学审稿,至少要做到重要论文有专门统计学审稿人。

1.1 试验设计与实施中的统计学表达

试验设计与实施的统计学目标主要有两个,一是创造处理间公平比较的条件,二是千方百计降低误差对处理间比较的干扰。因此,这部分的统计学内容主要包括研究所采用的试验设计类型、小区规格与田间排列以及其它控制试验误差、抽样误差和测定误差的方法。试验小区的大小与形状,试验设计类型(即处理的随机化方法,如完全随机设计、随机完全区组设计、拉丁方设计和裂区设计等等),是必不可少的统计学信息。

根据测定项目不同,要说明处理重复次数(小区数目)、植株(器官或者组织)的抽样次数、仪器的测定次数。以烟草田间试验为例,一项研究的数据采集工作主要包括下面几种情况。基于试验小区的观测,如烟叶产量;基于小区植株的观测,如株高,这属于小区内抽样;基于器官或者组织的理化特性观测,如烟叶品质性状和SPAD,这也属于小区内抽样甚至次级抽样。对于SPAD仪读数,直接使用1次测定结果,还是使用5次测定的均值,在结果的精确度上有极大差别。至于测定程序与方法,如果来自文献,直接引用即可,若有个别调整,也应该作出说明;如果是原创方法,则应该详细说明,当然需要保密的专利技术例外。

还要说明为了控制各类误差采取了什么措施。对于研究的重要测定项目,应该从烟草学专业知识角度出发,认真分析影响测定指标值的内外影响因素,找出在试验条件下影响测定值的主要因素,分门别类地加以控制,以达到处理间公平比较的效果。

1.2 数据分析方法中的统计学表达

陈述试验结果的统计分析方法及统计软件名称等,并提供方法和软件出处(即参考文献)。对于简单的、同行都熟悉的数据分析方法,只要说明采用何种统计分析方法及相应计算机统计软件名称即可。对哪些测定项目分析之前采用了何种数据转换方法也要加以说明,以免信息不全引起读者误解。如果文章提出某种新颖的分析方法,或者首次引进了其它领域的统计方法,那么,应该详细介绍其基本原理,以便于同行借鉴。

对于试验设计复杂或者数据结构复杂的研究,由于可以采用不同的模型和方法进行分析,所以要提供更详细的内容。如二因素试验结果的方差分析,还必须提供效应模型类别(固定效应模型、随机效应模型和混合效应模型)。又如回归分析,同样一批数据拟合同样一种回归方程,由于参数估计方法不同,会得到不同的方程系数。因此,必须说明参数估计的方法,并给出理由。有时候,需要根据初步分析结果进行二次分析,文章结果部分只列出最后分析结果,这点就必须在方法部分交待清楚。

尽管现在计算手段先进,统计软件普及,但是难免会鱼目混珠,有些软件自身就有错误。因此,国际上有些严谨的杂志甚至要求使用指定的统计软件进行数据分析。

2 统计图表是展示研究结果的主要形式

文章的目标就是将研究新发现以读者容易理解的形式展示出来。统计图表就起着文字无法代替的重要作用,它们能够概括数据的主要内容,易于比较分析,免除繁琐文字叙述,达到简明扼要、一目了然地展示试验因素、试验环境、试验指标及其相互关系的目的,从而缩短了与读者的距离,提高了信息传递的效率。应当注意,图或表的编制与应用不当,还会造成错觉和错误结论。下面重点对烟草学试验研究中最常用的数据分析技术——平均数比较结果之展示,提供有关图表的类型选择、内容编排、格式要求等方面的指南,以发挥统计图表在信息交流中的重要作用。

2.1 统计图表的常见类型与结构规范

(1)表格。统计表一般包括表序号、表名称、行标目与列标目、表体、附注等部分。表的基本结构是“三线式”。第一条横线将序号及名称与列标目分隔,第二条横线将列标目与行标目及表体分隔,第三条横线封闭表格,并与附注分隔。

(2)曲线图。曲线图一般包括图序号、图名称、纵横坐标轴、数据点标记、数据点连线、图例及附注等部分。其坐标轴通常由轴名称及单位、轴线、刻度线、刻度数量等要素组成。横轴为试验因素,纵轴为试验指标,一个轴的刻度线与与其刻度数量成同一比例。

(3)柱图及饼图。柱图一般包括图序号、图名称、纵横坐标轴、数据柱、图例及附注等。纵轴为试验指标,与曲线图一样,由轴名称及单位、轴线、刻度线、刻度数量等要素组成。横轴为定量试验因素时,其组成要素类似于纵轴;为定性因素时,则包括轴名称、轴线、数据柱名称等要素。

2.2 使用恰当的图表类型

选用图表类型时要考虑以下几方面:数据信息类型及其量的大小、读者群、图表的功能特性等。烟草学研究中有两种基本数据信息类型,第一类是试验材料及试验环境方面的信息。对于定性指标,列表展示是常见形式。对于时间系列指标,曲线图、柱图或两者组合最常用。

第二类是有关数据分析结果方面的信息。此类信息的展示形式应综合考虑供试处理,试验指标,以及采用的统计分析方法。表格是展示研究结果时最常用的形式。实践中,不适宜用图总结的任何类型的数据,都可以采用表格展示。曲线图适于表示两个变量的关系。柱图通常适宜用于定性数据。饼图通常用于反映某事物整体的构成成份在相对量值上的巨大差异。

以信息交流为目的时,首选图形,然后才是表格;有条件时首选彩色图形,然后用灰度图表,最后用黑白二值图;电子图表还应该适当应用动画效果。

2.3 图表的编制要求

(1)关联性。图表的内容必须与正文中说明、分析或论述的主题相呼应,为正文的主题思想服务。图表内容不应包括正文中未论及的项目,图表中的缩略词与符号,必须与正文保持一致。图表组成成份的取舍与详略,应与其读者群相适应,简化图表以提高易读性。

(2)自明性。只看图表名称、图表结构与内容,不阅读正文,就可以理解图意或表意。例如:图表标题“不同接种数目的病蚜、死蚜动态变化” 显然优于“各处理病蚜、死蚜动态变化”。图表中处理代码“T0、T1、T2、T3、T4”表示5种接蚜数目远逊于“0、1、3、6、9”。图表应全面反映事物的特征与规律性,防止引起错觉。分析结果必须展示统计显著性的内容。无论图形还是表格,都必须注明数据的量纲与单位,小数的保留位数应该与其精确度一致,过多会分散读者的注意力。

(3)突出性。图表中有关内容的排列方式与相对位置,要突出正文中强调的比较、差异与对比。紧邻的两个事物之差异容易引起读者注意,故正文强调的内容应在图表中出现于相邻位置,或行、或列、或线、或柱。

(4)规范性。图表的内容、结构与格式,应该符合通行的一般要求。对于统计推断的结果,除展示描述统计的结果外,展示显著性检验的结果也是必不可少的,而且是更重要的。在展示平均数的同时,还要展示标准差。数据的量纲与单位及符号表示应该符合相关的国家标准或者行业标准。小数的保留位数应该与试验实际达到的精确度相当。一篇论文中的全部图表在结构与格式方面应该保持一致,投往刊物时应该特别注意目标刊物的特殊要求。投稿时,应该首先了解刊物对稿件图表的格式要求。

3 单因素试验的图表编制

在单因素试验中,处理平均数间的比较有两种基本的类型:一是非定量处理的多重比较,二是定量处理的趋势比较。

(1)非定量处理的表格。处理既可以按平均数大小排序,也可以按自然次序,视正文意图而定;检验临界值一般位于表格最后一行,且与处理平均数保留相同位数的小数,具体小数位数按检验临界值大小而定,既要防止出现差异显著的两个处理均值却相同的现象,也要防止差异不显著的两个处理却有过多小数位数。采用字母标记法表示多重比较结果时,请注明显著水平。若全部处理间无差异,则不再标注字母,代之以表注。

(2)非定量处理的柱图。将表示差异显著性的字母标记放在每一处理柱之顶。Y坐标轴刻度总是从零开始,以保证柱的绝对高度和相对高度能够准确反映处理平均数以及处理间差异的大小。当采用LSD或Tukey固定极差法时,还可以将检验的临界值按坐标纵轴的刻度等比例绘制于图中醒目位置。柱的次序随正文的主题和处理类型而定。若处理存在自然组别,柱可以分组展示,否则,可以按递增或者递减顺序排列。避免出现以下几种情形:柱顶标注柱高度值、用线条连接相邻柱、Y轴中间截空。

(3)定量处理的曲线图。只要处理数目不低于3,曲线图就是最适宜的表达形式。因为它能够反映人们对响应值的兴趣,不只局限于参加试验的具体处理,而是这些处理所代表的整个变化区间。一般Y轴做响应轴,X轴做处理水平轴,要精心选择X轴和Y轴的刻度与比例,以避免图形失真。不象柱图,Y轴没有必要总是从零开始,但要特别谨慎,防止读者误把不显著的差异当作显著。只要可能就做回归分析,应该以点表示处理均值,以曲线表示回归方程,并在适当位置标注方程、显著性和决定系数。否则,只需将相邻点用直线相连,并图示显著性检验结果就行了。

4 多因素试验的图表编制

多因素试验的平均数比较,其图表编制比较复杂,应当注意以下几个方面:第一,互作。当试验因素之间的互作显著而且较大时,图表应当突出互作的特征及大小。这可以通过建立一个多维图或一个多维(向)表来实现。第二,试验因素的类型。都是定性因素,则宜用表格或柱图,当至少有一个定量因素时,宜用曲线图。第三,试验因素的数目。分析结果展示的复杂性随试验因素个数增加而增加。当试验因素数目(m)不超过3时,一般采用m维表格或m维图。超过3时,只有存在互作的试验因素才应该出现在同一个表格或同一个图中。

4.1 表格

全部试验因素都是定性因素,则宜用双向交叉式结构的表格。避免用单向巢式结构的表格展示多因素试验数据,原因是这种格式无法直接反映试验因素之间互作。

如果试验因素数超过3,那么,把与其它因素无互作的因素各水平分列单独的表格,而把互作显著的因素放在同一个表中。

当有一个以上同级互作显著时,那么,或者为每个互作单独构造一个表,或者构造比之多一维的表,容纳全部互作因素。例如,如果A×B与A×C互作均显著,要么构造两个两向表,即A×B和A×C,要么构造一个A×B×C三向表。

对于只有两个水平的试验因素,应将水平间差异列在平均数右侧或者下方,或者取代平均数位置。

因分析目标不同,二因素试验的平均数比较可能侧重于全部处理间、或者A水平间、或者B水平间。采用字母标记法表示结果时,应在表注中加以说明。

4.2 柱图

在多因素试验中,若全部因素是定性的,则柱图与表格一样有效。除在上节单因素试验的有关要点外,还要注意对试验因素及其水平作出正确排列和分组。一是突出重要试验因素,二是突出互作的特点。若强调A因素的效应,则应该把A水平彼此相邻排列,而把B因素作为分组依据。反之亦然。

当因素之一多于两个水平时,因素内水平的排列次序是否正确的问题更加突出。此时,应遵循以下原则:(1)若因素水平有内在的次序(如生育时期),就依此自然排列。(2)根据另一因素(即分组因素)的某一水平,通常是第一水平上的大小依次排列。(3)若重要因素只有两个水平,则分组因素可以按水平间差异大小排列。无论使用哪一种排列次序,同一排列次序必须在整幅图内保持一致,即在另一因素全部水平上的次序应始终如一。

4.3 曲线图

当多因素试验中至少有一个因素是定量时,就应考虑采用曲线图。前述单因素试验的绘图原则及要点同样适用于多因素试验。此外,还应遵循如下原则:(1)对于一个A为定量因素、B为定性因素的A×B试验,以定量因素A作X轴,以响应变量即测定指标作Y轴,分别定性因素B的每一水平单独连线。(2)若A×B试验中两个因素均为定量因素,则应将其中一个按定性对待,然后依原则1绘图。按定性因素对待的因素,一般是次要且水平数较少的因素,或者是它与作物响应的函数关系不太明确的因素。(3)对于只有一个定量因素A的A×B×C三因素试验,可以把B×C组合作为定性因素的水平,然后依原则1绘图。另外,采用适当的线型变化,以清楚地区分B与C因素。若有必要,当因素数目大于2时,可以绘制多个坐标图。以某因素的每一水平作一个图,这个因素通常具有如此特征:要么它的主效并非根本所在,要么它的主效很大。

5 系列数据的图表编制

系列数据主要包括时间序列和多指标数据两种类型。时间序列又包括:(1)发展速度数据。(2)生育期数据。(3)发生时期数据。多指标数据是指除作物产量这类通常最重要的性状外,其它性状,诸如株高、成熟期、虫害、土壤肥力、以及天气状况等,一般也进行测量,要么用来研究它们对处理的响应,要么用来研究它们对产量的作用。

5.1 时间序列

对时间系列数据进行联合分析的意义,是在于评价处理与观测时间之间的互作。图表编制要突出这一点。通常,观测时间当作一个试验因素看待。因此,对于单因素试验,时间系列数据的展示如同两因素试验;对于两因素试验,则如同3因素试验;如此等等。这样,上一节介绍的多因素试验图表编制的原则可以直接应用。此外,还应掌握以下原则:

(1)若观测时间是定量的,则适宜使用曲线图。通常把观测时间作为X轴,以便于反映性状的时间趋势,以及它们受处理影响的程度。

(2)若观测时间是定性的,则可以采用表格,或者柱图。

5.2 多指标数据

表格可以用于多个性状,多个测量单位,所以成为多指标数据最常见的展示方法。一旦确定一个性状的最佳表格格式,其它性状就可以或作为行,或作为列添入表中,此方法无论单或多因素试验都适用。

采用图形展示多指标数据时,通常使用独立的柱图或曲线图,一个指标一个图。不过,下列情况下可以用一个图展示多个指标:(1)不同测量单位的两个指标分别绘制左右两个纵轴。(2)具有可加性的多指标数据,比如,植株各部分的干物质或者不同种类杂草量。(3)有相同测量单位的多指标数据。

不论采用何种图表,所展示的多指标之平均数比较应采用相同的检验方法。

只展示必要的数据指标。若只讨论处理的产量响应,则只展示产量数据,不必展示正文中未进行分析的产量构成或其它农艺性状;避免展示处理效应不显著的指标。

6 小结

烟草学术论文的统计学信息不可或缺,在材料与方法部分全面披露数据获取与采集的统计学信息,在结果与分析部分充分发挥图表的统计表现力,具有增强文章说服力,增加可读性,加深印象,提高交流效率等诸多功能。

图表制作必须坚持关联性、自明性、突出性和规范性的原则。当在图表中表示统计分析的结果时,至少包括均值、回归方程、标准差等描述统计信息,还有检验方法、字母标记、概率水平等推断统计信息,以及附注样本量或数据转换方法。

[1]郭平毅,杨锦忠,陈茂学.生物统计学[M].北京:中国林业出版社,2006.

[2]GALBRAITH J,STONE M.The abuse of regression in the National Health Service allocation formulae: Response to the Department of Health's 2007 'resource allocation research paper [J].Journal of the Royal Statistical Society:Series A (Statistics in Society) 2011, 174 (3): 517-528.

[3]STONE M. Failing to Figure: Whitehall’s Costly Neglect of Statistical Reasoning [M], London: Civitas, 2009.

[4]ERCAN I, YAZICI B, YANG Y, et al.Misusage of Statistics in Medical Researches [J].European Journal of General Medicine, 2007, 4 (3):127-133.

[5]DODHIA R.Misuse of Statistics [EB/OL].(2007-10-15)[2012-10-24].http://www.ravenanalytics.com/articles.php

[6]GELMAN A, PASARICA C, and DODHIA R.Let’s Practice What We Preach: Turning Tables into Graphs [J].The American Statistician, 2002, 56(2): 121-130.

[7]NELSON L A and RAWLINGS J O.Ten common misuses of statistics in agronomic research and reporting [J].Journal of Agronomy, 1983, 12: 100-105.

猜你喜欢
曲线图表格图表
《现代临床医学》来稿表格要求
秦皇岛煤价周曲线图
秦皇岛煤价周曲线图
秦皇岛煤价周曲线图
秦皇岛煤价周曲线图
统计表格的要求
履历表格这样填
表格图的妙用
双周图表
双周图表