向世清,博士,中国科学院上海光学精密机械研究所研究员。长期从事激光物理与工程技术的前沿研发,是参与产业经济战略与决策咨询.基础教育改革咨询、科技创新中心发展战略设计等多领域战略专家,也是上海市最为活跃的科技创新教育专家之一。
在第七步的讲述中,我们已较完整地给出了研究和探究的方法论及关键原则。但因其中需要涉及到很多准确规范的科学方法和技术,所以这一讲我们专门就其中的实验设计和数据方法这两大关键给予展开讨论。毕竟,随意实验、无规测试和数据胡乱处理都无助于获得真正的结果和规律,做了也等于白做,所以必须科学化、规范化,也就必须进行专门的学习。对于STEM中的学生而言,这两大关键直接决定了研究和探究的高度、深度与质量水平,十分重要。作为STEM教师或导师,这更是基本功,就像一个科研人员必须具备的一样,不会就无法成为合格的人员(提请STEM教师或导师予以特别注意和重视)。
在我国,往往要到大学甚至研究生后,部分学校才给出一些研究相关的教学(如清华大学的本科课程);但在国外很多地方,都有更为专门的课程,例如“实验设计与数据处理”,一般大学都开设,很多中学课程甚至连小学科学课程中也有相应的初步内容。相比之下,我国在这一方面有着较大的差距。这也可能是形成我国学生科学素养相对不足、科研人员基本功不足从而平均科研水平较低的核心原因之一。
严格意义上,实验设计(有时也称试验设计)与数据处理是一个理论上基于概率论、数理统计及线性代数等,通过设计实现优化、科学、经济的实验(试验)安排和结果分析处理的专门科学技术和研究方法,考虑如何合理安排实验(试验)和科学地分析处理实验(试验)结果,以达到研究和探究中的实际问题的更好解决。它同时还要求设计者具有丰富的实践经验,所以它本身是一个内容丰富的专业课程,并需要较多的历练才能提高。这里仅给出相关的一个言简意赅的描述,主要是使大家建立必要的基本方法和思路(深入的学习,大家可查阅相应文献和书籍)。
(1)实验设计对所要进行的研究目标通过实验验证效果或探索规律,这就需要对实验进行合理安排。科学合理的实验安排应做到以下3点:实验次数和测试量尽可能少但却更有效;便于分析和处理实验数据;通过分析能得到满意的实验结论。最后一点最重要,因为这是最终目的。从本原上说,实验设计的目的是为了获得实验参数条件与实验结果之间规律性的认识。良好的实验设计都要经过3个阶段,即方案设计、实验实施和结果分析。
(i)方案设计阶段这一阶段最为重要。在确定的研究目标下,首先要考虑什么样的实验目标才能达成研究目标(实验目标是为研究目标服务的,一般情况下二者吻合,但有时后者是大于前者的),包括实验什么、想得到什么结果。因此这里首先要明确实验目的,然后分析实验目标(即“什么”),弄清楚所研究的对象会形成怎样的可能变化、效果和结果(即“什么结果”),明确采用什么样的指标描述(即用什么特征参数描述“什么”和“结果”)。这些指标叫作结果指标,又叫结果特征参量,通常我们称之为因变量。明确因变量至关重要,因变量明确后,就可通过实验得到其变化的特征或规律,也就决定了实验方案的主线条。
然后,就需要分析这些因变量在过程中受到哪些因素影响,以及这些因素怎样变化、变化的范围和水平怎样。这些因素就是影响结果的变量参数,通常叫作自变量。自变量既可能是一个或单个,也可能是多个。在多个的情况下,还分主要的和次要的。每一个自变量都以自身的规律方式影响因变量,特别其可能变化的范围(例如探究沸点最好选定自变量在沸点附近的变化范围)与变化的递变方式(如递增)对于确定实验设计十分关键。因此,通常我们在实验设计中就不仅需要确定对什么自变量进行实验,还要优化选定在什么样的范围和什么样的递变方式下对自变量进行考察(学生实验中,往往只知道对什么自变量进行考察,但对于变化怎样考察更好显得不够重视,所以实验结果往往不够理想,或压根儿不能说明问题)。
很多研究中存在多个自变量的影响,这时就要考虑使用合理的自变量组合方式进行实验。最简单的方法是,先固定其他自变量(注意达成同比条件),对某个自变量进行其变化范围内的完整考察,然后逐个对各个自变量考察,最后综合分析总体的影响规律。但是,这样的过程需要很大工作量,且难以得到有效结果,需要更好的设计。通常的方法是选定主次影响的自变量,重点对主要自变量实验。如果更好些,则往往采用正交实验法(如表1案例)等或结合其他统计学方法设计(正交实验法非常重要,请大家多加学习)。另外,还有多因变量的问题,需要更复杂的设计和处理。当把这些全部考虑好了,再制订出合理的步骤和顺序过程,才算制订出了合理的实验方案(或计划)。
需要说明的是,实验设计往往适合于解决多因素、多指标的实验优化设计问题,特别是当一些指标之间相互矛盾时,实验设计可更好地明了因素与指标间的规律性,找出兼顾各指标的适宜的对系统寻优的方法。但是,对于STEM学生而言,即便是单变量实验也需要完成实验设计过程。建议大家首先让学生学会单变量实验设计,然后力所能及地推进掌握多变量实验的设计,然后考虑高阶的实验方式。单变量方式理解到位,就算是掌握了初步的研究方法和思维,也为多变量的复杂问题研究奠定了基础。
另外,实验设计还要根据具体条件和资源能力进行,这里不多阐述。我们只要做到尽量创造探索性和实现相對的完备性就好,而且,STEM实验往往是就地取材、因地制宜,兼顾成本可能和资源能力的。
(ii)实验实施阶段进行实验,获得可靠的实验数据。一般只要实验设计合理,这一阶段就能从影响实验结果因变量指标的多种因素(自变量)中,判断出哪些因素显著和不显著,并能对因变量所能达到的指标值及波动范围给以定量的估计,或实验出结果可靠否、最佳值得到了没有等。然后也就可能分析出其中的规律性内容(例如获得数学模型或规律定理、结果最优性、可靠性等)。在实验过程中,要经常对结果数据的有效性进行判断和分析,并依据实验目标看看是否还欠缺什么数据,或者必要时进行自变量改变变化范围或递进量的改变实验,或者进行必要的重复性实验。
(iii)结果分析阶段采用多种方法对测得数据进行科学分析,从实验结果反过来分析和判断实验结论,然后推论到研究结果和结论的过程。这也是研究和探究本身是否达到了目的的总结过程,其中关键的是数据分析。
(2)数据分析当通过实验获得了一系列数据时,关键的就是从数据中找到和判断出规律或者有效性。必须强调,数据处理的本质不是对实验数据本身怎么样,而是从数据中通过各种统计学计算或处理得出因变量的规律、趋势、特征值或者最佳参数条件等。
一般地,实验数据要么是关于单自变量与因变量的一一对应关联变化的数据列,要么是关于多自变量与因变量的关联变化的数据矩阵,那么数据处理主要就是应用较为普遍的数理统计方法计算和分析数据的一些特征值,如特征值(最大值和最小值等)、平均值、偏差、递变趋势(如单调上升或下降)、极值趋近、概率数、总体变化规律(如正弦变化)等。这里还有方差、均方差、正态分布、数据的精确性与精度等高级一点的概念和分析可能。特别地,还有误差的问题(在此都不详细描述)。
通过数据分析结果,就能更好地归纳出因变量的变化规律,从而推理出研究对象本身所具有的现象或规律,或者证明所创制的样机是否达到设计要求、管用与否等。除了计算,我们往往还通过画图展现数据变化的趋势和规律,在其中还会用到数据拟合的方法(如二次曲线拟合)等,但也是为了更好实现数据分析的结果与显示,有利于更进一步分析和下结论,揭示研究对象与影响因素之间的内在关系。
最后,还要提请大家注意定性和定量实验的不同。定量实验更为关注数据的验证性,而定性实验更为关注现象的大致总体趋势和规律,更加注重判断性结论。正如有一句话所说: “大致看现象,精确看数据”。当然,实际中定性还是定量要看研究的总体情况。