马涵涛
(河南科技大学第一附属医院,河南 洛阳 471003)
实验计划法(DOE)是一种以方差分析为基础,利用概率论、数理统计和线性代数等基本统计理论及最少实验次数安排(直交表),科学地安排实验方案,正确地分析实验结果,尽快获得优化方案的一种数学方法。DOE包括一系列的统计技术,可用于统计和非统计数据,对复杂的关系进行统计和分析,以找出变异产生的根源,确定每个变量的作用和变量之间的相互影响。自Fisher 1958年发明该方法以来,在农学、工程技术等学科领域得到了广泛应用,20世纪70年代Sucker[1]和Leuenberger[2]率先将DOE应用于医药领域。传统的实验操作均以标准操作规程(SOP)为基准进行,DOE使用实验的方法来验证标准操作中参数产生的合理性,通过对实验参数进行筛选和优化,构建科学、高效的实验方法和技术路线,提高实验效率及精确度。
随着全球经济一体化格局的形成及信息技术的普遍应用,在世界范围内有效配置资源已成为可能,企业面临着日趋严峻的市场竞争。竞争的焦点从早期的降低劳动力成本,20世纪70年代的提高企业整体效率,以及20世纪80年代的全面满足以质量、价格、交货期与服务等方面要求为核心的竞争,转化为现在的新产品竞争。这是由于顾客越来越复杂多变的个性化需求,以及现代工业设计技术的快速发展导致的。工业设计是一种运用工程技术方法,在社会、经济和时间等因素约束范围内,根据市场需求从事的产品设计工作。根据国际公认的理解,工业设计是一种创造性行为,因此具有艺术性;而同时由于应用了大量的以数理统计为基础的设计控制技术,故又具有科学性。
20世纪80年代,由摩托罗拉公司首先提出了六西格玛管理法。1999年3月,由Steve Zinkgraf博士将六西格玛管理法运用于设计开发领域,并结合设计控制技术创立了六西格玛设计(DFSS)方法体系。该方法用关键质量特性(CTQ)准确定义与跟踪顾客需求,并将设计控制划分为定义(define)、测量(measure)、分析(analyze)、设计(design)与验证(verify)5 个阶段,简称为 DMADV。定义:选定设计项目,并进行前期市场预研。测量:将顾客需求转化成关键质量特性,对关键质量特性尽量用可测量的定量数据表达,并对系统设计进行评价和控制。分析:即分析影响关键质量特性和详细设计输出的影响因素,进行主次排序,采用适宜的分析工具来对详细设计阶段进行分析和评价,并进一步建立初步实验计划。设计:实施详细设计进行具体的实验设计以优化参数组合,并对详细设计结果进行评价。验证:进入改进设计阶段,完成工艺设计,进行样机实验及小批量实验,对详细设计结果进行验证,并最终形成量产,完成整个设计项目。
日本质量管理专家田口玄一(Taguchi)博士认为,工业产品70%的质量水平是在设计阶段决定的,因此可以说产品的质量是设计出来的而不是制造出来的。从统计质量管理的角度看,设计质量的改进过程就是不断聚焦与顾客需求同步的产品质量特征值,并在设计周期中尽量减少与这些质量特征值之间差异的过程。设计质量控制技术是达成设计质量改进的一组工具方法集,主要包括质量功能展开(QFD)、失效模式与影响分析(FMEA)、故障树分析(FTA)、田口稳健设计方法(Taguchi)、响应曲面模型(RSM)及调优设计(EVOP)等。
从设计质量控制技术特点来看,田口稳健设计、响应曲面模型与调优设计都属于实验设计法范畴。从实验设计的发展来看,实验设计法主要分为两大流派:一是西方统计质量专家(以G.E.BOX为代表)提出的经典方法,二是日本著名质量管理专家田口玄一博士创立的田口方法。经典方法采用统计回归的思想拟合出质量特性和影响因素之间的函数关系,并进行响应曲面分析,寻找工艺参数的最佳配置,从而使输出质量特性最优。经典方法追求均值最优,统计推导严谨,实验阶段分明,有序贯性的特点。田口方法注重实验设计与工程技术的结合,提出稳健设计的思想,在实验中综合考虑误差因素,寻求设计参数的优化配置,从而获得较为稳定的输出质量特性。
实验设计过程可分成实验方案的设计和实验结果数据分析两部分。实验方案的设计包括确定实验指标、选取因素、确定因素水平、建立实验指标的数学模型和设计实验方案。实验设计的方法类型很多,但为了提高实验的准确性和可靠性,都必须遵循3个基本原则,即随机化原则、重复原则和局部控制原则。实验结果数据分析是应用线性代数、概率论和数理统计等数学工具对实验数据进行分析和处理,包括拟合模型、对模型的检验、实验统计量的计算及对实验经过的解释等。通常所说的实验设计是指以概率论、数理统计和线性代数等为理论基础,科学地安排实验方案,正确地分析实验结果,尽快获得优化方案的一种数学方法。
在企业研发和管理实践中,为了开发、设计、研制新产品,更新或改进老产品,优化生产工艺方法或流程,降低原材料、动力等资源消耗,都需要深入研究质量特性与影响因素的关系。一个标准设计/生产过程都要受到可控因素X1,X2…Xn以及不可控因素Z1,Z2…Zm的共同作用。一般情况下,质量特性和影响因素之间的关系式并不能根据工程知识直接建立,需要使用DOE进行实验与分析来找出其关系,进一步确定设计/工艺参数的优化组合。在设计过程中,DOE是至关重要的改善技术。
2.2.1 因子设计(factorial DOE)
主要用于筛选设计,适用数学模型为线性模型。
完全要因设计(full factorial DOE,也称为析因实验):是应用最普遍、最简单的一种类型。假设某一实验包括3个因素,每个因素设高、低2个水平,可将其视为一正方形,各因素水平相交于正方形的角上,该正方形即为考察区域。其他各种类型设计均是在基于此正方形的边或面的中心增加实验点。对于 n个因子 k水平的完全要因实验,模型中的主效应与交互效应共计 kn-1个,模型中需要估计的参数有 kn个,因此完全要因实验需要 kn次实验。一般选择两水平因子实验对主效应与交互效应进行分析和评价,然后用追加中心点的方法判断响应拟合过程中是否存在曲率。根据效应稀疏原理,很多系统在主效应和低阶的交互作用处于支配地位时,高阶交互作用一般可被忽略,因此二阶以上的交互作用可以不用考虑。若存在曲率,则采用响应曲面模型进行分析。
部分要因设计:部分要因设计源自完全要因设计[3-4]。由于设计中常常面对3个以上因子的参数优化选择问题,完全要因设计中尽管设定因子为两水平,但随着因子数的增加,实验次数还是会以指数级增长,因此在因子数较多时,可选择部分要因设计。将 n个2水平因子安排在2n-p次实验中,实验次数受 p值的调节,p=1时是1/2部分要因实验,p=2时则是1/4部分要因实验……依此类推。实验次数的降低使主因子与交互作用及交互作用间存在了混淆关系,博克斯-亨特(BOX-Hunter)进行了分辨度设计(Design Resolution)。如分辨度Ⅲ是指主因子间没有混淆,但主因子与两因子交互作用以及两因子交互作用间存在混淆关系;分辨度Ⅳ是指主因子间及主因子与两因子交互作用没有混淆,但两因子交互作用间存在混淆关系;分辨度Ⅴ是指主因子间、主因子与两因子交互作用及两因子交互作用间均未混淆,但两因子交互作用与三因子交互作用之间存在混淆关系。分辨度越低,实验次数越少,混淆关系越复杂。
普通因子设计(general factorial design):普通因子设计各因子水平数可以不同,其实验次数为各因子水平数之积。如某试验涉及2个因子A和B,因子A包括3个水平,因子B包括4个水平,则实验次数为12次。通常用于所涉及因子水平数不一致的情况。
Plackett-Burman设计:1946年,Plackett和 Burman提出了Plackett-Burman设计。此设计是一种非常经济的设计方法,实验次数均为4的倍数,因其分辨度较低,两因子间交互作用严重混淆,主要用于只有主因子发挥作用的筛选设计,所有的交互作用均被忽略。各因子均为两水平,设计过程中因子数为11,19,23,27,31共5种,实验次数为 n+1次(n为因子数)。如果实验中所包含因子达不到上述5种规定数量,则设定一定数量哑因子(dummy factor)达到上述数量即可。
2.2.2 响应曲面模型(RSM DOE)
在科学研究和技术实践中线性关系仅为特例,多元关系的非线性是客观规律的主流。RSM是对多元关系的非线性进行优化的实验方法之一,于1951年由Box等[5]提出,可同时评估几个因子的效果及其交互作用,而传统的优化方法一次仅能对一种因子进行优化,且难以比较几个因子间的交互作用。响应曲面模型分2个阶段:上述的因子实验是第一阶段,用于建立一阶数学模型,从而可以分析出重要影响因子与输出的变化规律,确定最优的因子组合;第二阶段,选择响应曲面模型方法拟合二次回归方程,并绘制出响应曲面与等高线图。
RSM只适合连续的计量值的拟合,用于考察一系列定量参数和1个或多个响应值之间的关系,主要包括中心复合型设计(CCD)和Box-Behnken设计。CCD其实是两水平因子设计(完全要因设计或部分要因设计)增加中心点和轴向点,其因子的水平数可达五水平,即+α,-α,+1,-1,0,面向中心点设计 α值为1,因此只有3个水平。其α值与因子数有关。因子可为数值因子(numeric factors)和绝对值因子(categoric factors),每增加 1 个绝对值因子或其水平增加1个实验次数将增加1倍。CCD通常需增加3~5个中心点,用以估计实验误差和考察模型的准确程度。增加的轴向点可以更好地评价各水平所取范围内的效果,使结果更具可靠性[6]。Box-Behnken设计每个因子有三水平,没有轴向点,所有实验点均在考察范围之内。与相同数量因素的CCD相比,实验次数相对较少,因此更快捷,更经济。
DOE通常分6步进行:确定影响实验结果的各种因素、水平和对实验结果进行评估的响应值;选择适宜的实验设计方法,筛选设计或优化设计;产生设计矩阵,进行实验;将实验结果输入计算机,产生效果图,显示实验结果整体趋势;进行下一步实验设计,得出最佳化值;对结果进行验证。
DOE涉及大量数据的产生与使用,手动分析DOE数据工作量,难度都非常大,必须有良好的信息管理系统,借助计算机信息技术对这些大量的数据进行管理和分析,才能获得最佳的效果。DOE软件目前只有英文的,一般都具有 t检验、回归分析、反应曲面法(RSM)、变异数分析(ANOVA)、反应图表(response graphs)等功能,Design Expert是当前使用最广的DOE软件,在响应曲面和混合设计方面比JMP和MINITAB详细完整得多,它拥有混合式设计(mixture Design),可在最短的时间发现最佳化的公式,用最少的成本和时间,找出影响实验的重要因子。如实验因子有 X,Y,Z 3项,透过实验设计可找出系统的反应。假设系统的反应是f(x,y,z)=100 X+10 Y+ Z,就可以忽略 Z 因子,甚至是 Y 因子,因为整个系统几乎是由 X因子所操控。系统的反应可以简化成 f(x,y,z)=100 X。因实验时实际实验的组合有限,而优化分析的结论来自于统计推理,难免与实际情况有偏差,故需要进行确认实验,即按所得最佳设定运行过程,检验实际结果是否与预期一致。
DOE在制药行业中的应用主要包括提取纯化、成型工艺等因素的筛选与水平优化、方法验证时的稳健性试验。设计方法的选择既要考虑信息需求,又要考虑实验数量。如果仅是单一的实验参数筛选,应用分辨度较低的设计即可满足要求,如完全要因设计和部分要因设计。部分要因设计较完全要因设计分辨度低,实验次数少,所产生信息量也较少。分辨度为Ⅲ的部分要因设计实验次数最少,但不能检测各种交互作用的效果。
在工艺筛选优化过程中,所涉及因素很多,从众多因素中筛选出对评价指标产生显著影响的主要因素,可选用完全要因设计、部分要因设计或Plackett-Burman设计法进行设计。所有设计中各因子均为高、低2个水平,又称双水平筛选设计,可用较少的实验次数筛选大量的因子。因子数为2~4个时可选完全要因设计,通常因子数目达4个以上时多选用分辨度较低、实验次数较少的部分因子设计或Plackett-Burman设计。如杨冀艳等[7]用Plackett-Burman设计对影响荷叶总黄酮得率的因素进行了评价,筛选出具有显著效应的因素,即乙醇浓度、液固比和提取次数,然后用响应面分析法确定了主要影响因素的最佳提取条件为乙醇浓度67%、液固比34∶1(V/m),提取3次,在此条件下荷叶总黄酮得率的预测值可达3.19%,实测值为3.17%,两者较接近。
部分因子设计时应根据实验需要及因子数设计适当的 p值,通常 p值的不同有时对结果无显著影响。但因子数量一定时并不是实验次数越少越好,在进行实验设计时需要考虑标准误差,其值与自由度有关。自由度较低时,t值、ME及 SME均偏高,所得结果可能会与相同情况下自由度高时有差异。另外,实验次数较少时,每次实验响应值差异明显,变异系数较大,也会对结果产生一定影响[8]。
筛选出对响应值具有显著影响的各因子后,需要进一步通过优化设计找出最优值。通常选择响应曲面设计中的中心复合型设计或Box-Behnken设计,找出靶向、最大化或最小化响应值。如吴大章等[9]采用Box-Behnken设计优化紫苏叶挥发油-β-环糊精包合物制备工艺,得到优化制备工艺制得紫苏叶挥发油-β -环糊精包合物的平均包合率为(75.8±0.9)% ,收得率为(73.13 ±1.2)%,预测性良好。若同时有数个响应值,需根据实验要求设定每个响应值的重要程度,得出最优值,以满足各响应值的需要[10]。
DOE发展至今已涉及多个领域,国外制药工艺的筛选、优化及验证中也已广泛应用,但目前国内报道很少。一方面,可能是因为DOE不仅需要专业知识,还需要一定的数学及统计学知识;另一方面,DOE是对各实验参数一个系统、全面的筛选与优化,虽然尽可能地减少了实验次数,但在某些情况下,工作量仍然非常大。DOE有其独特的优势,不仅可以节约时间和成本,而且还可大大提高参数可信度和精确度,值得进一步推广应用。
参考文献:
[1]Sucker H.Methoden zum Planen und Auswerten von Versuchen I,Factorial Design,eine Einfuhrung[J].Informationsd,rbeitsgem Pharm,Verfahrenstech,1971,17(1 - 2):52 -68.
[2]Leuenberger H,Becher W.A factorial design for compatibility studies on preformulation work[J].Pharm Acta Helv,1975,50(4):88 - 91.
[3]Montgomery DC.Design and Analysis of Experiments[M].Wiley,New York,1996:4.
[4]Carlson R.Design and Optimisation in Organic Synthesis[J].Elsevier,Amsterdam,1992:215 -220.
[5]Box GEP,Wilson KB.On the experimental attainment of optimum conditions[J].J Royal Statistical Society,1951,13(1):1 - 45.
[6]Montgomery DC,Myers RH.Response Surface Methodology[M].Wiley,New York,1995:176.
[7]杨冀艳,胡 磊,许 杨.Plackett-Burman设计和响应面法优化荷叶总黄酮的提取工艺[J].食品科技,2009,30(6):29 -33.
[8]Vannecke C,Baré S,Bloomfield M,et al.An experimental design approach to the optimisation of a flow injection analysis method for glycine[J].J Pharm Biomed Anal,1999,18(6):963 - 973.
[9]吴大章,吴品江,杨 明.设计-效应面法优化紫苏叶挥发油-β-环糊精包合物制备工艺[J].成都中医药大学学报,2009(1):81-87.
[10]Ragonese R,Macka M,Hughes J,et al.The use of the Box - Behnken experimental design in the optimisation and robustness testing of a capillary electrophoresis method for the analysis of ethambutol hydrochloride in a pharmaceutical formulation[J] .J Pharm Biomed Anal,2002,27(6):995-1 007.