三水平部分因析设计中条件主效应的变量选择

2023-03-07 14:54吴宇桐蔡霞陈亚慧

吴宇桐 蔡霞 陈亚慧

摘要:显著效应识别是部分因析设计中一个非常重要的研究内容, 但按照传统方法识别出的交互作用项往往很难解释。在传统分析方法的基础上, 结合LASSO方法, 本文提出一种在三水平部分因析设计中条件主效应的变量选择方法, 并将其与传统方法做了分析比较。结果表明, 基于LASSO回归的条件主效应分析方法得到的模型项数更少, p值更小, 拟合程度更高, 选取的条件主效应项更容易解释。

关键词:试验设计;条件主效应;LASSO回归;变量选择;部分因析设计

中图分类号:O212.6文献标志码:A文章编号: 1001-2443(2023)06-0511-05

部分因析设计是工业、农业、生物等领域中最常用的工具之一,近年来,得到了许多学者和专家的广泛关注[1-6]。基于二水平部分因析设计,Wu首次提出将条件主效应(Conditional Main Effect, 简记为CME)替代交互作用作为变量选择的基础函数[7]。CME的提出不仅解决了二水平部分因析设计中的别名问题, 还在实际应用中有很好的工程解释[8]。Su和Wu根据CME的定义和性质,给出二水平部分因析设计中重要因子识别的分析策略[9]。Mak和Wu基于CME coupling和CME reduction两个原则提出二水平部分因析设计中CME变量选择的新方法:cmenet。与传统的交互作用分析方法相比,cmenet变量选择法可以得到更简洁的模型和更高的预测精度[10]。但是,到目前为止,有关三水平部分因析设计中CME变量选择的方法在国内外很少有人研究。

在三水平部分因析设计中,Picinbono和Devaut引入了线性-二次系统的概念,证明了线性-二次系统的最优检测和最优估计之间存在着很强的关系[11]。Sabbaghi等人指出,可以利用线性-二次系统来构建指标函数,应用于研究三水平部分因析设计的别名问题,引入了一个代数运算来计算指标函数的系数,有助于为交互作用的可估性建立简单条件[12]。在国内,刘长玉利用了线性-二次系统将CME分析推广到三水平定量因子上,并根据效应之间的关系给出了CME分析策略[13]。

本文把三水平部分因析设计中CME分析看作变量选择问题,利用LASSO回归筛选出显著效应。LASSO不仅有稀疏矩阵的有利特性,还可以实现庞大变量数目下的变量选择,广泛地应用在各种统计模型中[14-18]。LASSO回归可以处理变量数目远远超过运行数的试验设计,相比于压缩变量的岭回归,其表现更为出色[19]。三水平部分因析设计中CME变量选择在实际问题中有很大的研究意义。本文在三水平部分因析设计中基于条件主效应去构造新的效应组,利用LASSO回归对新的效应组进行变量选择,进而给出一个新的CME变量选择方法。

本文的组织结构如下:第一节给出三水平部分因析设计中CME的定义,第二节基于LASSO回归提出新的CME变量选择方法,第三节给出两个三水平部分因析设计的实例来具体阐述所提出的变量选择方法,并与现有的CME变量选择方法进行比较进而说明基于LASSO回归的CME变量选择方法的有效性,第四节总结全文,并提出未来的研究方向。

2 基于LASSO回归的CME分析方法

第一节给出了三水平部分因析设计中CME的定义,本节首先选择主效应和条件主效应来建立模型矩阵,再利用LASSO回归进行变量选择,进而构建一个新的模型。首先介绍LASSO 回归的选择准则。

3.2 瞬时制动试验

考虑一个含有四个因子的[34-1]设计,定义关系为[I=ABCD2]。四个因子均为三水平因子,取值分别为: 卷曲机的水压(A)为1100,1400 和1700磅,模板的位置(B)为10.0,10.2和10.4毫米,卷曲的长度(C)为18,23和27毫米,制动位置(D)为P74,P75和P76。试验的目的是找到瞬时制动的最小值,设计矩阵和瞬时制动数据见文献[1]。

试验中,因子A,B和C是定量因子,因子D是定性因子。根据第二节基于LASSO 回归的CME变量选择策略,用对照[Al]和[Aq],[Bl]和[Bq],[Cl]和[Cq]分别作为定量因子A,B和C的主效应,用[D01],[D02] 和[D12]作为定性因子D的主效应。由表3 可知,一共有81个条件主效应,将所有主效应和条件主效应的对照作为候选变量建立初始模型,根据交叉验证得到[λ=0.111],识别出以下模型:

[y=13.666+0.749Al-0.252Cl+0.384Al|C0+0.273Bl|A1-0.581Cl|A2-0.171Cl|B2-0.306Cl|D2+0.209Cq|B1 。]

LASSO回归的详细分析结果见表5,此时模型的[R2]值为0.967,p值为3.62e-13,此时模型的拟合优度很好,选择出来的变量也很显著。并且识别后的模型只有8项,与含有81项的原始模型相比,此时的模型更简洁。

4 结论

本文基于LASSO回归的思想提出一种三水平部分因析设计的CME 变量选择方法,首先写出全部效应项的对照向量,用定量因子和定性因子的所有主效应和条件主效应建立初始模型,再基于LASSO 回归识别出重要的效应项。实例研究表明,本文提出的CME變量选择策略得到的最终模型的拟合度高,相比于现有的CME 分析策略无论是拟合度还是显著性均有了很大的提高。除此之外,条件主效应比交互作用有更好的工程解释。

然而,到目前为止,有关高水平部分因析设计的条件主效应分析的研究还较少,可以将当前的设计推广到混合水平的部分因析设计。还可以考虑将提出的方法适用于寿命试验中,这是我们将来的研究方向。

参考文献:

[1]WU C F J, HAMADA M S. Experiments: Planning, Analysis, and Optimization[M]. New York: Wiley, 2021: 267-317.

[2]CHENG C S. Theory of Factorial Design[M]. Leiden: Chapman and Hall/CRC, 2016: 15-79.

[3]GUNST R F, MASON R L. Fractional factorial design[J]. Wiley interdisciplinary reviews: computational statistics, 2009, 1(2): 234-244.

[4]VAN GERREWEY T, AMELOOT N, NAVARRETE O, et al. Microbial activity in peat-reduced plant growing media: Identifying influential growing medium constituents and physicochemical properties using fractional factorial design of experiments[J]. Journal of Cleaner Production, 2020, 256: 120323.

[5]WAKJIRA T G, NEHDI M L, EBEAD U. Fractional factorial design model for seismic performance of RC bridge piers retrofitted with steel-reinforced polymer composites[J]. Engineering Structures, 2020, 221: 111100.

[6]ELAZAZY M S, ISSA A A, AL-MASHREKY M, et al. Application of fractional factorial design for green synthesis of cyano-modified silica nanoparticles: Chemometrics and multifarious response optimization[J]. Advanced Powder Technology, 2018, 29(5): 1204-1215.

[7]WU C F J. Post-Fisherian experimentation: from physical to virtual[J]. Journal of the American Statistical Association, 2015, 110(510): 612-620.

[8]MONTGOMERY D C. Design and analysis of experiments[M]. New York: John Wiley and Sons, 2017: 33-60.

[9]SU H, WU C F J. CME analysis: a new method for unraveling aliased effects in two-level fractional factorial experiments[J]. Journal of Quality Technology, 2017, 49(1): 1-10.

[10]MAK S, WU C F J. Cmenet: a new method for bi-level variable selection of conditional main effects[J]. Journal of the American Statistical Association, 2019, 114(526): 844-856.

[11]PICINBONO B, DEVAUT P. Optimal linear-quadratic systems for detection and estimation[J]. IEEE Transactions on Information Theory, 1988, 34(2): 304- 311.

[12]SABBAGHI A, DASGUPTA T, WU C F J. Indicator functions and the algebra of the linear-quadratic parametrization[J]. Biometrika, 2014, 101(2): 351-363.

[13]劉长玉. 高水平因子的条件主效应分析[D]. 曲阜:曲阜师范大学,2019.

[14]TIBSHIRANI R. Regression shrinkage and selection via the lasso[J]. Journal of the Royal Statistical Society: Series B (Methodological), 1996, 58(1): 267-288.

[15]TIBSHIRANI R. The lasso method for variable selection in the Cox model[J]. Statistics in Medicine, 1997, 16(4): 385-395.

[16]HANS C. Bayesian lasso regression[J]. Biometrika, 2009, 96(4): 835-845.

[17]ALHAMZAWI R, ALI H T M. The bayesian adaptive lasso regression[J]. Mathematical Biosciences, 2018, 303: 75-82.

[18]WU L, ZHOU B, LIU D, et al. Lasso regression-based diagnosis of acute st-segment elevation myocardial infarction (stemi) on electrocardiogram (ecg)[J]. Journal of Clinical Medicine, 2022, 11(18): 5408.

[19]WU T T, LANGE K. Coordinate descent algorithms for lasso penalized regression[J]. The Annals of Applied Statistics, 2008, 2(1): 224-244.

[20]FRIEDMAN J, HASTIE T, TIBSHIRANI R. Regularization paths for generalized linear models via coordinate descent[J]. Journal of Statistical Software, 2010, 33(1): 1-22.

Variable Selection of Conditional Main Effect in the three-Level Fractional Factorial Designs

WU Yu-tong,CAI Xia,CHEN Ya-hui

(School of Science, Hebei University of Science and Technology, Shijiazhuang  050018, China)

Abstract:Significant factor identification is a very important study in fractional factorial designs, but the interaction terms identified according to the traditional method are often difficult to interpret. Combined with the LASSO method, this paper proposes a variable selection method for conditional main effect in a three-level fractional factorial design. The results show that the conditional main effect analysis method based on LASSO regression yields fewer model terms, smaller p-values, better fit, and the selected conditional main effect terms are easier to explain.

Key words:experimental design; conditional main effect; LASSO regression; variable selection; fractional factorial design

(責任编辑:马乃玉)

收稿日期: 2022-11-09

基金项目:国家自然科学基金项目(12001155);河北省自然科学基金项目(A2022208001).

作者简介:吴宇桐(1995—),女,河北承德市人,满族,硕士研究生,研究方向为试验设计;通讯作者:蔡霞(1982—),女,河北石家庄市人,博士,副教授,硕士生导师,研究方向为数理统计、试验设计,E-mail:caixiasjz@163.com.

引用格式:吴宇桐,蔡霞,陈亚慧.三水平部分因析设计中条件主效应的变量选择[J].安徽师范大学学报(自然科学版),2023,46(6):511-515.