毛敏 吴彦亭 张子岩
摘 要:肝纤维无创诊断是无创伤对肝组织纤维化监测的方法,其发展可以有效减少对肝病患者带来的不适,具有极大的实用性。本文基于主成分分析法、方差齐性检验筛选法以及Logistic回归分析法建立肝纤维化无创诊断模型,继而采用LOF算法对数据分布差异进行修正从而提高模型应用的精确度。从而得出科学、合理的诊断方程,为肝纤维化的诊疗提供理论依据。
关键词:指标聚类模型;主成分分析法;ROC曲线模型;LOF算法;肝纤维无创诊断模型
1模型一的建立与求解:基于主成分分析的指标聚类模型
我们首先通过机理分析法对部分格式明显异常的数据作预处理,接下来对预处理后的样本数据,依照modified-80%准则对附件提供的30项指标进行剔除,并对处理后的指标下属残缺数据作类均值插补。而后,根据拉伊达准则剔除异常数据,将剩余样本数据作归一化处理,得到合理化的样本数据,并通过显著性检验。最后采用主成分分析法来对指标进行遴选归类,以期找出他们的内在联系。
STEP1:计算指标矩阵的特征值与特征向量。
STEP2:确定p个主成分,进行统计分析。
STEP3:进行KMO和Bartlett的检验来分析得数据可信度和效度是否符合数学标准。
STEP4:运用SPSS统计软件对基于主成分分析的指标聚类模型进行求解,求解共计得到[?1],[?2],[?3],[?4],[?5],[?6],[?7],[?8]此八项主成分。
2模型二的建立和求解:基于方差齐性检验的ROC曲线模型
为了降低主观性的因素的影响,在此我们引入基于方差齐性检验的ROC曲线模型,通过运用方差齐性检验的方法对各独立测量样本做显著性检验,并通过SPSS统计软件对指标是否存在意义做划分并进一步做出筛选,最终通过对此典型基于样本的定性定量相结合的模型进行求解,得到13项相关指标。
最终将两种模型的指标划分做定性对比,通过分析两种模型结果的交集,得出问题一所要求的指标,即特征。
通过两种模型求解结果的整合,甚至说是基于方差齐性检验的ROC曲线模型对基于主成分分析的指标聚类模型的修正,我们最终选定的指标为:PTS、IV型胶原、III型前胶原、体重、身高、AST、透明质酸、年龄和ALT。
3模型三的建立和求解:基于Logistic回归分析法的肝纤维化无创诊断模型
STEP1:提取自變量和因变量。在此,我们以肝纤维化无创诊断模型为因变量,以问题一双模型筛选的九项指标为自变量。设置变量为模型求解做准备。
STEP2:根据Logistic回归模型的要求,得到回归模型的基本形式。
STEP3:运用MATLAB2014b处理软件,对基于Logistic回归分析法的肝纤维化无创诊断模型进行求解,并采用似然比来检验模型整体的拟合效果,其中将判断概率的阈值设定为0.05,以保证数据的有效性和说服力。
经过统计,回归分析的预测准确率高达78.11%,模型拟合程度较好,所以我们认为指标体系内的PTS、Ⅳ型胶原、Ⅲ型前胶原、体重、身高、AST、透明质酸、年龄和ALT这9项指标对于肝纤维化无创诊断模型的贡献程度毋庸置疑,即足以根据以上9个特征对肝纤维化无创诊断提供具有说服力的病理诊断依据。
参考文献
[1]Bijlsma,Sabina,IvanaBobeldijk,ElwinR.Verheij,RaymondRamaker,SunilKochhar,IanA.Macdonald,BenVanOmmen,andAgeK[J].Smilde,2006.
[2]张敏,袁辉.拉依达(PauTa)准则与异常值剔除[J].郑州工业大学学报,1997(1):84-88.
[3]姜启源,谢金星,叶俊.数学模型(第三版)[M].北京:高等教育出版社,2006,9.
[4]李洪,宫兆宁,赵文吉等.基于Logistic回归模型的北京市水库湿地演变驱动力分析[J].地理学报,2012,67(3):357-367.
[5]姜广辉,张凤荣,陈军伟等.基于Logistic回归模型的北京山区农村居民点变化的驱动力分析[J].农业工程学报,2007,23(5):81-87.
[6]陈溟.基于模糊局部离群因子(LOF)的信用卡欺诈检测研究[J].金融理论与实践,2016(10):54-57.