冯 利 岳小飞
(国家开放大学医药学院 北京 100039) (北京康复医院药剂科 北京 100144)
近年来组学技术如基因组学、蛋白质组学和代谢组学迅速发展。医学工作者可将组学、患者临床诊断及影像学等数据整合以提高疾病诊断的准确性,特别是恶性肿瘤等重大疾病[1]。虽然恶性肿瘤诊断方法发展迅速[2],但其早期诊断仍较困难。组学可从系统、整体水平捕捉机体在疾病早期的生理、病理变化,为恶性肿瘤早期诊断提供重要参考依据[3-4]。组学数据通常变量数目多、样本量少,这给数据分析带来较大挑战。多元统计分析方法及机器学习算法因具有强大的数据分析处理能力,在支持临床决策及寻找早期诊断生物标志物方面发挥了越来越重要的作用[5-8]。
本研究首先将原始数据集分为训练数据集(约为全部数据的1/10)和测试数据集(约为全部数据的9/10)。先采用训练数据集建立数据处理模型,即通过偏最小二乘法(Partial Least Squares,PLS)降维,提取不同数量主成分导入到线性判别分析(Linear Discriminant Analysis,LDA),K-最近邻法(K-Nearest Neighbor,KNN),决策树(Decision Tree,DT),支持向量机(Support Vector Machine,SVM),人工神经网络(Artificial Neural Network,ANN),装袋法(Bagging),随机森林(Random Forest,RF),二次判别分析(Quadratic Discriminant Analysis,QDA)及逻辑回归(Logistic Regression,LR)9种分类器中对数据进行分类,采用10折交叉验证法优化各分类器参数及防止模型过度拟合,使之达到最佳分类效果,采用预测准确率等指标对其分类效果进行评价并将表现较好的几种分类器组成集合式分类器。此外对潜在生物标志物进行初步筛选。
PCA和PLS是两种常用的降维方法[9]。二者均通过对多变量数据信息调整组合提取少量综合变量来解释原数据的大部分变异,当组间变异在总变异中不占主导地位时,PLS分类效果往往比PCA更好[10]。此外PLS算法在处理高维、共线性、干扰强的数据时功能强大。SVM可处理分类及回归问题,其泛化能力优秀,但运算量较大。RF、Bagging和DT这3种方法较简便,易于解释和可视化,但有时预测准确性不高。LR的特点是运算速度快、模型简单、易于理解,可直接看到各个变量的权重。LDA和LR相似,二者的区别是决策边界的估计方法不同。当决策边界高度非线性时,KNN预测结果常优于LDA和LR。QDA使用二次决策边界,当数据集满足高斯分布假设时,其预测结果常比KNN好。评价机器学习模型分类效果的常用指标有准确率、曲线下方面积(Area Under the Curve,AUC)值、召回率、精密度、F1值等。其中准确率最常用,其缺点是当两组样本数量相差太大时该指标会失真。召回率是阳性样本的检出率。精密度是阳性样本的预测准确率。AUC值为受试者工作特征(Receiver Operating Characteristic,ROC)曲线下方面积,在两组样本数不平衡时该指标更为客观;F1值是召回率和精密度的调和平均值,能直观评价模型对疾病患者的检出率及检测准确性。在医学研究中,除疾病诊断外还可通过计算PLS模型中每个自变量的VIP值来筛选与样本类别密切相关的重要变量(潜在生物标志物)。一般认为,VIP值大于1以及变量峰面积(峰高或表达量等)组间t检验或方差分析(Analysis of Variance,ANOVA)有显著性差异(P<0.05)的变量才是较为可靠的潜在生物标志物。
本研究使用美国FDA-NCI蛋白质组项目数据库中的蛋白质组公共数据集,包括SELDI-TOF-MS高分辨质谱技术平台采集的80例转基因导管胰腺癌小鼠血清样本和101例年龄相仿的正常小鼠血清样本蛋白质组数据,使用质荷比(扫描范围为800~11 992.91 Da)及对应蛋白质的峰面积作为特征变量,共6 771个变量[11](http://home.ccr.cancer.gov/ncifdaproteomics/ppat-terns.asp)。
组学数据十分复杂,噪音信号多,有时还有缺失值,因此其预处理非常重要。由于该数据集已进行谱峰的质荷比(m/z)校准,本研究首先对数据进行归一化、中心化和标度化等预处理,调整样本间基线偏差,消除仪器不稳定,以及各峰间由于峰面积数值存在较大差异对分析结果的影响。在本文中数据预处理以及后续所有数据统计处理均在R语言(版本:3.6.1)数据处理平台完成[12]。
参考相关文献[10]及本研究数据初步分析结果,选取PLS作为降维方法。提取PLS不同数量的主成分与LDA等9种分类器组成结合式分类器。在本研究中,机器学习算法均采用R语言软件包完成,SVM使用的是“e1071”软件包(版本:1.7-0.1);PLS使用的是“mixOmics”软件包(版本:6.3.2);BAGGING和RF使用的是“randomForest”软件包(版本:4.6-14);ANN使用的是“nnet”软件包(版本:7.3-12);DT使用的是“tree”软件包(版本:1.0-39);LDA和QDA使用的是“MASS”软件包(版本:7.3-5)。LR用R语言“glm”函数完成。
对模型预测效果用准确率(Accuracy)、精密度(Precision)、召回率(Recall)、AUC、F1值进行评价。
首先采用PLS和PCA方法选取20个主成分对数据集进行降维以初步观察数据,得出各主成分的累计方差贡献率,见图1。PCA第1主成分即可解释原始变量约95%的方差,这表明各自变量间相关性较大;PLS第1主成分可解释自变量和因变量大约50%的方差。通过10折交叉验证得出,选择25个主成分时PLS的判别分析(PLS-DA)正确率为67%,这与原始数据集的变量数目太大及与分类不相关的干扰因素较多有关。参考PLS对方差的解释能力,见图1,选取PLS的前5、15及25个主成分构建结合式分类器,PLS-LDA、PLS-LR、PLS-QDA、PLS-ANN、PLS-SVM的分类效果较好。使用25个主成分时,其分类正确率分别为100%、100%、99%、96%和96%,随着主成分数目的增加其分类准确性也增加。PLS-RF、PLS-BAGGING、PLS-DT和PLS-KNN的分类效果不理想,当主成分数目增大时,其分类准确率不仅没有提高,反而下降,见图2。将PLS-LR、PLS-LDA、PLS-ANN、PLS-SVM、PLS-QDA几种分类器以多数投票表决法构建集合式分类器(PLS-RES),考察其分类准确性和主成分数目的关系,PLS-RES在使用15个主成分时分类准确度即可达到100%,见图3。
图1 PCA(A)及 PLS(B)提取的前20个主成分的方差贡献率和累积方差贡献率
图2 10种分类器在主成分为5(10PCs)、15(15PCs)和25(20PCs)时的分类准确率
图3 采用不同主成分数时5种结合模型的分类正确率
当主成分数为5、10、20时PLS-ANN等5种分类器的5种评价指标预测值,见表1。当主成分数目为2和10时5种分类器各评价指标预测值,见图4。当预测正确率接近100%时,5种评价指标的差别不大。当预测正确率逐渐降低时F1值和召回率显著下降。选择5个主成分时QDA的预测正确率为51%,其F1值和召回率分别仅为19%和12%。
表1 主成分数为5、10和20时各分类器5种评价指标的预测值(%)
图4 主成分数目为2(A)时和10(B)时5种结合分类器各评价指标的预测值
当主成分数为20时采用PLS-DA结合模型,筛选得到前20个主成分的VIP均值>1且t检验P<0.05的变量(潜在生物标志物)105个,见表2。本研究主要目的是构建一种处理多维数据的结合式算法以对不同生理功能的生物样本进行分类,因此筛选出的潜在生物标志物为何种蛋白质及其具有何种生物学功能需要进一步鉴定和分析。
表2 通过PLS-DA结合模型筛选出的潜在生物标志物信息(部分)
研究[11]发现,KRASG12D基因表达与成年(9周龄)小鼠侵入性胰腺导管癌密切相关,携带该致癌基因的小鼠成年后全部患癌。本研究中的数据集为携带KRASG12D基因的幼年(5周龄)转基因小鼠及年龄相仿的正常对照组小鼠血清蛋白质组学数据。采用本研究建立的结合式分类器在癌症未发病时即可将携癌基因幼年小鼠与正常对照组加以区分,表明本研究具有较大潜在应用价值。在对本研究中数据集进行PCA分析时发现各变量之间具有较高相关性,当变量之间高度相关时PLS的分类准确性明显优于PCA[9]。此外有研究[13]发现,当变量之间相关性较高时,基于特征提取的SVM比单独使用SVM的分类效果好,这与本研究结果一致。本研究建立的方法也可用于基于光谱[9]、色谱、基因组、代谢组、影像等高维数据及包括少数几种临床诊断指标的低维数据的肿瘤辅助诊断。低维数据可不降维直接进行分类。此外本研究提出的潜在生物标志物的筛选方法有助于通过测定少数指标即可对肿瘤进行早期诊断。