詹润华,郭鸿儒,王溢郴,王秀凤
(广东药科大学 1.药学院; 2.中药学院; 3.医药信息工程学院,广东 广州 510006)
肿瘤、代谢性疾病等复杂疾病严重危害人类的健康,因复杂疾病的致病机理复杂,其早期诊断和治疗都十分困难。恶性肿瘤早期多无明显症状,待晚期发现时极难治愈,而代谢性疾病往往都是不可逆的,因此及时防治与诊断此类复杂疾病意义重大。
生物标志物可以作为反映生物体结构和功能发生改变的信号指标[1],用于检测复杂疾病的发生和进展。近年来“组学”领域的生物标志物作为辅助手段用于预先、准确、灵敏地判断出疾病发生情况,取得了较好的效果。多个层次的生物标志物联合诊断可以区分疾病的类型以及疾病所处的阶段,辅助临床治疗。将多个生物标志物用于复杂疾病诊断,需要应用先进的数学方法建立复杂疾病非侵入性的诊断模型,可减少交叉感染的危险,提高诊断效率。基于生物标志物和组学数据,结合数据挖掘方法建立复杂疾病的早期诊断模型,可以为复杂疾病的诊断提供帮助。
不同层次或类型的生物标志物具有不同的特征,按功能分可分为风险类生物标志物、诊断性生物标志物、预后生物标志物[2]。生物标志物可以是生物体本身的体温、体重、血糖、血脂等,也可以是基因、蛋白质、代谢物小分子等。下面对基于不同层次的生物标志物的诊断模型进行综述。
目前,临床常用的肿瘤诊断生化指标有癌胚抗原(CEA)、 甲胎蛋白(AFP)、血清铁蛋白(SF)、β2-微球蛋白(β2-MG)和癌抗原50(CA50)。此外,糖类抗原199(CA199)是一种粘蛋白型的糖类蛋白肿瘤标志物,主要是筛查肠癌的生化指标;糖类抗原153(CA153)是筛查乳腺癌的重要生化指标;糖类抗原724(CA724)是胃癌的最佳肿瘤标志物之一。代谢性疾病如糖尿病常用生化指标是血糖和糖化血红蛋白等;糖尿病肾病常用生化指标为血胱抑素C(CYsC)、尿微量白蛋白/尿肌酐(UALB/UC)、C反应蛋白(CRP)、β2-微球蛋白(β2-MG)和血尿素氮(BUN)等。
卵巢癌是最致命的妇科恶性肿瘤之一,被诊断的患者一般为疾病晚期,且具有广泛的腹膜转移,存活率较低。糖类抗原125(CA125)、糖类抗原199(CA199)和癌胚抗原(CEA)联合检测在诊断卵巢癌中比传统的CA125单项检测更理想[3]。常见乳腺癌患者的红细胞体积分布宽度(RDW)、中性粒细胞计数和淋巴细胞计数比值(NLR)、低密度脂蛋白胆固醇(LDL-C)等指标水平均会显著高于健康女性,以此为生化指标进行检测[4]。目前,常用糖化血红蛋白(HbA1c)鉴别2型糖尿病。Jelinek等[5]发现单独使用HbA1c使得某些糖尿病患者未被诊断出糖尿病而错过治疗时机。而加入氧化应激标记物8-羟基-2-脱氧鸟苷(8-OHdG)与HbA1c联合诊断2型糖尿病,能提高准确性,使2型糖尿病分类准确度提高。早期糖尿病肾病的临床诊断一般使用生化指标检测,其中最主要的是血清学指标和尿液指标。研究表明,血清胱抑素C(Cysc)对肾功能损伤的检测最灵敏,也可以用来简单区分糖尿病肾病组和糖尿病组。CRP、CysC、UALB/UC、β2-MG、RBP联合检测,可以提高早期糖尿病肾病诊断的准确性[6]。Stepien 等[7]发现肝脏酶(GGT/ALT/AST/ALP)和总胆红素均与肝细胞癌(HCC)风险正相关,所有单独升高的肝脏酶和总胆红素均是位于肝脏(HCC、IHBC)中的癌症的良好预诊断标志物。孙伟等[8]发现将谷丙转氨酶(ALT)、谷酰转肽酶(γ-GT)、铁蛋白(FER)3项生化指标联合增强CT,提高了原发性肝癌患者的诊断正确率和灵敏度。
每一种生化指标都可以反映人体相关的功能,如肝功能、肾功能等等。目前部分生化指标的疾病诊断,具有较高的准确性和高效性,使其运用广泛。在复杂疾病的诊断中,采用多项生化指标联合诊断可以避免单一生化指标的局限性,提高诊断的准确性和正确率。生化指标结合其他生物标志物尤其是组学数据,能更敏感地预测和诊断复杂疾病。
1.2.1 基于基因组学的诊断模型 基因组是描述生物的全部基因和染色体组成的概念。Shukla等[9]研究了在社区获得性肺炎中表达的综合miRNA谱,除了在肿瘤组织中表达的miRNA之外,循环的miRNA已被发现高度稳定,并且在可接近的生物流体范围内是可检测、可量化的。因此miRNA是潜在的、有用的诊断、预后和预测生物标志物。急性粒细胞白血病(acute myeloblastic leukemia,AML)是一种涉及多种分子机制的复杂疾病,目前关于AML的诊断和治疗主要依据细胞遗传学的结果,以及FLT3/NPM1/CEBPA/KIT基因的突变。这些分子生物标志物的组合已被证明有利于患者的诊断和预后。同时AML患者的表观遗传学特征可以作为生物标志物,为疾病的分类提供信息,并将临床结果和DNA甲基化状态关联[10]。循环肿瘤DNA(ctDNA)的检测是癌症精密医学的重要组成部分,不同肿瘤类型和阶段的ctDNA含量不同[11],个体肿瘤的突变特征可能因患者而异。Friedberg等[12]发现检测母体血液中的胎儿cfDNA与胎儿21,18和13三体等核型使得非侵入性产前诊断成为可能,其中全基因组微阵列可以检测到许多与先天性心脏病有关的亚显微拷贝数变异(CNV),而21个CNV被认为具有临床意义。
基因组分析可以对遗传性疾病有效预测,但是无法清楚解释如何引发机体疾病症状,以及评估后期出现临床疾病的可能性。研究表明,基因的表达水平和疾病发生的风险在某些组织中有显著关联,但在其他组织又无关联。可以通过大量的不同个体的基因组测序数据进行综合分析,对患病个体和未患病个体基因进行比对,以缩小并发现预测诊断此疾病的特殊生物标志物。目前,只根据基因组学单层次标志物诊断复杂疾病仍十分困难。
1.2.2 基于蛋白质组学的诊断模型 蛋白质组学(Proteinomics)是对人体蛋白表达水平进行高通量筛选和分析的一门学科。用于心力衰竭(heart failure,HF)的诊断性生物标志物如利尿钠肽(natriuretic peptide,NP)被广泛使用但具有局限性。Berry等[13]通过毛细管电泳-质谱(CE-MS)蛋白质组学分析研究了HF特异性多肽,确定了胰岛素样生长因子结合蛋白2(IGFBP2)作为诊断HF的新生物标志物,具有高灵敏度和特异性(AUC=0.93,95%CI=0.89-0.96,P<0.000 1),可用于向NP提供额外的信息。帕金森综合征的神经系统变性具有重要的临床和病理学重叠,早期诊断困难。脑脊液(cerebrospinal fluid,CSF)生物标志物可能有助于这些疾病的分化,Magdalinou等[14]运用蛋白质组学来研究疾病机制并识别可能的CSF诊断生物标志物,发现可能反映神经元功能和/或可塑性的标记物,如淀粉样蛋白前体蛋白质和炎症标记物,将来有望成为帕金森综合征的候选生物标志物。Husain等[15]发现5种蛋白质随着肝纤维化的增加而发生最大变化,分别是脂质转移抑制蛋白、补充C3d、皮质类固醇结合球蛋白、载脂蛋白J、载脂蛋白L1,这些蛋白质可以用于早期诊断预测肝纤维化。Marx等[16]发现在急性肾损伤(AKI)的诊断中,血清胱抑素水平升高的机会可能比血清肌酐水平的变化更早发现AKI,白细胞介素-18(IL-18)在预测早期AKI和儿童患者的AKI方面较理想。谷胱甘肽S-转移酶(α和πGSTs)可预测晚期AKI。血浆和尤其是经肾皮质滤过作用所释放的尿液中,乳酸脱氢酶(LDH)水平与肾损伤的严重程度相关。
目前,蛋白质大多数用作癌症检测的生物标志物,且是大多数靶向治疗的目标。在定量蛋白质组学中,标记蛋白分析技术存在局限性,当细胞数很少时,样品分析非常困难。而使用无标记定量蛋白质组分析技术,可以检测一种蛋白质相匹配的所有肽链,确定其在总蛋白中所占的比例。但是蛋白质有十分复杂的翻译及修饰机制,这给其分离分析带来很大的困难,且蛋白质组学的数据输出存在一定的难度。虽然目前蛋白质组学在癌症、老年痴呆等疾病的临床治疗中已经取得了一定的成就,但是疾病发展不可能只是一个组学层面上的,依据单组学数据分析复杂疾病具有很大的局限性。
1.2.3 基于代谢组学的诊断模型 代谢组学(meta-bonomics/metabolomics)是对生物体内所有代谢物进行定量分析,并寻找代谢物与生理病理变化的相对关系的研究方式,是系统生物学的组成部分。其研究对象一般是相对分子质量1 000以内的小分子物质。先进分析检测技术结合模式识别和专家系统等计算分析方法是代谢组学研究的基本方法。
Suwen等[17]使用高效液相色谱-质谱(HPLC-MS)分析血清样品的代谢特征,发现总共56种代谢物能够基于OPLS-DA模型(orthogonal partial least squares discrimination analysis)区分非酒精性脂肪性肝炎(non-alcoholic steatohepatitis,NASH)和单纯性脂肪变性。同时还发现焦谷氨酸是区分NASH与单纯性脂肪变性组最有希望的因素,所以焦谷氨酸可能是诊断NASH的新的生物标志物。Shao等[18]使用超高效液相色谱四极杆飞行时间质谱(UPLC-Q-TOF / MS)平台分析了25名健康个体、25例子宫内膜癌(carcinoma of endometrium,EOC)患者和10例子宫内膜增生患者的早晨尿液,根据代谢组学方法发现了EOC诊断生物标志物组。在EOC患者中,胆红素原、乙酰半胱氨酸、N-乙酰丝氨酸,尿嘧啶和异丁酰甘氨酸5种诊断性生物标志物,均有显著变化。其中,胆红素原和乙酰半胱氨酸显著下调,N-乙酰丝氨酸、尿嘧啶和异丁酰甘氨酸显著上调。
脂质组学是通过比较不同生理状态下脂代谢网络的变化,来识别代谢调控中关键的脂生物标志物,揭示脂质在各种生命活动中的作用机制的一门新兴学科,是代谢组学的一部分。在病理学中,功能障碍磷脂(phospholipid,PL)代谢对阿尔茨海默病(alzheimer disease,AD)起关键作用,其特征在于几种磷脂酶的酶活性增加,脂质体内平衡的普遍破坏,膜动力学和脂质信号传导。因此,血液PLs的分析是发现新的基于血液的轻度认知障碍(mild cognitive impairment,MCI)和早期AD的生物标志物。Abdullah等[19]发现了辨别MCI和早期AD的PL轮廓。与对照相比,AD受试者中含有鞘磷脂的非常长链脂肪酸降低,但在MCI受试者中未受影响。与对照相比,AD和MCI中含醚的磷脂酰胆碱和磷脂酰乙醇胺水平均升高;而与其他诊断类别的受试者相比,MCI受试者的上述脂质体水平最高。与对照相比,MCI和AD中含醚和多不饱和脂肪酸的溶血磷脂水平显著升高。上述结果显示了用基于脂质体的系统生物学方法来开发可检测、区分MCI与早期AD的血液PL生物标志物的重要性。
对代谢组学的生物标志物进行定性、定量分析最常用的方法是质谱分析和核磁共振法,脂肪、糖类、氨基酸等各种代谢过程中生成的小分子化合物可以提供机体的健康信息。代谢组学能方便、快捷地提供生物信息,对疾病诊断的灵敏度更高,适合与临床治疗相结合。但是代谢组学的生物标志物也存在一定的局限性,在许多代谢过程中代谢产物的动态变化与个体差异、个体行为有很大的关联,环境因素、个人习惯都影响着代谢组学生物标志物的检测。
基于单层次的组学数据的诊断模型在诊断的准确性等方面有时尚达不到要求,所以需要收集多层次的组学数据构建复杂疾病的整合生物标志物系统。对于多组学数据的整合分析,首要的是将不同的组学数据进行标准化处理,分析组学数据之间的相关性,基于多组学数据建立基本的定性和定量模型。但是,相关实验的实验设计的不完善和数据处理方法的差异,使得组学数据整合的进展缓慢。
鉴于复杂疾病生物学数据尤其是组学的复杂性和高通量,建立诊断模型需要先进的数学方法,下面就无监督和有监督两类诊断模型分别进行综述。
2.1.1 聚类分析法 聚类分析法是理想的多变量统计方法,根据样品之间存在的不同程度的相似性进行分类,比传统的分类方法更细致、全面,分类结果也直观清楚。一般可以根据分类对象的不同分为Q型聚类分析和R型聚类分析两大类。Q型聚类分析是对样本进行分类处理,R型聚类分析是对变量进行分类处理。使用Q型聚类得到的分类结果是直观的,且比传统的分类方法更加细致、全面。而用R型聚类分析可清楚地得到变量之间及变量组合间的亲疏关系。
Tomassen等[20]运用聚类分析IL-5、IFN-γ、IL-17A、TNF-α、IL-22、IL-1β、IL-6、IL-8、嗜酸性阳离子蛋白、髓过氧化物酶、TGF-β1、IgE、金黄色葡萄球菌肠毒素特异性IgE和白蛋白,结果173个病例分成10个簇。其中4个簇具有低或不可检测的IL-5、嗜酸性阳离子蛋白、IgE和白蛋白浓度, 6个簇具有高浓度的上述标志物。
目前聚类分析在疾病诊断中主要用于疾病的分型,例如用聚类分析法将早期的帕金森综合征分亚型。或用于慢性病的监测,如2型糖尿病患者的代谢情况的监测。聚类分析根据不同的相似性或以样本间距离建立的聚类分析结果显示样本间存在的紧密联系,但有时实际上样本之间并无关系。可见聚类分析对复杂疾病分类的准确性和特异性难以保证。
2.1.2 主成分分析法 主成分分析(principal component analysis,PCA)首先是由K.皮尔森(Karl Pearson)对非随机变量引入的,之后H.霍特林将此方法推广到随机向量的情形,通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。信息的大小通常用离差平方和或方差来衡量。
Namas等[21]从472名创伤幸存者中选择2名独立的中/重度受伤患者进行研究,在伤后24 h内,通过血液评估多种炎症介质,再用PCA导出患者特异的“炎症条形码”,随后进行层次聚类,其后续的马歇尔多器官功能障碍评分显著不同,且独立于分析的特异性炎症介质。Feng等[22]使用高通量的糖型分析样品制备技术和多毛细管DNA分析仪来分析在人血浆中发现的主要N-连接的聚糖(N-聚糖)。结果观察到37个N-糖苷峰,大多数聚糖具有确认的结构。主成分分析(PCA)和正交偏最小二乘判别分析(OPLS-DA)用于构建模型以区分患者组。鉴于血糖蛋白谱已被证明可以反映某些疾病状态,这种高通量平台可能用于同时筛选多个聚糖生物标志物。
使用主成分分析法将所有的变量重整,删去重复的关系紧密的变量,建立新的独立的变量,同时新的变量也保留原有信息的90%以上,减小了分析问题的复杂性和难度,利用降维的思想抓住了问题的实质,简化了系统结构。但是主成分分析法的局限性也是比较明显的,当原始变量被重整后所能解释的含义具有清晰度低等缺点,这也是降维过程中无法避免的。同时在将原始变量重整成新变量时,必须要保证新变量能够有较高的贡献率和合理的意义,否则即使新的变量有足够的信息也缺乏实际意义。
2.1.3 粗糙集 粗糙集理论,是继概率论、模糊集、证据理论之后的又一个处理不确定性的数学工具。粗糙集方法简单实用,能处理各种数据,包括不完整的数据以及拥有众多变量的数据;能处理数据的不精确性和模糊性,包括确定性和非确定性的数据;能产生精确而又易于检查和证实的规则,特别适用于智能控制中规则的自动生成。
急诊室患者的心力衰竭的准确诊断是非常重要的,但由于对心力衰竭特征的理解不足,也可能相当困难。Son等[23]通过使用粗糙集和决策树的方法,提供了与充血性心力衰竭(congestive heart failure,CHF)相关的关键因素和知识。在72个实验室的检查结果中,确定了基于粗糙集模型中的2个亚型和1个逻辑回归中的1个子集模型是区分CHF患者与呼吸困难患者不可或缺的因素。此方法对于临床区分心力衰竭患者和呼吸困难患者至关重要。
粗糙集可以提供一种模糊-粗糙控制的控制策略,可以处理各种数据,包括不完整、多变量、不精确的数据,并从中产生规则,具有很强的实用性。粗糙集理论在描述和处理模糊信息时具有优势,但是由于对模糊的概念定义太过于简单,需要用其他的方法加以补充。
2.2.1 决策树 决策树(decision tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,以评价项目风险、判断其可行性的决策分析方法。由于这种决策分支画成图形很像一棵树的枝干,故称为决策树。
何建中等[24]使用亲和纯化和质谱法鉴定PDIA3、CNPY2和STMN1作为潜在的ezrin相互作用蛋白。回归分析结果显示,PDCC3、CNPY2和STMN1在食管鳞状细胞癌(esophageal squamous cell carcinoma,ESCC)中具有预后价值。决策树分析结果显示,所得到的ezrin及其相互作用蛋白质分类器可用于更好地预测ESCC患者的总生存期(overall survival,OS)和无病生存期(disease-free survival,DFS)。
决策树易于理解和解释,且对于数据准备的要求简单。对于较大的样本,决策树能在较短的时间内得到较好结果,且决策树的模型不需要重复构建,可提高效率。所以在面对大样本和独立不连续的数据时使用决策树是一种好方法。
2.2.2 人工神经网络 人工神经网络(artificial neural network,ANN)是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系来达到处理信息的目的。目前,人工神经网络已被广泛应用于医学模式分类与判断中。
杨飞等[25]选择了353例急性胰腺炎(acute pancreatitis,AP)患者,分别基于与AP相关的11个因素,构建了基因功能的径向基网络(radical basis function,RBF)人工神经网络(ANN)模型和Logistic回归模型。RBF ANN模型比Logistic回归模型更可能预测AP引起的阵发性室性心动过速的发生率。O'Shea等[26]使用流量输注电喷雾离子质谱法分析了肺癌患者和年龄匹配志愿者吸烟对照的痰液中的代谢物,并使用人工神经网络和一次性交叉验证来评估所识别的生物标志物的预测能力。神经网络模型在肺癌组和对照组之间的分类表现出受试者工作特征曲线下的面积为0.99,检测癌症的敏感性和特异性分别为96%和94%,确定了能够区分小细胞肺癌患者和非小细胞肺癌患者的痰样品的6种推定代谢物。结果表明痰代谢分析可能具有筛查肺癌和肺癌复发的潜力,并可能大大提高临床干预的有效性。
人工神经网络较多应用于生物信号的检测分析与疾病诊断系统,由于人工神经网络具有很强的自学习、非线性、自适应等特点,因此只要能够给人工神经网络提供足够多的疾病实例样本,经过学习训练就可以对此类的数据进行判别分析。人工神经网络的应用使疾病诊断模型更加智能化和具有更高的可信度,但是此应用还受到诸多的限制。如果提供的疾病实例样本数量较少、学习时间不充分,都将会影响人工神经网络对疾病的识别能力、降低结果的可信度。同时各类临床诊断模型所需要的拓扑结构、神经元特征、学习规则的设定都会影响到判别结果。
2.2.3 支持向量机 支持向量机(support vector machine,SVM)是1995年由Vapnik首先提出的,是一种建立在统计学理论上的机器学习方法,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势。SVM可以自动寻找那些对分类有较好区分能力的支持向量,由此构造出的分类器可以最大化类与类之间的间隔,因此有较好的推广性能和较高的分类准确度,是求解模式识别和函数估计问题的有效工具。
Liu等[27]研究了48例药物初次治疗青少年精神分裂症患者(adolescent onset schizophrenia,AOS)门诊病人和31例健康对照者接受静息状态功能磁共振扫描的情况,综合脑相干局部一致性(coherence-based regional homogeneity,Cohe-ReHo)和支持向量机的分析方法分析数据。与健康对照组相比,AOS组脑区分布的Cohe -ReHo值显著降低;在AOS组中没有观察到Cohe-ReHo值增加的区域。结果表明,AOS患者在默认网络和感觉运动网络中的一些区域表现出减少的Cohe-ReHo值。特定脑区域(双侧脑脊液和右侧潜伏期)的异常可作为AOS的潜在生物标志物。原发性进行性失语症(primary progressive aphasia,PPA)包括3种亚型:非流式/血型变异型PPA、语义变异型PPA、Logopenic变异型PPA。其特征在于语言障碍和区域性脑萎缩的不同模式。Bisenius等[28]为了验证早期个体诊断结构磁共振成像数据的潜力,将全脑支持向量机分类与基于荟萃分析的疾病特异性感兴趣区域方法进行比较,以支持向量机分类来区分3个PPA子类型。结果全脑支持向量机分类用于识别特定的PPA亚型与健康对照,准确度高达91%~97%;用于歧义语义变体与非流体/语言或语言PPA变体之间的识别的准确度为78%/95%。只有对非洗涤性/文字型PPA变体识别的准确度较低,仅有55%。这表明支持向量机分类多中心结构磁共振成像数据可以预测PPA亚型,具有非常高的准确度,为其在临床环境中的应用奠定基础。
支持向量机较多被用于二分类问题中,它可以使用核技巧,将其输入隐式映射到高维特征空间中,可有效地进行非线性分类,适合分析小样本数据和解决高维问题。但是对非线性问题没有通用解决方案,必须谨慎选择核函数来处理。
2.2.4 深度学习 深度学习的概念由Hinton等人于2006年提出。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据分布式特征表示。深度学习可以建立、模拟人脑进行分析学习的神经网络,模仿人脑的机制来解释数据。它的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。
Shi等[29]收集了99例乳腺导管内原位癌(ductal carcinoma in situ,DCIS)活检患者的数字化乳房放大图,其中25例随访至浸润性癌,并使用预先训练的深卷积神经网络诊断哪些肿瘤含有隐匿性侵入性疾病。深部特征能够将DCIS与来自纯DCIS的隐匿性侵入区分开来,其中接受者操作特征AUC=0.70,95%CI=0.68-0.73)。这种性能与手工制作的CV特征(AUC=0.68,95%CI0.66-0.71)相当。Choi等[30]开发了一种基于深度学习的FP-CIT SPECT解读系统,来改善帕金森病(parkinson disease,PD)的影像学诊断。在此解读系统内利用PD网络区分PD与非帕金森氏震颤,PD网络鉴别PD的敏感性、特异性和准确性分别为98.6%、100%和98.8%。Gao等[31]利用卷积神经网络(convolutional neural networks,CNN)通过计算机断层扫描(computed tomography,CT)进行阿尔兹海默病(AD)的临床诊断。将3类CT图像(n=285)分为3组,即AD、病变(例如肿瘤)和正常衰老组,并建立了集成二维和三维CNN网络的先进的CNN架构,CNN架构所提供的分类准确率分别为85.2%、80%和95.3%。与只有2D的CNN网络和其他方法相比,这种改进的CNN网络表现似乎更出色。Schlegl等[32]开发了一种深度学习的全自动诊断方法,实现了3种黄斑病变的IRC检测和定量的最佳准确度,平均准确率为94%,平均精确度为91%。
深度学习是机器学习研究中的一个新领域,可适用于大多数问题,有很高的普适性。再去解决另外问题时,深度学习只需要调整相关参数就能改变模型,但是高效率的深度学习算法需要大量的训练才能达到令人满意的程度。
复杂疾病常有多个亚型或多个阶段,这给疾病的诊断和分类带来一定的困难,使患者不能得到准确及时的治疗。当前组学技术高速发展,各层次的生物标志物众多,单一的生物标志物在面对复杂疾病时无法准确反映疾病的亚型和所处阶段,所以利用整合生物标志物诊断复杂疾病是目前研究的热点。利用整合生物标志物建立复杂疾病非侵入性诊断模型评价疾病的类型与发展阶段,可为判断疾病的发展和治疗提供依据,且非侵入性可以减少交叉感染的危险,对患者之后的生活影响较小。如果建立诊断模型的因素太多,预测的可靠性和准确性都难以达到要求,所以需要先筛选关键生物标志物。诊断模型只是诊断疾病的一种辅助手段,仍需要临床上对疾病诊断、监测多种方法的联合应用,才能对疾病作出更加准确的判断。