钟 堃,何法霖,王 薇,张 妍,王治国
(北京医院,卫生部临床检验中心,北京100730)
今天我们所知的“参考区间”概念是Graetsbeck和Saris在上世纪六十年代末建立的,并于1969年在斯堪的纳维亚学会大会上提出[1]。20年后,国际临床化学联合会(IFCC)专家组发表了第一篇关于参考值理论的正式IFCC文件[2]。30多年前Galen和Gambino就发表了标志性书籍《超越正态性》,为何在现在这个循证医学的时代还讨论参考区间并使用决定界限来描述特征[3]。三个新生事实驱动了以上论题的讨论:国际标准化组织(ISO)发布的标准15189:2007[4]对临床实验室质量和能力的要求、体外诊断(IVD)医疗器械欧洲指令98/97[5]的执行以及与指令间接相关的检验医学溯源性联合委员会(JCTLM)的建立。
本文中,除强调了重要方面的理论升级之外,还描述了参考区间领域新的视角和发展。
参考值与实验室检验共同发展,而且它们只在特定的情况下才有意义,通常是在生理或病理情况下。在70年代之前,通常使用的术语是“正常值”,但它会有多个易混淆的不同含义:墨菲(Murphy)列出了其中的7种(统计学的——高斯分布——最能代表一个等级、一个等级中最常规的代表、最适合生存的、没有危害——在医学中——常规的、理想的)[6]。因此它可能是主观并且模糊的,而且暗示所有在范围以外的个体都是“不正常的”。由于上述原因IFCC文件介绍了术语“参考值”。这些数值常与健康相关,除此之外它们也能反映一些特殊的生理状况如怀孕、或者涉及到某些特殊人群如专业运动员等。它的基本概念是这个数值代表了一个特定的人群,因此它们依赖于所选择的受试对象。首先,需要明确定义参考个体的遴选准则;参考个体代表了参考人群,参考样本组从参考个体中选择,在其上测量参考值。所得数值将会假设为一个特定分布(也就是参考分布),并且通过适当的统计方法进行分析并计算参考界限。按照惯例,这些界限设定为包括了95%的测量值。用参考界限定义包括它们的参考区间需注意以下情况:(1)一个特定被测项目的参考区间依赖于参考对象样本组中的个体内和个体间的生物学变异;因此,所选择对象的数量和他们的亚组组成可能具有相关的重要性;(2)需要严格地控制分析前方面以保证从总体人群中收集样本操作的可重复性;(3)分析方面是十分重要的。测量的标准化允许在不同对象组获得的数据具有可比性,并且最终与它们获得方式不同的,以及不同地点和时间的人群应用也具有可比性;(4)计算参考界限的方法可能显著地改变所获得的结果,例如,如果应用不适当的统计模型或错误地执行离群值的排除。
通常我们会选择“健康”的个体,但健康如何准确定义和识别已在多篇评论[7-9]中进行了解释。世界卫生组织(WHO)的定义:“身体上、精神上和社会适应上的完好状态,而不是仅仅是没有疾病和不虚弱”[10]并不能作为现实的出发点。1975年的斯堪的纳维亚参考值委员会尝试排除一系列病理情况来定义个体的“健康”[11]。但后来发现这并不实际[12],尤其是涉及到年长者。当Horn和Pesce[13]查看美国第三次国家健康和营养检测调查(NHANESⅢ)时,他们发现只有不超过10%的70-80岁调查对象落在“最健康”类别以内。
在选择个体时,有必要考虑所有可能影响检验项目结果的因素:性别、年龄、环境、生活方式和种族等。参考区间的宽度受到三种变异性来源的影响:选择的参考个体的个体内和个体间的变异,以及测量系统的分析性变异。个体内和个体间变异性的影响要紧密结合在一起。这两个来源的变异性的相对大小能实质上影响参考区间作为解释个体结果工具的效用。在大多数情况下参考区间在评价个体结果上的效用和发现异常数据上的敏感性是较低的。
使用数据挖掘方法发表的第一篇论文是在上世纪60年代并且假设大多数实验室结果是“正常的”。考虑到结果的分布频数,应该使用一些统计学软件来排除极端值,排除较小频率的数据,也就是典型的“不健康”个体。但它不满足参考值理论的基本原理,其是参考人群特点的精确定义。虽然信息技术提供我们强有力的计算方法,也不能认为数据挖掘方法是定义参考区间的最好方法。
参考区间研究的样本必须代表临床实践中样本的采集。但在临床实践中分析前因素通常很难标准化。所以在进行参考区间研究时,有必要确切的规定和描述分析前因素,使得其他研究者能够重复同样的步骤(例如采血设备和个人的体位)。表1给出了评价血液分析项目时要考虑的最为重要的分析前因素。对于体液来说可能需要包括不同的因素,而对于特定的分析物,则需要更多的信息(例如对于某些激素的情绪化应力水平)。
表1 在建立参考值时应该考虑的主要分析前因素
IFCC文件对这一主题给出了一系列建议,如文件记录操作程序。然而,当规定的参考区间仅应用于特定实验室时,这些建议有效,因为它能理解某些分析方面的修改是否会改变参考区间。反之,在提供给其它实验室“可转换”的参考区间定义程序时无效。
包括三个主要问题:(1)统计学提供最为有效的方法从样本人群所得的结果推断整体;(2)不同组间(年龄、性别等)的结果进行分组;(3)排除离群值。
Wootton等人在1951年首次将参数统计学应用于参考区间的计算。但他们不久就意识到这种统计学模型只能应用于少数的情况,并在两年后他们建议数据进行对数转换以达到更接近高斯分布。在数据分布的形状没有进行任何初步验证的情况下就将参考区间定义为均值±2倍标准差是不正确的做法,但却已沿用至今。
1987年IFCC发表了关于使用分位数定义参考区间的里程碑似的文章。首先,选择使用中间95%分布作为参考区间计算。其次,IFCC文件建议参考界限要代表着它们的90%置信区间。再次,文章建议使用非参数统计方法来计算参考界限。使用参数方法可以降低对象的数量,但是要求数据具有高斯分布。基于原始数据的Box和Cox转换,Horn等人建议使用“稳健的方法”进行替代,即使在数据不太理想的情况下依然能够提供正确结果。计算界限的90%置信区间,可以使用所谓的“bootstrap”方法学。
较直观的方法是基于计算两个亚组均值之间差异的统计显著性来完成的。Sinton等人,建议只要两个均数之间的差异大于从混合分布95%计算区间的1/4时,就应该分为两组。目前最常用的分组方法是Harris和Boyd建议的,后由美国临床和实验室标准化研究院(CLSI)文件C28-A2认可。他们建议检验要包括两步:第一,评估均值间的差异,第二,比较它们的标准差。
离群值的正确检出和排除十分重要。直观检查法是简单而有效的检出离群值的方法。如果检出一个离群值却没有明显的原因来排除它(比如对象的情况、分析性问题、计算或记录错误),有必要应用统计方法来证明。
目前较为常用的统计方法是由Dixon建议的。它基于D/R的比值,D是离群值与下一个或前面数值的差值的绝对值,R代表观察值的总体范围(最大值-最小值),包括离群值。Horn等人建议了一个更加复杂的两步算法,首先使用Box和Cox方法进行数据转换,得到高斯分布,然后使用Tukey稳健方法识别离群值。
实验室经常使用不同的参考区间却没有实际的原因。这种常见的情况对临床医生和患者的危险性产生了误导(同样的分析结果根据所用的参考区间,在一家实验室认为是“正常的”而另一家实验室是“异常的”)。另外,它阻碍了常规数据库的建立,如不同实验室数据的合并。克服这种情况的替换方法是建立和执行“共同的”参考区间[14,15]。
如果分析方法是相同的或经过正确的标准化后结果具有可比性,并且人群具有相同的特征或,可以知道特定项目没有受到种族或环境的影响,就可以使用共同的参考区间。在采用之前需要检查表2中汇总的一些先决条件是否已达到。
表2 共同的参考区间建立和使用必须的先决条件
最好的方法是执行多中心研究,目前已在西班牙实行,并且在北欧国家得到了进一步的发展。它要求:(1)根据年龄、性别、种族、生活方式等分组所要求对象的数量来确定参加研究的单位和所要召集个体的数量。(2)分析前阶段的清楚定义。理想情况下,在临床实验室为了再现样本处理,应对新鲜样本进行分析。(3)使用可溯源到参考测量系统以及实验室间高度可比的方法。(4)合理的数据分析计算参考界限。在计算参考界限之前,必须检出和排除可能的离群值。
为了能够应用共同的参考区间,临床实验室必须验证在区间产生过程中采用的那些分析前条件、所用分析系统的性能和服务人群的特征相似。
分析前条件:如果应用相同的分析前条件(比如标本类型、禁食等),或者证明任何引入的修改没有显著的影响。
分析中的方面:(1)对特定的分析物,所用方法必须产生可溯源至参考测量系统的结果。(2)所用方法的分析质量应控制在总误差的规定界线内。
如果已知种族或者生活方式不会影响到参考区间,那么就只用验证分析前和分析中的方面。如果已知种族或生活方式可能会影响到参考区间,那么建议临床实验室采用来自其服务人群的小样本组进行参考区间的确认。
参考测量系统的发展和制造商对溯源性的依从是一个缓慢的过程。建立稳健的参考区间是费时和费力的过程。由于修正参考区间是一项很费力的工作,而且要求对临床医生和患者进行督导,所以临床实验室通常不愿独立完成。对于一些分析项目,正确地定义共同的参考区间需要较大范围的多中心研究。为了在这个领域取得真正的进步,需要在完善的理论和并不完备的实际之间建立起桥梁。
如果满足了所有之前规定的组织上、分析前的和分析中的要求,不仅多中心实验研究所得的参考区间可以作为共同的参考区间,甚至可由单个实验室规定。IFCC参考区间和决定限委员会(C-RIDL)最近发表的一篇文章中显示,当采用单个实验室建立的已确认的参考区间时,当地人群区间的初步验证会有重要的意义。
表3中给出了这两个概念的相关信息。参考区间描述明确定义了(通常是明显健康的)人群的生物特征,决定限依赖于诊断性和特殊临床研究,为的是规定存在某种疾病或对不同结果的概率。选择的决定限通常是基于两个人群(疾病/非疾病)重叠的水平以及期望的临床灵敏度和特异度的程度。
表3 参考区间和决定界限间的差别
Harris在30多年前就对个体的参考区间给出了理论基础和统计学方法,但是在未来的执行仍具有挑战性。信息技术的发展允许我们存储大量资料并对进行快速的检索和处理。而且溯源性和检测标准化的改进也将会增加不同地点和时间结果的稳定性和可比性。实验模型非常简单,要求在稳定的健康状态时期从同一个体采集多份样本。对于给定分析物,这些样本的测量结果将会产生一个时间系列,组成一个基线来判断未来的结果。
修改已存在的参考区间通常是一项复杂的任务,应告知临床医生和他们的患者。共同参考区间的确定将显著地降低同一项目不同参考区间的数量,提供更恰当和更有效的信息。实验室人员需要在这些领域克服实际困难,尽快将理论改进应用于临床实践,以使医疗机构和患者获得预期的效益。
[1]Graetsbeck R,Saris NE.Establishment and use of normal values[J].Scand J Clin Lab Invest,1969,26(Suppl 110):62.
[2]Solberg HEInternational Federation of Clinical Chemistry (IFCC).Scientific Committee,Clinical Section.Expert Panel on Theory of Reference Values International Committee for Standardization in Haematology (ICSH),Standing Committee on Reference Values.Approved recommendation(1986)on the theory of reference values.Part 1.The concept of reference values[J].J Clin Chem Clin Biochem,1987,25:3370.
[3]Galen RS,Gambino SR.Beyond Normality:The Predictive Value and Efficiency of Medical Diagnoses[M].New York,USA:John Wiley and Sons,1975.
[4]International Organization for Standardization.Medical Laboratories-Particular Requirements for Quality and Competence ISO 15189[J].Geneva:ISO,2007.
[5]Directive 98/79/EC of the European Parliament and of the Coun-cil of 27October 1998on in vitro diagnostic medical devices[S].Offic J Eur Commun 7December 1998,L331/1-L331/37.
[6]Murphy EA.The normal,and the perils of the sylleptic argument[J].Perspect Biol Med,1972,15:566.
[7]Gräsbeck R.The evolution of the reference value concept[J].Clin Chem Lab Med,2004,42:692.
[8]Petitclerc C.Normality:the unreachable star[J].Clin Chem Lab Med,2004,42:698.
[9]Ritchie RF,Palomaki G.Selecting clinically relevant populations for reference intervals[J].Clin Chem Lab Med,2004,42:702.
[10]World Health Organization.Constitution in Basic Documents[S].Geneva:WHO,1948.
[11]Alstrucm T,Gretsbeck R,Hjelm M,et al.Committee on Reference Values,Scandinavian Society for Clinical Chemistry and Clinical Physiology.Recommendations concerning the collection of reference values in clinical chemistry and activity report[J].Scand J Clin Lab Invest,1975,35(Suppl.144):1.
[12]Berg B,Nilsson JE,Solberg HE,et al.Practical experience in the selection and preparation of reference individuals:empirical testing of the provisional Scandinavian recommendations[M].In:Gretsbeck R,Alstrucm T’eds.Reference Values in Laboratory Medicine.John Wiley & Sons,1981:55-64.
[13]Horn PS,Pesce AJ.Reference intervals:an update[J].Clin Chim Acta,2003,334:5.
[14]钟 堃,王治国,王 薇,等.利用多中心使用相同检测系统建立人体参考区间的要求[J].中华检验医学杂志,2010,33(8):790.
[15]王治国.临床检验质量控制技术(第2版)[M].北京:人民卫生出版社,2008.