摘要:正确判断异常值是进行科学统计分析的前提,而在实际数据分析过程中,常常忽略对异常值的处理,或对异常值重视不够,甚至不清楚各种判别方法的适用条件。该文综述了异常值的来源、常用的异常值判别方法的特点、分析步骤及判别标准。
关键词:异常值,判别方法,药品,质量控制。
异常值通常是指实验中与预期有较大差距的值。USP中对异常值有明确的规定,记任何反常、不一致、可疑或模糊的观察值均可称为异常值。在药品检验过程中经常会出现异常值,拒绝或保留一个明显的异常值往往会导致资料处理困难,重者可能产生严重偏差。对异常数据进行合理的发现和处理,对于保证药品检验结论的科学性、严谨性,从而保证人们使用药物的安全性具有极为重要的意义。
1 异常值的来源
异常值来源一般有4种:①由实验设备不准确、不稳定造成的数据严重偏离真实值,不符合实际;②由操作技术、读数习惯等人为客观因素造成的数据不一致;③由数据记录不清楚、感觉计数等人为主观过失造成的假观察值;④由实验中出现的小概率事件引起的数据不一致。
2 异常值检测方法及其特点
异常值的检验方法大多数属于距离法, 常见的有奈尔检验法、拉依达准则法、肖维勒准则法、罗曼诺夫准则、格拉布斯检验法、狄克逊检验法、偏度-峰度检验法、汉佩尔准则、四分位数法以及鲁棒回归分析法。选择合适的异常值检验方法取决于样本量大小和分布的假设。下面我们简要介绍各种异常值判断法的适用情况及应用优缺点。
1)奈尔检验法
奈尔检验法适用于样本量n>3,且要求数据集符合正态分布,该法的优点是使用简便,缺点在于需要知道总体的标准差。
2)拉依达准则法
拉依达准则法适用于样本量n>10,且要求数据集符合正态分布,优点是使用简单,不需要查表,当样本量较大时适用。缺点是样本量n≤10时不适用。
3)肖维勒准则法
肖维勒准则法适用于样本量n>16,不需要数据集符合正态分布,它是拉依达准则法改进按本,该法的缺点是没有概率理论,当样本量n过大时会失效。
4)罗曼诺夫准则法
罗曼诺夫准则法适用于样本量n<20,要求数据集符合正态分布,其优点是检验效率高,缺点是随着样本量n的增大,灵敏度会逐渐降低。
5)格拉布斯检验法
格拉布斯检验法适用于样本量n>6,要求数据集符合正态分布,其优点是检验效率高,缺点是样本量n较小时或存在多个异常值接近时不适用。
6)狄克逊检验法
狄克逊检验法适用于样本量3 7)偏度-峰度检验法 偏度-峰度检验法适用于样本量n>3,要求数据集符合正态分布,其优点时重复使用检测多个异常值时具有非常好的效果,缺点是极端值英较为明显的偏离样本主体。 8)汉佩尔准则法 汉佩尔准则法适用于样本量n>3,要求数据集符合正态分布,其优点是使用简单,不需要查表,检验效果很高,缺点是对异常值不够敏感,判断较为保守。 9)四分位数法 四分位数法适用于样本量n>4,不要求数据集符合正态分布,其优点是使用简单,不需要查表,检验效果能够控制,缺点是对样本量要求较大,一般n>10时才具有较好的效果。 10)鲁棒回归分析法 鲁棒回归分析法适用于样本量n>10,要求数据集符合正态分布,优点是能够同时检验出样本中的多个异常值,缺点是只适用于大样本。 3 异常值判定标准和检验步骤 异常值的准确判别是确保数据分析正确,得到结果合理的首要前提,也是研究数据可靠的重要保障。所以科学地判断异常值对各种实验尤为重要。怎样把握异常判断的标准?对于这一问题,目前尚无确切结论。 对于异常值的判断,首先应该对数据的来源进行调查,如果可以确定是人员故障还是仪器故障等导致了异常值,则不论检验结论是否为异常,均应直接排除该值,不得用于后续的计算。但是,这类研究通常是不能确定的,这时,再借助一些异常值的判断,来找出这些异常值。但由于不同方法的精确度不一样,对于一般的实验人员,也无法判断应采用哪种方法,对于这种两难问题,处理的原则是:看减少一个或几个异常数值对实验结果的影响究竟有多大;如果确定所测数据的反常值对原始结果的影响很大,则多项判别结果也一致,一般认为该数值为异常值。 一般情况下,用反常值检验法来判定异常值,需要采取以下步骤:①计算样本容量,确定样本量的大小;②对数据样本从小到大进行排序,找出两端的极值;③确定数据是否为正态分布,或将其转化为正态分布;④判断数据是否需要转换,然后再进行反常值判断;⑤选取1种常用或敏感程度较高的判别标准进行判别;⑥根据判别结果的共性,判断其是否为异常。 对于异常值检验,通常采用α为0.05或0.01这两种标准,但也有学者认为应采用更严格的α为0.01或0.005这两种标准。不管α的大小如何,判断结果是否认为数据是异常值是不可避免的错误。第1类错误是指将正常数值视为不正常值而被拒绝,其发生概率为α(弃真存伪);第2类错误是指将不正常值视为正常值而被接受,其发生概率为β(弃伪存真),其概率通常为β<(1-α),又称α作用函数。通常情况下,进行异常值检验时,主要是为了减少犯第1类错误的概率,所以在实际判别时,应正确选择α值,以使结果更加合理。 4 小结 在药品质量控制中, 通过符合实验原理基础上转换的符合正态分布数据集, 一般选用 格拉布斯检验、狄克逊检验(极小样本) 、汉佩尔准则方法(大样本)和四分位数法等,其他方法可辅助参考使用。 参考文献: [1]曹玲,吴莉,王玉,吴越.药品检验中常用的统计学方法及其应用[J].中南药学,2019,17(09):1508-1513. [2]李晓斌. 中药临床试验肝肾功能指标异常值的分析与评价[D].辽宁中医药大学,2013. [3]牛晓辉. 新农合住院费用的分析及异常值筛检方法研究[D].华中科技大学,2012. 作者简历:钟蓓蓓(1994/01),女,江苏省連云港人,本科,研究方向:质量控制,风险管理,GMP (正大天晴药业集团南京顺欣制药有限公司 江苏南京 211100)