常用异常值判别方法在药品质量控制中的应用研究

2021-09-10 04:43钟蓓蓓

医学前沿 2021年6期

摘要：正确判断异常值是进行科学统计分析的前提，而在实际数据分析过程中，常常忽略对异常值的处理，或对异常值重视不够，甚至不清楚各种判别方法的适用条件。该文综述了异常值的来源、常用的异常值判别方法的特点、分析步骤及判别标准。

关键词：异常值，判别方法，药品，质量控制。

异常值通常是指实验中与预期有较大差距的值。USP中对异常值有明确的规定，记任何反常、不一致、可疑或模糊的观察值均可称为异常值。在药品检验过程中经常会出现异常值，拒绝或保留一个明显的异常值往往会导致资料处理困难，重者可能产生严重偏差。对异常数据进行合理的发现和处理，对于保证药品检验结论的科学性、严谨性，从而保证人们使用药物的安全性具有极为重要的意义。

1 异常值的来源

异常值来源一般有4种：①由实验设备不准确、不稳定造成的数据严重偏离真实值，不符合实际;②由操作技术、读数习惯等人为客观因素造成的数据不一致;③由数据记录不清楚、感觉计数等人为主观过失造成的假观察值;④由实验中出现的小概率事件引起的数据不一致。

2 异常值检测方法及其特点

异常值的检验方法大多数属于距离法，常见的有奈尔检验法、拉依达准则法、肖维勒准则法、罗曼诺夫准则、格拉布斯检验法、狄克逊检验法、偏度-峰度检验法、汉佩尔准则、四分位数法以及鲁棒回归分析法。选择合适的异常值检验方法取决于样本量大小和分布的假设。下面我们简要介绍各种异常值判断法的适用情况及应用优缺点。

1）奈尔检验法

奈尔检验法适用于样本量n>3，且要求数据集符合正态分布，该法的优点是使用简便，缺点在于需要知道总体的标准差。

2）拉依达准则法

拉依达准则法适用于样本量n>10，且要求数据集符合正态分布，优点是使用简单，不需要查表，当样本量较大时适用。缺点是样本量n≤10时不适用。

3）肖维勒准则法

肖维勒准则法适用于样本量n>16，不需要数据集符合正态分布，它是拉依达准则法改进按本，该法的缺点是没有概率理论，当样本量n过大时会失效。

4）罗曼诺夫准则法

罗曼诺夫准则法适用于样本量n<20，要求数据集符合正态分布，其优点是检验效率高，缺点是随着样本量n的增大，灵敏度会逐渐降低。

5）格拉布斯检验法

格拉布斯检验法适用于样本量n>6，要求数据集符合正态分布，其优点是检验效率高，缺点是样本量n较小时或存在多个异常值接近时不适用。

6）狄克逊检验法

狄克逊检验法适用于样本量3

7）偏度-峰度检验法

偏度-峰度检验法适用于样本量n>3，要求数据集符合正态分布，其优点时重复使用检测多个异常值时具有非常好的效果，缺点是极端值英较为明显的偏离样本主体。

8）汉佩尔准则法

汉佩尔准则法适用于样本量n>3，要求数据集符合正态分布，其优点是使用简单，不需要查表，检验效果很高，缺点是对异常值不够敏感，判断较为保守。

9）四分位数法

四分位数法适用于样本量n>4，不要求数据集符合正态分布，其优点是使用简单，不需要查表，检验效果能够控制，缺点是对样本量要求较大，一般n>10时才具有较好的效果。

10）鲁棒回归分析法

鲁棒回归分析法适用于样本量n>10，要求数据集符合正态分布，优点是能够同时检验出样本中的多个异常值，缺点是只适用于大样本。

3 异常值判定标准和检验步骤

异常值的准确判别是确保数据分析正确，得到结果合理的首要前提，也是研究数据可靠的重要保障。所以科学地判断异常值对各种实验尤为重要。怎样把握异常判断的标准？对于这一问题，目前尚无确切结论。

对于异常值的判断，首先应该对数据的来源进行调查，如果可以确定是人员故障还是仪器故障等导致了异常值，则不论检验结论是否为异常，均应直接排除该值，不得用于后续的计算。但是，这类研究通常是不能确定的，这时，再借助一些异常值的判断，来找出这些异常值。但由于不同方法的精确度不一样，对于一般的实验人员，也无法判断应采用哪种方法，对于这种两难问题，处理的原则是：看减少一个或几个异常数值对实验结果的影响究竟有多大;如果确定所测数据的反常值对原始结果的影响很大，则多项判别结果也一致，一般认为该数值为异常值。

一般情况下，用反常值检验法来判定异常值，需要采取以下步骤：①计算样本容量，确定样本量的大小;②对数据样本从小到大进行排序，找出两端的极值;③确定数据是否为正态分布，或将其转化为正态分布;④判断数据是否需要转换，然后再进行反常值判断;⑤选取1种常用或敏感程度较高的判别标准进行判别;⑥根据判别结果的共性，判断其是否为异常。

对于异常值检验，通常采用α为0.05或0.01这两种标准，但也有学者认为应采用更严格的α为0.01或0.005这两种标准。不管α的大小如何，判断结果是否认为数据是异常值是不可避免的错误。第1类错误是指将正常数值视为不正常值而被拒绝，其发生概率为α（弃真存伪）;第2类错误是指将不正常值视为正常值而被接受，其发生概率为β（弃伪存真），其概率通常为β<（1-α），又称α作用函数。通常情况下，进行异常值检验时，主要是为了减少犯第1类错误的概率，所以在实际判别时，应正确选择α值，以使结果更加合理。

4 小结

在药品质量控制中，通过符合实验原理基础上转换的符合正态分布数据集，一般选用格拉布斯检验、狄克逊检验（极小样本）、汉佩尔准则方法（大样本）和四分位数法等，其他方法可辅助参考使用。

参考文献：

[1]曹玲，吴莉，王玉，吴越.药品检验中常用的统计学方法及其应用[J].中南药学，2019，17（09）：1508-1513.

[2]李晓斌. 中药临床试验肝肾功能指标异常值的分析与评价[D].辽宁中医药大学，2013.

[3]牛晓辉. 新农合住院费用的分析及异常值筛检方法研究[D].华中科技大学，2012.

作者简历：钟蓓蓓（1994/01），女，江苏省連云港人，本科，研究方向：质量控制，风险管理，GMP

（正大天晴药业集团南京顺欣制药有限公司江苏南京 211100）