综合指数与粗糙集联用法在评价人群血常规指标健康风险水平的应用*

2022-01-19 06:37陈楚言吴婧宇徐艳凤
国际检验医学杂志 2022年1期
关键词:约简粗糙集血常规

张 明,陈楚言,尹 杰,梁 兵,刘 君△,吴婧宇,徐艳凤

1.广州南方学院云康医学与健康学院,广东广州 510970;2.广州达安临床检验中心,广东广州 510700

血液是悬浮着大量自由漂浮的红细胞、白细胞和血小板,且对人及动物的许多生命功能起至关重要作用的弱碱性液体,它的主要功能是将氧气和营养物质运送到全身各器官、组织和细胞。同时,血液将细胞代谢产生的二氧化碳运送到肺,将其他代谢终产物运送到肝脏和肾脏而排出体外。血常规指标的检测结果常被用于人类健康的临床评估[1]。通过红细胞计数(RBC)、平均红细胞容积(MCV)、血红蛋白(Hb)、平均红细胞血红蛋白量(MCH)、平均红细胞血红蛋白浓度(MCHC)和血细胞比容(HCT)来评估人体的携氧能力;通过白细胞计数(WBC)和血小板计数(PLT)来分别评估免疫系统和凝血状态。血常规指标有助于诊断贫血、某些癌症、感染、急性出血状态、过敏、免疫缺陷以及可引起血液系统疾病的药物毒副作用[2]。目前,各类医学检测机构存在着大量血常规指标的监测数据,这些数据仅用于当时个体健康的评估或者临床上结合其他指标情况来诊断某些疾病,缺乏对于数据信息的挖掘过程,造成了数据浪费。本研究根据血常规指标限量值特点,将综合指数法与粗糙集理论相结合建立了一种血常规指标健康风险评价方法,以2016-2020年广东地区送往广州达安临床检验中心血常规监测数据为研究对象,应用该方法综合分析广东地区人群血常规各项指标健康风险水平及动态变化情况,为综合评价相关指标提供可借鉴方法。

1 资料与方法

1.1一般资料 随机抽取2016-2020年广东地区送往广州达安临床检验中心血常规体检标本20 023份,其中男性标本10 011份,女性标本10 012份;受检者年龄6~96岁,平均(56.8±17.4)岁;标本及受试者具体情况详见表1。血常规检测项目为RBC、MCV、Hb、MCH、MCHC、HCT、WBC和PLT共8项,监测数据共计160 184个,血常规检测数据具体情况详见表2。

表1 标本及受试者基本情况

表2 血常规指标检测数据基本情况

1.2评价内容 建立健康水平与风险等级分级标准,使用血液健康指数(BHI)评价血液健康状况,分别以BHIA、BHIM、BHIF、BHIE、BHIN表示整体、男性、女性、老年(年龄≥60岁)、非老年(年龄<60岁)人群的血常规指标的健康水平及年度变化情况;评价各单项指标对不同人群的BHI的影响。使用粗糙集理论方法进行指标约简,评价整体(A)、男性(M)、女性(F)、老年(E)、非老年(N)人群血常规指标中的核心指标及风险程度。本研究方案完全符合《赫尔辛基宣言》的原则,严格遵守医学研究的准则。

1.3方法

1.3.1血常规检测 使用迈瑞BC-5800全自动五分类血细胞分析仪及其配套试剂(质控品、校准品及检测试剂)检测血常规各指标,各指标限量值与试验具体步骤严格按照卫生部行业标准[3]及全国临床检验操作规程[4]执行。

1.3.2评价方法 BHI是用无量纲的相对数来表示血液健康状况的统计学方法,将检测数据转化为标准形式进行比较。本研究在前期工作基础上[5]将指数分为:单要素健康指数Ii,代表一个检验数据的健康指数;类要素健康指数HIi,代表同类指标检验数据平均健康指数,如:红细胞计数健康指数可表示为HIRBC;血液要素BHIi代表一定范围内所有数据平均健康指数,如:男性人群健康指数可表示为BHIM。采用公式(1)计算Ii:

(1)

公式中Xi为各项指标实测值,Su和Sd是与Xi相应指标参考范围的上限值和下限值。采用公式(2)计算HIi:

(2)

公式中n为单要素个数。采用公式(3)计算BHIi:

(3)

公式中k为类要素个数。

为了突出超标情况,一旦实测值超出限值,即对Ii值取加权系数2,同时避免因实测值与限值相差太大而影响评价,将实测值的最高值分别限定为上、下限值的10倍和1/10。由公式(1)-(3)可知,当全部指标实测值均大于或等于相应限值10倍或1/10时,BHI=20,即最差值;当全部实测值等于上、下限值时,BHI=1,即限量值;当全部实测值等于上、下限值的1/2时,BHI=0,即最佳值。

指标约简是指在分类能力保持不变的条件下删除掉不重要或不相关的指标,达到突出核心指标的目的。本研究在前期工作基础上[6]使用基于粗糙集理论[7]开发的Rosetta软件完成约简过程,给出相应的决策规则。具体过程为:按照健康风险等级标准(表3)将各单要素风险值(1~6)离散导入软件组成条件属性集“D”,将超限1项及以上项目的行组定义为风险组“R”,组成决策属性集并生成决策表。采用遗传算法计算最小命中集合“R”,种群从属性集“D”的幂集2k中选择相应的属性是否出现[8],适应函数公式如下:

(4)

1.3.3分级标准 通过假设全部标本实测值的3种理想状态(最佳值、限量值和最差值)的不同比例(最佳值为70%和40%,最差值为40%、70%和100%,其余部分由限量值补齐为100%)将BHI数值范围划分为6个区间(限量以上为3个;以下为3个),表示人群血常规指标的健康水平及风险程度,具体情况详见表3。

表3 健康水平与风险等级标准

1.4统计学处理 采用SPSS19.0软件进行数据分析。粗糙集约简使用波兰华沙大学开发的Rosetta,版本号为1.4.41。以P<0.05为差异有统计学意义。

2 结 果

2.1人群血常规健康水平及年度变化情况 由表4可见,BHIA、BHIM、BHIF、BHIE和BHIN分别为0.774、0.758、0.790、0.742和0.794,指数对应评价等级范围均为3级(表3),说明各人群血常规健康水平合格,健康程度一般。不同人群健康水平从高到低依次为老年、男性、女性、非老年人群,组间比较差异无统计学意义(P=0.737>0.05)。由图1可见,2016-2020年BHIA、BHIM、BHIF、BHIE和BHIN的变化趋势相同,自2016至2019年逐渐下降至最低,2020年回升,指数总体保持下降趋势,说明2016-2020年血常规健康水平总体向好,无论男性、女性、老年、非老年人群血常规健康水平均表现自2016年逐步上升至2019年达到最佳,2020年均表现为略有下降。

表4 血常规各指标BHI评价结果

图1 2016—2020年BHI值年度变化情况

2.2各单项指标对人群血常规健康水平的影响 由表4可见,对人群(含男性、女性、老年和非老年)BHI影响最大的2项指标为MCHC和MCV,BHI范围分别为1.280~1.398和0.834~1.010(均明显高于其他指标)。MCHC在各类人群中等级值均为4级(表3),说明各类人群中MCHC指标健康水平较差;MCV在老年人群中等级值为4级,其他人群中均评价为3级,说明在老年人群中MCV指标健康水平较差,在其他人群中健康水平一般。除上述2项指标外,对人群BHI影响较大的指标(评价为3级)有男性人群的Hb、PLT和RBC(0.618~0.788),女性人群的MCH、PLT、HCT和WBC(0.615~0.830),老年人群的Hb、PLT、HCT和RBC(0.607~0.697),非老年人群的Hb、MCH、PLT、HCT、WBC和RBC(0.661~0.834),影响较大的指标说明对应人群的该指标健康水平一般;影响较小的指标(评价为2级)有:男性人群的MCH(0.589)、HCT(0.594)和WBC(0.548),女性人群的Hb(0.583)和RBC(0.596),老年人群的MCH(0.564)和WBC(0.551),非老年人群无影响较小指标。影响较小的指标说明对应人群的该指标健康水平良好。

2.3人群血常规指标风险分析 将全部监测数据导入Rosseta软件进行计算,分别对整体及各类人群(含男性、女性、老年人和非老年人)数据进行约简,结果发现Hb、MCHC、MCV、MCH、PLT、HCT、WBC和RBC均为核心指标。获得决策属性为“R”的风险规则7 322组,筛选(设定精度>0.75,覆盖度>0.002)得到主要风险规则22组。由表5可见,整体人群规则为4项(序号1-4)、男性人群为5项(序号5-9)、女性人群为8项(序号10-17)、老年人群为2项(序号18-19)和非老年人群为3项(序号20-22)。在约简规则中MCHC均为4级,覆盖度的和分别为0.009 362(A)、0.013 242(M)、0.020 831(F)、0.005 597(E)和0.007 547(N),提示在9.362‰的整体人群、13.242‰的男性人群、20.831‰的女性人群、5.597‰的老年人群和7.547‰的非老年人群中MCHC指标均存在较高风险;同时在男性和女性人群均有MCV为4级,覆盖度的和分别为0.004 566(M)和0.004 363(F),提示在4.566‰男性和4.363‰女性人群中MCV指标也存在较高风险;并且在女性人群中有PLT为4级,覆盖度为0.002 111,提示2.111‰的女性人群中PLT存在较高风险。由于约简规则经过条件筛选,各类人群实际风险程度要高于提示水平。

表5 血常规不合格指标主要约简规则

3 讨 论

本研究将综合指数法与粗糙集理论2种统计学法联用建立了一种新的评价方法,通过对广州达安临床检验中心2016-2020年20 023份血常规数据进行回顾性分析,将该方法应用于评价不同人群的血常规8项检测指标,获得了各类人群队列血常规健康风险水平。血常规指标能够直接反映出人体血液健康水平,而血液功能又是人体健康水平的重要衡量指标,所以血常规指标状态可以间接体现出人体健康程度。本研究发现广东地区人群血常规健康程度为合格水平,2016-2020年广东地区各类人群(男性、女性、老年、非老年)血常规健康水平总体向好,2019年达到最佳,各类人群健康水平从高到低依次为老年、男性、女性、非老年人群。本研究发现,老年人群血常规指标健康水平高于非老年人群,男性人群高于女性人群。陈政弘等[9]调查了北京、长沙和成都老年前期(45~59岁)人群亚健康状况及影响因素,发现老年前期人群的亚健康状态检出率为53.51%,女性亚健康比例要高于男性,劳动强度和年龄因素是影响健康的主要因素。老年前期人群的身体功能逐步下降而劳动强度反而增加导致此类人群健康水平明显下降,而步入老年期后劳动强度的明显降低,加之保健、养生、治疗等因素使老年人群血常规指标更加健康。陈结瑜等[10]通过调查广州、东莞、深圳等地2万名人口样本发现广东男性比女性健康的比例高出8%,这与本研究血常规指标性别差异结果一致,其认为在同等劳动强度下,女性比男性承担更多的家务劳动同时又缺乏有效的调节。

MCHC和MCV是临床诊断贫血的特征指标,最近研究发现这2项指标在其他多种疾病中具有临床应用价值,LI等[11]在中国人群中基于Cox风险模型评估MCHC与高血压疾病的关联性发现,MCHC与男性受试者高血压发生率明显相关;LI等[12]通过为期8年的社区老年人群研究发现,MCV与认知功能损害的风险增加相关;LEE等[13]研究发现MCHC与女性抑郁症状发生率相关;TANAKA等[14]研究发现MCV合并Hb水平升高与代谢综合征患病率相关。本研究发现,在各类人群中MCHC和MCV对BHI影响均明显高于其他指标,建议应加强对MCHC和MCV指标的常规监测。除MCHC和MCV外,各类人群其他指标影响差异程度表现不尽相同。在不同性别人群比较中Hb和RBC对男性人群影响较大,而MCH、HCT和WBC对女性人群影响较大,PLT影响程度相同,其他指标影响程度较小,说明广东地区男性人群Hb和RBC异常情况要高于女性人群,而女性人群MCH、HCT和WBC异常情况要高于男性人群。究其原因可能与吸烟、焦虑和轻度抑郁等因素有关,众所周知,男性人群吸烟比例明显高于女性,而女性人群焦虑和轻度抑郁要高于男性人群。MIRI-MOGHADDAM等[15]研究发现吸烟可导致大鼠的RBC和Hb数值明显异常升高;MALENICA等[16]研究发现男性吸烟者与女性吸烟者相比Hb明显升高;PITSAVOS等[17]研究发现健康人群中女性的焦虑和抑郁会引起白细胞异常,但对男性没有影响;MOJTABA等[18]和MAES等[19]的研究发现焦虑能够引起MCH和HCT血液指标的异常变化。本研究显示,在不同年龄人群比较,MCH和WBC对非老年人群影响较大,而对老年人群影响较小。江虹等[20]对中国老年健康人群血常规指标研究发现,对于60岁以上老年人群,随着年龄增加,MCH和WBC未见明显变化。

粗糙集理论可以约简到核心风险指标并能获得决策规则,是对综合指数评价方法的有益补充和完善。本研究将粗糙集理论算法应用于血常规检测数据的统计分析,具有良好的应用价值。研究发现血常规8项指标均为核心指标,说明此次粗糙集理论运算指标的条件属性分布及对决策属性的贡献度比较均匀。通过筛选得到主要风险规则22组,在广东地区各类人群中均提示MCHC指标具有较高超标风险,在男性和女性人群中提示MCV存在较高风险,同时女性人群中还提示PLT也存在较高风险。陈国新等[21]研究发现异常血常规标本的MCHC比健康人群明显升高;杨志钊等[22]对2 000例无贫血体检成人静脉血指标研究发现MCV存在年龄和性别的差异性;张园满等[23]研究发现不同性别之间血小板参数之间存在明显差异,不同人群类型的风险指标能够对异常血常规标本起到一定风险提示作用。本研究还存在局限性,一是研究为回顾性,在随机抽取数据上可能存在选择性偏移,需要更加全面的数据量进行验证;二是在粗糙集理论约简规则获取过程中采用了数据筛选(由于规则太多),导致不能体现出全部指标风险规则。本研究的主要贡献体现在建立了一种多统计学联用的医学检验指标的评价方法,具有可借鉴的意义。

综合指数与粗糙集理论联用法可以评价人群血常规指标健康风险状况,2016-2020年广东地区人群血常规健康程度为合格水平且表现为总体上升,MCHC和MCV对广东地区人群血常规健康影响较大,整体人群MCH、男性人群MCV、女性人群MCV和PLT均提示不同概率的风险,应加强监测。

猜你喜欢
约简粗糙集血常规
粗糙集与包络分析下舰船运行数据聚类算法
血常规检验中常见误差原因及解决策略
血常规解读
基于Pawlak粗糙集模型的集合运算关系
基于0-1规划的最小属性约简算法
血清肿瘤标志物联合血常规指标检测在原发性肝癌诊断中的应用观察
血常规检验前的准备工作
面向特定类的三支概率属性约简算法
多粒度犹豫模糊粗糙集*
直觉模糊序决策系统的部分一致约简*