基于数据挖掘的齐齐哈尔地区男性骨密度与相关因素关系的研究

2021-10-18 10:38赵硕
关键词:病史决策树比率

赵硕

(齐齐哈尔大学 网络信息中心,黑龙江 齐齐哈尔 161006)

对骨质疏松早预防、早发现是一个重要的研究课题。有些学者对不同年龄健康人群不同部位骨密度调查分析[1];有些学者对肥胖男性体成分与骨密度相关性进行研究[2];有些学者对河北地区不同年龄健康男性不同部位骨密度与体成分分析[3];有些学者研究COPD患者骨密度与其他指标的相关性[4];有的学者研究Wards三角骨密度与年龄、腰围、总体脂肪质量和总体肌肉质量的相关性[5],但是有病史是否影响骨密度的含量,以及应用数据挖掘的方法对骨密度与相关因素关系的研究未见报道。本文应用数据挖掘的方法对齐齐哈尔地区男性骨密度与相关因素的关系进行研究。首先对20~89岁男性的骨密度与相关因素的原始数据进行采集,然后对原始数据按不同种类进行分类统计,得到各种统计表。再应用改进的决策树算法找到不同分类标准下骨密度的变化规律。建立决策树,用决策树判断患者患病的概率。

1 男性骨密度与相关因素关系

1.1 相关术语介绍

1.1.1 决策树算法

决策树算法是数据挖掘的常用方法之一。决策树是一种常用于预测模型的算法,它通过一系列规则将大量数据有目的分类,从中找到一些有价值的、潜在的信息。

1.1.2 骨密度

骨密度又叫做骨骼矿物质密度(Bone mineral density),简称BMD。是骨质量的一个重要指标,以克/每平方厘米表示(g/cm2),反映骨质疏松的程度,是预测骨折危险性的重要指标和依据。

1.1.3 T值

T值是将测得的骨密度值与同性别、同种族的正常人群骨峰值的比较值:

T值=(被测人骨密度-正常人群平均骨密度峰值)/正常人群平均骨密度的标准差

1.1.4 Z值

Z值是将测得的骨密度值与同年龄、同性别、同种族的正常人群比较值:

Z值=(被测人骨密度-同龄人群平均骨密度值)/同龄人群平均骨密度的标准差

1.1.5 脂肪率

脂肪率是指身体成分中,脂肪组织所占的比率。用公式表示为

1.1.6 身高体重指数

体质指数:即身高体重指数(BMI)。

BMI=体重(kg)/身高²(m²)

专家指出最理想的体重指数是22,BMI指数不适用于儿童。

体成分分析相关指标:中国成年人身体质量指数,轻体重:BMI<18.5;健康体重:18.5≤BMI<24;超重:24≤BMI<28;肥胖:28≤BMI,最理想的体重指数是22。

一般来说,绝经后妇女和50岁以上男性的BMD报告原则使用T值和WHO骨密度测量的分类标准;绝经前妇女和50岁以下的男性BMD报告原则使用Z值,不能使用T值,尤其是儿童。Z值等于或小于-2.0表示:“骨密度低于同龄人”;Z值大于-2.0表示:“骨密度在同龄人范围内。”单独依据BMD不能诊断50岁以下男性患骨质疏松症。WHO诊断标准可能适用于绝经妇女。

实际检测病人的标准是:当T值为-1~+1时,骨量正常;当T值为-2.5~-1时,骨量减少;当T值小于-2.5时,是骨质疏松。

1.2 原始数据统计表

原始数据统计表,主要收集2015年以来,在齐齐哈尔市第一医院门诊及住院的20~89岁男性患者信息,共560人。其中20~29岁有21人;30~39岁有91人;40~49岁有152人;50~59岁有186人;60~69岁有62人;70~79岁有37人;80~89岁有11人。原始数据信息统计部分数据如表1所示。

表1 原始数据信息统计部分数据

1.3 分类研究

50岁以下男性使用Z值进行检测骨密度,50岁及以上男性使用T值检测骨密度。

1.3.1 按照有无病史进行分类

有病史患者共279人。其中,20~29岁有6人;30~39岁有39人;40~49岁有73人;50~59岁有101人;60~69岁有28人;70~79岁有24人;80~89岁有8人。可以求出有病史患者T值或Z值偏低、正常和偏高的人数,从而可求出有病史患者T值或Z值偏低、正常、偏高的比率表,如表2所示。

表2 有病史患者Z(T)值比率表

通过统计发现,对于有病史的患者,20~29岁时,正常范围的比率最高,其次是40~49岁。50~89岁,T值的正常比率与年龄呈负相关。T值偏低的比率所有年龄段整体趋势随年龄增加而增加。T值偏高的比率,50~89岁随年龄增加,偏高的比率增加。T值偏高的比率与年龄增长正相关,发现30~39岁,有病史的患者,比20~29岁和40~49岁有病史的患者骨密度偏低的比率增加。30~39岁,有其他疾病的患者,要注重补充体内骨密度的含量,以免使骨密度减少。50~89岁,对于有病史的患者,注意预防骨量偏低、骨质疏松和骨质硬化。

无病史患者共281人。其中20~29岁有14人;30~39岁有52人;40~49岁有78人;50~59岁有88人;60~69岁有33人;70~79岁有13人;80~89岁有3人。可以求出无病史患者T值或Z值在偏低,正常和偏高的人数,从而可求出无病史患者T值或Z值在偏低,正常,偏高的比率表,如表3所示。

对于无病史患者,除了50~59岁以外,其他年龄段的患者,随着年龄的增加,Z值或T值的正常比率下降;Z值或T值偏低的比率上升,50~59岁时候,T值或Z值比40~49岁、60~69岁偏低或偏高的现象。说明,无病史的男子50~59岁时候,需要注意身体保健,出现骨密度不正常的比率升高,应该注重营养,增加骨密度,主要防治骨质疏松和骨质硬化。

把有病史和无病史的患者对比发现,对于60岁以上的患者,无病史比有病史的患者,骨密度正常值的比率偏高。说明年龄大时,如果有其他病史,对骨密度含量有一定影响。

1.3.2 按脂肪率分类

采样20~89岁男性共560人。按照30岁以下,偏瘦是脂肪率14%以下;标准是脂肪率14%~20%;微胖是脂肪率21%~25%;肥胖是脂肪率25%以上。30岁以上,偏瘦是脂肪率17%以下;标准是脂肪率17%~23%;微胖是脂肪率24%~25%;肥胖是脂肪率25%以上。偏瘦脂肪率共76人;标准脂肪率共104人;微胖脂肪率为28人;肥胖脂肪率为352人。由各段体重的人数可以求出脂肪率的比率,如表4所示。

表4 脂肪率Z(T)值比率统计表

通过脂肪率比率表发现,脂肪率肥胖的患者,Z值或T值偏低的比率最高,说明肥胖的患者,骨密度减少的可能性最大,肥胖患者Z值或T值正常的比率最低;微胖的患者Z值或T值偏高的比率最大。说明为了健康应该控制体内脂肪的含量,以免患骨质疏松或骨质硬化病。

1.3.3 按BMI分类

采样20~89岁男性共560人。按照30岁以下,偏瘦是BMI<20;正常是20≤BMI≤25;超重是25<BMI≤30;肥胖是30<BMI≤35。重度肥胖是BMI>35。总人数共560人。其中偏瘦的有26人;正常的有262人;超重的有236人;肥胖的有34人;重度肥胖的有2人。由各段人数,可以求出各段BMI的比率表,如表5所示。

表5 BMI比率统计表

通过BMI比率表发现,偏瘦或者重度肥胖的患者,Z值或T值偏低的比率最高,说明偏瘦或重度肥胖的患者,骨密度减少的可能性最大,偏瘦或重度肥胖的患者Z值或T值正常的比率最低;体重正常患者Z值或T值正常比率最高。说明为了健康应该控制体重,争取保持标准体重,以免患骨质疏松。

1.3.4 按血压分类

统计了20~89岁的男性高血压患者127人。其中T值或Z值偏低的有53人;正常的有66人;偏高的有8人。T值或Z值偏低的比率为41.7%,T值或Z值正常的比率为52.0%;T值或Z值偏高的比率为6.3%。说明高血压患者,患骨质疏松或骨量减少的可能性很大。

1.3.5 骨密度相关因素之间相互作用

通过数据分析发现,骨质疏松和年龄、有无病史、脂肪率、BMI以及血压都有关系。并且这些影响因素之间两两相互作用,如果几个因素叠加,会加大骨质疏松的风险。

2 采用改进的决策树算法建立决策树

改进的决策树算法的基本思想是:首先递归地对某一分类数据集进行划分,可以多路分割,树的每个非叶子节点可以包含一个分割点或者包含一个组合判断分割点,由这个分割点决定数据如何划分。直至每个子集的记录全属于一类或者某一类占压倒的多数。根据这个算法思想,再结合表2~5,建立下面4个决策树。

根据改进的决策树算法分析,对于有病史患者,如图1所示,如果Z值(T)值正常,年龄在20~29岁、40~49岁时候,骨量正常可能性最大;如果Z值(T)值偏低,年龄在30~39岁时候,骨量减少的可能性很大。当年龄在60~69岁、80~89岁时候,患骨质疏松的可能性很大;如果Z值(T)值偏高,年龄是70~79岁的时候,患者患骨硬化病的可能性比较大。

图1 有病史患者决策树

根据改进的决策树算法分析,对于无病史患者,如图2所示,如果Z值(T)值正常,年龄在20~29岁、30~39岁时候,骨量正常可能性最大;如果Z值(T)值偏低,年龄在40~49岁时候,骨量减少的可能性很大。当年龄在50~59岁、80~89岁时候,患骨质疏松的可能性很大;如果Z值(T)值偏高,年龄是70~79岁的时候,患者患骨硬化病的可能性比较大。

图2 无病史患者决策树

根据改进的决策树算法分析,根据脂肪率可以推测,当脂肪率属于偏瘦时候,骨量正常可能性很大;当脂肪率属于肥胖时候,骨质疏松的可能性很大;当脂肪率属于微胖时候,患者患骨硬化病的可能性比较大,如图3所示。

图3 脂肪率决策树

根据改进的决策树算法分析,当BMI属于偏瘦或重度肥胖时候,患骨质疏松的可能性很大;当BMI正常时,骨量正常可能性很大,如图4所示。

图4 BMI决策树

通过4个决策树,可以辅助医生判断患者是否易患骨量减少、骨质疏松或骨硬化病。如果有此风险,应该早预防、早治疗。

3 结论

本文主要研究了齐齐哈尔地区男性骨密度与相关因素的关系。采用的方法是分类和改进的决策树算法。首先对20~89岁男性骨密度和相关因素进行采样,得到患者骨密度及相关信息的原始数据。然后对原始数据按照不同分类方法进行统计。得到各种统计表。通过对各种表格对比分析发现,对于有病史的患者,20~29岁时,正常范围的比率最高,其次是40~49岁。50~89岁,T值的正常比率与年龄呈负相关。T值偏低的比率所有年龄段整体趋势随年龄增加而增加。T值偏高的比率,50岁以后随年龄增加,偏高的比率增加。T值偏高的比率与年龄增长正相关。对于无病史患者,除了50~59岁以外,其他年龄段的患者,随着年龄的增加,Z值或T值的正常比率下降,Z值或T值偏低的比率上升。50~59岁时候出现T值或Z值比40~49岁、60~69岁偏低或偏高的现象。无病史比有病史的患者,骨密度正常值的比率偏高。说明年龄大时,如果有其他病史,对骨密度含量有一定影响。按照脂肪率的含量进行分类发现,脂肪率肥胖的患者,Z值或T值偏低的比率最高,说明肥胖的患者,骨密度减少的可能性最大,肥胖患者Z值或T值正常的比率最低;微胖的患者Z值或T值偏高的比率最大。根据BMI含量可以推测,当BMI属于偏瘦或重度肥胖时候,可能骨质疏松;当BMI正常时,骨量正常可能性最大。说明为了健康应该控制体内脂肪的含量或控制体重,以免患骨质疏松或骨质硬化病。高血压患者易患骨质疏松。然后根据改进的决策树算法建立了4个决策树,通过4个决策树,可以辅助医生判断患者患病情况。

猜你喜欢
病史决策树比率
超声造影与MRI增强扫描对不确定性盆腔肿块良恶性判断的比较研究
基于深度学习的甲状腺病史结构化研究与实现
Being accompanied to liver discharge clinic: An easy measure to identify potential liver transplant candidates among those previously considered ineligible
超声评分联合病史预测凶险型前置胎盘凶险程度的价值
决策树和随机森林方法在管理决策中的应用
比率分析公司财务状况——以步步高及永辉超市为例
决策树学习的剪枝方法
决策树多元分类模型预测森林植被覆盖
千点暴跌 两市净流出逾7000亿资金
美拭目以待的潜力城市