赵硕
类风湿关节炎患者腰椎骨密度值及相关因素与患病程度相关性的研究
赵硕
(齐齐哈尔大学 网络信息中心,黑龙江省 齐齐哈尔 161006)
研究了齐齐哈尔地区类风湿关节炎患者腰椎骨密度及相关因素与患病程度相关性的关系。首先对2020年8月到2021年3月在齐齐哈尔市某医院放射线科住院和门诊就诊的类风湿患者的骨密度和相关因素进行采样,得到患者骨密度及相关信息的原始数据。然后对原始数据进行两种不同的预处理方法得到两组数据,再对两组处理后的数据采用改进决策树算法建立了两个决策树,通过对决策树对比发现共同点:患病程度与类风湿关节炎患者腰椎骨密度值、相关因素中的患病时长密切相关;患病程度与相关因素中的其它因素:性别、年龄、身高、体重没有密切的关系。
类风湿关节炎;骨密度;决策树
类风湿性关节炎是最常见的一种关节炎,是最主要的致残性疾病之一。类风湿关节炎并发骨质疏松已经得到了流行病学研究的证实,并且从不同角度阐明了类风湿关节炎患者产生骨质疏松的相关因素。有些学者对前臂骨密度测定在诊断骨质疏松中的应用价值进行了研究[1];有些学者对类风湿关节炎患者股骨和腰椎部位骨密度的关系进行了研究[2];有些学者应用新型多变量决策树算法进行实例研究[3];有些学者研究绝经后女性类风湿关节炎患者骨密度变换影响因素[4],但是类风湿关节炎患者骨密度及相关因素与患病程度相关性的研究未见报道。
本文应用数据挖掘的方法对齐齐哈尔地区类风湿关节炎患者腰椎骨密度及相关因素与患病程度相关性进行研究。首先对2020年8月到2021年3月期间在齐齐哈尔市某医院放射线科住院和门诊就诊的类风湿患者进行抽样数据采集,然后对原始数据进行预处理,通过数值属性离散化,得到新的数据表。应用改进数据挖掘的决策树算法进行挖掘找到骨密度及相关因素与患病程度的关系。建立决策树,用决策树判断类风湿患者患病的程度。
(1)骨密度[5]。骨密度又叫做骨骼矿物质密度,是骨质量的一个重要指标,以克/每平方厘米表示(g/cm2),反映骨质疏松的程度,是预测骨折危险性的重要指标和依据。
(2)T值。T值是将测得的骨密度值与同性别、同种族的正常人群骨峰值比较值。绝经后妇女和50岁以上男性的BMD报告使用T值。
(3)Z值。Z值是将测得的骨密度值与同年龄、同性别、同同种族的正常人群比较值。绝经前妇女和50岁以下的男性BMD报告使用Z值,不能使用T值,尤其是儿童。
腰椎是最常用的测量点,感兴趣区域(ROI)L1~L4,即脊柱的估计骨量的试量点.脊柱大约骨矿含量130g,而(ROI)区域约35g。实际采样的数据是腰椎L1~L4的平均值。
原始数据统计表,2020年8月到2021年3月期间在齐齐哈尔市第一医院放射线科住院的类风湿患者进行抽样数据采集,共254人。其中男性类风湿患者54人,女性类风湿患者200人。如表1所示为原始数据信息统计部分数据。
表1 原始数据信息统计部分数据
数据预处理是数据挖掘前的准备工作[6],一方面保证挖掘数据的正确性和有效性;另一方面通过对数据格式和内容的调整,使数据更符合挖掘的需要。主要任务就是通过清理和归纳等操作,生成供挖掘核心算法使用的目标函数。然后把初始数据属性离散化,影像号对于每个患者各不相同作为数据挖掘的关键字。
第一种离散化方法:细致离散化。
性别的离散化是:女和男,定义为1和2。
年龄的离散化是:20及以下的患者,定义为1;21岁到29岁的患者定义为2;30岁到39岁的患者定义为3;40岁到49岁的患者定义为4;50岁到59岁的患者定义为5;60岁到69岁的患者定义为6;70岁和79岁的患者定义为7;80岁以上的患者定义为8。
身高的离散化是:150cm及以下的患者,定义为1;151cm到159cm的患者定义为2;160cm到169cm的患者定义为3;170cm到179cm的患者定义为4;180cm及以上的患者定义为5。
体重的离散化是:50kg及以下的患者定义为1;50kg以上到55kg及以下的患者定义为2;55kg以上到60kg及以下的患者定义为3;60kg以上到65kg及以下的患者定义为4;65kg以上到70kg及以下的患者定义为5;70kg以上到75kg及以下的患者定义为6;75kg以上到80kg及以下的患者定义为7;80kg以上到85kg及以下的患者定义为8;85kg以上到90kg以下的患者定义为9;90kg及以下的患者定义为10。
患病时长的离散化是:5年及以下的患者定义为1;6年到10年定义为2;11年到15年的定义为3;16年到20年的定义为4;20年以上的定义为5。
T值的离散化是:T值大于或等于-1时,定义为1;当T值为 -2.5到-1时,定义为2;当T值小于-2.5时,定义为3。
Z值的离散化是:Z值大于-2时,定义为1;当Z值小于等于-2时,定义为2。
患病程度的离散化:轻度定义为1;中度定义为2;重度定义为3。
根据第一种离散化方法把初始化表变成预处理后的数据表1,如下表2所示。
表2 预处理后的数据表1
第二种离散化方法:粗略离散化。
性别、患病时长、T值、Z值和患病程度的离散化和第一种离散化方法相同。
年龄的离散化:50岁以下的患者定义为1;50岁到69岁的患者定义为2;70岁及以上的患者定义为3。
身高的离散化:160cm以下的患者,定义为1;160cm到169cm的患者定义为2;170cm及以上的患者,定义为3。
体重的离散化:65kg及以下的患者定义为1;65kg以上到80kg以下的患者定义为2;80kg及以上的患者定义为3。
根据第二种离散化方法把初始化表变成预处理后的数据表2,如下表3所示。
表3 预处理后的数据表2
改进的决策树算法的基本思想:首先根据组合数学的思想分类出不同的属性组合分组,每个组合分组分别采用递归的方法对数据集进行划分,每路分支的每个非叶子节点可以包含一个分割点或者包含一个组合判断分割点,由这个分割点决定数据如何划分。直至每个子集的记录全属于一类或者某一类占压倒的多数。最后比较各个属性组合分组的路径,从中选出最优作为决策树搜索路径。
如果是采用第一种细致离散化的预处理数据,并采用改进的决策树算法的思想,可以建立决策树1,如图1所示。
如果是采用第二种粗略离散化的预处理数据,并采用改进的决策树算法的思想,可以建立决策树2,如图2所示。
图1 决策树1
图2 决策树1
全部挖掘数据共有254例,如果采用第一种数据离散化方法并且根据改进的决策树算法分析,可以得到5个结论:
(1)当T值等于“3”或Z值=“2”时,共有85例,其中类风湿患病程度为3,2,1的人数分别是77例,4例和4例。类风湿患病程度为重的比率是:90.6%。
(2)当T值或Z值=“2”时,共有101例,如果患病时长=“5”时,共有17例。其中类风湿患病程度为3,2,1的人数分别是16例,1例,0例。当T值或Z值=“2”同时患病时长=“5”时,类风湿患病程度为重的比率是:94.1%。
(3)当T值或Z值=“2”时,如果患病时长≠“5”时,共有84例,其中类风湿患病程度为3,2,1的人数分别是14例,52例,14例。当T值或Z值=“2”同时患病时长≠“5”时,类风湿患病程度为中度的比率是:61.9%。
(4)当T值或Z值=“1”时,共有68例。如果患病时长=“1”时,共有29例,其中类风湿患病程度为3,2,1的人数分别是0例,0例,29例。当T值或Z值=“1”同时患病时长=“1”时,类风湿患病程度为轻度的比率是:100%。
(5)当T值或Z值=“1”同时患病时长≠“1”时,共有39例。其中类风湿患病程度为3,2,1的人数分别是0例,5例,18例。当T值或Z值=“1”同时患病时长=“2”时,类风湿患病程度为轻的比率是:78.3%。
随机挖掘数据共178例。如果采用第二种粗略离散化预处理数据方法并且根据改进的决策树算法分析,可以得到5个结论:
(1)当T值=“3”或Z值=“2”时,共有61例,其中类风湿患病程度为3,2,1的人数分别是54例,3例和4例。类风湿患病程度为重的比率是:88.5%。
(2)当T值或Z值=“2”时,共有76例,如果患病时长=“5”时,共有16例。其中类风湿患病程度为3,2,1的人数分别是15例,1例,0例。当T值或Z值=“2”同时患病时长=“5”时,类风湿患病程度为重的比率是:93.8%。
(3)当T值或Z值=“2”时,如果患病时长≠“5”时,共有60例,其中类风湿患病程度为3,2,1的人数分别是11例,37例,12例。当T值或Z值=“2”同时患病时长≠“5”时,类风湿患病程度为中度的比率是:61.7%。
(4)当T值或Z值=“1”时,共有41例。如果患病时长=“1”时,共有17例,其中类风湿患病程度为3,2,1的人数分别是0例,0例,17例。当T值或Z值=“1”同时患病时长=“1”时,类风湿患病程度为轻度的比率是:100%。
(5)当T值或Z值=“1”同时患病时长≠“1”时,共有24例。其中类风湿患病程度为3,2,1的人数分别是5例,6例,13例。当T值或Z值=“1”同时患病时长时≠1时,类风湿患病程度为轻的比率是:54.2%。
通过第一种和第二种数据预处理方法和改进算法相结合,产生了两种决策树。比较两种决策树发现,共同点:类风湿患者患病的程度主要和T值(Z值)和患病时长有紧密的关系。当骨密度测量值为骨质疏松时,患者可能患类风湿的程度为重度。当骨密度测量值为骨量减小,如果患病时长为20年以上,患者可能类风湿的程度为重度,否则为中度。当骨密度测量值为正常,如果患病时长小于5年,患者可能患类风湿的程度为轻度。类风湿患者患病的程度和年龄、身高、性别、体重没有很密切的关系。
本文主要研究的是齐齐哈尔地区类风湿关节炎患者腰椎骨密度及相关因素与患病程度相关性的关系。采用的方法是改进的决策树算法。首先对2020年8月到2021年3月期间在齐齐哈尔市某医院放射线科住院和门诊就诊的类风湿患者进行抽样数据采集,然后对原始数据进行预处理,通过两种数值属性离散化方法,得到两张新的数据表。再分别和改进的决策树算法相结合,建立两个决策树。
通过决策树的对比发现,有共同之处:类风湿患者患病的程度主要和T值(Z值)和患病时长有紧密的关系:当骨密度测量值为骨质疏松时,患者可能患类风湿的程度为重度。当骨密度测量值为骨量减小,如果患病时长为20年以上,患者可能类风湿的程度为重度,否则为中度。当骨密度测量值为正常,如果患病时长小于5年,患者可能患类风湿的程度为轻度。类风湿患者患病的程度和年龄、身高、性别、体重没有很密切的关系。这两个决策树都可以用于判断类风湿患者患病的程度。从而为医生提供参考依据。
[1] 张小艳,封欣然,李航,等. 类风湿关节炎患者骨密度及骨代谢水平的临床分析[J]. 包头医学,2020, 44(4): 5-7.
[2] 刘童,裴必伟,徐胜前,等. 类风湿关节炎患者股骨和腰椎部位骨密度的临床研究[J]. 中华临床医师杂志,2011, 11(05): 6231-6235.
[3] 黄俊南. 基于决策类划分新型多变量决策树算法实例分析[J]. 齐齐哈尔大学学报(自然科学版),2015(01): 4-9.
[4] 何志翔,蔡小燕,林小军,等. 老年类风湿关节炎合并肌少症患者骨密度及骨代谢指标改变的临床研究[J]. 中国骨质疏松杂志,2022, 28(03): 403-406.
[5] 赵硕. 基于数据挖掘的齐齐哈尔地区男性骨密度与相关因素关系的研究[J]. 齐齐哈尔大学学报(自然科学版),2021, 37(06): 37-41
[6] 邵峰晶,于忠清,王金龙,等. 数据挖掘原理与算法[M]. 北京:科学出版社,2009: 67.
[7] CHEN LK, LIU LK, WOOL, etal. Sarcopenia in asia: consensus report of the Asina working group for sarcopenia[J]. JAmMedDir Assoc, 2014, 15(2): 95-101.
[8] 赵硕,王善霞,杨阳,等. 基于数据挖掘的双靶DR乳腺癌灶密度值测定分析[J]. 齐齐哈尔大学学报(自然科学版),2018,34(03): 11-16.
Study on correlation between Lumbar bone mineral density and related factors in patients with rheumatoid arthritis and disease degree
ZHAO Shuo
(Network Information Center,Qiqihar University,Heilongjiang Qiqihar 161006, China)
This paper studies the relationship between lumbar bone mineral density and related factors and the degree of disease in patients with rheumatoid arthritis in Qiqihar area. First, bone mineral density and related factors of rheumatoid patients hospitalized and out-patients in the Radiology Department of Qiqihar some Hospital from August 2020 to March 2021 were sampled to obtain the original data of bone mineral density and related information. Then the raw data for two kinds of different pretreatment methods have two sets of data, and then the data of two groups after treatment with the improved decision tree, decision tree algorithm has established two based on decision tree found in common: how sick patients with rheumatoid arthritis (closely related to the density value, the related factors of the diseased time; There was no significant correlation between the severity of the disease and other related factors: sex, age, height, and weight.
rheumatoid arthritis;bone mineral density;decision tree
2022-03-12
赵硕(1974-),女,山东烟台人,高级工程师,硕士,主要从事数据挖掘,计算机网络研究,01513@qqhru.edu.cn。
TP312;R816.8
A
1007-984X(2022)05-0028-05