Apriori关联规则在甲状腺结节病案分析中的应用

2011-03-11 14:07刘尚辉郑德禄
中国卫生统计 2011年2期
关键词:置信度数据挖掘关联

刘尚辉 王 露 郑德禄

甲状腺结节是临床常见的病症,可由多种病因引起。甲状腺结节可分为单发性结节和多发性结节,结节的大小、位置、质地、功能及其临床意义各有不同。据流行病学资料统计,可触及的甲状腺结节在成人中的患病率为4%~8%。尸检病理学检查发现的普通人群结节患病率为50%〔1〕。据有关研究发现,甲状腺结节的发病率与地域、性别以及年龄相关,碘缺乏地区或碘摄入过多沿海地区的甲状腺结节发病率较高。目前,甲状腺结节的发病率逐年上升,结节的发生率随年龄的增长而上升。

材料与方法

1.资料来源 甲状腺结节资料来源于中国医科大学附属第一医院病案室,采集2000~2009年间的甲状腺结节病例数据信息。内容包括相应的各项相关指标,具体为患者住院号、性别、年龄、结节彩超检查结果、ECT检查结果、家族病史、既往病史、细针穿刺结果、FT3、FT4、TSH、TGAB、TPOAB、WBC 、中性粒细胞数、淋巴细胞数等。

2.数据处理 分析采集的原始数据,利用数据挖掘专业知识对目标数据集中的“脏数据”进行清洗,使数据记录量和特征属性的数量都得以精简。再根据关联分析特征属性的要求将本分析的数据转化为布尔型的二值数据,经过数据预处理之后,所包含的主要特征如表1所示。

在本研究中,通过病人的疾病、年龄、性别、甲功系列等之间关系进行数据挖掘,以期发现一些潜在、有意义的关联规则。

方 法

1.关联规则定义〔2〕关联规则主要反应了事物之间的关联性。对反映同一事物的一条记录而言,若其具有特征属性A的同时,也具有特征属性B,则称特征属性A和B是关联的,即A→B。这种关联性仅表现为“共生现象”,即两者同时存在,但并不一定表现两者之间必然存在前后因果的关系。在医学领域这种关联现象也是存在的,如某种疾病可能同时表现出几种相关联的症状,临床上的疾病鉴别诊断通常是以某些相关的检验和检测指标为根据的,因此,关联分析能为鉴别诊断提供依据。

表1 甲状腺结节关联分析的主要特征属性

2.关联规则的判定指标 作为数据挖掘的方法之一,关联规则的有效性也要进行验证。该规则的质量和重要性可以通过支持度和置信度做判断,支持度指标表达了某一关联规则在总体中发生的概率,是关联规则重要性的定性度量。置信度指标表达了构成关联规则的一个特征属性A发生时,另一个特征属性B的发生概率,反映了这两个特征属性之间关联的强度。如果通过数据挖掘得出的某条规则同时满足最小支持度和最小置信度则称其为强关联规则。

3.挖掘关联规则的方法 关联规则的挖掘方法通过统计软件Clementine 11.1V来实现,采用其中经典算法Apriori建模,有效地实施了本关联分析。主要是通过确定最小支持度和最小置信度这2个参数来产生规则的项集最大数目,该研究设定最小支持度为0.10,最小置信度为0.80。输出结果中包含满足要求的所有规则以及每条规则的支持度、置信度。

结 果

甲状腺结节的发病与性别、年龄、甲状腺功能系列、血常规系列检验指标的关系如表2所示。设置支持度为0.10,置信度为0.8后,共形成2780个强关联规则,为了从这些规则中提取出有价值和感兴趣的知识,本研究设计了一个模板,规定了规则的组成形式为:anything→RESULT=t,从而在强关联规则中,再次选出右边结果是RESULT=t,即结果是“结节”的规则,最终得到215条规则。经过临床免疫科专家解释及检验所产生的规则结果表明:①甲状腺结节的发病与性别、年龄关系密切,且40岁以上女性发病几率高,特别是60岁以上女性出现结节的概率更大。②甲状腺功能系列(FT3、FT4、TSH)不论正常或异常均可出现结节症状,且以甲功正常的支持度与置信度更高。③甲状腺抗体(TGAB、TPAB)不论正常或异常均可出项结节症状,且以抗体正常的支持度与置信度更高。④血常规中粒细胞、白细胞总数正常情况下出现结节都有统计学意义。

表2 Apriori算法所形成的关联规则

讨 论

本研究中为了进一步探讨年龄与结节的关系,我们对Apriori算法模型做了新的设置,通过设置特征属性彩超检查结果有无结节为分析的输出项,其他属性为输入项,且最大前置项数为1,得到甲状腺结节与年龄的关系为40岁以上女性出现甲状腺结节成逐年上升趋势,这从置信度可以明显看出来,0.96(60岁)>0.89(50岁)>0.76(40岁),40岁以下没有统计学意义。本研究中性别及年龄与甲状腺结节关系的结论与国内外报道基本一致〔3,4〕。

通过上述分析可见,关联规则挖掘能够带给我们一些有价值的信息,而这些信息用传统的数据分析方法很难发现。在进行关联规则分析时,要防止产生数量过多的,且包含过多冗余信息的规则,我们采用“模板”来规定出需要的关联规则形式,以此来精简所产生的关联规则数量。本研究实现了从10年积累的大量数据中发现了与甲状腺结节相关的模式和规则,以帮助人们加深对甲状腺疾病的理解和重视。

随着我国卫生事业改革的不断深入,医院信息化建设的不断完成,充分利用电子病历系统中宝贵的临床医学信息资源,建立临床诊疗信息采集平台,进而开展数据挖掘是大有可为的〔5〕。今后我们将更好地利用丰富的电子病例资源,挖掘和揭示出更多有价值的知识,以期能够更好地为医疗卫生服务。

1.罗斌钰,赵咏桔.甲状腺结节的超声诊断.国际内分泌代谢杂志,2008,5:297-298.

2.章鲁,龚著琳,等.生物医学数据挖掘.上海科学技术出版社,2008,2.

3.冯尚勇,刘超,等.江苏高淳、楚州地区社区人群甲状腺结节流行特征研究.南京医科大学学报,2006,8:717-719.

4.Cooper DS,Doherty GM,Haugen BR,et al.Management guidelines for patients with thyroid nodules and differentiated thyroid cancer.Thyroid,2006,16(2):1-33.

5.胡镜清,刘保延,王永炎.中医临床个体化诊疗信息特征与数据挖掘技术应用分析.世界科学技术:中医药现代化,2004,1:14-16.

猜你喜欢
置信度数据挖掘关联
置信度辅助特征增强的视差估计网络
一种基于定位置信度预测的二阶段目标检测方法
硼铝复合材料硼含量置信度临界安全分析研究
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
“一带一路”递进,关联民生更紧
正负关联规则两级置信度阈值设置方法
奇趣搭配
智趣