Graves眼病相关因素的关联分析

2011-02-03 06:50刘尚辉王露郑德禄
中国医科大学学报 2011年5期
关键词:眼病置信度数据挖掘

刘尚辉,王露,郑德禄

(中国医科大学1.计算机中心;2.附属第一医院内分泌科,沈阳 110001)

Graves眼病相关因素的关联分析

刘尚辉1,王露2,郑德禄2

(中国医科大学1.计算机中心;2.附属第一医院内分泌科,沈阳 110001)

目的进行Graves眼病相关因素研究,通过数据挖掘形成关联规则。方法 甲状腺疾病相关资料来源于中国医科大学附属第一医院病案室,收集该院2000~2009年的甲状腺疾病住院病例数据。内容包括与甲状腺疾病相关的15项临床指标。首先将各项指标数据离散化为计数资料,将源数据库映射为挖掘数据库;然后设置最小支持度为0.1,最小置信度为0.8,利用Apriori算法进行关联规则挖掘,最后由临床免疫科专家解释及检验所产生的规则。结果 共形成241个强关联规则,这些强关联规则中蕴含着Graves眼病发病与甲状腺功能系列及血常规指标、性别、年龄等因素之间的关联关系。结论通过数据挖掘方法挖掘目前医院中大量医疗病例,从而发现其中蕴含的新信息、新知识,为医院大量病案信息提供了新的研究方法,具有一定的实用价值。

Graves眼病;甲状腺病;数据挖掘;关联规则;Apriori

Graves 眼病(Graves’ophthalmopathy,GO)又称甲状腺相关性眼病(TAo),是一种与自身免疫性甲状腺疾病密切相关的器官特异性自身免疫性眼病。在成人眼眶疾病中约占20%,位于第一位[1]。该病与Graves甲亢相关,在甲亢中,大约有13%~45%的患者患有GO[2]。临床上本病常见于患者眼内有异物感、胀痛、畏光、流泪、复视、斜视、视力下降;检查见突眼,眼脸肿胀,结膜充血水肿,眼球活动受限,严重者眼球固定,眼脸闭合不全、角膜外露而发生角膜溃疡、全眼炎,甚至失明。GO的发病被认为是多因素相互作用的结果,除遗传易感因素外,多种环境因素和甲状腺自身功能状态等亦可影响GO的发生、发展[3]。

1 材料与方法

1.1 资料来源

甲状腺疾病资料来源于中国医科大学附属第一医院病案室,采集2000~2009年间的甲状腺疾病病例数据信息。具体为患者住院号、性别、年龄、既往病史、家族病史、彩超检查结果、ECT检查结果、CT检查结果、FT3、FT4、TSH、TGAB、TPOAB、WBC 、中性粒细胞数、淋巴细胞数、左右眼突眼度等。

1.2 数据处理

分析采集的原始数据,利用数据挖掘专业知识对数据集中的“脏数据”进行清洗,使数据记录量和特征属性的数量都得以精简。根据GO欧洲研究组(EUGOGO)提出GO病情的分级标准,将突眼度分为3级:轻度(突眼度19~20mm)、中度(突眼度21~23mm)、重度(突眼度>23mm)。根据关联分析特征属性的要求将本分析的数据转化为布尔型的二值数据,如:性别、是否患甲亢、是否患Graves眼病、是否患桥本病是离散的等级资料;将年龄每隔10岁分为1组进行离散化;根据血液检查参考值范围将FT3、FT4、TSH、TGAB、TPOAB、WBC、中性粒细胞数、淋巴细胞数等连续数据离散化为3个等级,分别是高于正常值水平、正常值水平和低于正常值水平的等级资料,经过数据预处理之后,得到一个可供数据挖掘的数据库。

1.3 方法

1.3.1 关联规则定义[4]:关联规则主要反映了事物之间的关联性。对反映同一事物的一条记录而言,若其具有特征属性A的同时,也具有特征属性B,则称特征属性A和B是关联的,即A→B。这种关联性仅表现为“共生现象”,即两者同时存在,但并不一定表现两者之间必然存在前后因果的关系。在医学领域这种关联现象也是存在的,如某种疾病可能同时表现出几种相关联的症状,本研究目的就是通过这种关联挖掘分析,提出有价值的甲状腺疾病各种因素间的相互关系。

1.3.2 关联规则的判定指标:通过数据挖掘得到的关联规则也要进行验证。这可以通过支持度和置信度做判断,“支持度”表达了某一关联规则在总体中发生的概率,是关联规则重要性的定性度量。“置信度”表达了构成关联规则的一个特征属性A发生时,另一个特征属性B的发生概率,反映了这两个特征属性之间关联的强度。因此,挖掘出来的某条规则如果同时满足最小支持度和最小置信度则称其为强关联规则。

1.3.3 挖掘关联规则的方法:关联规则的挖掘方法通过统计软件Clementine11.1V来实现,采用经典算法Apriori建模,从而有效地实施关联分析。该研究设定最小支持度为0.10,最小置信度为0.80,输出结果中包含满足要求的所有规则以及每条规则的支持度、置信度。

2 结果

Graves眼病的发病与甲状腺功能系列、甲状腺抗体系列、血常规等检验指标、年龄、性别等关系如表1所示。设置支持度为0.10,置信度为0.8后,共形成1879个强关联规则,为了从这些规则中提取出我们更感兴趣的规则,本研究设计了一个模板,规定了规则的组成形式为:Relevant factor->Graves=t,从而在强关联规则中,再次选出右边结果是Graves=t,即结果是Graves眼病的规则,最终得到241条规则。经过临床免疫科专家解释及检验所产生的规则结果表明:(1)甲状腺功能系列(FT3、FT4、TSH)异常可出现Graves眼病症状,且以甲功功能(FT3、FT4)偏高,甲状腺轴功能的敏感指标(TSH)偏低的症状表现出来。(2)Graves眼病患者出现左、右及左右眼同时发生重度突眼的支持度与置信度几乎相同,即单眼与双眼发生重度突眼的发病概率几乎相同。(3)甲状腺抗体(TGAB或TPOAB)偏高可出现Graves眼病症状。(4)血常规中淋巴细胞偏高、中性粒细胞和白细胞偏低情况下可出现Graves眼病。(5)Graves眼病在30至50岁之间较易出现,与性别的关系不大。

表1A p r i o r i算法所形成的部分关联规则T a b.1P a r t o f b a s e d o n A p r i o r i a l g o r i t h mf o r ma t i o n a s s o c i a t i o n r u l e s No.Association rulesSupport(%)Confidence(%)140Graves 12.49 100.02FT3=High AND TGAb=High=>Graves 15.93 99.80350Graves 13.14 99.72430Graves 11.62 99.315Hashimoto disease AND TSH=Low=>Graves 11.04 98.426Neutrophil=Low OR WBC=Low=>Graves 15.46 98.037left eye GO=Severe OR right eye GO=Severe=>Graves 10.78 96.838FT3=High AND TSH=Low=>Graves 24.77 96.349FT3=High AND TPOAb=High=>Graves 12.23 96.1510 TGAb=High AND TSH=Low=>Graves 11.04 96.0811 TGAb=High OR TPOAb=High=>Graves 20.12 95.6512 left and right eyes GO=Severe=>Graves 10.09 95.2013 Neutrophil=High/Low OR Hashimoto disease=>Graves 10.27 92.5614 TSH=Low=>Graves 20.74 89.9015 Lymphocytes=High=>Graves 10.01 88.30…241 FT3=High OR FT4=High=>Graves 16.27 86.74

3 讨论

在本研究中,通过对病人所患疾病、年龄、性别、甲功系列、甲状腺抗体及血常规等之间关系进行数据挖掘,以期发现一些潜在、有意义的关联规则。

通过上述分析可见,关联规则挖掘能够带给我们一些有价值的信息,而这些信息用传统的数据分析方法很难发现。在进行该关联规则分析时,产生了数量过多的且包含过多冗余信息的规则,我们采用“模板”来限定需要的关联规则形式,以此来精简所产生的关联规则数量。本研究实现了从10年积累的甲状腺疾病数据中发现相关因素之间关联规则的信息挖掘,以帮助人们加深对Graves眼病的理解和重视。

为了探讨Graves眼病是否与性别存在相关性,我们单独对Graves眼病相关资料进行了关联挖掘分析,得到这样两条规则{性别=女=>Graves眼病,支持度=53.45%,置信度=95.7%},{性别=男 =>Graves眼病,支持度=46.55%,置信度=97.4%},从支持度可以看出男、女性发生Graves眼病的支持度均接近50%,说明男、女患者比例几乎1∶1,可见Graves眼病与性别没有明显的相关性。从表1显示出的年龄的支持度来看,30到50岁间的支持度几乎一致且置信度很高,可以认为在30至50岁之间较易出现GO。但不同种族和地区人群的患病年龄并不一致,我们的结果与Bednarczuk等的报道基本一致[3,5]。

[1]宋国祥.眼眶病学[M].北京:人民军医出版社,1999:367-369.

[2]史轶蘩,王妲.协和内分泌和代谢学[M].北京:北京医科大学、中国协和医科大学出版社,1992:12-13.

[3]陈光明,沈飞霞.Graves眼病与CTLA-4基因第1外显子A49G多态性及临床特点的相关性研究[J].实用医学杂志,2007,23(5):642-644.

[4]章鲁,龚著琳,等.生物医学数据挖掘[M].上海:上海科学技术出版社,2008:46-47.

[5]Bednarczuk T,Hiromatsu Y,Fukutani T,et al.Association of cytotoxic T-lymphocyte-associated antigen-4(CTLA-4)gene polymorphism and non-genetic factors with Graves’ophthalmopathy inEuropean and Japanese population[J].Eur J Endocrinol,2003,148(1):13-18.

(编辑孙宪民,英文编辑刘宝林)

Related Factors Study on Graves Ophthalmopathy in the Application of Apriori Association Rules

LIU Shang-hui1,WANG Lu2,ZHENG De-lu2
(1.Computer Center,China Medical University,Shenyang 110001,China;2.Endocrinology Division,Department of Medicine,China Medical University,Shenyang 110001,China)

ObjectiveTo study the relevant factor of Graves ophthalmopathy and to get the association rules by data analyzing.MethodsThe cases with thyroid disease were obtained from 2000to 2009in the First affiliated Hospital of China Medical University.15indexes about thyroid disease were observed.First each index was discredited into count data.And source database was mapped to mining database.then set the minimum support of 0.1,minimum confidence of 0.8,using Apriori algorithm for mining association rules,and finally by the Clinical Immunology specialists to explain and test the rules generated.Results241strong association rules were formed,containing the relationships of onset of Graves ophthalmopathy with the sex,age,function of hypothyroid,and parameters of blood.ConclusionThe method of this study could new information by the data mining.It was valuable for supplying a new approach to assess the huge medical information.

Graves ophthalmopathy;thyroid disease;data mining;association rules;apriori

R771.3

A

0258-4646(2011)05-0472-03

doiCNKI:21-1227/R.20110523.1815.021

http://www.cnki.net/kcms/detail/21.1227.R.20110523.1815.021.html

刘尚辉(1963-),女,副教授,硕士.E-mail:cmnlsh@126.com

2011-01-07

网络出版时间:2011-05-1815:25

猜你喜欢
眼病置信度数据挖掘
置信度辅助特征增强的视差估计网络
一种基于定位置信度预测的二阶段目标检测方法
硼铝复合材料硼含量置信度临界安全分析研究
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
《中国眼健康白皮书》:九成大学生是近视眼
2799例新生儿眼病筛查结果分析
正负关联规则两级置信度阈值设置方法
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议