孙婷婷 朱向明 刘冬 张霞 张健
随着居民生活水平的提高,不健康的生活习惯与生活方式导致超重肥胖患者呈增多趋势。近20余年来,我国的肥胖患者数量亦有明显上升[1]。研究发现体重的增加可致受检者心脏腔径增大、室壁增厚等,而体重指数(body mass index,BMI)影响其变化的程度[2-3]。目前主要通过测量心脏腔径大小、心室壁厚度、心肌质量等指标来评估心脏构型,而评价指标及影响因素之间的关联未被全面系统分析与研究。数据挖掘(data mining,DM)技术指利用各种分析工具从海量数据中提取出隐含但有价值信息的过程。本研究利用DM中的关联规则(Apriori算法)在超重肥胖患者心脏构型参数与临床各项信息中建立关联,优选出反映心脏构型变化的特征性指标及相关影响因素,以期对超重肥胖患者心脏构型变化的早期检测、早期预防及早期干预有所指导,现报道如下。
1.1 研究对象 根据中国肥胖问题工作组建议中提出的诊断标准,BMI在18.5~24kg/m2为正常体重,BMI在24~27.9kg/m2为超重,BMI>27.9kg/m2为肥胖[4]。选取 2015 年12月至2019年2月在弋矶山医院(132例)及浙江省人民医院(80例)就诊的超重肥胖患者与正常体重受检者共212例作为本次研究的对象,其中男108例,女104例,正常体重69例,超重84例,肥胖59例。排除先天性心脏病患者、心脏瓣膜病、心肌病等因心脏本身疾病使心脏构型产生严重变化的患者,糖尿病、高血压患者等已证实对心脏构型产生影响的慢性病患者亦排除在外。
1.2 仪器设备与分析工具 PHILIPSiE33及EPIQ7C彩色多普勒超声心动图仪(荷兰飞利浦公司产品),S5-1探头,探头频率3.5-5MHz;超声工作站配置Qlab定量分析软件,身高体重计。用户数据分析工具使用Microsoft Excel 2007,数据挖掘工具为Weka Explorer。
1.3 研究方法
1.3.1 数据的获取与心脏构型数据库的建立 在医院信息及实验室系统中获取受检者的姓名、性别、血压、心率、血糖、血脂等临床信息。询问每位受检者的肥胖病程,严格测量身高、体重并记录。按照规范化的取图标准获取心脏构型的超声各项数据,如收缩期末左心房前后径(left atrial diameter,LAD)、左心室前后径(left ventricular diameter,LVD)、左心房面积(left atrial area,LAA)、左心房容积(left atrial volume,LAV)、左心室心肌重量(left ventricular mass,LVM)等。将获取的受检者临床信息及心脏构型数据构建成一个心脏构型数据库。
1.3.2 数据预处理 预处理包括数据清洗、集成、转换。离散化处理作为预处理中最重要的一个环节,是将连续性的数值转换成适合关联挖掘的形式。正常值范围采用我们目前对正常人研究诊断出的参考范围,年龄(age)的离散值分为 Y(<30岁)、M(30~60岁)、O(>60岁),LAD的离散值分为 S(<23mm)、M(23~38mm)、L(>38mm)(在数据挖掘过程中可以根据挖掘目标的需要进行修正),具体离散化处理见表1。
1.3.3 关联规则(Apriori算法) 一条关联规则可表述为M==>N的形式,前者为条件,后者为结果。
1.3.3.1 关联规则强度的衡量标准 置信度(confidence)与支持度(support)[5]。置信度表示M在包含N的事务中出现的频率;支持度表示M与N在整个事务库中同时出现的频率。置信度代表关联规则的可信度,支持度代表规则的重要性。
表1 临床与心脏常规测量指标离散化处理表
1.3.3.2 关联规则过程 (1)设定最小支持度与置信度(本实验暂且将支持度定为0.1,置信度定为0.5);(2)发现频繁项集(扫描、找出大于最小支持度的项集);(3)提取有效关联规则(在频繁项集中找出大于最小置信度的项集)。
1.3.4 建立心脏构型超声数据关联规则模型 见图1。
图1 心脏构型超声数据关联规则模型
由图1可见,挖掘流程如下:(1)读入训练数据集,(2)数据预处理,(3)数据挖掘并提取有效规则,(4)用测试数据进行规则匹配,(5)模型验证,(6)输出结果。
2.1 数据预处理结果 原始数据经清洗、集成、离散化等预处理后,将数据记录表转换为事务数据库之后可以直接对其挖掘,见表2。
2.2 关联规则的建立与提取结果
2.2.1 超重肥胖患者心脏构型指标有效关联规则 本次研究主要是针对超重肥胖患者进行,首先将BMI=L及BMI=XL定为目标关联项目,逐个与心脏构型的各项指标关联项目建立关联,得到关联规则挖掘结果,见表3。
表2 超重肥胖患者心脏构型交易事务表
表3 超重肥胖患者心脏构型指标有效关联规则
由表3可见,超重肥胖患者BMI=L、BMI=XL与LAD=L、LAA=L、LAV=L、LVM=L形成强关联规则,故超重肥胖患者心脏结构改变的特征性指标为LAD、LAA、LAV及LVM。
2.2.2 超重肥胖患者临床指标有效关联规则 将特征性指标定为目标关联项目,逐一与临床指标建立关联,在关联结果中提取有效关联规则,见表4。
由表4可见,超重肥胖患者心脏结构特征性指标与临床指标如age、fatyear、BMI形成强关联规则,故超重肥胖患者的心脏结构改变的相关影响因素为年龄、肥胖时间、肥胖程度。
表4 超重肥胖患者临床指标有效关联规则
3.1 关联规则在医疗DM中的应用 关联规则是DM的经典算法之一,目前已应用于包括医学在内的多种领域。其作用有:(1)检验DM行业内长期形成的数据知识模式;(2)发现数据之间隐藏的新的关联。关联规则在医疗大数据中建立关联并提取有效规则,从而发现医疗数据中隐藏的关联信息,有利于疾病的诊断。关联规则在医疗领域的应用上国内外已经有专家探索并取得成果。
Imberman等[6]在众多头部受创患者中收集信息,在收集的各项数据中建立关联规则,找出头部受创患者CT检查的适应证。程远[7]利用关联规则研究2型糖尿病(type 2 diabetes mellitus,T2DM)与冠心病、高血脂、高血压这几种并发症之间的关系,对比T2DM与3种并发症关联的支持度与置信度,证实高血压是T2DM关系最密切的并发症。国内亦有研究人员通过挖掘患者的疾病及症状有用信息,建立潜在于疾病与症状之间的关联规则。所以,关联规则在医疗领域DM中展现出良好的发展前景。
3.2 超重肥胖患者心脏结构改变的特征性指标 超重肥胖患者心脏结构改变的机制为机体为适应脂质堆积与体重上升的状态,全身血管阻力下降,心输出量、循环血量、心室壁张力出现适应性增加,导致左心房回心血增多,容量负荷持续过重最终可引起左心房增大。
国内有研究对体重变化引起左心房腔径变化进行了证实。周自强等[8]选取187例正常体重受检者与289例超重肥胖患者作为研究对象,测量各项心脏结构参数,并对BMI与LAV行相关性分析,显示两者成正相关,且BMI是LAV变化的独立危险因素。
有研究者对比分析了30例肥胖,45例超重以及25例正常体重受检者的心脏结构参数,超重肥胖患者相较于正常体重受检者左心房腔径变大,心室壁增厚,LVM 不同程度增加[9]。BMI=L(24≥BMI>27.9)及 BMI=XL(BMI>27.9)在本次实验中被定为目标关联项目,分别与各心脏结构参数建立关联。在表3中提取有效关联规则编号1、2可以看出,BMI=L、BMI=XL与LAD=L建立起强关联规则,规则表示超重肥胖患者收缩期末LAD倾向于增大且均具有较高的可信度(编号1为60%,编号2为71%),同样编号3、4、5、6等得出的关联结果显示超重与肥胖患者LAA、LAV及LVM倾向于增大亦具有较高的可信度。
综合表3中的关联结果,收缩期末LAD、LAA、LAV以及LVM能与BMI=L及BMI=XL目标关联项目建立强关联,可见在超重肥胖患者人群中,心脏结构早期改变较明显的主要是左心房大小、LVM。
本次研究中,超重肥胖患者左心房大小、LVM的变化与以往研究相符。但由于研究处于关联规则初步研究阶段,样本数量较少,并未发现BMI与室壁厚度、左心室腔径变化的强关联规则,这与以往某些研究结果不相符,但亦可能是关联规则在寻找心脏结构改变的特征性指标方面比其他统计学方法更有优势、更敏感。
3.3 超重肥胖患者心脏结构改变的影响因素 为能实行对超重肥胖患者心脏构型改变的早期预防及干预,需要进一步利用关联规则发现心脏结构改变的影响因素。故在本次实验中,将表3中找出的特征性指标如左心房内径、LAA与受检者临床基本信息逐一建立关联,并提取有效关联规则。由表4中编号1、2可以看出,age=Y与LAD=N,age=O与LAD=L分别建立起强关联规则,证明超重肥胖患者年龄越小,LAD偏向于正常(置信度为94%),超重肥胖患者年龄越大,LAD偏向于增大(72%)。由上述规则得出,年龄可能为超重肥胖患者心脏结构改变的重要影响因素。肥胖程度和年龄是影响心脏改变的因素已被董静[10]通过对不同年龄段超重肥胖患者心脏结构对比研究中证实。
但与以往多数研究不同的是,本次实验将肥胖病程(fatyear)作为关联项目之一,由表3、4提取的关联规则发现,当fatyear<10年,LAA偏向于正常具有较高的可信度(79%),fatyear>20年,LAA偏向于增大可信度较高(70%),故fatyear是影响心脏结构改变另一个重要的影响因素。综合表3、4中的规则,初步认为超重与肥胖患者心脏结构改变的影响因素主要有:年龄、肥胖程度、肥胖病程。本次肥胖病程这一影响因素的发现,可以及早告知肥胖患者通过运动、控制饮食等方式控制体重从而来防止心脏结构、功能的进一步改变。另外,进一步说明关联规则能更加全面地寻找影响因素,若加大样本量,则更多隐含的影响因素能被发现。
综上,数据挖掘能在大量的数据中发现隐含的、易被忽视的关联信息,对于超重肥胖患者心脏构型变化及影响因素的早期发现、检测及预防具有重要意义。