牟冬梅 冯 超 王 萍
(吉林大学公共卫生学院 长春130021)
数据挖掘方法在医学领域的应用及SWOT分析*
牟冬梅 冯 超 王 萍
(吉林大学公共卫生学院 长春130021)
阐述关联规则、人工神经网络、决策树和聚类分析4种数据挖掘方法在医学领域的应用情况,运用SWOT分析法,得出各方法的优势及劣势、面临的机会及威胁并做出策略分析。指出4种数据挖掘方法的适用范围和协同应用情况,对方法的应用选取提出建议。
数据挖掘;关联规则;人工神经网络;决策树;聚类分析;SWOT分析
数据挖掘(Data Mining)是一个多学科交叉研究领域,融合了数据库技术、人工智能、机器学习、统计学、知识工程、面向对象方法、信息检索、高性能计算以及数据可视化等最新技术的研究结果。应用一系列技术从大型数据库和数据仓库中提取人们感兴趣的信息和知识,这些知识是隐含的,事先未知而潜在有用的,提取的知识表示为概念、规律、模式等。医学领域数据量庞大、生成速度快、结构复杂多样且价值大[1-2],利用数据挖掘技术处理这些信息,可以取得事半功倍之效。数据挖掘方法较多也比较复杂,针对医学数据的隐私性、多样性、不完整性及冗余性[3],及不同数据结构、不同需要、不同目的,选择相适应的数据挖掘方法至关重要。本文针对4种常用的数据挖掘方法[4]——关联规则、人工神经网络、决策树及聚类分析进行探讨。
2.1 关联规则
4种数据挖掘方法是数据挖掘领域的研究热点,随着其发展进步,应用领域不断扩展,涵盖了商业、教育、工程、科研及医学等领域。在医学领域,关联规则用来发现数据间隐含的关联关系,基于医学数据非结构化、无序化及数量庞大的特点,应用关联规则挖掘未知的知识显得尤其重要。现已有多项医学领域关联数据研究:(1)发现疾病与症状间的关联规则,如王华等[5]用其研究某症状可能伴随发生其他症状,这些症状可能是由某疾病引发。(2)疾病并发症的关联研究,如余辉等[6]研究几种病症同时发生时糖尿病并发的概率,糖尿病引发某并发症的风险。(3)用药和方剂配伍规律研究,如吴嘉瑞等[7]用关联规则和复杂系统熵聚类分析治疗腹痛用药规律。(4)病症-辨证-处方关联研究,欧凤霞等[8]用关联规则判断症状组合出现时使用某种药物的概率,是何种辨证及会用某处方的概率。(5)分析药物间相互作用,如胡双[9]用关联规则分析心血管药物的相互作用,包括避免合用、谨慎合用、可以合用的作用关系。(6)药品分类和剂型关联分析,如郑银丽等[10]通过药品分类和剂型的关联规则挖掘,发现用户用药需求、习惯及剂型偏好。关联规则在临床医疗领域有着出色的效用,在疾病、症状、并发症、用药等方面都做出了卓越贡献。
2.2 人工神经网络
人工神经网络模拟大脑神经组织机制,由节点相互联接的输入、输出结构,具有出色的学习能力,在医疗和金融领域都有良好的预测效果。人工神经网络在医学领域有以下几方面应用:(1)危险因素分析,如钱玲[11]用BP神经网络分析影响糖尿病并发症发生的因素。(2)疾病诊断,如吴拥军等[12]建立了基于BP 网络的肺癌智能化诊断模型系统。(3)疾病预测,如温变珍[13]针对原发大肠癌手术病例,建立经测试后效果良好的生存期预测模型。(4)基因型分类,如Rena等[14]尝试用BP神经网络对样品3种基因型(GG、AA、GA)进行分类。临床和基础医学中人工神经网络都有很好的应用,在临床预测方面发挥了重要作用。
2.3 决策树
决策树奉行自顶向下,分而治之,以树状图来使结果可视化,是典型的分类方法,能发现分类规则,在医学领域有重要应用:(1)疾病的分类,如杨开明[15]用决策树对糖尿病病例数据辨证分类,可指导医生临床诊断。(2)致病规律,如苏亚丁[16]提出一种基于决策树的口腔诊疗方法,试图利用其研究口腔疾病的致病规律。(3)疾病预测,如陈伟等[17]使用决策树对绝经综合征者预测便秘和腰酸。(4)疾病诊断,如王剑[18]用决策树诊断慢性乙型肝炎不同型别,诊断肝炎肝硬化和原发性肝细胞癌,发现慢性乙肝患者中的高危人群;通过移动医疗设备疾病决策树可以帮助患者一定程度上自己诊断和处理病情[19]。
2.4 聚类分析
聚类分析基于相似性将对象分类,主要用于模式识别和数据挖掘,在医学领域主要有以下应用:(1)方剂配伍规律分析,如吴磊等[20]双向聚类分析治疗中风病方剂配伍规律,得到针对不同证型配伍用药特点、治法和常用药组。(2)基因表达数据分析,如Bittner等[21]于基因层次利用聚类分析黑色素瘤样本,找出其间相关性。(3)疾病诊断,如景丽俊[22]对治疗小儿抽动秽语综合征的处方及肿瘤医案聚类研究,发现方剂间及方剂和病证间关联,确定肿瘤证型。(4)辨证论治,如李赛[23]聚类分析慢性肾衰竭症状,显示随着聚类次数的增加慢性肾衰竭的演变过程,对病机、临床表现特点及发展变化的规律有整体观念,指导论治。(5)用药规律分析,如李健等[24]对治疗肺痈的方剂聚类分析,发现方剂中药物的关联、核心组合及新方剂组合。(6)临床症状、证型分析,如林兰等[25]对症状聚类得到最常见症状,对证型聚类得到主要证型。(7)致病危险因素分析,如魏林节等[26]聚类分析影响高原地区发生高血压脑出血的危险因素,得到危险因素的分类结果。(8)发现临床数据异常点,如蒋小群等[27]对2型糖尿病患者分层聚类分析,发现指标异常点,辅助临床诊断和治疗。
SWOT(Strengths,Weakness,Opportunity,Threats)分析法又称态势分析法或优劣势分析法,是由哈佛商学院的K.J.安德鲁斯教授于1921年在其《公司战略概念》一书中提出的,用于客观分析研究对象所处的现实情况。本文使用此方法将数据挖掘方法的内部优势、劣势、外部机会及面临的威胁4个要素按矩阵排列并做出分析,明确4种数据挖掘方法的优势和存在的问题,找出解决办法,协助对方法的选择,见表1。
续表1
4.1 适用范围
4种数据挖掘方法由于各自的特点、功能、限制,应用情况有所不同。关联规则反映变量间相互依存和关联,主要挖掘数据的项目或属性间关系,如病症-辨证-处方之间关系、用药规律、方剂配伍关联,发现潜在、未知的规则和关联度较强的规则。由于对数据预处理要求低,无需考虑数据的复杂度,可处理规范程度不高、结构不规整的数据。人工神经网络需要学习训练样本,主要用于疾病预测、诊断和分类及危险因素分析等;可完成分类、聚类、特征挖掘等任务;挖掘因变量、自变量、输出结果间关系。最好给出权重系数的可信区间、训练样本的标准及最优隐含层数。决策树主要用于疾病诊断、分类、预测、致病规律研究等,可以通过挖掘临床数据对是否会患病、患病概率、疾病类型等做出分析和判定;可挖掘内部节点和叶子节点的属性和类间关系;处理离散型数据及连续型数据;对异常值、缺失值有良好处理效果。考虑局部最优,于全局最优上有所欠缺。聚类分析用于基因表达分析,可确定有相似表达模式的基因,提示未知基因功能;用于疾病分类、诊断;方剂配伍及用药规律;药物与症状间关联;分析临床症状、证型、证候间关联及常见情况;分析致病危险因素及影响程度;可发现异常临床数据,辅助诊断。聚类分析主要用于分类,可根据数据特征将样本分类,根据数据属性间相似度挖掘数据集类的情况及数据间关联。对“脏数据”敏感,所以研究数据集最好没有过多“脏数据”。
4.2 协同应用
在数据挖掘过程中,4种方法各有其侧重,它们的功能在特定时有关联,所以在一定程度上可以协同应用。关联规则和聚类分析都可用于用药规律和方剂配伍研究,人工神经网络和决策树都可以用于疾病预测、诊断、分类研究,所以可在进行数据挖掘分析时采用多种方法,以提高准确度和可信度。聚类分析可用于分类,在聚类的基础上对数据属性进行分析,关联规则支持挖掘多个属性间关联并且不用考虑变量间复杂关系,对挖掘对象要求低,聚类分析可用于群分类,然后应用关联规则对分类结果进行关联挖掘。将数据先用聚类分析处理,使其更规范化,而后进行关联分析,关联分析在运行上时间开销比较大,而在聚类操作后减轻了这种压力,两种方法可以互相弥补不足之处。决策树可用于疾病分类,而后可用关联规则从决策树中提取规则。研究发现决策树和人工神经网络结合使用可以产生较好的预测模型[4]。决策树模型效率高,可处理较大数据集,具有较高分类精度,决策树先对数据做出处理,删除不必要的数据,将有必要且符合要求的数据合并,再使用关联规则分析。
4种数据挖掘方法,能一定程度上满足医学研究及临床医疗的需要,在医学领域有较大发展空间及前景,但同时自身存在缺点及局限性,应重视克服其缺陷,以便能在医学领域乃至大数据环境得到更好的发展。数据挖掘方法各自分析侧重点不同,方法的选取对研究结果是否有效、是否可信影响巨大。已有的对数据挖掘方法的应用可为以后的使用者、研究者提供参考。数据挖掘方法在医学领域应用于不同研究方向,可根据研究目的和需要对方法进行选择,并且数据挖掘方法可以协同应用,有助于提高分析研究的准确性。
1 肖辉,周征奇,肖革新,等.公共卫生领域中的数据挖掘[J].医学信息学杂志,2013,34(12):2-5.
2 高汉松,肖凌,许德玮,等.基于云计算的医疗大数据挖掘平台[J].医学信息学杂志,2013,34(5):7-12.
3 石晓敬.数据挖掘及其在医学信息中的应用[J].医学信息学杂志,2013,34(5):2-6.
4 沈培.基于数据挖掘的甲肝医疗费用影响因素与控制策略研究[D].武汉:华中科技大学,2012.
5 王华,胡学钢.基于关联规则的数据挖掘在临床上的应用[J].安徽大学学报:自然科学版,2006,30(2):21-25.
6 余辉,张力新,刘文耀,等.医学数据挖掘系统研究——糖尿病并发症流行病学知识发现[J].计算机工程与应用,2006,(18):229-232.
7 吴嘉瑞,张晓朦,张冰,等.基于关联规则和复杂系统熵聚类的颜正华教授治疗腹痛用药规律[J].中华中医药杂志,2013,28(10):2884-2887.
8 欧凤霞,王宗殿.基于关联规则的数据挖掘技术在中医诊断中的应用[J].河南工程学院学报:自然科学版,2011,23(2):53-58.
9 胡双.关联规则挖掘研究及其在药物相互作用中的应用[D].昆明:昆明理工大学,2013.
10 郑银丽,相秉仁,赵国明.关联规则技术在医药零售业药品营销组合中的应用[J].医学信息学杂志,2011,32(4):55-58.
11 钱玲.人工神经网络应用于糖尿病并发症的影响因素研究[J].现代预防医学,2005,32(12):1625-1628.
12 吴拥军,吴逸明.人工神经网络技术在肺癌诊断中的应用研究[J].中华微生物学和免疫学杂志,2003,23(8):646-649.
13 温变珍.BP神经网络在大肠癌预后分析中的应用[D].太原:山西医科大学,2010.
14 Rena L,Wang WP,Gao YZ, et al.Typing SNP based on the Near-infrared Spectroscopy and Artificial Neural Network[J].Spectrochim Acta a Mol Biomol Sepectrosc,2009,73(1):106-111.
15 杨开明.糖尿病中医临床数据挖掘技术研究[D].昆明:昆明理工大学,2013.
16 苏亚丁.基于决策树的数据挖掘技术在口腔诊疗中的应用[D].石家庄:河北科技大学,2010.
17 陈伟,沈亚诚,蔡永铭,等.基于Web的数据挖掘系统设计及其在绝经综合征中的应用[J].医学信息学杂志,2012,33(7):33-36,44.
18 王剑.乙型病毒性肝炎及相关疾病蛋白质组学及临床诊断的研究[D].石家庄:河北医科大学,2009.
19 吴民.移动医疗的应用[J].医学信息学杂志,2012,33(11):2-5.
20 吴磊,李舒.基于双向聚类方法的中医治疗中风病方剂配伍规律知识发现[J].中国中医药信息杂志,2013,20(11):16-18.
21 Bittner M, Meltzer P, Chen Y, et al. Molecular Classification of Cutaneous Malignant Melanoma by Gene Expression Profiling[J].Nature, 2000, 406(6795):536-540.
22 景丽俊.基于聚类和关联规则的名医临证思维及方药应用规律挖掘方法[D].广州:暨南大学,2011.
23 李赛.慢性肾衰竭中医证治规律研究[D].北京:中国中医科学院,2010.
24 李健,卢朋,唐仕欢,等.基于中医传承辅助系统的治疗肺痈方剂组合方规律分析[J].中国实验方剂学杂志,2012,18(2):254-257.
25 林兰,倪青,庞健丽,等.基于数据挖掘技术的2型糖尿病辩证规范前瞻性研究[J].中国中医药信息杂志,2011,18(7):9-11.
26 魏林节,冯国君,董红让,等.聚类分析在高原地区高血压脑出血危险因素分类中的应用[J].中国实用神经疾病杂志,2013,16(13):43-44.
27 蒋小群,匡金石,李艾红.聚类分析在糖尿病中的应用[J].中国现代医药杂志,2008,10(2):100-101.
Application of Data Mining Methods in Medical Field as Well as SWOT Analysis
MUDong-mei,FENGChao,WANGPing,
InstituteofPublicHealth,JilinUniversity,Changchun130021,China
The paper elaborates the application status of four data mining methods in the medical field, including the association rules, artificial neural networks, decision trees and clustering analysis. It utilizes SWOT method to analyze the data mining methods from the perspectives of strengths, weaknesses, opportunities, threats and makes strategic analysis. The application scope and the synergy of the four data mining methods are pointed out, suggestions on the selection of data mining methods are put forward.
Data mining;Association rules; Artificial neural networks;Decision tree; Clustering analysis; SWOT analysis
2014-09-18
牟冬梅,教授,发表论文60余篇。
吉林大学基本科研业务种子基金项目“面向知识服务的领域多维知识库构建研究”(项目编号:2014ZZ026)。
R-058
A 〔DOI〕10.3969/j.issn.1673-6036.2015.01.012