张和华 向 华 吴 旋 苌飞霸 徐 力 尹 军*
数据挖掘技术在医疗设备行业中的应用研究
张和华①向 华①吴 旋①苌飞霸①徐 力①尹 军①*
目的:分析我国各地区医疗设备领域的发展状况,掌握医疗设备行业发展现状与趋势,提出采用数据挖掘(DM)技术管理医疗设备的措施。方法:利用DM技术,通过对我国部分地区医疗设备投资额、研究设计人员数目及当年总产值等数据进行挖掘分析。结果:我国医疗设备管理的发展势头在华东、华北地区较为明显,西南和西北地区则相对较为落后。结论:数据挖掘技术对于医疗设备的管理与研究具有一定的参考价值,而基于决策树的分类方法可应用于我国医疗设备行业的管理。
数据挖掘;医疗设备;行业;决策树;分析
[First-author’s address] Department of Medical Engineering, Institute of Surgery Research, Daping Hospital, Third Military Medical University, Chongqing 400042, China.数据挖掘(data mining,DM),即数据库中的知识发掘(knowledge discovery in data,KDD),是指利用大量数据进行分析,从中提取潜在的、有效的、新颖的及最终可理解的模式过程[1-3]。DM的本质是从大量模糊的、随机的和无规律的行为数据中寻找其背后隐藏的规律或规则,分析特定领域中一些已有数据的含义,并预测其在某个阶段的发展方向。近年来,基于数据库的DM技术已成为目前DM领域较为热门的研究课题,在科学界及相关产业界引起较大关注,并作为一个新兴的学科逐步崛起,DM有着较为庞大的数据系统及相关的知识[4-5]。目前,我国的医疗设备市场日益壮大,在世界范围内的医疗设备市场中仍最具发展前景,通过DM的相关技术能够在我国医疗设备管理应用中的大量数据进行较为明确的分类,提取有用信息。本研究通过对遴选的18个省、市自治区医疗信息数据统计,并通过数据挖掘技术进行分析,获取有用的信息和结论。
1.1 数据集的选择与处理
参考2013年《中国高技术统计年鉴》,分析2012年医疗设备行业情况。采用SPSS 18.0统计学软件对我国不同地区的投资额、研究设计人员数目总量进行有目的的分类;对入选的18个省、市、自治区根据所在区域进行泛化。其中黑龙江省、吉林省和辽宁省隶属东北地区;北京市、天津市和河北省隶属华北地区;上海市、浙江省和福建省隶属华东地区;陕西省、甘肃省和宁夏回族自治区隶属西北地区;重庆市、四川省和贵州省隶属西南地区;河南省、湖北省和广东省隶属中南地区。根据6地区医疗设备投资额的不同,依次分为低、中、高3类。研究设计人员数目分为稀少、少、中、多4个层次。从数据统计结果来看,各地区医疗设备投资额、研究设计人员数目情况呈现不同的特点。
1.2 决策树的生成步骤
(1)从大量数据中挑选一个较为适宜的属性作为研究中“树”的“根”。假设X和Y为样本的两大类,即一棵树上的两个信息源,如果属性A被选作决策树的“根”,其值可用A1、A2、A3、A4…分别表示,样本集C则被分配成C1、C2、C3、C4…不同类型,其中Ci在一定程度上包括样本集中C的属性A的值Ai。若Ci包含属于T类的Ti个样品,那么对于Ci形成的“子树”所需信息量为H(Xi,Yi)。以属性A形成的树所需的信息量则表示为公式1:
则A的分支获得信息增益表示为公式2:
(2)选择子树的根。方法及过程同上。
(3)决策树的修剪。在建立一棵决策树的过程中,要尽可能地排除混入的无用的噪声数据。建树所需的信息量表示为公式3:
鉴于研究设计人员增益的特殊属性,根据决策树的生成步骤,选其为决策树的“根”。首先创建一个与其相关的结点,利用研究设计人员显示标记,同时再分出不同的枝,利用对样本的划分对各分支行递归运算分析后形成最终的决策树(如图1所示)。
图1 最终决策树框图
研究结果显示,我国医疗设备管理的发展势头在华东、华北地区较为明显;西南和西北地区则相对较为落后,其中研究设计人员和投资额均在一个较低的水平,其原因是区域的地理位置偏僻;就发达程度比较而言,西南和西北处于相对较闭塞的地区,再加之气候、环境及土壤等自然条件也比较恶劣,以上客观原因均可导致其研究设计人员比例过少、投资额不高等现象,这在很大程度上导致了这些地区医疗设备管理水平下的总产值较低。因此,可以运用决策树对我国医疗设备领域中的相关指标数据进行分类,针对连续等数据行聚类分析来做离散化处理,再通过对其行决策树分类分析,建立与我国医疗设备行业情况较为适合的决策树。
DM技术是由多种学科技术凝练而成,具有一定的广泛性,可涉及到数据库技术、高性能计算、统计学、机械学、信息检索、图像与信号识别等领域[6-7]。近年来,随着科技的不断进步,针对DM技术的研究逐渐广泛,已经成为业界公认的信息产业中最具前途及前景的一门交叉融合学科[8]。DM技术不仅可以帮助决策者在对现有的信息总结的基础上来预测未来的发展,还可以根据相应发展趋势做出决策。常采用的主要方法有关联规则、决策树、神经网络、遗传算法、粗糙集以及联机分析处理(on-line analytical processing,OLAP)方法等[9-12]。
目前,我国的DM技术尚未形成较大的规模,发展尚未完善,还处于起步阶段,对于数据的研究分析也仅集中于电信、保险及金融等较为知名、规模较大和发展较成熟的行业,在与医学相关的领域则较为欠缺[13]。因此,研究DM技术对于我国医疗设备管理有一定的理论和实践意义,尤其是随着新能源、新材料和其他一些高科技领域的腾飞发展。在研究设计人员的选择方面,DM技术的结果具有一定的指导性。在医疗设备的高利润、高投入的大背景下,进行市场的推广需要较大的成本付出,这些因素导致了医疗设备管理上对资金依赖程度较大。
基于决策树的分类方法适用于我国医疗设备行业的管理情况。在医疗设备管理发展的过程中应充分利用DM技术加强对医疗设备的管理,加大技术设备、资金的投入比例,改善人才匮乏的技术环境,通过建设高新区、招商引资等不同的途径吸引更多的人才,从而促进我国医疗设备管理领域综合实力的提高。
[1]伍平阳,林意群,林木炎,等.基于数据挖掘技术的医疗设备绩效预测方法的应用研究[J].南方医科大学学报,2008,28(2):222-224.
[2]张月,张奕,皇甫德俊,等.医疗设备监测系统软件架构设计[J].南京广播电视大学学报,2013(2):91-94.
[3]翟凤杰,费晓璐,洪松林,等.医学科研数据仓库的建设[J].中国医疗设备,2013,28(12):80-82.
[4]于春华.基于数据挖掘技术的医院器材管理决策支持系统[J].医疗卫生装备,2005,26(10):37-38.
[5]王丹.基于数据挖掘的医疗设备购买可行性评估系统构想[J].科技信息,2010(27):492,456.
[6]魏继勇.数据挖掘技术在用户流失分析模型中的应用[J].中国医学装备,2009,6(3):17-19.
[7]伍平阳,林意群,林木炎,等.基于数据挖掘技术的决策树算法在医疗设备绩效预测中的应用[J].中国组织工程研究与临床康复,2008,12(9):1689-1692.
[8]霍洪波,何必仕,吴斌,等.基于数据仓库的医疗设备绩效统计分析[J].中国医疗设备,2013,28(9):27-30.
[9]史今驰.数据挖掘技术在医院信息系统中的应用[J].中国医疗设备,2012,27(1):86-88.
[10]伍平阳.基于数据挖掘技术的医疗设备绩效预测方法的应用研究[D].南方医科大学,2008.
[11]郝丽俊,莫国民,王艳,等.基于数据挖掘技术的AD脑电定征辅助检测技术探讨[J].中国医学装备,2011,8(2):1-3.
[12]苏韶生,程敏婷,张淑娟,等.大型医院开展数据挖掘项目存在的问题及对策[J].中国医疗设备,2010,25(8):59-60,84.
[13]杨晓鹏.浅谈信息系统在医疗设备管理中的应用[J].医学信息(中旬刊),2011,24(9):4601-4602.
Discussion on the application of data mining technology in the medical equipment industry
ZHANG He-hua, XIANG Hua, WU Xuan, et al// China Medical Equipment,2015,12(1):48-50.
Objective: To analyze the expenditure about investment of technical, staff and annual production situation in the field of medical equipment in different regions of China, grasp the development status and trend of medical equipment industry, put forward measures and suggestions of value. Methods: Analyze the output of medical equipment investment in some areas of China, R&D and staff by data mining technology (DM). Results: Medical equipment management development momentum in East China, North China area is obvious, relatively speaking; the southwest and northwest regions are relatively backward. Conclusion: Data mining technology has some reference value to the research of management of medical equipment, which can be used in Chinese medical equipment industry management from the classification based on decision tree.
Data mining; Medical equipment; Industry; The decision tree; Analysis
张和华,男,(1982- ),博士,工程师。第三军医大学大坪医院野战外科研究所医学工程科,从事医学装备的管理及医疗器械开发工作。
1672-8270(2015)01-0048-03
R197.324
A
10.3969/J.ISSN.1672-8270.2015.01.015
2014-06-10
①第三军医大学大坪医院野战外科研究所医学工程科 重庆 400042
*通讯作者:gaiety@126.com