吕芳 魏杰 宁静 胡杰 李富忠
(1山西农业大学经济管理学院,山西 太谷 030800)
(2山西农业大学软件学院,山西 太谷 03800)
大数据在动物医院的应用研究
吕芳1魏杰1宁静1胡杰2李富忠2
(1山西农业大学经济管理学院,山西太谷030800)
(2山西农业大学软件学院,山西太谷03800)
在对大数据中的特征与数据挖掘进行了简要介绍的基础上,采用Map-Reducede方法,将大数据应用在动物医院中,提出了宠物的电子芯片与动物医院中以电子病历为中心的管理系统有效结合,为动物医院提供了大量的数据资源,采用关联分析与维度表联系,应用模糊聚类的方法对其聚类分析以及异常点检测,将大量的数据资源加载到具体的环境中,为我国动物医院的互联互通和数据共享建立了一个良好的社会环境。
大数据 动物医院 聚类 Map-Reduce
1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将大数据赞颂为“第三次浪潮的华彩乐章”。从2009年开始,大数据成为互联网信息技术的流行词汇。维克托·舍恩伯格在《大数据时代》一书中前瞻性地指出,大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启一次重大的时代转型,并用三部分讲述了大数据时代的思维变革、商业变革和管理变革。目前,动物医院中存在大量数据信息,是很值得去挖掘与利用的,但是目前并没有去挖掘与利用,而大数据时代的核心是数据的分析和利用,模型的建立与数据挖掘是分析利用的核心,本文主要对动物医院的大量数据信息进行模型建立与数据挖掘,通过挖掘利用,会为我国宠物市场与动物医院建立一个良好的信息共享系统。
有关大数据,还没有一个统一的定义,但却有几个一致的观点。麦肯锡全球数据分析研究所发表的论文中给出这样的定义,大数据是指大小超出了典型的数据库软件工具收集、存储、管理和分析能力的数据集。Gartener给出这样的定义,“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化信息资产[1]。
在大数据中,“大”涵盖了大量的数据,不仅指数据的容量多,也包涵了大数据源的其他特征。这些特征不仅包括不断增加的容量,其中包括不断增加的速度和多样性。而大数据的特征业界将其归纳为4个“V”——数据体量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)和价值密度低(Value)。大数据中的“数据”中最重要的是“数据挖掘”,数据挖掘是一种技术,将传统动物医院各种数据的分析方法与处理大量数据的复杂算法相结合。数据挖掘任务在大数据中也是非常重要的,分为两类。
2.1预测任务
这些任务的目标是根据其结构化或者非结构化的数据,来预测这种数据中特定的值。被预测的数据一般是目标变量或因变量,而用来做预测的数据称说明变量或自变量。
2.2描述任务
2.2.1预测建模
说明变量函数的方式为目标变量建立模型。例如根据宠物检查结果判断动物是否患有某种疾病。
2.2.2关联分析
这种分析方法是用来描述数据中强关联特征模式,这种模式通常有特征子集的形式表示。
2.2.3聚类分析
主要是用来发现紧密相关的观测值组群,本文主要应用模糊聚类的方法,来说明动物医院结构化以及非结构化数据的转化,能更好地应用于动物医院中。对于聚类分析中主要应用的是模糊聚类的方法,其中簇是对象的集合。模糊集合论是一种处理不精确和不确定性的方法,可以在0~1之间属于一个集合。
2.2.4异常检测
主要任务是识别异常点,异常检测算法的目标是发现真正的异常点,从而避免错误地将正常的对象标注为异常点。
目前,动物医院的管理水平以及医疗技术在逐年提高,主旨在于服务小动物。现代生活中大量的宠物进入人们的生活当中,对宠物更人性化和更合理的管理方式也越显重要。对宠物医院的管理逐步进入以信息服务为主的医疗技术服务、宠物主人满意度和医院知名度为中心的管理阶段[2]。
3.1对动物医院的预测建模
拥有执照的宠物脖子上有一个电子芯片,可以贮存和读取宠物基本信息以及各种结构,通过这种数据可以很快了解病史,从而更有针对性的对宠物进行治疗。
在动物医院中以电子病历为中心的管理信息系统将原有的电子信息系统、影像系统、检验系统以及绩效管理系统等有效地组织起来,实现动物医院以宠物为中心的全信息化服务。如果宠物医疗事业发展的更好,电子病历系统可以通过互联网相连接,实现数据共享,可以减少患病宠物的重复检查,减轻主人的经济负担,提高看病效率[3]。由此可见,电子病历系统产生的数据是大数据,它包含3部分:动物电子病历数据、动物医学检验数据和动物医学影像数据。动物电子病历是通过主人描述症状和大夫记录产生的以文字表述为主体的数据,它是一种非结构化的数据,宠物信息管理系统业务登记表如表1所示,电子病历管理信息登记表如表2所示;动物医学检验数据来自于动物医学检验设备,如血常规检查、肝功能检验和心电图检查等,由这些医学仪器产生的数据一般是数字数据,且有标准和规范,因此它是一种结构化的数据。急诊仪检验报告单如表3所示,动物影像数据来自于影像设备,是一种以图像显示为检测结构的医学检验装置,由它产生的数据是图像,是一种非结构化数据,X线片如图1所示,B超影像如图2所示等。
表1 宠物信息管理系统业务登记表
表2 电子病历管理信息登记表
表3 急诊仪检验报告单
图1 X线片
图2 B超影像(图中是犬脾上有结节)
电子病历系统的开发与电子芯片有效地结合起来,不管在什么地方给宠物看病,都会有以前的病历,甚至可以通过电子芯片的植入来传入芯片更多信息,再去动物医院看病的时候就可以直接通过扫描芯片了解宠物的病情。
通过对电子病历系统产生的3种不同的大数据以及植入的电子芯片可以解析出很多信息并加以利用。如果一条宠物犬去动物医院就医,第一次去就医时会将所有的信息填入病历里,并将信息输入到电子芯片中,这样不管宠物随主人走到哪里,全国的各个动物医院都可以通过芯片检测到有用信息,那么这样可以通过与芯片有感应的仪器定位检查,可以直接引导去具体的哪个科室去看病,医生通过看电子病历以及植入的芯片了解情况,不用通过主人的具体描述也可以知道宠物的基本情况,不过必要时问诊也是应该的,确诊后直接开处方去取得药物。下次同样的宠物狗在不同的医院看病时,通过电子病历查询结果以及电子芯片有用信息,直接了解到宠物狗的具体情况,得出结论。这样的看病方式较以往而言,不但节约主人的时间和金钱,而且为我国动物医学的发展起到了很大的促进作用。
宠物信息、诊疗信息、处方医嘱和检查报告等共同构成了医药卫生的大数据资源,可以通过对这些数据采集、抽取和转换,形成医疗信息资源库,为宠物和动物医生提供数据支持。面向宠物,医疗信息资源库为宠物提供个性化健康管理,如智能导诊、健康记录和健康预警等。面向动物医生,医疗信息资源库以及电子芯片为动物医生诊断提供个性化临床决策支持。例如基于动物医疗大数据分析提炼病种的关键特征指标,形成膀胱结石、子宫积液和肠梗阻等几个病种的诊疗模型[4]。
3.2对动物医院的关联分析
通常在多个编辑系统中,有一个核心的编辑系统称为Map-Reduce。Map-Reduce的实现使得很多基于大规模数据的最常见计算能够在大规模计算机集群上高效实现,而且它能够支持计算机过程硬件容错性。通过Map-Reduce的方法,进行对动物医院的电子病历以及电子芯片进行分析处理,进而得出有用的信息。Map-Reduce程序执行示意图如图3所示[5]。
图3 Map-Reduce程序执行示意图
动物医院中的电子芯片与电子病历的管理信息系统结合运用,这样使得更多大量信息得以利用,那么保存的这种信息表中,表的每个元组代表一次宠物身份与病理的记录,那么在宠物信息管理系统登记中包含了主人姓名、宠物身份证号、品种、血型、年龄、性别和特征,在电子病历管理信息登记中包含了病案首页、病程记录、检查检验结果、手术护理记录和手术治疗回访记录。在宠物信息管理系统登记表以及电子病历管理信息登记表中的每个属性代表的是一个重要的字段,对每个属性又存在一个维度表给出的属性的相关信息。
以宠物信息管理系统登记表和电子病历管理信息登记表为例,在宠物信息管理系统表中将主人姓名、宠物身份证号、品种、血型、年龄、性别和特征设为一个维度表R(A1、B11、B12、B13、B14、B15和B16)其中A1表示主人姓名,每个B1i代表的是其宠物的身份证号、品种、血型、年龄、性别和特征,在电子病历管理信息系统表中将病案首页、病程记录、检查检验结果、手术护理记录和手术治疗回话记录设为一个维度表S(B1、C11、C12、C13、C14和C15),其中B1表示病案首页,每个C1i代表的是其病程记录、检查检验结果、手术护理记录和手术治疗回话记录。通常来说,这只是其中的一部分,宠物信息管理系统登记表会远远大于维度表。R和S的规模分别是r和s,其中R和S两个文件的每个文件块传递给一个Map任务,因此所有Map任务之和是r+s。Map任务的输出规模与输入的规模大体相当。每个输出的键-值对传给一个Reduce任务,而Reduce任务不太可能通过集群的互连来实现,而不是从内存到磁盘的传输。因此连接算法的方法是O(r+s)。
3.3对动物医院的聚类分析及异常检测
其中R={A1,B11,B12,B13,B14,B15,B16}以及S={B1,C11,C12,C13,C14,C15}中,以R={A1,B11,B12,B13,B14,B15,B16}为例,应用模糊聚类的方法,来说明动物医院结构化以及非结构化数据的转化,能更好的应用于动物医院中。模糊簇集为R={D1,D2,…,DK},数据点的集合R={A1,B11,B12,B13,B14,B15,B16},其中每个点Bi是一个n维点,每个簇是Dj,隶属权值为wij(0-1)。
算法:基本模糊c均值算法[6]:①选择一个初始模糊伪划分,即对所有的wij赋值;②repeat;③使用模糊伪划分,计算每个簇的质心;④重新计算模糊伪划分,即wij;⑤until质心不发生变化。
初始化:一般是随机的初始化。
计算质心:簇Dj,对应质心dj的公式为dj=∑wijpBiBi/∑wijp
更新模糊伪划分:wij=(1/dist(Bi,Dj)2)1/p-1/∑(1/dist (Bi,Dq)2)1/p-1
每个簇的权值会受到1/p-1的影响:①如果p趋于无穷大时,那么1/p-1趋于0,权值趋与1/k;②p趋于1时,1/p-1加大赋予离点最近的簇的权值;③p趋于1,最近的簇的隶属权值趋向1,其他簇的隶属权值趋向0.4;p>2,1/p-1降低赋予离点最近的簇的权值。这样就可以分析出在质心不发生变化的情况下,数据聚集的情况。
总体来讲,这种算法是通过将宠物信息管理系统登记表以及电子病历管理信息登记表,与维度表联系,之后用聚集、函数、组合等转换使其变为可用数据,最终,这种数据会被加载到对它进行具体分析的环境中去。
本文的主要贡献在于针对目前动物医院的现状,综述如何打破各系统各动物医院间的信息孤岛,实现互联互通和数据共享业务协同,建立宠物医疗卫生信息数据以及电子芯片在宠物体内的植入,以及宠物医疗卫生信息平台,为我国宠物市场和动物医院各方面建立一个良好的社会环境。同时,在动物医院面临庞大的数据面前,如何利用Map-Reduce的方法,将事实表和维度表进行关联分析,运用模糊聚类的方法对数据深度挖掘,将数据转化为有用信息,将这些有用信息在动物医院中得以应用。
[1]Bill F.Taming the Big Date Tidal Wave:Finding Opportunitiesn Huge Data Streams with Advanced Analytics [M].ndianapolis:wiley published,inc.,2012.3-17.
[2]林德贵.国内外小动物医学的发展与展望[J].农产品市场周刊,2004(2):18-21.
[3]邹北骥.大数据分析及其在医疗领域中的应用[J].计算机教育,2014(7):24-29.
[4]陈鹤群.大数据环境下医疗数据隐私保护面临的挑战及相关技术梳理[J].电子技术与软件工程,2014(16):51-53.
[5]Anand R,Jeffrey D U.Mining of Massive Datasets[M].America:Cambridge University Press,2012,21-22.
[6]Tan Pang-ning,Michael S,Vipin K.Introduction to Data Mining[M].America:Pearson Education,Inc.,2006,360-361.
Application of Big Data in Animal Hospital
LV Fang1,WEI Jie1,NING Jing1,HU Jie2,LI Fu-zhong2
(1.School of Economic Management,Shanxi Agricultural University,Taigu Shanxi 030800,China;)
(2.School of software,Shanxi Agricultural University,Taigu Shanxi 030800,China)
This paper introduces the characteristics of big data and data mining,and uses Map-Reduce method to implement the application of big data in animal hospital.It puts forward a method of combining electronic pet chip and the management system centered by animal hospital electronic medical records.This method provides a large amount of data resources to animal hospital.Based on clustering analysis and anomaly detection for big data resources performed by using correlation analysis,contact dimension table and fuzzy clustering method,the big data resources are loaded into specific environments to build a favorable social environment for interconnection and interworking and data sharing in animal hospital.
big data;animal hospital;clustering;Map-Reduce
TP393
A
1008-1739(2015)17-64-4
定稿日期:2015-08-12
山西省回国留学人员科研资助项目(2014-040);城乡一体化土地市场研究——以山西省为例(2009HX02);企业电子商务建设研究(2009HX04)。