药检系统的大数据挖掘策略研究

2014-10-21 02:57涂婕罗震钧庞璋帆
科技创新与应用 2014年31期
关键词:云计算数据挖掘大数据

涂婕 罗震钧 庞璋帆

摘 要:随着各种计算机技术的广泛应用推动了大数据时代的到来。大数据时代对很多行业来说既是机遇也是挑战,在药检信息化发展过程中,同样存在着大量的药检数据信息被闲置和数据利用率比较低的问题。如何合理利用这些数据,并把这些闲散的数据统一起来,将“死”数据变“活”等等都是药检信息化管理需要考虑和解决的问题。文章基于科学检验精神中的严谨和创新方针来研究如何科学合理地应用药检系统的大数据,探讨了药检系统大数据挖掘的重要意义,并展望了未来药检大数据挖掘的下一步研究方向。

关键词:药检系统;大数据;云计算;数据挖掘

1 科学检验精神的提出

2011年12月中国食品药品检定研究院李云龙院长在全国药品医疗器械检验检测电视电话工作会议上提出了科学检验精神的实质与内涵为“为民、求是、严谨、创新”,其中创新就是用现代信息技术改造和提升检验工作。实际上就是用新的计算机技术与“三品一械”的检验检测管理系统相结合,为高效、可靠、准确、标准化的管理打下基础,并建设中国药检数字化新时代。据此,本文根据药检系统的实际使用需要,以科学检验精神为指导方向,引入计算机的最新技术,规划一个药检云计算平台,并在此基础上研究药检大数据挖掘策略。

2 大数据与药检系统

2.1 大数据的概念

大数据是一种巨量数据,是为了更经济更有效地从高频率、大容量、不同结构和类型的数据中获取价值而设计的新一代架构和技术,用之来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。面对如此海量的数据,如果对其进行充分挖掘则可能得到的价值就会更大,创造出的效益将会更惊人。大数据具有4V特点,即:数量巨大,种类繁多,价值高,处理速度快。

在药检系统中,数据量也随着药检业务范围的扩大、项目也不断地扩展。以湖北省药检院为例:该院在2011年以后年检品量都突破1万批,检品信息还附加的有采购原材料信息、生产信息、企业资料信息、药品流通信息、销量信息、市场反应信息及其它的关联信息等,还有累积三十多年的检验检测数据,这样的海量数据信息进行挖掘的意义是很大的。

2.2 基于药检云计算的大数据挖掘平台

大量的药检数据信息需要一个存储平台,这个平台就是药检云计算平台,只有设计好一个平台才能对采集到的药检大数据进行合理的利用。药检云计算平台是药检大数据的载体,该平台存储了所有的药检所(院)的数据信息。它的功能 是获取和存储数据,获取数据:一方面是从药检实验室不断获得检验检测数据;另一方面从互联网获得与药品食品等的相关数据或与生产、流通企业等的数据信息。存储数据是依据统一的格式对采集的这些数据进行整理并存储。有了药检云计算的平台,就可以使用可靠的方法对平台存储的数据进行挖掘。数据挖掘又是一个比较繁琐、复杂的工程,需要应用多种智能算法进行运算,还要对挖掘出来的数据进行评价,反复迭代才能得到最优的数据,才会得到获得最大的效益。

构建的药检云计算应该为两部分:一部分是私有云,该部分的功能是从药检所(院)内网实验室系统中获取各式各样的检验检测数据信息和以前服务器上累积的数据信息,通过内网高速通道传输到私有云上,私有云是对内的非药检人员不能访问;另一部分是公有云,该部分的功能则是从Internet上获取与食品药品等各种相关的信息。通过整合工具处理这两部分数据,构成药检云计算数据中心。

3 药检大数据挖掘策略

药检云计算平台将会随着时间的推移存储越来越多的数据,这些数据需要进行深入地挖掘才能创造出巨大的经济和社会效益。对于药检系统来说,大数据的挖掘顺序应该是:首先,确定药检挖掘主题,如:挖掘的方向是涉及食品方面、还是药品方面或者是其它;确定挖掘的范围是医疗的、不良反应的、还是面向社会的或者是仅局限于药检所(院)内部的;确定其挖掘目的是评价性的、预测性的、还是关联性的等。其次是对采集到的药检数据进行处理分析,该过程一般要借助挖掘工具处理,例如:IBM的Intelligent Miner、MS的Clementine、SAS的Enterprise Miner、Oracle的Darwin等。接着是药检数据挖掘模型的建立,在该过程中,先通过数据抽样对部分数据进行选取;然后数据探索对数据趋势、分布质量等进行分析、统计、判断,甚至还对一些数据进行修改,例如:适当加入新数据、修改变量参数等;最后通过经典数据挖掘算法建立相应的药检数据挖掘模型,这些算法主要有:C4.5、决策树、最大期望、K-means、海量网页爬虫等。最后是对建立的药检模型评价,当一个模型建立后,则要通过实践的使用对模型进行评价,当模型与实际结果有出入时则需要回到药检模型建立的过程中对相关的模型修改,在此过程中需要通过合适智能算法可以对模型进行评价,如:蚁群算法、文化算法、免疫算法、遗传算法、神经网络等,这些算法都有智能学习的功能,当发现问题时可以自我调节并重新找到最优解。通过这样的挖掘过程可以提取到药检大数据的重要信息,这对药检系统的检验检测有重要意义,如:食药安全预警机制、食药安全问题模型预测、药品安全信息模型等等。

4 结束语

文章以科学检验精神为指导方向,结合计算机最新技术用以推进药检信息化未来发展的思路与理念,并在此基础上介绍了大数据的概念,同时规划了基于药检云计算的大数据挖掘平台,并在此基础上提出了大数据挖掘的策略。在未来的挖掘中需要对药检大数据采集的准确性、安全性、价值性进行分析,用以保证采集到的数据信息是可靠的。

作者简介:涂婕(1983-),女,湖北武汉人,图书管理员,湖北省食品药品监督检验研究院情报信息中心科员。

罗震钧(1985-),男,河南漯河人,助理工程师,武汉理工大学计算机学院在职博士研究生。

庞璋帆(1982-),男,湖北武汉人,湖北省食品药品监督检验研究院湖北药品所科员。endprint

猜你喜欢
云计算数据挖掘大数据
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
基于云计算的移动学习平台的设计
实验云:理论教学与实验教学深度融合的助推器
云计算中的存储虚拟化技术应用
基于大数据背景下的智慧城市建设研究
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究