胡楠,刘毅,邹志永,孙铜
(山东省食品药品检验研究院,山东 济南 250101)
随着互联网、物联网、云计算等技术的迅猛发展,当今社会已进入大数据时代。数据的扩张让我们看到大量从宏观到微观、从自然到社会的观察,各种计算机和检测仪器设备都在快速产生海量而多样化的数据。比如实验室的各种检验、科研仪器设备和监测、健康装置以及各种应用等,这些都使得科研和检测领域被推到了一个前所未有的大数据时代。海量数据的剧增,使量变扩张引起质变,从而引发人们思维和行为模式的变革。
LIMS系统是计算机技术、数据库技术、数据通信、信息管理、检验检测等多学科集成的实验室管理系统。通过它可以保证实验室的质量在严格控制下有序地进行,从而能使实验室的检测结果符合相关的质量标准;同时LIMS系统提供了各种信息存储、交换、统计、分析的网络化平台,可促进检测工作高效、科学、规范的管理[2]。随着信息化的发展,近些年来大家只关注系统的使用,出现了“重系统轻数据”的问题,对数据的分析利用、深度挖掘重视不足。信息系统仅能满足业务流程电子化需求,这些系统严格意义上说只能算是“数据库”,谈不上利用数据的内在关系发现问题,制订措施对工作进行“管理”,难以满足领导层的决策需求,信息化的总体效益和效果不尽如人意[3]。
我院已经使用LIMS系统7年之久,系统累积了大量数据,未来信息化建设关注系统实施向关注数据分析方向逐渐转变,利用数据处理的成熟技术,实现基于大数据技术的业务智能及数据挖掘分析系统的建设,为领导层实行科学监管和风险预警提供有效的决策支持。为充分利用我院LIMS系统大数据,我院从2020年开始,对药品检测数据进行收集、整合、验证,为日后实施做好充足准备,弥补我院在精细化管理、工作效率提升、流程优化、成本控制等方面的不足,为我院带来的巨大的经济价值和社会价值。现将我院药品检测领域应用大数据技术的方法介绍如下。
统计分析领域内常用的工具有R语言、Python语言。R语言主要用于数据分析、绘图以及数据挖掘,但也有人用作矩阵计算。其计算速度可媲美专用于矩阵计算的开源软件GNU Octave和商业软件MATLAB[4]。
Python语言同R有重叠之处,同样支持数据分析、绘图、数据挖掘等功能。但对于提升数据挖掘与分析来说,Python具有更完整的生态体系和强大的扩展性。
在这里,我们将用到R语言,并结合两种技术,完成对LIMS系统数据库的大数据处理[5]。①Greenplum平台的PL/R语言,利用Greenplum强大的扩展性和SQL友好性,R语言语法和分布式MPP系统的性能优势,完成大数据的统计、分析、挖掘工作;②SparkR,利用Spark分布式计算集群的强大计算能力,来运行R程序,分析出统计、挖掘结果[6]。
2.1 基于客户提交受理检品信息、业务科受理检品信息的原始数据进行分析 ①分析出不同的检验领域及各类(大小类)的受理检品总量;②各类检品送检数的同比环比变化;③各部门科室检品受理情况:检品偏离率、检品分包情况;④各供样单位每年月送检品量的变化率及送检总量,各分包商检品合格率;⑤各检品提供商每类检品合格率,每年检品要求退样数,依据检品信息可视化查看检品送检进度(见图1),各分包商分检进度。
图1 可视化查看检品送检进度
2.2 基于检品送达原始数据 ①分析出各检品供样单位的检品送达率即送达的检品与提交的检品比例,根据这些数据分析出各检验室检验进度是否超时;②统计每年承接的检验任务数及检测进度的完成效率;③智能分析出每个科室检验数量其中主检次数、协检次数及同比环比概况,可视化的了解每个科室的重点工作,任务量及检品检测完成情况。
2.3 利用收费确认模块的原始数据 ①分析出已收费及预授权量的占比情况;②各科室每年收费总额及变化率(见图2)、各科室的盈利完成进度。
图2 可视化每年收费总额及变化率
2.4 基于检品接收的原始数据 ①分析出各科室年度工作量;②分析出各科室各检测员的年度季度月度工作量及检测完成进度一目了然地看出工作人员的工作绩效及能力。
2.5 基于结果录入的数据 ①按科室年度统计超期数量及超期比率,根据录入的结果(见图3)推算出各科室每年度的业务服务质量及科室任务完成量;②通过接收检验整个过程的数据来推算出检验任务的完成进度;③按检测结果统计各科室及各科室检测人员检测结果的情况,来判断是检测过程引起的产品不合格还是检品本身有问题S系统数据库导出的结果信息表。
图3 LIMS系统数据库导出的结果信息表
2.6 利用报告书数据 ①分析出每月每年报告书初始提交数量与退回报告书的数量;②每年退回报告书的比例环比,来推断出各科室业务服务质量;③通过完成的报告书和已发送/完成的比例也能够看出每个科室的工作量、工作效率、工作质量,推断出是否是要求的时间段内保质保量地完成的任务(见图4)。
图4 可视化科室月度工作量
2.7 基于留样管理中的原始数据 ①按无留样、已留样、未留样分析本年度或者某年度的数量;②根据留样时间和收样日期智能提醒未处理的样品(见图5)。
图5 可视化智能提醒未处理的样品
2.8 利用检验管理中的数据 ①按检验方法统计样品的检验方式,分析出产品检验中最常用的检验方法;②按不同的品种类型分析常用检测方法;③选择产品类型智能推荐出常用的检测方法,提高检测效率。
2.9 根据菌种鉴定管理数据 智能提醒菌种库存剩余量,库存少于一定的数量用红色标注出来给予提醒。
2.10 基于设备管理产生的原始数据 ①统计每年月仪器维护、维修次数,通过每年的维修保养的同比环比情况来推算出机器能使用的最佳使用年限,为设备采购报废提供数据支撑(见图6);②分析出维护人员每年维护的次数(能发现某维修人员维修后不容易出现问题耐用),而且能计算出维修人员的绩效(见图6);③分析出各科室每年每月设备报废情况及报废率,对于报废率高的科室要平时引起注意、重点关注,看是使用方式不正确导致的还是设备质量问题引起的。
图6 仪器使用情况及维修人员的绩效
2.11 基于LIMS系统检验财务收费信息 ①分析出检验科室检验收费项目、收费标准,统计全年检品分类收费情况,结合检验工作量以及科室人员配备,根据统计结果,了解客户检验需求偏好,提供针对性服务[7];②分析上下年度不同检验分类收费波动情况,针对上下年度波动较大的分类收费,结合政策导向和客户需求,提出针对性的解决方案,发现新的收费增长点[8]。
LIMS大数据分析系统的可视化环节主要是大屏显示,这也是目前主流的可视化解决方案。大屏幕包括两个部分:
3.1 展示区大屏:实现检测信息化的实时监控,便于送检客户更加清楚地了解检验的完成及进展状况。通过大屏幕直观地看到各种检验科室的检验量、办结信息等全局情况,实现信息全面公开展示。
3.2 试验区大屏:供检验人员使用,直观的展示每个检验组待检、待领样等检验任务,实现检测信息的实时通知与消息推送展现,便于提升工作效率[9](见图7)。
图7 可视化大屏各项任务一览
LIMS系统可以保证实验室的质量在严格控制下有序地进行,从而能使实验室的最终产品即所有的检测数据均符合相关的质量标准或规范,我们可以将大量小数据汇总、统计分析,完成海量信息资源的攫取,从而发现其中蕴含着巨大的经济价值和社会价值[10]。
将来可以合理利用LIMS使用过程中产生的数据,并把这些闲散的数据统一整合起来,将数据变"活"。基于LIMS系统的数据进行大数据分析,形成有价值的分析结果,利用这些数据使工作管理精细化、流程规范化,为决策提供可靠的数据支撑。通过可视化的展示能实时的查看检验任务的进度、计划实施进度、业务服务质量、科室任务完成量等,从而实现对科室的全方位监管、对样品检验全方位监控。建立大数据分析平台,深入挖掘和分析检验检测业务数据,实时数据统计和分析、预测趋势,提升数据应用水平,为质量分析、风险预警监测、技术研究、科学管理等起到支持作用[11]。