健康大数据智能采集与挖掘系统平台的软件架构实践

2018-03-29 04:34饶启聪许丹蒋海洪
软件 2017年8期
关键词:云计算创新创业大数据

饶启聪 许丹 蒋海洪

摘要:健康大数据智能采集与挖掘系统平台即能满足医学院校实训室建设需求,又能满足未来的社会化需求,为学生提供一个创新创业平台?文中从平台功能需求出发,利用先进的大数据云计算技术,采用合理的层次理论将平台分割成多层,本文主要介绍了该平台架构层次。

关键词:大数据;云计算;分析挖掘;创新创业;实训

中图分类号:TP391 文献标识码:A DOI:10.3969/j.issn.l003-6970.2017.08.040

引言

指导我国未来大数据发展方向的纲领性文件《国务院关于印发促进大数据发展行动纲要的通知》(国发〔2015〕50号)的发布,在全社会引起广泛影响。文件重点体现了在全球范围内,运用大数据推动经济发展、完善社会治理、提升政府服务和监管能力正成为趋势的核心思想。国务院办公厅《关于促进和规范健康医疗大数据应用发展的指导意见》(国办发〔2016〕47号)则将健康医疗大数据应用发展纳入国家大数据战略布局,并从夯实应用基础、全面深化应用、规范和推动“互联网+健康医疗”服务、加强保障体系建设等四个方面部署了14项重点任务和重大工程。

基于此,上海健康医学院从2016年开始筹建健康大数据智能采集与挖掘系统平台(以下简称平台),以满足健康数据采集、清洗、存储、数据挖掘、数据展示的需要,并结合健康管理课程实验的要求,满足应用场景实验实训的目标,以让学生在实训室可以體验健康管理的完整流程、操作方式等,并进行科学实验,同时结合我校健康管理课程教学和科研需要,充分利用前沿的大数据、云计算技术,满足各种教学、科研场景的技术支撑需求。长远来看,平台还可以实现社会化,与市场各种健康管理系统实现很好的对接,并可以把平台系统功能应用走出围墙,走向社会,结合“互联网+”技术,把平台的功能和作用发挥到更大的空间和领域,更多的应用场景,能给健康管理概率的普及及应用提供支撑,为学生的未来就业和创业提供创新创业平台。

1 整体架构

平台由基础存储、能力服务、创新应用四大层组成,分别实现平台的数据采集、清洗、存储、挖掘与展示以及功能扩展,如下图1所示:

2 基础设施

2.1 健康大数据基础设施云计算平台

云计算平台基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息按照需求提供给计算机和其他设备。像使用“水”、“电”、“煤气”一样,将资源集中起来,按需供给,从而降低成本,提高利用率。云计算一般被定义为在网络环境下计算资源的交付和使用方式,用户通过网络按需、易扩展的方式获得所需服务。它的目的是实现计算资源能够像自来水和电一样按需供应,从这个意义上,云计算也可以称为“自来计算”。云计算以新的计算资源交付和使用方式作为出发点,将从根本上颠覆传统信息技术。

云计算的核心思想是将大量用网络连接的IT资源统一管理和调度,构成一个资源池向用户按需服务。而实现将资源池化的核心技术,也就是虚拟化。

大家对云计算的特殊的需求和其本身的技术手段决定了云计算具有可自动部署、透明、安全,可面向服务、可混合交付,按需角度,弹性扩展等特点。健康大数据专有云建设,理由难过有限的硬件资源可提供至少100台虚拟服务器,根据数据采集、清洗、存储及挖掘分析、可视化展示以及扩展等需要提供动态分配和调用,初步形成“基础设施即服务”的云服务模式。目前已将相关应用迁移到健康大数据云平台,提升了设备资源利用率,增强了系统的稳定性和安全性,同时大大节约物理服务器和存储服务器。

2.2 安全体系

大数据以浅显易懂的概念、广泛潜在的应用需求和可展望的巨大经济效益,成为继移动互联网、云计算、物联网之后信息技术领域的又一热点。但是,随之而来的数据安全和隐私保护问题给大数据发展带来相应的挑。

平台通过梳理健康领域大数据安全需求,分析健康大数据环境下的安全特性,建成了双活数据中心,统一配置了链路负载均衡、数据库安全审计和下一台防火墙、安全认证网关等安全设备。

2.3 通讯基础设施

通讯基础设施包括骨干容量达百G的光纤有线网络,以及覆盖面广的移动4G网络,用于健康据的快速有效传输。

3 数据处理及存储

数据的采集、清洗融合和存储是数据处理及存储层要实现的主要功能目标。

3.1 数据交换平台

健康大数据共享交换平台,可以打通校内以及校内与校外各健康数据来源系统之间的数据链路,打破行业组织间的数据壁垒,通过对数据的授权使用,从而实现数据之间的共享和交换,取代之前的纸张打印、光盘、U盘、硬盘拷贝等传统的获取数据的方式,可以显著提升各系统间的信息化工作效率。健康大数据智能采集与挖掘系统平台目前已建设完成的健康信息交换平台和健康信息资源目录体系,可以作为健康医疗大数据的一部分,融入到更大级别的健康医疗大数据共享交换能力建设中数据共享交换平台可以按照项目实际建设需求,通过接口的适配,采集到各来源系统不同种类、不同格式的数据。采集后的数据保存在数据共享交换中心,通过集中的数据清洗整合,建成健康大数据基础库。通过一定的数据授权,各数据需求方可通过数据共享交换平台访问健康大数据基础库内容。同时,各系统之间,也可以独立地对自身数据进行授权,实现系统之间的数据共享传输。

3.2 数据清洗融合平台

各个数据来源系统通过数据共享交换平台共享出来的数据,是一些支离破碎的某一个支域的数据,互相没有关联起来,并且可能互相矛盾,还无法形成基础数据库和数据资产。数据清洗融合平台承接数据共享交换平台共享出来的数据,识别出这些数据所对应的基础实体,将关于同一个实体的数据关联起来,并对同一实体的数据属性进行值比对和逻辑关系的比对,发现不同来源数据中互相印证(好数据)和互相矛盾(坏数据)的部分,通过数据管控流程将不一致的数据发给数据源单位修复,从而将同一个实体的不同来源互相重叠的可能不一致的数据属性融合起来。建立基础数据库的模型,将融合后的数据装入基础数据库。这个关联、比对、清洗、融合、建模、装人的过程是由数据清洗融合平台完成的。其核心是数据的清洗和数据模型的重构,将数据由面向业务的应用数据模型重构为面向数据资产的基础数据模型。

4 能力服务

本层主要实现数据的价值,通过数据挖掘分析体现数据基本价值,并通过能力中间件平台,给其它方应用提供接口,更大程度释放数据价值。

4.1 数据挖掘分析平台

建设健康数据挖掘分析平台,可以对平台运行过程中产生、积累的各类数据(基础数据、行业数据、主题数据等)通过各种挖掘算法、分析工具来发现数据背后的价值,提供更加丰富和精确的统计分析结果,更好地服务健康管理和实训教学。

数据挖掘分析平台可提供OLAP分析、分布式图挖掘、多媒体智能分析、报表、搜索引擎等各种数据挖掘和分析工具,支持复杂多样的应用需求和灵活动态的扩展能力,为各种上层应用提供完善的支撑。

4.2 能力中间件平台

能力中间件平台,可以将健康大数据平台中的各种数据和能力,以服务的方式进行封装,在确保安全的前提下,给其它各种应用开放接口,使这些应用能够高效地获取到健康大数据统一平台的多种数据和能力,从而丰富和增强了各类应用的功能,实现了能力互补。通过能力中间件平台的建设,可以将健康大数据统一平台和各种应用打造成一个扩展性强、可持续生长的健康大数据生态圈系统。

能力中间件平台包含业务协同和能力开放。业务协同既可实现各种跨系统、跨机构的复杂政务流程的无缝对接,又可实现各类政务应用系统的快速实施和部署;能力开放将数据交换、分析挖掘等各类能力进行封装开放,为第三方应用提供基础能力支撑。

5 创新应用

平台的适用范围不只局限于当前实训室建设的需要,最终目标是可以实现社会化,结合市场各种健康管理的系统应用,可以很好的与之对接,并可以把系统功能应用走出围墙,走向社区,走向社会,结合“互联网+”技术,把平台的功能和作用发挥到更大的空间和领域,更多的应用场景,能给健康管理概率的普及及应用提供支撑,为学生的未来就业和创业提供创新创业平台。

6 结束语

通过基于大数据云计算技术搭建一个性能卓越、技术先进、安全可靠、易于扩展,并具备创新应用的健康大数据智能采集与挖掘系统平台,即能满足医学院校实训室建设需求,服务于参与健康管理教学过程的教师、学生及医务工作者,又能满足未来的社会化需求,结合市场各种健康管理的系统应用,并实现相互之间的完美对接,让平台系统功能应用走出围墙,走向社区、邁向社会,结合“互联网+”技术,把平台功能发挥到更大的空间和领域,给医学院校甚至其它行业的学生提供一个创新创业平台。

平台的架构实现借鉴了不少网上公开的方案和开源技术,由于时间有限、以及项目参与人员的学识局限性,不足之处在所难免,期待在实训教学过程中不断完善与提局。

猜你喜欢
云计算创新创业大数据
实验云:理论教学与实验教学深度融合的助推器