高校大数据平台建设研究

2017-07-14 13:37李金旭吕书林
电脑知识与技术 2017年16期
关键词:数据集成大数据高校

李金旭+吕书林

摘要:大数据已经成为提升社会、提升高校的创新力和生产力,已经成为高校信息化建设过程中必须要面对的问题。文章讨论了高校大数据平添建设的三大用途,给出了从构建基础硬件层,到利用云计算、大数据的数据集成、数据安全、服务器集群、数据计算与挖掘分析等技术的Hadoop生态体系大数据平台的技术架构。

关键词:高校;大数据;数据集成;挖掘分析

中图分类号:TP393 文献标识码:A

文章编号:1009-3044(2017)16-0013-02

1概述

近年来,移动互联网、云计算、大数据、物联网等信息技术取得了突飞猛进的发展,已经在深刻地改变着人类社会的方方面面。“互联网+”、大数据已经上升到了国家战略层面,成为提升社会的创新力、生产力,促进经济发展新形态的基础设施和现实工具。高校作为人才培养、技术创新的前沿阵地,需要充分感知最新技术发展方向,掌握和创新最前沿科学技术,培养时代迫切需求的创新型人才。

2高校大数据平台的用途

2.1培养大数据人才的平台

根据国内外高校开展大数据课程建设经验以及现有大数据技术就业市场需求而构建的大数据人才培养平台,以大数据为方向,引进国内外先进大数据技术、成熟解决方案以及管理与教学内容,搭建云计算、大数据管理技术、大数据应用软件开发等技术平台,培养学生研究大数据科学与工程领域问题、解决大数据实际应用问题的能力,系统掌握大数据主流的存储、管理、分析处理技术,以及大数据平台架构和建设,实现科研、教学与社会服务的顺畅衔接,逐步打造以培养大数据人才为核心的科研、教学基地。

创新意识、创新精神、创新思维、创造力或创新人格等春心素质的培养需要一个长期的过程、创新教育与科教教育相结合,纳人人才培养体系,利用大数据、“互联网+”、云平台的优势,构建大数据人才平台、打造创新教育人才培养模式、创新教育教学组织新形式,使学生掌握企业运作的过滤与本质,增加师生良性互动,真正培养出社会、企业所需要的创新型人才,如图1所示。

2.2深化高校管理促进高校改革发展的平台

在高校大数据平台中,通过可视化分析可以直观的展示数据,让数据自己说话;通过数据挖掘算法(集群、分割、孤立点分析)让我们深入数据内部,挖掘价值;通过数据存储和数据仓库,便于多维分析和多角度展示数据按特定模式进行存储所建立起来的关系型数据库。数据仓库提供数据抽取、转换和加载,为联机数据分析和数据挖掘提供数据平台。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果,来保证数据质量和数据管理。通过大数据平台的预测分析能力可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性判断。

2.3提高高校科研水平和效率的平台

大数据科研平台提供多场景数据计算和分析挖掘的科研基础环境,充分结合行业课题的相关数据,利用大数据技术深入挖掘分析,满足行业大数据的科研工作需求,进一步提升高校的大数据科研水平,借助完善的产学研体系,实现科研成果向业务价值的转化。大数据技术在高校科研管理创新中的应用主要有以下几个方面:

1)实现高校科研选题科学化

挖掘社会公众、工商企業、政府和事业单位以及其他非盈利性机构对科学知识和技术的需求情况,辨别哪些科学知识和技术需求是最为迫切和社会经济效益极为突出的,提高科研选题的针对性,实现科研选题的科学化。

2)避免重复研究

挖掘不同层级、不同类别和不同区域之间科研选题申报和立项情况,结合科研选题申报高校机器研究团队的研究特长与特色,监控科研项目重复立项风险,避免重复研究,节约科研经费,减少资源浪费。

3)实现研究数据共享复用

实现不同阶层、类别和区域研究项目之间数据共享复用,节约数据采集成本,加快项目研究进展,提高效益及效率。

4)推动高校研究成果转化

搭建开放式大数据科研平台,充分融合教师的科研需求,提升教师的科研创新能力,充分提高“研”的成效,提供行业数据及案例解剖用于基础研究,提供数据分析方案及流程,提供数据更新接口,为科研工作提供数据支撑。

5)监督学术道德和诚信

高校科研管理人员在课题申报阶段,对申请书进行学术道德与诚信的监督,避免学术不端行为发生

3大数据平台技术架构

HadooD生态体系大数据平台,以构建基础硬件层为底层支撑,利用云计算、大数据的数据集成、数据安全、服务器集群、数据计算与挖掘分析等技术,遵循大叔级标准体系,通过HIVE和HBASE构建大数据数据中心。

大数据平台技术构架包含:基础硬件层、数据集成、数据计算与分析挖掘、数据安全、服务器集群、大数据技术标准、大数据数据中心、大数据业务开发平台、大数据业务可视化分析,具体如下:

1)基础硬件层

基础硬件层是由一组低廉的PC或者服务器组合构建而成。基础硬件层主要承载着数据的存储、运算、容错、调度和通信等任务,对基础应用层下达的指令进行执行和反馈。

2)数据集成

大数据特征表现在实时、交互、海量等方面,并且以半结构化、非结构化数据为主,价值密度低,为了更好的“让数据说话”,并充分发挥大数据价值效应,应坚持“能采尽采”的原则,数据源的涵盖范围要尽量的大。

3)数据计算与分析挖掘

大数据平台涵盖了大数据场景下常用的计算场景,包含离线计算、实时计算、流式计算、数据挖掘与机器学习等。可以更容易、更方便的构建全生命周期的数据,使数据的加工、处理、创新过程更加丰富,从而实现数据价值的最大化。

4)数据安全

大数据平台通过一系列的认证授权和资源隔离机制,实现数据资源的安全性、可维护性、可用性、可信性。提供统一认证服务器负责对使用者的身份进行验证;提供统一授权服务负责对用户的资源访问权限进行控制提供统一资源调度负责对用户使用的底层资源进行隔离。

5)服务器集群

服务器集群是将很多服务器集中起来进行一起进行同一种服务,集群可以获得更高的计算速度,也可以用作备份,任何一个服务器损坏整个系统都能正常运行。集群化操作可以减少单点故障数量,实现群集化资源的高可用性。

6)大数据技术标准

一个中心平台:大数据业务开发平台。

八大技术标准:基础标准、数据表示标准、数据处理标准、数据存储标准、大数据服务标准、大数据安全和隐私标准、行业大数据应用标准、大数据产品测试标准。

7)大数据数据中心

通过对各种类型的结构化、半结构化、非结构化数据的采集、预处理、分析处理以及存储等相关操作,构建统一、规范、全面的大数据数据中心,为相关工作提供数据支持。

8)大数据业务开发平台

以Hadoop为核心,融合优秀技术,提供开放的数据和业务开发平台,进行应用开发、应用发布、应用注册及应用服务的信息化流程管理,提升了大数据应用体验,有利于发挥创新精神,创造无限价值。

9)大数据业务可视化分析

大数据业务可视化分析能够将隐藏于海量数据中的信息和知识挖掘出来,为用户提供可视化的操作分析界面;为用户的相关活动提供数据依据,从而提高工作效率。

4小结

高校的大数据问题已日益显著,大数据平台的建设需求也越来越突出。本文通过分析高校大数据平台的三大用途,给出了一个高校大数据平台的技术构架。希望通过平台技术的构架,整合和引导资源、推动自主创新,促进大数据健康发展。

猜你喜欢
数据集成大数据高校
中日高校本科生导师制的比较
基于数据集成的水上项目国家队数据库网络管理平台的设计与开发