任 祎
(陕西学前师范学院,710100)
“大数据时代”从2012 年以来逐渐成为信息技术领域的关键词汇,目前互联网上信息量的增加速度越来越快,数量庞大,结构复杂多变,可以称之为海量数据。这就对整个社会如何合理高效地管理信息,利用信息提出了新的要求。在这种背景下,高校也不可避免的面临大数据时代,因为信息系统的数据量和数据结构会产生惊人的改变,在“大数据”时代高校需要切实提高对日益增长的教育资源的处理能力,因此有机遇,有挑战,更有压力,我们必须理性地认识大数据。
大数据”在互联网行业指的是这样一种现象:互联网在日常运营中生成、累积的用户网络行为数据。这些数据的规模是如此庞大,以至于不能用G 或T 来衡量,无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。
大数据的典型特点如下:规模性(volume)、多样性(variety)、高速性(velocity)、价值性(value)。大数据的数据体量巨大数据类型繁多。包含结构化、半结构化以及非结构化的数据,其中半结构化和非结构化数据的比重越来越大。大数据的数据处理速度快,遵循“1 秒定律”,可以从各种类型的数据中快速获得高价值的信息。大数据的价值往往呈现出稀疏性的特点,价值密度低。以视频为例,在不间断的监控过程中,一小时的视频,可能有用的数据仅仅有一两秒。因此大数据还有一个显著特点就是在数据处理方面更加艰巨和复杂。
高校信息化建设对于高校来说是学校事业发展不可或缺的重要部分,学校的教学、科研、管理、学习等诸多方面都离不开信息化,但是信息化建设的技术更新快、业务变更多、新技术不断出现、应用系统不断更新发展。在大数据背景下,高校里学生的学籍、选课、成绩、借书、上网、论坛、微博还有教师的基本信息、上课课件和视频、远程教育课程等等也会产生大量数据,还有设备、机房和图书等信息等等都会产生大量数据。
云计算是大数据的基础平台,它在数据存储、管理和分析方面给大数据起支撑作用,目前各个高校都在建立或者筹备运用云技术的第二代数字化校园,通过云技术组建高校数据业务云中心(图1),利用云计算技术为各业务系统提供数据服务。此服务体系中,各类计算
资源和业务资源高度集中,用户无需了解提供服务的来源和实现的过程。当用户有数据要求时,只需在数据云交换平台的框架下提出数据服务请求,相关业务云将返回数据,用户综合所获数据就能得到结果。所以在面临大数据挑战的情况下,首先的要务就是建设以云技术为核心的高校数据中心,实现教学资源的充分利用以及教学模式教学方法的推陈出新。
传统的校园业务系统于缺乏统一规划, 数据标准不一致,信息关联度极差,部门之间很难实现业务协同。工作效率,工作质量都不能令人满意。所以建立基于云技术的数据中心的优势就在于数据整合,通过业务集成来实施信息集成,降低各系统间耦合度,增强业务系统间的协作能力,通过建立统一的数据标准,遵循数据互操作规范协议,组成数据服务云,向其他信息系统提供数据服务。通过数据迁移,数据转换,共享等手段,把旧有数据重新整合起来,彻底消除高校信息化建设中存在的信息孤岛以及信息碎片化现象,提高数据的使用率。例如,教务处需要查询某教师的实际授课情况,就可以向数据中心提出请求,从相关系统中调出数据,如所带班级成绩,到课率,好评度,授课方式,课时完成率等等,经过自动分析,按照规范返回查询结果。
数据整合的结果就是数据的存储量与日俱增,在这种情况下,传统数据存储方法已经明显不能适应。随着学校的快速发展,这种问题越来越凸现出来,面对类型繁多,数量巨大的数据,必须考虑如何高效的压缩数据。云存储是(Cloud STorage)是在云计算(Cloud Computing)概念上延伸和发展出来的一个新的概念,它是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。它是建立新型数据中心必不可少的一个环节,具有容量大、性能高、可靠性好、协同优良的优点。
建立新型数据中心,加强数据整合和存储将带来大量的可以利用的数据,如何使得这些数据真正起到重要作用是高校信息化建设的另一个重要领域。在数据处理分析阶段主要应用Hadoop 大数据处理平台,其总体架构如图2 所示
首先通过数据采集手段,将需要的数据整合起来并存储,通过并行计算框架,优化并行分析算法如M ahout、R 语言等,同时采用大量服务器进行分析,排除脏数据,重复数据,提高效率,然后将合理的分析结果反馈回业务系统。
良好的数据分析会提高高校对于数据的实际利用能力,通过对数据的挖掘分析,得出真正有价值的数据,结合数据反馈回来的信息,我们可以在教学、科研、管理等多方面加以利用。如教学方面可以对老师的代课情况,课时的分配情况,教学资源利用情况以及各种教学方式对教学的影响加以整理分析,得出最优化的教学方法,提高教学质量;学生管理方面可以对学生在校的学习情况,毕业去向等多方面加以分析。帮助学校根据需要对学校的专业设置、专业发展做出良性改变;科研方面,可以利用大数据里海量的科研信息,加强自身的科研实力,学习先进的科研技术;管理方面可以分析各类制度的执行情况,优缺点,对于学校发展的影响等等,帮助学校制定更为合理的制度,从而全面提高学校的建设水平。
数据安全是一个长久话题,当数据量越来越大,尤其是倡导开放、灵活和共享的大数据时代,更是至关重要,数据的破坏、篡改、泄露都会给我们造成严重的不良影响和损失。在云数据中心建成后,数据安全防护的重点是具有高价值的数据资产,比如学生、教师的各类隐私信息,财务、资产方面的重要信息等,需要围绕数据的产生、使用,传输,存储等方面考虑数据安全体系的构建。首先是加强数据标准化建设,加快数据安全处理的效率,针对数据在业务系统中运行的不同阶段设置针对性的防护措施,做到有效的保护;其次是加强和改进网络层、传输层和用户层的安全策略,如网络传输加密技术,可采用IPSecVPN、SSL 等VPN 技术提高用户数据的网络传输安全性,加强网络层数据辨识智能化和本地系统的相互监控协调,同时杜绝非常态数据的运行,保证数据的完整性和可靠性;再次是利用数据检索识别技术(如HP Autonomy)对数据进行有效的自动化识别,提高对脏数据,垃圾数据的鉴别能力,根据数据来源和存在方式进行特征分析,建立数据分类、分级策略;最后是加强对人为因素影响的控制,加强用户访问的权限和范围,加强内部管理的监控制度,制定适应新技术新环境的管理制度,应急制度等。当然这不是一步就能彻底解决的,既要考虑实际需求也要考虑高校现状,做好安全防护体系应该遵循“循序渐进,持续改进”原则,真正实现管控并重的安全体系建设思路。
在大数据背景下的高校信息化建设给高校的发展带来的巨大的变化,为了更好的融入到大数据时代,高校必须建立新型的以云计算为基础的数据中心,要善于利用大数据平台进行交流和发展,要开拓新的思路来适应新技术带来的变革,另外要加强专业人才的培养,尤其是数据分析和挖掘,这是大数据的本质,只有这样才能真正把数据转换为高校的最有价值资产,从而促进高校的全面发展。
图1 高校云数据中心
图2 Hadoop 数据分析架构
[1] 陈婕.高校数据中心发展战略探讨[J]电脑知识与技术2013 年01 月
[2] 桑庆兵. 大数据在高校的应用与思考[J]南通纺织职业技术学院学报(综合版)2013 年6 月
[3] 高洪.杨庆平.黄震江.基于 H adoop 平台的大数据分析关键技术标准化探讨.大数据与云计算标准研究专题 2013 年5 月
[4] 刘中宇.刘海良.大数据时代高校云资源应用[J]现代教育技术 2013 年第7 期