董素芬,蔡金金,高 媛
(1.河北农业大学 信息科学与技术学院,河北 保定071001;2.河北农业大学 机电工程学院,河北 保定071001)
目前高校中已经普及应用了一些比较完善的系统如教务处应用的教务管理子系统,科技处应用的科研管理子系统等,虽然这些系统中都记录有学生的基本信息,但是由于其后台数据库都是独立维护的,使得数据的更新很难保持一致性,比如,要想统计目前在校研究生的人数,可能在学籍管理系统中,某学生已经退学了,但在教务系统中还有该学生的记录,这就导致不同系统中统计的人数不同,即便是简单的统计在校研究生的人数都很难得到一个精确地答案,更别说想从这些已有的数据中总结对学校决策者有用的决策支持信息了,也就是说,目前的系统中存在的海量数据,虽然数据量庞大,但是,由于没有渠道很好的利用这些数据,使得这些数据后期应用价值很低,成为了无用数据,以上数据所反映出的问题实质就是:急切地需要获得一种有效的方法[1],很好地利用这些“大数据”,利用非传统的数据筛选工具挖掘出潜存与数据中的学生的行为习惯与个人爱好,在凌乱纷繁的数据背后发掘出更符合学生兴趣和习惯的信息,并且有针对性地对这些信息调整和优化,这就是“大数据”带给学校决策者的最有价值的信息。
大数据作为时代的产物应运而生,它是一种现象而并非是一种前沿的技术,最早洞见大数据时代趋势的数据科学家之一的维克托·迈尔-舍恩伯格在《Big Data:A Revolution That Will Transform How We Live,Work,and Think》一书中明确指出大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型[2],根据大数据的的性质将其特点归纳为4个“V”:Volume—数据体量大,从TB级升级到PB乃至ZB级别;Variety—数据类型多样化,从传统结构化的数据,拓展到文本、电子邮件、Web页面、博客以及音频、视频文件等半结构化和非结构化的数据[3];Value—密度低、价值高;Velocity—在存取和共享数据时的速度比较快。
各种各样的数据汇集在一起,从而产生了大数据,例如,查询某一年研究生毕业人数,可能只有3 000条数据,但是对过去二十年的毕业研究生人数的查询就构成了大数据,分析大数据不再是探求其中难以捉摸的因果关系——“为什么”会是这样?而是发现探究其中的相关性关系,从而能够达到预测未来“是什么”的目的[4],通过对数据的查询统计分析,可以发现潜藏在其中的规律,为学校管理者提供决策支持信息。
研究生管理智能决策支持系统的平台是建立在大数据思想浪潮的推动下,顺应了时代的发展需求,其功能全面,涵盖了目前已有办公系统的各个功能模块,研究生管理智能决策支持系统中主要包括两部分内容,第一部分是研究生的管理模块,其中包括研究生的招生,培养方案的制定,宿舍管理,学籍管理,研究生论文中期考核,研究生论文送审,论文答辩等研究生在校期间的各个阶段的管理;第二部分是研究生创新平台,这个平台中有智能检索,学术交流,知识共享和科研管理模块,在科研管理模块中可以对研究生在校期间跟随导师做科研的情况和进度进行实时管理。导师可以对课题组成员,项目、课题进度、发表文章、科技著作、科研项目、专利成果、获奖成果、其他标志性成果等进行管理,研究生也可以通过科研论坛发表自己在科研过程中的心得体会和遇到的问题,并通过大家的在线讨论得到最佳答案。科研创新平台可以解决在科研过程中,由于学科限制导致的科研滞后,有些科研项目涉及多个学科,以中药创制决策支持系统的研究为例,中药创制决策支持系统既涵盖了计算机知识,又涵盖了中医药学知识,要想在该领域取得科研成果就必须使得研究者同时具备中医药学知识和计算机系统理论知识,但是这样的人才几乎不存在,因此,需要将多学科的专业人才汇集才可能完成这一课题的研究,这就需要通过科技创新平台,汇集各学科专家的领域知识。
传统的数据库以结构化数据查询语言为基础,数据的范围限定在结构化数据范畴以内,而且,不能支持高级别的数据分析和TB级的数据处理,为了满足大数据量的快速存取与数据共享[5],系统将采用面向列的Hbase分布式数据库技术建立非结构化数据库;Hadoop与传统的数据方式最大的不同就是,它能够在廉价的基础上,有能力处理好结构化和非结构化的大数据[6],数据首先被存储在Hadoop分布式文件系统(Hadoop distributed file system HDFS)中[7];HBase的目标就是快速在行数据中定位所需的数据并访问这些数据;对于数据库内部的海量数据的处理则采用分布式计算机模型 MapReduce来实现[4]。
研究生管理系统涵盖了研究生从培养到论文答辩的全过程,这里面不仅仅包含传统的结构化数据,还包括文本,web页面,图像,视频,音频等一些非结构化或半结构化的数据[3]。而这些数据的采集可以从通过整合现有数据库中的数据得到,目前可以应用的比较成熟的技术方案有三种:即数据上报技术、数据镜像技术和数据泵技术,现将三种技术的优缺点进行比较[8]:一,数据上报技术:该技术需要更改系统的业务逻辑模块和数据访问模块,对系统的改变较大,并且不支持数据一致性检查,斩断了数据的对应关系;二,数据泵技术:该技术不用改变已有的业务逻辑模块,但是对系统性能影响较大,对数据库的处理能力消耗极大;三,数据镜像技术:是指通过日志分析,将指定端口的数据复制到目标端口,它需要在系统上部署日志分析模块,只针对日志文件进行读取和分析,对业务逻辑和数据库不产生压力,并且支持数据的一致性检查;通过以上分析可以看出,研究生管理智能决策支持平台的后台数据库建设可以应用数据镜像容灾技术,它可以通过日志分析,复制分布在各个部门的信息系统中的数据,从而将这些数据集中到系统的后台数据中心中来。
随着大数据的浪潮蜂拥而至,业务需求不断地发生变化,基于大数据的研究生管理智能决策支持系统的研究,在充分研究各部门后台数据库协作关系的基础上[9],完成了符合系统平台要求的后台大数据库建设,它可以支持PB级海量数据的处理和管理[10],为基于大数据的研究生管理的进一步开发和应用提供了良好的基础。系统比较全面地完成了办公需求和学生管理的各个功能模块,经投入试用,该系统在某校各个部门得到了广泛的应用,它可以很好地实现数据的查询和分析,能有效地为学校管理层提供必要的决策支持信息。
[1]万泽春.大数据的应用和解决方案浅析[J].电脑知识与技术,2013,9(27):6217-6219.
[2]维克托·迈尔·舍恩伯格.大数据时代[M].杭州:浙江人民出版社,2012:12.
[3]叶明,谷晨霞.“大数据”时代决策支持系统新发展[J].信息安全与技术,2013(8):6-8.
[4]郭鑫.大数据教学资源共享系统的研究[J].电脑知识与技术,2014,10(3):446-447.
[5]彭细,张盼,许野.基于大数据的工程机械远程监控系统研究[J].物联网技术,2014(1):23-26.
[6]福布斯:Hadoop——你不得不了解的大数据工具[EB/OL].[2015-02-03].http://www.csdn.net/article/2012-02-20/312061.
[7]陈丽,基于大数据的应用系统架构研究与应用[J].软件产业与工程,2014(5):33-38.
[8]陈大川,张宝山.大数据技术在住房信息系统中的应用[J].信息通信技术,2012(5):6-11.
[9]董素芬,蔡金金,滕桂法.基于B/S的研究生管理信息系统[J].河北农业大学学报,2010,33(4):109-111.
[10]黄晓斌,钟辉新.基于大数据的企业竞争情报系统模型[J].情报杂志,2013,32(3):37-43.