常明杰
(邯郸职业技术学院,河北 邯郸 056005)
目前很多高校普遍存在业务应用系统林立,数据汇聚难度较大;业务流程数据日益递增而数据质量不高;缺乏对业务系统源头生成数据的统一数据标准的管理,难以真正实现数据共享推动不同应用场景的融合;未能有效强化数据分析与应用;未能有效实现数据整合共享;没有对学院各业务系统数据及物联终端设备的大量数据进行科学、合理、有效的数据挖掘。
鉴于上述情况,构建基于Spark技术的数据挖掘应用平台,可以有效地将学院业务流程数据资产价值化,充分发挥大数据的使用价值,为学院的教学、科研、管理和服务决策提供科学合理的数据依据以及技术支持,进一步助推学院智慧校园建设信息化水平,大幅提升学院智慧校园建设数据治理能力。
目前,国内数据挖掘的研究相对滞后,从事该项技术研究的人员主要是高新企业技术人员和高校教师,数据挖掘的应用主要是金融、保险和医疗等行业,针对高校智慧校园信息化建设应用研究相对较少。
近年来,虽然部分高校对单一业务系统的数据进行挖掘,但局限在定性和分散的研究,很少对业务系统数据共享交互挖掘,没有真正实现统一化的集成、开放的数据挖掘分析环境。
国外数据挖掘的研究主要是数据分析方法的研究。智慧校园建设中应用数据挖掘技术的需求已日渐凸显,通过全面深度监测手段,实现数据流转的可视化监视;通过大数据技术,实现覆盖报表体系、全生命周期等科学分析能力,因此,构建基于Spark的智慧校园数据挖掘应用平台的研究和建设已成为必然趋势。
数据挖掘平台研究方法主要基于业界主流的Spark分布式内存计算框架开发,并采用Scala语言进行聚类分析(Clustering)算法,实现支持大量数据的高效挖掘分析,数据库方法主要是多维数据分析法或联机分析法。
针对高校不同的业务系统中的不同类型数据源数据,采用通用的数据分析挖掘算法,包括描述性挖掘算法,如关联分析(Associations)、序列模式分析(Sequential Patterns)、分类分析(Classifiers)等。
本文以理论基础、研究内容和研究成果为主线开展项目研究(如图1所示),针对我院目前已经部署的所有业务系统的使用现状,虽然各系统已正常投入使用,系统之间也基本实现了数据的互联互通和规范统一数据标准,但系统数据没有真正产生数据资产价值。
图1 基于Spark的智慧校园数据挖掘平台研究思路
因此对智慧校园信息化建设实施过程中产生的大量数据按照“数据存储+数据分析+可视化”的功能模块构建数据挖掘平台,为学院师生校园生活提供智能分析和决策分析。
本文主要结合邯郸职业技术学院智慧校园信息化建设和应用情况,采用数据挖掘技术构建智慧校园数据挖掘平台。智慧校园信息化数据挖掘应用平台的整体架构主要包括以下三个层面,依次为数据存储层、核心业务层和展示层,如图2所示。
图2 智慧校园数据挖掘结构示意图
数据存储层主要是目前已经部署的智慧校园中各种应用的云计算大数据中心的HDFS分布式存储架构,该架构主要用于目前学院各种业务系统(微门户、统一身份认证系统、学工管理系统、人力资源管理系统、教务管理系统、财务管理系统、OA办公平台、资产管理系统、科研管理系统、招生就业管理系统、后勤管理系统、图书馆管理系统、一卡通管理平台、视频监控平台、人脸识别管理系统、迎新系统、在线离校系统等)的业务流程数据存储和将来数据交互、共享、挖掘和治理。
核心业务层主要是从智慧校园云计算大数据中心HDFS分布式存储中读取各种业务系统的数据,进行数据清洗、集成、转换、归约、评估和分析;运用Spark提供MLlib大量数据的机器学习库的数据挖掘算法的分布式实现功能,来协同实现智慧校园各业务部门业务系统在云数据中心所产生的各类数据的分类、聚类、关联规则等多种算法进行不同维度、不同层面、不同需求的个性化数据挖掘和分析;然后对挖掘的结果寻找有意义的规律及联系分析与评估;最后通过文字、图形、图表等方式进行数据挖掘,结果从多维护、多模型、多层面可视化说明及展现,为学院领导提供智能分析、智能预测与预警、智能决策。
展示层主要完成分析处理后的有效数据,利用Echarts等技术,实现可视化展示和分析。
基于Spark的智慧校园数据挖掘技术应用研究主要完成数据挖掘平台的开发与设计,针对数据存储层、核心业务层、展示层开发数据存储模块、数据分析模块和数据可视化模块。
数据存储模块主要完成学院数据整合和存储。将学院智慧校园信息化实施过程中所有终端采集的异构数据库进行高度整合,同时采用HDFS技术将整合后的数据存储到智慧校园云大数据中心。数据集成对象主要包括业务流程逻辑数据和通用非关系型文件数据。将学院所有业务流程逻辑数据采用开源软件Sqoop工具进行数据抽取,对非关系型通用数据文件上传到HDFS即可。
数据分析模块是数据挖掘应用研究的重点和难点。该模块核心任务是进行数据预处理和分析评估,采用不同的数据挖掘算法,进一步研究提出了学生数据分析、科研数据分析、教学数据分析、管理数据分析和服务数据分析。
可视化模块主要是数据挖掘、分析的展现。通过数据分析,以各种不同的图表方式向用户提供图形化结果。学院各业务部门管理人员可根据特定的业务流程不同指标、数据项、维度等个性化需求进行业务流程、业务能力诊断与分析,通过设定科学合理的预警阀值进行学习预警、消费预警、智能决策等。可视化功能模块将REST API与数据分析模块进行有机交互,采用JSP+JavaScript+OLAP+Spark+Python+ECharts等技术手段来实现。Echarts 图表插件用于完成图表或报表的自定义显示。
智慧校园信息化数据挖掘平台将实现不同数据源数据的深度融合,可有效地将关系型数据库、大数据库、接口数据、文本文件等异构数据源类型数据进行对接,实现统一管理和融合。为确保数据安全将采用数据权限配置和数据分析方法实现。
为更直观高效展现数据分析结果,让用户精准掌握数据细节规律,特采用钻取、联动、缩放、链接等交互操作方式,实时动态图形展现。
通过拖拽内置丰富基本图形组件(柱状图、折线图、散点图、饼图等),定制仪表盘图形插件,从而满足学院不同业务场景的个性化图形展示需求。
充分发挥技术的优势,实现学院各业务系统的大量数据产生数据资产价值,变革传统数据资源利用模式,大幅提升学院智慧校园信息化建设数据治理能力,依据数据分析结果为学院的教学、科研、管理和服务提供有力的决策支撑和帮助,不断推进新型技术与智慧校园信息化建设全面深度融合,实现业务应用常态化,创新全面化,发展持续化。
如何科学高效地在智慧校园信息化建设中将终端采集的海量数据变成数据资产,显然采用传统的数据处理方式已无法满足数据处理的需求,急需更高效的数据处理技术。因此,构建了基于Spark的智能校园数据挖掘应用平台,将学院所有业务系统和智能物联终端设备所产生的各类数据进行快速有效的挖掘,为学院的建设和发展提供科学数据依据以及技术支持,进一步提升学院教学、科研、管理、服务的智能化。