基于大数据技术的高校校友信息整合分析平台开发及应用

2018-12-17 07:33:24谭保华任志鹏王鹏赵建平
关键词:校友模块分析

谭保华,任志鹏,王鹏,赵建平

(长春理工大学,长春 130022)

校友资源是学校的宝贵财富,随着大数据时代的到来,高校对校友资源的管理更加科学化、智能化[1]。本文利用大数据处理技术对校友信息数据进行挖掘、整理、分析,通过对主要数据模型的梳理,提供统一的基于云的大数据整合共享平台,实现校友数据信息的整合和共享,同时结合微信公众平台进行信息的搜集与分析,实现了智能化、科学化管理,充分发挥校友资源的效用,形成功能完善、消息及时、管理方便、服务到位的校友信息整合分析平台,提升了校友对学校的认同感和满意度,有效地加强了校友与母校之间的动态联络与沟通,极大地增进了双方之间的情感,为学校教育事业的发展起到了非常重要的推动作用。

1 平台设计与模块功能

本平台设计思想旨在为校友建立一个在大数据技术基础上的信息整合分析平台,为校友信息收集、信息管理、信息交流等提供一体化服务[2]。管理模块主要包括对数据、新闻信息、校友名片、企业招聘、企业产品和校友互动的六大模块,此外,在系统维护模块中可以设置每个功能模块的权限,实现特定的权限控制功能。各个模块既是彼此独立的,与整个系统又是密切相关的。系统功能如图1所示。

(1)基础数据管理模块:融合角色用户、系统参数、系统日志、机构单位的基础数据,建立统一的数据模型,进行数据管理和维护。应用Hadoop分布式计算、Hbase分布式数据存储系统解决大规模结构化和非结构化数据的读写问题,以MapReduce并行计算引擎为核心,实现对海量数据以一种可靠、高效、可伸缩的方式进行数据处理。

图1 系统总体设计

(2)新闻信息管理模块:校友会基本信息、校友活动、校友刊物等信息的编辑展示功能。对校友信息、活动等进行数据挖掘,为校友认证、校友互动提供依据。针对数据来源的不同,采取不同的数据抽取方式;针对目标数据中缺失值,以及噪声数据进行数据清洗,同时对数据进行规范化,将数据变换或者统一成适合挖掘的数据。

(3)校友名片管理模块:校友注册、信息管理、信息交互、校友圈、校友活动、e卡通等功能。结合传统挖掘算法、机器学习和深度学习,分析校友数据内在隐含的信息,建立算法库完成诸如聚类、分类、推荐过滤、频繁子项挖掘等数据挖掘算法。

(4)企业招聘管理模块:登记校友企业、招聘信息、网上招聘、智能分析、企业校友互动等功能。研究适合校友信息特征的具有广义关联特征的大数据分析挖掘算法,针对校友信息智能分析做重点分析。

(5)企业产品管理模块:产品管理、产品销售、订单服务等功能。该模块可实现对企业相关信息进行管理和服务,系统中的数据根据决策需求经过ETL转换(数据集成、清理、转换及归约等)导入到数据仓库中,提高挖掘效率。

(6)校友捐赠管理模块:捐赠项目、捐赠相关新闻、以及对捐赠信息的统计等功能。

(7)系统维护模块:包括对系统相关参数的设置、各用户的权限设置、以及对所有管理模块的控制等功能。以系统安全为基础,遵循先进性和扩展性原则实现本系统维护功能。

2 系统关键技术

2.1 数据存储技术

数据存储采用基于Hadoop的Hbase分布式存储技术来实现集群式存储,充分发挥分布式集群存储的开放式架构以及高扩展性,为多源数据的统一存储使用提供完备的技术支持。Hbase具有高可靠性、高性能、可伸缩性的优点,适合于非结构化数据的存储,方便读写大规模数据。同时,它可以利用廉价的PC Server搭建大规模结构化存储集群,并充分利用现有资源[3]。利用Hive对Hbase中的数据进行查询和分析。通过Hive不仅能够实现传统数据库对数据的统计分析,而且对存储了计算能力具有扩展功能。本项目采用基于Hadoop的分布式存储技术搭建数据存储平台,构建数据存储管理框架,最终解决多源数据统一存储和管理的问题。

2.2 分析数据集设计与构建技术

针对校友数据模式构建分析数据集,包括教育部发布的教育信息化行业标准在内的参考模型及数据、公共的标准以及满足各业务部门需要的校级标准模型及数据、各项业务活动的共享数据集模型,将数据进行主题式分析,构建各主题对应的多种维度,提高多维数据的可扩展性并使之能够提供对非结构化数据的支持。本项目考虑到校友数据来源的复杂性,根据数据来源选择不同的方式抽取数据。对于结构化数据,使用数据抽取工具把源数据放入Hbase数据库;对于非结构化数据,首先使用Nutch来抓取数据,再使用Solr处理数据并存储到Hbase数据库。将多维分析数据集构建在HBase分布式数据库中,保证维度创建和维护的灵活性,提高多维分析数据集的可扩展性并提供对非结构化数据的支持。

2.3 数据整合调度技术

数据整合工作流技术主要包含创建整合任务和任务调度两个方面。整合平台数据来源于多个独立的业务系统。业务系统之间不存在数据共享,因此需要针对每个业务系统开发独立的数据整合任务,负责将数据从业务系统拉取到整合平台中,并完成数据的清洗工作。为了保证多整合任务之间的协调性,使用了任务调度引擎来管理任务的定时执行,方便整合任务的扩展和维护。本项目通过使用Sqoop和Chukwa技术来建立数据整合任务,使用Oozie技术来构建任务调度引擎,为数据处理提供技术支持。

2.4 多源数据分析技术

根据不同的数据性质,采取适合的算法进行诸如预测、分类、聚类操作,找到数据深层次的含义,提供决策的数据支持。针对这些数据分析工作,本项目基于MapReduce和Mahout技术的数据分析平台建立数据分析模型作为。数据处理在Hadoop分布平台之下,实现对海量数据以一种可靠、高效、可伸缩的方式进行数据处理。具有高可靠性、高扩展性、高效性、高容错性和低成本等优点。Hadoop通过在计算机集簇间分派数据来并行完成计算功能,这些集簇能够便利增添到节点中。此外,节点之间可以实现动态数据移动,进而确保每个节点的动态平衡,并具有高速的处理速度,能够自动保存数据的多个副本,自动将失败的任务重新分配,为大规模数据处理带来便利。

2.5 数据可视化技术

数据可视化,能够加强对数据形式的分析,使校友及其他用户可以更直观的观看数据,并方便了解数据中的隐藏信息[4]。实现数据和用户的沟通,以便用户对数据进行管理,进而有效的实现人机交互。同时满足数据大规模、高维度的展示效果。如何提高数据展示的维度、满足易操作的人性化交互方式,同时兼容高维度数据的展示,是本项目要解决的关键技术之一。

3 系统架构方案

基于大数据技术的数据整合分析台关键技术:搭建分布式数据存储平台和构建数据存储管理框架,对多源数据进行统一的存储和管理,并提供良好的可用性和可扩展性。根据校友数据特征设计多维分析数据集,将数据按照多个主题进行分析,支持多维度大规模的数据分析,同时提供对结构化和非结构化数据的支持。研究数据整合调度技术,利用任务调度引擎将原有各个系统的数据迁移工作设计成独立的任务执行,提供定时定期的计划任务执行方式。在数据整合任务中,研究了对历史数据的清洗和补齐的相关规则,保证了数据的可用性。利用大数据分析技术,设计多种数据分析模型,对数据提供诸如预测,分类,关联等深层次的数据分析功能,辅助管理层进行决策。研究大数据可视化技术,利用先进的用户交互技术,改变传统报表式的数据展示方式,满足多维度的数据展示和易操作的交互方式。

3.1 系统总体框架设计

基于大数据技术的高校校友信息整合,该平台采用的总体功能架构设计为“1+1+4+N”(1个校友基础数据源,1个大数据基础运行平台,4大平台,包括数据采集存储平台、综合分析挖掘平台、数据整合调度平台、安全掌握平台,N大应用包括校友互动、信息共享、决策支持等),如图2所示。

图2 平台总体功能架构

数据采集与存储平台的主要职责是对校友信息相关大数据进行收集,并将采集到的数据进行结构化存储和清洗。而分析与挖掘平台的主要职责则是先对采集到的校友大数据进行专门的分析建模,然后再深入对数据进行挖掘和智能分析。安全管控平台的主要职责是负责对整个的系统数据进行监控和管理,确保校友的数据资产安全和可控。数据整合调度的主要指责是创建整合任务和任务调度,以用来整合不同数据来源独立的系统。

3.2 系统技术架构

基于大数据技术的多维度高校学情分析平台采用的是典型的三大层次大数据技术架构,所谓三大层次包括源数据层、数据处理层和应用层。系统技术架构如图3所示,该架构是基于分布式数据计算平台和大数据算法的结构,可用于支撑整个大数据的应用功能与体系。

(1)源数据层设计

源数据层主要是指为整个业务分析系统提供各种源数据的录入、数据的抽取和组合。源数据平台在设计过程中重点在于对源数据管理设计,该系统是应用大数据和云计算等多种技术和手段对系统所需的各种数据进行广度和深度分析,并应用指标、规则管理等工具实现对数据信息的收集与分析,然后借助大数据技术手段来达成数据管理的目标,以提升分析预测水平。

图3 系统总体功能架构

系统设计思路:第一步,建立统一的信息模型,以进行数据的抽取和整合,主要包括统一信息数据模型定义、数据抽取、数据加工和数据转换等过程,从计量自动化系统中将相关数据及其他外部数据等抽取接入到系统中,然后转换规则则是依据统一信息模型的定义进行转换、轻度汇总等;第二步,对元数据进行质量和安全控制,数据质量主要是对数据值域、编码正确性、唯一性、外键和业务规则进行检查,安全方面主要控制对数据的访问权限,包括表级级记录级权限控制;第三步,利用云存储技术将存储资源放在云上,以便随时为使用者提供存储,这是一种新兴方案,本系统使用的云存储技术框架如图4所示。

图4 采用的云存储技术框架

(2)数据处理层

数据处理层主要是对框架及平台的实现,为业务应用平台提供包括神经网络模型,决策树模型,KNN模型,关联规则模型等多种分析预测模型。

在大数据基础上,从源数据平台得到数据,为构建和分析预测系统模型做准备。主要提供基于校友会及校友各类信息,校友会信息包括:校友会基本信息、校友会活动信息、校友刊物、校友企业、招聘信息、产品管理、产品销售等。校友信息包括:校友交互、e卡通信息等。

①神经网络的独特性是它能够在不了解数据来源的情况下,对非线性过程建立模型,有着实时优化、非线性映射和学习分类的特征,为非线性分类和模式识别等研究提供了新的方法。本文基于校友及校友会数据,采用深度学习算法融合灰色关联度的基础上,构建神经网络优化算法模型,并应用于高校校友行为的捐赠预测中。

②针对校友行为信息数据的参与校友活动、与校友交互进行统计,根据共现次数和群体行为数据进行强化学习,得到相应的校友群体,从而得到更接近真实的校友朋友关系[5]。

③以大数据分析为技术手段的精准定位,将会在很大程度上保证招聘工作的有效性,借助大数据分析技术构建招聘“大数据”应用格局,为全面把握招聘现状,实现高效招聘和为准毕业生提供最合理的就业帮助提供依据。采用开源的数据挖掘工具来分析校友行为数据,并提出K-means聚类算法来辅助校友的招聘工作,直观反映校友企业招聘状况。实现大数据分析与企业招聘的高度耦合,有针对性地引导校友企业对准毕业生的最大化了解,对校友企业招聘进行规划和提供科学决策。

④对现有异常检测方法进行比较,指出现有异常检测算法的优缺点,针对校友活动信息、校友交互等行为数据,本文采用改进的模糊C均值聚类算法对其进行异常行检测。

(3)业务应用层设计

业务应用层主要是用来提供系统和应用业务功能,能够使用此平台模块进行各类功能应用分析数据,如图5所示。

图5 系统展示

4 结论

基于大数据技术的高校校友信息整合分析平台很好地应用到了我校校友工作管理过程中,它对校友们日常行为习惯、兴趣爱好、社交圈、校友互动以及校友活动的参与度和支持度等信息进行科学的分析,充分挖掘其中潜在的优质校友、热心校友及公益捐赠校友等,并能够及时的跟踪、跟进并进行适当的信息推送与反馈,同时结合微信公众平台进行功能的整合与绑定,信息完善速度快、发布及时、传播范围广泛、数据智能匹配程度高,功能强大,极大地提高了校友工作者的信息化管理与操作水平,促进我校校友工作走进科学化、信息化时代。

基于大数据技术的高校校友信息整合分析平台开发与应用,使校友资源得到了更为科学的利用,采用智能信息管理手段,可以最大化校友资源的利用效率,加以友好的界面设计,极大地提高了校友工作者的工作效率和操作水平,使其可以更好的服务校友,服务学校,推动学校发展。

猜你喜欢
校友模块分析
安庆师范大学优秀校友
28通道收发处理模块设计
“选修3—3”模块的复习备考
安庆师范大学优秀校友
校友风采
隐蔽失效适航要求符合性验证分析
校友风采
海峡姐妹(2018年10期)2018-12-26 01:20:54
电力系统不平衡分析
电子制作(2018年18期)2018-11-14 01:48:24
电力系统及其自动化发展趋势分析
选修6 第三模块 International Relationships