高校智慧校园大数据一体化平台的研究与实践

2023-05-05 03:40徐海铭
电子技术与软件工程 2023年2期
关键词:数据源账号数据中心

徐海铭

(兰州理工大学计算机与通信学院 甘肃省兰州市 730050)

从当下各大高校的信息化建设实际情况来看,智慧校园建设工作正处于持续探索开发的状态。通过在其中融入大数据技术,可对一系列教育信息进行高效、准确的处理,进而为实现学校信息化建设目标提供基础条件,从而将智慧校园大数据一体化平台的应用优势予以充分发挥。该平台的建设与推行,可真正基于高校的管理与教育需求,细化各个部门的管理与教育任务,配合平台提供的信息技术与硬件设施,打造出了包含所有高校数据的虚拟空间,为创设智能化的教学教研氛围、提供舒适工作学习条件奠定了基础。

1 数据中心平台

1.1 组网规划

在数据中心平台所展开的核心集群资源规划情况如图1所示。

图1:组网规划示意图

1.2 平台管理

1.2.1 平台监控

分布式集群运行期间所产生的关键指标需要进行监控,包括预警配置、指标监控以及周期选择等。首先是关键指标,其覆盖了大数据盘平台中各个软件与硬件的运行状态、网络运转情况、节点堆内存以及节点存活率等,可为指标修改提供支持;其次是预警配置[1]。针对具体指标可对其预警范围予以配置,且可显示出设定范围内的指标值颜色。针对超出了预警范围的实际情况,可与学校短信平台之间建立联系,进而发送给管理人员及时的短信预警,从而保证相关问题处理得及时性;最后是周期选择,针对产生指标进行监控的内容,可从时间周期角度出发进行选择,例如1 小时、12 小时、1 周等,可根据需求设定自定义周期。

1.2.2 节点管理

为提供给管理数据中心后台虚拟化节点的方便监控条件,可基于节点管理模块采集相关服务、节点以及其他类型的信息,并可通过前端界面进行数据展示,包含了主机管理与节点管理两方面的内容[2]。首先是节点管理,借由Web 界面可对数据中心平台的接口信息予以获取,进而展开针对节点后天资源的一系列管理与监测工作[3];其次是主机管理。从主机管理角度来看,可对主机状态所包含多类信息进行查看,其中包含了诸如slave/master 等组件运行状态,并可在筛选器协助下展开对主机的分类监测与管理工作。

1.2.3 服务管理

借助数据中心平台可针对各项服务展开诸如负载均衡、高性能运算以及文件管理等工作。其中,服务管理包含了服务配置、服务操作、服务监控以及服务日志,在决定服务启停的同时,可实现对节点服务状态与指标进行全面监控,包括基于信息字段的日志筛选。

1.2.4 告警管理

告警包含了告警概览(所有服务运行异常信息,可显示告警状态、服务名以及告警名称等信息)、告警详情(对告警名称点击后,可对告警详情予以查看)以及告警修改(可对告警现象信息、告警次数以及相关配置信息进行修改)。

1.3 数据管理

作为数据中心平台核心,数据管理承担着制定学校信息标准、展开数据治理以及确保数据顺利流转的重要责任,其功能流转图如图2所示。

图2:数据管理功能流传图

1.3.1 数据介入

第一是在线数据接入,可对在线业务应用系统数据全量接入进行配置,设定业务原则包括了新建连接(配置信息填写)、连接编辑(修改连接配置信息)、连接操作(启停或删除连接)以及连接接入数据统计(对接入策略予以展示,包括上次、本次以及接入数据总量);

第二是离线数据接入。通过全量接入并配置离线数据,可为非数据库离线数据提供支持,包括 txt、csv、xls 等格式,以及各类主流数据库备份文件。整个流程为:选择需要导入的类型、选择合适文件、导入数据配置、选择对应数据库、新建表或导入数据、选择现有表格并对字段映射关系进行配置、应对导入数据进行字段类型与限制条件的配置、选择导入模式、执行接入、完成执行后查看相应日志。

1.3.2 数据治理

第一是治理过程,包含了总数据量、完成数据量、数据变化趋势等;第二是数据质量,包括确认当前质量、对总体质量变化趋势进行分析以及基于不同原因进行的主体数据质量情况统计。

1.3.3 数据存储

数据存储可对数据储存情况予以展现,包括针对不同类型主题数据的分布、整体的数据总量变化趋势、不同类型来源数据变化的基本情况、对比各个主题数据总量等。

1.3.4 数据检索

第一是格式检索,可基于编写的SQL 语句确保数据定位与获取的精准性,并可对查询的结果进行导出;第二是主题检索,可按照师生工号进行数据检索,包括对记录在数据中心的师生数据的展示,并可根据实际需求进行检索结果导出;第三是全文检索。作为用户可在输入关键字后进行数据库内的信息检索,并可根据结果中的不同主题、不同形式的表单进行横线切割,进而展现出主题、表名等,同样支持数据导出。

1.3.5 操作日志

可对存在于数据管理过程的所有事件进行记录,主要内容有操作步骤详情、操作账号人员以及具体操作时间(开始与截止时间节点)。

1.3.6 报告中心

第一是系统运行报告,可对系统运行情况予以反映,包括数据使用、用户使用、峰值以及均值分析等;第二是数据安全报告,包含了数据使用、展开数据操作以及信息共享的状态;第三是数据分析报告,包含了各类数据的接入、存储等,同时可基于此对各个主题数据的质量变化情况予以分析,包括各类数据分享使用的具体情况,以及覆盖影响范围。

1.4 数据智能

1.4.1 数据源管理

添加数据库、选择匹配数据表与字段等均为数据源管理功能,可根据需要添加多种支持的主流数据库,并可对数据源操作属性与权限进行指定,包括数据表的编辑、查看指标列、选择指标等。

1.4.2 数据切片

作为用户对数据源中包含的部分数据进行抽取后的数据集,切片过程包含了选择数据源、查询、切片展示等。通过查看现有数据切片,可以列表形式予以展示,明确字段的具体切片名称、图表类型以及更新时间。新建切面是基于数据处理的实际需求,所添加的一系列数据切面,为数据使用者提供使用条件,包含了数据库、数据表等;图表展示则是基于需要的图表类型,建立针对数据切片的可视化图表,包含了折线、柱状图等;切片展示,则用于对切面访问的url、CSS 样式设置等领域,可选择多种类型的展示途径。

1.4.3 角色与权限管理

角色管理包含了新建、修改、删除等,是用户对查询、数据切片、数据源设置等功能的使用权,可在看板处对自身所拥有数据权限予以查看。

1.5 用户管理

用户管理包含对权限、账号以及角色的管理。第一是账号管理,包含了账号新建(在线同步信息或手动添加)、修改账号(可对账号基本信息进行修改)、冻结账号(保留用户信息但无法使用,且无法修改信息)、解冻账号(恢复冻结账号使用)、账号分组(可对账号进行分组处理,并可对分组信息进行修改)。权限管理则包括分配权限、修改权限、数据权限设定等内容。

2 数据分析平台

基于数据中心平台可对学校的全量大数据展开综合治理,并可从学校所产生海量数据中,针对已经设定的分析与挖掘目标展开数据聚类等工作,用以明确各类数据之间的关系,并从其中可提取出包括教学、师生、财务以及科研的特征,配合建设算法模型,可将其中隐藏价值规律予以充分挖掘,为后续管理工作的顺利展开奠定基础,用以将学校管理能力予以强化。

2.1 技术路线

文章所建立的数据分析平台基础为Spark 交互式分析平台,可对在对高校业务数据分析处理需求分析后,针对Spark 进行改进与优化。

所建设平台包含了诸多功能,从其实际使用情况来看,具有稳定性较强等诸多特征,高校可基于此平台获取到丰富数据分析服务,其特点主要包括以下几点:

第一是高性能。Spark 平台经由改进后可将其视作为缺省执行引擎,进而将计算与存储效率予以提升。所建立的具有分布式特点的列式缓存,可配合其索引功能将Spark 性能波动予以减少,并将其执行效率进一步提升;针对SQL 的执行计划优化方面,则配合落实了一系列的优化策略,进而将其性能整体提升;

第二是提供了强大的SQL 支持条件。当下的多数高校所建立的业务数据库,其基础均为SQL2003,大规模地采用了PL/SQL,这就使得所建设平台可提供对应版本的语法支持条件与语言扩展,使得即使较为复杂的数据仓库也可基于此灵活应用,促使原数据在此基础上可展现出优异迁移性能;

第三是较为丰富的数据挖掘。所使用的平台已经适应了当下普遍使用的机器学习算法,并建立了多种专业算法库。通过对SQL 语句进行调用,可基于Spark 平台对分布式内存数据进行访问,并支持对数据深度挖掘与有效信息检索。作为用户,可针对全量数据展开挖掘,而并非部分采样数据的挖掘,从而保证了挖掘结果的准确性。

2.2 数据治理

基于数据中心平台完成数据汇集后,即可基于预先定义的数据标识展开对数据的清洗与转换,包括学号、凭证号等,进而建立起针对不同业务的标准化数据仓库,其主题较多,例如师生、资产、科研项目等,进而达到高校层面的数据治理目的。过程中所需要遵循的数据采集规则包括以下几点:

第一是应基于规则采集数据源,避免出现数据重复采集的情况;第二是在对现有系统采集数据进行分析后,可将沉默数据剩余价值予以充分挖掘;第三是针对现有的未能进行采集的数据,可将采集点适当增加从而将数据价值予以充分挖掘;第四是针对完成采集的数据存储,应严格遵循各个领域中属地化存储的基本原则,建立的数据仓库具有公共属性,可用于全校共享使用。

数据应用规则:第一是应严格遵循相关规则展开对数据的统一清洗,完成清洗后可基于专业应用的实际需求,进行数据分发与权限控制;第二是针对出现数据缺失情况但无法对应相应需求的现象,可选择对数据清洗规则进行修改,或是重新进行数据采集;第三是应从建立的本土通共享数据与标签组合中,对内外应用场景的大数据实用价值予以探索。针对依然存在的“脏数据”,需从规则校验、数据关联、数据补全、错误校验、冗余去除、过滤数据、匹配正则以及数据判重角度出发,重新确定相应清洗规则以完成数据清洗任务。

2.3 算法选择

第一是逻辑回归,其作为一种常见机器学习方法,可用于对某类事物发生概率进行预测,被经常应用于各个领域;第二是朴素贝叶斯,作为一种分类算法,其对应构建模型对应需求参数相对较少;第三是支持向量机,其属于一类监督式学习方案,可用于统计分类与回归分析,具有较高鲁棒性;第四是聚类算法, 其属于统计分析方法,其中的K-means 算法较为常用;第五是线性回归,基于回归分析可对多种变量相互依赖定量关系予以确定,属于统计分析的一种方式;第六是推荐算法,此种基于内容的推荐方式,可根据用户的浏览规律用以明确用户喜好与习惯;第七是频繁项集,基于此展开的挖掘是对关联规则进行挖掘首先展开的子任务,用以对集合中经常一起出现的元素的挖掘;第八是关联分析,可基于所挖掘出的频繁项集,对消费或商品关联规则进行挖掘。

一般来说,所使用的大数据分析算法可基于不同的分析需求进行不同的选择,方法主要包括文本分析、关联规则、聚类等,可联系此次建设内容与特征提取,选择出对应需求的分析算法。

4 结束语

综上所述,在当下大数据技术大规模推广应用的大背景下,我国社会发展速度也在不断提高。为此,需要从各个高校的智能课堂构建角度出发,展开智慧校园大数据一体化平台的研究与实践工作,包括明确设计要点、选择合适算法等,从而依靠建立的数据中心平台与数据分析平台,实现预期的智慧校园教育与管理目标,进而满足当下对于高等教育发展的实际需要,其也是培养出更高素质人才的关键手段,进而为我国教育事业的持续性发展奠定坚实基础。

猜你喜欢
数据源账号数据中心
酒泉云计算大数据中心
彤彤的聊天账号
施诈计骗走游戏账号
民航绿色云数据中心PUE控制
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
基于云计算的交通运输数据中心实现与应用
如何查看迅雷数字账号
基于真值发现的冲突数据源质量评价算法
Overlay Network技术在云计算数据中心中的应用