基于大数据技术的全量数据中心的建设

2022-11-19 07:30:35张永智何可人

电子技术与软件工程 2022年15期

张永智何可人

（常州大学信息化建设与管理处江苏省常州市 213164）

1 引言

信息化技术的快速发展，互联网、物联网、大数据、云计算、VR技术、人工智能等在社会中的积极应用，正逐步影响和改变着人们的工作和生活。同时，智能信息技术应用于教育的呼声也越来越高。智慧校园是教育信息化的高级体现，重塑学生日常学习和生活，构建共享、智能、便捷、丰富的校园教育环境，为高校的管理、教学、学习提供全方位支撑。全量数据中心则作为各个信息化业务系统的基础运行平台，为智慧校园提供服务，因此可以认为全量数据中心是智慧校园的核心之一。

2 全量数据中心的建设背景

经过多年的信息化建设，许多高校已初步完成数字化校园的相关应用系统建设，为学校的校务管理、师生服务、对外交流做出了很大的贡献。但是随着校园规模的扩大、师生数量的增加和业务的日益繁杂，数字化校园时期的业务信息系统基本是按照业务条线纵向建设的，目前存在着各种“痛”点[1-5]。

2.1 业务系统过于分散

各业务系统之间关联度不高，除了账号等基础共享数据外，很少进行数据交换，缺乏深度融合和跨业务系统的数据分析。业务系统所采用的数据标准或者代码标准也不尽相同，客观上造成了“数据孤岛”。

2.2 “两张皮”现象

业务信息系统的使用与线下数据传递，导入导出方式并存。导致业务系统中的数据更新不及时，多线上报，造成混乱，数据可信度低。

2.3 数据质量问题严重

有些数据缺少权威数据源，各业务系统都有录入和存储，准确性不高；数据记录丢失或缺少必要的属性，完整性不高；业务系统数据之间不能有效交换，冗余数据、冲突数据、垃圾数据都普遍存在；数据产生过程中，上下游、关联关系缺失或有误，影响数据分析结果，不能有效支持管理决策。

2.4 数据应用欠缺

基础源头数据的不足或缺失，造成数据治理效果一般，无法支撑上层数据共享，应用，分析，赋能等使用。对学校的校情、师生画像、科研动向、虚拟校园、孪生校园等缺乏全面的数据支持。

2.5 传统数据中心能力不足

高校数据越来越呈现多元化的发展态势，从数据存储的量级、数据提供的方式、数据管理的要求以及数据的隐私和安全等方面考虑，传统的数据中心架构模式已无法满足高校当下对于数据深层次挖掘利用的需求。

3 全量数据中心的设计与建设

高校信息化的建设过程，也是融合信息系统、互通应用资源、提供多样化服务、处理海量化数据、支持个性化应用与服务的过程。“数据”是建设智慧校园的底层支撑环境，只有将校园内各个业务系统数据壁垒打通，智慧校园建设才算有一定成效。因此，“全量数据中心”将成为智慧校园建设的核心汇聚点，各种来源、不同类型的数据源源不断地汇聚到数据中心，提供对校园内全面、完整的数据管理。本文中的全量数据中心采用基于大数据技术的Hadoop分布式系统框架进行建设。Hadoop可利用集群实现对海量数据的高效专业化处理，是一个对大规模数据存储、计算、分析、挖掘的软件平台，具有低成本、高效率等优点，能可靠地存储和处理PB级的数据[6-7]。全量数据中心的建设不仅构建出全校的数据底盘，还可以共享数据并进行安全交换。同时，利用Hadoop强大的计算、分析能力可对具有广泛应用价值的教育海量数据进行深入挖掘，发现数据背后的价值。本文中的全量数据中心总体架构，主要包括数据源、数据集成、数据治理、数据服务、数据应用等，如图 1所示。

3.1 数据源

数据源主要是指校内涉及人、财、物、教、学、研，以及生活、娱乐、交通、能耗、安防等各个方面不同部门产生的，来源不同、多种格式的数据。理清作为基础数据来源的各业务系统数据的数据类型、数据库类别、数据同步方式等。当前高校所产生的数据类型主要分为结构化和非结构化两种；其中结构化数据来源众多，由人事、教务、财务、科研等不同业务系统产生，它们大多使用关系型数据库（如Oracle、SQL Server、MySQL、Sybase等）；非结构化数据主要是指以文本、文档、日志、视频、音频等文件形式存储的数据；其应用越来越丰富，存储量也与日俱增，它的主要来源是各日志系统、安防监控系统和不同文件系统。随着物联网技术广泛应用，校园物联网应用产生的数据也是全量数据中心数据的重要补充。另外，还有一些特殊的数据来源，比如在线和离线录入采集工具采集到的数据，在线调查表汇总来的数据，还有很多其它临时应用产生的数据。

3.2 数据集成

数据集成是把不同来源、格式、特点、性质的数据在逻辑上或物理上有机地集中，从而为用户提供全面的数据共享，保证数据的一致，减少冗余，提高利用率[8]。数据采集可使用ETL工具抽取各业务系统数据库中的数据，同时也可使用Flume、Kafka等进行采集，汇总入全量数据中心，构建出整个学校唯一的全量数据集合。鉴于数据源的多样、数据类型和结构不一致，还需对部分来源数据进行适配才能实现数据统一集成。数据集成的控制管理可以利用易用的任务编排方式，对任务执行过程和结果监控，同时还需具备任务的调度能力。根据用户需要启动多线程乃至于多进程并行传输海量数据，分布式部署，可水平扩展吞吐能力。实现包括 Oracle、SQL Server、MySQL、PostgreSQL、HDFS、Hive、ADS、HBase等各种异构数据库之间以批量、实时、同步、异步方式完成系统间数据的移动和转换[3]。

3.3 数据治理

数据治理首先从数据标准化开始，对照基于国标或者通用的规范的key-value字典库构建的标准代码库，再结合学校标准，对数据进行域、主题、模型、表名、字段等统一规范。按照规则映射标准代码库，进行数据转换、校验、拼接、赋值等处理，统一归集。使用数据转换规则时查找数据字典，将所有不同的表示方式统一成一种表示方式数据规范处理规则[2]。数据标准不再是一个静态的文档或者参考模型，而是整体智慧校园建设必须遵循的统一信息标准。由于业务数据的来源广，必定会带来“脏数据”，这些“脏数据”主要是错误数据、不完整的数据、相似重复的数据。针对不同类型的“脏数据”，执行数据修改变换、过滤或补缺、排序合并等清洗动作。

数据质量就是要保证数据完整性、一致性、准确性、及时性。可依据数据质量监控预设的规则对集成后的归集数据进行检测。预设的规则内容可以是判空检查、代码检查、唯一性检查、文本检查等，也可以设置数据检测范围、检测时间等检测规则，既可采用默认的规则模板，也可自主编写规则表达式，如自定义的SQL跨表关联规则等。质量监控是全过程的，发现“异常数据”进行锁定、拦截，避免错误数据流入下游应用。检测周期中，记录、汇总、统计，最终会形成数据质量检验报告。依据对检验报告进行分析，对各分类和汇总数据进行质量评估，暴露数据存在的问题，包括数据集成问题、实施规范问题、源头业务系统本身数据质量问题等，从而推动所有系统数据的质量提升。

Hadoop分布式基础软件框架主要由HDFS和MapReduce系统组成。分布式文件系统（HDFS）用于海量数据存储，高效管理数据存储集群中所有节点上的文件。其中，NameNode是元数据节点，DataNode是数据存储节点。基于Hadoop，同时也可采用Hive、HBase数据库。Hive可以将结构化的数据文件映射为一张数据库表，还提供了SQL查询功能。HBase是一种基于Hadoop的存储key/value的NoSQL数据库，支持实时查询。分布式计算框架（MapReduce）用于并行处理计算海量的数据。MapReduce架构体系主要由 Client、JobTracker、TaskTracker以及Task四部分组成。海量且多来源的数据融合一般是维度建模，主要实现跨越数据的整合，整合的形式可以是汇总、关联，也包括解析，形成动态的数据大盘，为数据开发和深度分析做准备。

数据开发贯穿于数据治理全过程，采用工作流模式，一站式开发管理，聚焦数据价值挖掘和探索。兼容多种数据计算引擎，支持关系型和非关系型数据库。高校的数据挖掘是从多年办学的海量数据里“挖掘”有价值的规则和模型的过程。通过分类、聚类、模式挖掘、相关性挖掘、规则提取、预测等方式供人为判断以及建立科学的评估模型等方法，借助复杂算法挖掘数据背后的潜在价值，精准诊断当前学校发展、学生学习、教师提升等方面存在的问题，极大提高评价结果的可信度[9]。当大数据技术应用于全量数据中心时，可利用机器学习算法智能分析数据，找规律，构造出目标过程模型。通过对全量数据中心中的海量数据进行合并关联、特征提取、多维分析等，构建数据模型，最终形成对目标的全面综合描述。数据来源越多，数据量越大，特征维度覆盖就越全，数据模型就越准确，就越能提供全面且定位准确的服务能力。

数据管理采用构建元数据方式进行集中管理。元数据主要描述数据的范围、类别、定义、数据关系等，形成统一规范的数据资产目录内容，通过对各业务系统数据的有效组织和管理，理清学校整体数据信息资源脉络，全面掌握数据信息状况。为了数据检索方便，采用分类目录导航和自由检索的方式，结果智能排序，提高数据提供方的沟通效率。另外，对数据资产的全文搜索，即根据表征数据资产的元数据相关的属性查找，包括表、字段、工作流、任务等相关的元数据，实现数据的快速查找。通过数据来源、数据加工过程及任务控制等因素，建立数据间的上下游血缘依赖关系。查看数据间的血缘关系，可追溯数据的加工链路源以及下游应用的情况。对数据的血缘分析以及数据健康、数据分布、集中度、数据热度等的分析，形成数据资产地图。

数据安全就是数据治理过程中，采取一定的技术手段和控制策略保证数据本身安全。建设全量数据中心的核心价值是实现数据价值，所以数据的安全是保证全量数据中心正常运行的基础。数据安全包括数据存储的安全、数据传输过程中的安全，数据的一致性、数据访问安全等[2]。核心敏感数据进行加密算法保护，数据脱敏控制，数据安全等级管理等方式，防止数据在存储、传输、访问的过程中损坏或泄露。利用第三方工具、动态跟踪分析等方法，对全量数据中心系统和程序进行安全漏洞检测，及时发现问题。利用大数据分析技术，对各类信息资产进行安全威胁检测，在攻击发生前进行识别预测并实施预防措施[2]。

3.4 数据服务

经过数据治理后的数据以服务化形式对外开放共享，这样上层业务在使用全量数据中心时，并不直接看到原始数据，而是面对数据的能力服务；在达到数据共享的同时，也共享数据的分析、计算、服务等能力[10]。数据API服务能力是指将关系型数据库的表通过可视化配置快速生成标准的数据接口。API统一管理，实时监测接口调用统计，上报异常接口调用日志。数据可视化服务是对已经处理并治理完成的数据进行多维，多渠道显示终端的可视化展示，可采用兼容性高的可视化图表库ECharts等。海量数据分析可以提供更全面的数据能力服务，数据分析结果也可通过可视化配置，选择更直观的数据报表和图形的方式向外展示。数据报表可以是标准报表、自定义报表。数据服务中还需要跟踪调用者的调用记录，包括总调用次数、错误率统计；审核数据开放权限，授权调用者获取数据范围、内容等。数据推送是数据向上层应用系统进行主动传递的服务，可实时，动态提供数据能力服务。

3.5 数据应用

全量数据中心集中存储着全校统一标准的、权威的数据，是校内业务应用的基础支撑平台。全量数据中心提供共享数据给上层业务系统，构建跨部门、跨系统的数据互通体系。实现网上办公，“一网通办”虚拟服务；同时，提供只有全量数据中心可以提供的多维度、全方位的数据分析结果。依托校园大数据环境对数据进行的提取、分析，构建基础的校情系统，更全面的师生画像系统，为智慧校园管理与服务赋能；通过人脸识别、实施追踪、智能预警等，提升高校的校园安全环境，形成校内智能管控；通过智慧教学，VR/AR课堂，远程教学，既提供丰富的教学手段和沉浸式学习环境，又有利于学生学习兴趣和学习效率的提升；通过面向社会层面的线上云课堂、社会教学等，发挥智慧化高校教育的社会职能；通过线上数字孪生校园整体构建，提升高校的办学影响力。

4 全量数据中心的数据流转

全量数据中心的数据经过多个处理节点，以“流水线”的方式生成最终有价值的数据。全量数据中心的数据处理是长链路、多时段的，可能每天或者每小时都会有数据输入。每次数据处理都需要经历一套标准的数据加工流程。各业务系统中的标准数据和非标准数据经过数据集成后归集到数据仓库，再通过数据治理、大数据计算、数据开发等处理，形成统一标准的高质量数据，为数据服务和业务应用提供支撑。同时，将应用产生的数据再次沉淀到数据中心，被再一次循环利用。全量数据中心的数据流向闭环如图 2所示。

数据流向具体步骤：

（1）通过数据供需梳理各业务部门需要归集的数据；

（2）通过数据交换中控，利用ETL工具（或其他数据集成工具），实现各业务系统数据统一映射到数据中心前置库，再向数据仓库归集，为后续的数据治理做准备；

（3）通过与标准资源库进行数据对比，参照国家标准、行业标准，完成数据的清洗、转化、交换等步骤后形成标准化数据，归集到主题资源库；

（4）数据治理过程中，通过定义统一的元数据模型，屏蔽底层不同数据源的差异，形成管理数据仓库数据资源的元数据资源库；

（5）依托数据治理平台，实现数据的存储、计算、开发等步骤后形成标准、干净的基础应用资源库和分析结果资源库；

（6）再根据上层应用的具体业务需求、个性化业务定制，重构出不同的业务数据模型，提供服务，共享数据，丰富应用场景。

4 结束语

高校信息化的发展水平正逐渐成为评判高校办学水平的重要标志，智慧校园建设工作的重要性也越来越凸显。利用大数据技术构建智慧校园中的全量数据中心不仅是现有各类业务应用得以顺畅运行的基础与核心，同时，也为智慧校园中的智能化应用提供基础支撑。未来，智慧校园完全可以借助全量数据中心，向更高层次的智能化校园演进。