基于数据湖的高校大数据管理体系和处理机制研究

2020-06-04 09:39谷洪彬杨希魏孔鹏
计算机时代 2020年5期
关键词:机器学习

谷洪彬 杨希 魏孔鹏

摘  要: 针对高校本身业务系统带来的不同结构海量数据的存储管理和高效利用问题,通过比较新兴的数据湖技术和传统的数据仓库的区别,构建了基于数据湖的高校数据管理体系和数据处理机制,为高校的数据治理提供了数据层的存储支持,为使用机器学习方法进行大数据分析提供了非结构化数据来源。

关键词: 高校大数据; 数据湖; 数据管理体系; 数据处理机制; 机器学习

Abstract: Aiming at the problems of storage management and efficient utilization of massive data of different structures brought by the university's own business system, after comparing the emerging Data Lake technology with the traditional data warehouse, this paper constructs a Data Lake based university data management system and data processing mechanism. The data management system and data processing mechanism provide university's data governance with data layer storage support, and provide unstructured data sources for big data analysis using machine learning method.

Key words: university big data; Data Lake; data management system; data processing mechanism; machine learning

0 引言

物联网、大数据、云计算、移动计算、人工智能正越来越多地进入人们的日常工作和生活中,这些技术潜移默化地影响着人们的生活和工作方式,也对高校的信息化建设提出了更高的要求。高校信息化建设过程中各种网络设备和应用系统产生了大量的数据,“以数据为核心资产、以数据驱动业务革新”的发展方式已成为高校迈进更高层次的必然趋势。对于传统的来自事务系统、运营数据库和业务应用的关系型数据,数据仓库可以满足高校数据治理和存储的要求,但是随着信息化建设的进展,来自物联网设备、网站、移动应用程序、社交媒体和企业应用程序的非关系型数据越来越多,很难存储在数据仓库中,而且随着人工智能在高校中的发展和应用,人工智能需要处理的多数是这些非关系型数据,对数据治理和存储提出了更高的要求。近年出现的数据湖技术能同时满足关系型数据和非关系型数据的存储,同时在性价比、数据质量、适用用户类型、数据分析领域、灵活性等方面也优于数据仓库。本文探讨了如何利用数据湖技术构建高校数据管理机制和数据处理机制。

1 数据湖的概念

数据湖是一个集中式存储库,允许用户以任意规模存储所有结构化和非结构化数据。用户可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析-从控制面板和可视化,到大数据处理、实时分析和机器学习,以辅助管理者做出更好的决策。

对于高校的应用,对传统业务系统之外的数据,比如来自物联网、移动设备、网络日志、视频监控等的数据——多数是半结构化或者非结构化的,而人工智能技术所擅长处理的正是这些类型的数据,机器学习和深度学习算法可以对这些数据进行建模、训练和验证,得出数据之间的关联性或者因果推断关系来建立模型进行分析和预测,为高校管理和决策提供数据支持。

2 数据湖与数据仓库

数据仓库和数据湖可以满足不同组织的不同需求和使用案例。

数据仓库是一个优化的数据库,用于分析来自事务系统和业务应用程序的关系型数据。事先定义数据结构和Schema,以优化快速SQL查询,其结果通常用于报告和分析。经过清理、丰富和转换的数据可以充当用户可信任的“单一信息源”。

数据湖有所不同,它存储来自业务应用程序的关系型数据,以及来自移动应用程序、物联网设备和社交媒体的非关系型数据。捕获数据时,不事先定义数据结构或Schema。这意味着用户可以存储所有数据,而不需要精心设计也无需知道将来用户可能的数据需求。数据湖中存储的数据可以包括结构化数据(关系数据库)、半结构化数据(CSV、XML、JSON的日志)、非结构化数据(电子邮件、文档、PDF)、二进制数据(图像、音频、视频)[2]。用户可以对数据使用不同类型的操作(如 SQL 查詢、大数据分析、全文搜索、实时分析和机器学习)来获得分析结果。

用数据湖替代数据仓库作为高校数据存储的技术手段,是因为当前高校所拥有的和希望分析的数据类型不再只局限于关系型数据。表1列出了数据湖和数据仓库在数据来源、数据存储结构等方面的区别[1,3,4]。

组织构建数据湖和分析平台时,需要考虑以下的关键功能。

⑴ 数据移动

数据湖允许用户导入任何数量的实时数据。用户可以从多个来源收集数据,并以其原始形式将其移入到数据湖中。此过程允许用户扩展到任何规模的数据,同时节省定义数据结构、Schema和转换的时间。

⑵ 安全地存储和编目数据

数据湖允许用户存储关系数据(例如,来自业务应用程序的运营数据库和数据)和非关系数据(例如,来自移动应用程序、物联网设备和社交媒体的运营数据库和数据)。它们还使用户能够通过对数据进行爬网、编目和建立索引来了解湖中的数据。最后,必须保护数据以确保用户的数据资产受到保护。

猜你喜欢
机器学习
基于词典与机器学习的中文微博情感分析
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
下一代广播电视网中“人工智能”的应用
基于支持向量机的金融数据分析研究
基于Spark的大数据计算模型
基于朴素贝叶斯算法的垃圾短信智能识别系统
基于图的半监督学习方法综述
机器学习理论在高中自主学习中的应用
极限学习机在图像分割中的应用