杨埙 姚进 黄丹梅
摘要:在对大数据生命周期研究的基础上,提出大数据生态系统参考架构,并基于在线学习行为的特点及研究方法,构建出在线学习行为的大数据分析模型,为大数据领域及在线教学领域标准化及相关研究工作带来深远意义。
关键詞:大数据;生命周期;在线学习;架构;模型
中图分类号:TP399 文献标识码:A
文章编号:1009-3044(2020)13-0281-03
1背景
在线学习行为指学习者在线上学习平台,如MOOC、SPOC等的在线学习网站上登录、观看视频、提交作业、参与讨论、考试等一系列与课程学习相关联的行为。
如今,各领域都离不开大数据分析,大数据背景下的在线学习平台记录了学习者从登录至退出平台所经历的全部学习路径数据,为研究者从在线学习平台中提取学习者的大量行为数据提供了保障。
本文基于大数据研究模型及分析路径,首先讨论大数据的生命周期模型,再基于此模型构建大数据生态系统参考架构,最后提出基于大数据架构的在线学习行为分析模型。
2大数据生命周期模型
大数据生态系统参考架构的制定需考虑的重要因素是大数据信息生命周期,信息生命周期指的是信息的收集、存储、处理和维护的全过程,包括信息识别、信息收集、信息传输、信息存储、信息处理以及信息维护和使用六个阶段。大数据的数据集合规模庞大,远远超出了传统数据库工具软件在获取、存储、管理和分析方面的能力范围。由于大数据具有数据规模海量、数据流转快速、数据类型多样和价值密度低等特性,传统信息生命周期理论已不适于大数据动态的生命周期管理需求,因此,必须针对大数据特征以及价值挖掘和决策的实际,对大数据的生命周期进行分析。
针对大数据在流动的不同阶段的不同特征,本文将大数据生命周期从数据源到目的客户的整个过程划分为采集、存储、传输、使用几个阶段,并在从采集到使用的过程中加人对数据的“加工”处理与反馈模块,具体环节如图1所示。
2.1数据采集
数据采集阶段根据应用场景和客户要求从诸如无线传感器节点、RFID等感知设备以及从云服务器、数据库、网络、用户终端等渠道对各类数据进行全面、高效地收集和聚合嘲。
2.2数据存储
大数据存储是指将传统基础设施中长期保存的数据以及数量巨大、难于收集、处理、分析的数据集持久化到计算机中。大数据应用的爆发性增长直接推动了存储技术的发展。大数据的存储已经不单单是对这些数据的物理存放,如存放在某服务器硬盘,还需要采用一系列的技术,如分布式存储、虚拟化技术、数据仓库、非关系数据库、分布内存分析计算、硬件计算,将海量、分散、无序、异构的数据经过高效的组织和映射,最终形成便于用户检索和使用的数据模式。
2.3数据传输
数据传输是指依据适当的规程和协议,将数据从数据源到数据宿之间通过一条或多条链路进行传送。此处数据传输专指大数据的传输。大数据的传输是大数据流动的核心和数据共享的基础,依托的是网络通信技术,将存储在服务器和数据库中的数据传递给上层应用和使用者。数据传输过程需要尤其注意协议安全、数据泄漏、破坏、拦截、密钥管理等安全问题。
2.4数据使用
数据使用是大数据应用的目的及结果,是大数据价值的最终体现,是客户对数据进行有效利用的过程,例如利用大数据进行精准营销、利用大数据规划实时交通路线躲避拥堵、利用大数据从大量客户中快速识别出金牌客户等。
2.5数据“加工”
数据“加工”是指数据从最初的采集到最终的使用,除了需对数据进行存储和传输,还需对数据进行深入的“加工”,主要过程有:对采集到的数据进行初步的过滤、加工、分类,再对其进行关联、聚类、建模、预测等数据处里,最终再提交给使用者或上层应用。而对数据的这些“加工”,是可以根据使用者和应用程序的反馈,不断进行优化,即根据反馈结果再次进行关联、聚类、建模、预测、加工、分类等,直至关联规则、聚类分析方法、以及建立的预测模型能使得数据应用效果达到最优化。例如,在商务应用中,依照聚类分析的结论,帮助市场分析人员从广泛的客户库中找到不同的客户群,并使用不同的购买模型来表征不同的客户群体特点。
3大数据生态系统参考架构
大数据生态系统参考架构可以很好地描述以数据为中心的端到端数据采集、转换、分发和使用。分析大数据生态系统架构的意义在于:一来可以让大数据的生命周期更好的被产业、策略制定者、用户所理解;二来可以定义相关的组件和功能以确定其边界、互操作性、安全含义等。
以数据为中心,基于大数据生命周期特点,对大数据生态系统参考架构进行构建,该架构用以描述大数据从采集到使用的生命周期各阶段数据流向及可能的转换过程。
大数据生态系统的组成有四个部分:数据源、数据转换、数据架构和数据应用。如图2所示。构建该架构时,将大数据的安全和管理问题作为架构中独立的模块跨层存在,以支持其余各层的功能和服务嘲。该架构既结合了大数据生命周期特点,又考虑了安全及管理等因素。
3.1数据源
数据源即产生大数据的对象,具备5v的特点,它们是Vol-ume体积:数据量很大,及采集、存储和计算都有很大的量。大数据的起始测量单位至少为P(1(千T)、E(1百万T)或z(十亿T)。Variety多样性:来源和种类多样化,包括以地理位置信息、日志、图片、视频、音频等表现的结构化的、半结构的化以及非结构化的数据;Value价值:数据具有相对较低的价值密度;Ve-locity速度:数据的增长速度快,处理速度快,对实时性的要求高。例如,搜索引擎能让用户查询到几分钟之前的新闻,而实时推荐功能依赖于个性化推荐算法的实现。Veracity准确性:数据的准确性和可靠性,即数据的可信度和质量。
3.2数据转换
为了提取数据中有价值的部分,当数据在生态系统中传播时,就要对其进行不同方式的处理和转换,数据转换通常至少包括数据采集、聚合、匹配、數据挖掘。每个数据转换功能都可能会有它特定的预处理阶段:包括注册和元数据创造,可能会用到不同的适应其要求的数据架构,以及会有不同的隐私和安全策略要求。
3.2.1采集
数据可以采用不同的方式和形式被采集。数据收集阶段收集来自相同安全规则和策略的或相同结构的数据集,产生出的元数据随后将被进一步聚合。采集数据时,由于数据量大,数据来源多样化,价值密度低,需要不断改进和完善数据采集方法,制定数据采集标准。
3.2.2聚合
相关联的元数据组成的数据集合被聚合成更大的集合,这个过程称为聚合。聚合后,要么每个对象的信息更加丰富,要么集合中的对象的数量得以增加。新的集合适用的安全规则和策略和原始集合的类似。例如,将源头数据进行分装整理规范化后,以API的形式提供给开发者团队及企业调用,就是一种聚合。数据经过聚合,能够被挖掘出更多的价值。近两年来,对数据聚合的需求的趋势从基础泛娱乐数据到汽车服务数据,再到互联网金融信用数据行业,可以看出,企业服务和数据的专业性需求越来越高。
3.2.3匹配
不同元数据(如关键字)的数据集被聚合成更大的集合。匹配后,每个目标的信息更加丰富。例如,通过追踪用户观看视频、点击广告、社交偏好等行为,提取高频母婴用户,并锁定该类人群喜爱的综艺节目和电影电视剧,再精准投放母婴广告,就是一种对推广信息与目标消费进行匹配的过程,匹配后,商业推广效果将从量级和精准度方面脱颖而出。
3.2.4数据挖掘
数据挖掘是从大量的数据中提取数据的过程,随着物联网应用的普及,信息感知无处不在,信息量巨大,但价值密度较低。如何挖掘数据的价值是大数据时代需要解决的最重要的问题。数据挖掘需要结合业务逻辑并通过诸多方法来实现,例如,统计、机器学习、在线分析处理、专家系统、情报检索和模式识别等。数据挖掘从不同的角度和维度分析数据,并产生能标识数据内部关联的信息的摘要。有两种形式的数据挖掘:描述性的和预判性的。描述性的数据挖掘给出已有数据的信息;预判性的数据挖掘给出基于现有数据的预测。
3.3数据架构
大数据的数据架构是支持数据转换功能和满足数据存储需要的一系列数据存储或数据库软件、服务、存储和网络的总和。
为了使数据处理的效率更高,具备不同5v特点的数据可以使用不同的技术进行处理,采用不同的存储技术进行存储。处理和存储技术的选择和“转换”功能模块中对数据的加工处理无关。因此,通常同样的数据可以使用不同的独立的数据架构转换多次。
训练:例如去标识、采样、模糊处理,构建数据分析模型前,需要对数据进行训练。
存储和检索:例如NoSQL和SQL数据库中各类不同类型数据的加载和查询。
3.4数据应用
数据应用是大数据最终的目的和价值体现。大数据应用时,会以呈现出不同的形式、不同的粒度、以及适用于不同的安全策略及规则。大数据可应用于任何领域、任何产业,如网络运营商/电信业、工业、商业、政府领域、健康医疗领域、金融领域、教育领域等。
4在线学习行为大数据分析模型
根据在线学习行为分析的特点,基于上述大数据生态系统架构模型,构建出在线学习行为大数据分析模型,如图3所示。
该在线学习行为大数据分析模型是图2大数据生态系统参考架构的具体应用和体现,前者与后者采用相同的体系结构,均具备数据源、数据转换、数据架构、安全、管理、数据使用几个模块,只在不同的模块体现出电子商务的特点。例如在数据转换部分,体现出在线学习应用的学习风格、学习路径等业
5结束语
本文根据提出的大数据生命周期模型及特点,构建出大数据生态系统参考架构,定义了大数据应用必备的功能组件,大数据生态系统参考架构适用于各种大数据应用,本文最后给出的在线学习行为大数据分析模型就是大数据生态系统架构的具体实现。本文的工作有助于大数据研究领域及在线学习行为研究工作的标准化,使大数据领域研究者及基于大数据进行在线学习行为研究的参与者从中受益。