胡智锋
(武汉商学院,湖北武汉 430000)
网络信息技术和电子计算机技术的快速发展,促使各行业工作期间产生大量数据信息,为提高数据信息的采集、存储与处理效率,要加快建立智能化预测系统,在机器学习原理下,解决数据发展问题,提高大数据技术的应用效果。
大数据技术的应用,主要依托数据处理系统,其关键性技术包括大数据采集、大数据存储、大数据管理、大数据分析以及大数据应用等技术类型,针对较大数据量进行有效处理,通过数据系统,将不同类型的应用数据进行归纳和分类,深入挖掘数据信息中蕴含的资源和价值,在实际应用期间,综合运用物联网对目标信息进行采集,接着利用云计算功能对数据进行深入挖掘和处理,通过云平台进行数据信息储存,最终由移动互联网终端进行信息数据发布,形成大数据技术应用背景下数据信息处理系统的运行闭环,极大提高数据信息的处理效率,保证数据信息的真实性和准确性。
实施智慧教育的关键,是要运用云计算、大数据、物联网等新一代信息技术,来实现整个教育信息系统的重构,通过云计算对传统教育信息系统与校园网络系统进行整合、优化,建立起教育云服务平台, 从而在较大范围内聚合教育资源,形成大规模非结构化教育数据(教育大数据),并最终实现整个教育信息系统的重构,以支持教与学过程的智能决策、智能实施与智能评价。
基于大数据技术发展的时代背景,智能预测系统建设方法包括数据清洗法、特征分析法、模型构建与融合、智能预测法,具体论述如下:
2.1.1 数据清洗法
数据清洗作为智能预测系统运行的基础环节,要求对原始数据进行预处理,利用大数据手段,对异常和空缺数据进行处理,通过绘制散点图的方式,将数据本身代表的意义和价值结合起来,根据离散变量空值情况,采用连续变量向数据平均值进行补充,保证数据信息链条的完整。
2.1.2 特征分析法
针对数据清洗结果,利用特征工程对数据展开全面分析,通过综合分析明确数据特征,根据数据的具体特征尝试将数据结构与数据类型进行关联,显现数据中隐藏的统计结构,为数据处理和智能预测系统工作提供数据特征辅助。
2.1.3 模型构建与融合法
智能预测系统建立初期,要求构建系统模型,利用大数据手段,通过精度较高的XG、GBM等模型对数据进行简单预测,根据初预测结果,结合数据权重,对不同数据类型进行划分,经过加权计算后初步形成智能预测系统模型,强化系统运行的泛化效果,进而实现对数据信息发展趋势的智能预测,提高数据预测分析的综合效果。
2.1.4 智能预测法
智能预测是该系统运行中的末端工作环节,通过对数据分析和预测模型的科学性检验,结合数据加权运算结果,调整样本数据的权重,选择分数较高的样本数据,采用lgb模型对数据进行集中训练,选取优质的数据样本,从而融合成新型智能数据预测分析系统[1]。
智能预测系统运行期间,围绕数据分析结构开展具体预测工作,从变量数据的量化处理角度出发,综合分析数据的集聚效应,利用大数据技术,完成对数据信息的管理和预测。智能预测系统运行过程中,关键预测流程如下:
第一步,智能预测系统根据相关行业数据信息进行收集和整理,利用筛选和分类系统,完成对不同类型数据的归纳和分类,通过大数据技术手段,在数据库中挑选关键信息进行分析、关联和对比;第二步,智能预测系统根据不同行业的实际需求,对机器学习算法进行优化设计,实现对基础数据的分析和预测,建立数据预测模型,完成对数据的预处理;第三步,智能预测系统利用数据整体基数大的特点,发挥云计算功能作用,生成动态化数据,系统运行过程中,数据被输送至预测模型中,经过筛选、分析和预测等环节,系统自动输出智能预测结果。
智能预测系统的应用,依托于智能化预测模型的建立,该模型参与训练与应用期间,实际应用效果集中体现在以下几方面:
2.3.1 算法模型验证
智能预测系统的运行,需要对系统内部数据运算机制进行优化,采用验证法对数据算法模型进行简单验证,根据数据收集和发布的生命周期,定期执行数据算法验证工作,针对异常数据采取表格的形式进行展示,通过相关数据的采集和分析,对异常数据进行处理,实现对数据风险的有效控制,保证数据准确性。
2.3.2 实际预测应用
智能预测系统运行期间,实际运行情况以系统应用效果为准,数据分析工作人员利用预测结果,对智能预测系统的运行效果展开分析和评价,实现对数据信息的高效利用,完成对只能预测系统运行效果的质量检验[2]。
3.1.1 机器学习概述
机器学习是一门综合性强且多领域交叉的学科,涉猎范围较为广泛,在大数据背景下,机器学习逐渐成为人工智能系统运行的核心,为智能化预测系统提供技术支持。大数据时代的到来,教育行业逐步加强对机器学习的应用,将机器学习由传统的综合性学科转变为服务型技术手段,针对计算机无法统计和整理的数据信息进行集中研究,通过技术手段,对机器学习方式进行改良,进而形成机器学习算法,为数据信息系统的建设工作创造良好的应用条件。
3.1.2 大数据背景
大数据技术在发展过程中,呈现出明显的形态波动,伴随着计算机的普及和推广,大数据逐步登上历史舞台,各行各业开始利用大数据进行信息采集和整理,完成数据信息的实时传输工作,集中体现了机器学习发展的创新性和实用性,在机器学习和大数据技术进步的同时,数据处理人员对数据采集系统进行优化设计,及时更新数据分析和处理的方法及相关设备,确保在大数据时代背景下,全面促进智能预测系统建设和机器学习水平的提升。
基于大数据背景下,机器学习的具体学习方法主要分为四大类,分别为机器学习策略、机器学习方法、学习目标及数据形式的分类,基础概念论述如下:
3.2.1 机器学习策略
基于机器学习理论下的学习策略由模拟人脑、统计数学两方面构成,其中模拟人脑的学习方式,包括符号学习和神经网络学习,以数据数值为基础,利用现代化技术手段,模拟人脑的运算方式,针对图像信息、状态空间、推演流程等方面进行模拟,完成对相关知识信息的有效采集;统计数学的方式则是通过构建数据训练模型、制定学习策略、确定最优算法等方式,完成对相关数据信息的获取工作[3]。
3.2.2 机器学习方法
机器学习具体的学习方法包括归纳学习法、演绎学习法、类比学习法和分析学习法,通过决策树、函数计算、经典案例分析等方式,以概率函数、代数函数及人工神经网络为基础,将统计与动态规划相结合,优化机器学习结构,进而形成完整的机器学习模式。
3.2.3 机器学习目标
学习目标是机器学习的关键部分,具体包括概念、规则、函数、类别和网络的学习,根据学习内容制定相应的学习目标,对机器学习模式进行科学合理规划,为后续进行机器学习算法分析工作创造条件。
3.2.4 数据学习形式
机器学习模式应用期间,以数据为主要的学习形式,通过结构化学习和非结构化学习,对数据信息进行有效输入,根据数值或符号运算结果,深入挖掘数据中有用的价值信息,完善数据链条中的关键节点,采用大数据技术手段,补全数据信息,强化机器学习效果。
3.3.1 决策树算法
基于大数据背景下,对机器学习算法进行分析,利用决策树对不同数据类型进行输入空间划分,明确各个区域参数的独立运算机制,利用树形结构,对数据节点进行路径分析,判断不同数据象征类型,根据数据分析样本生成相对应的数据子集,通过分割递推的形式,对节点进行有效测试,提高数据信息处理效率。
3.3.2 支持向量机算法
基于大数据手段,采用非线性变换方式,将空间向更高维度进行转变,在全新空间表面形成最优分类,利用支持向量机进行机器学习运算,在方法类型上与神经网络算法基本一致,在数据分析和处理方面,以现代技术手段为核心,构建SVM算法模型,发挥监督学习的优势,构建最优数据结构运算模式,结合有限的数据样本信息,寻求机器学习算法应用路径,完成对数据空间的最优划分,逐步实现机器学习算法的全局优化。
3.3.3 人工神经网络算法
人工神经网络由神经元组成,在该算法机制内,个体单元相互连接且有相应数据值实时输入和输出,以实数或线性组合为基本形式,将机器学习能力进行泛化,呈现明显的非线性映射效果,针对数据信息量进行模型处理,提高数据信息的传递速率,逐步推进预测系统的智能化建设。
3.4.1 分治型数据处理模式
分治算法在大数据处理工作中,具有先天的应用优势,将数据库内数据信息作为核心运算内容,将分治型算法进行拓展延伸,实现对数据信息的精准分析,有利于明确机器学习的根本目标,降低学习难度,精准判断数据样本类型。在数据筛选和分析过程中,采用约减法在大数据中选取最小数据集合,借助测试子集完成数据的采样和优化工作,提高数据决策效率和质量[4]。
3.4.2 并行式数据处理模式
为满足大数据时代对于大量数据的处理需求,将数据与机器学习进行有机结合,通过并行式数据处理模式,完成对大数据的联合处理,建立并行化数据转换机制,在并行处理观念的指导下,对“碎片化”数据进行分类,利用大数据手段,对各类数据运行规律进行整体性把握,保证机器学习目标及效果定位的精准性。
3.4.3 聚类式数据处理模式
数据处理过程中,常用聚类法进行数据挖掘,将数据根据不同节点信息进行类型划分,将大型数据划分至多项子数据的节点之中,针对已完成分类的数据节点进行集中处理。聚类式数据处理模式在实际应用期间,具体应用途径分为三类,分别是非迭代化拓展、持续扩充子集合、抽样均值,提升数据信息的综合处理效率。
综上所述,随着大数据时代的不断深入发展,传统的机器学习方式和智能预测系统必须结合大数据背景,基于校园管理、教学、服务、就业、科研五个层面的需求,研究校园大数据的应用关联,分析基于时间和空间维度的数据变化规律,考虑未来数据趋势走向,对数据处理模式进行创新应用,积极构建智能化预测系统,实现对数据信息的综合预测与分析,提高数据的处理效率,建立基于智能预测和机器学习的管理和服务,帮助学校真正的发现学生、了解学生,充分发现学生的个性,并且帮助老师实现针对高校学生的因材施教、个性化管理。