基于学生画像的个性化深度学习算法推荐模型的研究

2019-12-04 14:34李欣张桂花四川大学锦城学院
数码世界 2019年11期
关键词:结构化画像卷积

李欣 张桂花 四川大学锦城学院

关键字:智能教育 ALS 算法 卷积神经网络 个性化推荐

1 引言

我们处在知识数据爆炸大数据的时代,机器学习乃至深度学习算法在互联、电商、金融、零售等领域都有较为成熟的应用,随着学校信息化的日趋完善,以及智能教育政策风向,机器学习深度学习在教育领域的迫切应用需求、未来发展趋势跃然纸上。近日,科技部新一代人工智能发展研究中心和罗兰贝格管理咨询公司联合发布《智能教育创新应用发展报告》指出,智能教育当前已经从教育辅助向价值创造阶段过渡,未来有望在自适应学习、自适应互动课等应用上有所突破,进而进阶到具备认知与强交互能力,以自适应学习为代表的因材施教阶段。在此“智能+”的大背景下,作为教育的重要组成部分高等教育,承担着重要的角色和责任,如何将智能教育引入线下的AI 课堂,进行智能评测、学生作业的错因诊断、课堂教学质量的评估及推荐个性化的学习路径,是新时代教育工作要关注的重点和核心。本文已某高校智慧化校园信息集成数据为基础,分析学生在校期间的各项表现及行为习惯等结构化数据,结合NLP 及OCR 等技术处理非结构化的文本和图像采集数据,进而构建完备的学生画像指标,利用ALS 推荐算法和深度学习算法构建学习训练模型,为其推荐个性化的学习路径及培养方案。

2 模型构建整体框架

本模型构建的难点是完备学生画像的构建,及基于学生画像利用推荐算法和深度学习的方法进行学习训练,最终形成适合学生发展的千人千面的个性化的培养路径及培养方案。

模型构建整体框架,通过对学校信息系统、在线学习平台、智能采集设备等多维度多渠道采集的数据进行数据预处理筛选出复合要求的训练集数据,利用深度学习CNN 算法与ALS 推荐系统进行模型训练,将不同渠道的算法进行融合形成最终的推荐结果。训练后算法融合环节要进行模型评估,泛化评估结果正反馈的数据用来自我学习并优化数据集,分析泛化评估负反馈数据并进行模型优化改进。

2.1 有效的数据原采集

为精准刻画学生画像,我们从不同渠道采集学生的学情数据,在智慧校园信息系统中,我们采集了学生的历史学习成绩、家庭背景、高考成绩等,分析大学期间成长变化及家庭影响因素;在学校慕课教育平台上,采集学生在线学习情况,分析学生的学习习惯,作业的易错点、作业完成习惯、自学能力、学习风格等;通过智能设备采集学生课堂表现及对知识点的面部学习反应;通过图书馆借阅、一卡通消费、门禁等数据全方位多维度的刻画学生在校行为习惯。

2.2 有效指标的梳理

为了进行有效的指标加工,我们要对前期采集的学生数据进行数据预处理,检查数据缺失值、冗余、不一致、噪声等质量情况,使采集的学情数据清晰可用。数据预处理是模型构建的重要环节,包括数据的清洗、数据的集成、数据变换、数据规约。本模型在数据缺失值处理方面重点采用牛顿差值法进行差值拟合处理。插值方法的优点是依赖样本点内部的数据特点,使缺失值近似符合变量原有特征。在利用差值法的同时,我们也结合了传统的缺失值的填充方式,如利用中值、众数、中位数等体现集中趋势度的指标,是对数据缺失值的处理最大程度的科学合理。

本模型输入的指标加工,我们从体现时间颗粒度的纵轴和体现空间颗粒度的横轴进行分别加工,形成笛卡尔积,从形成满足深度学习框架训练的输入特征集合。横轴的时间颗粒度主要从学年、月、周等时间维度进行分割;纵轴的空间颗粒度主要从地域、学院、班级等空间维度进行分割。使得输入特征的加工处理维度丰富全面。

2.3 非结构化指标的处理

非结构化指标的处理是模型的关键点,在学校的在线教育平台上,我们能够收集到大量的文本信息如学生的课程论文、问题疑惑等的反馈;同时在各个授课教室通过智能设备可以采集到同学上的状态及学习知识的面部表情等图像资料。对于文本数据和图像数据的处理需要结合当下热门的NLP 自然语言处理基础和OCR 图像识别技术进行处理加工,使得非结构化的数据转化为合理的结构化指标。

在模型的整体构建过程中,精准的学生画像是模型训练学习的基础,建模过程中要通过科学有效的数据采集,力求建立综合系统化的指标体系。

3 ALS 推荐算法和深度学习算法简介

在大数据挖掘分析的前提下,基于矩阵的分解的ALS 推荐算法具有较好的效果,这种ALS 算法不像基于用户或者基于物品的协同过滤算法,通过计算相似度来进行评分预测和推荐,而是通过矩阵分解的方法来进行预测用户对物品的评分。

因此可以通过数据集中的数据构建用户评分矩阵,但是往往用户的评分不会填满所有的矩阵,因此就需要通过矩阵分解的方法,将矩阵X 分解为AB,也即尽量满足X=AB 这个等式,其中A 为用户因子矩阵即学生特征因子矩阵,B 为物品因子矩阵即学习路径因子矩阵。ALS 算法中用交替最小二乘法求损失函数的最小值,通过首先随机化矩阵A,然后通过目标函数求得B,再对B 进行归一化处理后,再去求A,不断地迭代下去,直到AB 满足一定的收敛条件为止。基于学生画像的ALS 推荐模型输入三元组的评分部分,采用对学习路径的隐式反馈方法进行构建。

为实现多维度模型校准及融合,推荐模型了采用深度学习算法卷积神经网络(CNN)进行个性化学习路径的模型训练。卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。CNN 网络一般来说,包括五个部分:输入层 INPUT、卷积层 CONV、激活函数层 RELU、池化层 POOL、全连接层 FC。不能简单地理解所有的卷积网络都是只有五层,对于大部分卷积网络,都会交替地用到中间地四层结构,也就是呈现出一种 卷积层-激活函数层-池化层-卷积层-激活函数层-池化层…地交替结构,使用形式可以根据模型训练需要如精度、数据量、输入特征的数量等进行调节控制。

在学习路径推荐的目标列为了充分的利用CNN 算法进行训练,我们对目标变量的众多学习路径进行了概念分层的泛化处理,使得模型输入的训练样本等到适当的平衡从而得到充分的路径推荐结果训练。

4 模型评估及自我学习

模型的评估是决定模型质量的关键环节对ALS 算法的评估采用RMSE 方法进行模型计算评估,他很好的评估了预测值和真值之间的偏差。

对卷积神经网络的训练结果,模型使用准确率和召回率及绘制ROC曲线评估深度学习推荐效果,评估在训练样本集内的推荐合理性。在模型泛化能力的评估过程中,分析不合理的个性化学习路径优化画像指标调整模型参数;将推荐合理的个性化学习路径(新样本)用作训练样本的扩种,通过实时持续的样本扩充实现模型更新迭代和自我学习。

5 结束语

本文基于多维度的学生画像指标,利用ALS 算法和卷积神经网络构建个性化推荐学习路径及培养方案模型,从而实现了结合学生自身特点的千人千面的个性智能教育推荐。构建丰富的学生画像维度显得尤为重要和关键,目前我们绝大多数的数据来源于高校信息系统中的结构化数据,对非结构化数据的使用并不充分,对文本、图像的深层次挖掘不足,对智能终端设备的采集不足,比如通过智能终端采集脑电波的反应(兴奋或者迟缓)从而挖掘不同个体的学习风格,对非结构化的数据的应用探索,是模型进一步的优化方向,从而提升对每个学习的精准推荐。

猜你喜欢
结构化画像卷积
威猛的画像
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
改进的非结构化对等网络动态搜索算法
深度学习的单元结构化教学实践与思考
画像
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法