对外经济贸易大学用大数据描绘“教师画像”

2017-09-03 10:21方丹丹王海涛李颖张烨青

中国教育网络 2017年7期

文/方丹丹王海涛李颖张烨青

文/方丹丹王海涛李颖张烨青

随着互联网和大数据技术的发展，人们可以通过网络获取到用户的海量数据，通过对海量数据进行多维度的数据分析，能够实现精准快速地分析用户的特征和行为习惯。用户画像（User Profile）的概念应运而生，它完美地抽象出一个用户的信息全貌。用户画像应用到学校的信息化环境中，催生出了“教师画像”的概念。“教师画像”是通过对学校信息化系统和校园网数据分析教师的数据信息，将教师“数据化”，本研究中的“教师画像”均基于此概念。

职业发展是个人在自我认知的基础上，对决定个人职业发展的主客观因素进行分析，并结合个人发展和组织发展的双重需要，确定职业发展目标、规划职业发展的各个方面，根据目标的实现程度，不断反馈和调整，最终实现既定目标的过程。合理的职业发展规划对教师的发展尤其重要，其职业发展发展如何，决定了教师的生命质量和教育质量。“教师画像”通过分析挖掘教师个人信息中的知识与规律，创新研究教师职业发展的路径，教师在自我认知的数据分析基础之上，制定个人的职业发展规划。

特征工程理论

特征工程是机器学习领域的一个重要概念，目前并没有普遍接受的定义，一般可以认为是为机器学习应用而设计特征集的相关工作。在机器学习领域，特征是用于预测的一种独立的、可描述的、可测量的属性，在结构化的数据表中，数据由不同的变量或者属性构成，这里的属性其实就是特征，但与属性一词不同的是，特征是对于分析解决问题有用的、有价值的、有意义的属性。选择合理的、全面的、信息量足够大的、有差别性的特征是机器学习的关键步骤。

特征工程的本质是一项工程活动，其目的是用目标问题所在的特定领域知识或者自动化的方法从原始数据中提取或生成特征，以供机器学习所使用。

基于特征工程构建“教师画像”

构建教师画像的核心工作是为教师打标签，打标签的目的是为了用数据描述人物，方便人们理解，并且能够让计算机进行处理。标签可以看做特征的一种表现方式，因此，教师画像比其他的机器学习更加依赖特征工程，利用特征工程来提取教师这些“标签化”的特征。在提取“标签化”特征的过程中，模型和算法的选择非常重要，合适的模型和算法更能够逼近真实的特征。

教师画像的特征提取和预处理

1.数据采集

本研究的原始数据提取主要来自业务数据、用户日志数据、网页公开数据爬取等方式。来自学校业务系统的数据一般都是存在MySQL、Oracle、SQlserver等数据库中，比如教师的基本属性、专业技能、奖励荣誉、培训进修等数据来自学校人力资源管理系统，科研成果来自科研管理系统，教学成果来自教务管理系统；上网行为来自校内网络日志数据，记录用户的浏览搜索等行为；消费数据、阅读偏好数据来自对主流互联网平台的公开数据的爬取。

2. 数据清洗

数据清洗主要解决原始数据的异常数据、重复数据、缺失数据和不规范数据。

（1）数据类型检查

原始数据里的数据类型可能有很多不一致的，比如出生日期，有的是字符串类型，有的是日期类型，需要转换成同一类型或者从身份证号里截取。比如年龄，有的是数值类型，有的是字符串类型，可以根据身份证号来计算，并设置成同一类型。

图1 数据采集和预处理流程

（2）缺失值处理

原始数据存在大量缺失值，有很多重要属性数据的缺失，改变了原始数据的真实有效性，对数据模型的效果存在很大的影响，因此，需要对缺失值进行处理，本研究采用了人工干预的方法和机器学习的插补方法，人工干预主要应用在业务系统数据上，教师的基本属性、科研成果、教学成果、奖励荣誉等信息存在缺失值时，进行人工补录；机器学习的插补方法主要应用在无法进行人工补录的业务系统数据、用户日志数据和网页公开爬取的数据上，插补方法多数采用均值插补或多重插补。

（3）异常值分析过滤

异常值分析过滤是分析检查原始数据中是否有错误数据或者不合理数据，如果有，需要对这些数据进行处理，不重要的属性可以删除，重要的属性要进行修改。常见的异常值分析过滤的方法有简单统计量分析法，设定数据值的范围，如果超过了最大值和最小值的范围，即判定为异常值，例如在职教师的年龄，设定最大值为65，最小值为20，超过这一数值范围的即判定为异常，筛选出来后进行相应的处理。

还有一种异常值分析过滤方法为正态分布3σ原则，正态分布又名高斯分布，曲线以x=μ为对称轴，σ代表标准差，μ代表均值，3σ原则为：数值分布在（μ-σ,μ+σ)中的概率为0.6826，数值分布在（μ-2σ,μ+2σ)中的概率为0.9544，数值分布在（μ-3σ,μ+3σ)中的概率为0.9974，分布在（μ-3σ,μ+3σ)区间外的取值概率不到0.3%。可以认为凡分布在（μ-3σ,μ+3σ)区间外的数值，就属于异常值，应予以剔除。该方法仅局限于对正态或近似正态分布的样本数据处理。

（4）特殊字符处理

原始数据的某些字段中包含空格、换行符、制表符等特殊字符，这些特殊字符会影响到数据统计分析，因此有必要清洗掉这些字符。

3. 数据预处理

数据预处理是对原始数据里面的脏数据进行处理，这些脏数据会极大地影响最后模型的效果，所以数据预处理是非常重要的一个步骤。数据预处理包括数据集成、数据变换、数据归约等。

教师画像特征选择

标签是特征空间中的维度，是特征的一种呈现方式，因此，我们利用特征工程来提取这些“标签化”的特征。

特征分为直接特征和间接特征，直接特征是一些显而易见的，能够直接从信息系统获取到，比如教师的性别、年龄、民族、政治面貌、籍贯、学历、学位、研究方向、科研成果等。而间接特征是从直接特征或者各种数据组合里计算推导出来的，可能需要复杂的模型计算，比如阅读偏好、科研偏好、消费偏好、运动偏好等。

以阅读偏好特征的生成为例，根据图书分类可将阅读偏好类型分为经济类、文化类、艺术类、语言文学类、历史地理类、科学类、教育类、工业技术类等，值处理为1、2、3、4、5、6、7、8，样本数据选择性别、年龄、研究方向、讲授课程、研究成果、借阅图书类别、购买图书类别等7个内容，每个样本用一个多维向量来描述，x=[x1,x2,x3,x4,x5,x6,x7]，其中x1=性别，x2=年龄，x3=研究方向，x4=讲授课程，x5=研究成果，x6=借阅图书类别，x7=购买图书类别。采样足够多的样本数据构造训练集，样本数据集规模要足够大，一般情况下，数据集规摸越大，机器学习的效果越好，通过监督式学习（Supervised learning）对训练集进行学习，学习出“阅读偏好”的相关变量，得出阅读偏好特征，并把该特征作为标签输出。

教师画像特征构建

教师画像的特征构建需要对实际样本数据进行处理，思考数据的结构，并需要依靠知识经验，以教师职业发展规划为目标，结合教师的个人特征、职业特征和社会特征来构建，一般包括教师的基本属性、专业技能、科研成果、奖励荣誉、培训进修、性格特征、兴趣爱好、行为偏好等几个方面，本研究中特征构建以标签的形式展现。

标签是人为规定的高度精炼的特征标识，呈现出两个重要特征：语义化，人们能够很方便地理解每个标签的含义，这也使得教师画像模型具备实际意义；短文本，每个标签通常只是表示一种含义，标签本身无需再做过多文本分析等预处理工作，这为利用机器提取标准化信息提供了便利。以这两个特征为依据，归纳出上表中的教师画像标签。

模型与算法

不同的特征需要选择不同的机器学习算法，选择模型和算法的因素包括训练集的大小、问题是否线性可分、特征维度大小、特征独立性等，本研究的特征工程多采用朴素贝叶斯(Naive Bayes, NB)或Logistic回归(Logistic Regression, LR)模型，如果条件独立假设成立的话，朴素贝叶斯模型比Logistic回归模型收敛的更快，只需要少量的训练数据即可得到有效的结果，即使条件独立假设不成立，NB在实际中仍然表现出惊人的好处。比起NB的条件独立性假设，LR不需要考虑样本是否是相关的，LR有很多方法来对模型正则化。

变量之间很多情况下存在非线性关系，采用线性模型可能会带来结果的偏差，因此可选择人工神经网络或者决策树来完成非线性的模型设计，采样足够多的样本数据作为训练数据，建立神经网络模型,结合样本的变量，对神经网络模型进行有监督的训练，直到模型的损失函数值达到规定的阈值或者损失函数的值不再变化，表示该模型训练完成。

尝试多种分类器，根据交叉验证的结果来挑选性能最好的算法，并为模型和算法设置评价标准，不断调整模型的各种参数，最后根据评价标准训练出最优模型。

“教师画像”在教师职业发展中的应用

教师在进行职业发展规划时，最重要的前提就是了解自己，而教师画像就是一个很好的工具，能够让教师很客观地了解自己。它用抽象的数据来描述人物，通过分析挖掘用户尽可能多的数据信息得到的一个虚拟的人物形象，以此来代表个人的背景、需求、喜好等。教师画像在教师职业发展规划中的具体作用如图2所示。

自我认知

明晰准确的自我认知是个人制订职业发展规划的前提和关键，只有认真分析自己的实际情况，充分认识和了解自己，才能对自己的职业方向做出正确的选择，制订出适合自己的职业发展之路。教师的自我认知包括对自己的性格特征、兴趣爱好、专业技能水平、科研成果、教学成果、获奖与荣誉、个人需求等各方面的认识和了解，传统的自我认知建立在自己感知的基础上，是感性的认知，不是量化的，而教师画像可以将“人”数据化，通过标签的方式来描述，标签是某一种特征的符号，如“男”、“45岁”、“党员”、“院长”、“博士生导师”等都是典型的教师画像标签。当然，这种基本属性类的标签是能够被个人很容易感知和记忆的，似乎对自我认知并没有多大帮助，但打标签的重要目的是让人容易理解并且方便计算机进行处理，比如分类统计：全校博士生导师有多少？45岁以下的博士生导师有多少？这些数据建立了多维度的自我认知。此外，用户偏好类的标签是通过数据挖掘得到的，例如“喜欢阅读经济类书籍”、“学生评价和蔼可亲”等这些数据并不能够被感知，必须以具体的数据来描述，以支撑教师进一步认识自己。

以教师画像为基础，构建教师个人信息中心，全面地展示与教师相关的各类信息，如基本信息、学习工作经历、教学信息、科研成果、个人资产、工资信息、消费信息等。教师可以随时查看到个人的实时信息，了解自己，辅助决策，以期进行正确的职业方向选择。

围绕个人信息中心构建自助表格系统，根据教师的身份（ID），从标签数据库中获取相应信息，自动填充到表格中，大大减轻了高校各项申报、填表的重复工作，也保证了数据的一致性、真实性和实时性，是为教师减轻行政工作负担的有效工具之一。

个性化推荐

教师画像的标签化的描述方法为个性化推荐提供了可能，标签是个性化推荐的基础，因为标签是描述教师特征的数据符号，而只有了解用户特征才能实现个性化推荐。此外，运用机器学习模型对教师进行相关性分析，并根据相关性特征进行相应的推荐。

以教师画像的标签为基础，围绕教师职业发展相关特性，构建精准推荐系统，实现教学、科研、图书、进修培训等个性化推荐，并结合移动终端，实现移动化推送。

教学的推送，包括任课课程的时间、地点、学生人数、学生院系分布、学生成绩分布、特殊学生提示、学生预警详情、教学评价指标、教学评价结果；相关推荐包括平行课程推荐、课程资料推荐、相关课程推荐、相关科研成果推荐。围绕教学内容，实行全方位的推送，为教师教学提供更精准的教学数据服务。

科研的推送包括个人科研成果的及时推送、院系科研成果数据汇总、学校科研成果数据汇总，智能推荐以教师的研究方向、教学内容、科研成果关键字、图书阅读偏好关键字为特征，分析出科研偏好，进而推荐科研成果、科研项目团队、科研资料、相关图书、相关课程等，以期最大化地提升科研环境，立足服务于教师科研工作。

图书推送包括应还图书、逾期图书、进馆人数、个人借阅年度统计、馆藏慨况、近期热门图书、新书推荐、周围的人在看、只有男生读的书、只有女生读的书等。

目标预测

分析和预测是大数据挖掘的重要方向，基于教师画像的数据挖掘主要是以标签为基础，挖掘和发现教师发展过程中的知识和规律，对特定目标进行预测，例如：职称评定预测、岗位评定预测、考核评价预测等。

阶段性成果报告

以教师画像的标签为基础，可形成教师的阶段性成果报告，在教师职业规划的过程中，最后一个环节就是根据目标的实现程度，不断反馈和调整，最终实现既定目标。报告对教师各方面的数据进行总结和分析，随时生成的报告可以让教师随时了解和掌握目标实现的情况，对于产生的偏差进行不断修正和调整。

随着大数据技术的蓬勃发展，特征工程技术在用户画像、推荐系统等领域被广泛应用，本文把特征工程理论和技术引入到教师职业发展领域，以技术为支撑，为教师职业发展规划提供新方法和新思路，但在具体的应用过程中，数据的完整收集、数据质量的保证是非常关键的因素，也是必须要解决的难点，需结合各学校的具体情况，采取机制建设、业务推动等多方面的手段，整合高校数据资源，并利用大数据技术，为教师职业发展提供数据支撑，是一个漫长的探索和实践过程，也是管理与技术高度结合的产物。

图2 教师画像的作用

（责编：杨燕婷）

（作者单位为对外经济贸易大学信息化管理处）