教育资源精准推荐系统设计与实现
——以内蒙古教育云平台为例

2022-07-16 07:07田永健

中小学电教 2022年3期

田永健

（内蒙古自治区大数据中心，内蒙古呼和浩特 010000）

近年来，随着互联网及大数据等技术快速发展给人们的学习生活带来便利，内蒙古教育云平台的教育资源也呈几何级数增长，然而面对海量的资源，师生仍然难以获取自己需要的优质资源。教育部下发的教育新型基础设施的指导意见提出，优化资源供给服务，升级资源搜索引擎，通过平台模式为师生提供海量的优质资源和精准的资源服务。

推荐系统就是解决这种用户没有明确需求或者内容数量巨大、凌乱情况下的用户资源服务体验的问题的。目前，教育资源的推荐系统主要包括：基于关联规则的推荐、基于内容的推荐、基于知识的推荐、协同过滤的推荐等。在教育资源的推荐过程中，仍然存在推荐不精准、指向不明等情况。本文以内蒙古教育云平台的系统实践为例，就其在教育云资源推荐系统中的体系架构、推荐流程及推荐算法逻辑进行阐述。

一、教育资源精准推送需求分析

首先采用智能技术通过各来源汇聚优质资源，包括内部自建资源、平台教师共建资源及外部合作及购买资源。建立一个教育资源库并进行数据预处理。然后提升基础设施环境，搭建教育资源模块化系统，建立用户数据模型、资源数据模型、用户关系模型和行为数据模型，以及算法调度系统架构等。建立资源服务系统，面向教师用户的教学场景提供资源推送服务。最后结合教育云平台提供资源的智能化服务，以及资源的供给分析服务，从而促进优质资源的覆盖，实现为教师的资源精准化服务，提升教育均衡发展，建立更加适切、更加人本、更加平等、更加可持续的教育体系。

二、教育资源推荐流程分析

教育资源推荐业务流程图见图1。

图1 教育资源推荐业务流程

首先，教育资源精准推送需要基于各方面汇聚的教育资源数据、教育用户数据及用户行为数据等各方面数据，因此需要一个大数据基础平台，用来采集汇聚以及管理各方面的相关数据，并可以进行数据治理，提交给后续算法模块的数据必须经过清洗、建模后的数据，需要保证良好的数据质量，否则推荐结果必然不准。

有了各类数据原料之后，推荐引擎作为推荐系统的核心模块实现数据、算法和推荐服务的衔接。推荐引擎要为算法准备数据，评估数据是否符合算法要求；推荐引擎还要能调整算法参数不断优化推荐结果，能将多种算法的结果组合形成不同的推荐策略并进行对比。

推荐系统每一次用户使用推荐教育资源内容后的反馈信息都可以促使推荐系统优化、完善，从而使用户节约更多的无效搜索和查找教育资源的时间，更能体现出教育资源推荐系统的价值。

三、教育资源精准推送体系架构

教育资源精准推送体系架构见图2 所示。

建立教育大数据中心，利用大数据中心平台汇聚内外部优质资源数据，包括内蒙古教育云资源数据、一师一优课资源数据、名师工作室资源数据、活动获奖资源数据、优质厂商资源数据等，对数据进行清洗、整合、建模和数据挖掘，形成基于资源汇聚和资源数据模型的知识图谱、基于资源应用行为数据模型的资源画像、基于用户数据模型的人际关系网络、基于通用行为数据模型的用户画像等模型。基于以上模型，推荐引擎根据教育资源使用场景定义推荐策略和规则，结合多种机器学习和人工智能的推荐算法提供资源推荐能力。然后为用户提供智能资源应用服务，智能导航主要是帮助用户快速准确查找资源；智能错题本则是融合了用户画像和知识图谱的为学生提供的个性化学习资源，另外还有智能备课、智能组卷等。通过开放平台可以进一步将智能资源应用接入第三方应用，扩大智能资源应用服务的覆盖面。资源服务优化决策中心使得管理者能够方便管理资源服务，决策者随时全面了解资源服务的总体情况和关键服务指标情况。

四、系统方案

基于内蒙古教育云平台的相关数据，建设资源推荐的系统方案包括以下部分：

（一）资源应用过程跟踪计算中心

资源应用过程跟踪计算中心是汇聚教育云资源数据并建立模型为资源智能服务提供数据支撑的大数据中心。其建设内容有：基于资源汇聚和资源模型的知识图谱、基于资源应用行为的资源画像、基于用户数据的人际关系网络、基于通用行为数据模型的用户画像。

1.基于资源应用行为数据模型的资源画像

基于统一的大数据采集规范，通过对用户在资源应用过程中的行为数据采集，构建包含用户查找、收藏、分享、推荐、评价等行为以及用户资源访问历史的资源应用行为数据模型，形成资源画像。

资源应用行为描述资源全生命周期的所有事件，描述用户通过平台查找资源的行为过程；描述用户分享、推荐资源的行为过程；描述资源评价数据模型和用户评价行为模型。

在教育云平台提供资源检索行为记录的基础上，采集用户检索资源的行为。查找行为数据模型应记录检索类型和检索入口。须采集检索人、检索时间、关键字、检索结果数量、检索入口、检索类型等信息。

采集资源的分享、收藏、推荐等行为。采集的数据包括：资源的访问行为、资源的分享类别和时间周期。

资源评价行为通常表现为：点赞、评论等，采集数据包括：资源的访问行为、评价行为类型、评价的结果信息。

资源的访问历史数据须采集：（1）基础行为数据。时间、资源体、用户；（2）行为前导信息数据。检索、推荐；（3）行为过程数据。停留时间、有无下载等。

2.基于用户数据模型的人际关系网络

遵循国家教育信息管理标准规范，采集内蒙古教育云、第三方应用的用户数据，构建包含用户个体基础信息、群体信息、人际关系信息的数据模型，实现人际关系网络，支持用户信息在各系统间的安全共享。

个体基础信息指用户个人相关的数据，包括特征型数据、档案型数据。特征型数据是指具有特定值的用户信息，如性别、年龄等；档案型数据是指每个用户有多个值的数据，如成就、学习经历等。在特征型数据和档案型数据的基础上，可派生出分类属性，用于用户分类。

群体信息是指因各类活动需要组成的用户群体，是一种组织行为形成的用户聚集，例如行政班、教学班、工作组等，群体之间存在从属关系，每个群体最多有一个父群体。在群体基本信息的基础上，可派生出分类属性，用于群体的分类，如年级段。

人际关系可以通过群体体系体现，如同学关系、校友关系等。也可通过相互关注的好友关系体现。从数据中提取这些关系建构人际关系网络，在推荐的时候使用。

3.基于通用行为数据模型的用户画像

通用行为是指用户、群体应用各类系统的行为数据，如用户的登录行为、与其他用户的互动行为等。通用行为模型包括：个体行为数据模型和群体行为数据模型。

个体行为数据采集信息通常包括行为发起人信息、行为发起时间和持续时间、行为过程信息、行为结果信息等。群体行为数据可通过群体动态信息表征。群体动态信息按类别存放，如班级活动、学校活动，不同群体可以有同类动态信息。

基于统一的大数据采集规范，通过对用户在各类应用系统上的通用行为数据采集，构建包含用户个体行为、群体行为的通用行为数据模型，形成内蒙古各类教育用户的用户画像。推荐算法结合用户画像，为用户实现更为精准的资源推送。

（二）资源推荐引擎

教育资源推荐引擎是一个推荐算法平台，提供多种推荐算法的灵活组合配置。教育资源推荐系统的流程分为离线层、算法层和配置层。

在资源应用过程跟踪计算中心使用机器学习和数据挖掘算法完成知识图谱、人际关系网络、资源画像及用户画像等模型的构建。算法层位于离线和配置层之间，主要由各种推荐算法组成。算法层从离线层获取数据并加载到高速存储供算法调用。配置层对算法规则进行配置，包括规则配置、权重配置，以及对结果进行排序组合；通过AB 测试进行流量分流验证，看哪种算法配置更有效；效果监控是对算法推荐的结果的数据分析呈现，最终为不同用户呈现个性化的推荐结果。

（三）推荐算法设计

教育云的资源推送不同与互联网的那些推荐，不能简单照搬互联网的推送模型。首先，教育的资源推送具有很强的学科和学段的差异性，不同学科的知识内容结构差异很大，特别是一些理科与文科的差别，还有一些学科注重实践，所以在推荐系统设计时要特别考虑。其次，教育推荐是为了帮助教师的教学和帮助学生学习为主，不能完全以个人的好恶来评判。

根据内蒙古现有数据基础，我们设计了如下几个算法作为推荐系统的基础算法。

1.基于资源画像推荐算法

根据资源行为计算S（行为）数据评分，构建资源画像数据集。根据用户特征构建用户特征标准矩阵。资源画像数据集与用户特征标准矩阵通过相似度算法（余弦相似度）计算相似度。给用户推荐相似度最高的TopN 资源。算法按照学科学段分批计算。

S(行为）=S(click)*w1+S(favor)*w2+S(download)*w3+S(share)*w4

w1,w2,w3,w4 为权重

S(行为），S(click), S(favor),S(download),S(share),分值范围控制在0-1 区间

W1+w2+w3+w4=1

S(score)=(S0+S(mean)）/2平均值，S0为没有评分的初始值计算相似度的时候，每个特征还有一个权重值参与计算。

基于资源画像推荐算法流程见图3：

图3 基于资源画像推荐算法流程图

算法思路，基于资源行为的资源画像与用户特征匹配，推荐最匹配N 个资源。

算法步骤：分析算法主要包括数据清洗、整合及转换，评分计算，然后构建用户特征矩阵，然后通过相似度算法计算最匹配N 个资源推荐。

算法价值：根据资源的行为及用户评分的资源画像，来匹配用户特征，得到最优匹配的推荐资源。

2.基于用户画像推荐算法

根据用户的资源通用行为形成用户画像数据集，通过kmeans 聚类算法，将用户分为k 类，反映不同用户使用教学资源的行为模式类别。然后根据用户所在的不同用户簇，对用户推荐该集群评分大于初始评分S0 的最高的N 个资源。

基于用户画像推荐算法流程图见图4：

图4 基于用户画像推荐算法流程图

算法步骤：分析算法主要包括数据清洗、整合及转换，评分估计，基于用户通用教学行为数据对用户进行聚类，计算各聚类簇评分最高的N 个资源，对用户进行TopN 推荐。

算法价值：根据用户的通用教学行为，通过聚类把行为类似的用户聚集在一起。然后根据聚类簇中用户的平均评价行为去预测聚类簇中单个用户的行为。

3.基于人际关系推荐算法

此算法即根据用户的人际组织关系，将相同组织关系的用户使用的资源，推荐给同组织的其他用户。

基于人际关系推荐算法流程见下图5：

图5 基于人际关系推荐算法流程图

算法步骤：根据用户级组织关系数据，获取并加载用户组织数据集，并对数据进行评估检查，利用资源行为数据对资源进行评分，便于推荐排序，计算各组织下评分最高的N 个资源，对用户进行TopN 推荐。

算法价值：根据同组织用户关系进行推荐，体现用户同组织的趋同性。

4.基于资源行为的热度推荐算法

基于教育云资源使用行为数据，计算资源热度，然后按照学科、学段分类，将最热的资源推荐给同类用户。该算法作为基础的默认推荐。算法公式如下：

热度分=（初始热度分+用户交互产生的热度分）/随时间衰减的热度分

Score=(S0+S(Users))/S(Time)

用户行为分为点击（click)，收藏(favor)，下载(download)，分享（share)

S(Users)= 1*click+3*favor+5*download+5*share

各种行为的权重分别式1，3，5 这些参数作为算法参数可调整。

Click、favor、download 需要做归一化处理。

时间衰减：

T(Time) = e ^ (k★(T1 - T0))

T0 是发布时间，T1 是当前时间，天单位

热度的发展最终是一个无限趋近于零热度的结果，最终的新闻的热度算法也调整为：

Score=(S0+S(Users))/T(Time)

基于资源行为的热度推荐算法流程图见图6：

图6 基于资源行为的热度推荐算法流程图

算法步骤：获取资源数据和行为数据，计算资源行为评分，加入时间衰减系数计算热度评分，按照学科学段将结果评分最高的TopN 推荐给用户。

算法价值：根据多种主要用户资源行为，综合评估资源热度，并结合时间衰减因素和初始评分考虑初始资源的冷启动问题。

五、结语

随着大数据技术的快速发展，基于用户特征的信息主动推送或个性化推荐服务已广泛应用于互联网应用方面，在教育信息化领域亟须将此项技术在教育资源方面推广应用起来。本文基于内蒙古教育资源公共服务平台为例，从省级数字教育资源服务平台的定位和功能出发，描述了数字教育资源主动推送及个性化服务的规模化实现方式。组合分析资源画像和用户画像特征数据，进而给出精准的推荐；利用推荐引擎的灵活算法组合策略配置，并希望通过用户的持续使用和算法策略的不断优化，使得推荐越来越精准，为广大教育用户提供更加优质的推荐服务。

教育资源精准推荐系统设计与实现——以内蒙古教育云平台为例