吴笛+李保强
【摘 要】
向学习者推荐情境敏感的学习资源与学习路径,能够有效降低学习者在互联网远程教育中的时间成本,并且帮助其提高学习效率、增强学习兴趣、优化学习效果。然而学习资源的组织结构比较复杂,资源关系存在孤立化的问题。如何基于当前学习情境采用合适的感知技术和关联分析方法,推荐恰当的个性化学习内容是一个非常关键的问题。本研究提出结合情境感知技术和多层次、多关系的关联算法来实现学习资源的个性化推荐,探索基于情境感知的行为特征分析和提取流程,详细阐述了基于情境描述和关联推荐的机制,以期提高个性化学习内容推荐的服务质量和效果。
【关键词】 情境感知;关联分析;数据挖掘;资源推荐
【中图分类号】 G434 【文献标识码】 A 【文章编号】 1009-458x(2017)02-0059-07
一、引言
随着移动通信技术的迅猛发展和移动设备感知化、智能化、小型化程度的提高,人们逐渐适应了通过随身携带的各类移动终端获取信息。同时,越来越快的生活节奏决定了学习者的学习时间呈现碎片化的趋势,更倾向于利用空闲时间观看和学习各类微小课程来获取知识(陈媛嫄, 2012)。在移动智能终端成为学习载体的同时,传感器网络、物联网以及云计算和大数据等最新的信息技术相互融合,使得学习系统获取学习者的时间、位置、行为活动更加容易。根据数据利用模型计算事物发展趋势的方法和技术已经得到全面发展,需要远程学习系统能够强化情境敏感化的学习资源推送能力。作为智慧学习环境构建的基本策略,情境感知指的是系统主动感知情境变化,根据用户的学习需求提供恰当的学习资源和服务。在远程教育领域,网络教育资源出现了前所未有的爆发式增长,给学习者提供了海量的资源,资源增长速度过快,造成了学习者的选择困难,也弱化了不同情境下学习者的学习体验。智能化的学习资源推送应该具备学习对象排序、学习路径推荐和学习风格识别等能力,通过数据挖掘等大数据领域的新技术,提升情境感知改善在线学习体验的效果。
二、推荐模式
基于情境感知的学习资源智能推荐的推理逻辑基础是学习者的用户模型与知识模型之间的关联。用户模型需要体现学习者的学习风格和认知水平,并且能够关联具有适应学习者能力的动态课程内容,智能地向用户推荐最佳学习活动序列和学习资源(Schilit, Adams, & Want, 1994)。这种动态的学习活动序列生成能够根据具体的学习目标、依据学习者的个性差异修正出一套切实可行的学习方案,实时观测和分析系统中用户的学习风格和资源媒体格式的选择倾向,整合用户的学习目标、学习任务、操作步骤、交互形式和评价机制等,形成一个有机的、动态化的学习过程(Wang, Dong, & Chin, 2004)。
情境感知推动学习资源精确推荐的核心是基于规则分析的资源搜索引擎。引擎的规则来源需要通过智能装备感知到学习者所处的情境,然后通过情境特征明确其学习需求。情境感知特征根据不同的感知软硬件模块可以分为不同的种类,最基本的包括各种丰富的物理传感器信息,通过综合分析这些特征,生成用户情境化的信息需求并进行语义化表示,尽可能真实地还原用户的行为模式和实时场景,并对信息资源的适用情境进行语义化标注,判断和预测学习者的行为目标,实现精准的信息推荐(Rani & Vyas, 2015)。情境建模的重点是情境上下文的构建,首先需要确定的是需要获取哪些情境要素,基本的学习情境要素可以包括人物属性、软硬件数据上下文、学习习惯和偏好、当前的学习目的及任务等,然后再根据要素进行推理,理解学习者的行为模式和当前的意图,提升面向移动用户的推荐系统(钱增瑾, 孙东平, 2013)。
随着学习者在远程移动学习活动中参与度的增强,用户情境与学习需求的关联准确度直接决定着学习资源推荐质量的高低。而移动用户自身位置敏感性等特点又要求学习系统的反馈能够更加及时,相关的资源推荐能反应学习者的短期兴趣及情境变化等。这需要增强自适应学习中有关情境要素与学习者行为之间关联信息的数据挖掘技术,揭示不同用户不同情境特征与学习资源之间最直接的关系,探索学习者在自适应学习中的行为规律,辅助提高学习者的学习效率(如图1所示)。
三、情境要素的收集与处理
情境要素是表征任何情境实体状态的相关信息元素,包括相关的人、事物或抽象模型。情境要素的属性值是具有限定范围的,属性之间相互关联,并且与具体的环境或场景紧密联系(何军, 刘红岩, 杜小勇, 2007)。情境模型的构建首先必须确定情境要素的类型与范围,构建的流程并没有统一的定义,在学习资源推荐系统中对情境要素的界定需要考虑学习者使用的设备和所处的学习环境,比商业服务中只对位置和用户偏好敏感的情境感知更加复杂。学习环境中情境要素可以从不同的角度进行大致的划分,从时间维度上可以分为历史情境和实时情境,还有些情境要素是通过物理传感设备实时获取的,更多的要素则是通过数据的收集整理归纳得到,所以也可以分为直接情境和间接情境。
情境要素的分类可以参考表1。实时情境基本上来源于物理传感信息和应用软件的实时数据和使用参数,例如用户所处的时间、位置、网络状况和运动参数,以及正在使用软件应用的具体行为,包括浏览网址,正在学习的课程和网络社交行为等(徐光祐, 史元春, 谢伟凯, 2003)。历史情境是非常重要的情境判断背景因素,例如学习者的身份信息、学习背景和学习偏好可以视为用户的学习历史情境,其中一部分身份信息相关数据可以事先录入到系统中,其他信息则是经过长期的历史数据和情境日志分析进行信息过滤和合成而组成的新的情境要素。实时情境的各項数据基本上都可以通过归纳整理形成对应的历史情境,如用户具有规律性的位置变化形成用户的运动路径情境,运动参数的变化可以构成行为或行动分析的数据基础,学习课程的历史数据可以提炼出用户的学习习惯与兴趣偏好等。
随着数据挖掘等新技术对情境感知智能化的提升,系统对情境数据的深入分析能力进一步增强,间接情境逐渐具有重要的地位。如图2所示,普通的情境要素收集和获取更多的是直接从原始数据进行归纳和推理,而直接获取的情境要素可以作为数据来源构成间接情境要素的分析和分类依据。间接情境的获取不需要用户介入,主要通过统计分析、推理规则或数据挖掘的方法从软硬件环境中直接获取的数据推理得到用户的间接情境要素(莫同, 李伟平, 吴中海, 褚伟杰, 2010)。这部分要素是自适应学习资源推送的基础与支撑,因为它是不会随着时间改变或者改变很慢的信息,能够大致圈定用户所属的学习风格和学习资源的推荐范围;而直接情境要素对于精确定位用户的实时需求起着关键作用,两者共同构成自适应学习资源推荐中情境模型建立的基础。
四、情境描述与推理
1. 推理过程
为实现情境感知的信息服务自适应个性化,首先必须识别获取用户当前的实时情境信息,再根据历史情境进行推理判断,获取用户的学习目标和最佳的学习方式,这不是通过简单直接的方式就能确定的,需要对学习者的行为进行动态采集、分析和评价三个阶段(童恩栋, 2011)。首先跟踪和分析自适应学习资源推荐系统中学习者学习的过程,建立学习者行为模型,然后根据收集的学习行为历史数据,采用关联分析和数据挖掘的方法寻求情境数据与学习资源知识库之间的联系,构建动态关联模型。其中动态关联是指在不同的情境空间和时间维度上,不同的情境要素具有不同的权重和相关系数,需要根据学习者的实时反馈和学习效果形成评估结果,对个性化的学习资源进行检索和动态的推荐。
过去的情境描述与推理模型大部分是在本体构建和语义检索的基础上建立的,这种情境推理的个性化学习服务方法一般至少需要构建两个情境本体:用户情境本体和知识本体,同时还需要建立用户情境到知识推荐之间的推理规则,由推理规则生成适应不同情境的具体推理规则实例,最后形成通过用户具体的情境状态推理出满足其情境期望的服务集合的資源推荐过程(Premlatha & Geetha, 2015)。这种方法能够清晰地描述情境元素以及精确地定位知识本体数据资源,因为事先已经通过本体相关的推理工具完成了知识库的构建。但这种推理过程必须建立在前期大量的数据分析和准备工作之上,包括本体元素的描述约束和知识库的本体化构建等,虽然有将模糊的情境信息精确化的优点,但是数据的预处理非常繁杂,难以满足大规模学习资源数据集搜索的需要。为了避免大量的本体描述和标注工作,目前更倾向于采用大数据技术的相关数据挖掘处理方法来构建关联模型,使用过滤、分类、聚类、关联、序列分析等方法实现情境数据到知识推送的逻辑推理过程(赵宏, 陈丽, 赵玉婷, 2015)。
2. 情境特征提取
首先需要关注的是用户情境特征的表示,给定情境数据时间序列,其中表示一个情境片段,每个片段包含了该时间点采集的所有情境要素数值,相邻的情境片段具有相似的情境要素(陈毅波, 2012)。由于不同学习者在学习的不同阶段会有不同的情境切换模式,因此我们需要利用情境数据的内在统计相关特性,对情境数据进行分类,提取情境会话的关键特征。
由于情境数据的维度是相对固定的,情境特征的多维数据正好构成向量表达,而多维向量可以放置到多维空间中,通过计算多维空间的余弦距离或欧氏距离形成情境之间的关系,然后通过聚类算法提取和描述用户的关键特征。目前,主流的聚类算法有很多,包括基于划分的聚类算法、基于密度的聚类算法和基于流的聚类算法(吴鹏飞, 余胜泉, 2015)。因为不同用户学习情境的差别可能会很大,所以需要根据不同的场景选择合适的聚类规模参数。以常用的K-means聚类算法为例,提取情境特征时向量之间的差异值计算公式可以为:
式(1)中为情境要素类型,表示情境会话向量和在情境要素上的差异值,表示向量和在上的指示项,表示在情境要素的取值,的计算如下:
通过K-means对情境会话聚类的细节描述如下:首先根据情境要素的取值频率和大致范围确定情境会话的初始数量K,即期望的情境种类的个数。在数据稀疏或者缺少历史数据的情况下,可以先大致确定一个初始数值,再根据初步的聚类结果迭代改进K的取值范围。接下来随机选取K个中心节点,计算其他情境会话最近的中心节点,获得相同的簇标识,最终得到新的每个聚类的质心。该过程需要不停地迭代,直到聚类结果稳定或者达到迭代阈值次数(魏欣楠, 郝忠孝, 2009)。每一个情境会话聚类共同反映了一类学习情境,可以将该聚类作为数据源来提取用户情境的描述。
五、关联分析与推荐
情境与行为的关联分析最主要的目的是根据学习者目前所处的情境在学习资源库中搜索并返回最适合的资源提供给他们使用。关联分析的数据检索过程是动态的,它会根据每一次推荐结果的使用状况对自身的关联数据进行反馈和修正,同时它也会根据使用者的学习背景和偏好自动适应。与推荐相关的数据挖掘算法有很多,包括协同过滤算法和关联分析算法等。
1. 关联规则分析
学习资源的关联规则发现是将学习者使用的学习资源具体类型和顺序构成一个学习会话,通过关联规则挖掘情境会话与学习会话之间的关系,并按照一定的支持度和置信度提取和保留有用的规则进行学习推荐应用。关联规则挖掘一般被用来描述数据项之间关系的规则,即某些项可能会同时出现在一个事务中(杨现民, 余胜泉, 张芳, 2013)。关联规则的数据挖掘一般分为两步:第一步是从数据集合中找出所有的频繁项集(Frequent ItemSets),第二步是根据频繁项集分析得到关联规则(Association Rules)。
关联规则的数据挖掘有两种,最基本的是针对单层关系的数据集分析。其流程为:假设为一个或一个以上的项目组成的集合,称为项目集,事务(Transaction)是的非空子集,即,关联形式表现为的蕴涵式。其中且,和分别称为关联规则的先导和后继,关联规则在D中的支持度(support)为D中事务包含的百分比,置信度(confidence)是包含X的事务中同时包含Y的百分比。如果数据结果的支持度和置信度均超过阈值,则认为该关联规则有效(白云龙, 2014)。
以表2为例,学习资源的项集。对于关联规则:,支持度support,置信度confidence。若给定最小支持度和最小置信度均为0.5,即可以认为与之间存在关联。
关联规则的数据挖掘算法有很多,其中最基本的无监督学习算法为Apriori算法,该算法属于单维、单层的关联规则挖掘算法,主要利用了频繁项集的非空子集也是频繁的先验性质。算法的主要过程为:首先扫描数据库,确定各“1项集”的支持度,筛选满足最小支持度的集合L1,L1用于找频繁“2项集”的集合L2,以此类推,直到因为无法满足最小支持度要求而不能产生频繁项集为止。
Apriori算法的改进有很多,例如增加抽样(Sampling)技术、分区(PARTITION)算法和DHP(Direct-Hush and Prune)算法等,提高了算法的计算效率,以及泛化关联规则和周期性关联规则等。
2. 多层关联规则分析
针对单层的关联规则数据挖掘只能发现学习资源库内部的各项关联,如果要考察情境向量实体与学习资源之间的关联,还要涉及多层关联规则。采用多层关联规则可以有效地发现情境因素与学习者学习偏好之间的隐藏关系,协助系统自动生成知识学习序列,提高资源推荐的精度。多层关联规则挖掘的研究一般针对基于星型数据模式(multi-dimensional data model)的数据库,处于核心的称之为事实表(fact table),并且有多个维表(dimensional table)与事实表通过外键关联,与事实表形成一对多的联系(王卫军, 2015)。事实表一般只包含外键关系,如果还有其他属性,可以分离出来形成单独的维度表(如图3所示)。
从图3所示的数据表中可以得出支持度和置信度为:
Support(Address=University→Prefer=Logistics)=4/7
Confidence(Address=University→Prefer=Logistics)=4/5
假設最小支持度和最小置信度都超过阈值1/2,可以得到符合要求的关联规则:
Address=University → Prefer=Logistics
3. 基于ILP的多关系关联规则分析
归纳逻辑程序设计(ILP)是机器学习与逻辑程序设计的交叉研究领域。归纳逻辑程序设计使用了一阶逻辑框架,将传统的单表关联规则挖掘算法更好地扩展到了多表情况。ILP在多关系环境下使用一阶谓词逻辑语言表示机制,通常利用Prolog语言,在其形式化系统中允许在一个模式中使用多个变量与关系,为机器学习提供了更深入的理论和方法,从而克服了描述能力和背景知识利用的限制(宝腾飞, 2012)。在ILP中,所有的表达式由常量、变量、谓词符号和函数符号组成,这些符号可以组成项、句节和子句等表达式。关联规则是一组具有类似X←Y的形式的语句,其中X、Y均由一组谓词组成。如果元组给每一变量赋值后使谓词取值为真的就是支持本谓词的元组,而同时满足关联规则箭头两端的谓词的元组就是关联规则的支持元组。
以如图4所示的数据库为例,这是一个由表student、prefer、where、study组成的多维关系型数据库,每个表所代表的关系用谓词的形式可以表示为:student(name)、prefer (name, subject)、 where (name, address, time)、study (name,subject)。对于该数据库,某个position与subject的关联规则以Prolog查询形式可以表现为:
Student(name), prefer(name, Y), where(name,X, time) →study(name, X, Y)
当且仅当该查询返回非空解时,称这个查询符合数据库D。对于一个特定的数据库,每一个谓词的支持度计算公式为:
支持度= 符合这个谓词的元组数/所有的元组数
一个关联规则的支持度为:
支持度=同时符合条件谓词和结果谓词的元组数/符合条件谓词的元组数。
实体表中的某一个属性值是否为真,或者关系表中某一种关系是否成立均可以转换为一种谓词,然后根据所关注的谓词和相应的形式,过滤出那些支持度小于最小支持度阈值的谓词组合,得到符合要求的关联规则。
基于ILP 的技术挖掘多表关联规则的典型算法有WARMR 和 FARMER。这类算法使用逻辑原子的方式取代Apriori算法中的项集,使用基于逻辑的DATALOG数据查询语言实现对数据的演绎推理,通过分层迭代的方法找到大于阈值的候选集合关联规则。以WARMR算法为例,该算法采用宽度优先的分层方法查找频繁Prolog 查询,首先使用具体化算子和剪枝操作层层迭代产生候选项集,然后通过计算候选查询的支持度确定频繁项集,整个迭代过程持续到没有新频繁查询出现时终止。基于ILP的多关系关联规则分析算法具有更强的知识表达能力与更大的搜索空间,但在查询速度优化和海量数据处理能力上还有不足,近几年来已经有一些性能更高、伸缩性更强的方法被相继提出。
4. 推荐的产生
通过不同层次的关联规则挖掘之后,即可以根据情境会话的状态对学习者产生推荐。推荐的产生是以“支持—置信”为基础的,首先根据不同推荐内容的需要进行数据清理,过滤掉一些相对稀疏的数据和冷门的学习资源,然后根据关联规则的支持度和置信度等参数和相应的阈值进行剪枝,把低于最小值的规则扔掉,最后按照置信度降序排序,Top-N即为当前情境最合适的学习资源。基于情境感知的关联规则的挖掘最重要的是数据粒度的合适程度,并非数据粒度和分辨率越高效果越好,因为情境会话或者学习资源的分类如果过于细致,容易造成数据过于稀疏,数据干扰较大,在数据挖掘时无法形成有效的数据关联。
六、模型的局限性和适用范围
在数据挖掘的各类关联分析方法中,多关系关联规则的提取是比较重要的一种无监督学习方法,关联规则的发现也是整个算法流程中最为关键且最耗时的步骤,因此,使用该模型形成个性化推荐有一些前提条件以保证数据的可靠性和准确性。
1. 在处理数据前,需要保证对业务逻辑和数据关系的充分理解以及明确目标规则提取的范围,设定合理的支持度等查询参数大小。由于关联规则的提取是无监督的,使用DATALOG数据查询语言对数据的演绎推理能够发现满足条件的关联规则,但它不能判定关联规则的实际意义。在系统分析提取的关联规则当中,可能出现主观上认为没有多大关系的数据,它们之间的关联规则支持度和可信度却很高,这需要数据分析人员具有足够丰富的业务经验对数据有深入的理解,从各个角度判断不同关联规则内在的合理性;反之,可能有主观上认为关系密切的物品,结果却显示它们之间相关性不强。只有很好地理解业务逻辑和关联规则的意义,才能合理地调整支持度和可信度等相关参数,提高关联规则数据分析的准确性。
2. 在处理大数据时,DATALOG数据查询算法的效率仍有待提高。与传统数据挖掘比较,多关系数据挖掘要搜索的假设空间变得更大,模式语言强大的表达能力使它相对于数据库查询语句需要花费更高昂的计算代价。目前,虽然也有一些分布式的并行计算方法,但由于数据的分区通常是不对称的,如何克服分布式计算间的数据传输效率是一个亟待解决的问题。本文采用了聚类方法尽可能地提高模型处理大规模数据和高维数据的能力,但是现实数据通常是很复杂的,会有数据噪声的产生,即在一组数据中无法解释的数据变动和一些不和其他数据相一致的数据。因此,如何有效地消除噪声的影响,提高处理现实数据的能力,还有待进一步提高。
3. 关联规则与其他推荐算法的融合及比较。数据分类、关联规则挖掘和推荐算法之间有一些基本的差别,关联规则不涉及预测,也不用提供防止低于或超过给定支持度的机制。然而,如何将关联规则与其他推荐算法进行融合,扬长避短,解决传统算法无法解决的实践问题,也是有待研究与探讨的。
七、结语
本文探讨了个性化学习资源推荐中的情境作用机制,明确了情境感知特征要素的类型和特征,梳理了直接情境和间接情境的转换过程。在情境感知的分析理论基础之上,提出了一个情境敏感的学习资源关联分析与推荐参考模型,并对其中的情境要素的数据处理、特征提取和规则分析等关键环节进行了深入的分析,探讨了如何将情境元素融入到各类资源推荐算法中。在以后的研究中,将围绕自适应个性化服务的用户模型和知识模型展开更深入的研究,探析动态环境下情境推理的方法等,并对具体的算法流程作进一步的实证研究和比较分析。
[参考文献]
白云龙. 2014. 基于Hadoop的数据挖掘算法研究与实现[D]. 北京:北京邮电大学.
宝腾飞. 2012. 面向移动用户数据的情境识别与挖掘[D]. 合肥:中国科学技术大学.
陈毅波. 2012. 基于关联数据和用户本体的个性化知识服务关键技术研究[D]. 武汉:武汉大学.
陈媛嫄. 2012. 基于活动的情境感知模型与情境感知交互设计[D]. 大连:大连海事大学.
何军,刘红岩,杜小勇. 2007. 挖掘多关系关联规则[J]. 软件学报(11): 2752-2765.
莫同,李伟平,吴中海,褚伟杰. 2010. 一种情境感知服务系统框架[J]. 计算机学报(11):2084-2092.
钱增瑾,孙东平. 2013. 数据挖掘在研究生教育管理信息系统中的应用[J]. 学位与研究生教育(5):46-49.
童恩栋. 2011. 物联网情景感知技术研究[J]. 计算机科学(4):9-16.
王卫军. 2015. 高校图书馆情景敏感服务及其情景模型构建[J]. 情报理论与实践(2):88-92.
魏欣楠,郝忠孝. 2009. 多關系数据库中的关联规则挖掘[J]. 自动化技术与应用(3):41-43.
吴鹏飞,余胜泉. 2015. 语义网教育应用研究新进展:关联数据视角[J]. 电化教育研究(7):66-72.
徐光祐,史元春,谢伟凯. 2003. 普适计算[J]. 计算机学报(9):1042-1050.
杨现民,余胜泉,张芳. 2013. 学习资源动态语义关联的设计与实现[J]. 中国电化教育(1):70-75.
赵宏,陈丽,赵玉婷. 2015. 基于学习风格的个性化学习策略指导系统设计[J]. 中国电化教育(5):67-72.
Premlatha, K. R., & Geetha, T. V. 2015. Learning content design and learner adaptation for adaptive e-learning environment. Artificial Intelligence Review: 1-23.
Rani, M., & Vyas, O. P. 2015. An ontology-based adaptive personalized e-learning system, assisted by software agents on cloud storage. Knowledge-Based Systems, (10): 33-48.
Schilit, B., Adams, N., & Want, R. 1994. Context-aware computing applications. IEEE workshop on Mobile Computing Systems and Applications: 85-90.
Wang Xiaohang, Dong Jinsong, & Chin, C. Y. 2004. Semantic Space: An Infrastructure for Smart Spaces. IEEE Pervasive Computing, 3(3): 32-39.