融合专家分类与情境语义标注的学习资源表征方法*

2019-06-12 06:27丁继红刘华中王永固通讯作者

远程教育杂志 2019年3期

丁继红罗寒刘华中王永固[通讯作者]

（1.浙江工业大学教育科学与技术学院，浙江杭州 310023；2.九江学院信息科学与技术学院，江西九江 332005）

在用户生成内容的Web 3.0 时代，海量内容涌现，用户渴求智能化、个性化的服务。个性化服务就是利用数据筛选、过滤技术，基于智能学习支持系统和知识服务工具，根据用户偏好和所处情境，提供服务定制和精准推荐。精确灵活、方便快捷的学习资源表征，成为自适应、精准化学习服务的关键。学习资源表征是指借助符号、图形、文字等工具，将抽象的学习内容以可视化形式呈现和表达为具体的形态，以便知识传播和学习者理解[1]。智能学习需要结构开放、动态生成、持续进化的自适应学习资源[2]。有效、规范的学习资源表征方法，既能涵盖资源的内容特性，也能标识其适用情境，支持语义关联、内容聚合和情景推荐，适应情境化和协作性的学习需求。

为实现资源的跨平台共享、传播，国外专家相继提出了LOM、 SCORM 和IMS-LD 等学习资源元数据标准。我国教育部也相应颁布了基础教育学习资源元数据规范CELTS，为各类学习资源做了全面精细的模型定义。然而，这些元数据规范均只是一个概念上的模型，不涉及具体实现，较多地关注信息的形式规范和分类信息，不涉及学习资源的情境描述，因此，难以适应智能学习时代情境化服务之需求。

在“人—机—物”广泛深度互联的时代，人类群体作为最有灵性和能动性的主体，在万物互联的新生态中凸显出越来越重要的价值。基于群体编辑的维基百科、基于群体问答的知识共享、基于众包众享的共享经济、基于群力群策的群智科学等，都昭示着融合专家智慧与群体智能的未来趋势。在学习领域，也可以发挥群体智慧，在动态情境中对学习资源进行标注。加州大学旧金山分校（University of California，San Francisco）Gartner 实验室的研究发现，普通人标注的数据，可以用来训练医疗影像分析模型的结果。因此，本研究试图探索融合专家、用户，多视角地对学习资源的内容特征和情境内涵，展开多维度描述与探讨。

一、学习资源表示方法的相关研究

学习资源既包含承载信息的内容实体，也包含信息内容的逻辑结构[3]。学习资源的表征，遵循“资源共性信息归纳→相互关系抽取→模型构建”的流程，将资源内容、类属、适用对象、语义关联等进行教育性描述和技术性定义。学习资源的表征方式，影响着知识传播的效率和学习者获取资源的效果。

从技术层面看，当前使用较多的学习资源表示方法主要有：元数据、语义网、本体、XML、概念图、知识图谱等。元数据定义资源的内容、适用对象、获取路径和使用目的等相关数据描述框架，让学习者能迅速了解资源的内容和用途[4]。但专家提供的分类信息十分有限，即使是内容创建者提供的分类元数据内容，也普遍偏少[5]。

杨现民[6]从内容到学习活动定义了资源的描述框架，提出了生成性学习元信息模型。然而，元数据大多由专家商定，基本不随时间、地点、学习者认知水平等学习情境变迁，做动态更新。语义网利用概念及其关系构成的网络来表征资源，有助于计算机识别，但要实现高效的信息共享和人机对话与协同[7]，就需要本体支持，否则会因为缺乏本体标准而导致多源数据融合困难[8]。本体以高度概括的方式，描述常识性概念及其联系[9]，能较好地实现资源共享和重用[10]，但本体实质是一套描述概念、属性及关系的抽象模型，唯有领域专家方能构造出本体。本体构造标准难以统一，甚至同一领域产生的本体也各不相同，因此，本体的跨领域联结能力较弱。

赵蔚等[11]利用领域知识构建概念本体间的语义关系表征资源。但现有的本体库大多基于单一学科构建知识本体，缺乏从学科融合的视角进行本体拓展[12]，只能揭示规则性知识等显特征，难以揭示情境、文化等隐特征[13]。这与当前倡导通过学科融合，培养学生高阶思维和复杂问题解决能力的理念相背离。

XML 作为语义网的另一项重要支持技术，重点在于描述资源的结构信息和实现底层数据的存储和传输，从而能独立于应用程序对网络资源进行统一表征[14]。概念图将特定主题的概念及联系表示为结构化、可视化图形[15]，能将内隐在个体或组织中的知识可视化的，但难以实现机器识别和语义计算。2012年，Google 公司构建了一套结构化的知识图谱，用来描述客观世界的概念实体及联系[16]。知识图谱包含模式层与数据层，其中，模式层由本体管理；数据层以语义网形式呈现，二者融合了本体与语义网的优点，但在多源知识融合方面仍存在缺陷[17]。随着分布式技术的发展，多用户协同标注学习资源的方式，较易形成被用户接受的资源描述[18]。然而，用户词表的随意和不可控，也导致了该方法存在着技术瓶颈，具有一定局限性。

综上所述，当前的资源表征方式可分为两大类：一类是专家主导的资源表示方式，典型代表有专家参与分类的元数据表征。事实上，其他多数学习资源的表示方法，都离不开领域专家的参与。比如，本体必须由领域专家构建，才能尽量减少本体异构的问题；语义网需要专家确定核心概念并审核语义关系；概念图中概念间的上下位关系、类属关系，都需要专家审核与界定；知识图谱的模式层也都是由专家管理。另一类是用户主导的资源表征方式，典型代表是社会语义标注法，分布在各处的群体用户，通过网络协同对资源属性进行标注。例如，语义网中的节点和边的值，也完全由用户自主设计和定义；概念图中的概念及其关系多由用户定义；知识图谱中的数据层也依赖用户标注。

进入大数据时代，海量资源在急剧扩充，学习资源表征方法既要包含知识本身的内在逻辑、语义情境，也要描述学习资源的技术特征，才能使学习资源的教育内涵和技术规范都得以体现，仅依靠专家难以应对Web 3.0 时代的精准知识服务需求。因此，一方面，要依靠专家智慧，在模型层面构建学习资源元数据、规范表征框架；另一方面，需要结合群体智慧，在数据层面标识学习资源对象的特征，便于学习者对知识的吸收与掌握，提高资源的可消费性。

二、专家分类与情境语义标注的融合表征机理

剖析上述学习资源表示方法，本研究提出协同专家、用户，实现规范化、个性化的学习资源表征形式。专家主要提供宏观指导和框架规范；用户则在专家规定的框架下，基于自身学习体验和认知视角，对资源特征进行细粒度刻画。专家、用户跨主体协作体现了个体智慧和群体智慧的协同，领域专家限定资源可以标注的维度和取值范围，不同知识背景的用户，根据各自的理解和认知对资源进行标注，促使专家和用户之间开展广泛、多元的协作。专家、用户协同是自上而下的权威严谨，与自下而上的民主活泼的融合，体现了草根智慧联结专家智慧的理念。

（一）专家分类与情境语义标注表征的特点分析

专家分类数据，通常也称之为元数据或诠释数据[19]，学习资源的专家分类元数据，基本都包含内容描述、格式信息、知识产权声明等模块。在“资源愈来愈多，获取越来越难”[20]的信息过载时代，专家分类元数据提升了资源的搜索、发掘和组织能力[21]，不仅可用于资源描述、识别、评价，也能用于追踪资源在使用过程中的更迭和转化。然而，这种以分类号、主题词为索引的线性、固定的资源组织方式，不利于学习资源的动态关联与多向交互。此外，分类元数据主要依赖于学科专家的确定，具有准确度高、权威性强的优点；但资源的元数据描述一旦确定便很难随意改变，因此，更迭周期较长。针对专家元数据只能对学习资源的普适性特征进行类别性描述，存在无法深入描述学习资源的使用情境的缺点，本研究试图从学习资源的具体使用情境和用户学习体验，来描述资源特征，以丰富学习资源的描述框架。

添加学习资源的使用情境，能够扩充资源的描述框架。人工智能专家巴威斯（Barwise Prize）[22]认为，只有引入情境，才能想充分理解自然语言的丰富内涵。同样，要充分理解学习资源的丰富内涵，也需要引入情境。用户、资源和情境是构成学习的要素。因此，为达到精准、个性化教育服务，在资源表征时，需要获取用户、资源、情境之间的交互关系并进行语义标注。而社会标注是一种获取情境语义标注的有效方式。该方式通过广大用户的亲身学习体验，采用活泼的语言来描述学习资源，不仅可以多维度揭示学习资源的内涵，还可以结合情境进行资源聚合。

这种通过集体协作参与的社会情境语义标注，能广泛、深入地获得与资源相关的情境语义信息。比如，在对资源的难度进行描述时，传统的学习资源元数据，通常利用难度系数对题目的难易程度进行抽象、精确、客观的数字化描述；但如果是非专业人士，就很难懂得难度系数的涵义，即使懂得难度系数的涵义，也无法知晓题目难在何处。这种数字化的难度定义，远不能描述不同类型学生在答题时的心境和感受。而如果用户采取如下标注，则可以使题目显得更直观、具体、形象，对学伴更具有参考性：“题目较难，综合考察欧姆定理和并行电路相关知识，需要仔细审题”。增加了情境信息的学习资源描述，能直观形象、细粒度刻画资源。然而，自由随意的用户标注词表，容易导致语义模糊、逻辑混乱等问题。而且，用户的知识层次和专业背景各异，也会导致标注信度、精准性参差不齐，需要进一步规范标注维度和框架，并采用合适的技术进行语义控制。综上可见，专家分类和情境语义标注各有所长，能形成优势互补。

因此，本研究针对专家元数据分类方式，对情境语义标注方式的表征视角、标注更新时长、关注点以及表征质量四个维度进行对比，如表1所示。

表1 专家分类与情境语义标注表征资源特点分析

对比结果显示，专家分类一般比较权威、准确，但缺乏从用户视角来描述学习资源在使用过程中的情境特征；新兴的情境语义标注方法能全面、高效地标注资源特征，但缺乏语义控制和语义层次管理。如果能够有效地融合这两种标注方式，便可以实现对资源进行多维度、精准性的描述。尤其在多学科融合的教育背景下，培养创新型人才的STEAM 教育理念逐渐深入人心，学科知识间的界限逐渐模糊，跨学科资源的应用场景被加以延伸。突破线性组织的元数据框架，构建专家和普通用户协同参与资源表征方式，从不同学科视角和学习体验来描述资源，有利于低成本、高效率、多维度的资源动态表征。情境语义标注，综合描述资源的自然属性、使用情境和语义关系，有助于挖掘资源间的情景关联，提升资源聚合水平。此外，情境语义标注，还能克服元数据只能描述非结构化学习资源（如，动画视频、音频材料等）的总体特征，而无法细粒度刻画其内容属性、语义关系、学习境脉的局限，使用户能从其学习体验来深层理解学习资源，并对非结构化学习资源进行精细反馈和个性化评价。

（二）专家分类与情境语义标注的融合表征机制

如前所述，专家分类能提供权威的资源描述框架，社会情境语义标注能在短时间内获得大量标签。虽然，情境标注具有高效率、低成本的优势，但质量却是其短板。在语义上，主观的情境语义标注和标签词汇的随意性，会导致标签语义模糊；在结构上，自由的标注方式，容易造成标签体系层次混乱，不利于标签聚合；在形式上，无序的标签形式，极易造成标签冗余。根据互补增值原理，结合自顶向下的元数据与自底向上的社会标注方法，达到对资源的立体化描述，是一个有效的解决方法。

本研究提出基于专家元数据、情境语义标注的融合表征方法，如图1所示。首先，构建基于专家分类元数据的学习资源组织框架和描述规范，限定可对学习资源进行标注的属性和取值范围，对于框架中可直接定义的静态属性，直接填充专家建议的标签和取值；其次，针对定义复杂、动态变化的特征属性，广大用户可从学习资源的使用情境、内容特征和文化境脉等方面，协同构建学习资源的情境语义标签，形成多维度、跨情境的学习资源描述，以便资源的共享传播和利用；再次，基于协同标注结果，筛选出高频标签，根据标签之间的语义关系构建标签关联矩阵，导入社会网络分析软件，进行凝聚子群分析和互惠子群分析，将扁平、发散、模糊的标签词汇聚合，收敛为层次清晰的标签体系；最后，根据标签语义聚合结果和标签层级体系，新增、重组元数据，修正学习资源的表征模型，重构学习资源特征框架。

图1 专家分类与情境语义标注的融合表征机制

该模型的四个阶段以专家元数据为指引，引导大众群体智慧进行标注，然后，利用机器智慧进行分析，重组出新的元数据。这四个环节构成了一个不断更新的循环，意味着对学习资源属性的描述在不断完善。联结了专家智慧、群体智慧和机器智慧的“人—人协同、人—机协同”工作模式是该模型的核心，也体现了“人—机—物”广泛互联的思想内涵。综上可知，专家、用户协同的描述方式，丰富扩充、动态更新学习资源的特征描述，梳理和完善了学习资源的描述框架。

三、融合专家分类与情境语义标注的学习资源表征

（一）融合专家分类与情境语义标注的学习资源表征模型

本研究从教育资源的内涵和外延出发，构建如图2所示的“专家分类与情境语义标注的学习资源表征模型”。该模型涵盖了学习资源、学习者、情境三个核心对象。三个对象都包含静态信息（图2中灰色底纹所示）、动态信息。

静态信息由专家在构建元数据框架时进行初始化，也可由用户在学习过程中，根据学习体验进行标注。动态信息从学习过程中产生，完全通过情境语义标注获得。学习者和资源的关系是“学习”，学习者和情境的关系是“处于”，这三个核心对象及其关系构建出一种“学习者在何种情境下学习了某学习资源”的真实学习情境。

图2 融合专家分类与情境语义标注的学习资源表征模型

1.学习者

根据我们前期基于德尔菲方法和解释结构模型构建的学习者模型[23]，本研究根据有意义学习的条件要素，遴选出最能影响学习者对学习资源语义标注的属性，包括基本信息、学习基础、情绪状态、学习同伴。学习者的学习基础反映其认知结构和能力；情绪反映其心向；同伴反映其人际支持。基本信息主要用于描述学习者相对静态性的特征，包括学段、专业、年级、性别；情绪状态描述学习者当前的心态和情绪，如“轻松、紧张、慵懒、焦虑”等；学习同伴描述学习同伴的类型，比如“朋友、同学、亲属”等；学习基础刻画学习者对某一知识点前序知识的掌握水平，如“应用、分析、理解、知道、不知道”等。

2.学习资源

学习资源本身的特征属性，构成其自然属性，学习资源给学习者带来的学习体验，构成其情境属性。为了全面地刻画学习资源，本研究通过借鉴我国基础教育学习资源元数据规范CELTS，遴选出最能体现学习资源特征的属性，包含基本信息和用户学习体验。基本信息主要描述学习资源的一些静态属性，比如，资源编号、名称、内容简介、关键字、媒体格式、资源类型、文件大小、编著者等；学习体验主要包含认知目标、适用学习对象、所属学科、建议学习时长、难易程度、学习策略、资源质量等。

3.情境

由于学习者和学习资源的属性中，已经包含了与认知情境和社会情境相关的信息，如，学习者的情绪、知识基础、同伴、学习体验等。因此，在物理情境这个维度，需要更多从布雷多克的教育传播要素中[24]，抽取出与环境有关的时间、地点要素，以及天气信息[25]。时间涵盖日期和时刻，也可让学习者添加情境化标记，比如，“考试前夜”等；地点包括位置场所（如，实验室、宿舍、图书馆等）和环境氛围（如，安静、吵闹）信息。天气主要包含天气和温度，表现为“阴晴雨雪”的描述和温度数值，也可让学习者补充具有特定含义的标记，比如，细雨飘洒、气温舒适等。

（二）融合专家分类与情境语义标签的学习资源表征方法

融合专家分类与情境语义标签的学习资源表征方法，主要包括几个过程：首先是专家创建元数据属性；然后是用户群体参与情境语义协同标注；再是利用聚合分析工具对情境语义标签进行梳理。

1.专家元数据属性创建

元数据通常由专家创建，每个元数据属性有其取值，属性值的确定受限于描述规则，并影响资源特征的揭示程度。参照国内外的元数据技术规范，本研究将学习资源元数据，定义为包括知识点编号、名称、内容简介、关键字、媒体格式、资源类型、认知目标、建议学习时长、难易程度、文件大小、所属学科、适用对象、学习策略等元素属性，如表2所示。同时，建立元数据进化机制，这意味着元数据框架，可以随着标注结果进行拓展和更新。

表2 学习资源的专家分类元数据表

2.用户情境语义协同标注

进入移动学习时代，学习资源的使用情境是动态变迁的，我们可以通过用户社会标注、无线传感器跟踪，以及基于位置的服务系统记录，来捕获具体的情境特征。具体而言，通过朋友圈信息、传感器获取的时间、地点、位置等信息，可以综合该学生的专业、年级、学段、性别等档案信息，以及学生主动标注的具体情境描述，如，“考试前夜，皓月当空，天气寒冷，一个计算机专业本科大二男生在安静的图书馆，边记笔记边紧张地观看着一段《数据结构》教学视频，该视频是严蔚敏老师制作的一段‘线性链表及应用’的优质微课，难度适中，时长大约20 分钟，适合对此概念有一定理解的学生边听边练。”再通过这些信息构建学习资源实例模型，如图3所示。并根据对该情境描述为该学生推荐适合的资源和适配的学伴。

图3 专家分类与情境语义标注的学习资源表征模型实例化

3.情境语义标签分析聚合

对于相同的学习资源，所处不同情境的学习者，采用的标签也不尽相同。比如，在学习《数据结构》教学视频时，不同专业、学习基础、理解层次、情绪状态的学习者，将产生多样化、多维度的标注结果。在情境语义标签的分析聚合阶段，要根据标注结果的类型进行分别处理。其中，对于数值型标签，需做如下处理：（1）将数据导入到SPSS 软件，利用箱线图探索出异常值，并将异常值删除；（2）使用SPSS 软件进行聚类，再选取各类簇的中心点数据来代表各簇的属性值。对于文字型标签，需做如下处理：（1）提取标签名称、评价总次数，将各标签分别进行词频统计，剔除无用、冗余标签，截掉低频标签；（2）根据高频标签中每两个标签的语义关系，编制标签邻接矩阵；（3）利用社会网络分析工具（如，Ucinet，NetDraw，Pajek，Net-Miner 等），依据群聚性和关联性指标，将标签划分成不同凝聚子群；（4）借助可达性、距离等指标，解析凝聚子群的逻辑架构，识别重要标签和关联关系；（5）通过标签间语义关联关系挖掘、消解模糊语义标签，实现标签的规范化、层级性管理，同时新增、重组元数据。

四、融合专家分类与情境语义标注的学习资源表征效果验证

（一）实验设计与实施

为验证融合专家分类与情境语义标签的学习资源表征方法的有效性，我们在其主讲的《数据结构》课程中，设计了25 道不同类型的课堂练习题目，选取40 位正在学习该课程的大二学生，让他们在课堂答题的同时，根据自身所处认知情境、知识掌握水平以及自己在审题时的理解，认真标注各题目的各个属性。题目标注所采用的分类元数据框架，由学科教师和认知诊断专家定义，主要包含题目考查知识点、知识点对应认知目标、题目难度、考查能力、题目类型、适用对象、解题策略、学生答题时情绪状态等属性。由于学生在答题时，首先要仔细审题。因此，课题组让学生在答题的同时，对题目各个属性进行标注较为合理。每个学生在答题的过程中，会由于其知识基础和情绪状态等不同，而产生不一样的情境化标注结果。

具体实施过程如下：（1）课题组教师结合学科专家和教育测量专家提供的分类元数据框架，确定最终的元数据属性：知识点、难度系数、考查能力、题目类型、答题时长、适用对象、答题策略，同时将这些题目都上传到移动学习平台；（2）针对要标记的属性（比如难度系数、认知目标）在课堂上对学生进行培训和预演；（3）每位学生在答题的同时，针对各题的相关属性进行自由标注，为了保证标注效果，课题组予以学生充足的答题时间和标注时间；（4）数据收集和预处理。

（二）效果验证及分析

根据数据类型的不同，可将收集的标注结果分为两大类，一类是文字型标签；另一类是数值型标签。难度系数和所需学习时长等属性为数值型标签，其他属性均为文字型标签。为验证本研究提出的融合专家分类与情境语义标注的学习资源表征方法的效果，本研究对所收集的两类标签数据进行分别验证。

1.数值型标签一致性检验

针对采集的数值型标签数据，实施标注准确性验证。首先，根据题目的实际正答率，利用校正难度系数计算公式CP=K×P/（K-1），获得校正难度系数作为参照指标。其中，CP 代表校正难度系数，它是题目难易程度的真实反映，P 代表实际正答率，K 代表选择题的选项数。然后，再进行统计验证，具体统计方法和结论如下：（1）学生标注的难度系数与校正难度系数单样本T 检验，发现二者没有显著性差异；（2）各题被群体标注的答题时间和该题实际答题时间单样本T 检验，发现二者没有显著性差异；（3）随机抽取两组成绩水平相当的学生，对25 道题的难度系数和答题时间进行标注，采用独立样本T 检验，发现成绩水平相当的学生，标注各题的难度系数和答题时间没有显著性差异。结论（1）和（2）表明，学生群体对学习资源的标注，在整体上能较为准确真实地反映学习资源的数值型特征，这说明即使是普通的标注者，当标注者达到一定数量时，也能达到高质量的标注结果。结论（3）则表明，情境特征相似的人群会产生相似的标签。

学业成绩不同的学生在数值型标注精准度方面的差异性检验，如表3所示：在40 名参与标记的学生中，剔除标注不完全、题目未答完的6 位学生之外。剩下的34 名学生各自的学业成绩（记为Zc），参照其当前所学《数据结构》课程的五次平时测验成绩并转换为Z 分数后（记为Za），与先修课程《C 程序设计》的期末成绩并转换为Z 分数后（记为Zb），加权计算得到，即Zc=Za×0.7+Zb×0.3。然后，将这34 名学生的学业成绩从高到低排序，按照各段人数占25%分为A，B，C，D 四等。其中，A 和D 组每组学生8 人；B 和C 组每组学生9 人。接下来，让他们标注25 个题目的难度系数，再与实际难度系数进行比较。采用ANOVA 分析法，统计结果如表3所示，这四组同学的标注结果与校正难度系数都无显著差异。参考胡竹菁教授[26]提出的单因素方差分析效应量的计算方法和评价指标，发现计算出0.0413 这一效应量偏小。这表明，A，B，C，D 四个分组之间的差异性比较小，即不同学业层次的学生所标注的题目难度系数没有显著性差异。换言之，在数值型标注方面，学生的学业成绩与其标注精准度之间并无直接联系，不论学生学业成绩如何，他们都能较好地根据自己的理解对题目的难度系数，进行恰当的描述。

表3 不同学业成绩学生标注难度系数的单因素方差分析

2.文字型标签语义密度检验

针对采集的文字型标签，我们采用词频分析发现，各题的高频标签基本能达到学科专家级的概括。相较而言，学生使用的词汇更活泼、更富情境性、更侧重从学习体验方面进行描述。为验证学生标签的一致性，从25 道题目中，随机抽取1 道题目，查看学生对该题所考察知识点的标注结果。采用词频分析结果发现，34 个标签中有21 个是“退栈条件”，所形成的标签云图如图4（a）所示。采用Ucinet 进行网络密度分析，发现这34 个标签所构成的语义网，密度平均值为0.8343，标准差为0.3718，这说明这些标签构成的网络密度较高，标签间关联关系较强，标签之间的联系较为均匀。用Ucinet 执行可达性凝聚子群分析结果，如图4（b）所示，发现标签基本分为两大簇，其中一簇是“基本概念”；而另外一个簇从不同的维度，围绕退栈的概念和操作展开。针对这一结果，课题组咨询了有关学科专家。学科专家认为：“退栈”和“出栈”是同一意思的不同表达，退栈之前必须判断栈是否为空，“退栈条件”和“判空”是强相关的；而“栈的进出”是“栈运算”的一种，都在“栈顶”进行操作。因此，这些概念形成一个簇十分合理。通过该实验，我们发现，通过发挥群体智慧，挖掘出了许多隐含在题目中的信息，扩充了题干信息所承载的内容，从而重构了一个基于学习者理解的描述框架。在这个新框架中，相似的观点被聚集在一起形成强关联。

图4 社会标签云图和可达性子群分析结果

如图5所示，对比题型相同、难度不同的题目的标签网络，发现难度越低的题目，其情境语义标签网络更密集（较易题的网络密度均值为0.7048，标准差为0.4561；较难题的网络密度均值为0.2574，标准差为0.4372）。因为题目难度越低，更多学生能理解其内涵，分析其考查的知识点，因此，更多的学生能精准地描述题目的各项属性；相对而言，难度越大的题目，情境语义标签网络更稀疏。因为对于难度高的题目，只有较少的学生能够清晰地理解和分析题目的内涵，分析其考查的知识点，所以，多数学生对题目属性的描述相对模糊，采用的词汇比较分散，使得网络越发稀疏；对比难度相同、题型不同的题目，我们发现，客观题的情境语义标签网络比主观题更密集。学科专家认为，这是由于客观题的选项，已携带了题目部分特征属性，学生更容易以此为线索理解题目的属性。

为验证学业成绩不同的学生在文字型标注准确度是否有显著差异。对照学生的标注用词与日常表现并结合教师访谈，我们发现，学习态度越端正、学习成绩越好的学生，其标注所用词汇更精准，其标注内容对其他学习者的参照价值越大。因此，为了获得优质的标签信息，本研究建议在利用社会标签进行学习资源标注的实践中，可以尝试采用电子徽章或等级激励的方式，吸引用户提供高质量的标注，从而降低标注噪声。

图5 不同难度题目社会标签网络对比分析结果

五、小结

在智能化学习环境下，全面提取与准确表征学习资源特征属性，是提供个性化、情境式学习服务的前提。为实现学习资源的特征提取和关系聚合，本研究剖析了不同学习资源表征方式的优缺点，结合自上而下的专家分类方式与自底向上的情境语义标注方式，对学习资源特征进行刻画，再引入社会网络分析方法，对标签进行凝聚子群分析，重构学习资源特征的语义关系和层次结构。在专家分类的元数据框架下，我们结合用户情境语义协同标注的学习资源表征方式，以用户协同、情境融合的形式，达成对学习资源特征多视角、多层次的揭示和表征，并在课堂实验环节让班级的学生参与标注，从而验证了该方法的有效性。

研究结果发现：（1）对于数值型标注，学生标注的结果基本能够反映题目本身的属性特征，学业成绩不同的学生标注的结果，基本上没有显著性差异；（2）对于文字型标注，学生标注的结果基本能够反映题目本身的特征属性，但学生采用的词汇更加活泼、更具有情境性；而学业成绩不同的学生，在文字型标注结果的精准性方面存在一定差异，对难度不同的题目，获得的标注精准度也有差异。不难发现，标注结果直接反映了用户的行为态度和所标记内容的难易程度，可以作为用户分类和资源聚类的参考值。