数据挖掘在国际中文教育个性化学习中的应用研究*

2022-12-21 02:02潘毓昉
关键词:数据挖掘汉语个性化

潘毓昉, 赵 文

(1.四川大学 文学与新闻学院,四川 成都 610207;2.四川农业大学 都江堰基础教学部,四川 都江堰 611830)

一、引 言

近年来,因新冠疫情的爆发以及互联网教育的飞速发展,国际中文教育在线上教学、资源建设、平台研发等多方面都取得了长足进步,国际中文教育信息化建设正朝着“数字化、网络化、智能化”方向持续发展。但由于各个国家、地区之间存在较大的政治、经济、语言文化、硬软件设施等差异,因此国际中文教育仍存在发展不平衡,本土化进程较缓慢,教学环境、学习者个体教育程度差异较大等问题。

教育部2022年工作要点中明确提出实施教育数字化战略行动,要求“强化需求牵引,深化融合、创新赋能、应用驱动,积极发展‘互联网+教育’,加快推进教育数字转型和智能升级”。(1)中华人民共和国教育部.教育部2022年工作要点[EB/OL].http://www.moe.gov.cn/jyb_xwfb/gzdt_gzdt/202202/t20220208_597666.html,2022-02-08/2022-03-05.因此,在信息化时代背景下,满足日益剧增的多元化学习需求,适应汉语学习者个性化、自主化的学习特点,需要以学习者个性化需求为导向,发挥新技术辅助功能驱动国际中文教育数字化发展,实现个性化教育。

数据挖掘(DM:Data Mining)是“从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中人们事先不知道的,但又是潜在有用的信息和知识的过程。”(2)孙玉荣,罗立宇,黄慧华.数据挖掘在网络教学中的应用[J].现代教育技术,2009,(6).数据挖掘技术具有较强的学科交叉性,涉及数理统计、模糊数学、神经网络以及人工智能等领域,目前已广泛应用于大型信息化系统的海量数据处理。数据挖掘的主要方法包括概念描述、关联规则、分类分析、聚类分析、进化分析等。(3)毛国君.数据挖掘的概念、系统结构和方法[J].计算机工程与设计,2002,(8).目前,较多学者对教育领域的数据挖掘进行研究,主要集中于学习者模型构建(4)岳俊芳,陈逸.基于大数据分析的远程学习者建模与个性化学习应用[J].中国远程教育,2017,(7).、学习者成绩预测(5)吴青,罗儒国.基于在线学习行为的学习成绩预测及教学反思[J].现代教育技术,2017,(6).、教学评价与反馈(6)郑庆华.运用教学大数据分析技术提高课堂教学质量[J].中国大学教学,2017,(2).、可视化分析(7)黄昌勤,朱宁,黄琼浩,韩中美.支持个性化学习的行为大数据可视化研究[J].开放教育研究,2019,(2).、个性化学习研究等方面。其中个性化学习研究主要包含个性化学习服务研究,如杨丽娜等从设计、实施到评价三个层面构建了个性化学习服务体系(8)杨丽娜,魏永红,肖克曦,王维花.教育大数据驱动的个性化学习服务机制研究[J].电化教育研究,2020,(9).,姜强等基于APRIORIALL算法,在挖掘学习者学习行为轨迹基础上生成个性化学习路径(9)姜强,赵蔚,李松,王朋娇.大数据背景下的精准个性化学习路径挖掘研究——基于APRIORIALL的群体行为分析[J].电化教育研究,2018,(2).,牟智佳等在基于学习测评数据的个性化评价模型基础上设计了个性化评价工具原型(10)牟智佳,李雨婷,彭晓玲.基于学习测评数据的个性化评价建模与工具设计研究[J].电化教育研究,2019,(8).;个性化学习行为研究,如王改花等对网络学习者的行为特征进行聚类分析(11)王改花,傅钢善.数据挖掘视角下网络学习者行为特征聚类分析[J].现代远程教育研究,2018,(4).;个性化学习平台设计研究等,如李俊杰等借助教育大数据分析技术等搭建了基于自适应题库的个性化语言学习平台。(12)李俊杰,张建飞,胡杰,盛守卓.基于自适应题库的智能个性化语言学习平台的设计与应用[J].现代教育技术,2018,(10).

在国际中文教育领域,数据挖掘研究主要集中于数据库建设(13)郑通涛,曾小燕.大数据时代的汉语中介语语料库建设[J].厦门大学学报(哲学社会科学版),2016,(2).、教师发展研究(14)袁萍,刘玉屏.大数据时代国际汉语教师数据素养研究透视[J].民族教育研究,2020,(6).、语法研究(15)王玮,蔡莲红.关联规则在汉语词属性中的研究[J].计算机工程与应用,2001,(5).及教学方法研究(16)郑艳群.教学分析与教学计算:大数据时代汉语教学研究方法探新[J].国际汉语教学研究,2020,(2);郑艳群.汉语教学数据挖掘:意义和方法[J].语言文字应用,2016,(4).等方面。其中,已有学者将其运用到个性化学习研究中,如熊玉珍在分析汉语个性化学习需求及学习者个性特征的基础上,构建了基于测评技术的汉语个性化学习环境模型(17)熊玉珍.基于测评的汉语个性化学习环境的构建[J].电化教育研究,2012,(3).。总体而言,数据挖掘在个性化学习研究中的应用日渐广泛,然而在国际中文教育领域研究仍较为有限。鉴于此,文章基于国际中文教育学习者个性化学习需求,构建基于数据挖掘的国际中文教育个性化学习平台模型,探究数据挖掘在国际中文教育个性化学习中的应用,以期为不同国家、地区、民族的汉语学习者提供个性化服务,推动国际中文教育个性化、智能化、国际化发展。

二、国际中文教育个性化学习数据挖掘

(一)国际中文教育个性化学习

随着海外汉语学习者数量日益增加,学习者类型以及学习需求多元化、差异化问题日渐凸显,国际中文教育需要在教学资源开发,教学方法应用、教学平台建设等多个领域实现国别化、本土化、个性化发展。个性化学习主要是指“针对学生个性特点和发展潜能而采取恰当的方法、手段、内容、起点、进程、评价方式,促使学生各方面获得充分、自由、和谐的发展过程。”(18)李广,姜英杰.个性化学习的理论建构与特征分析[J].东北师大学报,2005,(3).国际中文教育个性化学习具体体现为学习对象的个性化以及学习需求的个性化。

1.学习对象个性化

除了国籍、年龄、性别、职业、民族等基本信息不同以外,汉语学习者之间在语言水平、学习动机、学习策略、学习风格等方面同样也存在较大差异。跟基本信息不同,语言水平、学习风格等数据较为动态,会随着时间发生改变。因此,利用数据挖掘技术分析汉语学习者在学习中所产生的动态数据,有利于较为全面地掌握学生的个性化学习特征以及预测其学习行为。

2.学习需求个性化

不同国家、地区、民族汉语学习者需求多样化,具体体现在学习目标、学习资源、学习内容、学习兴趣、学习计划、学习方法等方面。

(1)在学习目标上,汉语学习者既有可能以学历或就业为需求导向,同时也可能出于爱好和兴趣等原因,不同的学习目标将会影响学习内容、学习资源等方面的选择。

(2)学习资源按媒介性质可分为纸质资源和数字化资源;按类型可分为数字、文字、图片、表格、视频、音频等。首先,需要尽量满足不同学习者的个性化需求,提供针对不同母语背景、受众年龄、汉语水平、学习方式、学习风格的资源;其次,加强学习资源建设,尤其是数字化资源,如教材、慕课、微课、中文教学软件、线上学习及资源平台等,以此拓展学生学习渠道;最后,资源的形式应依据学生的感官偏好多样化呈现,提供包含多种模态及媒体资源。

(3)学习内容按语言技能可分为听说读写;按语言要素可分为语音、汉字、词汇、语法;按等级可分为初级、中级、高级;文化知识类包括汉语的文化因素、中国基本国情和文化背景知识等;特殊用途类可分为商务汉语、科技汉语、旅游汉语、医用汉语等。根据学生个人学习目标应开设不同的教学课程,首先,学习内容的安排基于学习者的学习目标和需要应有所偏重,如针对短期来华的汉语学习者,需更重视听和说技能的训练。其次,满足不同学习者的学习需要,提供多种“中文+职业技能”课程内容,如“中文+医学”“中文+旅游”等。此外,不同国家、民族的汉语学习者不仅对汉语学习内容需求不同,对于中国文化的学习需求同样存在差异,同一文化需根据不同学习者的汉语水平进行分层次教学。最后,个性化的学习内容还需强化学习者的弱势学科和技能。

(4)在学习兴趣上,学习者感兴趣的内容包含学习内容、教材、教师等不同方面,应尽量满足不同国别、不同汉语水平的学习者兴趣偏好。

(5)在学习计划上,汉语水平等级、课程类型以及个人学习安排的不同导致学习者的学习进度呈现差异化,应尽量符合学习者当前的认知能力和汉语水平等级,并跟随学生的动态变化及时调节。

(6)在学习方法上,汉语学习者具有不同的学习策略和手段等,如在汉语写作课程中,有的学生偏向基于大量练习来提高写作,有的偏向在教师讲解后或在大量阅读基础上进行写作等。因此满足学习个性化需求应提供多种学习方法,实现学生的个性化发展。

(二)国际中文教育个性化学习数据处理流程

系统深入地探究汉语学习者的个性化学习特征,为学生制定个性化学习方案,推送个性化学习资源,提供个性化学习服务,需要充分利用现代信息技术,特别是数据挖掘,以此实现对学生动态学习过程中产生的数据进行深层次地分析和利用。国际中文教育个性化学习的数据处理分为数据采集、数据预处理、数据挖掘、结果分析四个过程(19)李剑波,李小华.大数据挖掘技术与应用[M].延吉:延边大学出版社,2018:12~16.,流程如图1所示。

图1 国际中文教育个性化学习数据处理流程

1.数据采集:采集线上、线下课堂以及各学习平台上汉语学习者的数据,数据可通过文字、音频、视频等多种形式呈现。国际中文教育个性化学习数据主要来源于两方面,一是学习者的基本信息数据,二是学习数据,各类具体数据内容见表1。全面系统的数据收集是数据挖掘的基础,收集到的数据一方面是进行学习分析的依据,同时也是提供个性化服务的重要来源。

表1 数据类型

2.数据预处理:对收集到的数据进行整理,清除无用的、不完整的、不一致的数据,确保数据真实有效。数据预处理包括数据集成、数据清理、数据变化、数据简化等。(20)刘明吉,王秀峰,黄亚楼.数据挖掘中的数据预处理[J].计算机科学,2000,(4).

3.数据挖掘:运用关联规则、聚类分析、统计分析、频繁访问组等方法对汉语学习者数据进行挖掘。

4.结果分析:通过以上的数据分析得出结果,并将结果以可理解、可视化的方式呈现。通过结果分析,我们可以较为直观看到学生的个体学习特征及学习偏好,比如有的学习者口语流利但是写作较差,有的学生很难发准某个声调,有的学生经常在某类词或句型产生偏误,有的学生难以分辨相似词语之间的差异,有的学生对图像比对文字更灵敏等。

三、基于数据挖掘的国际中文教育个性化学习平台模型

国际中文教育个性化学习面临的主要挑战就是如何因人而异有针对性地提供差别化的课程安排和教学内容,目前流行的教育模式,包括网络教育系统和远程辅助教学系统,大部分是以传统教学模式为基础,难以满足信息时代学生的个性化学习需求。信息化和云计算平台技术的发展,特别是数据挖掘的实际应用,为个性化学习这一目标提供了强有力的技术支撑,为实现个性化学习提供了可能。

基于数据挖掘的具备个性化学习功能的学习平台是在原有信息化系统的基础上,增加数据挖掘处理和个性化服务等功能,在有效提取、分析国际中文教育汉语学习者产生的学习数据基础上,以个性化学习及二语习得相关理论为指导,以学习者信息库、教学资源库、测试资源库等为支撑,利用数据挖掘技术,运用教学策略,构建能够有效反馈学习数据的个性化学习平台模型,制定学习者个性化学习方案,以期为学习者提供高效的个性化服务,提升汉语学习者的汉语水平和学习能力等。

基于数据挖掘的国际中文教育个性化学习平台模型采用三层架构进行设计,包含表现层、业务逻辑层、数据访问层(21)朱爱红,余冬梅,张聚礼.基于B/S软件体系结构的研究[J].计算机工程与设计,2005,(5).,如图2所示。

图2 基于数据挖掘的国际中文教育个性化学习平台模型

1.表现层主要是个性化学习平台的功能展示。学习者在个性化学习平台进行自主学习、开展学习活动及进行测试等。

2.业务逻辑层主要功能是对数据进行分析,为个性化学习平台的构建提供技术支撑。主要分为数据挖掘、个性化服务以及教学策略。

(1)数据挖掘。数据挖掘指运用相关技术对学习者在平台的学习数据进行挖掘和分析,并基于此数据为学生提供个性化服务。

(2)个性化服务。结合孙雨生的分类(22)孙雨生,于凡,郝丽静,等.国内基于大数据的个性化服务研究进展:核心内容[J].情报杂志,2017,(10).,将其划分以下四类:个性化定制,根据学习者需求设置系统,如个性化皮肤、网页内容和风格设置以及定制个性化学习方案。在平台系统的设计中可融合具备中国特色的文化符号,丰富学生感知中国传统文化的形式。个性化推送,基于推送标准或协议,由系统或人工基于大数据平台等,结合用户信息、需求及兴趣等构建并基于用户兴趣模型查找、分类信息,以E-mail传递、预约通知、Web、APP等形式分阶段、适度、主动地推送到客户端或浏览器并接收用户反馈以完善推送系统。(23)孙雨生,于凡,郝丽静,等.国内基于大数据的个性化服务研究进展:核心内容[J].情报杂志,2017,(10).进行个性化推送时注重内容的实时性和实用性,将实时热点与教学内容相结合,如新词新语的使用以及充分利用中国节庆或节气等。个性化检索是针对个人、群体、大众用户特征、需求、设置、行为,依托大数据平台构建个性化检索引擎,基于特定方法、技术分析用户实时、潜在需求,实时智能、低成本、精准对同一检索词返回不同结果并接收反馈且内嵌感情分析、语义联想、结果去重、邻近搜索、智能分词、数据库实时同步、用户隐私保护等功能。(24)孙雨生,于凡,郝丽静,等.国内基于大数据的个性化服务研究进展:核心内容[J].情报杂志,2017,(10).比如,初级学习者在检索教材时,面向初级的教材应在检索结果的前列。个性化推荐是针对数据进行个性化资源推荐,比如课程、教材、视频推荐等。需要注意的是个性化推荐应在系统分析学生动态学习行为的基础上进行,而不能仅以学习者兴趣偏好为导向。

(3)教学策略。教学策略为平台的教学设计以及个性化服务设置提供依据和方向。如在内容的推送上需要遵循语言习得的“i+1”的原则,根据汉语者的水平进行可理解输入;在学习内容的重现上需要结合语言习得的遗忘规律,可根据学习者个人识记时间、内容、数量、程度以及方式进行内容推送等。

3.数据访问层的主要功能是负责数据库的访问,对数据库完成增加、删除、修改、查询操作(25)李俊杰,张建飞,胡杰,盛守卓.基于自适应题库的智能个性化语言学习平台的设计与应用[J].现代教育技术,2018,(10).,主要包括学习者信息库、教学资源库、测试资源库、其他资源库等。

四、数据挖掘在国际中文教育个性化学习中的应用

(一)基于数据挖掘的国际中文教育个性化学习平台流程设计

图3 基于数据挖掘的国际中文教育个性化学习平台流程设计

基于数据挖掘的国际中文教育个性化学习平台流程设计具体如下:

1.输入信息和语言水平诊断。学习者登录平台后输入基本信息,基于平台提供的测试题库,进行语言水平测试。平台通过数据分析能初步了解学习者的学习能力以及目前的汉语水平等,为个性化学习方案的定制提供数据支撑。

2.构建个性化学习方案。个性化学习方案主要包含两个方面,一是学习者根据自己的学习目标进行个性化学习设计,如对学习资源、学习内容以及学习计划的设置等。二是平台在全面系统分析学习者个性化需求以及学习特征的基础上生成的学习者模型。基于以上两个数据,平台为学习者提供最优化的学习方案,如图4所示。根据诊断测试以及考察学习数据(分数、测试、作业、发言、汇报等)可以预估学习者目前的汉语水平;根据学习感官偏好、工具偏好、信息加工偏好等,可了解到学习者的学习风格,如学习者更喜欢视觉模态的内容呈现,在平台中可以适时增加以图片、视频、动画呈现形式的学习资源;通过抓取学习者的行为数据(资源下载、点赞、评论、分享、网页浏览、个人收藏等),可追踪到学习者的兴趣偏好;针对汉语水平及兴趣偏好等可初步制定学习资源、学习内容以及学习计划等。

图4 基于数据挖掘的个性化学习方案

3.推送个性化学习资源。基于生成的个性化学习方案,为学习者设计相关学习活动,推送符合语言水平、学习需求及兴趣偏好的学习内容。学习者的偏好及语言水平会随着课程的学习发生变化,因此提供的学习内容需在及时追踪和跟进学习者水平及兴趣爱好的动态变化的基础上进行更新与修订。

4.生成个性化学习数据。在学习的过程,学习者的认知偏好、认知能力、知识水平等是动态的,由此同样也会因学习阶段的改变、学习内容的加深生成最新的个性化学习数据。在该阶段,平台会依据学习进度对学习者知识掌握情况进行过程性评价和总结性评价,并在此基础上调整相应资源推送。同时,学习者根据测验结果也可自主调整学习内容、学习计划以及学习方式等。

5.进行个性化学习监管。个性化监管是针对不同学习者的学习情况和状态设定不同的干预程序,然后依据学生个人具体情况,运用技术进行不同程度、形式的监督和管理。平台基于生成的最新学习数据,一方面可以有效地对学习者进行个性化学习监管与干预,如对学生的学习时间、学习侧重点进行提示,给出个性化学习建议等。另一方面生成的数据是平台优化个性化学习方案的重要来源,根据学习者的目前的知识水平修改个性化学习方案,对学生薄弱环节进行巩固练习,对有难度的知识点进行强化训练,减少已掌握内容推送等。如因受母语和目的语的干扰,日本学习者在学习汉字时就需要加强汉语汉字词和日语汉字词的辨析等。

(二)数据挖掘技术与具体应用

数据挖掘技术通过对不同学习者课堂学习数据、访问的学习平台留下的登录信息、日志文件等的挖掘分析,能够找出潜在的学习模式与特征,了解学习者的学习风格和偏好,归纳学习规律及预测学习趋势。其中,统计分析、关联规则、频繁访问组、聚类分析等是数据挖掘常用方法。

1.统计分析

统计分析是数据库处理数据的最基本功能。通过统计分析方法,可以统计学习者各类作业、测试以及语音、语法、词汇、汉字等语言要素中出现偏误较多的知识点,如统计出学生最难发的音调、最容易混淆的词汇、最易错的句型等。同时,在国际中文教育个性化学习平台中,将学习者的访问课程、停留时间、学习时长、点击次数以及不同时期该平台所呈现的访问特点等数据,与学习测试结果中的成绩分布相结合进行技术分析,可以剖析学生的学习特征并预测学生偏误等。

2.关联规则

“关联规则是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合中间的频繁模式、关联、相关性或因果结果,通过分析数据或记录间的关系,决定哪些事情将一起发生。”(26)李芳,王恒山,吕丽娟.关联规则在教学管理决策支持中的应用[J].上海理工大学学报,2005,(3).利用关联规则进行数据挖掘,可以分析出两个或两个以上数据之间的潜在关系,提取数据之间的相关性。

首先,关联规则的应用有利于掌握汉语学习者的动态学习特征。借助关联规则技术挖掘学生在汉语学习过程中练习、测试中产生的大量数据,分析产生的偏误与学习者之间的关系,提取偏误与其背后知识体系的关联及产生原因,找到学习者掌握不足的内容,这便于及时调整个性化学习方案,重点巩固学生薄弱知识。因此,在国际中文教育个性化学习平台中需及时增加学生应该巩固的相关知识点,达到及时复习的效果。

其次,关联规则的应用能够聚焦学习者学习兴趣,优化教学设计。关联规则能够挖掘汉语学习者浏览的路径(如网页、软件等)以及关注、下载、收藏、评价内容等之间的关系,从中不仅能够推断出学生重点关注内容和兴趣偏好,同时可以获取不易发现或关注度较高的学习资源,如点击率较高的内容、网页、平台等,从而扩充整合可利用学习资源,改进教学设计等。因此,在个性化平台中可以添加关联度较高的高点击率或高关注度的相关学习资源链接,为学生提供便捷服务。

3.频繁访问组

频繁访问组是指确定哪些页面是汉语学习者经常访问的,即构成用户频繁访问的页组。比如,学习课程《当代中国话题》的学生对该课程的部分内容感兴趣,就会频繁访问相关内容,通过对频繁访问的路径进行分析,可以掌握学生感兴趣的学习内容,这有利于补充满足学生兴趣偏好的课程内容。同样,国际中文教育个性化学习平台也可以将学习者频繁访问的链接地址在平台中保存,方便学习者访问用户频繁访问网页组。

4.聚类分析

“聚类分析是一种根据研究对象的特性,由已知数据计算各观察个体或变量之间亲疏关系的统计量,从而对样本或变量进行定量分析的统计方法。”(27)刘坚,黄钰莹,颜李朝.课堂教学评价数据挖掘与分析[J].湖南师范大学教育科学学报,2019,(2).在Web访问模式挖掘中,聚类分析包含页面聚类和学习者聚类。(28)陈超.基于数据挖掘的个性化学习模式研究[J].电子设计工程,2013,(12).国际中文教育个性化学习平台中的页面聚类是:当具有相似汉语水平以及学习兴趣的学习者都集中于某一类型的学习资源或网站时,也可以为同样汉语水平等级以及兴趣偏好的学习者推荐相似内容。比如,不同国别、年龄、学历的汉语学习者对中国文化符号的认知以及所感兴趣的中华文化具备差异性,在追踪到某一群体的文化兴趣偏好的基础上,聚类分析可以将相似内容同样推荐给具备相同国别、年龄、学历等特征的其他学习者。学习者聚类主要是将具有相似访问行为的汉语学习者聚成一类,可将该学习平台上具备相同或类似学习特征的学习者聚类为一个学习社区或小组,并有针对性地设置和提供该学习小组感兴趣、有助于该小组巩固所学知识点的教学页面结构和页面内容,从而为这些学习者提供一个个性化的学习环境。

数据挖掘在国际中文教育个性化学习中的应用对汉语学习者、国际中文教育个性化学习平台的发展及建设有着重要意义和应用价值。汉语学习者可以清晰地了解自己的学习情况,认识到自己的优势和不足,优化自己的学习行为,提高学习绩效。个性化学习平台一方面可以较为清晰地掌握学生情况,洞悉学生学习特征和相关规律,预测学生学习行为,给予学生方法指导;另一方面同时可以基于数据及时调整个性化学习方案,提升学习效果。最后,数据挖掘技术在国际中文教育个性化学习平台建设中的应用,除了便于掌握学生的动态学习数据,更好地实现个性化服务之外,还为国际中文教育信息化平台的建设提供了路径参考,驱动国际中文教育智能化发展。

五、结 语

在“互联网+”时代背景下,如何整合利用海量数据与资源,为汉语学习者提供高效、实用的个性化服务值得进一步深入研究。数据挖掘等现代技术的运用是大数据时代教育发展的必然趋势,数据挖掘在国际中文教育个性化学习中的应用为发现更多潜在的数据与信息提供了有效途径,通过挖掘和分析数据之间的潜在关系,能够清楚了解汉语学习者的现状及动态发展,掌握学习者学习特征与规律,并根据学习者的个性化需求进行精准投放与监管干预,以此实现个性化教育。随着大数据、互联网、人工智能、云计算等现代信息技术的持续发展与广泛应用,将为实现国际中文教育个性化学习提供技术支撑,为国际中文教育智能化发展提供强大动力。

猜你喜欢
数据挖掘汉语个性化
学汉语
探讨人工智能与数据挖掘发展趋势
轻轻松松聊汉语 后海
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
坚持个性化的写作
新闻的个性化写作
追剧宅女教汉语
汉语不能成为“乱炖”
上汽大通:C2B个性化定制未来
一种基于Hadoop的大数据挖掘云服务及应用