韩 后 殷红岩 王冬青
儿童数字阅读个性化推荐服务的设计与应用*
韩 后1殷红岩2王冬青3
(1.华南师范大学 文学院,广东广州,510631;2.滕州市荆河街道河阳路小学,山东枣庄,277500;3.华南师范大学 教育信息技术学院,广东广州,510631)
随着智能终端的普及应用和数字出版行业的发展,数字阅读已成为儿童阅读的重要方式。在有限的数字阅读时间内,如何为儿童推送合适的图书是家长、教师与研究者共同关注的主题。然而,当前面向儿童的数字阅读应用大多基于阅读能力或图书主题推荐图书,存在推荐结果单一、未考虑儿童阅读兴趣随时间变化等问题。基于此,文章首先在分析儿童数字阅读特点的基础上,构建了基于隐式反馈的儿童数字阅读兴趣模型,然后选用时间依赖的协同过滤算法实现了儿童数字阅读个性化推荐服务,最后利用“寒/暑假阅读活动”验证了该服务的有效性。文章通过研究,期望为儿童数字阅读的个性化推荐提供一种解决方法,推动数字阅读走向智能阅读。
隐式反馈;儿童阅读兴趣;数字阅读;个性化推荐
《全民阅读“十三五”时期发展规划》提出少儿阅读是全民阅读的重点,要从小培养儿童的阅读习惯、阅读兴趣、阅读能力,提高数字阅读质量与水平[1]。其中,阅读兴趣是促使儿童阅读的心理动力[2],阅读兴趣度越高的儿童对阅读内容的回忆和理解程度越高[3][4]。随着互联网技术的快速发展和智能终端的广泛普及应用,数字阅读逐渐成为儿童阅读的重要方式[5]。在数字阅读过程中,如何为读者推送个性化阅读内容,已经成为实现阅读服务精准化的重要方向。
当前,面向儿童数字阅读的图书推荐主要有两种方式:①基于儿童阅读能力的评测结果为儿童推荐适宜难度的图书;②根据儿童选择的感兴趣的主题为其推荐同主题或同系列的图书。然而,这两种推荐方式存在推荐结果较为单一、没有考虑儿童的阅读兴趣或者默认儿童的阅读兴趣固定不变等问题,有悖于儿童阅读兴趣随时间变化而变化的规律。对此,有研究者发现数字阅读环境能够伴随式记录儿童的阅读行为过程数据,对这类数据进行分析能够对儿童的阅读倾向和阅读行为的变化做出准确判断[6],进而解决上述问题。这类数据在个性化推荐系统中被称为隐式反馈数据[7],而基于隐式反馈数据量化用户的阅读兴趣是图书推荐系统中常用的一种兴趣计算方法。基于此,本研究构建了基于隐式反馈数据的儿童数字阅读兴趣模型,设计了个性化推荐算法,并在自主研发的系统EreadingAD中实现了由两者组合形成的数字阅读个性化推荐服务。同时,本研究选取小学二年级的学生为研究对象,在“数字阅读活动”期间应用该服务为其推送阅读书单,通过调查与访谈发现该服务能够为儿童推送其感兴趣的数字化图书。本研究旨在为儿童数字阅读的个性化推荐提供一种解决方法,助力“数字阅读走向智能阅读”[8]。
本研究在分析儿童数字阅读特点及相关研究的基础上,从基于隐式反馈数据的儿童数字阅读兴趣模型与个性化推荐算法两个方面设计了儿童数字阅读个性化推荐服务,并将推荐结果以阅读记录卡的形式反馈给儿童,其流程设计如图1所示。接下来,本研究将详细阐述其中模型构建与算法设计的内容。
图1 儿童数字阅读个性化推荐服务的流程设计
用户兴趣模型是一种根据用户的行为和偏好建立的数学模型,它反映用户在一段时期内对信息需求的主要倾向[9]。儿童数字阅读兴趣模型是个性化推荐的基础,其构建过程包括数据采集、隐式反馈数据指标选取与阅读兴趣度量化三个环节。
(1)数据采集
儿童在阅读过程中生成的阅读行为数据(如点击开始阅读、收藏行为、分享行为等)能够更加准确地反映其阅读兴趣,这类数据可以通过分析数字阅读APP的日志数据获取。此外,在儿童数字阅读过程中,系统自动采集的数据还包括儿童的基本信息(如姓名、性别、所在年级等)以及数字化图书的基本信息(如图书名称、主题、页数等)。
数字化图书是集文本、图像、音频、视频和交互等多种信息于一体的多媒体读物[10]。由于儿童的自主学习能力尚未发展成熟,在数字阅读过程中容易被无关信息吸引[11],存在短暂离开、盲目翻页、误操作等行为,因此需要对采集的数据进行清洗,并在此基础上选取有代表性的数字阅读行为数据指标,以保证推荐结果的准确性。
(2)隐式反馈数据指标选取
隐式反馈数据是在用户没有察觉的情况下自动收集的用户偏好信息,受用户主观影响小且数据量大。本研究参考隐式反馈行为分类框架[12]并借鉴相关研究成果,从采集并清洗后的数字阅读行为数据中选取能够反映儿童阅读兴趣的隐式反馈数据指标。
隐式反馈行为分类框架将用户阅读文档过程中与文档、视频等对象的交互方式归纳为四类(包括检查、保留、参考和注释),每类行为包含若干行为亚类[13]。Kelly等[14]在此基础上新增了“创建”行为,并在原框架“检查”行为中增加了滚动、查找、查询和浏览等行为亚类。本研究聚焦检查(浏览)与创建两类儿童在数字阅读过程中经常出现的行为构建儿童数字阅读兴趣模型,通过浏览行为可以了解儿童是否开始阅读数字化图书、是否完整阅读、完整阅读的次数以及阅读数字化图书过程中页面的停留时间等,创建行为则关注儿童在阅读数字化图书过程中是否录音或上传作品。此外,封面点击次数、分享对于预测电子书的受欢迎程度也起到重要作用[15][16],其中分享有助于激励学生持续参与学习活动[17],为此需要关注儿童在数字阅读过程中的分享行为,如向朋友推送内容。最后,项目流行度偏差也是研究者构建用户兴趣度模型时考虑较多的因素[18],在构建儿童数字阅读兴趣模型的过程中,同样存在热门图书导致阅读兴趣相似度过大的问题,需要引入项目流行度权重因子(图书热门程度),降低热门图书对儿童阅读兴趣计算的影响,提高推荐的精准度。
综上,本研究选取8个隐式反馈数据指标构建儿童数字阅读兴趣模型,具体如表1所示。其中,C1~C5直接从用户行为日志中获取,C6~C8需进一步分析得到,取值范围与权重将在下文具体阐述。
表1 隐式反馈数据指标的类型、取值与权重
(3)阅读兴趣度量化
由于不同行为或相同行为在不同情境下能够表征的用户兴趣度不同[19],因此在选定表1所示的数据指标后,本研究采用加权统计方法对儿童数字阅读兴趣进行量化,如公式(1)所示。
①A6:完整阅读次数。完整阅读次数是预测电子书受欢迎程度的重要数据之一[20]。本研究通过对已采集数据的观察与分析,发现儿童对不同数字化图书的完整阅读次数集中在1~9次。因此,本研究将完整阅读次数不足2次的赋值为0,在2~9次之间的依次赋值为1~4,超过9次以上的赋值为5。
②A7:页面停留时间。由于篇幅较长的图书需要的阅读时间较长,加上不同儿童之间的阅读风格与阅读速度等存在较大差异,因此本研究关注某图书每一页的平均停留时间,并将儿童阅读数字化图书的平均页面停留时间T与儿童阅读所有数字化图书的平均页面停留时间T进行比较,以量化该指标。当T小于T时,赋值为0;当T大于或等于T时,赋值为1。
③A8:图书热门程度。通过对已采集数据的分析,本研究将所有数字化图书中完整阅读次数位于前15%的定义为热门图书,其余为非热门图书。通过“是否完整阅读”“是否为热门图书”两个因素,将图书热门程度量化为0~3四个水平。其中,0表示“未完整阅读/热门”,1表示“未完整阅读/非热门”,2表示“完整阅读/热门”,3表示“完整阅读/非热门”,以此提升非热门图书在儿童数字阅读兴趣计算中的影响。
个性化推荐算法的选择需要考虑推荐内容和用户特征。由于数字化图书的文本、图片、声音等内容特征提取难度较大,因此本研究选用不依赖内容属性的协同过滤推荐算法进行数字化图书推荐。考虑到儿童阅读兴趣随着时间推移与智力发展而改变[21],本研究在传统协同过滤算法的基础上,引入时间衰减函数,构成时间依赖的协同过滤算法,捕捉儿童阅读兴趣随时间产生的变化。
(1)时间衰减函数
由于儿童的阅读兴趣在短时间内相对稳定,而在一个阶段内时间的变化是非线性的,因此本研究借鉴牛顿冷却定律,将儿童对某本数字化图书的阅读兴趣看作一个服从指数衰减的自然冷却过程,可以表示为。其中,是阅读兴趣关于时间的函数,表示兴趣变化的速率,表示最低基础兴趣值,表示阅读兴趣与最低基础兴趣值的差值(正值),常数表示最低基础兴趣值与兴趣变化速率之间的比例关系,负号表示兴趣衰减。
当时,得到阅读兴趣的表达式为)e,e表示和时间有关的阅读兴趣衰减函数。本研究采用的时间衰减函数如公式(2)所示,其中t表示儿童对数字化图书产生阅读行为的时间;是时间衰减因子,其取值根据实际需要而定——取值越大,代表阅读兴趣衰减速度越快。
(2)时间依赖的协同过滤算法
为增加近期阅读行为的影响力,本研究在传统协同过滤算法的计算与预测相似度环节中加入时间衰减函数。融合时间衰减函数的协同过滤算法的实现步骤如下:
①构建儿童-图书兴趣度矩阵。首先应用公式(1),对儿童已经阅读的数字化图书的兴趣度进行量化。然后将儿童数字阅读兴趣模型映射为“儿童(U)-图书(I)”兴趣度(S)矩阵,S表示儿童对数字化图书的阅读兴趣度。
③预测儿童的阅读兴趣度。首先,从目标儿童的前个相似邻居阅读过的数字化图书集合中找出目标儿童没有读过的数字化图书集合,形成待推荐列表。然后,预测目标儿童对待推荐列表中数字化图书的兴趣度,引入时间衰减函数的计算如公式(4)所示。其中,表示儿童对数字化图书的预测兴趣度,表示儿童与相似邻居集合中第个儿童的相似度,S表示第个儿童对数字化图书的阅读兴趣度,表示儿童的相似邻居集合,表示喜欢数字化图书的儿童集合;t表示推荐的当前时间,t表示儿童对数字化图书产生阅读操作的时间。
④形成数字化图书推荐列表。将目标儿童对数字化图书的预测兴趣度按降序排列,并将儿童所在年级作为筛选条件,选择预测兴趣度高的前本数字化图书作为目标儿童的推荐结果。
本研究团队在自主研发的数字阅读行为数据可视化分析方法及系统(EreadingAD)中实现了基于隐式反馈的儿童数字阅读个性化推荐服务功能。EreadingAD能够从采集的原始数字阅读行为数据集中提取有用信息,并对提取的信息进行深入挖掘分析,最后将挖掘分析的结果通过可视化模块呈现给学生、家长与教师等用户[22]。表1中的C1~C5五类数据来源于一款教育类儿童数字阅读APP“WaWaYaYa+爱读”自动采集的行为数据,然后由EreadingAD按照图1隐式反馈数据指标的类型提取得到,C6~C8三类数据则由EreadingAD进一步计算得到。此外,EreadingAD实现了上文所述的个性化推荐算法,能够让儿童得到所需的数字化图书推荐书单。
为了解儿童对推荐书单的满意度,本研究以广州市天河区S小学的39名二年级学生为研究对象,在二年级暑假“数字阅读活动”(为期一个月)期间对其开展调查与访谈。在此之前,这些学生已经连续参与了一年级寒假、一年级暑假、二年级寒假三次“寒/暑假数字阅读活动”。每一次活动期间,学生均需在“WaWaYaYa+爱读”上自主完成50本数字化图书的阅读任务并参加教师组织的“读图书创编故事”“推荐喜爱的图书”等阅读活动。
EreadingAD基于前三次活动的阅读数据,预测这些二年级学生的数字阅读兴趣,并选取推荐结果的前20本数字化图书形成进行推荐书单。推荐书单以阅读记录卡的形式发放给学生,学生在“WaWaYaYa+爱读”中阅读数字化图书并在阅读记录卡中填写自己对推荐图书的阅读时长、阅读方式(家长陪读/自己读)、是否完成阅读、喜欢程度以及感知难易度等。其中,喜欢程度与感知难易度采用五级量表的形式评分,即1~5分别表示“非常不喜欢/非常难”“不喜欢/比较难”“一般”“喜欢/容易”“非常喜欢/非常容易”。结合学生阅读记录卡的填写情况,研究人员对未完成阅读或者不喜欢EreadingAD推荐的数字化图书的儿童进行访谈。阅读记录卡以纸质方式发放,共计发放39份,回收有效记录卡32份,有效回收率为82.05%。
(1)学生对已推荐的数字化图书的喜欢程度分析
研究结果显示,学生对推荐的20本数字化图书的平均阅读量为17.3本,对已阅读的数字化图书的喜爱程度均值为4.01,介于4(喜欢)与5(非常喜欢)之间。由此表明,学生对推荐的数字化图书的整体喜欢程度较高。本研究对11.35%选择“不喜欢”或“很不喜欢”推荐的数字化图书的学生进行访谈,发现学生“不喜欢”的原因主要有两点:①图书内容多少不统一。推荐书单中的部分图书内容较少,难以让学生获得阅读的满足感;部分图书内容较多,学生在阅读过程中容易失去耐心。②图书难度不统一。部分图书内容简单、难度小,学生阅读缺乏挑战性;部分图书内容难度大,学生难以坚持阅读。由于缺少数字化图书语言难度及思想深度的相关信息,学生阅读推荐书单的满足感也会受到影响,因此未来需要在分析数字化图书内容的基础上进一步优化数字阅读兴趣模型。
(2)学生对已推荐的数字化图书的感知难易度分析
难度适宜的图书能够激发学生的阅读兴趣。研究结果显示,学生对阅读记录卡中推荐的数字化图书的感知难易度均值为4.1,介于4(容易)与5(非常容易)之间。由此表明,学生认为阅读记录卡中推荐的数字化图书大多数比较容易阅读。尽管在形成推荐书单时,本研究已经根据儿童所在年级对推荐的数字化图书进行了筛选,但相同阶段儿童的阅读能力发展存在一定差异。未来可以增加儿童阅读能力测评模块,以更加准确地获取儿童的阅读能力水平,从阅读兴趣和阅读能力两个方面为儿童推荐更加适合的数字化图书。
(3)未完成推荐书单阅读的原因分析
本研究对阅读记录卡完成率低于50%的学生进行访谈,发现影响儿童阅读推荐数字化图书的原因主要是:家长限制儿童使用电子设备阅读数字化图书的时间,大部分儿童每天的数字阅读时长约为30~60分钟。尽管没有研究表明近视是由数字阅读引起的,但家长认为长时间使用电子设备进行阅读,容易对孩子的视力造成损害。由此表明,数字阅读活动的开展需要家校配合。另外,如何在有限的数字阅读时间内减少儿童查找图书、盲目翻页等数字阅读行为,提升数字阅读服务的精准性,是未来需要持续关注的问题。
在数字化图书资源随处可见但是家长限制儿童使用电子设备时间的条件下,如何准确了解儿童数字阅读兴趣的变化,并为儿童提供个性化阅读推送服务,是面向儿童的数字阅读的研究热点。本研究基于隐式反馈数据构建儿童数字阅读兴趣模型,采用时间依赖的协同过滤算法实现了儿童数字阅读个性化推荐服务,并通过应用实践验证了该服务的有效性,对教师引导下的儿童个性化阅读活动开展具有指导意义。然而,本研究还存在数字化图书内容数据采集不够全面、实践应用的样本数量相对较少等问题。对此,后续研究将在丰富数字化图书内容数据与引入阅读能力测评数据的基础上,进一步优化儿童数字阅读兴趣模型,为儿童提供更加精准的数字化图书推荐服务。此外,后续研究还将扩大实践应用的样本数量并结合儿童数字阅读APP记录的阅读行为数据,来进一步验证数字化图书推荐服务的有效性。
[1]国家新闻出版广电总局.全民阅读“十三五”时期发展规划[OL].
[2]汪全莉,陈邦.英语国家儿童及家庭阅读现状与启示——解读《儿童及家庭阅读报告》[J].图书馆杂志,2019,(3):39-44.
[3]Krapp A. Interest, motivation and learning: An educational-psychological perspective[J]. European Journal of Psychology of Education, 1999,(1):23-40.
[4]Hidi S. Interest, reading, and learning: Theoretical and practical considerations[J]. Educational Psychology Review, 2001,13:191-209.
[5]樊敏生,武法提,王瑜.数字阅读:电子书对小学生语文阅读能力的影响[J].电化教育研究,2016,(12):106-110、128.
[6]Hwang G J, Tu N T, Wang X M. Creating interactive e-books through learning by design: The impacts of guided peer-feedback on students’ learning achievements and project outcomes in science courses[J]. Educational Technology & Society, 2018,(1):25-36.
[7]Goldberg D, Nichols D A, Oki B, et al. Using collaborative filtering to weave an information tapestry[J]. Communications of the ACM, 1992,(12):61-71.
[8]王佑镁,宛平,南希烜,等.走向数字阅读3.0:智能阅读的特征,应用与发展[J].现代远程教育研究,2021,(5):26-32.
[9]叶加加,赵逢禹.基于兴趣预测和热点分析的联合推荐算法研究[J].软件导刊,2016,(9):25-28.
[10]Reed H C, Hurks P P M, Kirschner P A, et al. Preschoolers’ causal reasoning during shared picture book storytelling: A cross-case comparison descriptive study[J]. Journal of Research in Childhood Education, 2015,29:367-389.
[11]Kavanagh L. Relations between children’s reading motivation, activity and performance at the end of primary school[J]. Journal of Research in Reading, 2019,(3-4):562-582.
[12][13]Oard D W, Kim J. Modeling information content using observable behavior[OL].
[14]Kelly D, Teevan J. Implicit feedback for inferring user preference: A bibliography[J]. ACM SIGIR Forum, 2003,(2):18-28.
[15]Núñez-Valdez E R, David Q, Ruben G C, et al. A recommender system based on implicit feedback for selective dissemination of ebooks[J]. Information Sciences, 2018,467:87-98.
[16]Núñez-Valdez E R, Lovelle J M C, Martinez O S, et al. Implicit feedback techniques on recommender systems applied to electronic books[J]. Computers in Human Behavior, 2012,(4):1186-1193.
[17]Naghdipour B, Eldridge N H. Incorporating social networking sites into traditional pedagogy: A case of facebook[J]. TechTrends, 2016, 60:591-597.
[18]魏甜甜,陈莉,范婷婷,等.结合项目流行度加权的协同过滤推荐算法[J].计算机应用研究,2020,(3):676-679.
[19]石宇,胡昌平,时颖惠.个性化推荐中基于认知的用户兴趣建模研究[J].情报科学,2019,(6):37-41.
[20]Crespo R G, Martinez O S, Lovelle J, et al. Recommendation system based on user interaction data applied to intelligent electronic books[J]. Computers in Human Behavior, 2011,(4):1445-1449.
[21]Stauffer S M. Developing children’s interest in reading[J]. Library Trends, 2007,(2):402-422.
[22]王冬青,韩后,凌海燕.一种数字阅读行为数据可视化分析方法及系统[P].中国专利:202010122594.9,2020-6-30.
Design and Application of Personalized Recommendation Service for Children’s Digital Reading
HAN Hou1YIN Hong-yan2WANG Dong-qing3
With the popularization and application of intelligent terminals and the development of the digital publishing industry, digital reading has become an important way for children to read. In the limited digital reading time, how to push suitable books for children is a common concern for parents, teachers, and researchers. However, at present, most of the current digital reading applications of recommendation service for children’s digital reading is based on reading ability or subject, and there are some problems such as single recommendation result and no consideration of children’s reading interest over time. Based on this, the paper firstly analyzed the characteristics of children’s digital and constructed a children’s digital reading interest model based on implicit feedback. Then, a time-dependent collaborative filtering algorithm was adopted to realize a personalized recommendation service fochildren’s digital reading. Finally,Finally, the validity of this service was verified by “winter/summer reading activities”. Through research, the paper aimed to provide a solution for personalized recommendation of children’s digital reading, promote digital reading towards intelligent reading.
implicit feedback; children’s reading interest; digital reading; personalized recommendation
G40-057
A
1009—8097(2023)12—0111—08
10.3969/j.issn.1009-8097.2023.12.011
本文为教育部人文社会科学研究青年基金项目“‘互联网+’模式下儿童数字阅读行为数据的分析设计与应用”(项目编号:17YJC880032)的阶段性研究成果。
韩后,讲师,博士,研究方向为数字阅读行为数据分析,邮箱为hanhou99@qq.com。
2023年6月6日
编辑:小时