摘 要 用户画像作为大数据分析背景下个性化推荐服务的设计工具,为高校图书馆领域个性化阅读资源推荐服务提供解决思路。本研究在分析目前个性化推荐和用户画像研究的基础上,引入用户画像技术,从数据基础层、数据处理层、画像构建层、画像服务层设计探讨用户画像的构建流程,重点在用户画像构建和画像服务层面进行阐述,同时从用户基本属性、阅读状态、学习风格、阅读偏好四个维度构建用户多维画像模型,并提出基于冷启动和用户阅读学习过程画像的个性化推荐服务策略,以期为后疫情教育环境下高校图书馆开展个性化资源推荐服务和满足用户多维度阅读学习需求提供参考。
关键词 用户画像 个性化资源推荐 阅读偏好 冷启动
分类号 G252;G258.6
DOI 10.16810/j.cnki.1672-514X.2021.04.013
Design on Personalized Resources Recommendation Service of University Library Based on User Portrait
Li Bao
Abstract As a design tool for personalized recommendation services in the context of the big data analysis, user portrait provides solutions for personalized reading resource recommendation services in the field of university libraries. Based on the analysis of current personalized recommendation and user portrait research, this research introduces user portrait technology to discuss the construction process of user portrait from the design of the data foundation layer, data processing layer, portrait construction layer and portrait service layer. Then explanation focused on the level of portrait construction and portrait service. At the same time, it constructs a users multi-dimensional portrait model from the four dimensions of users basic attributes, reading status, learning style and reading preference. Finally, personalized recommendation service strategy based on the cold start and user portrait during the users reading and learning process are proposed, in order to provide reference for university libraries to develop personalized resource recommendation services and meet users multi-dimensional reading and learning needs in the post-epidemic education environment.
Keywords User portrait. Personalized resources recommendation. Interest preference. Cold start.
0 引言
“互聯网+”时代背景下,用户研究一直是高校图书情报领域研究的热点问题[1],数据挖掘、机器学习、5G网络、人工智能、数字孪生等新兴技术的出现和广泛应用为高校图书馆领域的用户研究带来新契机、新挑战。《2020年新媒体联盟中国高等教育技术展望:地平线项目区域报告》中提到“自适应技术是解决个性化学习的最佳技术,自适应技术能够依据用户特征提供符合用户需求的资源、活动等,逐步成为高等教育领域新增的关键技术[2]”。自适应技术指在高等教育机构中要满足不同学生用户的需求,自然要考虑不同用户学习过程中的个体差异性。
2020年是一个特殊的年份,也是全国人民攻坚克难的年份,全国人民遭受到新型冠状病毒肺炎的灾难影响。当前,在以习近平同志为核心的党中央坚强领导下,全国高教教育系统正在全力做好疫情防控工作。为了解决延期开学期间学生的居家学习问题,教育部印发系列文件,并发出“停课不停学”的通知,集中国家和各地区的力量与资源为广大高校学生提供学习资源和学习支持服务。在目前5G网络实现宽信道带宽和大容量MIMO条件下,网络学习空间内的信息量呈现几何式爆发增长,为用户提供了大量的个性化学习阅读资源[3]29。然而,疫情期间面对大量开放的阅读资源以及各类用户,高校图书馆作为提供学生用户阅读学习资源的主要服务机构,如何针对学生用户个体特征从数字图书馆海量服务资源库中推荐符合用户个性化需求的阅读学习资源等,正是高校图书馆机构亟待解决的问题。
用户画像作为大数据分析背景下个性化推荐服务的设计工具,为智慧图书馆个性化资源推荐服务提供了解决思路[3]29-30。因此,笔者认为要解决疫情期间高校数字图书馆学生用户个性化阅读资源服务的问题,需要借鉴大数据、学习分析技术,引入用户画像技术,从用户基本属性、阅读状态、学习风格、阅读兴趣偏好四个维度构建用户多维画像模型,才能在后疫情教育环境下顺利开展个性化资源推荐服务,满足学生用户多维度阅读学习需求。
1 文献回溯
1.1 个性化推荐
个性化推荐的概念出现于1994年,最初是由Resnick首次提出的[4]。通过梳理国内外关于个性化推荐的研究发现,目前得到广泛应用的推荐算法主要有基于内容的推荐、基于协同过滤推荐、混合推荐三种方式[5]。
基于内容的推荐算法主要是运用用户以往对资源项目的兴趣偏好建立用户特征库,评估项目与用户兴趣之间的相关性,将相似项目推荐给目标用户[6]。整个推荐算法只是和项目本身的属性特征与某个用户产生的历史行为数据有关。基于协同过滤推荐的方法是计算用户之间的相似度,然后依据与当前目标用户相似度较高的用户对其他项目的评价来预测目标用户对特定项目的偏好程度,最后依据用户推荐列表TOP-N实现推荐[7]。该方法需要构建用户与项目评分矩阵、计算用户相似度、选择最近邻居、预测评分、产生推荐五个步骤[8]。基于内容推荐和协同过滤推荐都有各自优点,同时都存在一些缺陷,所以后来研究者提出了混合推荐模型,将主流的推荐方法融合起来,避免某些单一推荐的缺陷[9]。例如,申云凤以用户行为数据为基础,采用协同过滤和蚁群算法相结合,构建出个性化学习路径推荐模型[10];熊回香等将基于内容和协同过滤算法相结合,提出基于LDA标签混合推荐模型,运用语义关系提高了相似度计算的准确性[11]。
基于内容的推荐算法、协同过滤推荐算法以及混合推荐算法,每种算法各有特点,同时每种算法都有自身的局限性,无论哪种算法,其最核心的基础是用户偏好的获取[12]。但是,国内外现有的研究大多重点在于推荐算法的研究,从用户个体角度出发来关注推荐过程中用户本体特征的较少。即使有少部分的研究,但是倾向于用户的历史学习兴趣推荐类似的学习资源。
1.2 用户画像
用户画像(Persona)最初由库珀(Cooper)提出,主要是依据用户社会属性、生活习惯和消费行为等信息抽象出的标签化用户模型[13]。用户画像最初应用于商业营销、计算机科学等领域,多用于信息资源推荐服务以及精准营销方面。后来,用户画像技术逐渐向管理学、经济学、人文社科领域发展,逐步呈现出明显的跨学科特征[14]。
近年来,用户画像逐步应用到高校数字图书馆领域。用户画像可基于大规模存储数据、机器学习算法进行数据挖掘,构建用户特征,将行为隐式数据转化为显式可视化数据,为个性化推荐提供服务。国内关于用户画像在数字图书馆的应用偏向于用户画像的构建理论探究与应用推广。例如,尹婷婷等结合用户画像技术从数据来源、数据整合、数据挖掘层级探讨高校图书馆个性化服务的应用模式 [15];刘海鸥等人在用户多维度标签构建模型基础上引入情境化推荐方法探究数字图书馆大数据知识个性化推荐服务[16];张莉曼等从用户表层行为和深层驱动设计画像标签,利用与用户强关联的动态小数据实现用户画像的构建[17];王顺箐采集用户需求的数据构建智慧推荐系统,以用户个人喜好和实时需求实现针对用户的无差别推荐[18];肖海清构建基于参与式用户画像的高校图书馆精准推广模式,重点对于个体和群体阅读推广进行探讨[19]。
以上相关研究成果为本研究提供了参考和借鉴,但是通过用户画像相关研究的梳理,发现国内在图书馆领域的用户画像研究缺少从用户多维度构建画像特征,同时未考虑用户阅读过程中兴趣偏好转移的因素等。此外,在高校图书馆推荐系统冷启动时期,大多研究仅仅依靠静态数据构建用户画像个性化阅读资源推荐依据,未结合知识本体角度考虑资源相似度计算结果进行实际推荐。基于此,本研究提出大数据下基于用户画像的高校数字图书馆个性化阅读资源推荐服务,以期解决这些问题。
2 用户画像的构建
2.1 高校图书馆用户画像构建流程
用户画像构建的精准性往往会影响到个性化推荐结果的满意度。用户画像的刻画一般涵盖需求、兴趣、性格等多个属性[20]。高校数字图书馆用户画像的数据来源通常包含问卷调查、访谈、阅读学习行为、阅读学习日志等。用户画像为进一步快速准确分析用户特征提供了足够的数据基础,完全将用户特征抽象提取出来,可以看作是个性化推荐中应用大数据的根基。
本研究重点从数据基础层、数据处理层、画像构建层、画像服务层四个层级考虑用户画像的构建流程,具体如图1所示。其中数据基础层和数据处理层是底层阶段,而画像构建层是用户画像的关键层级,同时该层级的构建结果是画像服务层推荐的依据。
数据基础层主要是考虑用户画像构建的基础数据来源。该层级包含两部分基础数据,一类是显式获取的数据,例如学习风格量表调查、用户基本属性问卷调查等;另一类是隐式动态数据的挖掘,包含用户对阅读资源标记的行为、点击链接行为、互动行为等数据。数据处理层需要搜集数据基础层数据,然后进行梳理归类,能夠结合用户画像构建层中用户画像的维度进行数据的分类预处理。例如,画像构建层需要了解用户的阅读兴趣偏好,需要在处理层建立用户对于阅读学习资源项目的评分矩阵或者标注行为矩阵。画像构建层在构建用户画像过程中需要对数据处理层预处理的数据进行分析挖掘,主要围绕用户一般属性特征、阅读准备状态、学习风格、阅读兴趣偏好等行为特征来完成画像模型的构建。该层级除了完成用户个体画像构建外,还需要采用聚类分析、相似度分析、关联分析等方法实现用户群体画像的构建。用户群体画像的构建主要是为画像服务层相似用户进行个性化推荐预测和诊断;画像构建层完成后,推荐系统就可以依据用户画像特征完成画像服务层的推荐业务。在实现推荐过程中,可以依据用户画像完成与数字图书馆阅读资源相似度匹配、个性化阅读路径定制、用户群体中个体阅读行为的预测分析等。
2.2 高校图书馆用户画像特征模型构建
在用户画像构建过程中,考虑从多维层次进行。用户画像特征模型用UserPersona表示,主要包含用户基本画像(UserInfo)、用户学习风格画像(UserStyle)、用户阅读状态画像(UserReady)、用户阅读兴趣偏好画像(UserPre),即UserPersona={ UserInfo,UserStyle,UserReady,UserPre}。
2.2.1 用户基本属性画像(UserInfo)
对于刚刚进入数字图书馆资源阅读平台的新用户,系统首先需要在用户正式阅读学习前搜集用户个体属性特征画像数据,主要包括用户一般基本特征属性。通过问卷显式方式调查用户的性别、年龄、计算机使用水平、专业、国籍、平台使用意向等个体静态特征信息,即UserInfo={Gender,Age,computerSkill,major,……}。该部分信息的搜集主要是在阅读行为发生前采用问卷调研方式完成。
2.2.2 用户阅读状态画像(UserReady)
用户阅读状态画像主要是了解用户原有阅读知识结构的起点以及状态。某个用户开始阅读前可以依据用户基本特征编写相应前测试题,通过测试了解该用户知识结构的起点,整个知识结构采用向量进行标记,用户阅读起点位置可以用向量Vector标记。阅读学习过程中,用户对于某个向量标记的知识内容是否阅读则采用阅读状态Status表示,0表示未阅读,1表示阅读中,2表示已完成阅读。即阅读准备状态画像UserReady={Vector,Status}。
2.2.3 学习风格画像(UserStyle)
学习风格画像采用Felder-Silverman学习风格调查结果作为依据,如图2。不同用户在数字图书馆中进行资源阅读时,不同学习风格偏好的资源呈现方式也会存在差异。目前学习风格模型的研究有Kolb学习风格模型、Dun学习风格模型及Felder-Silverman学习风格模型等,已有研究表明Felder-Silverman学习风格模型使用率较高[21],其模型分为信息加工、感知、输入、理解四个维度,其中信息加工分为活跃型和沉思型,感知分为感悟型和直觉型,输入分为视觉型和语言型,理解分为序列型和综合型,即UserStyle={active,Contemplative,Visual,Listening,Auditory,Linguistic……}。用户在具体阅读过程中,学习风格也会受到阅读环境和情境等影响,不断发生新变化。此外,由于前测采用的是显式调查方式,没有将用户隐式阅读行为体现的风格挖掘出来。在前期调查结果基础上,后续阅读学习过程中需要结合阅读资源的学习行为模式,不断完善和更新学习风格画像。
2.2.4 用户阅读兴趣偏好画像(UserPre)
用户阅读兴趣偏好画像主要是以用户阅读过程中对于数字图书馆阅读资源标注行为的关注度来查看用户的兴趣偏好行为,而对于用户喜欢哪一种阅读资源的呈现方式,这个已在学习风格画像刻画中进行标记。同时,对于用户标注的感兴趣阅读资源以及资源之间存在的概念关系应该有所记录。例如,采用LCi表示用户感兴趣的阅读资源,RCi表示阅读资源之间的相互关系。用户阅读兴趣偏好画像主要关注用户近期阅读兴趣偏好以及阅读过程中持续阅读兴趣偏好两个方面。近期阅读兴趣偏好主要关注用户当前阅读过程中的兴趣,而持续阅读兴趣则是关注用户在阅读学习过程中的阅读兴趣是否发生偏移。即用户阅读兴趣偏好画像UserPre={LCi,RCi,RPre(Tagt) , 。
(1)用户近期阅读兴趣偏好RPre(Tagt)。用户近期阅读兴趣的偏好可以通过使用用户最近标注阅读资源使用的标签进行计算,用户近期推荐资源的偏好依据标签记为RPre(Tagt),用户当前阅读时间记为Recent,用户最近一次使用标签t标注阅读资源的时间记为 ,用戶第一次使用某个标签标注阅读资源记为 。具体计算方法为:
公式(1)
RPre(Tagt)计算得出的结果作为用户当前阅读兴趣偏好标签,然后使用相似度计算得出资源标签和用户兴趣偏好RPre(Tagt)的相似度。
(2)用户持续阅读兴趣偏好 。在实际阅读过程中,除了要考虑用户近期阅读兴趣的偏好,还需要考虑用户阶段阅读过程中阅读兴趣偏好是否继续持续的问题,因为用户的兴趣偏好往往会随着时间的推移而发生改变。研究中采用已有的研究使用用户的持续兴趣偏好指标作为参考依据,该方法关于用户的持续兴趣通过用户持续使用某个标签标注信息资源的时间跨度进行计算[22],在实际应用中可以作为用户持续兴趣偏好的计算依据。计算方法如下:
公式(2)
其中,用户最后一次使用某个标签标注阅读资源记为LastTag,用户第一次使用标签t标注阅读资源的时间记为TagFirst(Tagt),用户持续兴趣偏好记为PersistentPre(Tagt),其取值越接近1,说明用户兴趣一直持续;如果取值越接近0,则说明用户的阅读兴趣发生了偏移,关注主题有所变动。如果学生阅读兴趣偏好发生偏移,则可以利用用户兴趣偏好记录中感兴趣知识之间的关系RCi进行延伸扩展推荐。同时,也可以结合用户阅读准备状态中用户阅读状态和阅读资源本体之间相互结构关系作为新阅读资源偏好推荐的辅助依据。
3 基于用户画像的个性化阅读资源推荐服务设计
数字图书馆在实施阅读资源推荐过程中,往往会关注系统冷启动的推荐和基于用户阅读过程行为数据的推荐。冷启动的推荐策略主要解决系统中数据稀疏的问题;基于阅读过程的行为数据推荐,则是将用户兴趣偏好画像、用户阅读准备状态画像考虑在其中。阅读过程的行为数据分析恰恰是挖掘用户兴趣偏好的主要数据来源。
3.1 基于冷启动用户画像的个性化推荐
在数字图书馆平台推荐中,用户未阅读资源前往往存在数据稀疏问题。本研究构建的多维度用户画像UserPersona可以解决平台中冷启动问题,数字图书馆平台推荐中的冷启动一般主要分为新用户冷启动、新阅读学习资源冷启动两种情况。新用户启动指用户首次进入平台,平台中没有任何该用户阅读行为数据,没有办法依据已有历史行为数据找到相似用户实现推荐。因此,无法建立用户画像模型,不能针对该用户进行个性化阅读资源推荐。新阅读资源冷启动指的是新的阅读资源加入到平台中,没有任何对该阅读资源项目的阅读评分数据,无法找到该资源项目的相似最近邻,无法将新的阅读资源推荐给可能感兴趣的用户,不利于潜在用户的挖掘。
针对新用户冷启动的问题,目前大多研究已解决该问题,可以采用静态数据刻画用户画像,或者采用基于协同过滤推荐的方法。利用静态数据刻画用户画像需要调研了解用户基本属性、学习风格等显式获取的数据,然后依据数据刻画的用户画像进行阅读资源的推荐。而采用基于协同过滤推荐的方法则是比较成熟的推荐方法,需要先计算出用户之间的相似度,然后依据与当前目标用户相似度较高的用户对其他阅读资源的评价来预测目标用户对特定阅读资源的偏好程度,最后依据用户推荐列表TOP-N实现推荐。而用户之间相似度计算的前提是需要了解用户的特征,依据用户基本属性、学习风格、阅读准备状态等数据刻画用户画像。但是由于处于推荐冷启动阶段,所以用户画像的数据来源还是以静态数据为主。
对于新阅读资源冷启动的问题,可以从阅读资源片断知识本体的角度考虑。由于数字图书馆平台在解决新用户的问题时,对于用户特征画像构建采用了学习风格等,所以在考虑新学习资源冷启动问题时,也会考虑同一阅读资源项目的不同呈现方式,资源呈现方式的依据则是参照用户在学习风格各维度的类型。整个平台中阅读学习知识的呈现从本质讲都是一种树状结构,各个阅读资源单元片断所属章节知识点存在树形关系,可以利用学科知识图谱形式展示。学科知识图谱需要了解学科知识点结构图,将学科内知识点关系用领域本体表示,阅读资源片段结构具体如图3所示。
资源A可以看成某个专题的根知识点,资源x和资源y可以看成其他专题知识点,资源B是该专题下某一个进阶知识点,最底层的e、n、f、i、h、m、l是最小学习单元的阅读资源项目,每个最小知识单元提供不同资源呈现方式。例如,最小阅读单元资源项目m,呈现该资源的文本、图片、音频、视频、交互学习等不同阅读资源方式。因此,在实际进行阅读资源推荐的过程中,如果要计算两个阅读资源项目的相似度,只需要考虑阅读资源单元层面就可以,至于推荐阅读资源类型是和用户学习风格画像数据有关。针对阅读资源的树状结构,在解决新阅读资源冷启动问题中使用P.Ganesan最早提出基于边权重和有向节点的概念距离相似度计算[23],该方法主要是在推荐中用于计算两个项目实例的相似度,在树状层次结构中越靠近的节点,其相似度越高。同时,资源知识点存在进阶关系,在图中可以用父子节点关系来表示。阅读资源在知识结构体系中可能存在多重继承关系,知识之间存在网状分布关系,知识点阅读资源项目m、n可能存在多种层次相关路径。例如阅读资源项目e可以看成阅读资源项目D1 的子节点,阅读资源项目D1是阅读资源项目e的上一层级父节点。在利用图3阅读资源本体片段树形结构图的基础上,两个知识点阅读资源项目m、n相似度采用层次距离相识度来识别。具体计算方法如下:
公式(3)
其中,ANC(m,n)指的是阅读推荐平台树状阅读资源中项目m、n距离最近的共同祖先,depth(m)表示从根节点开始到阅读资源项目m上一级父节点的距离长度,depth(n) 表示从根节点开始到阅读资源项目n上一级父节点的距离长度。由图可知,ANC(e,n)是D1,ANC(e,f)是C1,ANC(n,f)是D2,ANC(m,n)是B,ANC(i,m)是D3。以阅读资源项目m和项目n相似度、阅读资源项目e和项目n相似度计算为例,依据公式(3)计算出两者的层次距离相似度为:
通过计算结果看出,项目e和项目n可以作为同类阅读资源互相推送的列表选项。如果数字图书馆平台后续有新加入的阅读资源,依据新加入阅读资源在知识本体结构图所处的网状位置计算该资源与其他资源的相似度。但是,这种算法只是找到了资源项目之间的相似度,是从知识本体领域考虑的,对于资源呈现方式未做考虑。因此,在具体实施推荐过程中,还需要参考前期学习风格画像构建的结果,依据用户学习风格画像选择合适的资源呈现方式推送给用户。
3.2 基于阅读过程用户画像的个性化推荐
基于阅读过程用户画像的个性化推荐需要重点考虑阅读行为数据,通过挖掘分析刻画出个体画像特征,同时需要采用聚类分析构建群体画像特征。本研究结合阅读行为不断完善和定期更新前期静态数据调研获取的学习风格画像,其中每个学习风格维度中,“+”表示支持前一种类型学习风格,“-”表示支持后一种类型学习风格。例如,在信息加工维度,用户访问论坛的次数越多,则说明该用户阅读过程的活跃度越高,属于活跃型用户;在论坛回复的有效帖子越多,则说明该用户善于对阅读知识进行分析讨论,积极参与,也属于活跃型。在阅读过程中,用户阅读行为属于动态数据,对于该数据进行分析可以作为用户学习风格更新和完善的重要依据。在进行具体阅读行为模式分析时,结合内容浏览、内容停留、论坛访问、论坛发贴、交互协作等行为进行更新。如在构建信息感知维度画像时,用户在阅读案例有停留行为记录,可以在感悟型维度进行“+”标记表示支持该类型;如果用户在进行阅读知识测试过程中进行多次尝试,表示用户缺乏冷静思考感悟,属于视觉型用户,则在视觉型维度用“-”标记表示支持该类型。
阅读准备状态画像和阅读兴趣偏好画像属于动态变化数据,所以用户画像需要在阅读过程中动态迭代更新。用户状态画像是对于用户阅读路径、阅读进度的刻画,而阅读兴趣偏好画像是关于用户近期的偏好和偏好持续性问题进行分析,这些信息可以完全了解用户的阅读学习位置和兴趣偏好,体现了用户随着阅读学习不断推进而发生改变的动态信息。此外,结合用户基本属性画像、修改完善后的学习风格画像构建出用户画像。之后,可以采用相似度匹配,计算数字图书馆资源库资源特征和用户画像特征的相似度。同时,推荐过程也可以计算两个用户画像之间的相似度,其相似度的计算方法类似。目前,研究中使用改进后的Prefix Span算法筛选出具有相似特征的用戶,如公式4所示[24]。公式中,和表示用户a和用户b的画像特征数据,和表示用户a和用户b 画像特征的数据均值。
公式(4)
利用相似度计算以及在阅读行为模式进行个体用户画像的修正等,这是基于用户画像实现个性化阅读资源推荐服务的一部分。当然,在个体用户画像构建方面,有学者利用人工神经网络、蚁群算法等实现个性化阅读推荐路径。然而,这些研究都只是针对用户个体画像的推荐内容。在实际推荐服务实施过程中,有时需要基于用户群体分析,依据用户群体特征提供差异化的阅读学习支持服务进而改善阅读参与度。此外,需要通过构建用户群体画像来对群体内个体用户进行分析诊断,起到阅读学习预警作用。
用户群体画像构建常用的方法就是聚类分析,在聚类分析算法中,典型的就是K-Means算法。K-Means算法是基于距离的聚类函数,距离越远其相似度越低[25]13。前期构建出用户个体画像后,从用户个体画像库中随机抽取n个元素作为聚类时簇的中心,分别计算用户个体画像库中其他所有个体画像到n个簇的中心的距离,尽最大可能将个体画像元素归划到离某个簇最近的类中。同时,需要选取簇中所有元素各自维度的平均数作为n个簇各自的中心。随后,采用反复循环聚类计算,每次计算是对于个体画像库中去除簇中心的元素后重新计算,直到最后的每一轮计算结果和上一轮计算结果差异性较小时即可完成,最终将聚类结果输出。
用户群体画像构建完成后,要实现个性化阅读推荐服务就需要考虑用户群体与数字图书馆平台资源库资源之间的相似度问题。在用户群体推送上可以采用KNN算法,KNN算法的核心就是依据样本群体特征将目标项目产品直接分类对应到样本群体中[25]14。采用KNN算法可以将用户个体画像聚类后的群体画像作为样本特征集,然后抽取数字图书馆平台资源库中资源,计算样本特征集每一个群体画像样本与图书馆资源库中资源特征的相似度,然后将对应用户资源距离的远近形成推荐列表,选取TOP-N资源分类到用户群体中作为基于用户群体画像推荐的阅读学习资源内容。
用户群体画像的构建除了实现群体推荐服务外,还可以参照同一用户群体内某些特征对于用户的阅读状态进行预警分析。预警分析一般采用的方法就是离群数据挖掘与分析技术[26],而在本研究中只需要利用用户阅读群体聚类分析结果和上次结果对比分析即可,找出本次聚类不在该阅读学习群体的用户,针对这些用户发出阅读学习警示信息。如果在两次以上聚类分析中发现某个用户都不在这些群体内,就需要考虑该用户阅读学习可能存在危机,未按时完成阅读学习任务,需要重点关注。当然,也可以通过设定阈值等,低于目标阈值时有针对性地给出阅读学习预警,提供适合用户特征的个性化干预方案,减少阅读资源学习停滞行为或者缺失率高的现象发生。
4 结语
随着数据挖掘、学习分析技术等不断发展,为高校图书馆在线阅读提供了更大的发展空间,特别是目前处在后疫情时代,部分高校仍采用线上教学的方式,涌现了大量的免费阅读学习资源。那么,用户在阅读过程就会面临信息过载或者信息迷航的问题,如何在阅读中满足用户的个性化资源需求是当前后疫情时代需要高校数字图书馆平台面对的重要挑战。
本研究在分析了目前个性化推荐和用户画像研究的基础上,引入用户画像技术从数据基础层、数据处理层、画像构建层、画像服务层四个层级设计探讨用户画像的构建流程,重点在用户画像构建和画像服务层面进行阐述,同时从用户基本属性、阅读准备、学习风格、阅读兴趣偏好四个维度构建用户多维画像模型,并提出基于冷启动用户画像和阅读过程用户画像的个性化推荐服务策略。然而,研究不足之处是如何针对用户画像进行预测推荐在研究中仅仅依靠用户群体来实现,后续研究应该考虑进一步结合神经网络算法、机器学习等主流技术,通过历史数据的模型训练完成对于用户未来的阅读行为进行预测,为用户提供精准的阅读资源推荐服务。不论大数据支撑下的阅读行为分析技术如何完美、个性化阅读资源推荐服务如何精妙,整个分析过程终究是拿历史数据来预测未来发展,但是通过大数据技术创建个性化定制阅读是极具诱惑力、吸引力,同时在改善用户阅读满意度等取得了显著的效果,所以后续值得广大图书情报领域研究者继续深入研究和探讨。
参考文献:
廖运平,卢明芳,杨思洛.大数据视域下智慧图书馆用户画像研究[J].国家图书馆学刊,2020,29(3):73-82.
金慧,王梦钰,王陈欣.促进教育创新的关键技术与应用实践:2015—2020《地平线报告》的分析与比较[J].远程教育杂志,2020,38(3):25-37.
尹婷婷,龚思怡,曾宪玉.基于用户画像技术的教育资源个性化推荐服务研究[J].数字图书馆论坛,2019(11):29-35.
RESNICK P,IAKOVOU N,SUSHAK M,et al[A].Grouplens:an open architecture for collaborative filtering of net news[C].Chapel hill:In Proceedings of CSCW94,1994.175-186.
郭雪梅.基于社会化标签的用户标注行为和时间因素的个性化推荐方法研究[J].情报科学,2020,38(2):68-74.
孙立莹. 基于组合推荐技术的个性化学习资料推荐的研究[D].大连:大连海事大学,2010.
苏庆,陈思兆,吴伟民,等.基于学习情况协同过滤算法的个性化学习推荐模型研究[J].数据分析与知识发现,2020,4(5):105-117.
雷秋雨.个性化推荐系统中冷启动问题研究[D].北京:北京交通大学,2019.
徐朦.基于知识图谱的个性化学习方法研究[D].贵阳:贵州师范大学,2019.
申云凤.基于多重智能算法的个性化学习路径推荐模型[J].中国电化教育,2019(11):66-72.
熊回香,竇燕.基于LDA主题模型的标签混合推荐研究[J].图书情报工作,2018,62(3):104-113.
JANNAC D, ZANKER M, FELFERNING A,et al. Recommender system: an introduction[M].蒋凡,译.北京:人民邮电出版社,2013.
张海涛,崔阳,王丹,等.基于概念格的在线健康社区用户画像研究[J].情报学报,2018,37(9):912-922.
吴加琪.我国用户画像研究的知识网络与热点领域分析[J].现代情报,2018,38(8):130-135,143.
尹婷婷,曾宪玉.用户画像视角下数字图书馆个性化信息服务建模与分析[J].新世纪图书馆,2020(4):57-61.
刘海鸥,姚苏梅,黄文娜,等.基于用户画像的图书馆大数据知识服务情境化推荐[J].图书馆学研究,2018(24):57-63,32.
张莉曼,张向先,吴雅威,等.基于小数据的社交类学术App用户动态画像模型構建研究[J].图书情报工作,2020,64(5):50-59.
王顺箐.以用户画像构建智慧阅读推荐系统[J].图书馆学研究,2018(04):92-96.
肖海清,朱会华.基于参与式用户画像的高校图书馆精准阅读推广模式构建[J].图书馆工作与究,2020(6):122-128.
陈丹,罗烨,吴智勤.基于大数据挖掘和用户画像的高校图书馆个性化服务研究[J].图书馆研究与工作,2019(4):50-53,59.
李宝,张文兰.智慧教育环境下学习资源推送服务模型的构建[J].远程教育杂志,2015,33(3):41-48.
张炎亮,张超,李静.基于动态用户画像标签的KNN分类推荐算法研究[J].情报科学:1-5.
GANESAN P, GARCIA-MOLINA H, WIDOM J.Exploiting hierarchical domain structure to compute similarity[J].ACM Trans.Inf.Syst.,2003,21(1):64-93.
赵呈领,陈智慧,黄志芳.适应性学习路径推荐算法及应用研究[J].中国电化教育,2015(8):85-91.
张炎亮,张超,李静.基于动态用户画像标签的KNN分类推荐算法研究[J/OL].情报科:1-5[2020-06-12].http://kns.cnki.net/kcms/detail/22.1264.G2.20200521.1637.044.html.
金义富,吴涛,张子石,等.大数据环境下学业预警系统设计与分析[J].中国电化教育,2016(2):69-73.
李 宝 安康学院电子与信息工程学院讲师。 陕西安康,725000。
(收稿日期:2020-06-15 编校:谢艳秋,陈安琪)