张华帅 王廷梅 刘述娟 闫天雨
摘要:随着用户对图书资源需求的多样化,传统图书馆的运营已无法满足用户的个性化需要,图书馆运营与管理能力提升十分必要。本课题通过研究“用户画像”在图书馆中的应用,对图书馆现有的模式提出合理化建议。利用线上的方式向在校大学生发放问卷收集数据,运用Excel对数据进行处理,利用SPSS软件对数据进行聚类分析和判别分析,从而构建出用户画像,这有利于为用户提供精准推荐服务。根据用户个性化数据,也可对图书馆的管理提供更为精准的改进建议,从而提高图书馆精准化服务水平。
关键词:用户画像;聚类分析;判别分析;图书馆精准化服务
中图分类号:G642 文献标识码:A
文章编号:1009-3044(2021)18-0022-04
开放科学(资源服务)标识码(OSID):
Research on Smart Library Accurate Service Based on User Portrait
ZHANG Hua-shuai,WANG Ting-mei,ZHANG Shu-juan,YAN Tian-yu
(College of Applied Science and Technology,Beijing Union University,Beijing 100101, China)
Abstract: With the diversification of users' requirements for book resources, the operation of traditional library has been unable to meet the actual needs of users. It is necessary to improve the operation and management ability of library. This topic puts forward reasonable suggestions on the existing model of library by studying the application of user portrait in the library. To college students use online questionnaire to collect data by using EXCEL to deal with data, using SPSS software for data clustering analysis and discriminant analysis, so as to construct user portrait, which is beneficial to provide users with accurate recommendation service According to the result of data analysis, but also some rationalization Suggestions on the improvement of the library, so as to improve the level of library accurate service.
Key words: user portrait; cluster analysis; discriminant analysis; accurate service of library
1 引言
由于數据分析技术的广泛应用以及用户需求多元化,图书馆的转型同样是势在必行,逐渐开始重视通过用户的相关信息及资源数据进行分析,了解用户需求并利用智能技术来优化服务模式,以满足不同用户的个性需求,从而提升图书馆的价值。显然,传统的图书馆模式已经不能满足用户的需求,只有更智能、更方便、快捷的服务才能满足这个信息化高速发展时代人们的需求。随着教育越来越得到重视,图书馆的馆藏资源也与日俱增,用户要在浩如烟海的图书中寻找到自己需要的图书的难度可想而知。为了更好地服务用户,提高用户查找图书的效率,使得“用户画像”这一有效工具引用到图书馆提供了有利条件。“用户画像”这一工具在国内图书馆应用并不广泛,这引起了我们的关注。本文通过将“用户画像”引入到图书馆,给用户推荐相关图书,提高借阅图书的效率。
2 研究思路
由于收集的数据会涉及一些图书馆用户的个人隐私,而网上爬虫到的数据比较少和零散,不具有数据分析的价值。所以决定采取线上问卷星调查以及线下手工制作问卷的形式去收集数据。
其次,对收集到数据进行汇总和数据预处理。清除异常数据,将不合要求的数据、有明显错误的数据予以剔除,最后对数据进行排序。
然后用SPSS软件对调查问卷中的数据进行信度和效度分析去测量问卷数据的可靠性和设计问卷是否合理;运用描述性分析研究样本对变量的整体态度情况;运用相关分析探究变量之间的相关性是否存在相关关系,以及相关关系的紧密程度等;运用聚类分析去探索各个题项之间的亲疏程度。运用判别分析找出影响样本归类的关键因素,甚至获得一个判别函数,然后依据判别函数,对未来样本进行判别。
最后,根据分析结果,构建用户画像,对图书馆提出合理化建议。本文的研究思路流程图,如图1所示。
3 数据的采集
3.1 数据收集方法
获取数据的渠道有若干种方法,比如有线上、线下、网上爬虫等。线上收集数据的优点就是覆盖面广、数据量大、实施起来比较方便;线下收集数据的优点就是数据真实可靠;网上爬虫的优点就是数据量大,比较有权威性,但是由于涉及一些图书馆用户的个人隐私,网上爬虫到的数据比较少和零散,不具有数据分析的价值,所以决定采取线上问卷星调查以及线下手工制作问卷的形式去收集数据。
3.2 设计问卷
设计问卷的方法有很多种,比如有(电话)访问式问卷、自填式问卷、网络问卷、送发式问卷、封闭式问卷、开放式问卷。根据本课题研究需要,选择自填式、网络式相结合的问卷形式,这能收集到更有实际性、时效性、统计性的数据。
本课题问卷涉及量表题项和非量表题项,设计量表题项是为了对数据进行信度分析和效度分析,检测研究数据的真实可靠性以及研究题项设计是否合理;非量表题目包括单选题和多选题,主要目的是了解样本基本情况。该问卷共30个题项,Q1-Q6分析用户背景,Q7-Q9分析用户的阅读态度,Q10-Q13分析用户的阅读兴趣,Q14-Q20分析用户的借阅习惯,Q21-Q30分析用户的借阅行为。具体问卷题项表,如表1所示。
4 数据分析
4.1 信度和效度分析
本课题共收集1201条数据,得到有效数据1051条,在数据分析之前,需要进行信度分析,即测试研究样本数据是否真实可靠,信度分析后得到可靠性统计表,如表2所示。
从表2中,可以看出α系数为0.903,高于0.6,符合信度分析要求,信度水平较高。α系数,即内部一致性系数,公式为 α ﹦(n / n -1)(1-∑Si2/St2),用其进行信度水平判断。
采用探索性因子分析进行效度验证时,首先要对KMO值和Bartlett球形检验对应的p值进行判断,KMO检验和Bartlett球形检验表,如表3所示。
由表3知,SPSS软件所分析出来的KMO值为0.953,大于0.6 ,并且Bartlett球形检验对应的p值为0.000,小于0.05的判断标准,说明通过了检验,则可以继续进行探索性因子分析。经过数据分析,探索性因子分析的解释总方差表根据特征共提取出4个因子,并且数据的累计方差解释率为62.248%,可以说明这四个因子可以解释整个问卷62.248%的信息量,所以将所有题项分成四大类即可。
4.2 变量描述性分析
為了进一步了解用户的特征,我们对用户的阅读态度、阅读兴趣进行了变量描述性分析。
用户的阅读的态度和对图书的感兴趣程度介于一般水平到比较满意这一水平之间,这说明用户对读书的态度和对读书的兴趣还是相对积极的;而用户的阅读习惯和阅读行为这两个方面将在研究课题后期,会通过分析结果,给图书馆提供合理化的建议。
4.3 相关分析
相关分析是用于分析变量之间的相关关系,相关系数用来表示相关关系,通常当系数的绝对值大于0.7时,说明变量之间的相关关系非常强;当绝对值大于0.4时,说明相关关系较强;当绝对值小于0.2时,说明相关关系较弱。在问卷研究过程中,通常使用Pearson相关系数。
利用SPSS软件进行相关分析后,用户的基本信息都对借阅图书种类有相对较强的相关关系;在用户阅读态度这一因子中,第9题与用户借阅图书种类的相关系数在0.4以上;在用户阅读兴趣这一因子中,第12题与用户借阅图书的种类的相关系数同样在0.4以上;在用户阅读行为这一因子中,22、23、24、27、28、29这六个题项与用户借阅图书种类的相关关系大都在0.4以上,显然都有相对较强的相关关系;在用户阅读习惯这一个因子中,利用题项与用户借阅图书种类之间相关关系,为之后的分析做铺垫,针对有较强相关关系的因素,会结合后面的研究构建出用户画像,对于相关关系较弱的因子,会分析其原因提出合理化的建议,提高图书馆服务的质量。
4.4 聚类分析
聚类分析,即为分类分析。SPSS软件会按照相关指标进行计算,最终将样本分成几类,并且类与类之间的差异很大,但同类样本之间的差异要尽可能地小,本课题将一定数量的指标(题项)看成一类,将亲疏程度最高的合并,然后考虑其他的类与合并后的类的亲疏程度,再不断重复这个过程,直到将所有指标合并成一类。
在对数据进行探索性因子分析之后,将24个题项共浓缩成4个因子,分别是用户阅读态度、用户阅读兴趣、用户阅读习惯以及用户阅读行为,本课题通过SPSS软件分别对4个因子下的题项进行系统聚类,详解过程如下:
Q21~Q30是用户阅读行为这一因子下的题项,经系统聚类后,对其进行合理命名为:
1、将题项21、23、24、27、28、29归为一类,命名为“图书馆学术资源利用情况”
2、将题项22归为一类,命名为“分享交流心得情况”
3、将题项25、26、30归为一类,命名为“图书馆课外资源的使用情况”
Q14~Q20是用户阅读习惯这一因子下的题项,经系统聚类后,对其进行合理命名为:
1)将题项16、17、18归为一类,命名为“用户阅读时间段”
2)将题项14、15归为一类,命名为“频率”
3)将题项19、20归为一类,命名为“图书的篇幅”
Q7~Q9是用户阅读态度这一因子下的题项,经系统聚类后,对其进行合理命名为:
1)将题项9归为一类,命名为“阅读意义”
2)将题项7、8归为一类,命名为“阅读自我认知”
Q10~Q13是用户阅读态度这一因子下的题项,经系统聚类后,对其进行合理命名为:
1)将题项12归为一类,命名为“老师推荐专业图书的借阅情况”
2)将题项11归为一类,命名为“历史哲学类图书阅读情况”
4.5 判别分析
判别分析就是根据已被正确分类的样本及其属性进行数据分析,找出影响样本归类的关键因素,甚至获得一个判别函数;然后依据判别函数,对未来样本进行判别,让未来个案自动归类或预测其可能的类别。进行在k-均值聚类后,需要用判别分析的方式探索出用户所属标签类别,并得到Bayes判别函数式。
利用SPSS软件分析用户阅读态度的Bayes判别函数式为:
[Y1=4.36*X1+10.555*X2-18.841]
[Y2=6.869*X1+17.040*X2-47.344]
X1:喜欢读书;
X2:读书意义;
利用这2个判别函数式,可以把任意个案属性值直接代入,从而可以计算出2个值,哪个数值最大,该个案就属于哪个类别。在SPSS生成的“分类结果”表中,可以显示出对97.4%的个案进行了正确的判定,这说明判别分析效果良好。
用户阅读兴趣的Bayes判别函数式为:
[Y1=10.901*Z1+8.767*Z2+6.538*Z3-47.434]
[Y2=7.741*Z1+5.653*Z2+5.128*Z3-24.193]
Z1:专业书籍;
Z2:科研;
Z3: 历史哲学;
用户阅读兴趣的“分类结果”表示出对99.3%的个案进行了正确的判定,这说明判别分析效果良好。
用户阅读行为的Bayes判别函数式为:
[Y1=1.727*K1+2.101*K2+2.664*K3+0.467*K3+2.022K5+2.692*K6+1.032*K7+1.398*K8+0.200*K9+4.876*K10-19.389][Y2=2.979*K1+3.255*K2+3.956*K3+0.866*K3+3.682K5+3.251*K6+2.460*K7+1.966*K8+0.821*K9+5.845*K10-40.684][Y3=3.423*K1+5.990*K2+5.473*K3+1.421*K3+4.778K5+3.904*K6+3.572*K7+3.494*K8+1.847*K9+6.860*K10-75.986] K1: 阅读书籍情况;
K2: 与他人交流情况;
K3:期刊论文的使用情况;
K4: 学位论文的使用情况;
K5: 图书馆课外图书的使用情况;
K6: 图书馆报纸的使用情况;
K7: 图书馆会议论文的使用情况;
K8: 图书馆专利/成果的使用情况;
K9: 分享交流阅读心得情况;
K10: 阅读评价状况;
用户阅读行为的“分类结果”表示出对96.6%的个案进行了正确的判定,这说明判别分析效果良好。
5 用户画像建模与资源推荐服务
5.1 畫像建模
图书馆用户画像模型的设计是根据用户画像的标签系统,包括对用户借阅态度、用户借阅兴趣、用户借阅习惯、用户借阅行为的相关数据进行分类以及处理。通过4大因子的聚类从而生成标签层次结构,再与用户基本背景信息相结合,并将其归纳为9个主题,用来描述用户的态度、兴趣、习惯、行为。另外,用户的属性会随着时间的变化而不断变化,包括在原有属性的基础上的增加或减少,以及新属性的产生。因此,实时地更新用户原来的态度、兴趣、习惯、行为模型也是非常必要的。
5.2 对图书馆的服务提出建议
聚类分析用户阅读态度结果表明,有84%的用户阅读认知水平都在平均水平以上,但仍然有16%的用户水平相对较低,对于这部分用户,要引起图书馆的重视,要注重这些潜在的读书用户。因此,图书馆需要采取一定的措施提高这些用户的阅读认知水平,比如开展讲座、发传单宣传等,让这部分用户深刻认识到读书的意义,改善这部分读者的认知水平。
聚类分析用户阅读兴趣后,在用户阅读兴趣这一因子中,本小组特意设置了一个题项是用户是否会对历史哲学有浓厚的兴趣,之所以设置这个题项,主要是因借阅历史哲学类书籍的用户相比其他借阅其他种类书籍的用户要少。本校图书馆馆藏量是284万册,其中历史哲学类的馆藏量是33万册,大约占总馆藏量的11.6%,据调查统计,大学读者人均年读书量为18本,总校区的人数是19700人左右,经计算全校大概有6513人会借历史哲学类书籍,人均可借阅历史哲学类图书大约51本,这远远高于历史哲学类图书的需求量,因此,建议图书馆适量调节历史哲学类的馆藏量。
聚类分析用户阅读习惯后,发现图书馆应该尽快增添桌椅的摆放量,给用户提供更多的便利;同时随着互联网的发展,电子图书的形式更加受年轻一代的欢迎,我校可以进一步完善电子类图书的推荐系统,更好地为用户服务。
聚类分析用户阅读行为后,发现未充分利用图书馆学术资源的占49%,接近总用户的二分之一,其中47%的用户并不知道图书馆有相关学术资源,这是导致用户不能充分利用图书馆学术资源的主要原因,因此,图书馆应该针对学术资源这一问题进行有大范围的宣传,吸引更多的潜在用户。同时绝大部分的用户不会与他人分享阅读心得,针对这一情况,图书馆应该鼓励更多的用户互相交流,只有相互交流才能共同进步,体会阅读的真正内涵。
6 关键问题与应对策略
本课题研究中,虽然探索和研究了用户画像的许多方面,但用户是图书馆的核心,其用户心理和用户行为自始至终都是图书馆改善服务最主要的方面。所以,对用户的分析,本课题只是涉及了其中最基础的用户画像部分,对于用户的一些动态信息,如:用户心理、用户检索记录以及用户的兴趣的变更等方面还需要进一步的考量,用户需求建模的分析还有待于进一步研究,对于未来这方面的研究,本课题认为主要有如下的几个方面:
用户画像的标签系统,主要是依据用户目前的状况对用户进行分类归纳,在未来还可以利用各种科学技术对数据进行提取和挖掘,还可以去考虑用户的语言内容、学习内容、评论内容等,从而进行关键词的提取和建模,并且开发出以文本挖掘为核心引擎的标签体系。
由于数据的局限性,本课题论文实践方面还有进步的空间,利用用户画像,达到给用户精准推荐的目的。在未来的研究方面,还可以根据用户在图书馆的检索数据,去完善借阅图书系统的反馈机制,对用户画像模型中的标签进行及时的更新。
参考文献:
[1] 胡媛,毛宁.基于用户画像的数字图书馆知识社区用户模型构建[J].图书馆理论与实践,2017(4):82-85,97.
[2] 刘速.浅议数字图书馆知识发现系统中的用户画像——以天津图书馆为例[J].图书馆理论与实践,2017(6):103-106.
[3] 潘宇光.高校智慧图书馆读者信息需求的用户画像[J].合肥工业大学学报(社会科学版),2018,32(2):113-119.
[4] 韩梅花,赵景秀.基于“用户画像”的阅读疗法模式研究——以抑郁症为例[J].大学图书馆学报,2017,35(6):105-110.
[5] 杨燕.图书馆用户画像及其应用研究[J].四川图书馆学报,2018(1):63-65.
[6] 韦良珍.大数据环境下用户画像在图书馆的应用[J].中华医学图书情报杂志,2018,27(3):33-37.
[7] 王庆福.贝叶斯网络在用户兴趣模型构建中的研究[J].无线互联科技,2016(12):101-102.
[8] 张海旭,胡访宇,赵家辉.基于话单数据的移动通信用户画像研究[J].计算机系统应用,2018,27(11):271-277.
[9] 夏秀双.大数据环境下高校图书馆个性化信息服务研究[D].曲阜:曲阜师范大学,2015.
[10] 李巨伟.数据挖掘在高校图书馆个性化推荐服务中的应用[D].石家庄:河北科技大学,2018.
【通联编辑:王力】