基于Hadoop和Python的高校图书馆个性化服务的研究与应用

2019-05-22 09:26刘哲
无线互联科技 2019年6期
关键词:个性化服务高校图书馆大数据

刘哲

摘 要:大数据背景下,如何利用信息化技术,掌握在校学生的阅读习惯,在海量的图书资源中,快速有效地找到需要的书籍,为学生提供个性化服务推荐,是文章研究的主要目的。主要研究方法是通过Sqoop工具将北京中医药大学数据中心8 304名学生的图书借阅信息同步到Hadoop平台并进行整理,以Python作为数据处理语言,通过K-means聚类算法获取有相似阅读习惯的书籍。处理结果可以将有相似阅读习惯的学生挖掘出来,将他们所阅读的书籍作为互相推荐的依据,实现了个性化的图书服务。但当前的研究也存在局限性,即不包括半结构化的电子阅读信息的采集和分析。文章通过对研究进行结果分析,提供了一种个性化图书服务的框架和处理方法,并实现了个性化图书推荐,为提供个性化服务的研究提供了一种思路和方法。

关键词:大数据;高校图书馆;个性化服务

随着大数据和人工智能的到来,在信息爆炸的今天,传统的借阅方式已经不能满足高校学生高质量的阅读的要求。高校图书馆与学生之间不再是一个简单的借阅关系,而应该根据学生的兴趣爱好、阅读习惯、所关注的热点等信息,有针对性地快速提供个性化服务推荐[1],提高学生的阅读效率和质量。随着高校信息化的蓬勃发展,高校数据中心日趋完善,数据量指数级增长,大数据平台的数据存储与处理已经在高校中应用的越来越广泛。本文利用Sqoop工具[2],将学生阅读相关的数据同步到Hadoop平台[3]的Hive表中,利用Hive所提供的完整SQL语句对数据进行整理,对整理后的数据利用Python语言[4]进行分析,根据学生的阅读习惯进行聚类,找到相似阅读兴趣的学生,获取他们的阅读书籍,相互推荐,实现个性化服务。

1 中国图书馆图书分类方法

中国图书馆图书分类法[5]是按照图书的内容、形式、体裁和读者用途等,在一定的哲学思想指导下,运用知识分类的原理,采用逻辑方法,将所有学科的图书按其学科内容分成几大类,每一大类下分许多小类,每一小类下再分小类。最后,每一种书都可以分到某一个类目下,每一个类目都有一个类号。分类词表是层次结构的类号和类目的集合。中国图书馆分类法,简称《中图法》,现为第5版。包括马列主义、毛泽东思想,哲学,社会科学,自然科学,综合性图书5大部类,22个基本大类。

北京中医药大学图书馆的所有图书都是按照中国图书馆图书分类方法进行的分类,并且所有图书的基本信息都已经录入图书管理系统的数据库[6]。本文主要的研究方法,就是获取学生所有借阅图书的基本大类,按照分类号分组统计书籍的数量,确定学生借读的广度和深度,是否与本专业相关等信息,来了解学生个性化阅读的习惯。

2 基于Hadoop平台的数据采集

随着云计算、大数据等技术的兴起与发展,教育信息化领域也迎来了大数据技术带来的机遇和挑战。高校各业务系统和互联网数据的极速增长,利用海量数据分析和挖掘学生的行为轨迹、消费习惯,学习成绩、就业倾向,创建学生个人画像等,已经成为智慧化校园面对的挑战。

Hadoop是Apache基金会维护的分布式系统基础架构[7],它实现了一个分布式文件生态系统(Hadoop Distributed File System,HDFS),通过Map Reduce的技术,来满足海量数据存储和高性能的分析处理[8]。同时,Hadoop有HBase、Hive、Pig、Sqoop等众多开源项目的支持,形成了一个完善的、选择多样的大数据解决方案。Cloudera公司推出了Hadoop集成发行版本[9],极大地简化了大数据平台的部署和维护流程。本文选择了Cloudera的开源版本CDH5,构建了一个5台物理机节点的大数据分析平台(5个存储计算结点,2个管理节点),每个节点64 G内存,2路4核CPU,1 T的存储空间,各节点之间通过千兆以太网互联互通,完全能满足学校的数据分析需求。

本文采集全校8 304名在读学生的借阅数据,采用增量追加,编写Shell批量命令到文件SqoopTime.sh,设置每天执行一次,保持数据的同步。采集到Hadoop平台的数据,利用Hive中提供了类似SQL的完整查询语句,进行预处理,处理结果如表1所示,该表按分类号分组统计了每个学生的阅读量。

3 基于Python的数据分析与处理

通过HIVE预处理后的数据,并不适合数值计算或数据挖掘的格式[10],本文利用Python自带的数值分析库Pandas提供的pivot_table()函数,将预处理结果进行转换得到二维矩阵,表2是学生借阅图书分类矩阵。

3.1 获取阅读量排前的图书分类

热图(Heatmap)分析[11]是可以用颜色变化来反映二维矩阵或表格中的数据信息,它可以直观地将数据值的大小以定义的颜色深浅表示出来。常根据需要将数据进行物种或样品间丰度相似性聚类[12],将聚类后数据表示在heatmap 图上,可将高丰度和低丰度的物种分块聚集,通过颜色梯度及相似程度来反映多个样品在各分类水平上群落组成的相似性和差异性。Python提供了一个Seaborn库,它主要关注统计模型的可视化,该库提供了heatmap函数,反映二维矩阵的相似度聚类关系,可以得到所有图书22个分类的热图。

3.2 阅读量数字化分析与处理

统计出学生阅读总量后,我们通过Python语言Pandas包提供的describe()函数获取相关统计值[13],结果如表3所示。在校生中共有4 910人借阅过书籍,其中,平均借阅量3本,借阅量标准差4本,学生个人最大借阅量72本及借阅量的四分位数[14]的3个分割点分别为2、3、6。

分位数回归思想的提出至今已经有近30多年了,分位数回归在理论和方法上都越来越成熟,并被广泛应用于多种学科中。它对于实际问题能提供更加全面的分析,无论是线性模型还是非线性模型,分位数回归都是一种很好的工具。本文用四分位数将阅读量分为4個等级(见表4),这样我们就得到了每个在校学生阅读量数字化。

3.3 阅读种类数字化分析与处理

本文分析学生所借图书的种类,并将其作为学生阅读是否广泛的指标。首先,我们通过分组计数获取每个学生借阅种类数,再通过describe()函数获取统计值,结果如表5所示。平均借阅种类为4种,借阅种类标准差3种,学生个人最大借阅种类18种及借阅种类的四分位数的3个分割点分别为2、3、5。同样,用分位数将阅读种类分为4个等级,我们就可以得到每个学生在校借阅种类的数字化,如表6所示。

3.4 阅读兴趣的数字化分析与处理

通过对借阅图书的数量和种类分析得知,学生阅读量80%集中在前6个图书分类中。故而,我们只将阅读种类在前6的图书作为学生阅读兴趣的主要书籍。学生只要对这6类图书有借阅量,就认定该学生对该类图书感兴趣,可以得到该学生的阅读兴趣表,如果一个学生阅读兴趣的6位编码是101100,这表明该学生对R、B、H类的图书非常感兴趣。六位二进编码并不利于聚类计算,为了方便计算分析,本文对六位二进制编码转换为十进制,就得到每个学生阅读兴趣数字化分类结果(见表7)。

3.5 基于聚类分析的图书个性化推荐服务

经过以上分析,将编码后的结果,反映在一张表上,如表8所示,我们得到一个学生图书借阅总体情况表。K-means算法[15]是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。本文采用聚类算法对学生借况处理完的数据聚类,在同一聚类的学生是有相似的阅读习惯,他们之间的有着相似的阅读兴趣,从而将他们之间所阅读的书相互推荐,实现个性化的服务。

4 结语

随着大数据技术的不断完善,人们对服务质量的要求也越来越高,个性化服务已经成功的渗透到人们生活的各个方面。本文对高校数据中心所收集的全校学生的借阅信息研究与分析,在8 304学生中,有4 910人学生在学校图书馆里借阅过图书。学生的平均借阅量为3本,最大借阅量为72本。学生的平均借阅各类为4种,最多借阅种类18种。学生借阅量最多的前6种图书是:R(医药、卫生)—I(文学)—B(哲学)—K(历史、地理)—H(语言、文学)—J(艺术),分别代表了。本文还对每个学生的阅读量、阅读种类、阅读兴趣进行数字化分析和处理,将处理完的3个特征,采用K-means聚类算法,将有相似阅读习惯的学生挖掘出来,将他们所阅读的书籍作为互相荐,实现了个性化的图书服务。本文提供了一种个性化图书服务的框架和处理方法,目前是基于图书管理系统的结构化图书信息进行分析和处理,笔者下一步会对多半结构化的电子图书数据的采集、分析和处理进行深入研究,使该框架更加完善,为高校师生提供更加全面和精准的图书个性化服务。

[参考文献]

[1]何波,章宏远,裴剑辉.基于大数据的高校图书馆个性化服务研究[J].新世纪图书馆,2017(10):59-62.

[2]DEEPA K VOHR A.Apache sqoop[J].Practical Hadoop Ecosystem,2016(9):261-286.

[3]冯兴杰,王文超.Hadoop与Spark应用场景研究[J].计算机应用研究,2018(9):2561-2566.

[4]赵金晖.基于Python的数据处理和模糊层次聚类[J].无线互联科技,2018(14):141-142.

[5]王帅腾.基于《中分表》和标签的本体构建方法研究[D].长春:东北师范大学,2018.

[6]张静.图书管理系统数据库的优化设计研究[J].黑龙江科学,2018(20):23-24,27.

[7]兰舟.分布式系统中的调度算法研究[D].成都:电子科技大学,2008.

[8]毛国君.数据挖掘原理与算法[M].北京:清华大学出版社,2005.

[9]李杰.R科学计量数据可视化[M].北京:首都经济贸易大学出版社,2018.

[10]范明,孟小峰.数据挖掘概念与技术[M].北京:机械工业出版社,2008.

[11]雷金贵,李建良,蒋勇.数值分析与计算方法[M].北京:科学出版社,2017.

[12]范明,孟小峰.数据挖掘概念与技术[M].北京:机械工业出版社,2008.

[13]雷金贵,李建良,蒋勇.数值分析与计算方法[M].北京:科学出版社,2017.

[14]刘攀,冯长焕.基于四分位数的线性无量纲化方法与变异系数赋权法[J].平顶山学院学报,2018(2):22-26.

[15]袁文铎.基于改进k-means案例检索优化算法[J].计算机测量與控制,2013(7):1933-1934.

猜你喜欢
个性化服务高校图书馆大数据
互联网思维下数字图书馆个性化服务建设研究
需求理论在高校图书馆就业服务中的应用研究