基于h指数的OPAC数据分析及应用*:以南京航空航天大学图书馆为例

2012-12-06 02:32:24钱玲飞汪荣
大学图书馆学报 2012年2期
关键词:读者群类图书图书

□钱玲飞 汪荣

1 引言

文献借阅是高校图书馆传统读者服务工作中最基本、最主要的内容之一,随着自动化技术在图书馆的广泛应用,联机公共检索目录(OPAC)系统每天产生大量的图书借阅记录数据,通过对这些数据的统计与分析,可以获取有利于组织管理和文献服务的信息,掌握读者的阅读倾向以及图书的借阅状况,提升服务质量,开展深层次服务工作。

h指数由美国学者赫希(Hirsch J.E.)于2005年提出,最初用于评价科学家成就。h是指科学家发表的h篇论文每篇论文的被引次数至少为h[1-2]。h指数是一个相对较简单并且易于理解的复合指标。自提出h指数的概念后,国外对于h指数及其衍生指数的理论研究和应用研究很多,其中应用在图书情报领域的主要有对于图书馆员的评价[3],对于图书情报领域的学术研究水平的评价[4],对于图书情报领域的期刊评价[5],但是未见对于借阅数据分析的评价。国内第一篇关于h指数的文章是2006年1月发表于《科学观察》的《也谈h指数的机会和局限性》[6],这是一篇翻译的文章,此后有越来越多的国内学者开始研究h指数。国内学者对于h指数的研究主要是应用研究,其应用领域有大学h指数研究[7]、期刊h指数研究[8-10]、科研人员h指数研究[11-12],仅有一篇文章是关于图书馆流通数据的h指数研究[13],但是只是应用示例,没有对结果进行深入分析。

虽然h指数是针对学术评价提出的,但它的思想和方法可以被用于其他类似的领域中。图书馆中处于流通状态的图书和学者的论文相似,图书被借阅频次对应论文被引频次,可以像分析论文被引一样分析借阅数据,从而可以将h指数应用于图书馆借阅数据分析。

2 h指数在OPAC数据分析中的意义

在传统上,对流通数据分析、评价的指标一般是借阅频次(如图书集合的借阅量、读者群的借阅量等)和平均借阅量(如图书的平均借阅量、读者的平均借阅量等),这两种指标一般是基于简单统计的方法[14-16]。用传统指标和方法虽然能够在一定程度上揭示图书馆运营和读者利用图书的状况,但存在明显的不足。比如,利用简单统计得出的借阅频次只是客观数字的集合,无法在图书集合(读者群)之间进行客观的比较,也无法确定相对公正的界线来衡量和确定核心图书和读者;平均借阅量抹杀和掩盖了图书集合(读者群)内部的差别,以致无法进行客观的比较。近年也出现利用数据挖掘、关联规则分析方法对流通数据进行分析,从而挖掘出一些深层信息[17-19]。利用这些方法虽然可以得出一些深层信息,但是比较复杂,不够直观,可操作性不强,结果受人为参数设定的影响较大。

图书借阅h指数相对于传统评价指标和方法的优势在于增强了图书集合(读者群)之间的可比性,能够更加客观地反映图书利用状况和读者的借阅情况;另一方面,通过图书借阅h指数也可确定核心图书和读者,改变传统的图书借阅排行榜整齐划一地列出前n名的局面,体现图书集合(读者群)的个性化特点。h指数作为一种直观有效的指标,相对于数据挖掘、关联规则分析方法,其计算方法相对简单,可操作性强,便于在图书馆实际应用中推广。

3 h指数在OPAC数据分析中的应用

图书馆借阅数据在逻辑上由紧密相关、不可分割的两个部分组成:一是读者借阅图书的数据;二是图书被借阅的数据。如果将这两个数据按照借阅频次进行排序,就会形成一个类似于h指数原始定义中论文数与引文数的数据序列,从而可以计算相应的h指数。本文从汇文系统数据库中提取2009年的借阅数据,分两部分统计,第一部分按照《中图书馆分类法》,将各大类图书的借阅情况进行统计分析;第二部分为对读者进行分类,分为本科生、硕士生、博士生、教师、博导等,然后对各类读者借阅情况进行统计分析。

3.1 各大类图书的借阅情况统计及分析

按照h指数计算方法,表1中,A类图书中共有13种书的借阅次数不小于13,得A类图书2009年的借阅h指数为13。其他类别的图书以相同的方法统计,结果见表2。

表1 A类图书借阅情况表

表2 各类图书借阅的h指数

将各类图书借阅的h指数排序,结果如图1所示:

图1 2009年各类图书借阅的h指数

从图1可以看出,I类(文学类)、O类(数理科学和化学类)和T类(工业技术类)图书借阅的h指数大于50,明显高于其他类,X类(环境科学安全科学类)、S类(农业科学类)图书借阅的h指数小于10,明显低于其他类。I类图书属于文学类,读者群广泛,故其h指数高,O类图书是数理化基础学科,由于我校是理工类院校,大部分专业学生在学习时都要用到这类图书,所以其h指数高。同样的,我校没有农业类专业,一般学生对这类书没有需求,所以,农业科学类图书借阅的h指数最低。其次是环境科学类图书借阅的h指数较低,与读者对这类问题关注较少也有关系。

由于I类、O类、T类图书借阅的h指数很高,有必要对这几类图书进行深入分析,为此,我们提出核心图书的概念,即,满足借阅次数不小于h的图书称之为核心图书。I大类的核心图书共68种,对这68种图书进行分析,这些图书的分类号与入选数如图2所示(为简洁起见,入选数为1的未作分布图统计):

图2 文学类核心图书分布

图3 O类核心图书分布

图4 T类核心图书分布

从图2可以看到,I247(当代小说)类入选核心图书数最多,占77%。从图3和图4可以看到,数学类和计算机类的习题集入选核心图书较多。这说明,图书馆的核心图书对学生的自学有很大帮助。TP312(程序语言、算法语言类)的图书居T类核心图书之首,说明这类图书的需求量很大。另外,TP312MA类图书(Matlab类)的图书入选数为各类语言之首,说明作为工科院校,我校师生用Matlab作为实验和仿真工具较多。

3.2 各类读者的借阅情况统计及分析

为了分析不同读者类型的借阅状况,本文提出读者借阅h指数的概念,即对读者进行分类,分为本科生、硕士生、博士生、教师及其他(主要包括成人教育、后勤机关、通用借书证用户等),然后对各类读者借阅情况进行h指数统计分析,结果见表3。

表3 各类读者借阅h指数

从表3可见,本科生借阅h指数最高,其次是硕士生和博士生,这与本科生的课程最多、课程种类最广有很大联系。按照核心图书的定义,借阅次数不少于h的读者称为核心读者,对本科生、硕士生和博士生核心读者的专业进行分析,各院系核心读者总数前5的数量如表4所示:

表4 各院系核心读者排名前5的数量

从表4可见,机电学院、自动化学院、航空宇航学院的核心读者最多,其次是信息科学与技术学院、能源与动力学院,这几个学院正是我校实力最强的学院,这说明,这些学院的学生有较好的学习习惯,能够积极利用图书馆的资源。另一方面,从这些分析可见,图书馆应该优先保障这些重点学院的资源,以获得较高的资源利用率。

4 结语

图书馆在为读者提供功能强大、形式多样的数字化资源服务的同时,如何提升传统文献资源的信息服务质量,是图书馆全面做好读者服务工作要研究的重要课题。h指数自被提出后,现已在学术评价、期刊评价、学术机构评价等方面得到充分的研究,并在实践中得到了应用。随着计算机网络在图书馆中的广泛应用,图书馆积累了大量的图书借阅数据,通过对OPAC信息库中记录的图书借阅数据进行h指数分析,可以指导图书馆优化馆藏资源,了解读者对不同类别文献的阅读需求,从而全面提升高校图书馆的服务质量。

本文以2009年数据为例进行借阅h指数分析,得出了一些有益的结论。今后还需要进一步细化分析,如进行各类图书不同年度的借阅h指数分析,核心图书的借阅读者分析,核心读者的借阅图书的分析等。同时,在计算h指数的时候,也可以改进统计方法,比如,统计图书排名时考虑此类图书的馆藏数,统计学院排名时考虑学院的总人数等,尽量做到客观公正。

1 Hirsch J E.An Index to Quantify an Individual's Scientific ResearchOutput.Proceedings of the National Academy of Sciences of the USA,2005(46):16569-16572

2 Rousseau R.New Developments Related to the Hirsch Index.科学观察,2006(4):23-25

3 Oppenheim,Charles.Using the h-index to rank influential British researchers in information science and librarianship.Journal of the American Society for Information Science and Technology,February 2007,58(2):297-301

4 Sanderson,M.Revisiting h measured on UK LIS and IR academics[J].Journal of the American Society for Information Science and Technology,May 2008,59(7):1184-1190

5 Onyancha,O.B.A Citation Analysis of Sub-Saharan African Library and Information Science Journals using Google Scholar.African Journal of Library,Archives &Information Science,Oct.2009:19(2):101-116

6 刘俊婉译.也谈h指数的机会和局限性.科学观察,2006(1):10-11

7 万锦堃,花平寰,赵呈刚.中国部分重点大学h指数的探讨.科学观察,2007(3):9-16

8 赵基明.h指数及其在中国学术期刊评价中的应用.评价与管理,2007(4):14-20

9 刘银华.h指数评价期刊的有效性分析.情报理论与实践,2007(6):809-811,815

10 姜春林等.H指数和G指数—期刊学术影响力评价的新指标.图书情报工作,2006(12):63–65

11 邱均平等.h指数在人才评价中的应用—以图书情报学领域中国学者为例.科学观察,2007(3):17-22

12 陈亚芬.H指数在科研人员业绩评价中的应用.科学管理研究,2008(5):52-54,85

13 周志峰.h指数应用于图书馆借阅数据分析的探索.图书馆建设,2009(11):82-84,89

14 周清华.从借阅数据分析读者的阅读特点.科技情报开发与经济,2005,(2):65-67

15 许智林,王小华.分析数据寻找规律 科学管理优化服务—陕西理工学院(北区)2004~2005学年图书借阅情况统计分析.现代情报,2006,(4):126-128

16 周佳丽.借阅数据分析背景下的馆藏结构调整建议—以江苏技术师范学院为例.图书馆学刊,2009,(7):87-90

17 张鲁.数据挖掘技术在读者借阅行为分析中的应用.情报杂志2005,(6):36-37,40

18 彭仪普,熊拥军.关联挖掘在文献借阅历史数据分析中的应用.情报杂志,2005(8):40-41,44

19 温嵘生.基于OPAC信息库图书借阅数据关联挖掘分析与应用.情报杂志,2007(7):61-63

猜你喜欢
读者群类图书图书
图书推荐
南风(2020年22期)2020-09-15 07:47:08
欢迎来到图书借阅角
新形势下教育类图书编辑如何全面提升编辑素质
新闻传播(2018年2期)2018-12-07 00:56:02
从《新晚社区报》看读者群顶层设计思路
新闻传播(2018年7期)2018-12-06 08:57:54
班里有个图书角
航天类图书的出版现状与选题策划研究
新闻传播(2015年4期)2015-07-18 11:11:31
从一本书的出版到一门课程的建设:浅谈教育类图书编辑的作用
新闻传播(2015年12期)2015-07-18 11:02:41
读者群
编辑如何挖掘特殊读者群?
出版广角(2014年7期)2014-05-29 23:57:29
新媒体环境下小说类图书的创意营销研究
出版与印刷(2014年2期)2014-01-03 07:45:24