姜莹莹,刘佳音
(南京航空航天大学 图书馆,江苏 南京 210016)
高校电子资源因其使用方便、快捷,已经成为师生重要的信息源,受到了广大师生的欢迎。电子资源下载量是衡量电子资源利用情况的最基本、最重要的指标之一。每个电子资源数据库后台记录了每天产生的大量下载记录数据,通过对这些数据进行分析,可以获得有利于资源建设的信息,从而掌握读者的利用行为,提升图书馆的服务质量。
电子图书(以下也简称为电子书)是图书馆馆藏资源建设和服务的重要文献类型。传统上,电子图书下载的分析指标主要是下载总量、平均下载量和篇均下载成本等,这些指标和方法在一定程度上揭示了电子资源的利用情况,但是无法深入分析读者和下载资源之间内部的关联。
本文希望通过更多的定量指标分析中文电子图书的利用数据,优化纸电馆藏比例,合理利用资源建设经费,服务更多的读者。
国外关于电子图书的研究主要集中在电子书的实际应用、系统构建、对图书馆的影响及未来发展、用户态度和行为研究、管理和成本定价等方面。电子书服务、技术以及对图书馆的影响和发展等均属于国内研究的重点内容[1]。国内外关于h指数和p指数的应用研究主要集中于评价研究者、研究机构、期刊、某领域的研究水平等。h指数和p指数不仅可以评价学术影响力,还可以用于其他相似领域中。周志峰[2]关于图书馆流通数据的h指数研究仅为h指数分析的应用示例,更多的是方法论上的意义,没有对分析结果中的图书集合和读者群的不同进行深入分析。钱玲飞[3]对图书馆OPAC数据进行了深入分析,利用h指数得出不同图书集合的“读者热衷度”,不同读者群的“借阅活跃度”以及不同图书集合的“核心读者”以及不同读者群的“核心图书”等。G. Prathap[4]利用h指数和p指数对图书馆馆流通数据进行评估,得出不同学科主题分类下图书h指数和p指数,评价馆藏中的优质领域、优质用户、优质图书,认为p指数在图书馆藏评价方面具有很好的适用性。
h指数是2005年由美国加利福尼亚大学圣地亚哥分校的物理学家乔治·赫希(Jorge Hirsch)提出的,其目的是量化科研人员作为独立个体的研究成果,被提出后就广泛应用于科学评价的各个领域。一名科学家的h指数是指其发表的Np篇论文中有h篇,每篇至少被引h次;而其余Np-h篇论文,每篇被引均小于或等于h次[5]。
p指数是由h指数发展而来,体现了数量(被引次数)与质量(平均被引率)的平衡。2010年,G. Prathap[6]认为(C2/N)1/3(N指载文量,C指被引次数)具有模拟h指数的功能,他开始使用hm来代表(C2/N)1/3,随后他又用p指数来代替hm,即p=hm=(C×(C/N))1/3。p指数延续了h指数的简洁计算过程,并且当h指数值相同而使得很多评价案例无法区分时,p指数能更合理地进行排名。
H指数虽然是针对评价科学家的学术成就提出的,但它的思想和方法可以被用于其他类似的领域中,图书馆中处于流通状态的图书和学者的论文相似,图书被借阅频次对应论文被引频次,可以像分析论文被引一样分析借阅数据,从而可以将h指数应用于图书馆借阅数据分析[3]。电子图书的下载数据类似于纸质图书(以下也简称为纸质书)的流通数据,图书下载次数对应纸质图书流通次数,这就成为国内外电子图书研究的重要手段之一,因此h指数和p指数可应用于中文电子图书的下载数据分析。
利用h指数和p指数对电子图书下载数据进行分析,而不是简单的统计电子图书下载量,一方面能够客观反映电子图书的利用状况和读者的借阅行为,另一方面可以确定核心电子图书和用户,可以体现电子图书利用的个性化特点。h指数和p指数简洁易计算,可操作性强,便于推广。h指数是局部考察,p指数则是整体评价,p指数较h指数视野更开阔[7],因此h指数可用于确定各大类的核心电子书和核心用户,p指数区分度好、支持动态变化排名,可用于确定优质电子书所在的类和优质用户所在的学院。
选取某中文电子图书数据库,此数据库中的中文电子图书分类按照馆藏纸本图书的分类,从后台系统中导出2017年至2019年的使用统计报告。电子图书下载的数据包含了用户下载图书的数据和图书被下载的数据这两部分。如果将这两个数据按照借阅频次进行排序,把电子图书的下载种数作为N,把这N种图书的下载次数作为C,就会形成h指数和p指数原始定义中载文量和引用量之间的关系,就可以计算h指数和p指数了。
按照h指数和p指数的计算方法,根据《中国图书馆分类法》(第五版)[8],计算22个大类的h指数和p指数,结果见表1。按照各类的h指数进行排序,结果如图1所示。
表1 各大类电子图书借阅的h指数和p指数Table 1 H-index and p-index of e-book download in various categories
Fig.1 H-index and p-index of e-book download in various categories图1 各类电子图书的h指数和p指数
从图1可以看出,O(数理化学和科学)、T(工业技术)、V(航空航天)这三大类电子图书下载的h指数和p指数均超过了20,S(农业科学)和Z(综合类图书)这两大类的h指数和p指数明显低于其他类。O、T、V这三大类电子图书的下载占总下载量的78.92%,S、Z这两类的下载量仅占总下载量的0.2%。p指数高的类,其电子图书利用率较高。因此本校用户对中文电子图书的利用主要集中在O、T、V这三大类。
我校是具有航空航天和民航特色的理工类高校,O类图书是理工专业学科的基础用书,V类是航空航天特色图书,T类是工业技术类图书,因此这三大类的电子书利用较好。我校没有农业类学科专业,用户对S类书籍需求很低,Z类图书的关注较少,因此这两大类的电子书的全年下载量、h指数和p指数均较低。
D(政治、法律)、E(军事)、P(天文学、地球科学)、Q(生物科学)、R(医药卫生)这五大类电子图书的h指数相同,B(哲学、宗教)、F(经济)、G(文化科学、教育、体育)、K(历史、地理)、N(自然科学总论)这五大类的电子图书的h指数也相同,但是p指数有差别,因p指数比h指数更具敏感度,p指数越高代表下载的图书越集中,所以F类存在高核现象(单本电子图书的下载次数大大超过了h值)或者长尾现象(未被下载的电子图书较多)。C(社会科学总论)、Q(生物科学)、X(环境科学、安全科学)这三类电子图书的h指数和p指数相差很小,说明这三类电子图书的下载较分散,因此p指数也具有一定的稳定性。
O、T、V类这三类电子图书的h指数较高,将这三类电子图书下载次数不少于h的电子书作为各类的核心电子书。O类核心电子书30种(详情见表2),T类核心电子书28种,V类核心电子书24种。O类30种核心电子书见表2(按照下载次数从高到低排序)。
表2 O类核心电子书Table 2 Core e-books of class O
续表2 O类核心电子书Continued Table 2 Core e-books of class O
由表2可以看出,O类核心电子书主要为近20年出版的图书,并且从这些电子书的馆藏纸本流通数据看,相应纸本的借阅次数也较多,说明纸本图书的流通与电子图书的下载密切相关。O类核心电子书p指数的差异较大,p指数越高说明此类图书的下载种数和次数越高,用户对此类图书的需求越高。p指数最高的类为O241.82,其种数占O类核心电子书总种数的50%,应为以后纸电图书采访优先类。
布拉德福定律既适用于特定主题期刊管理,而且能应用于藏书管理[9]。并且期刊下载次数表现出布拉德福分布的特征,电子图书的下载也类似。根据布拉德福文献规律[10],将O类电子图书按照下载量多少,以递减顺序排列划分为3个下载量基本相等的区域,其中电子图书种类最少的区域为核心区域,即核心类电子图书。计算这些核心类的p指数,见表3(按照下载次数递减排序)。
由表2可以看出,分类号为O241.82有15种电子图书,O343有2种电子图书,O151.2有2种电子图书,O35、O441.4、O313、O211.6各有1种电子书,属于核心电子书。由表3可以看出O241.82、O151.2、O35、O343、O441.4、O313、O211.6属于核心类。由此可以看出偏微分方程的数值解法(包含有限元和模态分析)和弹性力学这两类类图书入选核心图书较多,并且属于下载较多的核心类。线性代数和电磁波与电磁场也是我校师生利用较多的电子图书类。力学是我校的双一流学科和国家重点学科,因此O35、O342、O343、O313这类图书的利用较好,p指数均为10左右。但O342没有核心图书,可能与纸质图书的副本和借阅频率相关。T类和V类的核心电子书和核心类以相同的方法统计确定核心图书和核心类,在此不再赘述。
表3 O类图书的核心类Table 3 Core classes of class O
分析不同类型用户的下载情况,可以了解不同类型用户利用中文电子图书的区别。分析的用户类型包括本科生、硕士研究生(包含学术硕士研究生、专业硕士研究生、工程硕士研究生和进修硕士研究生)、博士研究生、教职工及其他,计算各类用户的h指数和p指数如表4所示。
表4 各类用户的下载h指数和p指数Table 4 h index and p index of various users
由表4可以看出,硕士研究生的h指数和p指数最高,其次是博士研究生和本科生,可能与硕士研究生和博士研究生的利用习惯有关系。
将每类用户下载次数不小于h定义为核心用户,因p指数较h指数的敏感性高[11],而各类用户的p指数和h指数相差不大,说明核心用户比较稳定。对核心用户所在学院进行分析,选取核心用户数量排名前3的学院如表5所示。
表5 各类用户中核心用户数量TOP 3的学院Table 5 TOP 3 colleges of core users
由表5可以看出,机电学院、航空学院、民航飞行学院、自动化学院的核心用户数较多,说明这几个学院的学生有良好的学习习惯和中文电子图书利用习惯。
以适当的方式采购电子书进行数字资源建设,是当前图书馆业务转型的关键之一。纸质书与电子书的配合是近年图书市场的热门话题[12]。不同的用户对电子书的认知度存在很大差异,因此对电子图书的利用就存在很大差异。如何提高中文电子图书的利用率,并使图书馆的纸电图书分配合理,是图书馆做好文献资源建设的主要研究课题。目前本校纸质图书采访的副本为2至3本,并且本校有多个校区,平均下来可能每个校区只有1本,对利用带来一定的制约,因此中文电子图书的保障显得尤为重要。
通过利用h指数和p指数对中文电子书的下载数据进行分析发现。
第一,本校用户在中文电子图书的利用上倾向于自然科学领域。O类、T类和V类的h指数和p指数最高,此三类中文电子书可优先保障。F类的p指数比h指数高60%以上,存在高核现象或者长尾现象。需要细分D、F这两大类图书中下载较多的小类,在以后电子图书的采访中优先保障这些图书。
第二,O类电子图书h指数最高,说明O类电子图书利用较多。分析O类电子图书的小类,根据p指数确定的O类的核心类电子图书可在图书馆主页、微信平台等进行推广。
第三,硕士研究生和博士研究生对中文电子图书的利用较高,本科生最低,可能本科生倾向于纸质书。机电学院、航空学院、民航飞行学院、自动化学院的核心用户数最多,说明这几个学院的学生有良好的学习习惯和中文电子图书利用习惯。因此可对此类用户的中文电子书需求优先保障。
本文通过分析中文电子书的利用情况得出了一些有益的结论,可以指导图书馆优化馆藏资源,了解用户对不同类别电子图书的阅读需求,从而做好文献资源建设,提升高校图书馆的服务质量。但本文研究还有一些不足的地方:第一,还有需要进一步细化的地方,比如存在高核或者长尾现象的类在资源保障上按照学科需求、馆藏需求进行细化。第二,统计数据还有些单薄,前期先利用小数据做一些工作,后期随着数据的积累需继续深入研究。第三,统计方法也可以改进,比如考虑不同类型图书的总量、不同类型用户的总人数等。第四,统计指标选择上较单一,比如还可以利用其它H类指数中的A指数和G指数等进行分析,为避免单一指标应用的风险,综合多指标的综合评价,提高中文电子图书的利用率,使纸电图书配置合理,还需进一步的研究和探索。