Altmetrics 评价视域下社会化阅读平台图书评分数据可用性研究
——以豆瓣读书为例

2021-12-06 07:58:22兰雪，韩毅

农业图书情报学刊 2021年11期

兰雪，韩毅

（西南大学计算机与信息科学学院，重庆 400715）

1 引言

随着互联网的发展，人们通过社交网络粘合于虚拟社区之中。人们的某些行为或习惯在互联网的影响下慢慢发生改变，获取知识的阅读行为与方式也在网络的推动下发生了潜移默化的改变，互联网时代的阅读正逐渐演变为一种集体行为、社会化行为。人们阅读书籍、标记书籍、分享书籍，或是在社交网站发布书评，与陌生的网友沟通交流，社会化阅读平台应运而生，豆瓣读书、天涯读书、Goodreaders 等是其中的典型代表。豆瓣读书是中国最具代表性的网络读书社区，它以图书为中心，建立起关于图书的社区[1]，是当前运营比较成功、比较成熟的社会化阅读平台。

豆瓣评分是由许多阅读过该书的用户基于个人认知对图书进行评价所得到的平均分，它成为许多用户阅读选择的一个重要参考，社会化阅读平台中的图书评分也被学者作为图书评价指标体系中的一个指标，尤其在Altmetrics 评价提出之后，社交平台的各项指标也被尝试纳入科技评价中。然而，各社会化阅读平台图书评分数据是否可用值得商榷。本文以豆瓣读书平台为例，分析其图书评分数据作为图书Altmetrics 评价的数据可用性。

2 相关研究

社会化阅读是一种以读者为核心，注重读者与读者之间、读者与内容之间的分享、互动与传播的全新阅读模式。与以书为核心内容的传统阅读模式相比，该方式更加注重人和阅读社交，倡导UGC（User Generated Content，用户生成内容），注重共同传播与营利，在多方位互动的基础上，实现阅读价值的无限放大[2]。梁育浩[3]以豆瓣网旗下的“豆瓣读书”和“豆瓣阅读”两个板块构成的社会化阅读平台为研究对象，梳理出豆瓣网从“豆瓣读书”以图书评论推介为主的平台发展为兼具数字阅读和自出版功能的社会化阅读平台的发展过程，探究了其发展过程中的优势和阻力。

图书评价方法多样，包括书评、基于图书馆的图书评价、图书被引、基于Altmetrics 的图书评价和综合图书评价等。同行评议直接反映图书的创新程度、学术价值和内容质量[4]。何峻[5]指出书评反映了读者对一本书质量的主观性见解和价值判断，对于图书宣传促销、引导读者阅读、提高图书质量都有积极的作用，是中国当前图书评价的一种重要形式，但是各种书评鱼龙混杂，真正优秀、有质量的书评为数不多。陈芳芳[6]根据模糊综合评价理论，建立了一个用于定量评价图书使用效益的数学模型，将图书馆图书使用效益的指标划分为6 个：借阅次数、预约次数、点击次数、收藏次数、一般读者评分、专家评分。张海营[7]将营销学上常用的RFM（Recency、Frequency 和Monetary）模型应用于图书馆研究领域，将RFM 重新定义为图书最近被借阅时间（R）、被借阅次数（F）和被借阅总时间（M），最终将这3 个指标整合成图书评价因子，提出基于RFM 模型的图书评价系统。WHITE 等[8]认为目前对人文社会科学类图书的评价相比报刊或技术类的研究成果不够多，提出采用引文指标的图书质量评价测量方式。杨思洛等[9,10]从引文分析角度分别对图书情报、档案学图书影响力进行统计，从图书影响力、出版社影响力、作者影响力和年代影响力以及高影响力图书同被引情况等方面进行了统计分析。

美国学者PRIEM 在其Twitter 上提出了Altmetrics，它是在以数字图书馆、开放存取（OA）、Web2.0、移动及社交网络、自媒体、在线科研及MOOCs、大数据等为代表的新学术信息环境下的一系列新的计量指标及方法，雷淑义等[11]认为Altmetrics 正在成为一种更易实施的学术图书影响力分析评价新方法。魏佳文等[12]对豆瓣读书平台上中文学术图书短评的产生动机进行分析，认为“讨论”类短评数据可用于评价中文学术图书价值，而“分享”“消遣娱乐”“外界压力”“情感宣泄”和“资料获取”等动机相对来说难以较好地反映用户对图书的态度和认知。姜春林等[13]研究发现，由于不同学科知识属性与研究范式不同，理学学科的基础性与专业性、工学学科的实践性、人文学科的历史性、社科类的社会广泛性、医学类学科的兼具基础性与实践性，导致不同学科的产出量、引用行为、讨论度存在差异，Bookmetrix 各指标数值特征存在学科差异，指标间相关性亦呈现学科差异。肖敖夏等[14]基于Bookmetrix 指标建立学术图书因子综合得分模型，对学术图书的影响力进行综合分析，并讨论利用Bookmetrix 指标对学术图书影响力进行评价的价值，研究发现利用Bookmetrix 指标评价学术图书对传统计量指标具有一定的补充价值，但仍存在较多不足。韩毅[15]认为Altmetrics 的计量结果与传统以引文为基础的科技评价是相互补充关系，应当将两者融合进行综合评价。

综合图书评价方法则融合多个维度对图书进行评价。张玉等[16]采用的定性综合评价指标主要有：书评、专家评价和网络书评，定量综合评价指标包含图书引用、图书利用和基金资助与奖励。王伟等[17]以人文社会科学外译图书为研究对象，从外译图书学术影响和社会影响两个方面出发构建10 个维度细化评价指标，利用熵权法计算各项指标的权重，加权平均得到学术影响力和社会影响力得分，并对中华学术外译项目资助的外译图书进行实证分析。

在信息领域中，可用性的最初研究大都集中于计算机软硬件，近年来可用性理念开始逐渐渗透到数据领域。数据可用性具有很多度量指标，李建中等[18]用数据一致性、数据精确性、数据完整性、数据时效性以及实体同一性来衡量数据可用性。聂磊等[19]参考社会调查数据评估已有研究，认为网络行为数据的适用性主要包括两方面内容，数据中样本能有效推估总体的程度以及基于特定数据进行的测量能在多大程度上反映研究概念的真实含义。

本文将以典型的社会化阅读平台——豆瓣读书平台上的图书评分数据为对象，将豆瓣图书评分与传统的图书引文评价作相关性分析，分析豆瓣图书评分数据作为图书Altmetrics 评价数据的可用性。

3 数据与方法

3.1 数据搜集

本文的研究对象是“豆瓣读书”平台上不同学科的图书，聚焦于这些书籍的读者评分数据。

（1）样本的选取采用分层抽样方法，从《读秀中文图书被引用情况报告（2020）》[20]22 个大类图书分别选择30 本图书作为分析对象，在各大类中采取简单随机抽样，采集所对应的书名、出版年、作者、被引用次数并保存到Excel 表中。由于《读秀中文图书被引用情况报告（2020）》中部分大类图书数量较少，为了对尽量多的大类图书进行分析，基于报告中各个大类图书数量的综合考量，选取了满足相关性分析的最低样本数量，即每个大类选择30 本图书进行分析。而《读秀中文图书被引用情况报告（2020）》中的图书被引用数据为图书引用图书的数据，为保证图书被引用数据的完整性，在中国引文数据库（CCD）中检索获取每本图书的期刊、学位论文及会议论文引用数据，形成完整的图书被引用数据。

（2）对于选定的图书对象，于2021 年1 月15 日通过书名和作者在豆瓣读书平台中检索相应图书（由于读秀提供的出版年所对应的图书版本大多数不存在相对应的豆瓣评分，因此未将出版年作为检索项），获取其豆瓣评分数据，对于豆瓣读书平台上不存在的图书或没有豆瓣评分的图书，则将其删除后重新在《读秀中文图书被引用情况报告（2020）》中随机选择图书作为分析对象并获取其豆瓣评分数据。

3.2 数据处理方法

将收集的数据按图书大类分别整理录入到Excel 表中，添加被引用次数排名和豆瓣评分排名数据。《读秀中文图书被引用情况报告（2020）》中部分大类图书对应的豆瓣评分数据量不足30 本，统计发现这些图书大类均为自然科学部类，在数据分析时仅对数据量完整的部分图书大类数据进行单独分析，其余数据将作为自然科学部类图书整体分析样本的一部分。各大类图书数据的收集情况详见表1。

表1 各个大类图书数据收集情况单位：本Table 1 Books data collection of various categories

4 数据分析与研究结果

4.1 数据分析方法

为了识别图书被引用次数与豆瓣评分之间的相关性大小，选择的数据分析方法为相关分析。图书被引用次数的数值相对较大，因此对其进行自然对数转换处理，对于满足正态分布的连续数据采用皮尔逊相关分析，对于其他不满足正态分布的连续数据，则对其数据采用斯皮尔曼相关分析。

4.1.1 单样本K-S 检验

单样本K-S 检验是利用样本数据推断总体是否服从某一理论分布的方法，适用于探索连续型随机变量的分布形态。对所有数据量完整的图书大类（A、B、C、D、E、F、G、H、I、J、K、R、T、Z）以及各图书部类和全部图书的数据分别进行单样本K-S 检验，分析判断各大类图书数据是否满足正态分布（由于被引用次数相差甚大，因而先对其进行自然对数转换再进行单样本K-S 检验）。A 类图书被引用次数对数转换数据和豆瓣评分数据的单样本K-S 检验分析结果详见表2。

表2 A 类图书数据单样本K-S 检验结果Table 2 Single sample K-S test results of class A books

由表2 可见，A 类图书被引用次数对数转换数据和豆瓣评分数据的渐进显著性均小于显著性水平0.05，因此拒绝原假设，即被A 类图书的被引用次数对数转换数据和豆瓣评分数据的总体分布与正态分布存在显著差异，不满足正态分布。对各大类数据及各部类数据进行单样本K-S 检验，最终得到被引用次数对数转换数据和豆瓣评分数据均符合正态分布的图书大类为C、D、E、F、H、I、J、R 和T 共计9 类，A、B、G、K 和Z 5 个大类的被引用次数对数转换数据和豆瓣评分数据不能同时满足正态分布。就五大图书部类而言，两个变量数据均不能同时满足正态分布，因此采用斯皮尔曼相关分析。

4.1.2 皮尔逊相关分析

针对符合正态分布的图书大类，即C、D、E、F、H、I、J、R 和T 类图书，采用皮尔逊相关系数来分析被引用次数对数变换数据与豆瓣评分两个变量之间的相关性。各类图书的两个变量之间的皮尔逊相关系数详见表3。

表3 C、D、E、F、H、I、J、R 和T 类图书的被引用次数对数变换数据与豆瓣评分变量之间的皮尔逊相关系数Table 3 Pearson correlation coefficient between logarithmic transformation data of book citations of C,D,E,F,H,I,J,R and T and Douban rating score

在以上9 个大类中，E 类、J 类、R 类和T 类4 个大类图书的被引用次数与豆瓣评分排名的斯皮尔曼相关性的显著性均大于0.05，即两变量之间不存在显著相关性。对于D、F 和I 这3 个大类，被引用次数对数转换数据与豆瓣评分之间的皮尔逊相关系数在0.3～0.5之间，且D 类的显著性小于0.01，F 和I 类的显著性小于0.05，认为两个变量之间存在低度相关。在C、D所在的2 个大类中，图书的被引用次数对数转换与豆瓣评分的皮尔逊相关系数均介于0.5～0.8 之间，且显著性均小于0.01，表示两个变量之间存在显著中度相关关系。

4.1.3 斯皮尔曼相关分析

对于数据量为30 但数据不符合正态分布的图书大类（即A、B、G、K 和Z 这5 个图书大类）的图书被引用次数排名与豆瓣评分排名采用斯皮尔曼相关分析，斯皮尔曼相关系数用于度量两个等级变量之间的线性相关。各大类图书的两个变量之间的斯皮尔曼相关系数详见表4。

表4 A、B、G、K 和Z 类图书的被引用次数排名与豆瓣评分排名变量之间的斯皮尔曼相关系数Table 4 Spearman correlation coefficient between the book citation ranking of A,B,G,K and Z and Douban ranking score

在以上5 个大类中，图书的被引用次数排名与豆瓣评分排名的斯皮尔曼相关系数均介于0.5～0.8 之间，且显著性均小于0.01，表示两个变量之间存在显著中度相关关系。

按照学科部类整理统计数据，并分析各部类图书的被引用次数排名数据与豆瓣评分排名数据的相关性，得到各部类图书两个变量之间的斯皮尔曼相关系数，结果详见表5。

表5 各部类图书的被引用次数排名与豆瓣评分排名变量的斯皮尔曼相关系数Table 5 Spearman correlation coefficient between the book citation ranking for each category and Douban rating score

由表5 可见，自然科学部类图书的被引用次数与豆瓣评分两变量之间的斯皮尔曼相关系数为0.191，小于0.3，可认为不存在相关关系。社会科学部类图书的被引用次数排名与豆瓣评分排名变量之间的斯皮尔曼相关系数为0.418，存在低度相关关系。马克思主义列宁主义毛泽东思想邓小平理论、哲学及综合性图书的被引用次数与豆瓣评分两个变量之间的斯皮尔曼相关系数均在0.5～0.8 之间，存在中度相关关系。整体而言，图书被引用次数与豆瓣评分变量之间的斯皮尔曼相关系数为0.468，即两个变量之间存在低度相关关系。

4.2 数据分析结果

4.2.1 各大类图书的社会化阅读平台评分数据可用性

从以上研究结果可以看到，马克思主义列宁主义毛泽东思想邓小平理论（A）、哲学宗教（B）、社会科学总论（C）、政治法律（D）、经济（F）、文化科学教育体育（G）、语言文字（H）、文学（I）、历史地理（K）、综合性图书（Z）共计10 个大类图书的被引用次数与豆瓣评分数据之间的相关系数大于0.3，且显著性小于0.05，即存在一定的相关性，因此可以认为这些大类的豆瓣评分数据可在一定程度上反映了图书的社会影响力，社会化阅读平台评分数据一定的可用性，可以作为图书Altmetrics 评价指标的数据来源。

其中，社会科学总论（C）、政治法律（D）、经济（F）、文化科学教育体育（G）、语言文字（H）、文学（I）、历史地理（K）7 个大类图书均属于社会科学，社会科学部类中仅军事（E）和艺术（J）大类图书的被引用次数与豆瓣评分数据之间不存在相关关系，进一步说明社会科学类图书的社会影响力更容易凸显。

而自然科学各个大类图书被引用次数相关数据与豆瓣评分相关数据之间的相关性均不显著，因此对自然科学图书进行评价时，应慎重考虑是否将社会化阅读平台的评分数据作为评价指标。并且，在数据搜集过程中发现，相对于其他部类图书而言，更多的自然科学图书在豆瓣读书平台中由于评分人数小于10 人而无法获取到其豆瓣评分数据，部分存在豆瓣评分的自然科学图书，其评分人数也远远小于其他部类图书的评分人数。这些表明，自然科学图书，由于其知识社会扩散壁垒较高，其社会影响力较难展现出来。

4.2.2 各部类图书的社会化阅读平台评分数据可用性

马克思主义列宁主义毛泽东思想邓小平理论、哲学和综合性图书3 个部类的社会化阅读平台图书评分数据具有较好的可用性。这3 个部类图书被引用次数相关数据与豆瓣评分相关数据之间的相关系数介于0.5～0.8 之间，存在中度相关关系，且数据搜集过程中发现只有小部分图书在豆瓣读书平台中没有形成豆瓣评分，评分人数差距甚大，最多的有万余名用户对图书进行了评分。因此可认为这3 个部类图书的豆瓣评分能够在一定程度上反映图书的社会影响力，在对这3个部类图书进行评价时，社会化阅读平台评分数据具有较好的可用性，可以作为图书Altmetrics 评价指标的数据来源。

社会科学部类的社会化阅读平台图书评分数据具有一定的可用性。其图书被引用次数与豆瓣评分之间的相关系数为0.418，两个变量之间存在低度相关关系，豆瓣评分能体现一定的图书社会影响力。社会科学部类图书在所有图书中评分人数相对较多，文学大类图书尤为显著，文学作品较其他专业图书的受众更为广泛，《百年孤独》《挪威的森林》等的评价人数在30 万左右，少量异常评分不影响图书豆瓣评分的最终结果，能反映社会化阅读平台大众对图书社会影响力的评价。虽然社会科学部类各大类图书被引用次数与豆瓣评分数据之间的相关程度不一，但是豆瓣评分数据总体而言能够在一定程度上反映图书的社会影响力，将豆瓣评分作为社会科学图书Altmetrics 评价指标数据来源有一定的可行性。

对自然科学部类图书而言，社会化阅读平台评分数据可用性较差。其图书被引用次数与豆瓣评分之间的相关系数为0.195，可以认为两个变量之间不存在显著相关关系，表明豆瓣评分数据所反映的社会影响力与图书学术影响力间是完全不同的两个变量，主要原因可能在于自然科学部类图书受众相对较小，图书专业性更强，普通的社会化阅读平台用户并不关注自然科学部类图书，少量受其影响较大的用户评分就会对整体评分产生较大的影响，导致评分数据的可靠性、可信性不强。因此在对自然科学部类图书社会影响力进行评价时，不建议将社会化阅读平台的图书评分作为图书Altmetrics 评价指标的数据来源。

总体而言，社会化阅读平台图书评分数据具有一定的可用性。在具体大类图书质量评价时，确定图书评价数据来源时要审慎选择。对于马克思主义列宁主义毛泽东思想邓小平理论、哲学图书、社会科学图书以及综合性图书进行评价时，可以考虑将社会化阅读平台的评分数据纳入其中，作为图书Altmetrics 评价指标的数据来源。而针对自然科学图书的质量评价，暂时不宜选择社会化阅读平台的评分数据。

5 总结与展望

5.1 小结

本研究分析结果表明，图书豆瓣评分与被引用次数之间存在显著正相关；不同学科豆瓣平台图书评分数据可用性存在差异。因此，社会化阅读平台图书评分数据具有一定的可用性，在对不同大类图书进行评价时应谨慎考虑是否使用社会化阅读平台图书评分作为图书Altmetrics 评价指标的数据来源。

（1）对马克思主义列宁主义毛泽东思想邓小平理论、哲学和综合性图书3 个部类的图书质量进行评价时，社会化阅读平台图书评分数据具有较好的可用性，可以作为图书Altmetrics 评价指标的数据来源。这3 个部类图书在社会化阅读平台普遍能够获取对应的图书评分，且有较多用户参与评分，能够在一定程度上反映大众对该类图书社会影响力的认知和评价，图书评分与图书被引用次数之间存在较高的相关性，因而能较好地反映图书的社会价值。将社会化阅读平台图书评分作为这3 个部类图书的评价指标数据来源是可靠、可行的。

（2）在对社会科学部类图书评价时，可根据图书具体大类有选择地决定是否使用社会化阅读平台图书评分数据作为图书Altmetrics 评价指标的数据来源。总体而言，社会科学部类图书在社会化阅读平台中都存在图书评分，且相当一部分图书的评分人数数量巨大，能够很好反映大众对图书的评价。大部分图书大类的评分数据与图书被引用次数之间存在一定的相关性，仅军事大类和艺术大类图书的两个变量之间相关性不显著，军事大类图书可能因为在普通用户中受众相对较小，专业性较高，导致图书评分数据不能很好地反映图书社会影响力价值，而在豆瓣读书中对艺术大类图书进行评分的普通用户在打分时，可能更关注作品的艺术价值，因而与图书被引用次数，即学术价值，相关性不显著。因此在对这两类图书进行评价时，不建议采用社会化阅读平台的图书评分数据作为其图书Altmetrics 评价指标的数据来源。而对于社会科学部类中的其他大类图书，社会化阅读平台图书评分数据具有较好的可用性。

（3）对于自然科学部类图书而言，社会化阅读平台图书评分数据可用性较差，不建议将其作为图书Altmetrics 评价指标的数据来源。一方面，自然科学图书专业性较强，一般为专业人士所阅读学习，社会化阅读平台的用户大多不会在此类平台上对自然科学图书进行评分，因此导致社会化阅读平台中自然科学图书评分数据较少。另一方面，由于只有少量用户对这些图书进行评分，所以每个用户的图书评分会对平均评分产生较大影响，评分数据的稳定性较差。因此在对自然科学图书进行评价时，建议不把社会化阅读平台图书评分数据纳入Altmetrics 评价指标的数据来源。

总体而言，虽然社会化阅读平台图书评分与图书被引用次数之间存在相关性，但是不同大类的图书社会化阅读平台图书评分数据可用性存在明显差异，因此在考虑是否使用社会化阅读平台图书评分数据作为图书Altmetrics 评价指标的数据来源时，应当根据图书类别谨慎选择。肖敖夏等[13]和姜春林等[14]的研究也表明，社会化评价指标在学科之间的表现具有较大差异，针对不同学科的评价应该区别考量。区别在于，肖敖夏以Springer 出版的学术图书为对象，分析发现自然科学和应用科学的Bookmetrix 指标表现优于人文学科和社会科学，而本研究发现社会科学部类的社会化阅读平台图书评分数据可用性优于自然科学部类。

5.2 讨论与展望

豆瓣读书平台作为社会化阅读平台的代表，该平台用户数量巨大，图书量巨大，运营管理时间已有多年，形成了较为成熟的图书评价管理机制，是社会大众公认的典型社会化阅读平台。因此其大规模的社会化阅读平台评分数据，具有较高的可靠性，以其作为图书社会影响力评价的Altmetrics 评价数据指标来源，具有可行性，只是在具体操作时要选择性使用。

本研究对于每个图书大类仅随机选择了30 本图书进行分析，样本数量较小，且样本来源为《读秀中文图书被引用情况报告（2020）》中提到的图书，对结论推广到所有图书时可能会出现一定的偏差。

不同大类图书社会化阅读平台评分数据可用性存在差异，对于差异存在的原因本文未进行深入探讨，图书本身、用户、平台等因素都有可能会对数据可用性产生影响，因此未来的研究可以进一步分析用户在社会化阅读平台上对图书进行评分时会受到哪些因素的影响及其影响程度。

Altmetrics 评价视域下社会化阅读平台图书评分数据可用性研究——以豆瓣读书为例