陈 珂
(苏州市职业大学 计算机工程学院, 江苏 苏州 215104)
图书市场情报分析在图书出版和发行[1]、图书编辑[2]、图书馆管理[3],在健全学术图书的质量评价体系等领域有着重要的研究和应用价值[4-6]。
豆瓣(book.douban.com)是国内大型读书网站的代表,本研究基于豆瓣读书网站的图书信息,利用数据爬取、数据挖掘和清洗、回归分析等技术手段对豆瓣读书网站数据资源进行解析、清洗和处理,揭示我国当前图书市场的现状和特点。
1)本研究的原始数据来自于豆瓣读书网站(book.douban.com),利用python编程语言的Scrapy框架(一种对网站内的结构性数据进行高效挖掘的技术工具集),实现对36 850条有效数据进行网站内的所有图书网页的数据爬取和数据挖掘。
2)实施过程中,通过降低爬虫请求新网页的频率(设置每次请求之间的随机延时)和利用随机用户代理机制(使网站误以为爬虫发出的请求来源于不同的多个主机)成功地绕过网站针对传统爬虫设置的反爬虫机制,爬取了该读书网站内几乎所有的图书条目数据,共计36 873条。首先数据被存成cvs格式文件,通过数据清洗剔除了重复或包含非法值的数据,最后得到了整个豆瓣网站的有效图书条目共计36 850条。
由图1可知,通过回归分析降低其他因素的干扰,发现图书售价与评价数之间的确存在着一种近似的负相关线性关系,评价数量随售价提高而下降。就每个售价区间而言,评价数越高则图书数量越小。对散点图表示的图书售价与评价数量的数据进行了直线拟合,得到的拟合直线显示,国内图书的评价数与销售价格之间总体上呈一个弱的负相关关系,价格越高的图书其获得的评价数量越小,这一定程度上反映了我国读者的购书取向为低价图书销量高,读者的反馈性评价也就多。
图1 国内出版图书评价数与售价关系
当然,价格并不是决定图书销量的唯一因素,甚至不是最重要的因素。一部图书获得热评的原因很多,如广告宣传的力度、图书本身或著者的知名度、图书的类别(历史、小说)、同名电影或电视剧的热播等,这些因素共同作用使得图书售价和评价数之间的关系变得更为模糊。
通过线性拟合从豆瓣读书网站挖掘的数据,得到国内出版图书评分与评价数之间的关系,如图2所示。在图2中散点图为每部书的实际评价数和评分的坐标;直线为评价数与评分拟合关系直线。
由图2可知,国内图书的评分与图书评价数量相互独立,没有相关性。读者在评分时会根据自己的读书感受和体会打分,而不会受图书的评价数量影响。
图2 国内出版图书评分与评价数之间的关系
图书的评价数量受到多重因素的影响,如销量、广告、同名影视剧的热播、名人评述等,这些外在因素的干扰使得图书的整体评价数和评分之间的相互关系变得模糊不清,会显著降低评价数与图书质量(等价于评分)之间的相关性,甚至使它们之间完全独立。
为进一步分析评分和评价数量之间的关系,本研究挑选评价数在所有图书中排名前15位的热评书籍,分析它们的评价数及评分情况,热评图书(排名前15位)的评价数及评分情况如图3所示。
由图3可知,排名前15位的热评书籍的评分差异显著,以曹雪芹的古典名著《红楼梦》的9.6分最高,而当代作家郭敬明的长篇小说《梦里花落知多少》只勉强获得了中等偏下的7.1分,读者的评价数量相当。这一现象证明了评分与评价数量之间的无关性(或独立性)。
图3 热评图书(排名前15位)的评价数及评分情况
分析认为,一部质量一般甚至平庸的图书,虽然可以通过包装、广告和宣传推高其销量和热度,但这些手段并不能左右读者对该书的真实观感,最后在读者的总体评分中被打回了原形。分析一部作品是否值得推荐时,评
分是一个最关键的终极指标,而评价数量也应作为一个重要的参考指标。实践中,一方面需要尽力避免那些评价数虚高而评分较低的图书;另一方面要警惕那些评分偏高而评价数量极低的冷门图书。此时,某些利益关系人的虚高打分会左右最终的评分,从而使得评分与图书真实质量之间的误差风险被显著放大。
一部质量较高的图书一般在包装、文风、思想、内容编排等多方面总体表现更为优秀,必然出版成本就更高,销售价格也会高。本研究对中国内地出版图书的评分和售价之间关系进行了线性回归分析,得出国内出版图书评分与售价分布图,如图4所示。在图4中散点分布为每部书的售价和评分;直线为评分与售价的拟合关系直线。
由图4可知,评分的确与售价存在一定的正相关关系。售价越高,图书的评分区间越窄,证明图书质量大致上随售价的提高而有所提升,也即图书价格和质量之间呈现正相关关系。
图4 国内出版图书评分与售价分布图
豆瓣网站一个典型的特点是评价数越高的作品(包括电影和图书),其观众或读者数量也越大,即评价数的多寡大体上体现了一部作品的热门程度。本研究从爬取的图书大数据资源中选取评价数最高的1 000部图书,根据它们各自所属的类型进行计数,提取出排行前十热门图书的类型,结果如图5所示。
图5 热门图书类型排行(前10个类型)
由图5可知,“小说”类型独占鳌头,有205部热门作品,约占1 000部热评图书的20%,准确反映了国内读者对小说的喜好程度;占据榜眼位置的“外国文学”,也有164部热门作品(相当于16.4%),考虑到国内出版的“外国文学”作品只占整个图书市场的4%,因此“外国文学”作品中热门作品的比例要远高于其他类型,这充分说明了引入国内的“外国文学”作品的受欢迎程度要远高于国内图书;占据第10名的类型“当代文学”仅有29部热门图书,其热门图书数量远远落后第一名“小说”。总体来看,排名前十类别的热门图书共有665部热门作品,约占前1 000部热门作品的三分之二,可见热门作品在类型上的聚集度。
本研究还对上述十类热评图书的评分均值进行了图表分析,其结果见图6。由图6可知,最热门的类型“小说”,其热门作品的评分均值为8.13分,几乎与豆瓣读书网站的图书均值8.15分持平,表明作品的热门与否并不能左右它们的评分;平均得分最高的“经典”类型,其热门图书的评分均值达到了9.07分,表明这类作品中绝大部分是优秀作品。实际上,“经典”作品通常是古代或近代的绝世佳作,能够历经数百年而长盛不衰,足见其抓住了文学艺术中跨时代甚至超时代的人类思想的精华,而且经典作品往往语言准确简洁,情节生动流畅,跻身热门图书有其充分原因;相比之下,当代热评小说虽然更贴合时代特色,但大多是为不同的读者群服务的应景之作,注定了它们的影响力会随时代发展和变化而迅速衰微,很少在多个不同年龄层次的读者群中产生共鸣,从而影响了热门小说的总体评分。
图6 不同类型热评书籍的评分均值比较
对我国出版图书包括售价、读者评分、热评指数三个重要的指标之间的相关性进行了科学分析,表明我国在售图书的售价和质量(读者评分)之间存在一个弱的正相关关系,而图书的热门程度(评价数量)与图书价格则呈一个弱的负相关关系,但图书的热门程度与图书质量无关;此外,分析也表明图书质量也与图书作者的知名度无关。读者在购书时,应重点权衡评分和价格,而不应盲目追随畅销书或名著。