网络小说纸质书销量影响冈素的实证分析

2018-05-17 02:25李胜华黄云舒
湖北函授大学学报 2018年2期
关键词:网络小说销量

李胜华 黄云舒

[摘要]本文对网络小说纸质书的出版和销售数据建立了相应的回归分析模型,并应用基于惩罚函数的极大似然估计方法,得到了变量选择、组别选择和参数估计的统计推断结果,为网络小说的出版和营销策略提供了理论依据和有价值的建议。

[关键词]网络小说;销量;惩罚函数;极大似然;变量选择

[中图分类号]F49

[文献标识码]A

[文章编号]1671-5918 (2018)02-0114-03

一、介绍

在当今的文化生产与消费领域,“lP”已成热词,优质“lP”更成为影视、游戏和出版生产制作商所追捧的热门资源。优秀的网络小说,就是优质lP的重要发端。这些被网友追捧的网络小说,甚至能引起一时的轰动和热销,销量超过百万册的不在少数。那么,网络小说纸质书的热销有什么规律可循呢?是不是受网友追捧的小说都能热销?有哪些因素在起作用?为回答这些问题,本文考察了近年来最受网友喜爱并有较大点击量的网络小说,试图通过样本图书的相关数据,对风险影响因素建立回归模型,找出影响这些图书销量的重要因素,以期为网络小说的出版和营销提供可借鉴的一些行业规律。

我们收集到40种网络小说纸质书的实际数据,考虑了14个影响销售量的协变量。在该实证分析数据中,回归模型变量个数相对于样本容量明显偏多。如果用所有14个协变量对相应变量进行回归分析,容易造成过拟合现象。所以,在建模过程中,首先需要能识别出重要变量,再对重要变量系数进行参数估计。此外,协变量之间可能存在组别效应。如反应小说类别的若干哑变量具有强相关性,可以看作来自于同一组的变量。因此,在识别重要变量的同时,还需要能识别出重要组别。这些要求给数据的统计分析和建模带来了相当大的挑战,大量统计学者已经在这方面进行了广泛的研究,得到了一些好的结果。

本文将由实际数据出发,建立相应回归分析模型,研究具体统计推断过程,以同时实现变量选择、组别选择和参数估计等结果。并由统计分析结果,反馈于网络小说纸质书数据,得出影响销售风险因素的统计推断结果。具体地,全文结构如下:第二部分对网络小说纸质书数据建立回归模型;第三部分研究统计推断方法;第四部分进行实证分析,给出统计推断结果,为出版关于网络小说的出版提出相应建议。

二、模型建立

本文收集到近年出版的40部网络小说纸质书销量以及13类可能影响销量的风险因素,现将相关数据来源说明如下:(1)本文考察的40部网络小说,是从网友在2000多部网络小说中评选出最喜欢的前50部中抽取,并已由出版社正式出版和销售。(2)有关40种图书的版本信息、销量数据等,均来自于北京开卷信息技术有限公司( http://www. openbook. com. cn)的数据库。(3)开卷公司监测的图书销量数据,大概是该图书在市场上实际销量的四分之一,故开卷监测销量达2.5万册的图书,图书实际销量己过10万册,出版业界可称为畅销书。(4)有关网络小说是否改编为影视剧和是否热播的信息,均来自于豆瓣网( https://www.douban.com)的相关查询结果。

由于销售高于2.5万册的书籍可以认为是畅销书籍,如果销售量高于2.5万册,定义第i,(/=1,…,40)种网络小说销售量y。=1,否则取K=0。影响销量的13类风险因素{x;,k=l,…,13}列于表1中。这些变量中,X2和X4是连续型变量,其他为离散型变量。此外,变量Xg是名义数据,其取值将小说分为3种类别。不同于有序变量,考虑该因素对销售量的影响时,需要进一步对该因素引入相应的哑变量。z。的两个哑变量Xg和Xg分别表示青春校园类和幻想类相对其他小说酌差异。由于Xg和Xg同属于小说类别这一类风险因素,这2个变量间有明显组别关系,可以将它们分为一个组。我们将第i套书籍的风险因素向量记为xi=(xi1,…,xi8,xi,,xi,10,…xi13),其中xik是第i种书籍的第k个风险因素。

基于销售量的分类特性,我们假设销售量y。关于表1中所列14個变量服从如下logistic回归模型:

有公式

其中参数p=(有公式)是待估计的未知回归系数。

三、统计推断过程

本节我们将对观察数据(Y,xi),i=1,…n,n =40建立基于惩罚的极大似然估计方法,以达到同时实现变量选择和参数估计的目的。

首先,关于参数p相应的似然函数为

有公式

这里概率函数P(Yi/xi)由(1)式和二项概率的分布决定,其负对数似然函数记为有公式。

为能在参数估计的同时,实现变量选择和组别选择,我们在负对数似然函数基础上,增加一个惩罚函数,构造得到如下目标函数:

有公式

其中A。是调节参数,p(.)是惩罚函数。最小化目标函数Q(p)即得到参数p的估计量p。

目前广泛被采用的惩罚函数有Lasso,SCAD,MCP等等。Huang等研究了线性模型中基于group bridge惩罚函数的极大似然估计,该文定理1说明相应估计量具有选择相合性,重要变量回归系数具有渐近正态性等大样本性质,并给出了估计的方差估计公式。为实现同时识别组别和变量,本文采用groupbriclge惩罚函数,其定义如下: 有公式

其中协变量被分为A组,A是由第j组协变量下标构成的下标集合,y是在(0,1)间取值的参数,lI“lI.为向量d的L.范数,q正比于第j组变量个数。

注1:调节参数A。的选择标准通常有AIC,BIC,GCV等方法。由于研究的实际数据样本量不大,我们将采用ccv标准确定,即选取使得如下CCV函数最小的A。为调节参数:

有公式为非零变量个数的估计量。

四、实证分析

在對真实数据的实证分析中,我们将14个风险因素协变量分为13组,其中Xgl和X为一组,其余12个变量各为一组。取定(3)式中参数c,=1,y=0.5,通过调用R软件grpreg库中的gBridge()函数对数据进行分析,相应的回归系数统计推断结果列于表2中。

注:不重要变量回归系数估计值为0;所有重要变量回归系数估计的p值均小于0. 001

从表2看出如下几点:

1.利用基于惩罚极大似然估计的回归分析方法,表2结果显示发行出版社(Xl),作者(X2)、出版时间(X3)、发行价格(X4)、版次(X7)、页码(XIO)等因素的回归系数为O,这表明这些方面不是影响销量的重要因素。在对销量回归模型的建立中,可以不用再考虑这些因素;

2.所有重要变量回归系数估计的p-值均小于0.001,这表明是否为套书、装帧、开本、小说分类、是否改编为影视剧、是否图书公司策划、是否获奖等等因素,对销量均有显著影响;

3.对销量有显著影响的重要变量中,结合其回归系数估计的符号可以进一步看出,单本(X5)、平装(X6)、16开本(x8)的书籍销售情况更有优势,青春校园类比其他类书籍(Xgl)更具有销售市场,改编为影视剧(x11)、经过图书公司策划( X12)、以及有获奖或上榜(X13)的书籍有更高的销量。

以上几点将给出版社出版网络小说提供一些新的启示:

启示一:首先可以明显看到,被改编为影视剧并热播的网络小说,其纸质书畅销的几率很高。故出版社应首先考虑网络小说的内容是否上乘,是否具有作为影视、游戏等多媒体开发的lP潜质。已经改编为影视剧并热播的网络小说,应是出版社的首选。

启示二:出版社的类型、作者是否已出版过畅销书以及图书的定价高低等因素,在常规情况下都是出版社出版图书时的重要考量因素,对图书市场的常规畅销书的销量有较大影响。但从本模型的推断结果看,这些因素对网络小说的纸书销量并无显著影响。与此同时,青春校园类、16开的平装单行本在销量上更占优势,这可能是网络小说这一类别图书的特例。这些结论可作为出版社的重要参考意见。

启示三:经由民营图书策划公司策划的,以及获得过网络小说大奖、阅读榜单TOP10的网络小说,出版后畅销的几率较大;出版行业通常认为作者名气、图书定价、页码(字数)和出版社品牌等因素对图书销量有重要影响,但是本文分析结果显示这些变量对网络小说销量的影响并不重要,出版社对此应重点关注。

参考文献:

[1]徐潇然.网络小说lP热带动选题包罗万象[N].中国出版传媒商报,2016 -12 - 20.

[2]史建国.网络小说影视改编凋查研究[J].当代文坛,2015(6):91 -95.

[3]聂欣悦.浅析中国网络小说的影视改编[J].新闻研究导刊,2016( 11):176 - 177.

[4]潘昱含.如何利用大数据为图书出版指导方向[J].中国传媒科技,2017(6):85 -86.

[5] Fan,J. and Lv ,J.A selective overwew of variable selection inhigh dimensional feature space[J].Sinica,2010( 20):101 - 148.

[6] Ma,S. ancl Huang,J. Combining clinical and genomic covariates via Cov - TCDR[J].Cancer Informatics,2007(3):371 - 378.

[7] Yuan, M. ancl Lin,Y. Moclel selection anci estimation in regression with grouped variables[ J]. J. R. Statist. Soc. B2006 68 , 49 -67.

[8] Kim,Y. ,Kim,J. and Kim,Y. The blockwise sparse regression. Statist.[ J '1 . Sinica, 2006 ( 16) :375 - 390.

[9] Zhao,P. ,Rocha,C. and Yu,B. Crouped and hierarchical model selection through composite absolute penalties[ J ] . Ann. Statist,

2009 ( 37) :3468 - 3497.

[10] Tibshirani, R. Regression shrinkage ami selection via the lasso [ J] . J. li. Stacist. Soc. B1996 ( 58 ) :267 - 288.

[11] Fan,J. and Li,R. Variable selection via nonconcave penalizecl likelihood and its oracle propertiesi[ J ] . J. Amer. Statist. Assoc,

2001( 96) :1348 - 1360.

[12] Zhang, C. Nearly unbiased variable selection under minimax concave penalty [J ] . Ann. Statist,2010 ( 38 ) :894 - 942.

[13]Huang,J. ,Ma,S. Xie, H. and Zhang,rr. A group bi/cige approach for variable selection [ J ] . Biometrika,2009 ( 96) :339 - 355.

猜你喜欢
网络小说销量
ToyCity宣布融资近亿元,去年销量2000万
同比增长130%!剑指3万吨销量,丰华黄颡料迎来大爆发
网络小说标杆作品2019
盘点2018年车企销量
从影视改编看网络小说的人物形象重塑——以《花千骨》为例
网络小说与明清小说之比较
2016年度车企销量排名
50 SHADES OF ONLINE LIT
影响网络小说流行度的要素研究——以起点中文网为例
上半年我国专用车销量同比下滑36.2%