王惠 汪文秋 冯 婷 张涛
摘 要:选取中国最具有代表性且发展较为成熟的第三方网站——“众筹家”为研究对象,基于“众筹家”项目实际数据,采用多元回归分析等方法进行研究,删除异常点和强影响点,利用加权最小二乘回归修正异方差,得到更加合理的估计参数,找出对众筹融资绩效影响显著的因素,从而得出有利于众筹融资绩效提高的针对性建议.实证结果显示:众筹筹资效果受到包括目标融资金额、实际融资、回报方式、项目要素数量以及评论数等多方面因素的影响.
关键词:影响分析;加权最小二乘法;回归插补;多元线性回归;众筹家
中图分类号:O212.1∶C81 DOI:10.16375/j.cnki.cn45-1395/t.2019.03.016
引言
众筹即大众筹资或群众筹资,是一种通过互联网方式向网友募集项目资金的模式.众筹作为一种融资方式,具有营销推广、项目调研、数据采集等作用,能够缓解中小企业融资难的问题.通过查阅中外相关文献发现,关于众筹项目影響因素的研究主要集中在众筹项目成功影响因素方面的探究,经过梳理,可以系统性归纳的影响因素有:基本属性、项目内部因素、项目外部因素.其中,基本属性包括投资人数和目标融资额两要素[1-2].Frydrych等[3]发现,对于相对较低的项目目标融资金额能够达到较好的项目预期.国内学者陈亮[4]通过“点名时间”的项目研究,提出项目目标融资金额和项目成功之间呈现负相关关系.项目内部因素主要包括:项目回报方式、项目质量、项目类别、融资期限等. 郑海超等[5]根据信号理论,利用众筹网站“大家投”的数据进行融资绩效的影响因素分析,发现项目质量信息,如项目动态更新次数、发起人团队人数等因素影响显著.外部影响因素包括社会资本、地理因素和平台因素三类.Evers[6]首次尝试研究众筹模式的“亲社会性”,证实了项目评论数量对众筹结果有一定影响.曾江洪等[7]通过统计点名时间等4个国内主要的众筹网站的数据,证实了社会资本、“地域偏见”对融资绩效的作用,项目发起人来自发达地区更容易获得投资.
综合上述文献的分析,发现研究仍然存在不足之处:1)已有关于众筹融资的研究没有综合考虑3种因素对众筹融资效率的影响,只是单方面因素的讨论;2)前述研究皆默认平台数据的合理性,对数据的异常波动予以剔除,未对异常数据进行分析;3)前述研究中采用的回归分析,没有考虑强影响点对估计参数的影响.基于上述原因,本文选取众筹第三方网站—众筹家作为研究样本,充分考虑研究中存在的上述3个问题,建立合适的多元回归模型[8-9],以期为众筹实践提供指导.
1 数据初步探索
基于从众筹第三方网站—众筹家提取的数据,结合前人研究成果、因素自身特点和融资动态阶段确定影响因素指标,并进行变量赋值,如表1所示.
1.1 数据预处理分析
在数据分析过程中,数据对象经常是不够完整的.当数据集存在缺失值时,建模过程中就容易出现报错的情况.缺失值分析过程通常包括缺失值检测和缺失值处理.对收集得到的894个样本点绘制缺失值模式图形,结果如图1所示.
从图1中可以看出,变量中只有支持数变量存在缺失值,且该变量存在279个缺失值.
通过观察数据发现关注数和支持数存在一定的相关关系,进一步计算两者之间的相关系数值为0.771.利用关注数对支持数进行回归插补缺失值,回归插补后的数据集为不含缺失值的完整数据集,该数据集的样本量仍为894个.
为避免异常值数据对建模分析带来不必要的影响,对收集整理得到的数据初步进行异常值的删除.绘制主要研究对象众筹融资效率的直方图、箱线图,如图2所示.
从图2中可以看出,众筹融资效率值集中分布在5 000以内且远小于5 000,且融资效率值存在至少3个显著异常值.利用R软件找到3个显著异常值所在的样本,并将删除后的数据作为接下来研究的数据集,样本量为891个.
1.2 描述性分析
描述性统计分析是进一步的统计推断和分析的基础.统计主要涉及到数据集中趋势、分散程度、数据分布和一些基本统计图.对数据预处理后得到的数据集进行描述性分析,如 表2所示.
从表2中可以看出,融资效率的均值为2.39,说明普遍融资成功的效果较好;众筹项目的融资目标金额[x2]和实际融资金额[x3]的标准差都很大,差异性很大,但两者的中值分别只有100 000元和202 500元,说明从大多数的产品众筹来看,金额都不大.这些众筹产品大部分都是个人或者是中小企业的项目.并且这些项目都是不需要大量的资金就可以完成的项目.
对分类型变量(地区[x1]、所属平台[x10]、回报方式[x4])分别讨论它们各自在众筹融资效率上的差异,如图3所示.
箱线图的箱体长度反映出数据的集中程度.由图3的箱体长度可看出:天津、福建、上海、浙江等省、直辖市的数据较分散,众筹融资效率相对较高;其他各个省、直辖市的数据较集中,众筹融资效率基本稳定在1附近.在删除几个异常值的前提下,上海市的众筹融资效率仍出现较多的异常值点.如图4所示.
由图4的箱线图可以直观地看出,p10平台的众筹融资效率显著高于其他平台,且不存在异常值的情况;平台p13、p21、p22、p23、p24、p29、p42存在众筹融资效率的异常值情况,说明这些投资平台存在一定的风险,融资效率有时会达到较高数值,通常达到平均水平,但这些平台整体融资效率值相比其他平台要高.
图5为依据回报方式分组的融资效率箱线图,从图中可以看出3种回报方式的融资效率值存在一定的差异.以产品作为回报的融资效率值整体较高,但存在较多异常值,差异性较大;以权益作为回报方式的融资效率值箱体长度最短,数据较小且较集中;以产品和权益作为回报方式的融资效率值的箱体长度介于前两种方式之间,出现异常值的情况最少.
综合对分类型变量的分析,可看出融资效率在变量地区、回报方式上存在一定的差异性,在接下来的研究中有必要将其考虑进去.
从融资目标和实际融资入手具体考察各个省份的融资情况,如图6所示.结果表明,各省、直辖市的融资目标和实际融资值呈正线性相关关系,其中上海、江苏、山东、广东、黑龙江的众筹融资状况较好,众筹融资的实施力度较大;其他省、直辖市微见雏形,众筹融资有待发展.
2 回归建模分析
2.1 变量设计
1)因变量的选择
本文研究影响众筹融资绩效的关键因素.由于众筹出现时间较短,无论是国内还是国外对于构建众筹融资绩效的评级指标仍处于探索阶段.对此,本文选取项目完成的融资效率,即实际筹资金额与目标融资金额的比值作为因变量,能够较准确地衡量项目的筹资绩效.
2)二级分析指标的选择
本文在以上分析的基础上,基于科学、完整、实用的原则以及以往的研究成果和平台的数据可获得性,考虑变量所属平台种类较多量化困难,选取表1中除去变量[x10]外的其余12个自变量对融资绩效影响因素的问题进行研究,并对其余2个分类变量进行量化.量化方式为:项目所在地区是一线城市赋值为3,二线城市赋值为2,三线城市赋值为1;回报方式为:产品赋值为3,权益赋值为1,两者兼而有之的赋值为2.
2.2 模型构建
首先基于对数据观察,运用最小二乘法进行多元线性回归模型的拟合.初步拟合结果显示:模型通过方程的检验([F]检验),但大多数自变量系数不显著.由于自变量较多,自变量[x6](是否公益)和[x7](支持数)符号,大多数与实际不符,考虑可能是存在多重共线性.
对建立的模型进行多重共线性诊断分析,用方差膨胀因子[VIFj]作为诊断自变量之间是否存在多重共线性的准则,利用R软件计算得到12个自变量的方差膨胀因子见表3.
由表3可知,回归系数和方程显著的几个变量的方差膨胀因子都显著小于10,说明模型不存在多重共线性问题.
2.3 异常值及影响分析
对得到的模型进行回归诊断,考虑是否由于异常值或强影响值对回归决定系数的影响,回归诊断图如图7所示.
图7(a)中,纵坐标残差值度量尺度[ri]值远大于2, 第92、第141、第64号样本点明显远离其他样本点,为显著异常值;图7(c)是标准化残差绝对值的开方的残差图,可知图7(c)和图7(a)可以得到相同的结论.图7(d)中样本点110的Cook距离值最大,可能为强影响点.
为了避免异常值以及强影响值对模型建立的影响,依据以下准则对样本点做标记:对最大残差绝对值的样本作标记;对标准化残差和学生化外残差绝对于2的样本作标记;对于杠杆值[hii>2(p+1)/n]的样本作标记;对[DFFITSi>2(p+1)/n]([p]是自变量个数)样本作标记;对最大的Cook距离的样本作标记;对距1最远的COVRATIO统计量的能本作标记.依据以上对异常值和强影响值识别的准则,利用R软件得到部分被标记的样本点,结果见表4:
摘取部分样本点数据,以第2号样本点为例:第2号样本点的普通残差[e2=13.024],此值与其他數据点对应的普通残差相比较大,且它的学生化内残差[r2=3.622]和学生化外残差[t2=3.647]都比其他数据点对应的学生化内残差和学生化外残差大很多,因而可认为第2号样本点是异常值点.
计算得到该数据的杠杆值[h2,2=0.029 793>2(12+1)891=0.029 18]也较大,根据DFFITS准则的统计量值[DFFITS2=0.639 18>2(p+1)/n=0.241 58],即表明该样本点还是高杠杆值点.同理对其他异常值及强影响值做标记,在数据预处理的数据集基础上删除被标记的样本点作为接下来研究的对象.记该数据集为data1.
对数据集data1利用最小二乘法建立多元线性回归,并对回归系数的[t]检验没有通过的变量,依据删除变量的准则即[p]值大于10%且取最大值的变量删除,对数据预处理后的数据在初步选择的11个变量的基础上,依次进行最小二乘回归并删除不显著变量,得到最后显著的变量回归结果见表5:
2.4 模型检验
数据的模型检验,包括误差项的正态性检验、方差齐性检验和独立性检验,该过程运用R软件进行处理分析.
1) 正态性检验
残差正态性检验较为简单的方法是画残差的Q-Q图,这种检验方法带有一定的主观性,本文采用shapiro test()函数作残差的正态性检验.
残差正态性检验的p=0.092 1大于显著性水平0.05,接受原假设,认为该模型的残差满足正态性假设.
2) 独立性检验
残差的独立性检验等同于残差的自相关检验,本文运用D-W检验独立性.
定性观察D-W值为1.975 8基本接近于2,p= 0.346 8>0.05,无法拒绝原假设,说明误差是满足独立性条件的;定量来看,经查表得到dit=1.674,D-W值正好介于dit与4-dit之间,认为不存在自相关,同样说明残差通过独立性检验.
3) 方差齐性检验
方差齐性检验即等方差检验,该检验的理论依据有残差图分析法和等级相关系数法.残差图分析法是一种比较直观的分析方法.等级相关系数法适用于大样本、小样本数据的检验.
考虑本文的样本量[n=785>8],采用等级相关系数法来检验该模型是否存在异方差性.经计算得到模型6个变量的等级相关系数如表6所示.
给定显著性水平[α=0.05],查t分布的临界值表[t0.025/2(45)=2.014 1],随着样本量的增大,[t0.025/2(n)]值将越来越小,因此可以断定[t=29.615 5>t0.025/2(785)].认为残差绝对值[ei]与自变量显著相关,即随机误差项存在异方差性.
4)异方差修正
消除异方差性的常用方法有:加权最小二乘法、Box-Cox变换法、方差稳定性变换法.本文采用加权最小二乘法修正异方差性,用方差的倒数作为样本点的权重,以减少非齐性方差带来的影响.
利用R软件进行加权最小二乘估计得到模型的拟合优度提高到0.821 1,但变量[x12]的t检验没通过,删除不显著变量再次进行加权最小二乘回归得到模型结果见表7.
由模型可知,众筹融资效率的主要影响因素是目标融资金额、实际融资、回报方式、项目要素数量以及评论数.进一步表明目标融资金额与融资效率是成反比,其他指标与融资效率呈正比,符合实际意义.
5)修正后模型的检验
为了进一步确定修正后模型的效果,对残差修正后的模型再次进行检验.相比修正前的模型,修正后的模型满足正态性和方差齐性并且不存异常点,Cook距离图显示数据也不存在强影响点.
3 结论
从众筹平台的视角.众筹平台是众筹项目的粘合剂也是“中介”.结合多元回归分析结果可以得出如下结论:
1)众筹项目的评论数与众筹融资效率呈正相关.众筹平台对项目的关注者进行了提醒、推送等区别服务,评论的项目更能吸引筹资者的注意力,这样做的目的也是为了促进众筹项目的成功.从本文的实证数据分析来看,平台这样做的努力是符合预期的.
2)项目要素数量与众筹融资效率正相关.在本文实证分析的众筹平台上,众筹项目提供的项目要素数量越多,资料越齐全,可信度就会越高,越能得到筹资者的信赖,从而大大地提高众筹融资效率.因此该众筹项目也就会更加容易获得成功了.
3)目标融资金额、实际融资对众筹融资效率的影响相反.目标融资金额较大会对筹资者产生心理压力,影响项目成功.通过对目标融资金额与实际融资额在地区的差异可看出,目标融资和实际融资是呈正线性相关关系,其中上海、江苏、山东、广东、黑龙江的众筹融资状况较好,众筹融资的实施力度较大,其他省份微见雏形,众筹融资有待发展.
4)回报方式对众筹融资效率是正向影响.即合理的回报方式会促进众筹融资效率.通过描述分析发现以产品作为回报的融资效率值整体较高,但差异性较大;以权益作为回报方式的融资效率较小;以产品和权益作为回报方式的融资效率值的箱体长度介于前两种方式之间.且大部分众筹项目集中在以产品为回报方式上.
为此,众筹平台应基于显著性因素适当调整运营制度,努力提高众筹绩效.
参考文献
[1] MOLLICK E. The dynamics of crowdfunding: an exploratory study[J]. Journal of Business Venturing,2014,29(1):1-16.
[2] MOUTINHO N, LEITE P.Sharing information in a virtual community of crowdfunding:the caseof kickstarter[J/OL]. (2013)[2019-03-29].https://repositorio-aberto.up.pt/handle/10216/71430 .
[3] FRYDRYCH D, BOCK A J,KINDER T,et al. Exploring entrepreneurial legitimacy in reward-based crowdfunding[J].Venture Capital,2014,16(3):247-269.
[4] 陈亮.基于众筹视角的互联网金融创新模式实证研究[J].特区经济,2015(3):55-56
[5] 郑海超,黄宇梦,王涛,等.创新项目股权众筹融资绩效的影响因素研究[J].中国软科学,2015(1):130-138.
[6] EVERS M. Main drivers of crowdfunding success:a conceptual framework and empirical analysis[D].Rotterdam: Erasmus University,2012.
[7] 曾江洪.社會资本对众筹项目融资成功率影响的实证研究[J].技术经济,2014,33(11):90-95.
[8] 胡伟平.基于回归分析的人脸老化模型构建[J].广西科技大学学报,2016,27(3):39-44.
[9] 张涛,吴文泽,万艳玲.基于特征筛选的模型选择[J].广西科技大学学报,2016,27(1):26-30,42.
Abstract: This paper selects the most representative and more mature third-party website–"crowdfunding" in China as the research object. Based on the actual data of "crowdfunding Home" project,multivariate regression analysis and other methods are used. The abnormal and strong influence points are removed by the influence analysis, and the weighted least squares regression is used to correct the heteroscedasticity, so as to obtain more reasonable estimation parameters. Finally, the most significant factors are found for the performance of crowdfunding financing. Through analysis, we can identify the most significant factors affecting the performance of crowdfunding financing and draw targeted recommendations that are conducive to the improvement of crowdfunding financing performance. The empirical results show that the crowdfunding is affected by many factors including the target financing amount, actual financing, return method, number of project elements and number of comments.
Key words: influence analysis; weighted least squares; regression interpolation; multiple linear regression; crowdfunding
(责任编辑:张玉凤)