■ 赵振洋 张子玉
(东北财经大学会计学院/中国内部控制研究中心,大连 116025)
近年来,在疫情的影响下,线下购物受限,零售电商平台的市场规模不断扩大。根据商务部数据,2016-2021年全国网上零售额从5.16 万亿元增长到13.09 万亿元,网购用户规模从4.67 亿增长到8.42亿,随着5G 技术的发展与农村互联网的普及,这一数据还会持续增长。零售电商平台作为买家与卖家的枢纽,每天需要加工大量来自用户的浏览、交易数据,这些数据构成了零售电商平台的数据资产,如何衡量以及预测数据资产所带来的风险成为评估机构和评估专业人员评估零售电商平台数据资产时重点关注的对象。
根据《资产评估专家指引第9 号——数据资产评估》中的指导意见,本文构建零售电商平台数据资产风险指标评价体系,并利用探索性因子分析(EFA)测算零售电商平台数据资产风险的综合得分,然后利用支持向量机回归(SVR)进行实证分析,丰富了零售电商平台数据资产风险的相关研究。
借鉴《资产评估专家指引第9 号——数据资产评估》,将零售电商平台数据资产风险按数据资产使用流程分为数据采集风险、数据导入和预处理风险、数据分析和挖掘风险,增加零售电商平台数据资产应用过程中的数据应用风险。另外,由于近年来时有曝出企业数据资产泄露的事件,使得数据资产的安全保护受到社会公众的关注,因此,将数据保护风险作为数据资产风险的重要指标。如表1所示,最终构建数据采集、数据导入和预处理、数据分析和挖掘、数据应用和数据保护5 个一级指标、20 个二级指标的零售电商平台数据资产风险的指标评价体系,并详细说明二级指标的具体度量方法。
表1 零售电商平台数据资产风险的指标评价体系
数据采集风险主要是指零售电商平台以主动或被动方式从系统外部收集信息的过程产生的风险,表现为用户通过电脑端或者手机端在零售电商平台浏览商品信息或发生交易而产生数据的过程中的不确定性。数据采集过程面临的风险包括数据容量、价值密度、数据增长潜力、数据采集时长、数据采集范围和数据采集渠道。数据容量是指平台数据采集的数量,可以用APP 下载量来度量;价值密度是指平台数据采集过程中的有效数,可以用活跃买家数量来度量;数据增长潜力是指平台有效数据的增长速度,可以用活跃买家数量增长率度量;数据采集的时长可以用APP 的发行时间来度量;数据采集范围是指国内外平台用户分布情况,可以用是否开拓海外零售市场来度量;数据采集的渠道包括网页版和手机端两大渠道。
数据导入和预处理风险主要是指零售电商平台将采集好的数据输入到系统中,并对数据进行审核、筛选、排序等分类汇总前必要处理的过程产生的风险。数据导入和预处理过程中面临的风险包括数据导入的途径、数据描述情况、数据处理情况、数据处理是否故障和数据故障处理速度。数据导入的途径是指零售电商平台与用户操作系统的兼容性,比如与苹果、安卓、鸿蒙系统的兼容性;数据的描述情况是指零售电商平台的宣传页面是否符合国家规范,是否存在虚假宣传等违规现象,可以通过打击侵权假冒工作网获取处罚公告;数据处理情况是指用户是否授权零售电商平台处理个人信息,是否存在违反个人信息安全法的情况;数据处理是否故障是指在零售电商平台使用高峰期,如双十一等促销节,数据处理平台是否因为数据数量的爆发式增长而崩溃;数据故障的处理速度表现为应对突发情况是否具有完备的防护措施。
数据分析和挖掘风险主要是指零售电商平台采用适当的统计分析方法将获取的数据分类汇总,通过情报检索、机器学习等算法提取有用信息并形成结论的过程中产生的风险,通常表现为零售电商平台根据用户以往的浏览、交易数据,利用算法预测用户行为定向推送相关信息的过程。数据分析和挖掘风险包括数据资产开发水平、数据资产开发战略地位、数据资产开发人才储备和数据资产潜在开发水平。数据资产的开发水平是指零售电商平台对数据分析和挖掘投入的资本,可以用零售电商平台数据资产的研发成本来度量;数据资产的战略地位是指零售电商平台对数据资产的投入的重视程度,可以用数据资产的研发成本占收入比重来度量;人才储备是指平台数据处理的工作人员比例,可以用平台数据研发人员比例来度量;数据资产的潜在开发水平是指数据资产研发投入的增长水平,可以用平台数据研发投入增长率来度量。
数据应用风险是指零售电商平台利用经过处理的数据资产创造价值的过程中产生的风险,表现为零售电商平台应用数据资产带来的企业持续增量收益。数据应用风险包括数据资产的用户满意度、数据资产的盈利能力和数据资产的覆盖面。数据资产的用户满意度是指数据资产的应用是否促进用户消费,可以用零售电商平台APP 评分来度量;数据资产的盈利能力是指数据资产为平台带来的收益,可以用商品交易额增长率来度量;数据资产的覆盖面可以用市场占有率来度量。
数据保护风险是指零售电商平台采取必要措施,确保数据资产处于有效保护和合法利用状态过程中产生的风险。数据保护贯穿数据资产的采集、导入和预处理、分析和挖掘以及应用的全过程,数据保护风险包括数据损坏和数据泄露。数据损坏是指零售电商平台出现故障导致数据丢失等损坏现象;数据泄露是指零售电商平台的数据资产被泄露的风险,可以用是否违反数据安全法来度量。
因子分析(FA)是基于降维的思想,在尽可能不损失或者少损失原始数据信息的情况下,将错综复杂的众多变量聚合成少数几个独立的公共因子,进而得出变量的本质结构。因子分析的方法分为验证性因子分析(CFA)和探索性因子分析(EFA),由于验证性因子分析假定明确因子与测度项的部分关系,因此并不适用零售电商平台的数据资产风险计量。探索性因子分析假定因子与测度项的关系未知,既能够体现各个变量之间的内在关系,反映原始数据的主要信息,又能够精简变量数目,实现数据降维,因而适用于评价指标众多的零售电商平台数据资产风险的量化。探索性因子分析的步骤如下:
1.数据检验
零售电商平台数据资产风险因子分析的目标是对采集到的原始数据进行降维浓缩,因此要求变量之间应该存在较强的相关关系,通常采用KMO(Kaiser-Meyer-Olkin)检验和巴特利球形度(Bartlett Test of Sphericity)检验。对于KMO 值,越接近1 代表变量间相关性越强,越适合做因子分析,因此0.6上合适做因子分析,0.5 以下应该放弃;对于 Bartlett的检验,若显著性小于0.05,拒绝原假设,则说明可以做因子分析;若不拒绝原假设,则说明不适合做因子分析。
2.因子提取
零售电商平台数据资产风险因子提取的目标是确定影响数据资产风险主要因子的个数,常常采用主成分分析法,通过正交转换将相关变量转换为不相关变量,选取方差最大的几个主成分表示原变量,实现降维。一般提取特征值不低于1 的成分作为主成分,并要求累计方差贡献率≥70%。
3.因子旋转
零售电商平台数据资产风险的因子旋转的目的是简化因子载荷阵,明确主因子对应的高载荷变量,对影响零售电商平台数据资产风险的主因子进行解释。通常使用最大方差正交旋转法。
4.计算综合得分
综合得分反映了单一样本在零售电商平台数据资产风险上的表现情况,通过分析成分矩阵,得出因子成分公式与权重,最终测算出零售电商平台数据资产风险的综合得分。
支持向量机(SVM)是一种广义线性分类器,按照监督学习方式对原始数据进行二次划分,是一种通用的前馈网络类型,常应用于分类、回归等场景。支持向量机回归(SVR)的原理为采用非线性映射将数据映射到高维数据特征空间,使自变量与因变量具有良好的线性回归特征,并在高维数据特征空间中实现拟合,再返回到原始空间,具有良好的泛化能力,因而适用于样本量较小的零售电商平台数据资产风险的回归分析,其步骤如下:
1.输入零售电商平台数据资产风险的训练数据集,通过非线性映射将原空间的输入样本映射到M维特征空间中,设置线性回归模型为:
(1)式中,ω 为权向量,b 为阈值。
2.对于给定的零售电商平台数据资产风险训练数据集,引入不敏感损失函数,通过在高维空间求解线性回归问题以解决原空间中的非线性回归问题,定义不敏感损失函数为:
(2)式中,ε为不敏感系数。
3.为了将零售电商平台数据资产风险回归问题转化为线性约束凸二次优化问题,引入松弛变量,得到:
满足:
4.引入拉格朗日乘子对零售电商平台数据资产风险回归模型优化,将凸二次优化问题转换为对偶问题,最终得到:
本文选取2017-2021年阿里巴巴、京东、唯品会、拼多多四家零售电商平台季度数据作为研究对象,相关数据从美国SEC 证监会官方网站和国家统计局网站手工获取,最终获得4 家企业的76 个公司-季度观测值。
考虑到零售电商平台数据资产风险指标的可得性,本文选取上述指标体系中的虚假宣传等违规行为的次数、活跃买家的数量、活跃买家数量增长率、研发费用、APP 评分、研发费用增长率、研发费用占总收入百分比、市场占有率、商品交易额增长率、上线时间和APP 下载量11 个维度的数据作为输入变量,零售电商平台数据资产的综合得分作为输出变量,各风险评价指标和度量方式如表2所示。
表2 零售电商平台数据资产风险计量指标选取以及度量方式
1.数据标准化
由于指标对数据资产风险影响的方向不同,需要区分正负指标,正向指标越大,数据资产的风险水平表现越好,即风险越小。因此,正向指标为活跃买家的数量、活跃买家数量增长率、研发费用、APP 评分、研发费用增长率、研发费用占总收入百分比、市场占有率、商品交易额增长率、上线时间和APP 下载量,负向指标为虚假宣传等违规行为的次数。为消除原始数据量纲和数量级的差异,采用min-max 归一化法对检验数据进行线性变换,使其映射到区间[0,1],公式如下:
正向指标标准化:
负向指标标准化:
2.数据检验
经计算,标准化后的零售电商平台风险数据KMO 值为0.660,Bartlett 球形检验显著性P 值为0.000,在1%水平上呈现显著性,拒绝原假设,各变量间具有相关性,因此主成分分析有效。
3.因子提取
零售电商平台数据资产风险相关指标的特征根和方差解释率结果如表3所示,前3 个成分的特征值都大于1,累计方差贡献率为80.18%,符合累计方差贡献率要求,因此选取前三个成分来研究零售电商平台数据资产的风险水平,分别记作F1、F2、F3。
表3 零售电商平台数据资产风险相关指标总方差解释表
续表
4.因子旋转
旋转后的因子载荷系数如表4所示,在F1中,活跃买家数量、APP 发行时长、虚假宣传等违规行为次数、研发费用和市场占有率几个变量发挥的作用显著;在F2中,APP 下载量、研发费用占收入比重和APP 评分几个变量发挥的作用显著;在F3中,活跃买家数量增长率、研发费用增长率和商品交易额增长率几个变量发挥的作用显著。
表4 旋转后因子载荷系数表
续表
5.计算因子得分
因子分析的成份矩阵如表5所示,说明各个成分所包含的因子得分系数(主成分载荷),用于得出主成分公式。
表5 零售电商平台数据资产风险相关指标成分矩阵表
因此,可以得到主成分F1、F2、F3的公式为:
根据表3旋转后方差解释率可以得到综合得分F的公式为:
F=(0.366/0.802)×F1+(0.273/0.802)×F2+(0.163/0.802)×F3
综上,可以测算出2017-2021年每季度零售电商平台数据资产风险综合得分,其中,零售电商平台数据资产风险综合得分最高为阿里巴巴2018年第2 季度得分1.226,综合得分最低为唯品会2020年第1 季度得分-1.574。采用五等分法将零售电商平台数据资产划分为五个风险等级,如表6所示。
表6 零售电商平台数据资产风险等级划分表
将零售电商平台数据资产风险的相关指标作为输入,将根据因子分析计算得出的零售电商平台数据资产风险得分作为零售电商平台数据资产评估模型的预期输出,基于支持向量机回归算法,构建零售电商平台数据资产风险评估的回归模型。选择70%的样本作为训练数据,30%作为测试数据。
在零售电商平台数据资产风险评估模型的支持向量机回归中,本文选取线性核函数(linear),通过网格搜索法在[0.1,100]搜索最优参数,残差收敛条件为0.001,最大迭代次数为1000,确定C=1。支持向量机训练集均方误差MSE 为0.003,R2为0.994,模拟集均方误差MSE 为0.06,R2达到0.898,因此运用支持向量机回归预测零售电商平台数据资产风险具有一定可行性。
本文首先建立了数据采集、数据导入和预处理、数据分析和挖掘、数据应用和数据保护5 个一级指标、20 个二级指标的零售电商平台数据资产的风险指标评价体系,然后手工搜集四大零售电商平台2017-2021年数据资产风险各项指标数据,利用探索性因子分析测算零售电商平台数据资产的风险,然后采用支持向量机回归算法进行实证检验,验证了探索性因子分析和支持向量机回归在零售电商平台数据资产风险评估中的可行性,为评估零售电商平台数据资产风险提供参考,促进我国零售电商行业的高质量发展。