中国大数据基金的业绩评价与对比分析*

2021-01-28 07:43何菊香王徵羽

科技促进发展 2020年10期

■ 何菊香王徵羽

北京邮电大学经济管理学院北京 100876

0 引言

数字经济时代，大数据技术的预测功能使得越来越多的互联网公司进军金融业，金融科技浪潮汹涌。早在大数据技术出现之前，国外学者就已经开始尝试运用数据模型支持投资决策，并使用互联网技术定量分析投资者情绪与股票收益波动之间关系。White(1988)[1]尝试使用神经网络技术来预测IBM 股票的未来趋势。Bank 等(2011)[2]发现网站搜索查询次数的增加与交易活动和股票流动性有关，搜索量主要衡量了投资者的关注度。Tumminello(2012)[3]考察了每日新闻信息数与股票交易者行为变化的关系，证明了不同投资者与这些因素具有不同的相关性。国内在大数据技术和量化投资领域起步较晚。张继德等(2014)[4]以百度指数用户关注度衡量普通投资者关注度，证明普通投资者的关注会驱动投资者进行交易，对收益产生正向影响。于江宁等(2015)[5]发现开放式基金流量变化与投资行为之间存在正向关系。朱振和蒋文璐(2016)[6]验证了余额宝情绪指数对中国股市的影响，这将对投资者产生一定的指导作用。刘海飞(2017)[7]验证了社交网络信息质量与股价同步之间存在高度负相关的关系。

借助于大数据技术，互联网公司发现能够对投资者的情绪进行监测，从而对市场甚至个股进行预测。因此开始与基金公司进行合作，运用自身大数据资源进行投资决策，优化资产配置，提升投资绩效——大数据基金应运而生。大数据基金是大数据技术和基于海量数据的证券投资基金的全新组合。与传统基金相比，创新之处在于将大数据因素引入了市场驱动因素，数据量更大，范围更广，量化模型更先进，其选股技术是基于互联网大数据指数，从逻辑上打破了传统指数对行业板块的依赖，将股票转换周期缩短至一个月，以使指数更及时、交互地捕获和反映市场变化。

针对基金业绩评估的研究在国际学术界比较系统和成熟。Treynor(1965)[8]率先利用风险来调整收益，提出了特雷诺指数。Sharpe(1966)[9]提出夏普指数，用标准差来代替贝塔系数是否能更合理地考察风险分散情况。Jensen(1968)[10]将基金的真实收益和由资本资产定价模型计算出的理论收益的差作为新的衡量指标，提出了詹森指数。Treynor和Mazuy(1966)[11]提出在资本资产定价理论中加入一个二次项，由T-M 模型来衡量基金经理的绩效。Henriksson 和Merton(1981)[12]提出H-M 模型，引入了虚拟变量D 来应对空头和多头市场中主动管理的不同影响。国内多数学者采用国外成熟的理论和模型为基础来进行实证研究。杨育欣(2017)[13]研究发现中国只有少数基金经理具有一定的选股能力，择时能力尚需加强。杨霞(2019)[14]从基金实力、市场风险和基金经理能力3 个方面构建了基金业绩评价体系。闫屹(2019)[15]将主成分分析法运用到开放式基金绩效评价体系，对不同市场行情的基金进行了评价。

表1 样本基金概况

综上所述，学术界聚焦在传统基金的研究较多，针对大数据基金展开的研究相对缺乏。在金融科技汹涌发展的浪潮下大数据基金正稳步扩容，通过业绩评价可进一步显示大数据基金在金融创新中的地位和作用，提升大数据基金的行业影响力。如何科学客观评价大数据基金的业绩，它应该遵循什么准则和程序进行评价，与传统基金对比大数据基金是否具有显著的业绩优劣势等等，均是当前中国投资者和学术界面临的重要课题。

本文选用具有代表性的特雷诺指数，夏普指数和詹森指数进行风险调整收益分析，同时运用T-M 模型和HM 模型来探究选股和择时能力，创新性的构建了基于主成分分析法的大数据基金业绩综合评价体系，并与传统基金业绩进行对比，能较清晰地透视大数据基金的业绩地位和作用、具有的优势和不足，丰富了中国基金业绩评价的相关理论成果，同时为基金管理者和投资者提供明确的市场判断，对优化资产配置的实践提供借鉴和参考。本文是北京邮电大学研究生产教融合创新实践课“财富管理”建设项目中“基于大数据进行大类资产配置”的直接研究成果。

1 数据的选择与说明

1.1 研究样本与数据来源

大数据基金2014年才在中国市场出现，为保证评价的有效性，本文遴选出有代表性的18 只作为分析样本，并选取6 只成立时间相近、规模大小类似的传统基金作为比较对象。选取的考察期跨度设定为2年，从2018年4月1日到2020年3月31日。为简便分析，将大数据基金以DJ、传统基金以CT 为开头进行编号（见表1），同时依据其投资特征的差异分为被动指数型和主动管理型两大类。被动指数型基金一般选取的指数成份股作为投资的对象，如沪深300 指数、创业板指数等，主动管理型基金是以寻求超越市场业绩表现为目标的基金。

1.2 市场基准组合构造与无风险利率选取

大数据指数样本股更接近小型股，不适宜用沪深300 指为市场基准。根据国外经验和基金样本的投资情况，本文选择除去上市时间不到3 个月以及有退市风险的股票后的全部沪深A 股构成的中证中全指数作为市场基准，该指标与大数据指数样本股接近，具有更高的代表性。

国外主要使用短期国债利率或者银行同业拆借利率作为无风险利率。中国国债市场流动性较弱，利率没有市场化，国债产品较少，不适合直接选取国债利率。考虑国家信用的存在，中国银行存款可认为是无风险的，本文选取中国银行一年期定期存款利率作为无风险利率。

表2 基金收益水平

所有基金的日频数据、中证中全指数来自Wind 数据库，一年期定期存款利率来自央行官网，其他数据均使用Excel、Eviews、SPSS计算得到。

1.3 评价指标选取

中国在基金业绩评价方面的研究相对薄弱，本文借鉴国内外研究思路，以现代投资组合理论为指导，从收益分析、风险分析、风险调整收益、基金业绩归属能力4个维度对其进行分析。上述指标所需的净值数据相较持仓数据而言更容易获取，且较为全面地概括了基金的绩效水平，能够高效、客观地反映基金真实业绩。

1.收益水平：获取收益是投资者的根本目的。基金的业绩很大程度上通过收益水平决定。本文设置考察期内平均收益率、超额收益率和累计收益率3 个指标进行考察。

2.风险状况：风险与收益并存于投资中，具体表现为收益的不确定性，基金管理者会采取一系列措施来规避风险，但无法完全消除。本文设置基金收益率的标准差、贝塔系数和单日最大回撤值为评价指标。

3.风险调整后收益：不同的风险水平意味着不同的收益，基于资本资产定价模型的风险调整收益法把收益和风险结合了起来，解决了不同基金绩效无法比较的难题，是评价基金业绩更客观公平的指标。本文选取特雷诺指数、夏普指数和詹森指数。

其中rp和βp分别代表的是投资组合P在考察期内的平均收益率和系统风险系数，rf代表的是同期的无风险收益率。特雷诺指数代表的是基金在承担单位系统性风险的同时能够获取超过无风险收益的能力，与基金业绩成正向关系。

其中σp是投资组合P 的标准差，夏普指数考虑了风险分散的因素。

詹森指数：J =rp-[rF+βp(rm-rf)]

其中rm是市场组合收益率，詹森指数计算的是基金超出资本资产定价模型中的收益率。

4.基金业绩归属能力：选股能力是指基金经理对价值被高估或低估的股票进行识别的能力，择时能力是指基金经理对股市进行正确的判断的能力。基金经理的能力往往直接决定和影响着一个基金组合的业绩。本文参考国内外运用较多的能有效检验β 值的变动的T-M模型和H-M 模型进行量化分析，以判断其是否有选股择时能力，模型的拟合结果能够清楚显示其业绩是来自于选股还是择时能力。

表3 基金风险状况

Treynor 和Mazuy(1966)构造的T-M 模型认为,资本资产定价模型中的安全特征线将受到基金经理运作的影响。具体表达式为:

Henriksson 和Merton(1981)提出H-M 模型，对T-M模型增加虚拟变量D，具体表达式为：

其中λ是选股能力指标，β代表的是投资组合的系统风险，μ 是择时能力指标，ε 是随机误差项。λ 大于0 表明基金经理具备一定的选股能力，λ 值越大表明选股能力越强；μ 大于0 表明基金经理具备一定的择时能力，μ 值越大表示择时能力越出色。D是一个虚拟变量，当rm>rf时，D=1；当rm

1.4 综合评价体系

行业通用的4个业绩指标评价方法仅是从不同的角度给出基金不同侧面的评价结果，无论是基金公司用于改进管理、进行奖惩的内部评价，还是机构或个人投资者进行投资决策的外部评价，这些分散的指标都很难给出一个整体、直观的评价。本文的主要创新点是运用主成分分析法，在4 大指标基础上构建了一个对大数据基金进行全面客观的综合评价体系。

主成分分析法是通过基金各项指标的计算，得出相关系数矩阵，然后通过特征值和累计贡献率算出哪些指标与基金业绩衡量的相关度比较大，把贡献率较大的指标作为主成分，以各自的方差贡献率为权数，将每个主成分线性加权，得到每个样本基金的综合评价得分，其得分反映各样本基金偏离总体平均水平的程度，可以评价基金优劣并排序。该方法可以消除评价指标间的相关性对评价结果的影响，且指标间相关性越高，主成分分析的效果越好。

2 基本指标数据分析与对比

1.收益水平：分别测算样本基金考察期内日均收益率、日均超额收益率和累计收益率，并对各只基金的收益情况进行排名，得到表2。

被动型基金中，DJ1、DJ2的表现较差，而其余大数据基金相较传统基金具有明显优势，能够战胜市场组合但差距不大。主动型基金有所不同，除了DJ17排名较前之外，其余的指标与传统基金相比，并没有显著的优势，甚至略劣于传统基金。均值显示被动型大数据基金业绩整体优于传统型基金，但在主动型基金中的均值表现结果正相反。

表4 基金风险调整后收益

2.风险分析：计算出各基金收益率的标准差、贝塔系数和单日最大回撤值的3个指标，得到表3。

被动型基金中，DJ3、DJ4 的标准差和贝塔系数都表现最好，单日回撤最大值的排名与标准差基本一致，但缺乏3 项指标都表现突出的基金，说明样本基金不能同时兼顾总体风险和系统风险。主动型基金中，大数据基金无法兼顾整体波动性和系统风险，但在极端情况下的回避能力有明显优势。从均值表现来看，大数据基金与传统型基金的风险水平没有明显差异。

3.风险调整后收益：对各基金的特雷诺指数、夏普指数以及詹森指数进行考察计算，得到表4。

被动型基金中，特雷诺指数和夏普指数存在的负值表明没有真实意义，因此主要考虑詹森指数，DJ7、DJ8表现最为突出，大数据基金明显高于传统基金。而主动型基金中，大数据基金表现不一，两极分化较为明显，并没有表现出明显优势。

4.基金业绩归属能力：首先，采用T-M模型对样本基金进行检验，判断其选股和择时能力，结果见表5。

被动型基金中，R2为方程拟合优度，由此说明T-M模型能够有效地反映出基金选股择时能力。大数据基金的λ 值均为正，表明大数据基金都具有一定的选股能力，其中DJ9、DJ10 最高，且通过显著性检验，说明具有显著的选股能力。而其他基金的λ值不能通过显著性检验，不能认为其选股能力是显著的。在μ值上，负值不具有实际意义，μ 大于0 的基金并不能通过显著性检验，表明大数据基金都没有表现出显著的择时能力。

主动型基金有所不同，所有基金均具有一定的选股能力，且差别不大。而CT6 的μ 值最高且通过显著性检验，其择时能力强于所有基金。其余基金的μ值虽为正，但是无法通过显著性检验，表明择时能力并不显著。总体来看，大数据基金的选股能力优于传统基金，而择时能力并无明显优势。

然后，利用H-M 模型对基金业绩进行检验，判断其选股和择时能力，结果见表6。

同样，R2值表明H-M 模型对被动型基金的拟合程度较好。大数据基金的λ 值高于传统基金，表明大数据基金选股能力上要优于传统基金。而在择时能力上，大数据基金和传统基金均表现较差。

主动型基金的R2值较低，说明H-M模型对主动型基金的拟合程度较差。在选股能力上，所有基金的λ 值表现都不显著，说明样本基金的选股能力较为一般。而在择时能力上，大数据基金表现不一，无法通过显著性检验，表明择时能力并不显著。总体来看，大数据基金的选股能力优于传统型基金，而择时能力不如传统型基金。

表5 T-M模型检验结果

3 综合评价和对比的实证分析

仅从上述4个单方面指标分析并不能直接区分大数据基金和传统基金的业绩优劣，为了更客观有效的评价和对比，本文运用主成分分析法分别对4 类13 个指标进行综合测评排序。通过主成分分析，分别将样本数据分为主成分1、2、3，特征值都大于1 且合计能解释92.934%及97.738%的方差，即涵盖了大部分信息，这表明前三个主成分能够代表最初的13个指标，故提取前三个主成分是可取的。表7给出了被动型基金和主动型基金主成分特征值及方差贡献率。

从旋转之后的成分矩阵（表8）可以看出：被动型基金中，特雷诺指数、日均超额收益率、日均收益率、累计收益率、夏普指数、詹森指数与主成分1 密切相关，归纳为与收益相关指标，主要反映了基金的总体业绩；单日最大回撤值、标准差、贝塔系数与主成分2密切相关的总结为风险控制能力指标；H-M、T-M 模型的λ、μ 值与主成分3 相关，可将其归纳为选股择时能力指标。主动型基金的主成分确定方法和程序类似。

表6 H-M模型检验结果

表7 基金特征值和方差贡献率

根据因子载荷矩阵中的值除以对应特征根的算术平方根，得到主成分的线性组合系数，由此得到主成分的表达式，算出各基金业绩的主成分Y1、Y2、Y3 的值，再通过旋转之前的方差贡献率算出权重，用权重乘以每一项主成分值得出综合得分，见表9。

表8 旋转后的成分矩阵

表9 基金综合评价结果

对于被动型基金而言，主成分Y1 代表的收益指标显示大数据基金整体显著优于传统基金；从Y2 代表的风险状况来看，样本基金的分化较严重，大数据基金略微优于传统基金；Y3代表的选股择时能力指标可以看出大数据基金表现出显著优势。对于主动型基金而言，主成分Y1 代表的收益指标上，大数据基金并无明显优势；Y2 代表的风险指标显示出大数据基金对于传统基金优势较大；从Y3 代表的选股择时能力指标来看，大数据基金总体并没有显现出显著优势。

将主成分综合评价结果与单一的收益水平、风险状况、风险调整后收益、选股择时能力的评价结果进行Pearson相关性分析，相关系数都在0.9以上，通过了显著性检验，由此可说明主成分综合评价法与各单项指标之间相关性较高，进一步实证了将综合评价法运用于大数据基金的业绩评价是可取的。

综合评价结果表明，大数据指数基金业绩的优势相对传统基金较为明显，DJ17、DJ7和DJ8优秀的收益水平和出色的选股择时能力使其脱颖而出。这是因为排名靠前的基金净增长率较高,在风险控制上也表现突出，而排名较后的基金在收益水平上较差，很少能够跑赢市场组合，可以看出，主成分分析中赋予的权重对基金的收益水平相对比较看重。

4 结论

从大数据基金业绩多方面的综合评价，被动型大数据基金在收益水平、风险状况、风险调整后收益上都占据了巨大的投资优势，整体优于传统型基金，但仍存在个别未跑赢市场组合的、且缺乏能够兼顾总体风险和系统风险的大数据基金；主动型大数据基金在风险控制能力上显著优于传统基金，而在收益水平和风险调整后收益上，样本基金分化严重，整体仅略微优于传统基金，且差距并不大。另外，从基金业绩归属能力来看，被动型与主动型大数据基金都具有相对投资优势，同时发现大数据基金中不存在选股与择时能力二者兼备。

金融科技创新支持下的大数据基金运用是未来投资管理的主要工具，运用前景广阔。基金公司应逐步深化大数据资源的整合利用，挖掘其背后隐藏的有效信息，并且进一步完善现有量化模型，实现全面的定量分析。对于投资者而言，为了实现财富管理利润最大化，应该视市场行情来选择基金种类，追求高回报且高风险承受力的投资者应选择主动型大数据基金，而那些较为保守且低风险承受力的投资者应选择被动型大数据基金，投资者不仅应根据基金初期表现进行投资，还应不断加深对其的了解，以实现自己的财富管理期望。