基于大数据的基金投资决策系统

2019-09-10 07:22郑雄辉吴甜
现代信息科技 2019年14期

郑雄辉 吴甜

摘  要:建立一个基于大数据的基金投资决策系统,可以帮助投资者获取乐观稳定的收益。对于投资者而言,知道基金接下来的走势至关重要。而要预测基金将来的走势,可以通过对基金的历史数据构造多因子,对多因子进行因子分析,建立多元回归模型,构建投资组合来实现。相对于选择基金,择时更为困难。震荡市的存在很容易导致投资者亏损,因此选择合适的时机至关重要。该系统有效地解决了数据提取、基金选择和择时交易的问题,并且可以程序化交易,极大地方便了投资者。

关键词:基金投资;多元分析;择时;程序化交易

中图分类号:TP311.1      文献标识码:A 文章编号:2096-4706(2019)14-0020-04

Fund Investment Decision System Based on Big Data

ZHENG Xionghui,WU Tian

(School of Science,Tianjin University of Science & Technology,Tianjin  300457,China)

Abstract:Establishing a fund investment decision-making system based on big data can help investors to obtain optimistic and stable returns. For investors,it is very important to know the future trend of the fund. To predict the future trend of the fund,we can construct multiple factors by constructing historical data of the fund,analyzing multiple factors,establishing multiple regression models and constructing investment portfolios. The timing is more difficult than choosing a fund. Due to the existence of a volatile market,it is easy to cause investors to lose,so it is very important to choose the right time. The system  effectively solves the problems of data extraction,fund selection and timing trading,and can be programmed to trade,greatly facilitating investors.

Keywords:capital investment;multivariate analysis;timing;program trading

0  引  言

基金作为一种重要的投资工具,具有风险相对较小、购买便利、手续费较低等优点,成为各机构和家庭理财的主要配置。但同时也存在品种多、收益良莠不齐等缺点,造成了投资者在基金选择上存在困难。本文建立了一个基于大数据的基金投资决策系统,在尽可能地在降低风险的前提下为投资者谋取高收益,系统主要包括三个部分:爬虫部分获取基金的各种基本面和行情数据、多因子模型分析和选择基金、择时策略的开发和回测获取超额收益。

1  爬虫程序获取基金数据

1.1  获取基金列表

网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛应用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。

本文以东方财富网为数据来源,运用MATLAB获取所有基金列表,其中包括已经退市的基金,表1是获得的各种基金的名称和类型。

1.2  获取基金信息

作为建立模型的第一步,确保使用数据的全面性和合理性是很重要的。首先需要归纳出不同风格的因子种类,再在各个风格大类下细分相关因子,并综合经济含义以及相关参数来确定因子的计算方法。

通过爬虫技术编译函数获取混合型基金的信息,构造基本多因子,便于接下来对多因子进行分析和对基金进行选择,表2是对基金构造的多因子。

1.3  获取基金历史净值

基金历史净值是用来计算基金收益的重要指标,同时基金历史净值也是基金市场用来进行基金交易的依据。基金净值不同于基金累计净值不能作为评判该基金成長态势和业绩的参考,但是却可以用来构造行情因子,在开发择时策略时使用。表3是获取的华安标普全球石油指数(160416)的部分基金历史净值,其中包括日期、净值、累计净值、涨跌幅(%)。

2  多因子选择基金

多因子模型是目前应用比较普遍的一种选择证券的模型,其基本原理是采用一系列的因子综合评价后作为选择证券标准,根据这些因子买入表现较好的证券。多因子模型的优点在于,它能通过有限共同因子来有效地筛选数量庞大的个股,在大幅度降低问题难度的同时,也通过合理预测做出了判断。

本文基于多因子模型选择基金的方法是打分法、回归法和机器学习与人工智能方法。

在构建多因子模型之前,首先要准备好待检验的原始因子池以及它们的数据;并根据要求进行初步的整理,建立基金池;最后对因子进行检验并建立多因子模型以选取基金。

2.1  打分法

打分法的基本步骤:(1)对每类因子赋予不同的权重;(2)对因子标准化打分并筛选;(3)添加约束、二次规划求解权重。

2.2  回归法

假设因变量Y(预期收益率)是自变量X1,X2,…,Xk(候选因子)的线性函数,用方程来表示就是:

Yi=β0+β1X1i+β2X2i+…+βkXxi+εi

其中Yi表示因变量的第i个观测值,而Xki则是第k个自变量(解释变量)的第i个观测值,是自变量Xk的系数,εi是第i组观测值的残差项。

通过因子分析来去掉与被因变量相关性差的因子;然后采用主成分分析法来对因子进行降维,便于进行构造方程;而多元线性回归通常采用普通最小二乘法(OLS)进行估计。

2.3  支持向量机分类与神经网络

(1)支持向量机是一种经典的二分类模型,本身也可以转化为一个凸二次规划求解的问题。其基本思想是假设数据线性可分,希望找到一个合适的超平面将不同类别的样本分开,类似二维平面使用ax+by+c=0来表示;(2)神经网络是一种运算模型,由大量的神经元之间相互连接构成。神经网络模型主要考虑神经元模型、学习算法、网络拓扑结构。

2.4  机器学习多因子模型实例

实例主要运用支持向量机分类的方法对基金数据进行择时回测,并且从下面的所得数据,可看出模型取得了较好的预测效果。

具体操作为:(1)获取上市公司基本数据;(2)基金指标计算:各日涨幅、K线均值、乖离率、RSV、OBV量比等其他指标作为待分析的因子;(3)数据标准化:将训练样本和预测样本归一化(均值标准差法);(4)变量筛选:计算相关系数矩阵,选择相关性较强的因子;(5)训练分类器并分类变量(MATLAB内置的分类器);(6)训练神经网络模型并进行模型评估(如图1所示)。

3  择时回测

对于选择基金,择时比较困难,同时基金交易手续费高(持有不到7日征收1.5%的惩罚性赎回费),而且短期投机交易不符合基金长期价值投资理念,所以基金投资往往以中长期择时为主。

3.1  传统技术指标

3.1.1  双均线(MA)指标择时

通过比较市场价格与均线指标的大小来判断市场所处的状态,可以构建一种简单的择时交易策略,如果采用较短的计算天数,则可用于市场的短线择时交易。均线择时也是趋势投资方法的典型体现。双均线顾名思义就是两条天数不同的移动平均线,比如说,一条是5天的移动平均线,另一条是10天的移动平均线。

3.1.2  平滑移动平均线(MACD)指标的择时

MACD是从双指数移动平均线发展而来的,由快的指数移动平均线(EMA12)减去慢的指数移动平均线(EMA26)得到快线DIF,再用快线DIF-DEA得到MACD柱。MACD的意义和双移动平均线相似,即由快、慢均线的离散、聚合来显示当前的多空状态和股价可能的发展变化趋势并对买进、卖出时机做出研判。

MACD的计算:(1)EMA(12)=前一日EMA(12)×11/13+今日收盘价×2/13;(2)EMA(26)=前一日EMA(26)×25/27+今日收盘价×2/27;(3)DIFF=今日EMA(12)-今日EMA(26);(4)DEA(MACD)=前一日DEA×8/10+今日DIF×2/10;(5)BAR=2×(DIFF-DEA)。

MACD的擇时应用:(1)当MACD从负数转向正数,即买入信号;(2)当MACD从正数转向负数,即卖出信号;(3)当MACD以大角度变化,表示快的移动平均线和慢的移动平均线的差距非常迅速地拉开,代表了一个市场大趋势的转变。

3.2  几何模型

如数学中的一阶导数表征涨跌;二阶导表征凹凸性,体现涨跌速率。模型策略的理论基础是离散数据的多项式拟合。

对交易日内某段时间的价格序列{px}进行线性拟合(即一阶多项式拟合),得到连续函数y1=a1x+b1,通过其一阶导数判断该段时间价格的趋势,当>0时,价格为上涨趋势;当<0时,为下跌趋势;当=0时,无趋势。

通过一阶多项式拟合,可以对价格的基本趋势做出判断,但更重要的是还要对趋势的变化情况做出界定,即需要研究由于金融市场的信息不平衡特性所带来的趋势加速或减速的情况,这点可以通过二阶多项式拟合完成。同样是对该段时间的价格序列{px}进行二次拟合,拟合的目标函数形式为y2=a2x2+b2x+c2,当 >0时,价格曲线为凹;反之当 <0时,价格曲线为凸;结合一阶多项式拟合的结果。

在第1种和第3种情况出现时,对股指期货进行顺势建仓,获得趋势性价差收益;当建仓后一段时间, 的正负号发生变化时,价格趋势改变,在趋势交易中,该种情况需要进行平仓。另一种情况是在建仓后  的正负号还没有发生变化时, 的正负号已经发生了变化。这种情况对应于上涨或下跌趋势由加速变为减速,此时趋势有结束的迹象,应及时平仓出局。若正负号一直没有发生改变,则表明趋势持续,最终将按收价平仓。利用几何模型择时所得到的结果如图2、图3所示。

4  结  论

本系统提供了完整的基金分析框架,包括爬虫获取基金数据、多因子模型评价和选择基金、择时策略的开发和回测,以及程序化交易。投资者可以在该系统中根据个人偏好选择不同的策略进行交易,银行和一些金融机构在投资和推荐基金时,可以通过该系统对基金进行多维度的评价,在风险和收益之间取得较好的均衡,以期获得稳定收益。

参考文献:

[1] 罗军.股指期货专题系列报告 [R].广州:广发证券,2011:6-8.

[2] 李亚宁.基于多项式拟合法的空中目标实时位置预测研究 [J].计算机与数字工程,2015,43(3):404-407+411.

[3] 魏妹金.支持向量机多因子选股模型 [D].厦门:华侨大学,2015.

[4] Principe J C,Rathie A,Kuo J. Prediction of Chaotic Time Series with Neural Networks [J].International Journal of Bifurcation and Chaos,1992,2(4):1-9.

[5] 司晓彤.基于回归法的多因子选股模型的投资组合分析 [D].青岛:青岛大学,2017.

[6] 肖晞晖.基于大数据和机器学习的量化选股模型研究 [D].武汉:华中师范大学,2018.

[7] 武福利.基于多因子模型的FOF基金产品设计 [D].武汉:华中科技大学,2017.

作者简介:郑雄辉(1998-),男,汉族,江西抚州人,本科在读,研究方向:基金投资。