邵 波 ¹ 李书涵 ² 倪晨晨 ¹ 吴旭婷 ¹
(1.浙江外国语学院 浙江 杭州 310023;2.杭州第二中学钱江学校 浙江 杭州 311000)
近些年,由于信息和互联网行业的逐步发展,大数据掀起热潮,数据可视化成为热门话题之一。人们对海量数据的挖掘、运用和分析,为新一波盈利浪潮起到预告作用,也为物理、生物等领域和金融、通讯、军事等行业发展带来新的启发。
数据可视化借助于图形化手段,将稀疏又复杂的数据直观性地显现出来,在一定程度上可以弱化部分数据困局。但是对于挖掘收集到的各类数据,如何解释数据,将复杂数据简单化并以直观的效果呈现,是研究人员的一个重要任务。可视化技术与信息表达有密切、直接的联系,是诠释复杂数据的重要方法和手段。这种方式在升级发展的过程中面临的主要问题便是信息超载。人们在面对 “信息爆炸”和 “数据过剩”局面表现出茫然无措的同时,也明显感受到“信息贫乏”和“数据被关在牢笼中”的约束。
在互联网与金融并行繁荣发展阶段,计算器的使用和操作也更加便捷。行业研究人员为促进行业发展,不断创新研究方法,深入研究数据信息中内涵的价值,从而使学习和应用计算机高级语言也成为了一种趋势。计算机语言的普及以及使用率也因此得到大大提高,其主要可以分为以下三类:机器语言、汇编语言、高级语言。
1.概要
Python是提供简单高效的高级数据结构的一门计算机解释性高级动态编程语言,具有跨平台、开源、免费三大特点。它的动态类型和语法,使这门本质为解释型语言的编程语言在平台运用和开发应用方面,得到快速发展。
2.Python中数据可视化的工具使用
一图胜千言。数据可视化可以通过Python的可视化工具包中的通用软件工具和特定软件工具实现。通用软件工具是指集成开发环境(IDE),即同一软件包内包含所有生产工具的应用程序,尤其是Enthought中的Canopy 和Continuum Analytics中的Anaconda都是操作便捷的工具;而特定软件工具是指Python 绘图库,如:Bokeh、iPython、Matplotlib、Numpy以及 Seaborn等等。
众所周知,Python的一大特点在于拥有丰富的第三方库。但实际上,Python同时拥有标准库和第三方库两类。标准库在下载Python安装包时即同时配备完成,方便用户随时调用;而第三方库需要另外新安装才可运用。
数据可视化旨在借助图形化手段,将数据信息进行有效清晰地传达与展示。实际上,数据可视化技术在广义上包含四种概念:数据空间、数据开发、数据分析、数据可视化。本文从狭义上研究数据可视化技术,即将大量离散数据集通过图像、图形等形式进行直观表现,并利用相关数据分析工具发现和挖掘潜在信息。
数据可视化的应用可以分为三类:报表类、BI分析工具、数据可视化工具(国内)。其中,报表类似JReport、Excel、FineReport思迈特软件(Smartbi)报表为代表;BI分析工具以Style Intelligence、BO等为代表;国内的数据可视化工具则以BDP商业数据平台、FineBI商业智能软件等为代表。
数据可视化的起源可以追溯到20世纪50年代时计算机领域图形学的早期,首批图形图表便是人们利用计算机创建的。数据可视化的发展可具体分为三个阶段:科学可视化、信息可视化、数据可视化。科学可视化起源于1987年,由布鲁斯·麦考梅克、托马斯·德房蒂和玛克辛·布朗三人共同编写的美国国家科学基金会报告《Visualization in Scientific Computing》。这份报告极大地刺激并促进了数据可视化领域的发展,并强调了基于计算机的可视化技术方法需要创新的必要性。
数据可视化在国外先行发展。1990年,IEEE举办了首届IEEE Visualization Conference,汇集物理、生物医学、图形学、计算机等领域或交叉学科领域的研究人员作为学术群体,鼓励其参与并从事可视化研究。近年来,国内外各行业研究人员对可视化研究愈发重视,不断突破领域瓶颈,将可视化技术之发展至更多行业(地理学、天文学、气象学等)和社会群体(政府、企业等)。事实上,很多互联网公司在可视化领域也开拓了很多实践,如2013年,由微软开放的3D数据可视化工具—一“GeoFlow”,通过二维数据表或三维垂直图的方式呈现,支持Excel Data Model和PowerPivot数据模型和多种可视化类型。
1. Politic(政治)分析
数据可视化是当前政府发布数据的重要方式,因其具有直观、易懂等特点,便于向不熟悉具体情况的普通大众解释数据。同时,图文并茂的形式更容易引起人们的关注和兴趣,利于数据普及宣传。当前,国家正推进传统数据形式向数据可视化方向发展,以进一步完善数据领域的全方面均衡发展,利用数据可视化在分析和科普宣传方面的独特优势,将数据可视化解读运用到各行各业中去,推动各行业的数据发展,促进当前统筹规划格局的进一步提升。
2. Economic(经济)分析
数据可视化在金融分析领域有良好的现实应用基础和巨大的发展前景。数据的可视化处理便于研究人员掌握当前经济领域政策变动和相关数据情况,还可以在数据之间建立相关联系,便于进一步分析总结,以便在已有数据的基础上对某一行业或领域做出未来远景展望和相关规划。数据可视化在当前经济领域已经有了较为广泛的应用,但仍有较大进步空间。
3.Society(社会)分析
图1 货币供应量当月对比图
数据可视化技术的应用能够较好地对社会经济研究提供分析参考,通过直观的视觉表现,能够将复杂的数据经过处理后,以图文形式展现出来,表明当前社会、行业或某领域的发展状况或趋势。这对于研究社会现象、预测发展趋势、制定未来计划等方面,具有重要的利用价值和研究意义。
4.Technology(技术)分析
当前,数据处理主要借助计算机手段,运用软件对所搜集到的信息进行处理,拥有多种方式方法,经过特定条件筛选和选择的数据汇集,为人们想要得到的数据信息,相关人员以此对过往情况加以判断,并通过其中的蛛丝马迹对未来预期作出合理猜想。
在数据可视化这一环节,目前已有相关软件如:BIEE、Microstrategy、Yonghong的Z-Suite等,能够帮助专业技术人员对数据进行具体分析和可视化呈现。在当前大数据时代,数据可视化技术的发展和进步是一个大趋势。未来,随着数据可视化方法和工具的迭代更新,数据可视化技术必将拥有更广阔的应用前景和发展舞台。
银行未来发展的关键是强调效率、精准营销。为提高银行对业务的掌握和运用,国内领先的数据智能践行者根据杭州银行的现状,为其定制了数据可视化平台,并将银行现有的不同业务板块间数据融合、统一展示,实现实时数据对接,增强银行对其各项业务运行的掌控和对用户画像分析的能力。
图2 2020年7月21日银行金融数据大盘效果图(数据来源:知乎)
1.量化投资策略
量化投资策略是指利用量化的方法,进行金融市场的分析、判断和交易的策略、算法的总称。其策略可应用于量化选股、量化择时、算法交易股指期货套利、商品期货套利、统计套利,风险控制,资产配置等。
在大数据时代,量化投资通过数量化方式及计算机程序化发出买卖指令,从而获得稳定收益,获国内外众多投资者的青睐。由于其投资业绩稳定,市场规模和份额不断扩大,投资者对于这种投资模式愈发认可。事实上,互联网的发展使得新概念在世界范围的传播速度非常快。作为一个概念,量化投资并不算新,国内投资者早有耳闻。但是,真正的量化基金在国内还比较罕见。同时,机器学习的发展也对量化投资起了促进作用。
2.指标选择
初入股市,投资者最先学习的便是观察和了解K线图和日均线,从而进一步接触到移动平均线(MA)理论。这是股市最常见的一种技术分析方法,对交易有较好的指导作用。
投资者能够较好地运用移动平均线理论,不仅能判断行情的真正趋势,还能获取可观利润。但移动平均线理论仍存局限性:其为股价定型后产生的图形、反应较慢,且不能反应股价在当日的变化及成交量的大小。本文将选取5日均线和20日均线控制全仓买卖个股比亚迪(002594),量化交易股票进行分析。
3.代码运行及实证分析
图3 Python量化投资部分代码
选定个股为比亚迪(002594),设置该策略回测区间为2020年1月1日-2021年5月22日 ,初始资金为10万元,回测频率为日级。回测结果如下:
图4 基于量化策略的比亚迪(002594)回测结果
由图4显然得知,在2020年1月-2021年5月期间,该策略收益为262.55%,策略年化收益162.24%,超额收益为正,表现远超沪深300指数。可见,数据可视化对于证券投资的操作指导意义十分明显,直观清晰地判断了股票走势及买卖交易点设置。结合Python在机器学习中算法领域的突出表现,挖掘数据内在的价值指日可待。但是市场仍存在风险,如何把控风险成为数据可视化的新难题。
数据可视化近20年的开源运动,挖掘了众多基于数据信息的重要资源,直接有力提高了信息技术的发展速度,并快速带领世界进入大数据时代。Python在对金融数据进行可视化处理之后,能够有据可查地制定更加科学严谨的执行策略,更精准地把握投资者和投资机构的投资行为、特征以及金融风险,有助于为投资者带来更加优质的投资指导。