大数据时代股票数据信息可视化的研究

2021-04-22 05:40谭欠男陈中举涂天宇王瑞
电脑知识与技术 2021年8期
关键词:相关性分析可视化大数据

谭欠男 陈中举 涂天宇 王瑞

摘要:随着网络时代的迅速发展以及我国对数据信息可视化的深入研究,大数据的资源提供对于各个行业也变得越来越重要。尤其是对于股票数据的分析,如何更好地进行各股之间的相关性分析已经成为当今股票分析的重中只重。希望通过此次分析,可以为股票数据信息可视化技术的发展以及对于股票预测的训练提供一定的帮助。

关键词:大数据;股票数据;可视化;相关性分析

中图分类号 TP393      文献标识码:A

文章编号:1009-3044(2021)08-0030-02

Abstract: With the rapid development of the network era and the in-depth research on the visualization of data information in China, the provision of big data resources has become more and more important for various industries.Especially for the analysis of stock data, how to better carry out visual analysis has become the focus of stock analysis today.It is hoped that this analysis can provide some help for the development of stock data information visualization technology and the training of stock forecast.

Key words: big data; stock data; visualization; correlation analysis

1 引言

随着网络数据资源逐渐丰富,人们对于网络资源的需求和使用也在不断地增加。

伴随着科学技术的发展,股市的逐渐进步,越来越多的人开始炒股,特别是众所周知的2014年的股市大牛,当时更是全国掀起了一波炒股的浪潮。伴随着人们对股市的热情,对股市数据所进行的技术分析对于那些投资人决定是否投资起着重要的作用。在我国,就算不是炒股的人也可以很容易地发现我国股票市场中,不同行业之间的股票总是会有着相似的同时涨和同时跌的规律,可以看出其表现出的过度的相关性。本文所介绍就是关于同行股票之间相关性的研究并对其进行可视化。

2 可视化技术

数据的可视化主要是为了借由一些图形图像的手段来清楚地表达所要传达的信息。在表达过程中,为了更好地传达清楚思想和概念,总是需要将美学形式与功能同时发展,通过直接的方式把关键的信息和特征来成功表达数据的深入了解。在当今时代,如何面对一堆杂乱无章的数据,如何通过可视化进行数据呈现,是可视化技术面临的新的挑战。

可视化主要包括科学算术中的可视化、数据和信息的可视化。可视化技术现今被应用在各行各业,大到国家重点项目介绍,小到微分子化学等的展示模拟[1]。

3 相关性的基本理论

相关性研究是指对于线性相关的研究[2],线性相关的系数在度量函数的均值和方差计算比较方便的,在实际的生活中,很多函数的均值和方差并不是那么容易得到的,有的根本就不存在均值或者方差,所以很多的分布函数不是很容易进行线性相关分析。在此文章中,将通过Pandas的百分比变化即股票收益来计算其相关性。

通过研究分析,发现股票历史数据对于股票的相关性的研究具有一定的研究价值,股票相关性是研究股价与收益之间关系和行业分类的技术工具,对于股票市场的系统性风险和资产组合有效的衡量具有重要的价值[3]。本文对于同行股票的相关性进行可视化分析,对后期的股票分析预测有着重要的指导意义。

4 股票数据集的获取与处理

东方财经和网易财经上有很多关于每一只股票的信息。此次所需的股票的数据集是利用Python中的BeautifulSoup获取所需数据,Pandas对数据结构进行分析,使用Matplotilib进行图表展示,具体数据获取如下。

(1)通过连板网获取股票的名称与股票代码。

(2)在网易财经上通过谷歌浏览器的检查工具来获取请求接口。

(3)利用xpath去提取网页中的要获取下载的数据的起始和结束时间。

(4)通过连板网上获取的股票代码与其url进行拼接。

(5)获得所需股票数据集。

数据的分析与可视化有助于人们从众多繁杂的数据中更快速地获取到有用的信息。本次研究利用的是上证股票制药行业公司的数据集,通过Python代码获取的股票数据集存储在本地,如图1所示。

通过Python所爬取的数据集总是存在着各种各样的问题,接下来要做的就是对其进行数据预处理[4],删除缺失值、清洗格式和无用的信息、分离标签等,在此不过多介绍该清理过程,清理之后的数据集如图2所示。

5 可视化分析

在对数据处理过程中可视化处理使用的信息图表工具比较热门,信息图表示信息、数据和知识等的视觉化的表达[5],当今世界上有很多的可视化的工具,比如谷歌公司的制图服务接口Google Chart API、Visual.ly、大数据魔镜等。本文主要使用的是Python中支持的可视化工具库,主要用到的是Matplotlib、seaborn、bokeh等对获取的股票数据集进行股票相关性分析。同行公司股票相关性使用的是Pandas的百分比與其他相关函数进行分析,通过散点图查看它们之间的收益分布,发现同行的制药公司之间是有着正相关关系的。如图3所示。

如图4所示为通过热力图来分析股票之间相关性可视化,它们之间的竞争关系通过图片颜色的深浅来表示,当颜色越深时代表着股票之间的相关性越弱,相反颜色越深则代表相关性越强。从图中可以看出60083(第一药业)与其他制药公司之间的相关性是最强的,同时每一支股与其他股都有着白色间隙,这说明各个制药公司之间的虽然存在着一些相关性,但是不能说它们存在所谓的因果关系。

6 总结

为完成股票数据相关性可视化的研究,本文利用Python中的BeautifulSoup获取所需数据,Pandas对数据结构进行分析,使用Matplotilib进行图表展示。通过少量的代码获取股票代码和股票历史数据集,并通过获得的数据集进行可视化分析,完成股票相关性的研究。可以看出同一行业的股票之间的收益存在着微弱的正相关关系,近似的正相关关系只能说明该行业的趋势发展,不能说明股票之间存在因果关系,更不能说明竞争股票是如何互相影响的。根据它们之间的正相关关系,为以后更好地预测股票价值提供基础。

总之,在数据信息逐渐增多的今天,Python提供了强大的第三方库,不论是在数据的处理方面还是进行数据的可视化,都变得更加方便和简洁,为更好地进行数据分析提供更为简单易用的可能。

参考文献:

[1] 沈恩亚.大数据可视化技术及应用[J].计算机软件及计算机应用,2020(3):68-83.

[2] 李闪.中国各行业股票市场相关性分析[J].上海理工大学管理学院,2020(9):81-84.

[3] 宁瀚文,屠雪永.基于高维波动率网络模型的股票市场风险特征研究[J].统计研究,2019,36(10):58-73.

[4] 刘艳玲,姚建盛.Python在数据可视化中的应用[J].福建电脑,2020,36(3):68-70.

[5] Lyra: An Interactive Visualization Design Environment[J].Arvind Satyanarayan,Jeffrey Heer.  Computer Graphics Forum ,2014(2).

【通联编辑:梁书】

猜你喜欢
相关性分析可视化大数据
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新