网络大数据中情绪指数的构建及应用分析

2019-11-07 09:18申晨姜志旺程冬玲张红霞
无线互联科技 2019年15期
关键词:证券市场主成分分析大数据

申晨 姜志旺 程冬玲 张红霞

摘   要:情绪指数是反映社会情绪的重要量化指标。基于搜索引擎、社交媒体和网络论坛3类数据,文章提出了一种基于主成分分析的网络大数据情绪指数构建方法,以证券市场为例,构建了证券市场网络大数据情绪指数。经过与新增投资者数量进行比对,所构建的指数与之呈现明显的正相关关系,且具有一定前瞻性。

关键词:情绪指数;大数据;主成分分析;证券市场

情緒指数是用来反映全社会或社会特定人群对于某一事物情绪波动的量化指标。经济学中经常使用情绪指数作为刻画社会情绪的指标,如采购经理人指数(Purchasing Managers Index,PMI)、中国投资者情绪指数(China Investors Sentiment Index,CISI)等,并将这些情绪指数作为进一步研究的依据。

情绪指数的构建需要遵循一定方法。从数据来源来看,传统的情绪指数数据主要来源于现场调研和问卷调研等,受调查样本容量和样本随机性的限制较大。从指标体系的角度来看,传统的情绪指数构建无论是指标来源的选取还是指标权重的确定,都完全依赖于行业专家的经验。情绪指数构建的优劣在很大程度上受限于专家自身的知识和经验水平。

随着信息技术的高速发展,信息传播的速度和范围都有了质的飞跃。人们越来越多地将网络作为表达自身意愿和情绪的场所。因此,在互联网上沉淀了大量能够表征个体和社会情绪的数据。这些数据无论从量级,还是深度和广度上都全面超越了传统的现场调研和问卷调研,为构建情绪指数提供了新的数据来源。此外,随着大数据技术和人工智能领域的发展,数据分析的手段也变得更加多样。利用计算机对海量数据进行分析和处理,可以在很大程度上提高数据分析的效率和准确性。

杜伟岸等[1]研究了社交媒体大数据及其所反映的投资者情绪与首次公开募股(Initial Public Offering,IPO)抑价之间的关系,王晓艳[2]构建了情绪传播指数并研究了情绪传播指数与投资市场预期间的关系。上述研究在一定程度上为网络大数据情绪指数的构建奠定了基础,但也存在一些问题:首先,数据来源较为单一;其次,从指数构建角度,一些指标的选取和权重系数的确定主要依赖于人工经验,在效率和准确性上有所不足。

因此,本文提出一种多种数据来源相结合的、基于主成分分析(Principal Component Analysis,PCA)的情绪指数构建方法。

1    网络大数据情绪指数的构建步骤

构建网络大数据情绪指数首先要确定数据来源。互联网上能够表征网民情绪的数据主要有3类:搜索引擎数据、社交媒体数据和论坛数据。(1)搜索引擎数据主要表明一定时间内,网民对某一热点的关注程度。(2)社交媒体数据主要是通过计算机提取网民发布的信息,以便进一步分析。(3)论坛数据可以是综合性论坛,当需要研究针对某领域的特定问题时,可以加入相应的专业论坛。如当研究证券市场的情绪指数时,可以加入较有代表性的东方财富网股吧等数据。

在确定数据来源后,还要进行情绪的识别。在上述数据来源中,无论是搜索引擎、社交媒体还是论坛,得到的数据都以文本数据为主。通过这些文本数据不能直接得到投资者情绪的表征,因此,需要对这些数据进行处理,目前常用的处理方法如下:

首先,对得到的文本信息利用Python或Matlab等工具进行分词处理,将整段文字拆分为单词。

其次,根据情绪极性词典,对常见的情绪极性词进行提取和计算,以获得作者的情绪极性和程度。情绪极性词典主要可以分为正向情绪词和负向情绪词两类,每类情绪词的程度也有所不同。如典型的正向情绪词“还行”“较好”“很好”,其程度依次增强。

最后,利用以上获得的信息,构建网络大数据情绪指数,使用主成分分析法进行指标的选取和权重的确定。使用主成分分析法时,要先计算相关系数矩阵,再利用特征值法进行主成分个数的判断,同时,生成各个对应主成分解释变量的百分比。该百分比就是选取的每个指标对应的权重。利用这些信息,就可以得到网络大数据情绪指数。

以上就是网络大数据情绪指数的构建步骤,具体如图1所示。

2    网络大数据情绪指数的应用

以下以证券市场为例,构建网络大数据情绪指数,并分析网络情绪与证券市场之间的关系。按照以上3类数据来源的划分,所采用的数据来源于百度搜索、新浪微博和东方财富网股吧。以上数据的对应时间为2018年7月—2019年6月,共12个月的月度数据。对于新浪微博数据和东方财富网股吧数据,按照上述步骤进行数据的爬取、分词处理以及获取情绪倾向值。对于百度搜索数据,由于百度已经内置了反映搜索词热度的百度指数,因此,直接使用百度指数进行下一步计算。接下来使用主成分分析法对以上数据进行分析,确定指标及权重,最后,计算得到网络大数据情绪指数。指数值越高,网民对于证券市场的情绪越偏向正向,反之,则越偏向于负向。

新增投资者数量是反映市场投资者情绪的重要标志。将新增投资者数量与上述构建的证券市场网络情绪指数进行分析,可以验证所构建的指数是否有效。将中国证券登记结算有限公司公布的新增投资者数量月度数据与所构建的指数进行对比,如图2所示。可以看出,两者之间呈现出明显的正相关关系,且网络情绪指数呈现一定的前瞻性。说明证券市场网络情绪指数的构建是有效的。

基金项目:保定市科技局科技支撑计划项目;项目编号:18ZG022,18ZG025,17ZG032。河北省高等教育教学改革研究与实践项目;项目编号:2018GJJG376。

作者简介:申晨(1988— ),男,河北保定人,讲师,硕士;研究方向:数据挖掘与大数据应用。

[参考文献]

[1]杜伟岸,吕佳玲.社交媒体大数据、投资者情绪与IPO抑价[J].北京邮电大学学报(社会科学版),2018(3):59-68.

[2]王晓艳.情绪传播指数构建与投资市场预期—基于万科股票大数据的实证研究[J].合肥工业大学学报(社会科学版),2018(5):11-16.

Abstract:Emotional index is an important quantitative index to reflect social emotion. Based on three kinds of data: search engine, social media and online forum, this paper proposes a method of constructing big data emotion index based on principal component analysis of principal component analysis. Taking the securities market as an example, the big data emotion index of the securities market network is constructed. Compared with the number of new investors, the constructed index has an obvious positive correlation with it, and has a certain forward-looking.

Key words:emotional index; big data; principal component analysis; securities market

猜你喜欢
证券市场主成分分析大数据
海内外证券市场数
海内外证券市场数
海内外证券市场数据
主成分分析法在大学英语写作评价中的应用
江苏省客源市场影响因素研究
SPSS在环境地球化学中的应用
海内外证券市场数据