1.香港中文大学(深圳)物联网与云计算实验室,广东深圳,518172
2.武大吉奥信息技术有限公司,湖北武汉,430223
2018年8月20日,中国互联网络信息中心(CNNIC)发布的第42次《中国互联网络发展状况统计报告》[1]中指出,截至2018年6月30日,中国网民规模达 8.02 亿,普及率为57.7%,手机网民规模达7.88 亿,网民中使用手机上网人群的占比达 98.3%。微博月活跃用户达到3.77亿,微信的全球用户量达到10.4 亿,公众号的数量超过 1000 万。便捷的网络信息服务也为股票投资者产生便利:投资者可以通过上市公司的官方网站与微博、微信公众号平台等了解公司当前经营状况;财经及股票论坛的存在则使得投资者们可以第一时间了解财经资讯,让不同投资者可以分享投资策略、互动交流。庞大的网民基数、爆炸式增长的网络信息量以及日益复杂的多元社交机制所带来的是网络舆情影响力的逐渐增大。另一方面,由于舆情管理系统的不完善,虚假的舆论极有可能通过多元化的传输渠道进行病毒式传播,引发股票投资者的羊群效应,进而引发股票市场的剧烈波动。
Fama[2]的有效市场理论指出,有效率的金融市场中,证券价格应当充分反映市场信息。因此,建立一个有效的股票舆情监测系统,不仅可以帮助政府部门加强市场监管、维护市场秩序,更可以促进市场信息高效、透明地传播,使得市场价格能更加充分反映市场信息、满足投资者的需要。
行为金融学作为一门新兴的金融学科,主要从个体心理、个体情绪的角度来研究、预测金融市场的发展。Fisher,Statman[3]研究了个体投资者、机构投资者与投资相关媒体作者的投资情绪的关系。研究证明,个体投资者的情绪更容易受到半权威业界人士、也就是媒体作者的情绪影响。媒体的观念在愈发发达的互联网上不断扩散、发酵、获得认同,久而久之便形成了“人们对于该事件的所有认知、情感、态度和行为倾向的集合”,即网络舆情(曾润喜[4]),进而对股票价格产生影响。越来越多的研究者也从网络情绪[5]、公众情绪状态变化[6]等角度研究证实了网络舆情与股票价格变动的关系。
近年来,舆情服务在进行行业规范和整合的同时,正面临着大数据挑战[7]。舆情产品服务提供者不仅需要强化舆情监测分析系统的数据抓取能力与数据解读能力,更得设法对数量繁多的舆情事件信息提供正确且高效的分析方法。具体而言,网络舆情事件具有性质与地域的特征:一方面,网络舆情事件根据其事件性质可划分成不同类别,如金融类舆情、房地产类舆情、教育类舆情等。与之类似,股票市场上,一些具有相同要素的股票也会被划分成同样类别的股票板块(中国证监会《上市公司行业分类指引》[8]将所有上市公司依“行业要素”划分成 19 大类、90 小类)。很明显,特定类别的舆情事件将对与之具有相同性质名称的股票板块数据产生影响;另一方面,舆情事件同样具有其地域特征,而处于同一环境下的上市公司由于具有类似的政治经济特征[9],在受到当地产生舆情事件的冲击会产生类似的变动方向。
因此,笔者将在本文所属的股票舆情监测分析平台中引入基于网络舆情对股票行业与地域的联动分析功能。本文所述的股票舆情监测分析系统是基于云服务模式的互联网金融舆情信息监测平台,以提供 7*24 小时舆情信息的采集、分析,敏感事件监测和预警,全文检测等服务为目标,覆盖了舆情事件的发现、预警、跟踪、分析、处置和评价等全过程。在舆情信息抓取与解读的基础上,本平台将以股票市场的行业板块及股票上市公司的地域为划分因素进行联动分析,直观展现当某一舆情事件出现时,其可能会对与之性质类似的板块的股票、与之地域相近的上市公司的股票所造成的影响。通过对历史发生的舆情事件与对应的历史股票价格进行机器学习分析,可将当下时点发生的舆情事件与历史同性质舆情事件进行对比、进而分析不同类别的舆情事件在不同时间点,对不同板块、不同地域的股票所产生的影响方向及大小,进而为市场管理者、投资者的决策提供参考。
本文所述基于行业与地域因素的股票舆情监测分析系统的软件架构如下。
2.1.1 基础设施
基础设施是该舆情监测分析平台运行的基础软件,包括操作系统、数据库、大数据分析基础软件等。
2.1.2 数据采集
数据采集子系统主要提供网络站点采集规则配置、网络数据采集、数据清洗预处理和数据入库等功能。数据采集子系统是平台运行的数据基础,通过数据采集子系统从上市公司网站、财经论坛、微信公众号、微博采集各类文章和网友评论等数据,形成舆情监测分析平台的数据基础。
2.1.3 大数据处理与全文检索
大数据数据处理主要功能是对采集入库的原始数据进行一系列的加工处理和分类分析,以达到将原始数据整理成各类舆情信息的目的。数据分析处理主要包括中文分词、上市公司识别、股票代码识别、主题词提取、行业分类、文本聚类、文本相似度计算、文本摘要、热点事件发现、情感倾向分析等。
图1 软件架构Fig.1 Software Architecture
全文检索建设面向高效检索的股票舆主题数据库,将支持主题词、逻辑表达式检索方式,并可运用热点关键字联想功能。符合的搜索结果可以按照类别、时间、地域、部门、专题等多种维度进行归类,类目中的信息将按照出现频度、相似热度排序展示,并进行信息排重和消噪、自动显示舆情摘要,并对关键字部分高亮提示,点击可以浏览和下载全文信息。
搜索引擎采用分布式架构,总数据量为上亿级;查询速度为毫秒级;提供365×7×24高可用性的数据服务;数据更新间隔为分钟级,具备在第一时间内从互联网的海量信息中监测到舆情热点的能力,满足高效的检索响应要求。
2.1.4 舆情分析与舆论指标库
舆情分析主要是指对网上开放平台(新闻、纸媒、博客、论坛、微博、微信、新闻客户端等)的数据的挖掘分析。在对数据进行归纳、梳理的同时,将同步引入特定舆论事件的性质所可能影响的股票板块数据、或该舆论事件所发生地域的上市公司股票的实时数据,进行金融数据定量分析或时空大数据关联分析。
通过对舆情事件的类型按性质、地域进行分类,各类舆情事件将归类存储于“性质舆论指标库”与“地域舆论指标库”。库中所存储的历史舆情事件,将结合同期与当前选定库、选定类别的舆情事件相同板块性质、或者相同地域上市公司所对应的历史股票价格数据,进行机器学习与深度学习分析,以计算、优化特定类别、特定地域的舆情事件对股票价格可能造成的影响因子。
投资者可以选择当前任意特定舆情事件,系统将实时展示该舆情对与其性质类似的板块的股票、与之地域相近的上市公司的股票所造成的影响,并与历史同类型的舆情事件所造成的影响因子进行对比,为投资者的决策提供参考。
2.2.1 海量互联网数据近实时数据抓取
评价舆情监测平台是否好用有两个重点指标:一是该平台监测的数据是否全面,二是该平台数据采集是否及时。没有数据的舆情监测平台绝不能称为好用,网络爬虫作为舆情监测平台的重要数据来源,承担了数据采集的绝大部分工作,互联网上的站点有很多,舆情监测平台不可能将所有的站点数据都采集进来,另一方面舆情的特性要求数据采集必须及时,只有及时才能第一时间将舆情预警给用户。因此,“海量”和“及时”两个矛盾的指标出现了。本平台侧重于经济、时政网络舆情监测,使得监测的互联网站点少了很多,另一方面从网络爬虫着手优化,主要从三个方面着手优化:
(1)建立采集缓存
本平台采用布隆过滤器建立采集缓存,首先建立一个布隆过滤器,将所有已采集站点 URL的MD5 加入到布隆过滤器中,记录该 URL 已经被采集,在下一轮数据采集时便不再采集。
(2)动态调整站点采集周期
每个网站有大道的频道,如果按照相同的采集周期去遍历所有频道,只非常容易造成采集资源的浪费,应该将采集资源集中到更新更为频繁的频道,更新不频繁的频道少采集。该股票舆情监测分析平台综合网站的级别、历史采集量、频道数、近期更新频度等因素建立采集周期动态调整算法,使得数据更新频繁的网站采集频率更快,不经常更新的网站采集频率更慢,一方面减少资源的浪费,另一方面提高了采集效率。
(3)偏量计算采集技术
采集网站频道的时候,经常会碰到频道列表有翻页的情况,那么采集数据的时候采集多少页则是个问题。所谓偏量采集技术是指在采集第一页数据的时候,根据采集的时间间隔来预测跟离上一次采集后,本轮采集周期需要采集多少页的数据的算法,采集这种技术可以大大减少了采集时翻页的数量。
2.2.2 网页内容结构化抽取。
舆情数据采集属于垂直行业数据采集,一般来说这要求能够精准地采集到每篇文章的结构化数据,传统舆情系统大部分通过配置数据采集规则的方式来完成数据的抽取。通过配置规则的方式来采集数据的缺点是:一旦网站进行改版升级,造成网页结构发生变化,则需要重新配置数据采集规则,这就给采集规则维护带来很大的工作量。
本平台引入基于文本密度的网页内容结构化抽取技术,实现从网页 HTML 文本中自动提取标题、时间和正文,新闻网页提取准确率达到95% 以上,大大减少了人工配置数据采集规则的工作量。
2.3.3 广告、色情等垃圾信息有效过滤
少部分网络用户利用互联网开放的特性大肆发布广告或色情等垃圾信息,严重影响了互联网网民的用户体验,也影响互联网舆情监测平台数据监测的精准性,高效有用的垃圾信息过滤系统显得很有必要。本平台引入机器学习,利用已整理好的垃圾信息样本不断地迭代进行训练,得到垃圾信息过滤模型,得到可用于生产环境的垃圾信息识别模型。
2.3.4 舆情高发区域分析
从互联网采集到的文章数据没有包括地址信息,无法直接用来做舆情高发区域分析。本平台利用自然语言处理(NLP)技术自动识别舆情信息中的位置信息并进行聚合分析,并基于地理信息系统(GIS)技术以热点力图的形式展现,同时将各上市公司所在位置在GIS 地图上叠加展示,可以直观地查看各类舆情的高发区域,方便对舆论事件所发生地域的上市公司的股票进行关联分析。
2.3.5 舆情影响因子分析
本平台将在前人关于舆情指标的研究的基础上,基于内容识别算法,对两个舆论指标库中存储的各种类别的历史舆情事件设计舆情变量指标,并对其运用机器学习与深度学习方法,结合特定舆情事件所对应同性质或同地域的股票历史价格,计算并不断优化特定类别的舆情事件对当前时点对应板块或地域的股票的影响因子,供投资者参考。
数据采集子系统主要提供网络数据采集、数据清洗预处理和数据入库等功能。数据采集子系统是平台运行的基础,通过数据采集子系统从互联网采集各类文章、微信公众号、微博和网络评论等数据,形成股票舆情监测分析系统的数据基础。
3.1.1 网络数据采集
网络数据采集主要任务是采集互联网各类站点的数据,包括网媒、纸媒、论坛、博客、APP、微博、微信公众号、网络评论等。
网络数据采集采用分布式数据采集,支持多个采集节点同时采集,能够动态增加、移除采集节点,当采集节点发生异常时,其他采集节点能够自动接管,不影响数据采集进度。
网络数据采集支持 7×24 小时不间断采集、支持百万级频道同时采集,并可以根据站点优先级的不同,调整数据采集的频率。网络数据采集具有可视化采集状态监控功能,提供当前任务总数、正在执行数量、已完成数量、异常采集数据数量、采集节点运行状态、采集日志等监控。
3.1.2 数据清洗预处理
从互联网采集的各类原始数据形态各不一样、存在相似文章或垃圾文章,数据清洗预处理的目的就是对这些数据进行垃圾过滤、数据排重、提取关键词、中文分词、语义指纹和文章摘要等处理。
垃圾过滤。对于无效文章、广告等垃圾文章排除过滤。
数据排重。在数据采集过程中,需要对网站不间断的进行数据抓取,对于重复采集的数据进行排重,避免重复采集,降低网络带宽要求,提高采集效率。
提取关键词。根据文章内容自动提取关键词。
中文分词。将一个汉字序列切分成一个一个单独的词,用于搜索引擎建立索引。
语义指纹。根据文章正文内容生成语义指纹,具有相同含义的文本具有相同的语义指纹。
文章摘要。自动提取文章正文内容的摘要。
3.1.3 数据入库
数据入库是将采集程序采集到的文章和评论数据导入到数据库中,以便于系统进行分析处理和结果展示。
数据入库的内容包括文章数据和评论数据。在入库过程中,会自动生成文章的唯一编号,并导入与文章相关联的语义指纹、关键词、文章摘要、站点、频道等信息。
数据入库流程包括:读取已采集的互联网信息,关联文章对应的站点编号、子站点编号、站点类型等数据,检查采集库是否已经存在,如果不存在则添加到数据库中,如果存在则直接跳过。
数据分析处理子系统主要功能是对采集入库的原始数据进行一系列的加工处理和分类分析,以达到将原始数据整理成各类舆情信息的目的。
3.2.1 数据处理
垃圾过滤。通过关键词矩阵,将一些匹配到非法词的文章过滤掉,可以减少垃圾文章进入到平台中。例如一些广告相关的词加入到非法词列表中。
自动分类。建立股票行业主题分类,如房地产、制造业、住宿和餐饮业、批发和零售业等,利用机器学习文本分类模型,实现对文本内容自动行业主题分类。
人名识别。通过建立上市公司高管人员库和行业专家库,并结合人名识别算法,实现对文本内容中的人物自动识别以及关联。
地域识别。利用地名识别算法,实现对文本内容中的区域自动识别。
热点事件识别。在热点事件发生后,系统自动根据文章的热度和网友评论热度,运行语义分析算法,识别最近发生的热点事件。
3.2.2 语义分析
关键词提取。基于中文语义分析算法,实现对文本内容的关键词自动提取。
自动摘要。基于中文语义分析算法,实现对文本内容的摘要自动提取。
相似分析。通过对采集入库的所有文章进行相似分析,实现对相似文章的排重和文章热度的计算。
情感分析。基于中文语义分析算法,实现对文本的舆情预警和正负面倾向情感分析。
观点分析。从大量互联网网民的观点中,找到事件传播过程中网民的核心观点,从而做出相应决策。
全文检索子系统建设面向高效检索的舆情数据库,支持远程舆情库检索。支持主题词、逻辑表达式检索方式,支持热点关键字联想功能,符合的搜索结果可以按照专题类别、时间、地域、部门、专题等多种维度归类,类目中的信息按照出现频度、相似热度排序展示,支持信息排重和消噪,自动显示舆情摘要,点击可以浏览和下载全文信息,并对关键字部分高亮提示。
3.4.1 舆情信息监测
今日舆情导读。今日舆情导读展示股票证券相关的重要政策、重大舆情事件和敏感事件等信息,并按照主流媒体和所有媒体进行分类展示,同时给出舆情信息影响因子。
来源监测。来源监测频道是按照网媒、论坛、博客、纸媒、微信、APP、微博等来监测最新舆情信息。并按照信息来源量展示媒体关注前十位信息。频道提供按分类统计总量饼状图和一个月内信息按来源走势的折线图,多种渠道对信息进行分析。
综合舆情。综合舆情集中展示近期的国家政策、财政新规、证券交易所新颁布的交易条例等,为开展舆情工作提供政策信息参考。
热点监测。热点事件集中监测了媒体、论坛对近期发生的热点交管事件的集中报导与评论。并提供关键词统计排行柱状图和数据走势统计折线图,用各种图表对舆情进行多方面的分析。支持热点事件按热度排定,发布每日、每周、每月热度(指转载、点击、回帖量)前 10 排行榜。
重点人物。重点人物主要是对经济学家、金融大鳄及各种网络名人(微博“大 V”)进行重点监控,支持按微博账号进行监测。
地区舆情。根据设置的监测关键词,将国内股票证券相关舆情信息按区域进行展示。
微博监测。微博监测通过对新浪、腾讯、搜狐、网易等微博进行内容监测,提取内容,并按照内容的来源,数据量生成统计报表,并在提取微博内容的同时保存原文链接。
微信监测。微信监测通过对微信公众号进行内容监测,并按照内容的公众号,数据量生成统计报表,并在提取微信公众号文章内容的同时保存原文链接。
外媒监测。通过对港澳台以及境外主流媒体进行监测,并在境外设置数据采集服务器监测境外媒体新闻报道,并按报道的排行提供柱状图进行展示。
3.4.2 热点发现
利用中文自然语言处理技术对自动发现舆情热点,及时监测网友关注度快速增加的事件。
分析因子包括:站点重要程度、转载媒体数据、网友评论数量、转载文章相似度等
3.4.3 事件分析
系统运用主题聚类方法将同一事件的信息汇聚成专题。主题聚类方法具有如下三个方面的优势。首先主题聚类以主题分析、主题提取和描述为基础,可以发挥主题法在组织信息方面的优势,对聚类特征进行主题或语义控制,提高信息服务的质量。
其次,主题聚类是在聚类对象的主题提取基础上进行的,通过主题提取可以对聚类对象进行维度约简,从而避免高维数据计算问题,大大缩短信息服务的响应时间。最后,主题聚类方法不同于传统的文本聚类方法在于:它还可以对聚类的结果进行基于主题的描述,提高聚类结果的可读性与可理解性。
通过 3.2 节所提到的各类识别算法,本平台将根据舆情事件的类别、地域将其分别引入性质舆论指标库、地域舆论指标库。“性质舆论指标库”将根据《上市公司行业分类指引》(2012年修订)划分为包含 A 农、林、牧、渔业;B 采矿业;C 制造业等在内的19个大类,并细分为90个小类,与股票市场的股票板块相对应;“地域舆论指标库”则会在中国省级行政划分的基础上,依据《2018 中国城市商业魅力排行榜》对中国 338个地级以上城市的评选,在省级行政划分大类的下属细化出三线以上城市的子类。随后,将具体的网络舆情事件依据其性质、地域特征分别归纳进对应的“性质舆论指标库”小类、“地域舆论指标库”子类。
基于戴媛[10]提出的舆情流通量、舆情内容与舆情状态等指标,本平台将对不同的舆情事件进行量化处理、得到一个具体的舆情指标量,并存放于性质舆论指标库、地域舆论指标库。当某一个类别、某一个地域的历史舆情事件样本量较大时,即可将这些历史舆情事件指标与其所对应的历史股票价格变动数据进行机器学习与深度学习分析、进而得到一个影响因子数值。随着样本量的增大,该影响因子也可得以不断优化、进而对当前时点的股票投资者产生参考意义。
本文所述的基于行业与地域的股票舆情监测分析系统是一个集云计算、数据挖掘、机器学习、时空大数据分析、金融数量分析为一体的多元化舆情监测与分析平台,其具有以下优势:
1.本平台具有优秀的数据抓取能力与舆情解读能力,可以从多元化的数据来源最大可能去抓取数据信息,并同时运用多类识别算法将原始数据整理成各类舆情信息,形成互联网舆情信息大数据分析的数据基础。
2.本平台具有独特的舆情信息分析模式:一方面,本平台将对各类舆情事件进行自动主题分类,可根据当前舆情事件的主题类别与具有相同性质的股票板块数据进行横向对比,直观展现当前时间对该板块股票市场所产生的影响;另一方面,本平台运用时空大数据分析方法,利用自然语言处理(NLP)技术自动识别舆情信息中的位置信息并进行聚合分析,并基于地理信息系统(GIS)技术以热点力图的形式展现,直观地查看各类舆情的高发区域,并可横向对比选定区域附近的上市公司对应股票的价格数据。对于存档入库的历史舆情数据,本平台支持将该“性质”、或该“地域”的舆情事件与历史相关股票的价格变动进行机器学习分析,计算并不断优化不同类别的舆情事件对股票的影响因子,供投资者对当期的股票投资进行参考。
图2 热点舆情自动发现流程Fig.2 The automatic discovering process of public opinion