李帅 秦江涛
基于CiteSpaceⅢ的股票研究知识图谱分析
李帅秦江涛
选取美国科学情报研究所(ISI)1997年推出的Web of Science网络数据库中关于股票研究的相关文献数据。使用CiteSpaceⅢ软件为工具,结合可视化科学知识图谱方式展现股票研究领域最具影响力的学者和文献,描绘股票研究热点的演进轨迹,探讨该领域的国家和研究机构研究实力分布现状。
股票研究;知识图谱;CitespaceⅢ
在经济学、管理学、金融投资等方面,股票研究一直是个热点课题,结合当下大数据、云计算和互联网+等信息技术手段,有学者已经对股票研究展开深入剖析。如陈颖莹的《基于Web挖掘的新股破发原因探究及预测》[1]、余剑秋的《基于复杂网络的股票相关性分析研究》。[2]
股票研究到底包含哪些研究热点呢?虽然有综述文献对此作了一些探索性的归纳和概括,但由于这些归纳和概括是建立在不同时期的文献数据基础上,缺乏数据的连续性、完整性,也无法保证研究方法的客观性、一致性。
针对研究数据和研究方法的不足,本文选取Web of Science数据库中的有关股票研究文献数据,在数据时间的连续性、内容完整性和数据质量方面进行有力保障;利用CitespaceⅢ知识计量工具,以科学知识图谱[3]的方式梳理股票研究历史脉络,揭示股票研究热点,把握其发展趋势。
1.数据来源
在Web of Science数据库中[4],以Web of Science TM核心合集数据库为数据源,选取检索的时间跨度为2005-2015年,共11年,检索主题为“Stock”,在分类中选择ECONOMICS分类,共检索得到1917篇文献。下载所有文献的相关信息,包括篇名、作者、来源期刊、机构、摘要、关键词、发表年份、期(卷)及参考文献等,并进行数据整理,将其作为股票研究状况整体描述的样本。在时间分区中,以1年为单位,将2005-2015的11年分成11个时段。
2.研究方法
本研究选择2004年由美国Drexel大学陈超美教授研制的CiteSpaceⅢ(版本号为3.9.R6)知识可视化分析工具,该软件的主要目的是在知识领域中通过运用可视化技术方便用户进行突发趋势和技术预测,它还可以识别和跟踪研究领域的演变,对某一学科领域根据时间顺序来研究这一领域的热点变化过程和发展趋势。[5]
在国内,最有影响力之一的大连理工大学的刘则渊教授带领的团队,使用CiteSpaceⅢ软件在信息可视化领域创造了丰硕的成果。对于CiteSpaceⅢ在中文数据处理上的缺陷,他们提出了改进和优化,增加了使其可以对从CSSCI/CNKI数据库上下载的中文数据进行分析研究的部分。[6][7]
将下载的2005-2015年符合要求的1917篇“Stock”相关数据全部录入CiteSpaceⅢ软件中,设定相关选项。首先,设定时间跨度为1年,按文献出版年划分为11个时间段。调节CiteSpaceⅢ的数据筛选策略,选择“Pathfinder”算法和“Clus⁃ter”分析,依据分析内容的不同,选定相应的网络节点,如作者、关键词、机构、国家、被引期刊等,运行CiteSpaceⅢ软件。
1.引文概况分析
根据统计,在Web of Science数据库中以“Stock”为主题词,在ECONOMICS分类下的文献由2005年的98篇增长到了2015年的140篇(图1),2007年次贷危机乃至2008全球金融危机引发了人们对股票研究的思考,在此期间发表的文献数量高达282篇。股票研究越来越受到研究学者的重视,计算机技术及信息技术的发展也为股票研究提供了更多的便捷手段。11年间,共搜索得到了1917篇科技文献,列出引文共11325篇,有效引文10709篇。
图1 Web of Science中2005-2015年股票研究论文年发表篇数
2.被引作者分析
高频引的被引作者通常是某个学术领域的奠基人或者是在这个领域的发展过程中贡献很大的作者。股票研究的发展必然离不开高频被引作者对该领域的贡献,本研究综合2005-2015年间所有的股票文献,对收集到的文献数据选择以下筛选方式:选择每一时间片段中被引频次或出现频次最高的50个数据,网络节点确定为Cited Author,得出可视化图谱(图2)。
按照所设筛选条件,11年间图中共选出作者(nodes)220个,链接路径(links)数目为248。选取共被引次数最高的20名作者,结果见表1。
图2 共被引作者综合图谱
表1 被引次数排名前20位作者(2005-2015)
根据对Web of Science数据库中2005-2015年股票文献引证统计,该领域共被引次数最高的作者是罗伯特·恩格尔(Engle RF)教授。作为近20年来金融计量领域的重要开拓者,他对金融市场分析长期持有浓厚的兴趣,在金融计量经济学的兴趣涉及金融市场微观结构、权益资产、利率、汇率和期权等。在恩格尔看来,随着电子化交易的发展,未来的金融计量经济学可以使金融市场的做市商、经纪人和交易者借助于统计分析,自动地根据特定市场环境和目标做出最优的策略。他的贡献在于建立了描述经济时间序列数据时变波动性的关键概念:自回归条件异方差(ARCH),并发展了一系列波动性模型及统计分析方法。[8]
3.关键节点文献分析
在CiteSpaceⅢ软件中,网络节点确定为Cited Reference(参考文献),主题词来源选择Title(标题)、Abstract(摘要)和De⁃scriptors & Identifiers(关键词),调节阈值分别设置为(2,2,20),(4,3,20)和(4,3,20),运行软件得到基于文献共被引的股票研究知识图谱,见图3,其中包括节点735个,连线1927条。
图3 关键节点文献图谱
表2 关键节点文献信息
根据陈超美博士的定义,关键节点是共被引网络图谱中连接两个以上不同聚类,且相对中心度和被引频次较高的节点。在表2中,10篇关键节点文献中,被引频次最高的是罗伯特·恩格尔(Engle RF)教授于1982年在《计量经济学》(Econo⁃metrica)上发表的Autoregressive Condition⁃al Heteroscedasticity with Estimates of the Variance of United Kingdom Inflation。在这篇文章中,恩格尔创造性地提出以自回归条件异方差(ARCH)模型对时变的波动率进行建模,他用ARCH模型刻画英国通货膨胀率中存在的条件异方差,并认为条件异方差是外生变量、滞后的内生变量、时间、参数和前期残差的函数。
4.股票研究热点分析
关键词作为文章的核心和精髓是文章主体内容的高度概括和凝练。对一篇文章的关键词进行分析时,人们往往以频次高的关键词来确定一个研究领域的热点问题。[9]共词分析是基于关键词内容的分析方法,根据在同一篇论文中关键词的共现,来确定该篇论文所属的研究领域里不同主题间所具有的内部相关性,并借此分析某个学科的发展进程。利用论文关键词的聚类,能够更好地总结归纳学科的研究热点与前沿。[10]
选择阈值(3,2,13),(4,2,15),(5,3,18),网络节点确定为Keyword,对所有文献做关键词共现分析,以时区视图显示。
在图4中,各年度的重要主题词清晰可见,这些主题词的变化,十分准确地反映了股票研究领域中研究热点的演进情况。
图4 关键词共现分析图谱
表3 股票研究高频次关键词列表
从表中我们注意到,前10位关键词中models和model的频次相加,发现“股票模型”(model(s))在2005-2015年出现的频次实际为292次,居于第一位;stock returns 和returns也是一组近义词,频次实际为230次,位居第二。由此可以看出,被工程管理研究者们使用频次最多的前5个核心词汇是:股票模型(292次)、股票收益(230次)、风险(127次)、波动(123次)、股价(96次)。这5个关键词汇无论是前5年还是最近5年,以及这10年以来一直都是在股票研究领域中最为热门的研究主题。
5.国家(地区)研究实力分布
在数据分析过程中,将网络节点类型设置成“Country”,然后运行软件,得到有关国家(地区)研究实力分布图谱,见图5。
图5 各国(地区)研究实力分布
从图5中可以清晰看出在股票研究领域中,美国作为世界第一经济体,有着完善的经济制度,股票研究领域居于世界首位,相关文献452篇;中国目前是世界第二大经济体,但最新统计报告显示,中国即将超越美国成为世界最大的经济体,在经济发展的同时,股票研究在中国也异军突起,发表410篇相关文献;英国、德国和加拿大等国在股票研究领域也做出了重要贡献。由此可见,我国在股票研究领域的研究实力比较强,中国政治和经济制度的特点,使得中国率先走出金融危机的阴霾,迈出了经济复苏的步伐,对于中国股票市场的研究也被更多的学者关注。
通过对收集的1917篇股票研究相关文献的时间和地区分布情况可知,以股票研究为主题的文献不断涌现,尤其在2008年全球金融危机之际,股票研究得到了学者的广泛关注;美国在该领域的研究实力居于首位,中国排在第二位,我国的股票研究实力在全球范围内处于领先地位,中美两国稳定而健全的经济体制为金融领域的研究提供了良好的基础。
过去10年间,股票模型(model(s))、股票收益(stock returns)、风险(risk)、波动(volatility)、股价(prices)等一直是股票研究领域的热点课题,而近两年来风险防御(risk-aversion)、时间数列(time series)、信贷风险(credit risk)等研究热点悄然兴起,逐渐成为股票研究的前沿领域。2003年诺贝尔经济学奖获得者罗伯特·恩格尔(Engle RF)教授提出自回归条件异方差(ARCH)模型,成为金融计量领域的重要开拓者。在现代科学技术的支持下,利用大数据资源,结合各种智能算法的海量数据处理,通过建模仿真、云计算等信息化手段,进行股票研究,已经成为该领域的必然趋势。
[1]张颖莹,李艳红.基于Web挖掘的新股破发原因探究及预测[J].微型机与应用,2015(3):58-60.
[2]余剑秋.基于复杂网络的股票相关性分析研究[J].中国市场,2015(22): 42-45.
[3]秦长江,侯汉清.知识图谱——信息管理与知识管理的新领域[J].大学图书馆学报, 2009(27):30-37.
[4] Cronin B,Atkins H B. The web of knowledge: a festschrift in honor of Eugene Garfield. Med⁃ford: Information Today, 2000.
[5] Chen Chaomei. CiteSpace II: Detecting and vi⁃sualizing emerging trends and transient pat⁃terns in scientific literature[J]. Journal of the American Society for Information Science and Technology, 2006,57(3):359-377.
[6]陈悦,陈超美,刘则渊,等. CiteSpace知识图谱的方法论功能[J].科学学研究,2015,33(2): 242-253.
[7]刘则渊.视觉思维、数学思维和哲学思维的集成之作——陈超美著《科学前沿图谱》中译本推介[J].科学与管理,2014(03):24-26.
[8] Engle RF. Autoregressive conditional het⁃eroscedasticity with estimates of the variance of U.K. inflation[J].Econometrica, 1982(50): 987-1008.
[9] Bailon-MorenoR,Jurado-Alameda E,Ruiz-Ba⁃nos R. Analysis of the field of physical chemis⁃try of surfactants with the unified scienctomet⁃ric mode l fit of relational and activity indica⁃tors[J]. Scientometrics, 2005, 63(2) : 259- 276.
[10] Belvaux G, Wolsey LA. Bc- prod: a special⁃ized branch- and- cut system for lot- sizing problems[J].Management Science,2000,46(5):724-738.
(作者单位:上海理工大学管理学院)
10.16653/j.cnki.32-1034/f.2016.07.008