基于文献计量与共词分析的国内区块链研究热点探析

2021-02-28 17:09范清清唐毅
现代信息科技 2021年16期
关键词:共词分析文献计量区块链

范清清 唐毅

摘  要:文章以CNKI数据库收录的2016—2020年国内区块链相关研究文献作为研究对象,采用文献计量方法对样本文献的年度发文量、期刊分布进行分析;并利用共词分析法对样本文献的高频关键词进行处理,运用SPSS软件对关键词相关与相异矩阵进行因子分析、聚类分析以及多维尺度分析;研究发现目前国内区块链领域的研究热点主要集中6个方面,其中信息安全是国内区块链领域研究的核心热点与重点。

关键词:区块链;文献计量;共词分析;信息安全

中图分类号:TP311;G353.1                 文献标识码:A文章编号:2096-4706(2021)16-0172-05

Analysis of Domestic Blockchain Research Hotspots Based on Bibliometrics and

Co-word Analysis

FAN Qingqing, TANG Yi

(School of Public Administration, Xiangtan University, Xiangtan  411105, China)

Abstract: The paper takes the domestic blockchain related research literature from 2016 to 2020 included in CNKI database as the research object, the annual publication volume and journal distribution of the sample literature are analyzed by bibliometric method; the Co word analysis is used to process the high-frequency keywords of the sample literature, and SPSS software is used to carry out factor analysis, cluster analysis and multi-dimensional scale analysis on the keyword correlation and dissimilarity matrix; it is found that at present, the research hotspots in the domestic blockchain field mainly focus on six aspects, among which information security is the core hotspot and focus in the domestic blockchain field.

Keywords: blockchain; bibliometrics; co-word analysis; information security

0  引  言

2008年,中本聰提出比特币概念,而区块链作为比特币的底层技术之一由此而生。区块链是将数据区块以时间顺序的方式通过存储前一数据区块哈希值与前一数据区块相连接而成。区块链一直拥有颇高的关注度,学者们也在不断地对区块链技术进行探索与创新。为了把握当前国内区块链研究的前沿热点,本文采用文献计量和共词分析法对国内区块链相关研究文献进行梳理分析,揭示国内区块链研究现状与热点话题,为区块链领域的相关研究提供参考。

本文选取CNKI数据库为数据源,以“区块链”为检索词进行篇名检索,由于检索出2015年有关区块链的文献只有9篇,所以选用了2016—2020年区块链相关研究文献进行分析,共检索出相关文献11 872篇,除去会议通知、报刊讯息等噪音文献,共筛选出9 199篇有效文献。

1  文献计量分析

1.1  年度发文量分析

发文量在一定程度上反映出该领域相关研究在某段时间的研究水平与发展趋势[1]。对样本文献按照时间顺序进行梳理,发文量趋势图,如图1所示。2015年之前区块链研究文献非常少,区块链研究处于萌芽阶段。而在2016—2017年,区块链研究文献数量实现大跨度的飞跃进展,这两年区块链研究处于迅速发展阶段。在2018—2020年区块链的研究处于突破爆发阶段。越来越多的领域引用了区块链技术,区块链的研究发展也越来越成熟。

1.2  期刊分布情况分析

据统计,样本文献共分布在1 889种期刊,平均期刊载文量为4.87篇。根据布拉德福定律,按照每个区域文献数量大体一致的原则,将期刊分为3个区域:第一个区域为核心区,共有83种期刊,约占期刊总数的4.39%,文献数量约占总文献量的32.71%;第二个区域为相关区,共有282种期刊,约占期刊总数的14.93%,文献数量约占总文献量的34.5%;第三个区域为非相关区域,共有1 524 种期刊,约占期刊总数的80.68%,文献数量约占总文献量的32.79%。这3个区域的期刊数量比为83:282:1 524,与布拉德福定律公式1:n:n2相拟合,其中n约为4,可以推断出该样本文献的期刊分布基本符合布拉德福定律,说明区块链研究已经形成核心期刊群,载文量前5位的核心期刊为金融电子化(82篇)、金融科技时代(82篇)、时代金融(80篇)、网络空间安全(73篇)、金卡工程(70篇)。

2  共词分析

2.1  关键词词频统计

采用SATI3.2对样本文献的关键词进行频次统计。去除一些无意义的关键词,如“应用”等;合并同义词,如将“超级账本”和“hyperledger”合并为“超级账本”等;将检索词“区块链”去除,因其出现的频次为7 445次,对研究热点分析无太大的意义[2]。

将关键词词频从高到低排序,最终确定前50个高频关键词为研究对象。这50个高频关键词在较大程度上可以反映出2016—2020年间我国区块链领域研究的热点。高频关键词统计表,如表1所示。

2.2  构建共词矩阵

利用SATI3.2构建50×50的关键词共词矩阵,如表2所示。共词矩阵主对角线上的数值表示对应的关键词在样本文献中出现的总次数,共对角线之外的数值表示行和列所对应的关键词同时出现的频次。如“智能合约”和“去中心化”对应的数值是154,则说明这两个关键词在同一篇文章中出现的次数为154次。两个关键词出现在同一篇文章的频次越多,代表着这两个关键词的联系程度越强[3]。

为了消除共词矩阵数值差别较大带来的影响[4],将共词矩阵导入到SPSS22中进行相关分析,生成关键词相关矩阵,用来做因子分析。再用1减去关键词相关矩阵的每个数值,得到关键词相异矩阵,用来做聚类分析和多维尺度分析。

2.3  多元统计分析

2.3.1  因子分析

因子分析是将多个变量转变成为若干个不相关综合指标的一种多元统计方法。将关键词相关矩阵导入到SPSS22中进行因子分析,提取方法为主成分分析法,得到总方差解释表,如表3所示,得到碎石图,如图2所示。

从表3中可知,有16个公共因子被提取,累积方差贡献率为67.301%,代表着这50个高频关键词可以解释2016—2020年国内区块链领域67.301%的研究现状。从碎石图中可知,在第6个因子之前曲线的陡峭度比较高,为了优化聚类效果,选择从高频关键词中提取6个公共因子,为下面的聚类分析提供依据[5]。

2.3.2  聚类分析

聚类分析可以将某一领域众多关键词进行分类,使得联系度较高的关键词分为一类,进而来表明该研究领域的不同研究方向组成[2]。将关键词相异矩阵导入SPSS22中,采用系统聚类,使用组之间的链接方法和平方Euclidean距离进行聚类分析,得到高频关键词聚类谱系图,如图3所示。

在参照因子分析结果的基础上,依据聚类分析谱系图,可以将这50个高频关键词大致分为6类:第一类包括以太坊、精准扶贫、智能合约、非对称加密、分布式存储、超级账本、共识机制、工作量证明、去中心化、比特币、时间戳、数据库;第二类包括数字经济、云计算、档案管理、电子证据、大数据、共享经济、人工智能;第三类包括版权保护、图书馆、审计、会计、财务管理、高校、跨境电商;第四类包括金融科技、商业银行、供应链金融、信息不对称、互联网金融、金融监管、区块链金融、数字资产、信任机制;第五类包括溯源、农产品、供应链、物流、食品安全;第六类包括隐私保护、零知识证明、数据共享、物联网、访问控制、信息安全、身份认证、联盟链、区块链平台、能源互联网。

2.3.3  多维尺度分析

多维尺度法将多维空间的研究对象简化到低维空间进行定位、分析和归类,并利用距离的远近来展现研究对象之间的相关性。将关键词相异矩阵导入SPSS22中进行多維尺度分析,得到Stress=0.174<0.2,RSQ=0.892>0.8,模型的拟合度较好。高频关键词多维尺度图,如图4所示。在多维尺度图中各个关键词的位置用小圆圈来表示,圆圈间的距离越近,关键词的联系度越高[4]。多维尺度图中越靠近原点并且分布较为集中的关键词,说明该研究方向得到的关注度较高,为核心热点[6]。

由图4可知,关键词大致可划分为6个区域,第一个区域关键词有大数据、人工智能、档案管理、数字经济、电子证据、云计算;第二个区域关键词有智能合约、精准扶贫、非对称加密、以太坊、共识机制、去中心化、比特币、分布式存储、超级账本、时间戳;第三个区域关键词有高校、会计、财务管理、图书馆、审计、跨境电商;第四个区域关键词有金融科技、互联网金融、食品安全、商业银行、信息不对称、物流、农产品、供应链金融、能源互联网、金融监管、版权保护、信任机制、区块链平台、区块链金融;第五个区域关键词有共享经济、溯源、身份认证、供应链、数字资产、访问控制、工作量证明;第六个区域关键词有信息安全、数据库、零知识证明、数据共享、联盟链、物联网、隐私保护。

2.4  结果分析

在多元统计分析中,聚类分析得到的6大类所属关键词,与多维尺度分析得到的6个区域所属关键词基本一致,总结得出我国区块链研究热点主要集中在以下6个方面:

(1)区块链在人工智能领域的应用。“Matrix链”作为新一代区块链,成功引入人工智能,欲定义“区块链3.0”。

(2)区块链的基础理论研究。区块链本质上是一个分布式账本数据库,依靠智能合约等逻辑控制功能演变为完整的存储系统[7],具有去中心化、非对称加密等特点。

(3)区块链在图书馆领域的应用。区块链的P2P技术可以减少图书流转的中间环节,提高图书流转的效率以及扩大知识传播范围[8]。

(4)区块链在金融领域的应用。区块链技术有助于打破金融垄断的格局,缓解信息不对称问题,促进网络借贷规范化,降低金融行业的交易成本[8]。

(5)区块链在供应链领域的应用。传统的供应链管理存在追溯能力低下,信息透明度低,信息流动不通畅等问题。区块链技术具有信息公开透明、安全可靠等特点可以有效解决传统物流供应链系统存在的问题。

区块链在信息安全领域的应用。区块链采用的是分布式存储,链中的每一个节点都保存了区块链全部的数据,如果篡改数据,需对超过51%的节点进行改动,保证了信息的安全性和准确性。

在多维尺度分析图中,信息安全几乎位于原点中心位置,说明信息安全是目前国内区块链研究的核心热点与重点。其次是金融领域,离中心位置很近,并且类别内主题词分布很集中,说明金融领域也是目前区块链领域的研究热点,尤其侧重于在供应链金融和金融监管等方向。其次是供应链领域,离原点位置较近,也是区块链研究热点之一。其次是区块链的基础理论研究,由于当前将区块链技术与实际应用相结合以解决实际问题的研究较多,对区块链的基础理论研究的关注度较低。其次是图书馆领域,处于边缘位置,受到的关注度较低,尚未引起更多的重视。最后是人工智能领域,受到的关注度最低,并且类別内部主题词分布很分散,联系紧密度很低,有待更进一步的发展研究。

3  结  论

本文以区块链研究文献为基础,以文献计量和共词分析为分析视角探讨了国内区块链领域的研究现状以及研究热点。分析结果表明,我国区块链研究的热点主要集中在区块链的基础理论研究、在信息安全领域、金融领域、供应链领域、图书馆领域以及人工智能领域的应用。其中,信息安全领域是当前区块链研究的核心热点与重点,信息安全领域对区块链技术有很强依赖性,在未来时期区块链在信息安全领域的应用和影响会进一步加深。

参考文献:

[1] 张姣姣,刘云,程旖婕.基于文献计量学定律的大数据应用领域发展规律研究 [J].知识管理论坛,2016,1(5):384-392.

[2] 李睿.基于文献计量和共词分析的国内开放获取研究热点探析 [J].图书馆学刊,2020,42(1):99-105.

[3] 陈宝国,应秋阳.基于Citespace的国内区块链研究现状及热点分析 [J].经济界,2020(4):14-22.

[4] 韩征征,罗静.基于共词分析的国内替代计量学研究 [J].情报探索,2020(9):131-134.

[5] 郭婷,郑颖.数据挖掘在国内图书情报领域的应用现状分析——基于文献计量分析和共词分析 [J].情报科学,2015,33(10):91-98.

[6] 黄丽霞,欧燕.我国图书馆读者荐购领域研究热点与作者团体研究——基于共词分析和社会网络分析 [J].情报探索,2021(1):120-128.

[7] 张玉,郭会雨,陈建青.我国数据挖掘研究现状分析——基于共词分析视角 [J].情报科学,2011,29(10):1589-1593.

[8] 潘吉飞,黄德才.区块链技术对人工智能的影响 [J].计算机科学,2018,45(11A):53-57+70.

作者简介:范清清(1995—),女,汉族,河南开封人,硕士研究生在读,研究方向:情报学;唐毅(1970—),男,汉族,湖南邵阳人,副教授,博士,研究方向:供应链信息管理。

猜你喜欢
共词分析文献计量区块链
我国医学数字图书馆研究的文献计量分析
国内外智库研究态势知识图谱对比分析
基于德温特数据库的关键共性技术分析
国内图书馆嵌入式服务研究主题分析
国内外政府信息公开研究的脉络、流派与趋势
区块链技术的应用价值分析
基于文献计量分析我国生物科学素养研究状况(2001~2016年)
基于知识图谱的智慧教育研究热点与趋势分析
“区块链”的苟且、诗和远方
基于区块链技术的数字货币与传统货币辨析