大数据环境下供应链领域的知识演化
——基于知识图谱方法

2022-01-14 14:05:40洪晞玥

广东开放大学学报 2021年6期

洪晞玥

（南京审计大学商学院，江苏南京，211815）

一、引言

在当今大数据时代，借用大数据的分析预测能力来协助行业的创新发展已成为当前研究热点，供应链领域也在时代浪潮的推动下积极探索与大数据技术相结合的方式。

面对两个不同领域的融合，如何对现有研究成果进行梳理，了解领域的研究趋势和未来发展方向显得尤为重要。Mishra等（2018）[1]对2006年至2016年发表的286篇论文进行了作者、国家、主题等方面的分析，并用聚类方法将该领域划分为6个研究主题以确定未来的研究方向。Lamba和Singh（2017）[2]则是依据供应链的制造、采购和物流三个阶段收集相关文献，对该领域进行出版物地理分析和文献分析以求了解该领域的研究趋势，并从3V特性出发对大数据在供应链领域的应用提出相关建议。Zhang等（2020）[3]用R和VOSviewer软件来对利用大数据进行可持续供应链管理的文献进行分析，了解了该领域的研究和合作现状。程晏萍等（2021）[4]以Web of Science（以下简称WoS）数据库中检索到的论文为研究对象，运用CiteSpace软件探索领域的发展概况，并指出了当前的研究热点。但是上述学者并未对该领域所涉及的论文进行全面分析，也没有从知识演化的角度对该领域的发展进行讨论。因此，本文所采用的主路径分析方法和主题演化分析方法对上述不足进行了优化，这种定量分析和定性分析的结合可以以全局视角审视该领域的研究演化，明确该领域的知识来源和未来研究方向。

二、数据来源和研究方法

（一）数据来源

本文采用WoS数据库，检索表达式在参考该领域的相关论文后，确定为TS=(“big data*”AND“supply chain*”)，其中星号字符可以代替任何字符组。此外，语言限制为英语，文献类型限制为论文和综述。同时，考虑到Shukla等（2020）[5]指出大数据这一定义是在2000年提出的，所以本文的时间跨度选择从2000年到2020年。并且为了提高论文的质量，本研究将数据源限定在WoS核心合集，并选择科学引文索引扩展版（SCIE）和社会科学引文索引（SSCI）数据库，检索时间为2021年7月。通过检索，本文总共获得812条数据，其中包含论文693篇和综述119篇。

为更准确地识别该领域的知识演化轨迹，本文对所涉及的年份进行一个阶段性划分。如下图1可知，该领域最早可以追溯到2012年，并且就论文总量而言，呈现逐年增长的趋势，这说明该领域仍是当前的研究热点。其中2012年至2017年，该领域的论文数量增幅不大，论文总量相对较少。此后该领域的论文增长量不断攀升，论文总量也呈现爆发性增长。因此本文将该领域按时间划分为2012年至2017年和2018年至2020年两个阶段，以便于后续的研究。

图1 论文数量分布图

（二）研究方法

1、主路径分析

Garfield等（1964）[6]提出论文的引文关系有助于探索科学领域的发展。基于这一思想，Hummon和Dereian（1989）[7]首次提出主路径方法，他们将论文视为“节点”，将论文之间的引用视为“连线”，并用该方法对DNA领域的知识演化进行了探索。

因为主路径方法是一种在引文网络中寻找最重要搜索路径的方法，所以下图2展示了一个小型的引文网络来对该方法进行描述。图2中的A、B节点被视为源节点，源节点是被其他节点引用但不引用其他节点的点；G、H、K、L、M节点被视为末端节点，它引用其他节点，但不被其他节点所引用。各节点间用箭头相连，箭头的指向是从被引节点指向施引节点，箭头上的值是主路径方法所获得的权重，这也是主路径的构建基础。权重分配算法包括Hummon和Dereian（1989）[8]提出的节点对投影计数（NPPC）、搜索路径链接计数（SPLC）和搜索路径节点对（SPNP）。此外，Batagelj（2003）[9]还提出了搜索路径计数（SPC）算法，这也是本文所采用的算法。这四种方法大致相同，但在细节上仍有细微差别。由于SPC具有相同的流入和流出值，因此被视为首选算法[10]。

图2 主路径算法示例图

接下来就是依据引文网络中的权重找出最重要的路径。寻找重要路径的方法包括本地前向主路径：从源节点到末端节点逐步寻找最大值；Liu和Lu（2012）[11]提出的本地后向主路径和全局主路径，其分别是从末端节点开始，逐步向前搜索最大链路和要求路径权重之和最大。关键路径主路径方法也是Liu和Lu提出的，它规避了权值最大的线被遗失这一问题，该方法又被分为了本地关键路径主路径方法和全局关键路径主路径方法，其都是从权值最大路径开始同时向两端进行搜索，并拼接为最终路径，但是全局路径主路径方法要求路径的总权值最大。

本文将采用全局关键路径主路径，依据Lucio-Arias和Leydesdorff（2008）[12]提出的方法，使用HistCite软件构建引文网络，Batagelj（2003）[13]提出的方法用Pajek软件生成主路径。

2、主题演化分析

Cobo等（2012）[14]指出用SciMAT进行分析，可以更好地了解研究领域在不同阶段的发展情况。因此，本文将运用SciMAT的战略图和主题演化图对供应链领域进行分析。

战略图从中心度和密度两个方面研究不同时期主题的发展。中心度由水平轴表示，中心度越高，则该主题与其他主题的关联性越高，主题所代表的研究方向也就越重要。密度由纵轴表示，密度越高，主题的发展程度就越高。横轴和纵轴将研究主题划分为四个象限，如下图3所示。

图3 战略图示意图

其中第一个象限中的主题称为主流主题：主题A就是一个发展和重要程度都较高的主题，是该领域的研究热点。第二象限中的主题称为发展较好但孤立主题：主题B的密度较低，说明该主题与其他主题的相关性较低，相对来说不太重要。第三象限的主题称为新兴或衰亡主题：主题C的重要性和发展水平均不高。第四象限的主题称为基本/横向主题：主题D和主题E与其他主题的关联度较高，但自身发展程度较低。

演化图用于探索主题在不同阶段的演化。图中球体的大小与论文数、h指数或引文数成正比。不同的主题区域用不同的灰度背景来区分，主题之间的关系反映了主题的演化关系。因为主题名称是主题聚类中的核心关键词，所以实线表示不同时期的主题具有相同的主题名称，或者一个主题的主题名在另一个主题的主题聚类中。虚线则表示所连主题之间仅共享非主题名称的关键词。线条的宽度也直接反映主题之间关联程度的强弱，如下图4所示。

图4 演化图示意图

该示例包括自上而下的两个主题区域，第一部分中的主题A1和主题A2用实线连接，表示主题A1和主题A2可能有相同的主题名称，或者主题A1或主题A2的主题名称存在于对方的主题聚类中。第二部分中主题B1和主题C之间的虚线表示它们只是共享不为主题名称的关键词。在第二阶段，主题D没有与其相关联的主题，这意味着该主题在第二阶段已经衰亡。同样，第二阶段的E主题是第二阶段所独有的新主题。

三、知识演化

（一）主路径分析

为跟踪该领域的知识演化，接下来将进行主路径分析，以了解该领域的理论根源和未来发展方向。本文选取全局关键路径主路径对研究领域进行探索，其结果如下图5所示。该图包含了22篇论文，图中的标签由第一作者的名字和论文发表年份所构成，箭头从被引文献指向施引文献，体现着该领域的知识流动[15]。

图5 主路径分析

由图5可知，Waller和Fawcett（2013）[16]为此领域的首倡者，全文阐明供应链管理与数据科学、预测分析和大数据间的研究机会，并呼吁学者在这一领域进行探索。在此基础上，该领域产生一系列的相关研究，Hazen等（2014）[17]提出在大数据时代中供应链管理存在数据质量问题及其相应的解决方案。Dutta和Bose（2015）[18]开发一个新框架为组织提供构思、规划和成功实施大数据项目的整体计划，并对该框架进行了验证。

Chae（2015）[19]弥补供应链领域对于社交媒体研究相对滞后的问题，探索社交媒体数据分析在供应链实践中的潜在作用和意义。Dubey等（2016）[20]通过文献法和分析社交网站所收集到的数据，得出大数据分析给世界级可持续制造带来了卓越的经济、社会和环境效益，并强调其应用对于发展中国家的重要性。Papadopoulos等（2017）[21]基于互联网数据分析和文献分析得到一个关于可持续供应链网络弹性的理论框架，并得出供应链弹性和快速信任、公私伙伴关系以及优质信息共享相关。Mishra和Singh（2018）[22]用互联网推文数据来研究供应链消费者端的情感和观点，并以此来制定废弃物最小化战略的回溯供应链解决办法。以上四篇论文都将供应链领域结合互联网信息进行分析，从而促进供应链的实时创新。Arunachalam等（2018）[23]也用文献综述法来对供应链中大数据分析能力进行研究，其经文献分析得出基于社交媒体的学术研究已成为供应链领域的一个重要方向。

为了应对全球变暖这一现象，碳排放问题成为一个研究热点。Kaur和Singh（2018）[24]结合大数据分析，提出一个针对碳敏感供应链的环境可持续采购与物流模型。Lamba等（2019）[25]在大数据背景下，考虑由于订货、库存持有、生产、装卸和运输等造成碳排放的情形，并提出一个考虑碳排放的动态供应商选择模型，以全面降低采购成本和碳排放量。

Ivanov等（2019）[26]研究数字化和工业4.0对供应链的涟漪效应和中断风险控制分析的影响，提出通过大数据技术可以提高供应链的可见性和预测准确性，使得需求风险和信息中断风险降低。Baryannis等（2019）[27]对现有文献依据人工智能方法进行分类，并探讨所处理的供应链管理环节，再在此基础上以确定缺失和未探索的领域，为未来供应链风险管理和人工智能技术的融合提出方向。Cavalcante等（2019）[28]运用大数据技术，将模拟和机器学习相结合，并研究它在弹性供应商选择中的应用，还提出供应商绩效和弹性供应链绩效的风险预测概念，该方法可以有效地解释弹性供应链绩效与供应商绩效风险之间的关系。

2020年新冠疫情的全球化爆发给供应链管理带来进一步的冲击。对此，Ivanov和Dolgui（2020）[29]提出一个数字供应链双链的计算机模型，它实时表示任何给定时刻的网络状态，增强数字供应链风险管理的研究和实践，促进供应链的预测和决策能力。Dolgui等（2020）[30]提出供应链的数字化、弹性、可持续性和敏捷性可以整合为供应链重构问题。Sheng和Amankwah‐Amoah（2020）[31]回顾研究大数据分析的方法创新以及如何利用研究结论来应对类似新冠疫情等“黑天鹅”事件所引发的管理问题。Meriton等（2020）[32]则是通过研究揭示大数据技术对于供应链管理的真正价值，提出供应链的弹性和敏捷性是供应链中加入大数据技术后最重要的动态能力。Hosseini和Ivanov（2020）[33]运用文献计量的方法研究贝叶斯网络在供应链弹性和风险分析中的应用现状和最新发展，并且作者还讨论贝叶斯网络与机器学习算法结合解决大数据供应链风险问题的应用。Dubey等（2020）[34]考察在人工智能驱动的大数据分析能力和跨团队领导力的调节作用下，信息流通和供应链敏捷性之间的关系，并为从事救灾行动的管理人员提供了一些指导建议。

（二）主题演化分析

在这一部分，将运用SciMAT软件分析该领域所划分出的两个阶段中蕴含的主题演变。为了提高结果的准确性，本部分还剔除了一些与研究对象高度相关的关键词，并对意思相同和相近的关键词进行了合并。

1、战略图

首先利用战略图研究大数据在供应链领域各个阶段的研究重点。球体的大小表示主题的h指数，球体越大，主题的h指数越高。除了主题的h指数外，每个主题的论文数量和引文量也被标注在下图6的括号中。

图6 战略图

第一阶段，战略图中主题的分布较为分散，四个象限都有主题分布。这其中DATA-MODEL（数据模型）在论文数量和影响程度中占有较大比重，是该时期的一个主流主题，这说明该主题自身发展较为成熟，并且与其他主题的关联程度也较高，这也体现了在该时期大数据技术为更好地贴合供应链领域，强调对数据模型的构建。同为主流主题的还有RISK（风险），它说明了大数据和供应链的结合是为了更好地规避供应链风险。SERVICE（服务）在该时期的论文数量和影响力也较高，是该时期的一个基本/横向主题，有发展潜力。基本/横向主题还涵盖了INDUSTRY（工业）和CASE-STUDY（案例研究），其中INDUSTRY（工业）体现了在工业4.0的大环境背景下，大数据技术在供应链领域的制造阶段有较高的研究潜力，而CASE-STUDY（案例研究）则体现了学者们偏向用案例分析法对该研究方向进行探索。同为研究方法的还有SCIENTOMETRIC（科学计量学），该主题是一个孤立主题，只受到少数学者的关注，影响力相对较低。GENETICALGORITHM（遗传算法）因为其本身算法的特性，所以也是一个较为孤立的研究主题。位于第三象限的CONSUMER-PERCEPTION（消费者感知）体现了该时期学者们偏好借用消费者态度来实现供应链优化。

第二阶段主题的分布偏向于第一和第三象限。FORCAST（预测）所占的论文数量和引用量都较高，是一个主流主题，这体现了大数据在供应链中更倾向于利用大数据技术提升供应链的预测能力。RISK（风险）在该阶段仍是一个主流主题，这说明风险这一主题受到了众多学者的持续性关注。TECHNOLOGY（技术）在该时期和其他主题的互动较为密切，但主题自身发展程度不高，仍有提升空间。同样的，DIGITALTECHNOLOGY（数字技术）是该时期的一个基本/横向主题，有一定的发展潜力，这也强调了可以借用数字技术实现供应链重构。EMISSION（碳排放）在该时期的发展较为成熟，它的出现意味着环境问题已经成为了一个研究重点，碳排放问题引起了学者较为深入的思考。COMPETENCE-SET（能力集）是该时期的一个孤立主题，它意味着可以借助大数据技术来提高供应链中各个环节的能力。因为MARKET（市场）和RETAIL-SUPPLYCHAIN（零售供应链）位于第三象限，并且h指数较高，所以是该时期的两个新兴主题，这体现了未来该领域的研究重点倾向于市场和零售行业。

2、演化图

前一阶段显示了各个时期主题的重要性和发展程度，这一部分将从发展演化角度来研究主题之间的转换。如图下7所示，主题之间的演化大致分为自上而下的两个主要研究领域，即工具/算法方向和应用方向。

就工具/算法研究方向，其在第一阶段涵盖主题较多，第二阶段有所减少，并且主题大多位于战略图的第二和第四象限，这说明部分该领域的主题专业性较强，受到少数的学者关注，还体现了该领域的研究为基础性研究，与其他主题的关联程度较高。其中DATA-MODEL（数据模型）、DIGITAL-TECHNOLOGY（数字技术）、GENETIC-ALGORITHM（遗传算法）和COMPETENCE-SET（能力集）体现了可以利用新兴技术和各类算法实现供应链重构，提升供应链中各个环节的能力。CASE-STUDY（案例研究）和SCIENTOMETRIC（科学计量学）体现了案例分析和科学计量是该领域的两个较为普遍的研究方法。

图7 演化图

就应用方向的发展而言，其所包含的主题较多，并且大多主题位于策略图的第一和第三象限，这说明了大数据在供应链领域的应用是一个研究热点，吸引着大量学者探索可能的应用领域。RISK（风险）这一主题在第一阶段和第二阶段都达到了较高的发展程度，并且其在第二阶段进行了主题演化，除了演化为自身以外还包括了FORCAST（预测）和MARKET（市场），这体现了大数据技术可以凭借其预测能力可以更好的规避市场中的不确定因素，实现供应链弹性。第一阶段出现了CONSUMER-PERCEPTION（消费者感知），体现了供应链对消费者环节的重视程度，也契合了主路径分析的结果：该领域前期偏好从社交媒体中获得暗含消费者情感和观点的非结构化数据，并以此来优化供应链。但是CONSUMERPERCEPTION（消费者感知）在第二阶段演化并入了EMISSION（碳排放），这也说明了消费者的环保意识对绿色供应链的构建存在一定影响。

四、结论和展望

本文基于主路径分析方法发现，大数据环境下供应链领域的问题研究，其主路径是前期主要在理论探讨方面，此后一个重要研究方向是结合社交媒体数据来进行；随着环保意识的增强和可持续发展要求的提升，碳排放这类环境问题成为了新的研究热点。近期，学者们则更多是结合大数据的分析决策能力来研究供应链风险问题，该问题也在2020年新冠疫情的背景下受到广泛关注。

此外，本文基于主题演化视角分析得出，对于工具/算法方向，可以结合其他新兴技术和相关算法对供应链中各个环节进行改良以提升供应链整体性能。案例分析和科学计量是该领域的两个主要研究方法。就应用方向，风险规避是大数据在供应链领域的一个长期研究热点。该领域在前期侧重于获取消费者观点以提升供应链性能，后期则偏向于针对碳排放等环境问题进行探索，并且发现消费者感知对绿色供应链的构建存在一定影响。

本文在研究中仍存在一些不足，因为该领域的论文数据来源只考虑了WoS数据库，存在数据量不足、探索不够全面的问题；SciMAT的处理涉及合并和删除关键词，可能会对结果产生略微影响；主路径算法会导致综述论文的权重较高，这一问题可以在今后的研究中通过改进算法来进行弥补。

大数据环境下供应链领域的知识演化——基于知识图谱方法