杨秀璋,武帅,夏换,赵紫如,朱涤尘,张亚成,窦悦琪
(1.贵州财经大学信息学院,贵阳550025;2.贵州财经大学,贵州省经济系统仿真重点实验室,贵阳550025;3.贵州财经大学,贵州省电子商务大数据营销工程研究中心,贵阳550025)
清水江是贵州省第二大江,是长江支流沅江上游的主要河段,流经都匀市、麻江县、凯里市、台江县、剑河县、锦屏县,最终从天柱县流出贵州省。清水江流域受其千百年来滋养和沉淀,孕育出清水江流域文化。清水江流域既是以苗族为主、侗族为辅的少数民族地区,又是民族文化聚集地,还是考古挖掘与发现地区。加强清水江流域文化的研究,不仅具有重要的研究价值,还具备民族文化传承与弘扬的现实价值。
清水江流域文化作为中国少数民族文化的重要组成部分,其相关学术文献是清水江流域文化的交流与传播的重要载体。大数据环境下,文学和民族学研究成果层出不穷,学者各抒己见,通过文献分析识别核心作者、学科主题已成为研究热点[1],决定着学科方向以及学术成果的质量。传统的分析方法是通过发文量来认定,而忽略了论文的质量,缺乏利用社交网络或知识图谱技术构建核心作者间的关系,识别结果往往存在片面性[2]。同时,传统的文献分析方法缺乏数字化、智能化分析,较难系统全面地挖掘研究领域知识以及精确识别文献作者合作关系。针对这些不足,本文提出一种基于文献计量和社交网络的清水江流域文化的相关期刊文献研究方法。
文献计量是指运用数学以及统计学方法,定量分析学术文献的一种方法。近年来,随着数据挖掘和文献分析的发展,越来越多的学者致力于学术文献研究。杨秀璋[3]运用文献计量分析以及知识图谱对水族文献进行了计量研究,为水族文化的研究和发展提供了相关启示。邹鼎杰[4]结合文献计量对民国文献进行分析,提出民国文献的整理研究应从核心作者、期刊以及出版社开始,从而提升整理研究的整体效率。王耕等人[5]就Web of Science 数据库中自然资本相关文献进行文献计量分析。杨建春等人[6]就民族地区扶贫期刊文献进行文献计量分析研究,得出研究总体呈现波动性增长趋势。任俊霖等人[7]将河长制相关研究的期刊文献进行文献计量分析,得出随着河长制在全国范围推广。
社交网络算法(Social Network Algorithm)是一种可以识别强弱关系网络的聚类算法,它可以运用知识图谱的方式将彼此之间的关系进行形象化表示。节点代表对应的关系点,边代表节点之间的关系,有向图运用箭头表示节点之间的关系,无向图运用线段表示节点之间的关系[8]。社交网络算法可将关系较为密切的节点聚集到类似区域,将关系稀疏的节点扩散到外围,直观地发现核心关系点。
社交网络算法作为发现核心关系的主要方法,被广泛运用于各类领域。杨秀璋等人[8]结合社交网络分析得出中国电影市场的演员关系图谱。Kanamori Mariano J.等人[9]结合社交网络分析算法挖掘健康社会场所内部之间的结构特征和协助过程。黄炜等人[10]将广度学习在异度社交网络分析中进行运用,为其在情报领域应用奠定了理论基础和技术支持。
本文依托社交网络算法对清水江流域文化在中国知网(CNKI)公开收录的期刊论文进行核心作者群体分析。
清水江流域文化作为苗族以及侗族等少数民族聚居区,一直深受内外众多学者关注。目前,清水江流域文化研究主要集中于日常习俗、经济开发、环境保护以及清水江文书等领域。龙昭宝等人[11]对清水江流域的环境问题进行分析研究,并提出对应的可持续发展建议。杨军昌等人[12]建议在建设旅游的同时,要与多种教育天然课堂相结合,从而达到文化传承保护与乡村旅游共赢的局面。陆跃升[13]详细分析清水江流域的婚姻习俗演变历程。
本文将结合文献计量学和社交网络分析方法,系统地对清水江流域文化相关期刊文献进行分析;同时依据普赖斯定律确认出清水江流域文化相关期刊文献的核心作者候选人,并结合发文量以及被引用量的综合指数算法计算出清水江流域文化的核心作者;最后对期刊文献的所有作者进行社交网络算法分析,从而明确清水江流域文化的核心研究团队。
本文旨在对清水江流域文化相关的期刊文献进行文献计量分析与研究,深度挖掘中国知网1958 年至2019 年所收录的1013 篇清水江流域文化相关的文献,并从高被引论文、年度发文量、核心期刊、主要研究机构、核心作者以及核心研究团队等反向进行研究。
本文对清水江流域文化相关的期刊文献具体分析框架如图1 所示。主要包括清水江流域文化相关期刊文献爬取、数据预处理、文献计量分析研究、核心作者发现、社交网络分析研究五个部分。
图1 清水江流域文化研究框架图
具体步骤如下:
(1)采用Python 环境下的Selenium 自定义网络爬虫,抓取中国知网清水江流域文化相关的文献。过滤掉不相关及数据缺失的文献之后,共抓取了1958 年至2019 年的期刊文献1013 篇。
(2)对所爬取的期刊文献数据进行预处理操作,包括数据清洗、异常值处理、残缺值填补以及中分分词,将处理好的数据集存于本地数据库。
(3)对处理好的清水江流域文化相关的期刊文献数据进行文献计量分析,包括时间分布分析、核心论文发现、期刊机构挖掘以及发文机构分析。
(4)通过普赖斯定律筛选出清水江流域文化相关期刊文献的核心作者候选人,结合综合指数算法,从候选人中遴选出最终的清水江流域文化的核心作者,并进行排序对比。
(5)对所有清水江流域文化相关的期刊文献作者进行社交网络分析,运用Gephi 构建作者社交网络,挖掘出清水江流域文化的核心研究团队。
本文旨在挖掘中国知网数据库中有关清水江流域文化的期刊文献作品的核心作者以及核心研究团队。首先,通过Chrome 驱动器进行Chrome Driver 环境配置;其次,设置清水江流域文化关键词(Keyword)并检索相关的期刊论文,调用Python 环境下的Selenium 自动化测试工具进行数据爬取;再次,借助Xpath 和正则表达式精准提取论文信息,包括文章标题、作者、来源、出版日期、文章摘要、关键词、下载量以及被引用量等字段;最后,将所有爬取的文献数据存储至本地CSV 文件及数据库中。
中国知网收录的期刊论文不仅仅只包含论文,还包含部分期刊宣传信息以及专栏回忆内容,甚至部分所抓取的论文缺失作者、摘要等信息。本文对抓取的期刊文献数据进行预处理操作,从而获取更好的半结构化数据,便于后续对清水江流域文化相关期刊文献的数据分析和研究。本文所采用的数据预处理办法主要包括数据清洗、异常值处理、中文分词以及相关数值的抽取。
本文对清水江流域文化相关期刊文献进行文献计量分析,其分析结果采用Echarts 技术可视化呈现。清水江流域文化的文献计量分析主要包括文献综合分析、高被引文献分析、期刊机构分析以及核心发文单位分析。
本文借助Python 环境中的PyEcharts 模块对清水江文献进行可视化分析,生成图2 所示的时间对比分析图。图2 的横坐标表示1958 年至2019 年的时间流,纵坐标表示不同时间段的发文总量、最高下载量以及最高被引用量。
图2 清水江文献近年发文趋势对比图
由图2 可知,清水江流域文化相关的期刊论文发文量呈递增趋势增长。其中,最高下载量为2008 至2009 年度胡小明等人[14]发表的《黔东南独木龙舟的田野调查——体育人类学的实证研究(一)》论文,共计下载2534 次。最高被引用量为2004 至2005 年度韩贵琳等人[15]发表的《贵州喀斯特地区河流的研究——碳酸盐岩溶解控制的水文地球化学特征》的论文,共计被引用117 次。最高发文量为2014 至2015 年度,共发表207 篇有关清水江流域文化有关的期刊文献。如表1所示。
表1 清水江流域文化文献发展情况表
一篇文章的影响力通常由该篇论文被引用次数所决定,被引用次数越高,该篇文章的价值就越高。本文清水江流域文化相关的1013 篇期刊论文共被引用3565 次,平均单篇文献被引用3.52 次。表2 为清水江流域文化排名前十的高被引文献,该十篇期刊论文被引用次数均在33 次以上,共被引用495 次,占清水江流域文化所有文献共被引的14%。该十篇期刊论文中,有六篇被中文社会科学引文索引(CSSCI)所收录,其核心研究主题分别为区域公共事务、独木龙舟、清水江流域木材贸易、清水江文书、林业开发以及锦屏文书;有三篇被中国科学引文数据库(CSCD)所收录,其核心研究主题分别为水文地球化学特征、清水江流域丰水期水化学特征和离子来源以及稀有物种白甲鱼;还有一篇被贵州大学学报(社会科学版)所收录,其核心主题为清水江文书。其中被引用次数最多的为韩贵琳等人[15]于2005 年在《地球科学进展》(CSCD)所发表的《贵州喀斯特地区河流的研究——碳酸盐岩溶解控制的水文地球化学特征》,共被引用117 次;紧跟其后的是刘亚平等人[16]于2006 年在《中山大学学报(社会科学版)》(CSSCI)所发表的《区域公共事务的治理逻辑:以清水江治理为例》,共被引用61 次;接着是胡小明等人[14]2009 年在《体育学刊》(CSSCI)所发表的《黔东南独木龙舟的田野调查——体育人类学的实证研究(一)》,共被引用54 次。
对清水江流域文化有关期刊进行文献计量分析,可作为研究清水江流域文化的重要参考文献依据,高影响力期刊对清水江流域文化的传承与弘扬起到至关重要的作用,是清水江流域文化研究的重要支柱。表3列举了刊载清水江流域文化相关的期刊论文前十的期刊。其中发表有关清水江流域文化相关文献最多的期刊为《原生态民族文化学刊》,共计发文181 篇,共被引用756 次,篇均被引用4.18 次,总下载量为36569 次,篇均下载202.04 次,最具代表的为徐晓光[23]等于2009年发表的《贵州“锦屏文书”的整理与研究》。篇均被引用最高的为《贵州文史丛刊》,共计发文15 篇,共被引用89 次,篇均被引用5.93 次,总下载量为2198 次,篇均下载146.53 次,最具代表的为杨有赓[24]于1990 年发表的《清代清水江林区林业租佃关系概述》。篇均下载最高的为《贵州民族研究》,共发文36 篇,总引用量为210 次,篇均被引用5.83 次,总下载量为8518 次,篇均下载236.61 次,最具代表的为张新民[20]于2010 年发表的《清水江文书的整理利用与清水江学科的建立——从<清水江文书集成考释>的编纂整理谈起》。
国内发文主要以机构为主,主要以各大高校、研究院、图书馆、事业单位以及部分公司为主。本文对抓取的1013 篇清水江流域相关期刊论文对第一作者所属单位进行计量分析,表4 列举出清水江流域文化核心发文机构前十名,其中贵州省贵阳市为主要研究城市,共计6 个研究机构。发表清水江流域文化相关的期刊论文最多的机构是贵州大学,共计发文180 篇,共被引用754 次,篇均被引4.19 次,总下载量达36092 次,篇均下载200.51 次,最具代表的为张新民[20]于2010 年发表于《贵州民族研究》的《清水江文书的整理利用与清水江学科的建立——从<清水江文书集成考释>的编纂整理谈起》。篇均被引用以及篇均下载最高的发文机构均为中山大学,共计发文40 篇,共被引用266 次,篇均引用6.65 次,总下载量达14462 次,篇均下载361.55 次。
表2 清水江流域文化高被引期刊文献前10 名
表3 清水江流域文化重点发文期刊前10 名
表4 清水江流域文化核心发文机构前10 名
本文采用普赖斯定律[25]计算清水江流域文化相关期刊文献的核心作者候选人,再根据综合指数算法结合核心作者候选人的文献发文量以及文献被引用量来遴选出研究清水江流域文化的期刊论文核心作者。
普赖斯定律是研究科技情报学的主要方法之一,用来衡量各个学科领域文献作者分布规律和,作为确认核心作者的重要指标之一。普赖斯定律确认核心作者候选人主要分为如下步骤:
(1)最低发文量Mp
通过普赖斯定律统计核心作者最低发文量Mp 来初选清水江流域文化相关期刊文献的核心作者候选人,其计算公式如(1)所示:
公式(1)中Npmax表示普赖斯定律统计的清水江流域文化相关的期刊论文作者的最高发文量,其作者是林芊,共计发文23 篇。结合普赖斯定律初步计算,清水江流域文化相关期刊论文的核心作者最低发文量为4 篇。
(2)最低被引用量Mc
通过普赖斯定律统计核心作者最低被引用量Mc来初选清水江流域文化相关期刊文献的核心作者候选人,其计算公式如(2)所示:
公式(2)中Ncmax表示普赖斯定律统计的清水江流域文化相关的期刊论文的单篇最高被引用量,清水江流域文化相关的期刊论文单篇被引用次数最高的是韩贵琳等人[15]于2005 年在《地球科学进展》所发表的《贵州喀斯特地区河流的研究——碳酸盐岩溶解控制的水文地球化学特征》,被引用117 次。结合普赖斯定律计算,清水江流域文化相关期刊论文的核心作者最低被引用量需达到9 次以上。
(3)筛选核心作者候选人
结合步骤1 统计的最低发文量Mp 以及步骤2 统计的最低被引用量Mc,再次利用普赖斯定律进行统计,最终确认清水江流域文化有关期刊论文核心作者候选人共计96 位,共发表459 篇期刊论文,占清水江流域文化相关论文总数的45.31%,发表的相关论文共被引用2859 次。
本文结合综合指数算法从普赖斯定律确认的96位清水江流域文化的核心作者候选人中遴选出影响力较高的前15 位核心作者,具体步骤如下:
(1)平均发文量xˉ确认
平均发文量xˉ的计算过程如公式(3)所示。其中,普赖斯定律预选确认的96 位核心作者候选人的总发文量记为X总,核心作者候选人总人数记为n。最终计算出清水江流域文化的核心作者平均发文量为4.78 篇。
(2)平均被引用量yˉ确认
平均被引用量yˉ的计算过程如公式(4)所示。其中,普赖斯定律预选确认的96 位核心作者候选人所发论文的总被引用量记为Y总,核心作者候选人总人数记为n。最终计算出清水江流域文化的核心作者所发论文的平均被引用总次数达29.78 次。
(3)综合指数socrei遴选核心作者
结合平均发文量xˉ以及平均被引用量yˉ,运用综合指数socrei公式(5)计算出第i 位核心作者候选人的综合指数得分。其中,第i 位核心作者候选人的发文量记作xi,第i 位核心作者候选人所发期刊论文的被引用量记作yi。
通过对清水江流域文化的相关期刊论文的核心作者候选人进行综合指数计算,最终遴选出前15 位核心作者,如表5 所示。由表可知,综合指数排第一的是贵州师范大学的徐晓光[23],共计发文20 篇,其发表的期刊文献共计被引用125 次,综合指数为4.19,最具代表性的作品为2009 年发表于《原生态民族文化学刊》的《贵州“锦屏文书”的整理与研究》,该论文共被引用33 次;排名第二的是贵州大学的张新民[17],共计发文15 篇,其发表的期刊文献共计被引用150 次,综合指数为4.09,最具代表性的作品为2012 年发表于《贵州大学学报(社会科学版)》的《走进清水江文书与清水江文明的世界——再论建构清水江学的题域旨趣与研究发展方向》,该论文共被引用52 次;排名第三的是中山大学的张应强[19],共计发文18 篇,其发表的期刊文献共计被引用127 次,综合指数为4.01,最具代表性的作品为2002 年发表于《中国社会经济史研究》的《从卦治<奕世永遵>石刻看清代中后期的清水江木材贸易》,该论文共被引用37 次。
社交网络算法是一种可以识别强弱关系网络的聚类算法,运用知识图谱的方式将原本彼此之间的关系进行形象化表示。本文依托社交网络算法挖掘清水江流域文化相关的期刊文献的作者之间的合作关系及核心研究团队。
本文采用Gephi 软件分析中国知网所抓取的1013篇关于清水江流域文化期刊论文的作者关系,并绘制研究团队的关系知识图谱,过滤掉单一的关系之后生成如图3 所示的社交网络关系图谱。其中节点表示每位作者,连线表示作者之间的合作研究关系。图中可清晰看出清水江流域核心作者研究团队主要有七个团队,分别是以胡世然、李建光以及杨兴为研究团队的清水江水生物研究;杨世如、王广进等人为研究团队的独木龙舟研究;张明、杨军昌等人为研究团队的清水江文书研究;龙泽江、李斌等人为研究团队的清水江文书研究;卢定彪、王安华等人为研究团队的新元古代下江群研究;徐晓光、罗康隆等人为研究团队的清水江流域生态研究;安艳玲、吴起鑫等人为研究团队的清水江流域生态研究等。
表5 清水江流域文化期刊文献的核心作
图3 清水江流域文化作者社交网络关系图谱
结合社交网络分析,可看出清水江流域文化研究研究团队主要以研究清水江文书以及清水江流域生态为主。张明等人研究团队可与龙泽江等研究团队互相交流,有利于更好地研究清水江文书。徐晓光等人研究团队在研究清水江流域生态时,参考了清水江文书,已于龙泽江等人研究团队进行了一定程度上的学术交流,对清水江流域文化的发展与弘扬都起着积极的作用。后期可加强与安艳玲等研究团队,将清水江流域生态研究做的更加透彻,有利于清水江流域生态文明建设。
清水江流域受其千百年来滋养和沉淀,孕育出清水江流域文化。清水江流域文化作为中国少数民族文化的重要组成部分,是研究少数民族文化的重要依据,具有一定的研究意义与实用价值。随着互联网和计算机的发展,近年对清水江流域文化研究和清水江文书挖掘越来越多。相关学者从不同角度进行了探索与研究,但仍然缺乏数字化、智能化分析,较难系统全面地挖掘清水江流域文化特点以及精确识别文献作者的合作关系。
针对这些不足,本文提出了一种基于文献计量和社交网络的清水江流域文化研究的分析方法,系统全面地挖掘了清水江流域文化相关的期刊文献。本文通过Python 技术抓取了中国知网与清水江流域文化相关的1013 篇期刊文献,采用文献计量方法挖掘高影响力期刊、机构和单位,采用综合指数法确定清水江流域文化的高引论文和核心作者,揭示清水江流域文化的演变历程和研究主题,并通过社交网络算法挖掘出相关作者的合作关系,识别核心科研团队及其研究方向。本文梳理了清水江流域文化的期刊文献,明确了核心作者、核心研究团队及作者间的合作关系网络。本文为清水江流域文化研究提供一定的理论依据和研究价值,有效促进了清水江流域文化的弘扬与发展,具有一定的研究意义以及实用价值。