杨秀璋,武帅,张苗,夏换,李娜,项美玉,赵紫如,窦悦琪
(1.贵州财经大学信息学院,贵阳550025;2.贵州财经大学,贵州省经济系统仿真重点实验室,贵阳550025;3.贵州财经大学大数据应用与经济学院,贵阳大数据金融学院,贵阳550025;4.中国船舶工业系统工程研究院,北京100094)
贵州作为多民族融合、旅游景区颇多的省份,发展生态旅游行业尤为重要。该省平原较少,92.5%的面积均为山地和丘陵,为其发展生态旅游提供了得天独厚的优势。旅游发展不仅能带动地方经济的增长,也能拓宽当地学者的研究领域。贵州省结合自身独有的生态环境优势,提出“乡村振兴、大数据、大生态”新三大战略行动,旅游发展和生态文明建设在贵州起着重要作用,这也体现了继承和发展的统一。研究贵州旅游发展历程及主题不仅能明确贵州省旅游业的发展规律,同时能推动地方经济发展,为现阶段旅游发展提供可行的方向指引。
文献作为学者进行学术研究的重要载体,记录着相关研究领域的核心成果。通过文献分析和文本挖掘能识别出研究领域的核心分类、学科主题,这已成为当下研究热点,一定程度上反映该领域的前沿动态和研究水平。传统的文献计量方法通过对关键词统计来确定研究热点主题,或高被引论文的研究内容作为重要参考。仅能从宏观层面反映研究热点,缺乏代表性,且不利于深层次挖掘潜在主题的关联关系和演化趋势,存在一定的片面性。
因此,本文将从主题挖掘和数据分析的角度研究贵州省旅游发展现状,以中国知网贵州旅游发展相关的期刊文献为语料,采用层次聚类和社交网络方法进行深入的文本挖掘。接着,结合文献计量分析贵州省旅游发展的核心主题,从而揭示其旅游发展的历程。该方法有效弥补了传统的文献分析方法侧重于统计,缺乏量化思维,很难系统发展研究领域的潜在和语义信息。实验结果表明,本文的方法能有效挖掘出贵州旅游发展热点主题的分布情况及网络关系,并就现阶段旅游商业发展提供可行的方向指引,具有一定的研究意义和实用价值。
文献计量是一种运用数学模式、统计方法进行定量分析的一种文献研究方式。随着文献数据库的开放以及计算机技术的发展,文献计量逐步与之接轨,越来越多的专家学者致力于文献基础研究。范少萍等人[1]结合文献计量方法,利用密度和热度开展核心主题识别研究,最终识别医学文献的主题演化路径。杨秀璋等人[2]运用文献计量的方法对中国知网有关清水江文化的文献进行分析研究,挖掘出核心研究主题,一定程度上对推动清水江流域文化起到积极的作用。王卓玉[3]通过对WOS、CSSC、CNKI数据进行文献计量统计研究出国内外STEAM教育研究进度相对持平,主题相似,均集中于教育公平、学科整合、实践教学、思维养成四大主题。
聚类共词网络分析旨在利用文献集中共同出现的、表征文献主题的关键词来反映文献各主题之间的关联,进而确定文献主题的热点[4]。当两个关键词经常同时出现在某一篇文献中,说明它们之间存在一定的关联,共现次数越多,则两者的关系越紧密。石道元[5]通过对近十年CSSCI教育信息化数据构建共词网络,分析出当前研究热点。DAI Zongming[6]对传统的共词网络进行了一定程度上的优化,通过构建二分兴趣网络(BNOI),从而将F值提升至93.2%。蒋明敏[7]通过构建机构合作共现网络,确认核心中点为中国财政科学研究院和东北财经大学会计学院。
部分学者运用社交网络方法结合计量统计的方法进行文本主题挖掘。Lee W H[8]构建了信息安全领域的关键词共现网络,利用社交网络分析中的中心性指标发现当前的研究热点,其认为中心性指标中的度、中间中心性和接近中心性这3项指标不但可以用于发现某一学科领域中当前的研究热点,而且还能够用来识别未来的发展趋势[9]。王晰巍[10]运用Canopy和K-means算法进行聚类后,再进行社交网络分析,提升社区发现效果。
本文旨在对中国知网(CNKI)中“贵州旅游”的期刊文献进行文献计量统计研究,结合层次聚类和社交网络方法深度挖掘中国知网所收录有关“贵州旅游”的1565篇期刊文献。分别从文献计量统计分析、主题挖掘两角度挖掘潜在核心研究主题。
本文对中国知网数据库中“贵州旅游”相关期刊文献进行分析研究,研究框架图如图1所示。主要涉及4个部分,分别是:贵州旅游文献数据采集、数据预处理、宏观层面的文献计量分析、微观层面的主题挖掘研究。具体研究步骤如下:
图1 贵州旅游文献研究框架
(1)调用Python环境下的XPath自定义爬虫,抓取CNKI数据库中贵州旅游相关的期刊文献。将其存于指定CSV文件中,并对存储好的数据进行数据清洗,剔除无关数据(期刊广告和期刊报告),共整理出贵州旅游相关文献1565篇。
(2)对整理后的文献数据进行数据预处理操作,主要包括中文分词、去停用词、残缺值剔除以及异常值处理。
(3)对预处理后的数据进行文献计量统计分析,结合时间分布、学科分类、期刊机构以发文机构进行有效的文献分析。
(4)对预处理后的数据进行主题挖掘研究,包括共词网络分析、层次聚类分析、社交网络分析和主题演化分析,从而识别贵州旅游核心主题及各主题间的关联关系。
本文旨在挖掘中国知网数据库中有关“贵州旅游”的期刊文献,通过调用Python环境下的XPath自定义爬虫。在中国知网数据库开源供下载页面,设定关键词“贵州旅游”进行相关文献数据检索,将检索文献数据运用XPath自定义爬虫进行采集,再结合正则表达式提取和过滤文献数据,最终将分类好的数据存于CSV本地文件中。
由于CNKI数据库中所采集的数据不仅仅只包含期刊文献,还包含相关宣传公告、专栏会议以及活动报告。因此,需对此类文献信息进行剔除,同时对摘要、作者、关键词缺失的期刊文献数据进行再判断,是否为期刊文献论文。对清洗好的数据进行预处理,包括中文分词、去停用词、残缺值剔除以及异常值处理,最终获得较好的半结构化数据,便于后续对“贵州旅游”相关数据进行数据分析。
层次聚类分析是利用相似性算法发现高频关键词间亲疏程度并进行自动分类的技术。本文首先将贵州旅游文献关键词的共现矩阵转换为相异矩阵,接着使用Python层次聚类分析,簇间距离采用Ward方法统计,最终计算出各主题的树状图。
本文对预处理后的1565篇“贵州旅游”相关的期刊论文进行文献计量分析。分析结果结合ECharts可视化技术进行可视化呈现。文献计量分析主要包括结合论文发表时间的时间线统计;结合论文涉及学科门类的学科统计;结合论文发表期刊的热门期刊统计;结合论文作者单位的核心发文单位统计。
本文调用Python环境下ECharts模块对“贵州旅游”相关文献进行统计分析,绘制出如图2所示的时间统计分析图。其中,2000年以前论文发表相对较少,共计86篇,归于2001年进行统计分析研究。
图2 贵州旅游主题文献发文趋势
由图2可以观测出,“贵州旅游”主题期刊文献年度发文量总体呈逐年递增的趋势,部分年份存在波动情况。2016年,“贵州旅游”相关文献发表最多,共计135篇;其次是2017年发表的127篇和2012年发表的122篇。
学科门类统计分析能有效挖掘出该领域的学科关联情况,能有效结合各学科的优势实现产业和行业优化,从而更好地推动该领域发展。本文结合学科门类统计分析,得出表1所示的学科分类表。
“贵州旅游”主题期刊论文学科分类最多的为“经济类”,共计1268篇;其次是“文化、科学、教育、体育类”共计118篇;之后是“艺术类”共计37篇。表1可以看出“贵州旅游”类期刊论文主要以“经济类”的“旅游经济”和“绿色经济”为主。
表1 贵州旅游主题文献的学科分类
本文对CNKI数据库中“贵州旅游”主题的期刊论文进行计量统计分析,其结果可作为“贵州旅游”研究的重要参考文献依据,最终统计出发表“贵州旅游”主题的前十名期刊,如表2所示。
表2 贵州旅游主题文献的Top10期刊
其中,“贵州旅游”主题发文最多的期刊为《当代贵州》,共计发文130篇;其次是《旅游纵览(下半月)》,共计发文77篇;再者是《贵州民族研究》,共计发文64篇。
国内发文机构主要以高校、科研院所以及事业单位为主。本文对抓取的1565篇有关“贵州旅游”期刊论文的第一作者所属单位进行计量统计分析,绘制出如表3所示“贵州旅游”核心发文机构前十名。
表3 贵州旅游主题文献的Top10发文单位
从表3可以看出前十名机构中,大部分机构为高校,还有《当代贵州》杂志社。发文最多的机构为“贵州师范大学”,共计发文174篇;其次为“贵州大学”,共计发文153篇;再者为“贵州财经大学”,共计发文113篇。由表可知,贵州省本地的高校机构长期致力于“贵州旅游”发展研究,提供着可行的建议,积极推动着当地旅游业的发展。
主题关键词旨在反映论文的研究主题或热点话题。想要深度挖掘“贵州旅游”相关文献,应优先考虑研究其主题词。本文通过构建共词网络挖掘主题词间共现关系,再结合层次聚类和社交网络分析方法深度挖掘主题词间的关系,进一步发现潜在主题词联系,从而为贵州省的旅游商业发展提供可行的学术参考。
在中国知网数据库关于“贵州旅游”主题的1565篇期刊文献中,共涉及2773个核心主题词,这些核心主题词的词频数为5956次,平均每个主题词出现2.15次。本文统计出如表4所示“贵州旅游”期刊文献的钱60个核心主题词。由表4可知,“贵州”出现次数最多,共计307次;“旅游业”(119次)、“乡村旅游”(102次)、“旅游”(97次)、“旅游资源”(85次)、“旅游开发”(76次)等主题词的出现次数均在50次以上,一定程度上可作为“贵州旅游”研究领域的热点主题。
表4 贵州旅游主题文献的Top60主题词
共词分析法旨在利用文献集中共同出现的、表征文献主题的关键词来反映文献各主题之间的关联,进而确定文献主题的热点。当两个关键词经常同时出现在某一篇文献中,说明它们之间存在一定的关联,共现次数越多,则两者的关系越紧密。
为了更好地分析“贵州旅游”研究的主题,采用共词网络法分析,并构建关键词共现矩阵。如公式(1)所示,当两个关键词同时出现在一篇文献中,则认为共现并构建关联边,其边所对应的权重加1;反之,两个关键词不存在共现关系,其权重为0。
经过之前的统计分析,共发现2773个主题关键词,在此构建2773×2773的共词矩阵,接着进行共现网络计算,得出8637组(频次非零)共现主题词组,其共现频次为9616次,平均每组共现主题词组出现1.14次。统计出如表5所示“贵州旅游”主题期刊文献共现主题词组前30名。由表可知,“<贵州,旅游资源>”主题词组共现频次最高,其值为33次;出现次数在15次以上的两两主题词组还包括“<贵州,乡村旅游>”(31次)、“<贵州,旅游>”(29次)、“<贵州,对策>”(15次)、“<贵州,可持续发展>”(15次)。它们在一定程度上也反映了“贵州旅游”文献的研究热点和关联。
表5 贵州旅游主题文献的Top30共现主题词组
针对已构建的关键词共现矩阵,利用Gephi绘制贵州旅游文献的核心关键词共现关系图谱。为了更加精准地识别该领域文献的关键词及主题,本文过滤了较为单一的共现关系,结合普莱斯定律对节点进行筛选,设置共现阈值为5,共挖掘出36个核心节点和45条关键共现关系。通过计算该社交网络的模块化为0.214,符合模块化效果。平均路径长度2.451,平均聚类系数0.506,平均度2.5,平均加权度23。最终绘制出图3所示“贵州旅游”主题词社交网络图。
由图3可知“贵州旅游”主题词共分为4个部分。以主题词“贵州”为核心的部分占大部分,涉及“乡村旅游”“旅游产业”“旅游开发”“可持续发展”等领域;以主题词“旅游业”为核心的部分,涉及“旅游产业发展”“旅游大省”“旅游者”“户外运动”“山地旅游”等;以主题词“旅游资源”为核心的部分,涉及“旅游开发”“喀斯特”等;以主题词“民族村寨”为核心的部分,涉及“西江苗寨”“旅游扶贫”等。这些领域一定程度上也反映了贵州省旅游业的主题演化趋势及各个时期旅游发展的热点关系,从民族村寨旅游到生态旅游,从乡村旅游到乡村振兴。
图3 贵州旅游主题文献的社交网络
文本聚类旨在根据文档内容的相似性,将无标签的文档集进行自动归类。在将文档集划分为若干类过程中,尽可能地使得同类文档的内容相似性较大,不同类文档的内容相似性较小。常见的方法包括基于层次、基于划分、基于密度和基于网络的文本聚类方法。
本文通过Python的cluster.hierarch算法实现层次聚类,最终绘制如图4所示的主题词层次聚类图。其横向坐标轴表示各类别间的距离,纵向坐标轴表示各高频关键词。由图可知,贵州省的旅游文献主要包括“红色旅游”“民族旅游”“乡村旅游”“山地旅游”“全域旅游”“旅游扶贫”等主题词。
图4 贵州旅游主题文献的层次聚类
整个旅游业的主题演化趋势如下:
(1)最早以“红色旅游”和“民族旅游”主题为主,包括“遵义会址”“西江千户苗寨”“黄果树瀑布”等著名景区吸引了大量的游客,与之关联的主题词包括“对策”“旅游产业”“发展”“民族村寨”等。
(2)随着贵州提出“大生态”“大旅游”等战略,并且“县县通高速”带来了良好的交通便利,贵州逐渐以“生态旅游”和“全域旅游”主题为主,相关的主题词包括“卡斯特”“生态文明建设”“可持续发展”等。
(3)随着“乡村振兴、大数据、大生态”新三大战略行动在贵州省的实施,旅游发展和生态文明建设在贵州起着重要作用,该时期出现以“乡村旅游”和“旅游扶贫”为主题,相关的核心主题词包括“乡村振兴”“旅游发展”“旅游产业发展”等。
期刊文献作为研究成果的重要载体,对其系统分析研究,能够有效明确贵州旅游的研究分类、研究群体以及核心研究主题,从而揭示贵州旅游战略发展过程。本文通过对中国知网数据库有关“贵州旅游”主题的期刊文献计量统计分析,得出“贵州旅游”主题期刊论文学科分类最多的为“经济类”,且以“旅游经济”为主。热门期刊包括《当代贵州》(130篇)、《旅游纵览(下半月)》(77篇)、《贵州民族研究》(64篇)。核心研究机构包括“贵州师范大学”(174篇)、“贵州大学”(153篇)、“贵州财经大学”(113篇)。
同时运用层次聚类和社交网络分析算法对CNKI数据库中1565篇“贵州旅游”期刊文献进行主题挖掘。研究结果表明,“贵州旅游”主题词共分为4个部分,以主题词“贵州”为核心的部分占大部分,涉及“乡村旅游”“旅游产业”“旅游开发”“可持续发展”等领域;以主题词“旅游业”为核心的部分,涉及“旅游产业发展”“旅游大省”“旅游者”“户外运动”“山地旅游”;以主题词“旅游资源”为核心的部分,涉及“旅游开发”“喀斯特”;以主题词“民族村寨”为核心的部分,涉及“西江苗寨”“旅游扶贫”。同时,结合层次聚类挖掘出贵州省旅游发展经历了“红色旅游”和“民族旅游”、“生态旅游”和“全域旅游”、“乡村旅游”和“旅游扶贫”为主题各个阶段。
综上,本文研究将为贵州旅游发展提供帮助,该方法能够有效挖掘出贵州旅游发展热点主题的分布情况及网络关系,并就现阶段旅游业发展提供切实可行的潜在发展方向指引,具有一定的研究意义和实用价值。