何世群,翁 冉,宋卓远,杨秀璋,罗子江
(贵州财经大学信息学院,贵州 贵阳 550025)
近年来,随着我国物质文化生活水平的不断提高,人民群众对于精神层次上的追求越来越丰富。而旅游出行作为一种开拓眼界、放松身心、陶冶情操、享受生活的最佳活动,也逐渐成为人们所青睐的一种生活方式。在相关政策的引导下,旅游产业带来的经济效益对于独具喀斯特地貌和山地民族特色的贵州省而言具有十分重要的意义。据统计,2017年贵州省的旅游总收入占贵州全年GDP的11%以上,这说明旅游业为贵州省的经济发展与扶贫、减贫工作作出了巨大贡献。“十三五”以来,贵州省人民政府《关于贵州省“十三五”旅游业发展规划的批复》(黔府函〔2017〕64号)、贵州省人民政府办公厅《关于支持毕节市加快旅游业发展的意见》(黔府办发〔2019〕6号)等文件中均有提及对全省的旅游产业升级改造,依托独特的喀斯特地理风貌和独具特色的山地民族风情优势[1],打造“多彩贵州”的独立旅游品牌,因此贵州省各地市州加快旅游产业转型升级和服务质量的提升刻不容缓。本文通过构建关键词矩阵,利用主题聚类分析等方法,及时挖掘贵州省旅游的研究热点与主题分布,以期从中有效发掘出潜在的价值信息,为贵州旅游研究提供一种新的分析视角。
本文的研究对象来自中国知网文献数据库,检索主题为“贵州旅游”,并采用高级检索模式,检索条件为“中文核心+CSSCI”,检索时间为2021年9月10日,总共获取文献310篇。经过数据预处理与人工筛选工作,剔除通讯、会议、人物访谈等无效文献,最终获取有效文献304篇。
传统的文献计量就是将数学和统计学的研究方法加以结合,以所获取的研究文献为研究对象,主要有发文量分析、引文分析、词频分析、基金项目分析、发文机构分析、期刊分析和关键词分析等方法。本文通过研究最终获取的304篇有效文献的外部特征,定量地分析贵州旅游研究的相关文献,并描述、评价、预测科学研究的现状与发展趋势[2],并将所获取数据间的关系绘制成网络知识图谱与主题挖掘图谱,从而梳理贵州旅游领域的关注焦点。本节将以布拉德福定律和齐普夫定律为理论基础,采用Gephi、Python等软件和计算机语言技术,生成可视化知识脉络图,主要包括研究热点图谱、关键词共现频次表、关键词聚类图谱以及主要机构和主要作者发表文献数量图谱[3]。
关键词往往代表着一篇文章的主要研究方法与研究对象,可以让读者直接了解文章的主题,本文主要通过构建高频关键词相似矩阵并将其导入Gephi软件中,绘制相关的知识图谱,呈现可视化结果。共词分析也就是将各个关键词联系起来,如某一关键词在相关文献中出现的次数较多,就说明该关键词代表的研究内容或者主题就是关注度较高的研究点,从而反映出某个研究领域的研究现状、热点与趋势[4]。本文的亮点在于,不仅将共词分析技术用于文献分析,还将其用于在线用户评论的分析当中。
通过对“贵州旅游”主题文献相关发文量及其变化情况进行统计,可以分析评价该主题领域的研究水平及发展特点。本文使用Excel 2019,将最终获得的304篇有效研究文献按照年份统计并绘制成相关文献数量分布图,如图1所示。
图1 年发文量分布图
从上图中可以看出,从1993年起才出现与贵州旅游相关的高质量研究,根据上图的发文量可以将该主题的相关文献发展分为三个阶段。1)萌芽期(1993—2003年),这一阶段我国对于贵州旅游的高质量研究才正式开始,由于当时也正处于社会主义市场经济探索初期,所以整个研究领域都处于一个摸索的阶段,也是向文献大规模增长的过渡时期,每年平均文献产出约3篇,文献产出增长较少且不稳定。2)井喷式增长期(2004—2011年),这一阶段随着“旅游产业化”与“扶贫开发”工作的全面推进,贵州省的旅游品牌知名度不断地提升,再加上贵州省拥有极具特色的旅游资源,这也就导致相关的研究者将研究重心转移到该研究领域,此阶段文献产出进入井喷式的增长阶段,其中2010年和2011年以年刊载文献29篇,达到文献产出历史的最高峰。3)衰退期(2012—2021年),这一阶段旅游产业化逐渐完善,同时各个景点的商业化也不断深入,导致相应的研究也就随之减少,虽然有部分时间的文献产出情况有所反复,但整体仍然处于一个明显的下降趋势。总体而言,“贵州旅游”主题研究整体呈现“几字型”分布趋势,根据普赖斯文献分布规律,说明该研究领域已经趋于成熟的瓶颈阶段,未来如果能与新兴的热点事物相结合,才有可能从新的角度和研究方向产生活跃的研究。
作者合作网络分析,即根据所获取的有效文献,分析贵州旅游研究领域所发表文献主题和作者之间的合作关系,将其作为研究主题与研究团队影响力区分的重要途径。本文使用Python将304篇有效文献的作者构建相似共现矩阵,由于贵州旅游研究领域的文献较少,故将发文量大于1篇的作者都定义为非边缘作者。将构建的作者共现矩阵导入Gephi软件中,去除极度边缘位置的作者,生成论文作者合作关系知识图谱,如图2所示。
从图2中可以发现主要作者团队共9个,其中处于研究中心的作者团队有4个,边缘作者团队5个,此外独立作者数量较多,大部分处于关系网络边缘位置。3人及3人以上的作者团队为6个,其中以杨洋、殷红梅团队,胡北明、孙德亮团队和杨建春、陈志永团队表现最为突出,主要研究方向为旅游经济产业化、生态旅游以及民族村寨旅游等,代表著作有《旅游发展背景下民族村寨居民地方性感知测度及影响因素研究——以贵州雷公山地区为例》《高铁对区域旅游生态关系影响的定量评价研究——以贵广高铁贵州段为例》《金融支持旅游产业发展的动态效应比较——以贵州、浙江两省为例》等。并且以上三个团队的团队成员之间合作密切,相互联系,都处于网络核心位置,这表明上述团队是贵州旅游研究领域的主要研究产出来源。但是其他作者大部分处于相互独立和网络边缘的位置,如苏洁、吴倩、李强等,说明大部分作者的研究方向与重心都比较分散,差异较大。由此可见,贵州旅游研究领域最为核心的研究产出团队关联性较高,且这些研究团队的研究主题有一定的联系,这也就使得该领域的研究关系网络也呈现集中化发展的趋势。
图2 作者合作关系知识图谱
研究机构分析,即根据有效文献的作者所属机构,分析贵州旅游研究机构之间的合作关系与主要研究主体,将其作为研究中心的重要途径。本文使用Python将304篇有效文献的发文机构构建相似共现矩阵,由于贵州旅游研究领域的文献较少,固将发文量大于1篇的机构都定义为高产机构,表1为部分研究机构。
表1 贵州旅游主要研究机构(部分)
再将研究机构构建的共现矩阵导入Gephi软件中,去除极度边缘位置的研究机构,生成研究机构发文量知识图谱,如图3所示。
图3 研究机构发文量知识图谱
从表1和图3都可以看出,主要的机构绝大多数都是贵州省内高校以及科研机构,并且贵州师范大学和贵州财经大学分别以47篇和41篇的文献产出,成为该领域最为核心的研究机构,说明贵州省内的高校成为了“贵州旅游”研究产出的主要动力;并且从发文量来看,可以发现对于贵州旅游的研究并不仅仅局限于贵州省内的研究机构,例如四川大学、西南民族大学、中南财经政法大学等。对于贵州旅游的发展高度重视,说明针对民族山地地区的旅游发展研究至关重要,不仅关系到贵州当地相关产业的发展,也为经济产业化、扶贫、减贫研究提供了研究的案例。
对学术论文的期刊分布进行分析可以了解该领域主要受到哪些学科、地域以及作者的关注。统计贵州旅游研究领域的文献产出核心期刊群,可以便于学者选择资料获取平台与文章发表途径[5]。由于在实际统计中存在大量论文数量排名并列的期刊,此处将采用布拉德福期刊区域划分规则来确定贵州旅游研究领域核心期刊发文量。经统计主要期刊发文量如表2所示。
表2 主要期刊发文量
本研究领域的304篇有效文献分布在99种期刊中,其中《贵州民族研究》和《贵州社会科学》分别以81篇和39篇的文献产出量占据文献产出的绝对核心区,两者共占总发文量的39.47%,是贵州旅游研究领域发文与交流最为核心的期刊。从论文发表数量来看,主要期刊位于贵州、安徽、北京、四川、福建等地区,说明贵州旅游研究在全国范围内都受到了广泛的关注。总体而言,所筛选的期刊主要集中于经济学、社会学、管理学、民族学等学科领域,这表明贵州旅游研究不仅仅是管理学领域的研究热点,也是社会学、经济学、民族学等诸多领域的重要研究方向。
关键词是论文和期刊中的重要组成部分,通常伴随着论文摘要出现,文献计量领域可以通过关键词的出现频率来把握论文的主题、内容、对象、方法等。通过某一领域的关键词,可以把握该领域的研究方向与研究热点[6]。本节通过Excel 2019进行统计,共获取关键词764个。再用Python进行数据预处理,对所有相同关键词进行合并处理,如关键词“贵州省”与“贵州”就是明显的意义重复词语,将其出现频次进行合并处理。剔除无意义和无效的关键词,最后从304篇有效文献中共获取关键词749个。此处将使用普赖斯公式来界定高频关键词,该公式最早用于确定高被引论文,进而确定某研究领域内的核心作者。因该方法相较于高低词频界定公式更简单,比自定义法更科学,逐渐被学者接受用于不同研究领域中[7]。
此处采用普赖斯公式计算高频词阈值[8],公式如下:
式(1)中,Nmax为最大发文量的发文数,计算得出高频词阈值M约为6,即取关键词词频大于等于6的为高频关键词,共计20个,如表3所示。
表3 高频关键词词频
由表3可以看出在贵州旅游的研究过程中,“贵州”“乡村旅游”“旅游开发”“旅游资源”“民族村寨”“旅游扶贫”等关键词出现的频次较高且部分关键词含义相类似,说明该领域的学者们对于贵州旅游研究的研究主题、对象、内容等方面存在较大的共识,研究热点与方向呈集中态势,主要集中在贵州本地的少数民族与地貌特色上,说明学者们在发挥贵州特色以及旅游开发上的焦点趋于一致。此外,“生态旅游”“可持续发展”等关键词也相继出现,说明研究者将研究重心放在旅游产业化的同时,也开始将目光转向了环境保护方面等对立面的问题。
共词分析法最早是由Michel Callon等提出的,主要用于分析不同文献之间的内在联系,从而挖掘其中的规律与研究焦点。具体是指当两个关键词经常出现在同一篇文献时,就说明这两个关键词有一定的内在联系,共现次数越多,则两者的内在联系就越密切[9]。关键词是作者对论文主题的高度提炼和概括,能够准确地反映论文内容的核心和精髓,通过高频关键词来考察一个学科领域的研究热点和前沿具备很强的代表性[10]。通过Python将本文选取的20个核心关键词构建出20*20的高频关键词共现矩阵,由于篇幅有限,此处仅列出部分高频关键词,如表4所示。
表4 高频关键词共现矩阵(部分)
为了从更深层次挖掘出贵州旅游研究领域内关键词的内在关系,本节将共词分析法与社会关系网络分析法结合起来,将生成的共现矩阵导入Gephi软件并绘制相应的高频关键词科学知识图谱,如图4所示。从而以可视化的效果梳理出贵州旅游研究领域的研究焦点与基本情况,为下一步的研究引导方向。从图4中可以发现三个存在明显内部关联的网络。第一是以“旅游业”“旅游产业发展”“旅游大省”三个关键词为主题词的紫色主题关系网络,反映出该主题主要聚焦于旅游产业化以及贵州省丰富的旅游资源等相关研究内容。第二是以“旅游总收入”“旅游形象”“多彩贵州”等关键词为主题词的橙色主题关系网络,该网络的研究焦点是针对整个贵州的旅游质量以及独立品牌的研究,反映出整个贵州研究领域在持续关注着贵州旅游产业的口碑以及打造特色品牌工作进程,本文的研究也属于此种类型,旨在通过分析在线用户评论的文本数据来探究游客们对贵州省旅游产业的质量满意程度,进而为贵州旅游研究添砖加瓦,为推动贵州旅游产业的高质量发展贡献一份力量。第三是以“乡村旅游”“乡村旅游发展”等关键词为主题词的绿色主题关系网络,该主题以“乡村振兴”发展战略为基础,深入研究贵州独具特色的民族村寨、乡村风情,但是图中也很直观地反映出,该网络的关键词处于该图谱的边缘地带,且关键词的字体较小,说明绿色网络关键词的聚焦度相比其他两个网络要小,其内在联系与研究文献也都较少。
图4 高频关键词共现图谱
本文介绍了主要的研究技术与方法,如文献计量方法、共词分析技术以及LDA主题挖掘法等。并使用文献计量的方法,详细讲述了爬取中国知网的文献数据、发文量分析、期刊分析、关键词矩阵构建以及高频关键词知识图谱的过程,梳理了贵州旅游研究领域相关的研究重点与线索,发现贵州旅游研究领域的整体研究趋于成熟,研究产出核心团队相对固定,且主要产出作者联系密切,关注度较高,以此为后续的研究提供引导,旨在为贵州旅游研究领域添砖加瓦,为贵州旅游高质量发展贡献一份力量,助力乡村振兴。