杨秀璋
(贵州财经大学信息学院,贵阳550025)
随着科学技术迅速发展,学术成果呈爆炸式增长,基于文献的计量分析可以挖掘出一个研究领域的高影响力期刊和机构,识别出高被引论文的主题、出版社和核心作者;基于知识图谱的分析可以构建文献作者的合作关系,挖掘出核心科研群体,并揭示文献的主题演化趋势。
水族是一个具有悠久历史和古朴文化的民族,繁衍生息于贵州、云南、广西等省份,拥有独特的民族文化、风土人情和语言文字[1],具有重要社会历史文化价值。近年来,学术界和社会媒体掀起了研究水族文化和水书的热潮,1953 年至今,中国知网共收录水族相关文献990 余篇,涉及水族文化、水族体育、水族医学、水族音乐、水书文字等主题。水族文献作为水族文化和知识交流的重要载体,是水族相关的学术研究团队或科研工作者贡献的重大成果。这些学术成果将有效地推动水族学科和领域的发展,为进一步追踪水族源流、研究水族文化变迁、保护和传承水族文化提供相关启示。
传统的学术成果研究方法是基于文献计量学和科学计量学的方法,分析内容包括文献的主题、地域分布、机构分布、核心作者、引文特点等。姜春林通过文献计量历时法对《科学学研究》做出全面的计量分析[2]。梁永霞等基于CSSCI 的中国引文分析进行了可视化研究,展现引文分析领域的知识结构关系[3]。黄晓斌等统计分析我国情报学高被引论文,展示情报学的发展历程和学科主题[4]。蔡文伯等通过计量分析方法研究我国民族教育文献态势[5]。王宗水等基于1998-2014 年中国社会科学引文数据分析社会网络范式的演化、发展与应用[6]。徐庶睿等利用引文内容进行主题级学科交叉类型分析[7]。近年来,国内外学者致力于通过数据分析与机器学习技术来研究学术文献,基于社交网络和知识图谱的引文分析技术也被用来辅助科研工作者和管理者把握学科发展脉络,挖掘主题关键词和核心作者。罗双玲等提出了基于半积累引文网络社区发现的学科领域主题演化分析方法,并应用于“合作演化”领域[8]。马文博等通过文献计量方法和知识图谱分析《经济研究》近十年载文[9]。任晓松等归纳研究中国碳排放热点演化与知识图谱分析[10]。
当前水族领域的研究更多的是采用传统的查阅资料、现场考察及问卷调查等方法分析水族文化、历史、习俗、水书内容,没有采用计量分析方法和知识图谱来研究水族文献,缺乏对水族文化深层次的主题演化和科研群体发现的研究。针对这些不足,本文提出了一种基于计量分析和知识图谱的水族文献分析方法,一方面统计分析水族文献的高影响力期刊、报纸及机构的基本情况,挖掘水族领域高被引论文、发文热点时间及核心作者;另一方面通过知识图谱构建水族领域核心科研群体及作者间的合作关系,并揭示出水族文献的主题演化趋势。本文的研究成果具有重要的理论意义和实用价值,对传承与弘扬水族传统文化具有重要意义,为水族文化的研究和进一步发展提供相关启示,为后续的水族引文分析、水族迁徙研究和水族文化传承提供有效支撑。
当前科研成果的分析研究已经引起了社会和学术界的广泛关注和重视,所涉及的领域包括引文分析、论文自动分类、主题挖掘、学术成果测度、论文知识图谱构建等。本文主要是关于水族文献的计量分析和知识图谱研究,算法的总体流程如图1 所示。
图1 水族文献计量分析和知识图谱研究流程图
(1)调用Python、Selenium 和XPath 技术自动抓取中国知网水族领域的文献共990 篇。
(2)对所抓取的论文信息进行数据预处理,包括数据清洗、数值提取、中文分词、停用词过滤等处理,这是数据分析的重要处理环节。
(3)将预处理之后的文本数据转换为特征词矩阵,涉及特征提取和权重计算。
(4)通过计量分析和知识图谱方法研究水族文献,包括水族高影响力论文、知识图谱挖掘核心作者及科研群体、水族文献主题挖掘及演化趋势等。
本文数据集采用Python 自定义爬虫抓取中国知网CNKI 水族领域相关的学术成果信息,包括1953-2018年共收录的990 篇水族领域的学术文献,其中学术期刊论文662 篇,会议论文106 篇,博士论文7 篇,硕士论文91 篇,中国专利5 篇,科技成果3 个,报纸116篇,详细信息如表1 所示。所抓取的水族文献共包括九个字段,如图2 所示,包括文章标题、出版社、文献类型、出版年份、下载次数、引用次数、作者、摘要和关键词。
表1 中国知网水族领域的学术成果汇总表
图2 水族文献数据集部分数据
在进行数据分析之前,通常需要对所爬取的信息进行预处理操作,包括缺失值填充、异常值处理、数据清洗、中文分词、停用词过滤等步骤,其目标是为了得到高标准、高质量的数据,从而提升分析的结果。接着从六个方面分析水族文献,包括水族文献的高影响力期刊报纸及机构计量分析、高被引水族论文计量分析、水族文献的时间跨度分析、高引论文的核心作者分析、核心作者知识图谱分析及科研群体发现、水族文献主题挖掘及演化趋势。
本文将分析水族文献的高影响力期刊、报纸及机构,所采用的指标是刊载成果数量、总引用数量、总下载数量、篇均引用数量和篇均下载数量。
(1)引文期刊分析
对水族学术期刊论文的计量分析,可以从宏观层面揭示出刊载期刊及研究群体的力量分布情况,也在一定程度上挖掘出高影响力的期刊,它们对水族文化研究做出了重要的贡献。表2 列出了刊载水族论文六篇及以上的所有期刊,其中《黔南民族师范学院学报》刊载论文数量最多,共刊载45 次;《贵州民族研究》总引用次数最多,42 篇论文共被引用203 次;《人类学学报》篇均引用数量最高,刊载10 篇论文,平均每篇论文被引用16.40 次。
表2 刊载六篇及以上水族论文的期刊
(2)引文机构分析
引文机构分析主要研究来自全国各大高校、各类研究所和图书馆等机构的水族文献。本文根据毕业论文的第一单位进行统计分析,得出了如表3 所示的计量分析结果。发表水族领域相关论文两篇及以上的机构共16 个,其中刊载水族论文数量排名前三位的分别是:贵州民族大学(共刊载16 篇)、贵州师范大学(共刊载8 篇)、贵州大学(共刊载8 篇);论文被引用最多的四个机构是:贵州民族大学(共被引用32 次)、贵州师范大学(共被引用24 次)、云南大学(共被引用19 次)、昆明理工大学(共被引用19 次);论文被下载最多的三个机构是:云南大学(共被下载4193 次)、贵州民族大学(共被下载3715 次)、中央民族大学(共被下载2793次)。
该结果表明大学是水族领域研究机构的中坚力量,这些大学主要分布于贵州、云南、广西等省份,这些省份也是水族的聚居区;同时民族类和师范类大学也对水族文化有重要的贡献,如贵州民族大学、中央民族大学、华东师范大学、广西民族大学等。
表3 刊载水族论文两篇及以上的机构
(3)引文报纸分析
报纸作为学术成果的组成部分,同样对水族文化和水族传承具有一定的贡献,它能让社会大众接触到水族文化内涵、水书艺术和迁徙漂泊的历史。
图3 是报道水族领域相关的报纸计量分析结果图,横坐标为报纸的名称,纵坐标从上至下依次为成果总数、下载总数和被引用总数。其中《贵州民族报》报道的水族领域文章数量、下载次数和被引用次数都是最多,分别为发表45 篇、被下载633 次和被引用2 次;接下来是《黔南日报》报道了20 篇,《贵州日报》报道了19 篇,《中国民族报》报道了9 篇。
图3 各类报纸关于水族领域文献的计量分析图
论文被引用频次越高,说明论文的学术价值越高。本文研究的990 篇水族学术成果共被引用2124次,平均每篇学术成果被引用2.15 次。被引用次数最多的文献类型是学术期刊和硕士/博士论文,其中学术期刊662 篇共被引用了1869 次,硕士/博士论文98 篇共被引用了242 次,二者共占总被引用次数的99.4%。
表4 是被引频次前10 位的学术论文,全部10 篇高引论文的被引频次都是20 次以上,是所有水族文献篇均被引用次数(2.15 次)的10 倍。其中被引频次最高的论文是李培春等在1994 年发表在《人类学学报》上的“水族的体质特征研究”一文,被引频次为82 次;排名第二的是苏和平所作,2004 年发表在《贵州民族研究》上的“水族审美意识探源”,被引频次为48 次;随后是孙志国等于2011 年发表在《贵州民族学院学报(哲学社会科学版)》上的“水族非物质文化遗产保护的探讨”,顾晓艳等于2006 年发表在《中国体育科技》上的“传统体育文化在水族山寨中的生存状态——水族‘端节’赛马活动的变迁”,两者被引频次均为38 次。
表5 是被引频次前10 位的硕士/博士毕业论文,这10 篇高引论文总计被引120 次,平均每篇论文的被引频次为12 次。其中被引频次前三位的分别是:陕西师范大学陈永娥的“黔南本土文化语文校本课程资源开发的研究”,被引用23 次;云南大学尤伟琼的“云南民族识别研究”,被引用18 次;上海师范大学韦学纯的“水语描写研究”,被引用14 次。这10 篇论文主要分布于民族类、师范类、人文社科专业较强以及西南水族聚居区所在的高校,一定程度上反映了这类大学对我国民族文化研究的影响程度。
表4 水族领域被引用频次最高的10 篇期刊论文
表5 水族领域被引用频次最高的10 篇期硕士/博士论文
时间跨度分析展示了学术成果的扩散过程,有效地反映出水族领域的研究进程及主题演化趋势。图4是所有水族相关学术成果的年度分布图,最早一篇论文发表在1953 年,是凌慰民老师发表在《中国金融》的“少数民族地区的农贷工作不能违反民族政策”,作者深入彝、水、苗、侗等族聚居的农村,研究贷放工作与民族政策的关联;第二篇论文是12 年之后,发表在《中国民族》的“水族人民破旧立新过‘端节’”,接着是1979年王连和老师的文章“西南地区少数民族天象历法调查报告”。1991 年是水族论文量产的一年,共发表了32 篇;2004 年至2017 年水族领域的学术成果越来越多,其中2016 年发表的81 篇学术成果为历史最高。
表6 是水族文献2001 年至2017 年被引用次数的分布情况。从表中可以看出,2001 年至2017 年被引用过的水族文献共397 篇,占总水族文献数量的40.1%,被引用文献的总频次为1748 次。其中被引用10 次及以上的文献共45 篇,被引用5 至9 次的文献共64 篇,被引用2 至4 次的文献共151 篇,仅被引用1 次的文献共137 篇。同时,2012 年被引用过的水族文献最高,共45 篇;2006 年被引用的总频次最高,为277 次,其中10篇文章被引用频次10 次以上,为高被引论文;2004 年单篇均被引用频次最高,平均每篇论文被引用10.69 次。
图4 水族文献1953-2018年的学术成果数量分布图
表6 水族文献2001-2017 年被引用次数分布表
水族领域的核心作者是对水族研究发展具有较大贡献的科研工作者,同时也是期刊学术影响力、竞争力的重要贡献者,他们影响着水族文化的繁衍与发展。本文主要采用发文量、被引频次、篇均被引频次三个指标评估核心作者。该方法从论文的量和质两方面来确定核心作者,表7 水族文献核心作者统计表,共包括了40 位核心作者。其中余跃生发表了水族相关的文章23 篇,被引频次为174 次,篇均被引频次为7.57 次;顾晓艳发表了水族文献16 篇,被引频次为176 次,篇均被引频次11 次;赵凌发表了水族领域的论文14 篇,被引频次为25 次,篇均被引频次1.79 次。
表7 水族文献高被引用频次的核心作者
知识图谱分析主要是对1953-2018 年刊发在中国知网的所有水族文献作者之间的关系进行分析,挖掘出水族科研核心作者以及对水族文化作出重要贡献的科研群体。其步骤如下:
(1)首先计算水族学术成果作者的共现矩阵,当两名作者合作完成一篇学术成果时,则认为共现并构建一条相关联的边,否则没有。
(2)接着采用Gephi 构建核心作者的知识图谱如图5 所示,图中圆圈代表发文作者,圆圈越大发文量越多,反之越少;连线代表作者间的共现关系。
图5 所对应的关系图谱共构建了497 个核心作者和1095 条关系,它将经常合作的科研群体聚集在一起,形成了以余跃生、顾晓艳、赵凌、潘朝霖、何燕、吴昌学、刘世彬、单可人等学者为核心的学术研究团体。同时,图5 过滤了关系较为简单的群体,例如硕士论文或博士论文中学生与导师的关系,这些两两关系对水族文献群体发现贡献较少。
图5 水族文献发文作者共现知识图谱
图6 是通过知识图谱分析发现的水族文献核心科研群体,这些科研群体对应核心成员、科研主体机构及单位、主要研究方向和代表学术成果如表8 所示。其中以余跃生为首的团队以水族基因、水族医学、遗传学方向为主;以顾晓艳和王亚琼为首的团队主要研究水族体育、水族文化传承;以何燕为首的团队研究方向是水族医学、水族基因、心血管疾病;以赵凌为首的团队主要研究水族音乐和水族乐器;以潘朝霖老师为首的团队主要研究水书、水族图腾、水族祝词;以张振江为首的团队以水族村落、水族祖灵和民族语言为主。这些团队主要来自于黔南民族医学高等专科学校、黔南民族师范学院、贵阳医学院、黔南民族师范学院、贵州民族大学、中山大学等机构。
本文采用LDA 模型对水族文献主题进行深层次挖掘,得到了水族文献五大主题对应的关键词,如表9所示。其中,水族文化主题是关于水族民俗、文化变迁、农耕文化、水族图腾、水书文字、特色旅游的文献。水族体育主要以传统民族活动为主,典型的包括水族舞蹈、赛马、吞口舞、水族武术、棋类活动等。水族音乐是用于祭祀、节庆、丧葬仪式的少数民族音乐,在水族传统的卯节、端节、敬霞节通过乐器铜鼓、大皮鼓演奏古歌、酒歌等。水族医学是针对水族聚居群体的研究,具有代表性的包括水族本土人群的遗传性状、基因频率、血型、民族族源、地中海贫血等研究。水书主要用来记载水族民俗、天文、地理、文化、婚丧嫁娶等信息,于2006 年被列为国家级非物质文化遗产。但是很多水族文献显示了这些特有的传统水族文化有逐步消退的趋势,保护水族文化刻不容缓。
图6 水族文献核心科研群体
表8 水族文献核心科研群体表
图7 展示了1953 年以来水族文献的主题演化趋势,包括1953-1995 年、1996-2000 年、2001-2005 年、2006-2010 年、2011-2015 年、2016-2018 年中不同年份的水族文献所研究的热点主题关键词。从图7 可以发现,1953-1995 年主要研究水族基因、遗传医学、水书等主题;1996-2000 年主要研究水族文化、服饰、传统节日等主题;2001-2005 年主要研究水族文化、水族医药、民族旅游等主题;2006-2010 年主要研究水族文化、水书、水族体育等主题;2011-2015 年主要研究水族文化、水族传承、贵州发展等主题;2016-2018 年主要研究水族文化、民俗保护、水族体育、水书和医学等主题。
表9 LDA 模型识别水族文献主题关键词
图7 水族文献不同年份的主题关键词演化趋势
本文采用计量分析方法和知识图谱方法研究中国知网的水族文献,涉及1953-2018 年共990 篇水族领域的学术成果。研究成果如下:
(1)通过对水族文献的高影响力期刊、报纸及机构计量分析发现:①民族类和人文社科类的期刊对水族文化研究做出了重要的贡献,如《黔南民族师范学院学报》《贵州民族研究》《人类学学报》等。②大学是水族领域研究机构的中坚力量,这些大学主要分布于贵州、云南、广西等省份,这些省份也是水族的聚居区;同时民族类和师范类大学也对水族文化有重要的贡献,如贵州民族大学、中央民族大学、华东师范大学等。③报纸是学术成果的重要组成部分,对水族文化和水族传承具有一定的贡献,它能让社会大众接触到水族文化内涵、水书艺术和迁徙漂泊的历史,具有代表性的包括《贵州民族报》《黔南日报》《中国民族报》。
(2)高被引论文期刊和机构主要分布于民族类、师范类、人文社科专业较强以及西南水族聚居区所在的高校。被引频次前10 位的学术论文的被引频次都是20次以上,是所有水族文献篇均被引用次数(2.15 次)的10倍,这些作者是水族文化研究的核心力量,这一定程度上反映出高校对我国民族文化研究的影响程度。
(3)通过水族文献时间跨度分析展示了水族文献研究的进程和不同年份的文献分布情况。最早一篇论文发表在1953 年,是凌慰民老师发表在《中国金融》的“少数民族地区的农贷工作不能违反民族政策”。被引用10次及以上的文献共45 篇,被引用5 至9 次的文献共64篇,被引用2 至4 次的文献共151 篇,仅被引用1 次的文献共137 篇。2012 年被引用过的水族文献最高,共45 篇;2006 年被引用的总频次最高,为277 次,其中10篇文章被引用频次10 次以上,为高被引论文;2004 年单篇均被引用频次最高,平均每篇论文被引用10.69 次。
(4)高引论文的核心作者分析采用发文量、被引频次、篇均被引频次三个指标评估核心作者,并挖掘出40位核心作者,其中余跃生发表了水族相关的文章23篇,被引频次为174 次,篇均被引频次为7.57 次;顾晓艳发表了水族文献16 篇,被引频次为176 次,篇均被引频次11 次;赵凌发表了水族领域的论文14 篇,被引频次为25 次,篇均被引频次1.79 次。
(5)通过知识图谱构建了水族文献作者之间的合作关系,挖掘出水族文献的核心科研群体,形成了以余跃生、顾晓艳、赵凌、潘朝霖、何燕、吴昌学、刘世彬、单可人等学者为核心的学术研究团体。其中以余跃生为首的团队以水族基因、水族医学、遗传学方向为主;以顾晓艳和王亚琼为首的团队主要研究水族体育、水族文化传承;以何燕为首的团队研究方向是水族医学、水族基因、心血管疾病;以赵凌为首的团队主要研究水族音乐和水族乐器;以潘朝霖老师为首的团队主要研究水书、水族图腾、水族祝词;以张振江为首的团队以水族村落、水族祖灵和民族语言为主。这些团队主要来自于黔南民族医学高等专科学校、黔南民族师范学院、贵阳医学院、黔南民族师范学院、贵州民族大学、中山大学等机构。
(6)通过LDA 模型识别出水族文献的五大主题(水族文化、水族体育、水族音乐、水族医学和水书文字)及关键词,并采用词云展示了1953 年以来水族文献的主题演化趋势,包括1953-1995 年、1996-2000 年、2001-2005 年、2006-2010 年、2011-2015 年、2016-2018 年中不同年份的水族文献所研究的热点主题关键词。
总之,本文的研究成果具有重要的理论意义和实用价值。该结果展示了我国水族文献的发展历程、高引论文、核心科研群体的研究热点,指出了水族领域高被引论文的主要特征及影响,识别出水族文化、体育、音乐、医学和水书五大主题的关键词及历年的主题演化趋势,对传承与弘扬水族传统文化具有重要意义,为水族文化的研究和进一步发展提供相关启示,为后续的水族引文分析、水族迁徙研究和水族文化传承提供有效支撑。