王 京,周园春
(中国科学院 计算机网络信息中心,北京 100190)
如何从大数据角度对研究对象的历史脉络进行梳理,描绘出覆盖全领域的学术知识图谱,并围绕这一主题展开研究趋势预测,成了摆在研究者面前的重要命题。本文主要借用数据分析的CiteSpace软件,对特定时空内的女娲研究作出学术史分期及知识图谱分析。CiteSpace作为一款基于Java运行环境的文献计量分析和可视化软件,主要基于共引分析(cocitation)理论和寻径网络算法(pathfinder network scaling,PF-NET)等,对特定领域文献(集合)进行计量,以探寻出学科领域演化的关键路径及知识转折点,通过一系列可视化图谱的绘制来形成对学科演化潜在动力机制的分析和学科发展前沿的探测[1]。利用CiteSpace对CSSCI、CNKI等中文科学数据库中的女娲神话文献进行主题领域发现、前沿热点分析和历史演进解读,无疑为本领域研究发展带来新的观察视角。
中国知网中女娲研究数据分析首先要合理进行数据的选择及筛选。运用CiteSpace对女娲研究文献进行计量分析的环节涉及了数据采集、数据处理、导入软件、功能选择、可视化生成图谱和标签提取、图谱解读等几个重要步骤。就本研究而言,文本数据的采集是分析的基础与前提,鉴于绝大多数与女娲研究相关的文献收录于中国知网(CNKI)数据库的现实考虑,故笔者在该数据库以“女娲”为主题关键词进行检索,以所得数据涵盖“CAJD(中国学术期刊全文数据库)”“博硕士学位论文数据库”和“国内外重要会议论文全文数据库”等三个子数据库,共获取2968条文献数据①相关信息的检索时间截至2020年12月31日。。这些文献数据的时间跨度为1962-2020年,以包含作者、发文机构、题名、发表时间、关键词、摘要等信息在内的Refworks格式导出。
对知网采集的文献进行发文量年度趋势分析,可以发现与女娲相关的研究以1962年的《女娲传说史实探源》[2]和《记新疆新发现的绢画伏羲女娲像》[3]为发端,至今已跨越了近60年,发文数量呈不断增长的趋势(见图1)。1962-2000年的发文量一直维持在高位增长状态,2000年之后关于女娲的研究成果实现了明显的数量积累,特别在2008-2017年十年间,随着稽考辨古的不断深入、田野调研的广泛开展、研究方法的持续更新、研究口径的不断拓宽和与其他相关领域的融合发展,女娲相关的研究论文均稳定在每年120篇以上,这一时期总发文量占知网收录全部文献的50.7%,内容关涉神话人物流布与传承、人物身份及族属讨论、人物关系之争和其象征意义及历史文化作用之讨论,并大有向多学科、多领域渗透之势,表现出极强的学术关注度。
图1 1962-2019年“女娲”主题年度文献数量及年度变化量
在运用CiteSpace对上述文献进行具体分析时,考虑到人文社科类在计量分析方面的特殊性,并使得基础数据在“女娲研究”方面更加聚焦,研究首先要对初步搜集的检索数据进行筛选,通过“文献管理中心”平台将纯文学创作类、文学教育类、简讯类和其他明显与研究分析方向偏离的文献进行删选。其中纯文学创作类的文章以抒情和传达作者情感为核心,几乎不涉及分析与特定结论,对研究的指导意义不大,如尹彦慈的《新女娲补天》。简讯类文献指的是刊登在期刊或报刊上的传递特定方面信息的简短文章,这类文章一般以介绍性、汇报性和交流性为主,缺少关键词和摘要,导致分析性和结论性的信息缺失,与研究本身的关联性较小,如李强的《基于Herstory视角下的女性服饰研究——评陶辉的专著〈性别·服饰·伦理〉》和简讯说明类文章等。还有一类文献仅借鉴了“女娲”的名号或概念,以女娲之名,论他山之石,并未涉及女娲研究之根本,所以也排除在本研究的基础数据范畴之外,如包含女娲设计元素的项目说明类文章《素心园》等。此外,有个别文章发表在不同的期刊上,为了尽可能保证数据的唯一性,通过CiteSpace软件的除重功能对重复文献进行剔除,最终得到2236条数据。本研究将以这些数量的文献为基础,重点就学界关注的研究主题、不同时期的研究热点与女娲研究的发展趋势进行探讨。
通过CiteSpace对1962-2020年的女娲研究者数据进行分析。2236篇样本文献共涉及1917名作者,对其进行作者共现分析,可以得到124个节点,10条连线,网络密度为0.0013(见图2)。其中节点大小代表发文数量多少,节点之间的连线表示作者之间存在合作关系,由图2可见女娲研究作者间合作强度较弱,研究者们更偏向于相对独立的研究状态。
图2 1962-2020年女娲研究作者合作分析
对本领域学者的成果展开深入分析发现,发文量在5篇以上的相对高产作者有9位,他们在女娲研究领域拥有相对深刻和全面的见解,一定程度上可反映出本领域关注重点和方向侧重(表1)。
表1 女娲研究领域高产作者发文量及研究内容
关键词是一篇论文主题的高度凝练,论文关键词与论文主题息息相关。论文所包含的关键词信息之间存在着一定的关联性,而这种关联可以用关键词共现的频次来表示。通常情况下,在同一篇文献中出现的次数越多,则代表这两个主题的关系越紧密[4]。共词分析法(或关键词共现)便是通过全部文献中的词汇对或名词短语共同出现的情况,来确定该文献集所代表的研究领域中各主题之间的关系,据此形成共词网络,从而可以直观捕捉到该研究领域中的重点研究主题、研究热点、发展历程和结构演化。
通过CiteSpace的关键词共现分析功能对女娲神话相关论文进行参数和设定并进行图谱分析。将时间区间(Time Slicing)划定在 1962-2020年,时间切片(Tears Per Slice)为 1年,节点类型(Node Types)为关键词(Keyword),选择标准(Selection Criteria)设定为Top N=50,即从每个时间切片中选择最常出现的前50个关键词进行分析,同时采用Pathfinder和Pruning the merged network的修剪方式对图形进行优化,可以得到289个节点和293条连线,网络密度为0.007。我们发现:首先,出现频率最高的前几个关键词分别为女娲、神话、伏羲、《故事新编》、女娲神话、伏羲氏、汉画像石等,前10位的高频关键词中除“汉画像石”之外,其首次出现时间均集中在1992-2002年。该段时间是女娲研究迅速发展的关键时期,研究主题在这段时期内已基本定型,相关论文的数量及研究的深度与广度也有了明显膨胀与扩张。其次,“汉画像石”作为关键词最早出现在1989年的《南阳汉画像石中的神话与美学》[5]中,在此后的15年间该关键词散见于对特定地区的葬俗及墓祠画像石研究[6][7]、汉画特定纹样的神话学阐释[8][9]等研究中,但大多作为考古及美学研究之附会,并没有形成明显的聚焦于女娲本身的研究主流。2004年之后,相关文献大量涌现,有59篇之多。涉及的研究专题更加广泛,主要集中于艺术形式探讨,绘本绘刻内涵研究,女娲与伏羲、西王母等共现人物的关系研究,基于特定汉墓的女娲石刻画像研究和汉代文化研究,等等。同时,以郑州大学和南阳师范学院为代表的中原地区高校和研究机构在本领域的研究成果数量较多,呈现出较为明显的地域聚集效应。第三,中介中心性作为测量节点在网络中重要性的关键指标,可一定程度上揭示研究热点之间的突变或转化关系。具有高中心性的关键词汇在建构女娲研究网络中起到了重要作用,结合时间序列将一定程度上揭示出女娲研究热点的演进规律。从表2所列的各高频关键词的中介中心性可以看出,具有重要影响的节点按照年份的推移在总体上呈现出如下轨迹:
表2 高频关键词及高中心性关键词
1997年(伏羲)→2004年(中国神话)→2005年(文化内涵)→2006年(比较)→2008年(伏羲时代)→2014年(图像)
上述轨迹中,“比较”“伏羲”和“图像”的中心性值位列前三位,分别为 0.54、0.47 和 0.46,表现出极强的热点效应。以与女娲相关的比较研究为例,主要分为以下几个层次:(1)以女娲等为媒介的中外神话比较研究。进行跨文化比较研究的一般前提是将女娲视为始祖神或始母,该类研究专注于探讨中外神话女性形象差异、特定类型的文化传播规律、文化心理乃至历史宏观背景中的文明差异研究,比较常见的地域集中在日本、希腊和泛指的“西方”概念之中。(2)以女娲相关事迹为关联的民族间比较研究。女娲形象广泛流传于多个民族的历史文化体系之中,与之相关的跨民族比较研究成果也非常丰富,如探讨伏羲女娲在汉族和南方少数民族之中的流播,将汉族女娲造人神话与满族三女神造人神话进行比较溯源的研究[10],从川西北羌族地区考察女娲神话踪迹[11]等。(3)女娲与其他女性神性人物之比较研究。如将女娲与妈祖进行神格与价值方面的探讨[12],将女娲与神塔婆进行历史功绩和现实意义等方面的探讨[13],以及通过儒家文化和伦理观念对女娲与伊邪那美命渗透研究,揭示中日两国不同的民族心理和文化内涵[14]等。
在CiteSpace中,某个聚类所包含的突发节点越多,则表示该领域的活跃性越强,也能在一定程度上表示出新兴的研究热点与趋势[15]。对基于女娲研究的关键词频次进行节点突发性探测(Burst detection),可以对其阶段性研究热点和研究方向的跃迁进行考察。探测模型(detection model)的基本参数不变,当γ=0.9时,可以得到女娲研究突现词图(见图3)。
图3 1962-2020年女娲研究突现词
在与女娲相关的近60年的研究历程中,根据不同时期研究对象、研究内容大致可以划分为三个阶段。
第一阶段(1962-1991),女娲研究的蓄势发展期。该阶段前沿问题不突出的主要原因是该时期收录的文献数量较少,无法通过算法进行突现主题的获取,也正是这一客观原因反映出该时期学者对于女娲的关注视角较为分散,特别是随着民族识别与民族政策的不断推进与完善,以及民族民间文化大调查,使得女娲研究在广度和深度上都有了一定的发展。该时期的女娲研究涵盖其作为中华民族始祖的溯源研究、新疆等地出土的考古发现研究、神话与史学的辩证讨论、女娲在文学作品中的形象探析、民族起源比较研究等诸多方面。如侯哲安在《伏羲女娲与我国南方诸民族》[16]一文强调伏羲为三皇五帝人文始祖之一,章俊弟在《中国戏剧中的人神恋神话原型》[17]中围绕中国戏剧中的女神神品与神格展开讨论,贾雪枫等在《我国原始社会的性别图腾》[18]中论证了女娲在自然崇拜和图腾崇拜中的兴衰,等等。上述研究从计量角度来看热点并不聚焦,并没有形成稳定的关注热点,学者们的兴趣点还基本处于流动之中,但究其现实意义,不少在后世形成了重要的研究流派,甚至成为特定时期的研究主流,纵观女娲研究的全生命周期,该时期起到了非常重要的奠基作用。
第二阶段(1992-2002),女娲研究的吸纳融合期。从图3可以看出,该阶段包含的突现关键词有“伏羲氏”“炼五色”“《故事新编》”“伏羲”和“女娲”,其中“炼五色”和“伏羲氏”突现的时间跨度较长,分别为10年和6年,表现出较强的研究热点效应。“炼五色”一词源自“炼五色石以补苍天,断鳌足以立四极”①相关信息的检索时间截至2020年12月31日。,主要刻画了女娲补天的过程。该词不仅出现在民间文学、民俗学的研究领域,更延伸至气象学、地学、环境科学、材料科学、逻辑学等相关专业领域范畴,所涉研究主题囊括臭氧层破坏与修复、古代大地震稽考、新型材料冶炼、二元互补论解读,等等,借“女娲补天”之引申义实现对跨专业领域研究的吸引与聚焦的同时产生了更多符合当下历史时期生产生活语境中的新发展,实现了研究对象的融合和研究范围的拓展。“伏羲”和“伏羲氏”的突现,表明该时期将女娲与伏羲同时进行研究的文献数量明显增多,据统计有62篇,这些研究主题包括两者与婚姻制度的考据、汉墓砖画中二者的形象探究、与伏羲女娲神话相关的信仰研究以及二者的关系研究,等等。相关论述包括田兆元在《论中华民族神话系统的构成及其来源》[19]中提出伏羲女娲属于中原神话的系统;石宗仁在《亦谈伏羲女娲》[20]中认为伏羲女娲与南蛮中的苗、九黎等存在渊源关系;易谋远在《中华民族祖先是彝族祖灵葫芦里的伏羲女娲吗——和刘尧汉先生商讨》[21]一文中反驳了中华民族“文化共祖”是彝族祖灵葫芦里的龙女娲和虎伏羲,并通过民族融合迁移、文化传播等相关论述,而得出中华民族的祖先应为黄帝、炎帝的结论,等等。该时期伏羲和女娲逐渐成了一体化的研究对象,实现了研究领域内的广泛融合。
第三阶段(2003-2020),女娲研究的多元聚焦期。该阶段的研究热点集中在“创世神话”“神话传说”“原型”和“图像”,特别是学术界对创世神话相关研究和图像学方面的探究热情持续时间均在5年以上,该时期研究主题的典型特征是“多元”与“聚焦”辩证共存。所谓多元,指的是该时期内与女娲相关的研究主题在数量上实现了显著的跃迁,在1925篇文献中,文献数量在10篇以上的主题有39个,聚类后涉及女娲神话、伏羲氏、汉画像石、图像学、创世神话、生殖崇拜、遗迹遗俗考据、人物形象分析、文化价值演变、中外神话人物比较、民间信仰探析、神话学、母系氏族社会、非物质文化遗产,等等。学科分布更加广泛,涉及中国文学、宗教、考古、旅游、文化、美术书法、世界文学、历史、地理、中国民族与地方史志、中国语言文学、哲学、社会学等30个学科,形成了百家争鸣的学术繁荣景象。
而所谓“聚焦”,指的是在每一个主题之中,研究在内容和方法论层面的视角更为集中,形成了具有影响力和持续力的小研究领域。以“创世神话”主题为例,与研究相关的文献有84篇,首先,“中国神话”“民族神话”“神话学”“母题”“开辟神话”“与女娲相关的神话人物”等核心议题,众关键词彼此勾连形成紧密而复杂的关系网络,构成了明显的聚集。由此可见“女娲”与“创世神话”之间的互文与关照逐步深入,女娲越来越频繁地出现在创世神话研究和史前文明研究的范畴中,女娲作为中华民族的始祖形象也逐渐得以稳固。其次,以“提坦神”“丢卡利翁”等为核心的词组,该类研究的重点放在了中西方创世神话比较研究和文化价值研究方面,视女娲为东方代表性神话人物之一,具有与西方同等地位女神相比较的必然性。该时期的研究者将女娲神话研究的视野扩展到全亚洲乃至西方文明之中,以女娲研究为媒介,勾连起中西方神话研究的桥梁,在比较文学研究和跨境文化研究方面实现了长足发展。除此之外,聚集性并不显著,在数量和聚集规模上都无法与前面两类主题相比,一方面反映出特定研究方向学者群体的稳定性,另一方面也反映出有限数量的核心主题对全领域研究视线的吸引,也更容易衍生出与之相关的研究热点与创新之处。
从数据方法应用的现实实践而言,在自然科学的许多领域已取得实质性的进展,这主要是基于数据本身的客观、精确与足够多的数量。有研究者提出“大致而言,‘大数据’偏重于‘数据’的管理、加工和检索,‘数字人文’偏重于数据的分析,历史地理信息系统则偏重于用‘空间’来管理、整合和分析数据。且上述三者之间也不是完全可以明确区分的,如历史地理信息系统可以被看成为整合大量数据的一种方式,从而类似于‘大数据’;由于其具有强大的数据分析功能,因此也可以被看成是‘数字人文’的一部分。同时,‘大数据’也囊括了对数据的分析,而‘数字人文’的分析也需要建立在海量数据基础上。”[22]显然,相对自然科学研究而言,人文社会科学数据数量的产出会影响到结论的形成,同时,许多分析对象本身具有明显的主观判断成分,这对聚合成为最终具有客观性的数据造成一定的困难。此外由于研究者研究领域和成果产出的个性差异,也会在一定程度上干扰数据结构与分析结果。尽管如此,当今信息技术已与各个领域的生存与发展紧密联系在一起,大数据分析方法在社会科学中的应用已经显示出巨大的优势。在今后这种研究新方法的学术实践中,需要我们在查找不足中注意和改进如下几个方面的问题。
一是注意和避免数据来源的局限性。通过计量方式对特定领域进行研究时,规范格式的数据输出将起到决定性作用。目前,虽然已有专业研究机构对古籍善本等文献进行了卓有成效的数字化工作,形成了一定规模的电子库,但短时间内难以覆盖所有领域,更有如一些字迹模糊的碑刻拓帖尚仅停留在图片存储形式,大量珍贵的活态神话封存在影像之中,直接导致数据计量分析在溯古方面的断裂。此外,近现代特别是当代研究类成果大量问世,鉴于搜集整理的难度,且涉及版权问题,导致这些纸版书籍的数字化程度低,普及率不高,无法实时响应数据计量分析的需要,无疑成了统筹分析方面的遗憾和缺失。这种情况需要在社科研究的数据处理中得到逐步解决。
二是数据检索策略的不规范性。纵观相关专业的计量分析论文中的数据来源,几乎都锁定在成熟开放数据库上,而在同一数据库中采取不同的检索策略,所得结论也存在差异。数据库的完整程度将直接决定计量分析结果的客观性,为进一步强化分析结果,建议遵循以下途径:一是,若数据库内数据样本数量较小,则需要适当改变检索策略,如增加附加检索词、降低检索词精确度、扩充检索数据库等;二是,若所得分析结论与实际偏差过大,适当加入研究者的经验与判断进行偏校,以增强结论的客观性与科学性。
三是要努力实现数据的完整性。CiteSpace分析的数据是以WoS(Web of Science)数据为基础的,这类数据结构较为完整,通常包括PT(文献类型)、AU(作者)、SO(期刊)、DE(关键词)、AB(摘要)、CI(机构)以及CR(参考文献)等,同时包括数据库本身对论文的分类标引,所以将这些信息导入CiteSpace之后,将会最大化调动软件的分析功能,得到更完整、全面的分析结论。而以CSSCI(中文社会科学引文索引)和CNKI等为代表的中文数据库,其数据完整性较小,特别是CNKI导出的文献数据中不包含参考文献等相关信息,需要借助研究者的经验及判断进行进一步分析,在共引分析方面的表现有所不足,甚至特定情况下需要借助传统研究方法进行补充、互证或反证,才能最终得到客观且具有指导意义的结论与发现。