徐汉青,王思茗,孙熊兰,滕广青(东北师范大学信息科学与技术学院)
随着科学技术的进步,各种科技文献数量与日俱增,科研工作者面临的文献资源筛选困难的难题更加突出。图书馆如何在海量科技文献中识别科学研究主题及其演变模式、实现有效的知识组织,成为学术界共同关注的重点。目前,通过引文网络分析[1]和共词网络分析等方法,帮助人们快速从海量科技文献中提取出具有代表性的文献以及知识概念,并采用聚类分析等方法识别领域知识主题的研究成果已经屡见不鲜。然而,传统主题聚类主要从静态知识组织分析的角度出发,已无法适应知识快速发展演化的当今科技环境。本研究将复杂网络分析方法(Complex Network Analysis,CNA)[2]融入关键词知识网络,基于社群发现算法和关联频度提取层次知识群落,结合时间序列因素,对知识群落在文献资源动态主题聚类中的有效性进行研究。
在图书情报学领域,对于知识主题的探测主要通过两种途径。其一是在宏观层面上将领域知识划分为远近有别的层级,这种层级思想在杜威十进制分类法(DDC) 和主题词表中均有体现;另一种则是根据不同的聚类算法将领域知识划分为不同的知识群落。X.Qin 等以“Corporate social responsibility”为检索词提取WoS 数据库词间关系,其研究工作将关键词知识网络分为核心层、中间层以及边缘层,以三个层级当中的关键词作为该领域的研究热点和前沿。[3]L.Xiao 等以CJFTD 为基础数据来源,根据知识节点之间的聚类系数和密度的不同,采用社会网络分析当中的k-core 分解方法,将关键词网络划分为4 个不同的层级(基础层、中间层、细节层、边缘层),并据此呈现知识节点分布状况和捕捉领域知识中不同的研究主题。[4]
综上所述,基于知识群落发现和识别领域知识主题聚类已经得到学术界的普遍认可。然而,在图书馆知识组织与服务的实践中,繁杂的参考信息和推荐信息会一定程度上增加读者的认知负担。因此,如何在海量数据中以更高效简洁的方法提取知识主题同时兼顾科学知识发展的动态变迁,成为图书馆知识组织与服务工作需要解决的现实问题。
近年来,学术界在领域知识发展的相关研究中开始注重知识之间的结构关系。如,在图书情报学界,学者们在知识网络的宏观结构层面发现了小世界(Small World)网络以及无标度(Scale Free)网络的特征,[10]在微观结构层面则发现了知识网络当中的模体(Motif)演化特征。[11]而知识群落则是介于宏观结构与微观结构之间的网络结构,知识群落在时间序列上的演化变迁,为揭示领域知识主题的演化进程、潜在模式以及对于新兴主题的探测具有至关重要的意义。
在图书情报学领域,对于某一知识领域的研究主题识别和发现研究中,传统的文献计量学方法是:齐普夫第二定律选取法、普赖斯公式选取法、自选取方法等,确定高频关键词与低频关键词的选定界限,根据所选定的高频知识节点之间的关联关系采用相似性算法以及相关聚类方法,最终凝聚若干个知识群落用于探测领域研究主题。这种静态的分析方法对知识主题的动态变化具有一定的局限性,也无法检测新诞生的、规模较小的潜力主题。基于高频词的聚类分析,容易导致一些重要知识概念以及知识关联关系的遗失。如,知识网络当中的结构洞(Structural Holes) 知识节点,尽管往往频次较低,但是在领域知识中起到非常重要的桥接作用。依靠知识概念的出现频次无法获取不同知识之间的结构关系,甚至会掩盖领域知识中知识关联和结构的一些重要信息,无法准确跟踪和掌握相关知识领域的核心主题及其发展变迁。
2004 年,M. E. J. Newman 等提出了测量网络社群聚类程度的模块度算法,[12]该方法对关联程度不同的网络节点进行有效聚类进而划分群落,并将该方法扩展至加权网络。在此基础上,V. D. Blondel 等对该方法加以改进,动态考察海量数据背景下群落节点的流入流出以及节点间关联关系的改变,学术界称为Louvain 算法,[13]具体如公式(1)所示。
研究工作将采用Louvain 算法识别领域知识群落,并以其表征文献资源的主题聚类。课题组在之前的研究工作中发现,即使通过社群发现算法将领域知识划分成不同的知识群落,但是在领域知识演化生长过程中会充斥着大量频度仅为1 次的关系。此类结构关系中难免带有一定程度的偶然性或随机性,不利于领域知识主题聚类与主题演化分析。为了排除这种偶然性或随机性,研究工作基于关联频度提取一定阈值水平之上的知识群落,将低频度的关联关系剔除,使知识群落更加紧密和更具有代表性,从而探测和验证知识群落在文献资源主题聚类中的有效性。
研究工作以中国知网(CNKI)文献数据库为基础数据来源,以“Folksonomy OR 社会化标注OR 社会标注OR 大众分类”为检索式进行高级检索。期刊级别锁定为CSSCI,检索时间跨度从2002-2018 年,累计获取相关文献194 篇,关键词数量369 个,关键词关联关系1,019 对。具体数据如表1 所示。
在表1 中,以自然年份为时间刻度,从2002 年至2018 年划分为t1-t17 共17 个时间窗口,统计出历年时间窗口下文献、关键词、关键词关联关系的累计值以及单年增长量,通过累计值可以初步了解该领域知识整体生长演化的趋势。通过单年增长量则可以观察该知识领域中相邻时间窗口的增长情况。以关键词为节点,以关键词关联关系为连线构建时间序列领域知识网络。结合表1 中的数据发现,t1-t17 时间区间内,除t1-t3 时段外,文献、关键词、关键词关联关系数量随着时间轴的延展一直处于增长状态。这一现象验证了知识网络具有许多真实复杂网络共同具有的生长特性。[14]由于t1-t3 时间窗口领域知识无生长变化,下文的相关研究中将把该时间段合并进行测算。需要说明的是,研究中构建的领域知识网络以关键词之间的关联关系频度作为连线权重,所构建的知识网络为无向加权网络。
表1 文献及相关数据
领域知识网络的构建主要以知识单元和知识关联关系为基础,其中知识单元构成网络的节点,知识关联关系则以节点之间的连线表示。如果两个知识单元之间存在高频度关联,则视为这一知识领域中重要的知识关联。研究工作首先对时间序列知识网络的关联频度进行统计分析,统计结果如表2 所示。
按照 GB/T 16291.1—2012中的方法选拔和培训评价员[19]。根据200名西南大学本科生的兴趣动机、健康状况、表达能力及可用性等情况,筛选出60人在感官分析实验室进行感官灵敏度、感官能力和描述能力的测试。对选出的20人进行50 h的感官描述性分析培训,培训内容包括感官分析基础知识的讲解、长期感官记忆的训练、感官描述词语义及标度的学习等。由5名考核合格的评价员组成怪味胡豆的感官描述分析小组[20] 。
表2 时间序列知识关联频度分布
表2 中的数据表明,在时间序列知识网络中,关联频度最高为8 次,最低为1 次。随着领域知识的发展生长,不同频度的关联关系关数量一直在发生变化。其中,频度为1 的知识关联关系数量增长幅度较大,关联频度大于等于2 的知识关联关系增长缓慢,这说明在领域知识网络的生长演化过程中,网络中核心的知识关联关系(高频度关联关系)趋于相对稳定状态。以关联频度F=2 为分界线可以明显地观察出知识网络演化过程核心知识关联的发展过程。同时,表2 中的数据还表明,关联频度数值越大,其占有的比重就越小,符合领域知识关联频度分布呈现幂律(Power Law)分布的知识网络特征。[15]因此,研究工作基于关联频度对知识网络进行提取层次知识群落,能够有效保证领域知识中结构关系的代表性与显著性,也使得网络中重要的主题聚类得以凸显。
研究中采用Louvain 算法对所构建的时间序列知识网络进行聚类,对网络中潜在的知识群落进行识别(见表3)。该算法能够兼顾网络节点以及节点之间的关联频度的改变,结合时间序列分析,可以有效地探测出领域知识网络中知识群落及其演进状况。
表3 时间序列原始知识群落演化数据
由表3 可见,原始知识群落数量的变化趋势与网络节点数量以及关联关系数量的增加情况并非完全一致。关键词数量或关联关系的增加并不意味着知识群落数量一定增加。现实工作中,参与主题聚类的文献数量越多,对领域知识主题的解析也就越复杂。出于减少主题聚类复杂程度的目的,进一步基于关联关系频度对原始知识网络进行提取,通过关联频度阈值提取知识网络中具有代表性和显著性的网络结构,从而提高数据的价值密度。基于关联频度(F=2) 提取的时间序列层次知识群落如表4 所示。
表4 中,通过关联频度阈值水平F=2 进行提取之后,所形成的层次知识群落数量明显降低,节点和关联关系数量也大幅度减少。同时,原始知识网络中一些显著的演化特征被保留。t10-t11、t12-t13、t13-t17时间段中层次知识群落的演化特征与表3 中原始知识群落的演化特征一致。在数据价值密度得以改善的情况下,层次知识群落在演化特征方面与原始知识群落等效,能够有效精简图书馆知识组织与知识推荐的复杂性,从而降低用户的认知负担。研究工作进一步对原始知识群落与所提取的层次知识群落演化细节进行比较分析,并对层次知识群落在文献资源主题聚类中的有效性进行验证。
表4 时间序列层次知识群落演化数据
研究工作在原始知识群落总体演化趋势(参见表3)的基础上,进一步深入分析每个时间窗口中各个原始知识群落的节点属性特征。以知识节点度值为横坐标,以知识节点在群落中的度分布概率为纵坐标建立直角坐标系,得到时间序列原始知识群落中节点的度序列分布情况(见下图)。
图 原始知识群落度序列分布
上图中,相同形状的节点为处于同一个知识群落中的节点。随着领域知识的发展,知识群落数量在总体上呈现增长态势,群落内部知识节点的度序列分布逐渐向近似于幂律分布的长尾状态趋近。即群落内大多数知识节点拥有较低的知识关联关系,少部分知识节点拥有较多的知识关联关系,这一结果与知识网络整体的度序列分布较为近似。结合各个知识群落的规模数据还发现,知识网络的Hub 节点并非存在于节点数量最多的知识群落,纵观全序列中所有时间窗口的知识群落,都体现出这一现象。尽管拥有众多知识关联的Hub 节点能够依据A-L. Barabási 等刊发于《Science》杂志的论文中提出的择优连接(Preferential Connectivity)机制,[14]吸附更多的知识关联关系,但针对知识群落的分析数据却表明Hub 知识节点并不具备良好的成团优势。这一现象表明在知识群落层面上,如果以单纯以高度值知识节点表征该领域知识主题,一些低频关联的知识也将在主题聚类中凸显。
此外,研究中还发现全时间序列中,始终存在个别知识群落规模在时间序列上没有发生变化的现象,这一结果意味着领域知识网络中存在若干完全不生长的知识群落。静止与生长的差异在以往的静态分析中通常被忽略,即使在以往大多数全网层面的动态分析中也难以体现,研究工作基于这一现象将知识群落分为两种类型:静止型知识群落和生长型知识群落。静止型知识群落意味着在知识发展进程中主题稳定不发生变化;而生长型知识群落则意味着主题演化变迁,是动态分析需要关注的重点。在筛选剔除上述完全不生长的知识群落后,原始知识网络中生长型知识群落数量如表5所示。
表5 中,剔除完全不生长的静止型知识群落之后,网络中的知识群落数量有所减少,同时发现,t12 时间窗口仍然是群落数量比较突出的时间窗口。研究工作进一步以F=2 为关联频度阈值提取层次知识群落,力求以更少量的知识节点表征知识主题,以降低知识组织与服务实践中用户的认知负担。
表5 知识群落数量对比
研究中发现,由于关联频度阈值F=2 剔除了大量频度较低的知识关联关系,一些在原始知识网络中表现突出的高度值节点的度值优势被压缩,而一些原本在知识网络中度值较低却拥有高频关联的知识节点被凸显出来。而且知识群落内部同样表现出较强的异配性。层次知识群落在弱化长尾分布的同时,知识节点之间强关系的作用得以浮现,K. Popper 当年对于知识关联关系重要性的论断得以体现。[16]
层次知识群落相比原始知识群落,在精简了大量知识节点的同时,彰显了知识节点之间强关系的作用。为了验证提取后的层次知识群落在主题聚类中的有效性,这部分研究从两个角度进行比较分析:一是检测层次知识群落表征的主题聚类包含的高度值知识节点(通常视为核心知识节点)占原始知识网络中高度值节点数量的比重;二是层次知识群落表征的主题聚类中的知识节点是否能够有效关联原始知识网络中的生长型知识群落(反映领域知识的生长性)。研究工作首先对主题聚类实际节点数量和群落中高度值的节点数量进行测算,即主题聚类包含的N 个节点中有多少个节点的度值排在原始知识网络的前N 位。测算结果如表6 所示。
表6 主题聚类中高度值节点数量
由表6 可见,t1-t5 时间窗口由于数据稀疏性的原因,以层次知识群落表征的主题聚类中仅有的2 个节点并非高度值的节点。在其后的时间窗口中,主题聚类的知识节点涵盖高度值节点的比率始终保持在65.5%以上。以t17 时间窗口为例,该时刻主题聚类共包含53 个知识节点,其中41 个知识节点在原始知识网络中的度值排名在前53 位。另一方面,通过对主题聚类包含的节点数与原始知识网络节点总数的对比可知,各个时间窗口主题聚类的节点数量在原始知识网络节点总数中占比<18.2%,即层次知识群落表征的主题聚类以低于18.2%的节点数量囊括了高达65.5%的高度值知识节点,数据的价值密度得到有效的改善。考虑到生长型知识群落在演化进程中的重要性,进一步对层次知识群落表征的主题聚类中的知识节点对原始知识网络中生长型群落的关联情况进行测算(见表7)。
表7 主题聚类对生长型群落的关联
表7 中,领域知识演化初期,主题聚类中的节点没能很好地关联到原始知识网络中所有的生长型知识群落。随着领域知识的发展,主题聚类与越来越多的生长型知识群落建立有效关联。从t13 时间窗口开始,主题聚类中的知识节点与原始知识网络中所有生长型知识群落建立了有效关联,这意味着建基于高频关联关系和少量知识节点的层次知识群落,在承载知识网络演化特征的同时,能够表征原始知识网络中全部具备成长性的主题聚类。
研究工作基于复杂网络的理论方法融合时间序列因素,对特定领域的相关文献及文献当中的关键词、关键词关联关系进行抓取;以自然年份为时间刻度,构建时间序列领域知识网络;采用社群发现算法识别网络中的知识群落,并基于关联频度提取层次知识群落;对知识群落展开时间序列动态分析,并对知识群落在图书馆动态主题聚类方面的有效性进行了验证。基于上述分析过程和结果,初步可以得出以下结论。
(1) 层次知识群落能够凸现知识之间的强关系。研究结果表明,基于关联频度提取的层次知识群落剔除了大量低频度的知识关联关系,使得知识网络中度值较低却拥有高频关联的知识节点凸显出来。高频关联代表着知识之间的强关联关系,基于大量文献产生的高频度同现关系,也意味着这类关联关系得到学术界的普遍认可。建基于高频关联的层次知识群落相比单纯依靠关联数量组成的群落可以获得更高质量的主题聚类,也更能够体现J. Gleick 在《信息简史》中强调的知识连通的重要性。[17]
(2)层次知识群落能够有效表征文献资源动态主题聚类。研究中的实验数据表明,层次知识群落仅需要领域中少量的知识节点(<18.2%)就涵盖了领域中大量的核心知识内容(>65.5%),能够有效提高知识网络动态分析中数据的价值密度。同时,剔除了大量节点的层次知识群落能够与原始生长型知识群落建立有效的关联,并且随着领域知识的发展,达到与全部生长型知识群落建立关联的稳定状态。保持和呈现领域知识的生长特性,为基于层次知识群落探测知识主题的动态演化分析提供了有力的支撑与可行的途径。
研究工作基于知识关联频度提取层次知识群落,极大地简化了原有的知识网络规模,并且凸显了原始网络中所有生长型知识群落和高频知识关联,有助于在海量的文献资源中,快速精准定位知识领域当中的核心知识族群和具有潜力的知识簇。但同时研究工作也存在局限性,固定阈值在知识群落的动态演化分析中尚不能很好地揭示知识衰退问题。未来的研究中,将采用更加灵活的动态阈值提取方法,进一步保障和提升知识群落在文献资源主题聚类中的有效性。