黄月 王鑫
摘要:[目的/意义]基于文献对某一领域的知识结构进行识别是文献计量分析的一个重要任务,可以揭示该领域的研究特征。[方法/过程]传统知识结构识别是二步式的,即首先基于某种分析思想构建同种元素间的关联程度矩阵,然后再对该矩阵进行结构识别。本研究构建一个直接基于“文献一关键词”矩阵进行高维稀疏聚类来识别知识结构的方法,然后以2009-2018年国内数据挖掘领域期刊论文为例,与传统基于关键词共现进行知识结构识别方法进行了对比分析。[结果/结论]实验结果表明,基于高维稀疏聚类探测知识结构是有效的,并且该方法可以获得差异度较大的子类,结果解读可以获取更多信息。
关键词:知识结构;识别;高维稀疏;聚类;共词分析;数据挖掘
DOl: 10.3969/j .issn .1008 -0821 .2019 .12 .009
[中图分类号]G201 [文献标识码]A [文章编号]1008-0821( 2019) 12-0072-09
文献是科学知识的载体,基于文献对某一个领域的知识结构进行识别是信息计量学领域的一个重要任务。探寻一个领域的知识结构不但能够揭示该领域的基本特征,而且对该领域研究人员也有重要指导作用。
知识结构( Intellectual Structure),指根据某一领域的科学文献进行分析,通过对基于某种关系构成的文献矩阵进行聚类而得到的组群及其关系。其中,每一组群对应该领域的一个研究子领域(或称研究主题)。
利用文献探寻知识结构方法大约可以分为3类:基于共被引分析、基于耦合分析和基于共词分析。1)基于共被引分析的方法。1973年,美国情报学家Small H首次提出了文献共被引(Co - cita-tion)的概念[1],最早用来测度文献之间的关系程度,后被用来研究特定领域的知识结构[2]。1981年White H D等提出了作者共被引分析(Author Co-citation Analysis,ACA)[3],也可以用来探测知识结构[4-5]。2)基于耦合分析的方法。1963年Kessler提出了文献耦合分析(Bibliographic Cou-pling Analysis,BCA)[6],将引证同一篇论文的两篇或多篇论文称为耦合论文( Coupled Papers),并将文献之间的这种关系称为文献耦合。国内外均有实证研究表明文献耦合能够揭示某个研究领域的知识结构[7-8]。2008年Zhao D等提出作者文献耦合分析( Author Bibliographic Coupling Analysis, AB-CA)[9],将文献耦合的方法扩展到作者层次,不但能够用于揭示作者研究内容之间的关系、作者之间的关系,也能用于知识结构识别[9-11]。由于通过共同的词语( Term)联系到一起的文献可能表示一个共同的研究主题( Research Topic)[12],近年来又出现了作者关键词耦合分析( Author KeywordCoupling Analysis,AKCA),与ACA相比,更能反映目前的研究现状,不必等文献被引才建立关系。3)基于共词分析的方法。关键词是论文作者对文献研究主题的一种人为专业术语标引,相对于作者、期刊、机构等元素而言更能表达文献内容。共词分析法( Co - term Analysis)认为两个关键词在同一篇文献中出现表明二者之间具有一定的内在关系,并且出現的次数越多表明它们的关系越密切[13]。采用共词分析法能够实现对文献微观层面的分析,实证研究也表明共词分析可以用来揭示国内外知识管理知识结构[13-4]。
无论基于上述何种分析思想,知识结构的识别过程整体上是二步式的,即首先要构建相似性矩阵,然后对该矩阵进行结构识别。分析方法不同,导致所建立的矩阵类型和矩阵元素取值规则均不相同,例如,采取文献共被引思想构建文献耦合强度矩阵、利用作者文献耦合思想建立作者耦合强度矩阵。进而基于构建的矩阵利用因子分析、层次聚类分析、多维尺度分析等多元统计技术进行结构分析,但是这3种分析方法不适宜对包含过多0模块的矩阵进行操作,针对这一问题,使用基于三角形不等式原理和最小生成树算法的Pathfinder算法[10]可以有效规避0模块的影响[10.15]。近十几年来各种知识图谱软件[16]逐步盛行,绘制的知识图谱节点规模较上述的多元统计分析方法提高很多,而且可以直观表示领域的知识结构,因此备受关注和推广。但是利用此类软件进行领域知识结构识别的本质并没有深刻改变,仍然要先选择使用何种相似性矩阵分析方法,再辅以利用社会网络分析或复杂网络分析的中心性分析、社团发现等方法进行分析[17]。然而文献是由多元素构成的,包含作者、关键词、期刊、机构等,但上述方法一般建立的都是单模方阵,即矩阵的取值表明同类元素之间的相似程度。当从两种元素进行分析时,首先将其关系转化为一种元素之间的关系,在这一转化过程中,信息受到了损失,转化方法有时也较为主观。
聚类分析,作为一项基本的数据挖掘任务,能够发现海量数据中未知的对象类,本质与从文献数据中探测知识结构是一致的。关键词是每篇文献由其作者认为最能反映其内在内容的,因此从这个角度可以认为文献是由关键词来标识的。很显然,“文献一关键词”矩阵必定具有高维性和稀疏性。本文探索利用高维稀疏聚类方法进行知识结构识别的有效性,以我国近十年(2009-2018年)数据挖掘领域期刊论文为例进行实证研究,并与基于关键词共现分析进行知识结构识别的结果进行对比分析。
1 研究方法
1.1 高维稀疏聚类算法介绍
高维稀疏聚类问题是指每个对象有很大一部分属性取值为0的高维聚类问题。本文将要面对的“文献一关键词”矩阵,是一个二值矩阵,因此拟定使用专门用于求解二态变量高维稀疏聚类问题的CABOSFV(Clustering Algorithm Based On SparseFeature Vector)算法[18],即基于CABOSFV来进行后续的知识结构识别。
CABOSFV是一种基于稀疏特征向量的聚类算法,该算法针对二态变量,通过定义“稀疏差异度( Sparse Feature Distance,SFD)”描述集合内对象间的相似程度,通过定义“集合的稀疏特征向量( Sparse Feature Vector,SFV)”概括一个对象集合所包含的全部聚类相关信息,为数据的有效压缩提供了重要的手段。此外,该算法只对数据库进行一次扫描,大大提高了聚类的效率。下面给出结合本文使用场景“文献一关键词”的稀疏差异度、稀疏特征向量的具体定义和算法的具体步骤。
定义1(文献集合的稀疏差异度):假设有n个文献,描述每个文献的关键词有m个,X为其中的一个文献子集,其中的文献个数记为X,在该子集中所有文献稀疏特征取值皆为1的关键词个数为a,稀疏特征取值不全相同的关键词个数为e,文献集合的稀疏差异度SFD(X)定义为:
一个文献集合的稀疏差异度表明了该集合内部各文献间的差异程度。差异度越大,文献之间越不相似;差异度越小,文献之间越相似。文献集合的稀疏差异度是高维稀疏聚类算法进行相似度计算和数据压缩的基础。
当文献集合X中只包含一个文献时,文献的个数|X|为1,该惟一文献稀疏特征取值为1的关键词序号集合为S,稀疏特征取值不全相同的关键词序号集合NS为空集φ,稀疏差异度SFD( X)为0,那么稀疏特征向量SFV(X)=|1,S,φ,0|。
给定某领域的学术研究论文集合L=(P,K),其中P是该领域所有学术研究论文文献的集合,K是论文包含的关键词的集合。使用二维表对高维稀疏聚类的输人数据进行表示(表1),行代表文献集合;列代表关键词集合。表中的“1”表示该文献使用过该关键词,例如文献P1关键词列表中没有K1但有关键词K2。
假设有n个文献,一个文献类内文献集合的稀疏差异度SFD(X)上限为6,则基于高维稀疏聚类算法CABOSFV进行文献聚类的具体过程是:由每一个文献建立一个集合,用稀疏特征向量SFV(X)描述各集合。从第一个SFV(X)开始进行数据扫描,在扫描的过程中完成文献类的创建和文献集合的归并。首先创建文献类1,将文献1归人文献类1,然后考察是否可以将文献2并人文献类1(若文献2并人文献类1后形成的新SFD( X)大于6,则认为文献2并入文献类1不可行;否则,认为可行)。如果可行,则将文献2并入文献类1;否则,创建一个新的文献类,将文献2归人该新文献类。然后考察是否可以将文献3并入已存在的文献类1或文献类2中,将文献3加入使得归人后的SFD(X)最小的那个文献类中;否则,创建一个新的文献类,将文献3归人该新文献类。依此类推,直到所有对象扫描结束。这样,通过对论文数据的一次扫描就完成了全部文献类的创建和文献到文献类的归并。可以看到,差异度上限6在聚类过程中起着十分重要的作用,6可以通过式(1)来估算。
1.2 基于高维稀疏聚类的知识结构识别方法
利用高维稀疏聚类方法直接对原始文献数据进行聚类,需要将每一篇文献使用关键词进行标识,即算法输入是“文献一关键词”矩阵。根据常识,每一篇文献作者所使用的关键词一般不超过10个,因此这个“文献一关键词”矩阵是十分稀疏的,即使利用专门针对高维稀疏聚类的算法也会失效。因此,提出如下基于高维稀疏聚类算法对“文献一关键词”矩阵进行知识结构识别的迭代方法。
输入:“文献一关键词”矩阵。
步骤1:根据式(1)估算文献集合的稀疏差异度上限6,计算CABOSFV算法输入。
步骤2:运行CABOSFV聚类算法,得到文献聚类结果。
步骤3:针对文献聚类结果,反查每个类对应的关键词,根据关键词分布情况判断文献类之间的相似性是否很高:如果很高,继续步骤4;如果不高,算法结束,将此时的文献聚类结果作为最终的知识结构。
步骤4:将聚类结果转换为新一轮算法的输入,跳转到步骤1。
1.3 研究工具
为了分析利用高维稀疏聚类对“文献一关键词”矩阵进行知识结构识别的有效性,采用基于关键词共现进行知识结构识别对比。为了排除其他因素影响,拟定这两种方法的输入文献规模大小尽可能一致,均根据词频来选择,选取前100位的关键词。基于CABOSFV算法的知识结构识别采用自编的C++程序和Python程序来实现。另外,本文选择的是文献计量网络可视化软件VOSviewer[19],它提供的默认聚类算法是一种基于距离的聚类,聚类结果采用图谱显示,图谱中各个节点距离是依据共现关系的强度通过整体相加计算而生成,图谱中节点之间的距离反映着两者之间的相似性,相似性高的两个节点之间距离很近。此聚类算法结果表示方式为[20],为每个节点提供一个分值,通过节点的颜色、大小、聚类群组划分情况可以判读不同群组的强度及其相互作用关系。
2 实验数据获取
2.1 原始数据获取及探查
在中国知网CNKI上搜索以“数据挖掘”为关键词的文献,选定范围为期刊,将时间设定为近十年,即2009-2018年,检索得到18 712条结果。为了防止下载一种格式文件会出现数据不一致的情況,将数据下载成Refworks、NoteExpress和Excel
3 种格式进行数据探查。
由于共词分析和高维稀疏聚类都是关于关键词的分析,因此将所有数据中没有关键词的数据都删除。此时就利用自编的Python对题录之中K1(即关键词)为空的内容删除,最终验证到所有题录的K1(即关键词)没有为空的。因此可以直接使用数据进行接下来的分析。
2.2 实验数据准备
实验数据准备的任务是确定使用高维稀疏聚类的矩阵维度及基于此构建“文献一关键词”矩阵。本文选取量级为百维量级的关键词,最终得出频次排在前100位的关键词一共有104个(表2)。其中,“数据挖掘”出现16 711次,和其他关键词出现频次差距太大,在后来分析中的关联性很强,对实验分析影响较大,所以在后续实验中会把关键词“数据挖掘”删除。
3 实验结果
3.1 基于关键词共现分析的知识结构识别结果
利用VOSviewer軟件选择共词分析对实验数据进行处理,对其词频前100位关键词进行知识图谱绘制。同样地,此处去除了关键词“数据挖掘”。经过测试,将每一类的最小规模设定为5,其余参数默认,得到2009-2018年国内数据挖掘研究的知识图谱(图1),可以归纳为8个研究主题。
第1个研究主题可以归纳为“大数据应用研究”,类规模为27,关键词主要包括:大数据( Big Data)、数据分析、电子商务、应用。
第2个研究主题可以归纳为“时间序列与预测研究”,类规模为19,关键词主要包括:神经网络、预测、时间序列、遗传算法、粗糙集。
第3个研究主题可以归纳为“聚类算法研究”,类规模为18,关键词主要包括:聚类分析、聚类。
第4个研究主题可以归纳为“关联规则研究”,类规模为13,关键词主要包括:关联规则、Apriori算法。
第5个研究主题可以归纳为“数据仓库与商务智能”,类规模为8,关键词主要包括:数据仓库、决策支持系统、商务智能。
第6个研究主题可以归纳为“分类算法研究”,类规模为7,关键词主要包括:决策树、id3算法。
第7个研究主题可以归纳为“基于数据挖掘技术的中医药应用研究”,类规模为7,关键词主要包括:用药规律、组方规律。
第8个研究主题可以归纳为“云计算研究”,类规模为5,关键词主要包括:云计算。
3.2 基于高维稀疏聚类的知识结构识别结果
经探测发现,很多文献都是由“数据挖掘”和其他某一个关键词标识,则可以用来聚类文献的有效关键词个数太少。所以,本文首先将关键词“数据挖掘”去掉,再统计表示每篇文献的关键词个数,去掉为0和1的文献,最终得到第一轮高维稀疏聚类算法的输入为3 508条文献。
第一轮:
步骤1:根据式(1)估算差异度上限b。这里为了取b为最大上限,因此保证e最大,X最小,所以e取100,X取2。a的取值依据按照关键词词频统计结果来确定(见表3),除去被0个和1个关键词标注的文献,还剩余3 508篇文献。可见,当a为b或者7所代表对象太少,因此当a取5时合适,经计算,按照式(1),得到第一轮的b取值为10。
步骤2:按照b=10,运行CABOSFV,得到57个类(见表4)。
步骤3:利用自编的Python程序,获得每一类的文献名称集合。查看文献名称及对应关键词,发现类之间的相似性很高,还需要进行第二轮聚类。
步骤4:将聚类结果转换为第二轮算法输入。由表4知第二轮算法输入的对象个数是57,维度是100。利用自编Python程序,得到下一轮算法输入。
第二轮:
步骤1:为估算差异度上限b,进行关键词词频统计(见表5)。可见a的值在0-5之中选择较为合适。当a为2时有2个类,对象数相对较少,a为3时有6个类更为合适,也可以让差异度6尽可能大。因此取a为3合适,经计算,按照上述公式,得到第二轮的6取值为16。
步骤2:按照b=16,运行CABOSFV,得到16个类(见表6)。
步骤3:利用自编的Python程序,获得每一类的文献名称集合。查看文献名称及对应关键词,发现类之间的相似性很高,还需要进行第三轮聚类。
步骤4:将聚类结果转换为第三轮算法输入。由表6知第三轮算法输入的对象个数是16,维度是100。利用自编Python程序,得到下一轮算法输入。
第三轮:
步骤1:类似地,为估算差异度上限b,获得第三轮聚类时关键词词频统计(见表7)。可见,a选择在1-10之中选择比较合适,为了使6达到最大,a尽可能取得最小值,关键词共现词频在a中分别为9、9、8、6、3、2。因此此时应该选择中位数合适,定a为6,经计算,得到第三轮的6取值为9。
步骤2:按照b=9,运行CABOSFV,得到7个类(表8)。
步骤3:对聚类结果分析得到每一类的文献名称集合。统计每一个文献类对应的关键词及词频(见表9),可见,此时聚类可以终止。
结合反查得到的这些关键词对应的文献标题,将上述7个类的研究主题归纳如下。
第1类研究主题可以归纳为“基于数据挖掘技术的各类应用”,包含基于数据仓库进行的商业销售,基于关联规则挖掘的Weka数据挖掘应用,基于改进遗传算法的K - means聚类分析,这类研究很少涉及单纯的数据挖掘方法改进,往往是结合领域进行应用。
第2类研究主题可以归纳为“数据挖掘在客户关系管理中的应用”,包含基于数据挖掘的客户智能分析和研究、数据挖掘细分客户群等文献。
第3类研究主题可以归纳为“推荐算法及分类算法研究”,这类文献用到了“分类算法”、“个性化推荐”等,这类还包含了数据挖掘在高校图书馆个性化推荐服务中的有效应用
第4类研究主题可以归纳为“时间序列研究及大数据应用”,这类文献用到了“大数据时代”、“时间序列”等,这类还包含了序列模式挖掘在教学管理上的应用、基于时间序列的模式挖掘研究、大数据时代的数据挖掘技术研究等文献。
第5类研究主题可以归纳为“中医数据挖掘”,这类文献用到了“用药规律”、“中医传承辅助平台”、“组方规律”、“医案”等,研究基于数据挖掘方法的用药规律。
第6类研究主题可以归纳为“商务智能”,其中联机分析处理( OLAP)是数据仓库中的一种分析方法,而商务智能本身也是依托于数据仓库发展起来的。第7类研究主题可以归纳为“推荐系统与物联网应用”。
3.3 结果对比分析
基于关键词共现分析的知识结构识别和基于高维数据聚类的知识结构识别,两种方法都可以将文献从不同角度进行聚类,并且聚类的效果与数据挖掘研究普遍认识符合度均较好。其中,基于关键词共现分析获得了数据挖掘研究主要包括8个类别,分别为:1)大数据应用研究;2)时间序列与预测研究;3)聚类算法研究;4)关联规则研究;5)数据仓库与商务智能;6)分类算法研究;7)基于数据挖掘技术的中医药应用研究;8)云计算研究;基于高维稀疏聚类获得了数据挖掘研究主要包括7个类别,分别为:1)基于数据挖掘技术的各类应用;2)数据挖掘在客户关系管理中的应用;3)推荐算法及分类算法研究;4)时间序列研究及大数据应用;5)中医数据挖掘;6)商务智能;7)推荐系统与物联网应用。可见,两种结果中识别出来的研究主题中大部分都是一致的,两种分类都有大数据应用研究、中医数据挖掘、聚类研究、分类研究、时间序列研究、基于数据仓库的商务智能应用,并且基于关键词共现分析的类(1)与基于高维稀疏聚类的类(1)大体是一致的。
但是,经过比较亦可发现,基于关键词共现分析获得的某些类比基于高维稀疏聚类获得的文献类更为详细。例如,高維稀疏聚类中的大数据应用类包含关联分析、分类算法研究等基于关键词共现析已有的其他类别。但是高维稀疏聚类对于差异度特别大的类区分更加仔细,例如数据挖掘在客户关系管理中的应用、商务智能、推荐系统与物联网应用都能够进行单独区分出来。
此外,基于高维稀疏聚类探测知识结构的时候,需要观察论文题目来进行分类,但是如果因为论文题目较多,最后通过论文题目直接总结分类难度较大,最终解读聚类会借助每种类别文献的高频关键词来分析,所以和基于关键词共现分析相比,可以用来解读分析结果的可用信息更多。
4 结论
已有进行知识结构识别的方法首先基于某种分析思想构建同质元素间的关联程度矩阵,然后再对该矩阵进行结构识别。本文使用高维稀疏聚类的方法对“文献一关键词”矩阵直接进行学科结构识别,采用迭代策略,首先利用词频来估计高维稀疏聚类算法参数和输入,然后运行高维稀疏聚类算法,最后通过统计聚类结果各个类的关键词重合情况来判断算法是否停止。通过与基于关键词共现分析知识结构识别效果来对比分析,最终发现基于高维稀疏聚类进行知识结构识别是有效的,并且该方法可以获得差异度较大的子类,而且进行结果解读可以获取更多信息。在未来研究中,在维度进一步提升的同时,希望能够进一步探测对象的输入顺序是否对聚类结果有影响及不同的差异度上限估算方式,从而得到更准确的结果分析。
参考文献
[1] Small H.Co-citation in the Scientific Literature:A New Measureof the Relationship Between Two Documents[J].Joumal of the A—merican SocietY for information Science, 1973, 24 (4): 265 - 269.
[2]马瑞敏,邱均平.基于CSSCI的论文同被引实证计量研究——以图书馆学、情报学为例[J].图书情报知识,2005,(5):77-79.
[3] White H D,Griffith B C.Author Cocitation:A Literature Measureof Intellectual Structure[J].Joumal of the American Societv forInformation Science,
1981, 32(3):163-171.
[4]马瑞敏,倪超群.基于作者同被引分析的我国图书情报学知识结构及其演变研究[J].中国图书馆学报,2011. 37( 6): 17-26.
[5]马费成,宋恩梅.我国情报学研究分析:以ACA为方法[J].情报学报,2006, 25 (3):259-268.
[6] Kessler M M. Bibliographic Coupling Between Scientific Papers[J]. American Documentation,1963,14(1):10-25.
[7]肖明,李国俊,袁浩,基于引文耦合的数字图书馆研究结构可视化分析[J].图书情报工作,2010. (7):51-54.
[8] Jameving B.Bibliographic Coupling and Its Application to Research-front and Other Core Documents[J].Joumal of Informetrics,2007,l(4):287-307.
[9] Zhao D, Strotmann A.Evolution of Research Activities and Intel-lectual Influences in Information Science 1996-2005: ImroducingAuthor Bibliographic-coupling Analysis[J].Journal of the Ameri-can Societv for Information Science and Technology, 2008, 59( 13):2070-2086.
[10]马瑞敏,倪超群,作者耦合分析:一种新学科知识结构发现方法的探索性研究[J].中国图书馆学报,2012. 38 (2):4 -11.
[11]王知津,周鹏,谢丽娜,用ABCA方法识别和阐释我国当代情报学研究领域[J].情报学报,2013. 32 (1):4-12.
[12] Morris S A, Yen G G.Crossmaps: Visualization of OverlappingRelationships in Collections of Journal Papers[J]. Proceedings ofthe National Academv of Sciences, 2004, 101 (1): 5291-5296.
[13]张勤,马费成,国内知识管理研究结构探讨——以共词分析为方法[J].情报学报,2008, 27(1):93-101.
[14]张勤,徐绪松,共词分析法与可视化技术的结合:揭示国外知识管理研究结构[J].管理工程学报,2008, 22 (4):30- 35.
[15]孙海生.作者关键词共现网络及实证研究[J].情报杂志,2012, 31 (9):63-67.
[16] Chen C. CiteSpace Ⅱ: Detecting and Visualizing EmergingTrends and Transient Pattems in Scientific Literature[ J]. Joumalof the American Socieiy for Information Science and Technology,2006, 57 (3):359-377.
[17]丁晟春,王楠,吴靓婵媛.基于关键词共现和社区发现的微博热点主题识别研究[J].现代情报,2018, 38 (3):10-18.
[18]武森,高学东,M.巴斯蒂安.高维稀疏聚类知识发现[M].北京:冶金工业出版社,2003: 38-54.
[19]N Van Eck, Waltman L VOS:A New Method for VisualizingSimilarities Between Objects[C]//Advances in Data Analysis:Proceedings of the 30th Annual Conference of the German Oassifi- cation Society. 2007: 299-306.
[20]李杰.科学知识图谱原理及应用-VOSviewer和CitNetEx-plorer初学者指南[M].北京:高等教育出版社,2018:49 - 52.
(责任编辑:郭沫含)
收稿日期:2019-07-19
基金项目:教育部人文社会科学研究青年基金项目“面向语言学的文献计量及知识可视化分析”(项目编号:17YJCZH069);全国高等院校计算机基础教育研究会2018年度计算机基础教育教学研究项目“教育数据聚类分析及个性化推荐”(项目编号:2018-AFCEC- 176);北京语言大学院级科研项目(中央高校基本科研业务专项资金资助)“基于文献计量的不同学科差异分析”(项目编号:19YJ040001);北京市级大学生创新创业计划项目支持(项目批准号:201910032038)。
作者简介:黄月(1986-),女,副教授,博士,研究方向:数据挖掘、信息计量。王鑫(1995 -),男,学士,研究方向:聚类分析。