k-means聚类算法的知识扩散对比研究

2023-08-26 04:57:20罗欣怡
电脑知识与技术 2023年19期
关键词:对比分析管理学经济学

罗欣怡

关键词:k-means聚类算法;知识扩散;图书情报学;管理学;经济学;对比分析

0 引言

知识扩散最早于1924年由美国科学家Learned[1]在《美国公共图书馆与知识扩散》一书中提出。陈超美等[2]将基于引文分析的知识扩散定义为知识在科学文献与专利中的应用和发展。在信息化社会,知识发展生产、创新转化的重要作用日益显著,知识扩散作为知识生产和传播的重要组成部分,在知识创新过程中发挥着重要作用[3]。

国内外学者从不同视角对知识扩散进行了大量研究,其中用基于引文分析的文献计量方法来定量研究知识扩散现象持续升温,相比国外研究倾向于计量指标的创新,如Liu和Rousseau定义了学科知识扩散广度(Field Diffusion Breadth) 和扩散强度(Field Diffu? sion Intensity) [4]。国内学者更注重于实证分析,陈吉雨[5]采用LDA主题模型方法,基于语义层次提取并分析主题词,了解图情领域和新闻传播学间知识扩散情况。王立梅[6]基于引文内容构建有向网络,研究老子思想在海外的知识扩散和发展脉络。朱猛男等[7]基于Bass模型进行参数估计,预测学科未来发展趋势,验证是否拟合S型曲线。

现有实证研究主要对学科领域使用引文分析的方法为研究单元,宏观分析某一学科向其他学科扩散情况,而针对某一具体知识在不同领域的扩散比较研究较少。k-means聚类算法作为数据挖掘领域的十大经典算法之一,在众多领域都得到了广泛应用,研究其在不同领域的扩散差异是有意义的。本文根据创新扩散理论,从知识扩散的过程角度,采用时序分析方法,以k-means聚类算法为具体知识实例,结合扩散指标,分析其在图情学、管理学和经济学领域的知识扩散差异,有利于了解各学科目前对k-means的吸收程度和不同的发展方向,能够为分析具体知识在学科间的扩散情况提供借鉴参考。

1 研究综述

1.1 创新扩散理论

创新扩散理论最早由Rogers 提出[8],通过对人类学、社会学、传播学、经济学等领域的实证分析得出:成功扩散的过程呈现钟形正态曲线,创新的累积采纳人数呈S形曲线分布。创新扩散理论的主要概念包括:采纳速度、采纳加速度、一阶拐点和二阶拐点。其中,采纳速度就是某时刻新增采纳者的数量;采纳加速度就是某时刻扩散速度的变化量;一阶拐点就是采纳速度最大的点,此时的采纳数约占最终采纳数的50%,新增采纳数最大;二阶拐点就是采纳加速度最大的点,扩散在此时达到临界值,此后采纳加速度放缓,但仍处于增长阶段,二阶拐点可用于预测知识是否成功扩散。

1.2 知识扩散研究

学术创新的扩散就是学术领域新知识的扩散[9]。从知识扩散的方向来看,知识扩散分为单向和双向,通常从知識单元角度进行统计,知识单元主要有文献、作者、期刊、学科等[10]。其中基于单篇文献的研究是单向的,其余研究单元的扩散过程均为双向。现有实证研究主要以学科为知识扩散的单元,把文献作为研究最细力度的分析对象,着重基础理论研究,构建知识扩散相关评价指标,描述扩散的基本特征进行定量分析,以了解知识在其他领域的扩散情况。国外对于知识扩散研究起步较早,注重计量指标的创新。相比之下,国内学者多进行实证分析。

首先,通过扩散指标研究知识扩散情况是必备步骤。2002年Rowlands首次提出了以期刊为知识扩散的单元的期刊扩散指数(Rowlands Diffusion Index) [11]。Liu和Rousseau[4]基于 ESI 的学科分类定义了“学科知识扩散广度”(Field Diffusion Breadth) 和“学科知识扩散强度”(Field Diffusion Intensity) ,“广度”和“强度”分别从覆盖范围和采纳频次的角度描述扩散过程[10]。国内对学科知识扩散的研究,主要基于学者宋歌定义的相关扩散指标[9]。他将扩散广度(diffusion breadth) 和扩散强度(diffusion strength) 分别定义为:采纳某创新的研究领域数量和关于某创新的知识信息从一个研究领域到另一个研究领域的流量,用创新采纳学科对源发学科知识的引用次数来衡量;扩散速度(diffusion rate) 指一段时间间隔内,新增的知识采纳量;扩散加速度(diffusion acceleration) 指一段时间间隔内,扩散速度的变化量;扩散延时(diffusion delay) 指从知识在源发领域的提出到其他领域的应用必然存在的时间差。

此外,深入到研究内容进行知识扩散研究也是必要的。目前基于引文的知识扩散主要利用小世界、引文网络和主路径分析等方法,进行基于特征、基于路径和基于测度的研究[12]。赵星等通过构建引文网络,定量刻画我国文科领域的知识扩散并将结果可视化[13]。但是已有知识扩散研究多是针对某个领域的扩散特征进行分析,而针对某一具体知识在不同领域的扩散情况研究相对较少。宋歌根据创新扩散理论结合分析时间流的主路径分析方法,进行了具体知识扩散实证研究,根据扩散速度和加速度,创造性地将扩散分为四个阶段[9],此后又通过绘制主题图,细分扩散阶段探究共被引分析方法在各学科的创新迭代[14]。孟文静等[15]从工具视角展现了特定学科应用软件解决学科问题的进程。朱猛男等[7]运用创新扩散理论分析同领域不同软件扩散过程。

1.3 k-means 算法

k-means 算法由Mac Queen[16] 在1967 年首次提出,是一种无监督学习,同时也是基于划分的聚类算法[17]。他给出了k-means算法的详细步骤,并用数学方法进行了证明。初始需确定簇的个数k,通过计算每个数据点到质心的距离(通常使用欧氏距离),选择距离最小的质心对应的簇作为该数据点的划分,基于该划分过程后更新簇的质心。如此迭代,直至各个簇的质心不再变化即算法收敛为止。

由于k-means算法原理简单,实现方便,聚类效果好,模型可解释性强等优点,成功应用于文档聚类[18]、客户细分[19]、异常数据检测[20]、图像分割[21]等众多任务,在2006年ICDM大会上被票选为数据挖掘领域的十大经典算法第二,广受各领域学者的青睐。但k- means算法也存在一些缺陷与不足,比如聚类结果严重依赖于簇中心的初始化、聚类效果对噪声敏感、聚类可能陷入局部最优解、聚类个数如何确定等,各领域的众多学者不断对k-means进行改进[22-24]。

2 研究设计和实验数据

2.1 研究思路

本文从扩散指标和研究主题两个方面来研究具体知识k-means聚类算法在不同领域的扩散差异(图1) 。首先,通过计算多个扩散指标,绘制扩散曲线,对k-means整体扩散和其在选定的几个学科中的扩散情况进行纵向时序分析包括扩散广度、扩散强度、扩散阶段,以此了解所处扩散阶段。依据k-means在源发领域提出的时间和不同领域首次采纳k-means的时间,计算扩散延时,横向比较各学科采纳k-means的起步先后顺序。然后,利用VOSviewer软件进行共词聚类,绘制各学科不同扩散阶段的研究主题图,从主题层面探究各学科扩散发展异同。最后,通过将知识扩散主题演变与学科论文形式的研究成果相结合,分析知识扩散趋势的原因,进行扩散对比,总结扩散指标与扩散趋势的变化关系。

2.2 数据获取及预处理

根据《学位授予和人才培养学科目录》[25](2018年版),图书情报与档案管理属于管理学下设的一级学科,管理学和经济学联系紧密,因此本研究选取图书情报学领域,以及同属于管理类的管理学和相关的经济学,作为实证分析领域。

选取Web of Science(以下简称WOS) 核心合集的SCI-EXPANDED和SSCI数据库作为数据源,采用高级检索,在“Topic”字段输入检索词“k-means”OR “kmeans”以保证检全率和检准率,文献类型设定为“Article”,时间跨度为1967年至2021年,检索时间为2m0e2a3ns年在2所月有1学日科,的命研中究文题献录数,获1取8 2的75数篇据,均这为些不是带k引-文关系的Excel格式数据。进一步地,以WOS学科分类为依据,修改检索式,Web of Science Categories字段分别设定为“Information Science & Library Science”“Management”“Economics”分别获取k-means 在图情学、管理学、经济学的题录数据97条、610条和115条。

通过对原始数据集进行探查,发现存在两条Early Access晚于正式出版年份的异常题录数据,论文分别于2017年和2021年正式出版,但在線发表时间为2020年和2022年。经查阅,此处为确保研究成果扩散的时效性不作处理。至此,将上述18275条题录作为实验数据集。

3 实证与结果

3.1 k-means 算法扩散广度及强度

首先计算扩散广度,了解采纳k-means的学科数量和知识扩散的总体趋势,通过分析k-means在不同学科的领域分布,检验扩散是否服从幂律分布。然后通过比较扩散强度,分析不同领域吸收知识的体量,与后续的扩散阶段分析互为印证。

k-means在诸多领域均有应用的引证文献,只考虑领域论文占比大于0.1%的学科,扩散广度为168,可体现k-means算法应用于各领域的普适性。绘制散点图(图2) ,使用扩散强度验证k-means在各领域的扩散服从幂律分布,即:k-means在极少数的学科领域完成了极大规模的扩散,而绝大部分的学科领域对其吸收较少。本研究选取的图情学、管理学和经济学扩散强度均小于1000,位于幂律曲线的“长尾”部分,数据量相近,表明学科间知识扩散情况具有可比性。

3.2 k-means 算法扩散曲线

根据扩散加速度划分扩散阶段,确定各领域目前所处的扩散阶段,据此预测未来知识扩散走向,同时参考整体扩散情况与之进行比较。其中扩散速度以各学科每年应用k-means 算法的论文数计算,累积文献数形成扩散曲线。

首先,利用扩散速度绘制各学科扩散曲线(图3) 。根据曲线识别得到各领域目前均处于起飞阶段,图情学、管理学、经济学在扩散阶段的文献数分别为51篇、79篇、15篇,起步阶段的文献数分别为46篇、531篇、100篇。各学科扩散曲线进入各个扩散阶段均滞后于总扩散阶段。总体扩散于1991年进入起飞阶段,管理学、经济学和图情学于 2009 年、2013年和2017 年先后进入起飞阶段,成熟阶段和衰退阶段均未显现。可以预测未来几年,三个学科均会产出大量相关研究成果。

其次,通过识别二阶拐点,将起飞阶段划分为两个阶段论述。经济学和图情学分别于2013年和2017 年达到二阶拐点,恰为进入起飞阶段的年份,表明k-means 在两个学科的扩散一经进入起飞阶段就跨越了拐点,进入加速迭代期[14]。由于达到了临界值,其累积成果数在时间轴上将形成 S 形曲线,可以预见k-means 算法在经济学和图情学将实现成功扩散。而总体扩散和管理学的扩散加速度在2021年最大,此后扩散加速度是否继续增大犹未可知,故扩散曲线暂未出现二阶拐点,表明这两个学科的知识扩散的累积采纳数未达到临界值,是否成功扩散也有待探究。此外,由于各学科的扩散速度仍在不断增长,无法判断何时到达 S 型曲线的一阶拐点。总结上述情况,得到表1。

3.3 k-means 算法扩散主题识别

利用VOSviewer软件[26]对题录数据中的标题和摘要基于共词进行聚类,并通过自定义同义词词典合并同义关键词,分别绘制起步阶段和起飞阶段研究主题图,探究各学科知识扩散的异同。

3.3.1 k-means 算法在图情学的扩散主题识别

利用获取的97条图情学题录数据,设置共词阈值为3,自定义同义词词典,例如:将principal component amneaalnyssi聚s和类P算C法A在视图为情同学义的词起,步基阶于段共和词起聚飞类阶得段到的k研-究主题。

得到k-means聚类算法在图情学的起步阶段包含4个研究主题、61个关键词(图4) 。研究主题1包括的关键词有:time、accuracy、profile、service等。研究主题2包括的关键词有:test、sample、behaviour、health 等。研究主题3包括的关键词有:experimental result、algorithm、effectiveness、retrieval、combination 等,主要是对具体研究过程的描述。研究主题4包括的关键词有:principal component analysis、comparison等,主要是将k-means算法与主成分分析等方法相结合,构建优化模型,同时通过对多种聚类算法的对比分析,探究各自的优劣,该主题可总结为“算法优化”。此外,各主题均将算法应用于实际场景,获取用户健康信息,分析用户行为,有关信息检索和确定用户画像的部分研究对k-means算法也有所涉及。

基于共词聚类得到k-means聚类算法在图情学的起飞阶段包含4个研究主题、63个关键词(图5) 。研究主题1包括的关键词有:experimental result、effec? tiveness、similarity、vector space、K-NN、identification、sentiment analysis等,除了对k-means类间相似度和聚类效果的评估外,还将其与其他聚类算法如K-NN进行比较,结合向量空间模型创新算法和进行情感分析。研究主题2包括的关键词有:quality、profile、ser? vice、internet等,主要对领域内不同对象进行实例分析,重视提升服务水平和产品质量。研究主题3包括的关键词有:core、correlation等,聚焦互联网信息和商业物联网核心知识产权。研究主题4包括的关键词有:company、social network analysis、empirical analysis 等,主要进行社会网络的实证分析,注重企业建设。总体来说,起飞阶段利用算法对具体实例的分析相比前一阶段增加,各主题对此均有涉及,文档聚类的成果采纳数较多,这与图情学的传统研究方法多为基于引文的计量分析有关。

3.3.2 k-means 算法在管理学的扩散主题识别

利用获取的610条管理学题录数据,自定义同义词词典,例如:将GAs和genetic algorithm、ANN和arti? ficial neural network 视为同义词,基于共词聚类得到k-means聚类算法在管理学的起步阶段和起飞阶段的研究主题。

将k-means聚类算法在管理学起步阶段的共词阈值设置为3,获得4个研究主题、71个关键词(图6) 。

研究主题1 包括的关键词有:anova、consumer、firm、product、service、supply chain 等,利用方差分析进行聚类检验,同时将模型应用于领域实例,从公司、消费者、产品、服务和供应链多角度进行分析,可总结为“应用场景”。研究主题2包括的关键词有:complex? ity、robustness、ability、accuracy、computational time、Monte Carlo simulation 等,主要从模型复杂度、准确性、鲁棒性、时间复杂度等指标对算法进行评价,使用蒙特卡洛方法模拟数据,可总结为“算法分析”。研究主题3包括的关键词有:artificial neutral network、som network、combination、costumer、market segmentation等,主要描述了知识扩散与其他学科结合的相关主题,应用人工神经网络中的相关算法如:SOM自组织映射网络,以提高模型效果。另外在实际应用方面,主要将k-means算法用于解决市场划分问题,该主题可总结为“算法优化与应用”。研究主题4包括的关键词有:anneal? ing、distance、fuzzy-c、optimal solution、outlier等,将k-means与模糊c-均值等聚类算法比较分析,探究各自的优劣,运用模拟退火算法,关注聚类结果的离群点,寻找目标函数全局最优解。

将k-means聚类算法在管理学的起飞阶段的共词阈值设置为14,自定义同义词词典,例如:将particle swarm op? tmimacizhaitnieon视和为P同SO义、词svm,获和得su3p个po主rt 题ve、ct8o5r 个关键词(图7) 。研究主题1包括的关键词有:case study、company、cost、de? lmatainodn、shpirpod等uc,t主、s要erv描ic述e、了ide实nt例ific分at析ion的、r主e?题方向,总结为“应用场景”。研究主题t2er包、c括en的tro关id、键di词sta有nce:、imiteprraotvieomn、epnot、incte no?f innetteirce aslt、gopraitrhtimcl、em sawcahrimne o lpetairmniiznagti等on。、g为e?提高算法的鲁棒性,一方面从算法原理出发,关注特征和中心点的选取,重点讨论中心簇距离这一参数;另一方面,在前一阶段的基础上,进一步与人工智能算法如:粒子群优化算法、遗传算法结合,还吸收了机器学习方法进一步提高模型性能。研究主題2可总结为“算法优化”。研究主题3 包括的关键词有:image-based embedded wireless sen? tsuorre 、nsevtmwo、rdkest、ecsteiolfn-、oerxgpanerizt isnygs temma、ps、enfesai?? tivity、accuracy等,涵盖了具体案例的分析主题,建立完善专家体系,着重追踪和挖掘用户兴趣点,以实现智能推荐来最大化用户潜在信息价值。此外,利用准确率、灵敏度等指标评价聚类效果和稳定性。该主题可总结为“算法评价与应用”。有了更优算法作为理论支撑,案例分析的论文体量增大,研究方向趋向多样化,对产品等前期较少或未涉及的主体研究增加,更加关注主体间的关系。结合管理学学科演进过程可知,早在1996年进入知识经济时代便提出了知识管理的理念,管理学发展立足于创新、战略、承诺等关键词[27],故在起步阶段便将算法与其他学科知识融合创新。近年用k-means算法进行分析建模在房地产、营销等行业广受青睐,因此k-means 算法在管理学扩散的主题变化与学科演变趋势相符。

3.3.3 k-means 算法在经济学的扩散主题识别

利用获取的115条经济学题录数据,自定义同义词词典,例如:将 activity 和 choice 均视为 activity choice,基于共词聚类得到k-means聚类算法在经济学的起步阶段和起飞阶段的研究主题。

将k-means聚类算法在经济学的起步阶段的共词阈值设置为2,获得3 个研究主题、25 个关键词(图8) 。

研究主题1包括的关键词有:difference、time、stu? dent等,研究主题2包括的关键词有:activity choice、group 等,研究主题3 包括的关键词有:cdm project、similarity等。各主题没有对算法特定方面的集中描述,都涉及算法分析和少量的实例分析。经济学对k- means的吸收时间最晚,在起步阶段研究成果较少,主题也相比更为单一,停留在算法本身的时间效率、分类效果、组间差异等方面进行研究。少量实例研究围绕学生和清洁发展机制主体,k-means算法常应用于活动选择模型的构建过程。主题识别结果可由经济学研究热点得到印证,起步阶段应用k-means原始算法完成具体场景的分类研究,如:金融系统风险状态分类[28]、作物管理分区研究[29]等,并引入评价指标,对结果进行了比较和评价。

将k-means聚类算法在经济学起飞阶段的共词阈值设置为4,获得5个研究主题、74个关键词(图9) 。研究主题1 包括的关键词有:behaviour、consumer、product、market、quality、willingness 等,主要是在实际案例中对不同主体的讨论,关注客户需求和购买意愿、调研市场、把关产品质量。研究主题2包括的关键词有:PCA、time,将主成分分析与k-means 相结合。研究主题3包括的关键词有:efficiency、evaluation等,主要是对算法执行效率的评估,可总结为“算法分析”。研究主题4包括的关键词有:algorithm、estima? tion、index等,除了评价模型算法外,将算法模型与经济学指标相结合,进行定量分析。研究主题5包括的关键词有:case study、China、region、density、recommen? dation等,主要是对案例分析中数据来源和研究对象的描述,市场研究类型多为跨区域市场,以区域为单位的分析过程中考虑人口密度因素,研究主题1和5 可总结为“案例分析”。进入该阶段后,除了对原算法的深入探讨,主要将算法应用于实际案例,与前一阶段相比,应用场景进一步丰富。

3.4 k-means 算法在不同学科的扩散对比分析

横向比较各学科知识扩散主题层面的扩散趋势和相同阶段下的异同,可分析得到三个学科在吸收知识和发展路径的共性和特点。

1) k-means 聚类算法在图书情报学、管理学、经济学三个学科的相同点分析。各学科在起步阶段大多停留在对原始k-means算法的应用和效果评估,进入起飞阶段后,通过吸纳、整合多学科已有理论、方法与技术,提出改进算法和优化模型,结合领域具体实例进行研究分析,而且在起飞阶段均包含服务、公司等主题词。

2) k-means 聚类算法在图书情报学、管理学、经济学三个学科的不同点分析。首先,根据学科发展方向主题脉络可知,对信息的获取处理和再利用是图情学的核心知识及发展方向,共词聚类得到的关键词“信息”“网络”等是图情学相比其他两个学科的特有关键词,也是该学科的研究热点[30],可见知识扩散沿袭本学科的主流研究主题且存在一定的后效性。但相比其他两个学科,缺乏跨学科实现知识迭代创新。其次,图情学在起步阶段的研究主题与经济学类似,多是基于原始算法的应用分析。而前者相比更注重对算法效率的讨论和模型的构建。猜想可能由于经济学扩散延时晚于图情学,期间知识本身也进一步发展,对原始算法的讨论减少,创新采纳学科对知识的应用更为成熟。此外,相比其他两个学科,经济学在起步阶段共词聚类效果较差,主题间存在交叉,说明該阶段研究主题较为分散。图情学和经济学一经进入起飞阶段,对k-means算法的创新迭代就迅速增加,但对知识采纳二次创新的发展路径大相径庭。图情学对知识的二次创新相比其他学科“后劲不足”——研究主题关键词的丰富度无明显增长,且对知识的吸收情况与前一阶段相似。最后,管理学的主题关键词数在起步阶段和起飞阶段都显著多于其他两个学科,且基于原始算法结合实际应用场景进行了较多改进,其中不乏融合多领域知识的跨学科知识交叉现象。可见k-means 算法在该领域的研究成果最丰富,扩散效果最佳。

4 结论与展望

为比较k-means算法在图情学、管理学、经济学的扩散情况,本文首先从扩散指标的角度定量探究知识扩散的特点,然后基于创新扩散理论,绘制扩散曲线,比较各学科所处的扩散阶段,预测k-means在各学科未来的扩散趋势,最后绘制共词聚类主题图,在主题层面上定性比较分析各学科采纳k-means的异同,试图为各学科吸收融合知识进行创新迭代提供参考建议,并得出以下结论。首先,知识扩散跨学科程度越高,创新迭代效果越好。图情学相比其他两个学科在各扩散阶段的研究主题丰富度较低,缺乏对k- means算法的二次创新。扩散延时越大,学科对知识的吸收应用成熟程度越高。经济学扩散延时最大,在起步阶段对算法原理的研究相对其他两个学科较少,多为实例分析。其次,知识扩散的再转化程度和该学科的知识扩散强度成正比。管理学采纳k-means算法的成果数和主题数都显著多于其他两个学科,综合人工智能等新兴技术成果和领域需求对算法进行了优化改进,基于算法的实例分析更为深入、涉及更广。最后,本研究的三个学科采纳k-means的成果数都处于高速增长期,为促进学科迭代创新,未来研究要凝练学科内涵,积极拓展学科外延,学科间互学互鉴,加强学科交叉,将理论成果应用于实际。目前对各学科具体扩散情况的主题对比分析中,主要基于共词聚类,缺少深入主题语义的挖掘,未来研究将结合语义信息探究知识扩散的异同。

猜你喜欢
对比分析管理学经济学
“天人合一”的管理学启示
简明经济学
张瑞敏金句背后的管理学知识
金桥(2020年8期)2020-05-22 06:22:42
送餐的巫术经济学 精读
英语文摘(2019年11期)2019-05-21 03:03:30
浅谈管理学
消费导刊(2017年20期)2018-01-03 06:27:47
成渝经济区城市经济发展水平比较研究
中国市场(2016年38期)2016-11-15 23:02:57
英汉动物词汇文化内涵的对比分析
中外优秀网球运动员比赛技术的对比与分析
体育时空(2016年8期)2016-10-25 20:16:08
经济学
新校长(2016年5期)2016-02-26 09:28:48
基于数据库的唐诗宋词对比研究
科技视界(2015年25期)2015-09-01 16:57:34