追踪物理学中的跨领域模因

2022-01-19 12:43闫光辉卢彬炜李世魁杨仕博
应用科学学报 2021年3期
关键词:模因测度短语

周 毅, 闫光辉, 卢彬炜, 王 珊,李世魁, 卫 祥, 杨仕博, 靳 丹

1.兰州交通大学电子与信息工程学院,甘肃兰州730070

2.甘肃同兴智能科技发展有限责任公司,甘肃兰州730050

3.国网甘肃省电力公司信息通信公司,甘肃兰州730050

近年来,一些社会问题和研究课题往往无法在单一领域内得到解决,于是跨领域研究逐渐成为一种新的解决思路。大数据的出现为探索科学结构及其发展模式提供了数据基础[1]。计算机科学、网络科学等科技的蓬勃发展为科学学研究提供了多种技术手段[2]。从研究引文分布[3-4]到合著网络[5-6]再到团队合作[7],科学学渐渐成为一门独立的、融合多学科知识的学科。虽然有些科学家更倾向于主流学科领域的创新[8-9]而不认可跨学科研究[8],但不可否认的是越来越频繁的跨领域交流对科学研究起到了一定的促进作用。文献[10] 的分析表明,论文和发明专利的组合往往能获得更高的影响因子。文献[11] 认为,如果把看似不相关的思想和方法成功地结合起来可能会产生很大的影响。但迄今为止这些宏观的跨学科研究往往以论文[9]、期刊[12]、学科领域[9]、团体[13]为研究对象,忽略了跨领域的微观本质—— 知识交流。

科学研究中知识的传播和演化从微观层面体现在知识随着论文的引用关系而传播[14]。用模因(meme)来描述知识的传播过程已经得到大多数学者的认同。模因由道金斯在《自私的基因》[15]一书中首次提出,他认为单词、旋律、食谱、思想等文化实体与基因的进化相似:都具有复制和突变功能,并且都用人类文化代替基因作为繁殖媒介。研究表明,模因的演化可以有效推动网络的扩散和演化[16]。在引文网络中,科学模因可以理解为论文中的短文本单位,在引用文献中被复制并以多种表现形式分布在不同领域[14]。分析模因在不同领域的分布可以有效追踪知识在不同领域的演进过程。因此,本文利用引文网络中的模因短语来推导知识在引文网络中的演化。

科学知识由包含在论文、书籍、专利、软件和其他学术制品中的概念和关系构成,这些知识元素又通过正式和非正式的信息流、思想等连接起来[17]。因此,科学知识可以描述为一个复杂的、自组织的、不断进化的多尺度网络[2]。网络科学为揭示知识的传播和演化提供了一个高效的工具。作为一种分析网络的工具,网络科学有助于更好地理解作者或论文在合著网络、引用网络中的作用。已有相关研究通过构建科学合作网络使知识的微观特征达到可视化,从而分析了合作网络的结构特性[18]。虽然不同领域表现出不同的网络拓扑结构[5-6],但是许多网络结构表现出相似的全局特性。小世界架构就是其中之一[6],它反映了领域内高度聚集、领域间稀疏连接的情况,为跨领域研究提供了一种思路。

本文从模因角度追踪跨领域的知识交流,构建模因关系网络,从而提出了一种分析科学文献中跨领域知识关系的研究框架,并将其应用于2000—2019年美国物理学会(American Physical Society,APS)数据集。在所构建的模因关系网络中,节点代表模因短语,边代表模因短语在论文摘要中的关联程度。利用有权无向的模因关系网络,本文对网络的结构特性和节点间关联度进行了探索性的研究,并着重进行以下实验:1)从引文网络中提取科学模因[14],构建模因关系网络,以探究其社团结构和小世界特性。2)基于之前论文多样性的研究[19],假设模因短语可以量化跨领域研究程度,提出了领域相似度,并计算模因跨领域指标,追踪到跨领域模因。

1 数据和方法

1.1 数据集

本研究的数据集使用物理学领域的引文网络,依托于APS 数据集(包含元信息及引用关系)和Web of Science 数据库中的APS 文献摘要信息。在选取数据集时从现实角度出发主要考虑物理学对科学界长久以来的影响力,从数据权威性看APS 数据集更能代表物理学的发展动态,且选取单一的数据集也有助于形成统一的标准化领域分类。

在数据预处理方面,本文根据文献唯一索引号DOI 将摘要信息整合到APS 数据元信息中,并提取出APS 数据集中的引用关系形成引文网络。

1.2 定义科学模因

文献中经常出现的短语或词汇可作为重要的模因,但是一些高频出现的词汇如理论、研究所包含的知识价值往往很低。文献[14] 提出了一种基于引文网络识别科学模因的算法,利用模因出现的频率及其在引文中的传播比例刻画出模因短语的得分。高分模因经常出现在被引论文包含模因短语的文献而很少出现在被引文献中不包含模因的文献。模因传播分数Pm和模因分数Mm的计算公式分别为

式中:dm→m表示包含模因m且引用文献中至少有1 篇文献包含模因的论文数量;d→m表示引用文献中至少有1 篇文献包含模因m的论文数量;dm→¯m表示包含模因m但引用文献中不包含模因m的论文数量;d→¯m表示引用文献中不包含模因m的论文数量;δ是一个控制参数,用于矫正分母为0 的情况,同时放大高价值模因的传播分数;fm表示包含模因m的论文比例。

本文使用文献[14] 提出的方法来识别科学模因短语。首先,从APS 数据集中提取出论文引用关系和摘要;其次,使用python 中的re 库对摘要进行分词,并根据引用关系建立论文和被引论文间摘要的对比关系,进而计算出式(1) 中4 种情况的数量关系以得出传播分数Pm;最后,计算模因分数Mm。

1.3 模因关联度网络

在定义科学模因的基础上,本文提取出分数排名前1 000 的模因,并根据模因所属论文的常见分类来划分模因所属领域。

网络中的节点代表模因,边代表模因a和模因b同时出现在1 篇文献。边权重为模因间关联程度,量化为关联系数Wab,且

式中:Cab表示同时包含模因a和模因b的论文数量,Ca¯b表示包含模因a但不包含模因b的论文数量,Ca表示包含模因a的论文数量,Wab系数表示模因a和模因b在论文中共现或不共现与只出现单个模因的差值的占比。

若两个模因总是成对出现或消失的概率大于模因无关联的概率,则Wab >0,模因间呈正相关;否则两个模因没有相关性。因此,本文只保留正相关的连接,即网络中权重为正的边表示模因间的关联程度。同时为了确定这一选择对网络结构及社团划分的影响,本文计算了无相关性的平均节点强度为−0.31×10−7,明显低于正相关的平均节点强度1.6×10−7,并以标准模块度划分社团结果,发现删除无相关的边对社团划分结果并不会产生影响。

为进一步探究模因关系网络的结构,本文计算了平均聚类系数和平均路径长度,发现模因关系网络的平均聚类系数为0.5(大于0.3)、平均路径长度为1.8(小于2.0)。这两个指标说明模因关系网络呈现出较为明显的社团结构[20]。

1.4 模因多样性指标

在不同的领域中,模因代表不同的含义。如何表征模因的跨领域特性是研究不同领域知识交流的关键。传统的跨学科研究往往以引文网络、合著网络为研究对象,忽略了更细粒度的知识流动。本文以模因关联网络为研究对象,用模因短语反映知识扩散现象,引入第2 代生物多样性测度Rao-Stirling(RS)指数[19]度量模因的多样性,并提出以模因关联度计算出的领域相似性代替传统的余弦相似性、曼哈顿距离等领域距离指标。

1.4.1 RS 多样性

1.4.2 领域相似性

模因所属领域由APS 数据集中包含该模因的一组论文集确定。如图1 所示,包含模因1的6 篇文献中有4 篇文献属于领域a,2 篇文献属于领域b,由此推导出模因1 属于领域a。如果领域i中的论文和领域j中的论文存在引用关系,那么领域i和领域j更相似[21]。将这一思想推广到模因关联度网络中,若领域i和领域j中的模因存在共现关系,那么领域i和领域j更相似。

图1 模因领域分类示意图Figure 1 Schematic diagram of meme field classification

本文提出基于模因关联度网络的领域间相似性度量指标Sij。如果模因间的关联跨越了领域i和j,则领域i和j的相似度增加;如果模因间的关联跨越了领域i和领域j以外其他领域,则领域i和j 的相似度减少;如果模因间的关联在领域内部,则不影响领域间的相似度。同时相似度的计算考虑模因间的关联权重Wab。领域相似度Sij定义为

式中:mi,j为领域i和j间所有模因关联度之和,

1.5 网络跨领域测度

为了从总体上度量一个学科内部的跨领域交流情况,单纯地累加领域相似度既缺乏可解释性,又忽略了不同领域维度对总体度量指标影响力的差异性。于是,本文借鉴Dworkin 衡量网络跨领域程度的思想[22]提出了宏观的、平衡各领域维度差异的网络跨领域测度。

将领域看作一个类,分别独立地考虑类外连接和类内连接,并用平均加权度的概念来衡量连接强度。类外连接强度大说明领域更倾向于跨领域知识交流,类间连接强度大说明领域更倾向于领域内知识交流,以两者的差值反映领域知识交流倾向。本文对所有领域分类求平均,以求平等地衡量不同规模领域对总体得分的影响。网络跨领域测度定义为

式中:领域i和j属于领域集合{c1,c2,··· ,cN},N为领域数量。

数控机床是当前制造业中最基础和最关键的设备,其中结合了很多学科知识,和其他设备相比,数控机床的结构与工作原理更加复杂。在这种情况下,数控机床在工作运行过程中很容易出现一些故障与问题,进而影响数控设备的正常工作。数控维修是数控专业中的关键课程,通过对课程的数字化,能够加强学生的学习能力,进而培养学生的专业能力。在数字化课程建设过程中,主要是从以下几方面进行实现:

2 结果和分析

2.1 科学模因

本文在构建APS 引文网络后使用式(2) 识别摘要中的模因[14],模因得分越高的短语或词汇越有可能成为领域研究中的模因。

表1 列出了2015—2019年期间APS 引文网络中排名前10 的科学模因。在百度词条中检索表1 中的模因可以发现,近5年物理学领域的研究热点主要聚焦在宇宙学、材料(石墨烯)、量子通信、流体力学领域。同时科学模因分数也在随着研究的深入不断演变,进而反映出模因短语的热门程度随时间变化的趋势。

表1 2015—2019年期间排名前10 的模因及其得分Table 1 Top 10 memes and their scores from 2015 to 2019

2.2 模因关系网络

通过识别模因可以探究热点知识的演变。本文用构建模因关系网络的方法实现模因间关系的可视化,直观地展示不同模因间的关联程度,揭示模因演化过程中的相互影响。使用式(3) 计算模因间的关联程度,并构建模因关联度网络。图2 描绘了模因关系网络,并刻画了网络社团结构。网络可视化使用Gephi 软件,其中网络可视化的具体设置为Fruchterman Reingold 布局(力引导布局)、快速模块化社区发现算法[23]和pagerank 算法[24]。

图2 2000—2019年期间模因关系网络Figure 2 Meme correlation network from 2000 to 2019

模因关系网络不仅能呈现出社区划分结果,而且能够反映不同领域中科学模因的社团结构。可以看到,具有更多跨领域联系的模因(统计物理、交叉学科物理等)往往表现出更强类间连接,并与非线性物理、量子通信、复杂网络的模因呈现较强的关联度。同一模因往往横跨多个领域。

模因关系网络中边的权重表示不同模因间关联程度,关键模因周围的关联模因反映了关键知识随时间的演化趋势。其他模因与关键模因的距离用余弦相似度度量,模因字体大小与关联程度有关。图3 显示2017—2019年期间分数排名第1 的模因“dark matter”、分数排名第2 的模因“graphene”与其他模因的关联度变化。

图3 2017年—2019年“dark matter”和“graphene”的关联度前10 的模因可视化Figure 3 Memes visualization of top 10 correlations about “dark Matter” and “graphene” from 2017 to 2019

2.3 模因多样性指标

本节在构建模因关系网络的基础上进一步探究其跨领域特性,追踪跨领域模因的多样性。首先,由模因的领域关系定义出不同领域间的距离dij=1−Sij。其次,将领域间距离dij代入RS 多样性指标Δ,得到模因跨领域得分。最后,通过模因关系网络的社团划分、网络跨领域测度指标和对比百度词条来验证模因跨领域分数的准确性。

2.3.1 领域相似性

为了量化不同领域间的模因扩散现象,本文以2000—2019年期间APS 模因关系网络为基础,由式(5) 计算出APS 的领域相似性Sij,从而得到领域间距离如图4 所示。从图4可以看到,关联度最高的两个领域为Gravitation, Cosmology & Astrophysics 和Particles &Fields,从模因关系网络中得到的领域间相似性均低于0.3,这与以往跨学科相似度度量指标一致[25]。图4 展示的领域相似度与模因社团划分结果相似,Particles & Fields 表现出较强的交叉领域特性,可见领域相似性有效反映了领域间的合作关系。

图4 领域间相似关系矩阵Figure 4 Matrix of similarity relationships between domains

2.3.2 RS 多样性

本小节探究领域相似度对模因多样性的影响。以Sij代替传统相似性度量计算RS 多样性指标Δ

式中:pi表示包含模因的论文中属于领域i的论文比例,Sij表示领域i和领域j的相似度。

3 验证实验

3.1 定性分析

表2 中的跨领域模因为图5 中的节点标签,节点大小可用PageRank 算法求出[24]。从图5 的社团划分结果[23]可以看出,20 个跨领域模因中有18 个模因明显处于不同社团连接处,从网络结构层面验证了跨领域模因的结构特性。

图5 2015—2019年期间模因关系网络社团划分及前20 名跨学科模因节点Figure 5 Community division of meme correlation network and top 20 interdisciplinary memes nodes from 2015 to 2019

表2 2015—2019年期间模因多样性排序前20 的跨领域模因Table 2 Top 20 cross-field memes in meme diversity ranking from 2015 to 2019

3.2 定量分析

本文采用1.5 节提到的网络跨领域测度方法定量分析跨领域模因的有效性。通过对比节点删除前后网络跨领域测度方法Sglobal的变化来分析删除节点对整个网络跨领域测度的影响。若删除网络中节点后网络跨领域测度Sglobal增加,则说明网络中跨领域连接减少,领域内连接增多,进一步推断出删除的节点为跨领域模因,反之说明删除的节点为领域内模因。

验证实验依次删除2015—2019年间模因多样性前20,30,50,70,100,150,200,300,400,500,600,700,800 节点后网络跨领域测度的变化趋势。图6 为删除模因多样性前n个节点和随机删除n个节点的实验对比图。

图6 2015—2019年期间网络跨领域测度Sglobal 实验对比Figure 6 Experimental comparison of network cross-domain measure Sglobal from 2015 to 2019

从变化趋势来看,在依次删除排序前100 个节点的6 次实验中,Sglobal逐步上升,说明排序前100 的节点对跨领域模因的刻画是准确的。同时依次删除排序前800 个节点后,Sglobal指标都比原网络有所上升,从而说明实验的有效性。与随机实验相比,跨领域模因的移除减少了整个网络的跨领域性。模因多样性排序100 以后节点的跨领域性质不明显(Sglobal<0.08),可以判断这些节点为领域内模因,在图6 中表现出网络跨领域测度的波动。可见,网络跨领域测度的验证可以说明本文得到的模因多样性排序是准确的。

3.3 跨领域模因的现实意义

为了进一步验证跨领域模因的现实意义。首先以表2 中排名第1 的“weakly interacting massive”为例检索维基百科和百度百科,发现该词汇主要解释为“弱相互作用大质量粒子,它是一种仍然停留在理论阶段的粒子,也是暗物质最有希望的候选者”。并且发现“weakly interacting massive”与表1 中热点模因“dark matter”存在直接联系,这一结果表明天文物理学家对暗物质的研究可以结合粒子领域中的弱相互作用大质量粒子的研究展开。

其次,依次检索表2 中排名前10 的跨领域模因,不难发现这10 个跨领域模因大多集中在天体物理、流体力学和粒子领域,其中属于粒子物理的跨领域模因有5 个,即:“weakly interacting massive”“quark matter”“Bose-Hubbard”“axions”“neutrino flux”,且这5 个模因都表现出与天体物理或流体力学的跨领域含义,进一步可以得出物理学中的粒子物理更具有跨领域特性。

最后,以科睿唯安发布的《2019 研究前沿》为基准,判断跨领域模因在知识创新方面的现实意义。《2019 研究前沿》指出物理学Top10 前沿研究主要集中在凝聚态物理领域的量子自旋液体、氮族二维材料、马约拉那费米子和拓扑声子晶体4 个方面,其中理论物理领域的量子力学模型,高能物理领域的四夸克态和五夸克态,天文物理领域的引力波、中微子、哈勃常数、伽马射线、宇宙早期暗淡星系等学术短语与本研究得到的跨领域模因高度关联。从表2 可以看出,《2019 研究前沿》所提出的物理学热点大多都被排名前10 的跨领域模因所涵盖,只有少数热点如马约拉那费米子、哈勃常数不在排名中。因此本实验在预测物理学前沿方面得到了较为准确的结果。

4 结 语

本文用模因短语表示微观视角下的知识概念,通过构建模因关系网络来研究跨领域知识交流现象,并将其应用于2000年以来发表在APS 系列期刊上的文献。模因关系网络表现出小世界、类内高聚集和类间连接稀疏的特性,表明所构建的模因关系网络能有效反映科学研究中知识的关联现象。由数据驱动的社区划分揭示了多领域中包含相同模因的跨领域知识交流现象。本文用新的领域相似性度量指标来发现网络中的跨领域模因,所得实验结果表明跨领域模因不仅在网络跨领域测度验证中表现较好,而且在与百度百科、维基百科和《2019 研究前沿》的对比分析中也表现出与热点前沿的高度关联。

本文从独特的模因角度研究跨领域中的知识交流现象,定义的跨领域模因对于解决热点问题、指导跨领域创新起到一定的积极作用;得到的跨领域模因与Kuhn 等人得到的研究领域热点模因[14]表现出极大的相关性,也间接证明跨领域研究往往紧跟研究热点,这为解决研究热点问题提供了新的解决思路。他山之石可以攻玉,科学研究思路或许可以从相关问题的跨领域模因中得到启发。

本文数据仅使用APS 数据集映射整个物理学发展,具有一定的局限性。有研究表明,研究领域在作者和引文网络中存在有较大差异[5-6],因此不同期刊的表现也可能存在差异性。未来的工作考虑以多个期刊数据源为基础来构建模因的多关系网络,并研究期刊间的结构变化。同时本文未从知识动态演化方面考虑跨领域模因的变化,未来工作将进一步考虑以时间窗刻画不同时期模因关系网络的跨领域变化趋势,以期更好地研究不同领域间差异性变化。

猜你喜欢
模因测度短语
三个数字集生成的自相似测度的乘积谱
R1上莫朗测度关于几何平均误差的最优Vornoi分划
非等熵Chaplygin气体测度值解存在性
Cookie-Cutter集上的Gibbs测度
模因视角下的2017年网络流行语
《健民短语》一则
基于模因论的英语论文写作探析
基于模因论的英语听说教学实验研究
从强势模因和弱势模因角度看翻译策略