孙 震,冷伏海
(1. 山东理工大学信息管理研究院,淄博 255000;2. 中国科学院科技战略咨询研究院,北京 100190)
大数据所引发的“ 数据洪流(data deluge) ”使得数据泛滥成为当前时代的特点,数据泛滥背后的 “知识匮乏” 现象严重影响着各行业的数据应用。其对科研领域的冲击更为强烈,这是由于科学数据资源的利用往往不在于大数据的表层加工,而是对大数据中萃取的 “有价值” 知识的挖掘和应用。例如,科研人员面对海量科技文献的选题或调研时,其目的常常在于聚焦特定选题的核心文献集合,挖掘与该主题密切相关、并反映前沿方向的领域知识。美国早在2012 年便提出了 “大数据研发计划(Big Data R&D Initiative) ”[1],旨在提高从大型复杂数据集中提取知识和见解(extract knowl‐edge and insights) 的能力。 中国工业和信息化部2014 年出版的《大数据白皮书》 中也曾提到,大数据分析技术需要将海量的、复杂的、多源的数据转化为机器可识别的具有明确语义的信息,进而从中提取有用的知识。
在此背景下,传统的科技情报工作有必要面向学科用户的领域 “问题需求”,开展基于专业领域的知识挖掘、处理、分析和利用的 “精准知识服务”。2007 年,时任中国科学技术信息研究所所长贺德方[2]就曾提出,科技情报工作应发挥支撑科研活动和战略决策的作用,帮助科技工作者更加方便地获取知识。2016 年,科技部副部长李萌[3]发文指出,信息技术与大数据的融合应用,已将科技情报研究工作转变为一种基于海量数据的知识分析和知识发现的过程。2019 年,时任中国科学技术信息研究所所长戴国强[4]指出,科技情报工作需要围绕宏观、中观和微观等不同层次用户需求,为科技创新管理与决策提供情报支撑。
要想实现由传统的 “信息” 对象到 “知识” 中心的情报工作的转变,一个重要的前提是能够通过知识计算及可视化表征,将隐含在文本内的重要知识及知识关系揭示出来,并利用相关的知识内容发现新的知识模式。计算机技术的飞速发展,已经使得信息的组织、存储和索引技术日趋成熟,但在科技情报研究领域,能够借助知识技术,实现科技文献隐含知识内容关系揭示,并进行知识发现的研究却为少数。究其原因,目前科技情报工作的分析对象主要局限在文献的标题、摘要、关键词等外部知识特征数据,这些数据源虽然能够反映部分领域知识,但在深入揭示文献内隐藏知识及其潜在知识关系方面仍具有局限性。
不同于关键词或主题词,本文前期研究提出的知识元概念[5-6],不再是学术文献抽象的、间接的代表符号,而是实实在在代表具体科学概念和创新内容的科学观点语言,是能够表征特定领域科学内涵的学科专业元素或基本要素。结合语言学、共现分析和引文分析的基础理论,利用文本挖掘和自然语言处理技术,对研究前沿语义层面的文本特征进行研究,已被证明能够探测研究前沿内部微观的科学知识结构特征[7]。 基于以上背景和前期研究基础[5-7],本文将研究前沿演进具象化为知识元的迁移,提出一种基于知识元迁移的ESI (essential sci‐ence indicators) 研究前沿知识演进分析方法,通过对研究前沿中的知识元迁移现象进行定量分析和迁移程度计算,从语义分析和知识计算的角度,进一步探索研究前沿的演进机理。以期能够更为深入地回答“研究前沿的追踪发展变迁,以及研究前沿形成后、后续研究在解决何种创新科学问题” 的问题,也为面向学科前沿的科技情报工作提供方法论参考。
对于科技情报工作而言,情报研究的方法论和产品应用性永远是决定情报产品价值的基础影响因素。 中国科学院与科睿唯安(Clarivate Analytics)联合发布的ESI 《研究前沿》 系列报告,就是在“文献计量+专家研判+综合分析” 综合集成方法上产生的科技智库情报产品。首先,利用共被引方法对WoS (Web of Science) 高被引论文进行聚类整合,筛选代表研究前沿的核心论文及其施引文献;其次,邀请权威领域专家进行专家独立评议、召开专家研讨会,对研究前沿内涵表现准确性进行把关评判;最后,研究团队将计量分析证据结果与专家评议意见进行综合集成,综合分析判读筛选,并确定最终的研究前沿分布。 具体方法流程如图1 所示。笔者曾有幸参与《研究前沿》 报告的研制过程,以及多次专家研讨会议,包括李国杰、于渌、姚檀栋等多位院士在内的权威领域专家,不但对研究前沿的结果内涵进行把关,还一再强调,《研究前沿》 高端智库产品应该基于领域真实的科研问题,始终把控两点 “应用” 属性:对国家科技政策制定者而言,《研究前沿》 应具有 “把握世界科技发展大势、研判科技发展战略方向” 的应用属性;对科研工作者而言,《研究前沿》 应具有 “监测和分析科学研究发展脉络、识别科技创新突破口和生长点” 的应用属性。
图1 ESI《研究前沿》报告“问题驱动”综合集成研制流程图
“对科技决策者有用、对科研工作者能用” 已然成为科技情报工作的基本特质。当然,正由传统“数据导向” 到 “问题驱动” 转变、由被动到主动转型的科技情报工作也面临着一系列挑战:科学计量如何突破传统的关键词、主题词、题录元数据的数据源局限?如何获取并深入挖掘文献内部的学科领域知识,尤其是那些代表领域关键问题的知识要素?科学计量学如何在语义语用走向上发展,计量口径的细粒度能深入聚焦到何种层次?科技情报工作如何走向科研一线,为科学家提供解决领域问题真正需要的情报产品?借助大数据分析工具技术,科技情报研究如何立足于 “机器” 和 “方法”,提供解决领域问题的 “精准化” 知识服务?这些挑战的解决,将在很长时间内决定着科技情报工作和科技情报研究的未来发展方向。
情报计量与监测是科技情报研究的核心技能之一,情报定量分析就是为了给态势研判提供定量的情报证据,只有从对专业领域问题的假设入手,才能保证情报揭示证实的专业准确性,满足用户的情报需求。ESI 研究前沿的研究和实践就是在此情报学理论背景上展开,然而,以往ESI 研究前沿工作常常侧重于计量学 “统计性宏观评价” 功能的体现,计量学 “规律性微观分析” 的特质鲜有描述,而ESI Research Fronts 中的知识元迁移现象,恰为我们提供了一个独特的视角,对ESI 研究前沿的定量演化规律进行深层次挖掘剖析。
ESI 研究前沿概括了6 年间成形的科学结构整体 “知识地貌”,而基于知识元的演进分析,则可以揭示 “知识地貌图” 的内在微观成因及其推演变迁脉络。例如,以物理学领域 “引力波” 研究为例,早在1916 年,爱因斯坦就发表论文预言了引力波的存在[8];1918 年,他得到引力辐射源的能量减少率与质量4 极矩3 阶变化率的关系[9]。就在爱因斯坦创立广义相对论的100 周年后,美国激光干涉引力波天文台(Laser Interferometer Gravitational-Wave Observatory,LIGO) 于2016 年宣布,观测到引力波产生于两个黑洞的并合[10],第一次观测到此种黑洞过程,并因此位列Science和Nature年度十大科学发现榜首,获得了2017 年诺贝尔物理学奖。如果从计量学 “科学地貌图” 主题演化监测结果上看,引力波研究在100 年前和100 年后都有 “知识地理位势” 的隆起,论文引用及其他指标关注度均较高。但是,传统基于论文外在知识特征的计量分析,无法揭示引力波研究 “知识地貌” 隆起的深层次原因;而借助知识元分析,不但可以发现高位势科学知识地貌成形的内在缘由,还能揭示知识元迁移的内在机理:100 年前,爱因斯坦预言了引力波的存在,革命了传统物理学的认知;100 年后,激光探测技术的革新性升级、灵敏度的提升,使得LIGO 探测器光路可以达到引力波波长的1/4,最终助力引力波的探得[11]。100 年前的 “广义相对论”“引力辐射源”“质量4 极矩3 阶变化率”,以及100年后的 “激光干涉”“迈克尔孙干涉仪”“Fabry-Pe‐ro 腔”“相位差振荡” 等知识元成为理解引力波研究不同时期引起轰动的关键,而 “引力波” 从与“广义相对论” 到与 “LIGO” 知识元组合发生的迁移现象,又成为推演 “知识地貌” 不同时期成形变迁的基础和证据。由此可见,深入文献内部的知识元研究,有助于厘清相同科学主题在不同时期由于“概念提出”“应用拓展”“技术升级”“方法革新”等科学创新要素引发的科学突破,这种优势是传统计量学研究无法实现的。
文献[7]的研究已经证明,ESI 研究前沿的语词特征表现为具有语义功能的知识元集合,而研究前沿演进过程实质上是与不同语义功能知识元相关的创新与应用的变化。例如,在《2016 研究前沿》 与钙钛矿太阳能电池相关的前沿中(表1),不同知识元具有不同的语义功能:organometal trihalide (三卤化有机金属化合物)、lead halide (卤化铅)、or‐ganic-inorganic (有机-无机) 等知识元代表了钙钛矿太阳能电池的不同研究材料组成; planar (平面)、heterojunction (异质结)、hybrid (杂化) 等知识元表征钙钛矿太阳能电池的不同内部构造类型;solution-processed ( 溶 液 法)、 low-driving-voltage(低压驱动)、encapsulated (密封) 等知识元代表了钙钛矿太阳能电池的制备实验方法; diffusion lengths (扩散长度)、trap-state density (俘获状态密度) 等知识元则表示钙钛矿太阳能电池具有的能量状态特性。知识元迁移外在表象是指相同的知识元在不同研究前沿出现的现象,其实质反映了研究前沿演进的过程中,知识元随时间推移、与其他知识元关联的创新应用变化。 例如,在表1 中,CH3NH3PbI3、perovskite 等 “钙钛矿” 知识元在不同年份与上述具有不同语义功能类型知识元的组合,不仅反映了不同时期钙钛矿太阳能电池的研究热点和创新突破点,也清晰地展现了一条钙钛矿太阳能电池技术的发展路径轨迹线:钙钛矿型太阳能电池在非晶硅、染料敏化、有机太阳能电池等基础上,已发展成为第三代太阳能电池的热门方向,其核心为有机金属卤化物吸光材料,主要是碘化铅甲胺(CH3NH3PbI3);但其在光电转换工作机理、具有大载流子扩散长度的材料制备、稳定性、光电性质等方面仍存在许多研究空间,是近年来的研究焦点。
表1 《2016研究前沿》钙钛矿太阳能电池相关前沿知识元分布表
类比于现实中科技人才种群的地域性迁移现象,知识元相当于具有不同本领与知识特长的科技人才种类,研究前沿相当于不同的地域方位,人才种群在不同地域的迁移流动,势必会对本地域的知识构成和科技创新具有一定的影响,引发当地的科技知识重组,推动科技的创新应用和发展。相应地,具有不同科技语义语用功能的知识元,在不同时期发生不同的迁移现象,与不同前沿的不同种类知识元进行重组,从专业领域的知识结构系统来看,势必会推动研究前沿的演进、革新研究前沿的科技突破方向。因此,研究前沿中的知识元迁移现象具有普遍性,而从研究前沿核心知识元随时间的变化迁徙入手,能够基于领域知识的最微观视角,剖析研究前沿内部科学知识构造的演变过程和机理。
本文在前期研究文献[7]的基础上,将研究前沿的演进分析深入到个体知识元层面,重点关注知识元的迁移现象,即知识元在不同前沿主题的引入与迁出。知识元迁移,是指相同知识元在不同时期前沿主题中出现的现象,指代前沿主题具有不同语义语用功能知识元所发生的变化,这是由于在研究前沿演进过程中,实际上反映的是与知识元关联的领域知识创新和应用的变化。而且从个体知识元演进规律分析入手,也是在前期研究基础上,进一步从微观专业知识结构角度理解研究前沿演进过程的驱动因素。
为了更有针对性地比较检验本文方法的延展性和有效性,首先,仍利用与文献[7]相同的全文语料基础数据,对于经过OSCAR4 (即OSCAR (The Open-Source Chemistry Analysis Routines) 工具的第4代Java 库版本) 知识实体识别和POS 词性标注(part-ofspeech tagging) 后的实验文本,将得到的知识元词袋(bag of knowledge elements) 实施PLDA (paral‐lel latent Dirichlet allocation) 算法进行主题建模(其实质是抽取文本的科学内涵主题,解析反映科学创新知识的内部结构),得到PLDA 训练抽取的不同时段 “前沿主题-知识元词项” 概率分布结果,每个知识元对应的概率可以看作是该知识元对前沿主题知识内容的贡献;其次,将 “前沿主题-知识元词项” 概率分布计算转置为 “知识元词项-前沿主题” 概率分布,考察知识元在不同前沿主题的分布情况下,知识元词项在对应前沿主题下概率越高,表明知识元与这个前沿主题研究联系越紧密,对于促进和推动该前沿主题的知识创新起到了重要作用;再次,利用信息熵(information entropy) 理论对知识元迁移进行定量表示(知识元词项-前沿主题分布的信息熵值变化表现的是知识元迁移程度的高低);最后,通过知识元词项前沿主题概率分布与信息熵值变化的可视化分析,绘制其随时间标签变化而变迁的历时迁移图谱,对研究前沿知识元迁移的稳定性和不同类型进行定量分析测度。具体研究方法流程如图2 所示。
图2 基于知识元迁移的ESI研究前沿知识演进分析方法流程图
LDA (latent Dirichlet allocation) 是一种可以计算文档主题概率分布的经典主题模型,由Blei 等[12]在2003 年提出,LDA 采用狄利克雷分布(Dirichlet distribution) 作为概率主题模型多项分布的先验分布,概率模型为
其中,θ为文档-主题概率分布,是隐式参数,需要通过概率推导求解;参数α和β是固定值,由用户预先定义,α可以理解为主题在遇到文本之前的被抽样频数,β则是主题遇到词汇语料库前所抽样获得的词汇出现频数;zm,n表示第m个文档中第n个词的主题;wm,n代表第m个文档中的第n个词,文档中各词项的阴影部分wm,n值是可观测的数据,文档主题等其他变量则均为隐含。
随着大数据时代的到来,学者们又提出基于共享及非共享内存的并行计算LDA 主题模型框架,以应对爆炸增长的数据处理需要。其中,非共享内存并行计算框架的LDA 主题模型算法相对更加成熟。 2008 年,Newman 等[13]提出,基于Gibbs sam‐pling 全局同步思想的近似分布狄利克雷分布模型(approximation distribution latent Dirichlet allocation,AD-LDA):先基于全局初始化主题模型参数,优化任一分配主题模型,然后经过同步融合获取全局主题模型参数。此后,Wang 等[14]又对AD-LDA 主题进行改进,并提出了PLDA 主题模型算法,提高了AD-LDA 主题模型的分析效率。
PLDA 模型相较于传统的主题识别方法,可以有效缩短文本集主题信息分析的抽取计算时间,且准确度高于LDA 模型[15];通过提高算法的运行效率及并行加速比,其在揭示词项语义关联关系上也更加有效,识别效率与精确性上均有提升[16]。因此,本文利用PLDA 主题模型算法,对知识元 “词袋” 进行抽取计算分析。具体来说,将前沿的每个Research Front 类比每篇文档的topic,每个Research Front 文本中的化学实体知识元(knowledge ele‐ment) 类比于每个topic 中的word 词项分布。
研究前沿中,知识元的迁移程度是与知识元在各前沿主题中的分布均匀程度相关联的。若要对知识元的迁移进行定量化表示,则问题的关键就在于寻找一个适用于表示知识元在不同时期、不同前沿主题文本内分布均匀程度的测量指标。解决该问题的核心在于对知识元在前沿主题中无序程度的测量,即对不确定性的量度。而测量一个系统的不确定性与无序混乱分布程度,就等价于测量这个系统的熵值。因此,本文应用信息熵理论对知识元在不同研究前沿随时间迁移程度进行定量化表征测度。
熵(entropy) 的概念最早起源于物理学,用于度量热力学系统的无序程度(失序现象)。在信息论(information theory) 中,信息论之父Shannon[17]于1948 年第一次提出了 “信息熵” 的概念,用数学语言阐明了概率与信息冗余度的关系,解决了信息的量化度量问题。
在传统经典热力学中,熵被定义为对系统的宏观测度,并没有涉及概率分布,而概率分布是信息熵的核心定义。信息熵值的大小表现是随机变量X所服从概率分布的均匀性,分布越均匀,熵值越小;分布越不均匀,熵值越大。熵值的取值范围在[ 0,1] 之间,最小值为0,最大值为1。在本文中,若某个知识元在某时刻前沿主题所有文本的实验部分均出现,则该知识元在该时刻内对于该前沿主题文本的熵值为0;若某知识元在某时刻只在某一特定前沿主题的特定文本实验部分出现,则该知识元在此时刻对于该前沿主题文本的熵值为1。某时期知识元的熵值表现,反映的是该知识元在此时期前沿主题中的研究均匀分布程度,熵值越小,证明此时期该知识元出现在科学家视野中越普遍,在前沿主题中分布越均匀;熵值越大,证明此时期该知识元在前沿主题受到的关注程度越小,分布越集中,研究均匀程度越低。而如果再加上时间标签,将某知识元在不同时期、不同前沿主题的熵值历时分布情况进行可视化展现,计算该知识元在相邻时段信息熵值的变化率值作为量度其迁移程度的标准,就能清晰地展示该知识元在研究前沿的迁移路径,进而从知识元个体变迁的视角展现该领域前沿的微观知识演进过程和规律。
在文献[7]的研究中,经过数据预处理和知识元实体识别后,每个时期研究前沿文本就构成一个词袋(bag of words,BoW),即知识元袋(bag of knowledge elements)。 依据词袋模型的前提假设,知识元袋中的知识元是独立同分布的,具有相同的权重,没有特定的先后顺序,就像随机无序地放入一个 “袋子” 内。经过预处理的文本语料,每行表示一定时期的一篇文本,每篇文本对应一个知识元袋。PLDA 主题模型在词袋假设基础上实施,得到的训练结果中,每篇文档表示为关于特定数目前沿主题的概率分布,即文档的主题概率分布。每个前沿主题又表示为关于特定数目知识元词项的概率分布,即主题的知识元词项概率分布。文档-主题概率分布中,每个主题对应概率大小可以看作该前沿主题对文档内容的贡献大小;相应地,主题-知识元词项概率分布中,每个知识元对应的概率大小可以看作这一知识元词项对前沿主题内容的贡献大小。
本文的目的是,从知识元个体角度探究其随时间推演时,在不同前沿主题中出现及相关属性的变化迁移规律,因而,对文献[7]的研究中得到的所有知识元个体均进行实验并不现实。可行的方法是,先从所有时段的综合文本集合内,选定抽取具有全局代表性的小数据量知识元,对这些起到关键核心作用的知识元进行个体视角的定量化迁移分析研究,以证明该理论方法的可行性和实用性。因此,首先要做的是利用PLDA 从所有文本中抽取具有代表性的全局前沿主题,确定下文需要分析的关键核心知识元集合。
关于PLDA 模型抽取前沿主题数目的选定,结合本文的研究目的,对钙钛矿太阳能领域研究前沿主题进行考察,前沿主题抽取数目不宜过多。综合考虑选取研究前沿领域数据规模,针对2010—2017年共2677 篇全文文本的实验部分数据,进行全局前沿主题下的知识元抽取,最终选定5 个前沿主题。经过多次预处理实验,为保证识别结果的精确度和全面性,PLDA 相关参数最终设置为:No. of topics(主题数) 设为5 个,No. of words per topic (每个主题下的知识元词项) 设为50 个,Alpha 设为0.1,Beta 设 为0.01,No. of iterations 设 为1000,No. of threads (线程数) 设为8。另外,在文献[7]的研究中发现,该领域前沿文本在进行知识元实体抽取时,存在化学归属类别过多、体量过大的问题,噪音数据过多,因此,为了更好的进行数据清洗,依照PLDA 主题模型识别后的概率数值降序排列结果,每个主题下初步选取50 个知识元词项,然后,人工去除无实际化学意义或指代过为宽泛、不具有领域代表性的知识元词项,每个主题最终筛选保留排名前10 位的高概率知识元,以保证这些知识元不仅能代表每个前沿主题的研究方向侧重,还将是下文进行定量迁移研究的主要分析对象。
表2 中列出了经过PLDA 主题模型识别得到的5个全局前沿主题,并对应筛选保留的权重最高的前10 位核心知识元词项分布。
表2 全局前沿主题抽取结果(权重值排名前10位的核心知识元)
利用表2 中5 个主题的知识元分布,发现通过PLDA 对2010—2017 年全文文本的主题抽取,可以从该前沿微观知识元成分组成的角度,探测出5 个极具代表性的全局前沿主题。其主要研究内容概述如下。
Topic1 前沿主题可以概括为对染料敏化太阳能电池(dye-sensitized solar cells,DSSC 或DSSCs)、量子点(quantum dots,QD 或QDs) 太阳能电池的改进研究;Topic2 前沿主题主要是涉及对钙钛矿太阳能电池的基本结构及其主要材料组成的研究;Topic3 前沿主题主要是对新型、高效溴化物(bro‐mide) 钙钛矿太阳能电池材料的研究和探索;Top‐ic4 前沿主题主要包含对透明导电电极(fluorinedoped tin oxide and indium-doped tin oxide,FTO/ITO)和金属对电极(counter electrode) 等钙钛矿太阳能电池的 “电极工程器件” 研究;Topic5 前沿主题主要包括石墨烯及相关二维晶体材料(graphene and related materials,GRMs) 在钙钛矿太阳能电池中的应用研究。
由上文可以看出,利用PLDA 主题模型算法,不仅可以描绘近年来该前沿的全局热点主题外貌轮廓,还能准确地识别每个主题内具有代表性的核心知识元组分。另外,通过上述5 个Topic 的概述与文献[7]中识别结果的比较,也能看出5 个全局Topic所包含的50 个高位知识元,基本可以反映钙钛矿太阳能电池前沿的研究全貌。因此,若进一步从中筛选关键核心知识元,对每个知识元在不同前沿、不同时期的迁移现象进行探究,则能够深入到该前沿的科学知识结构内部,从最细微、最直接的视角观测研究前沿的知识流动和演进特征。
对表2 中抽取得到的知识元列表作初步处理,结合5 个全局前沿主题(Topic) 反映的钙钛矿太阳能电池的研究方向侧重,除去重复的知识元,合并含义相同的知识元,去除指代过为宽泛(如halide、bromide、CsPbX3、HTM 等)、单独存在时无实际化学意义的知识元(如graphite、SiC 等),去除只作为中间化学试剂或电池衬底、并非构成钙钛矿太阳能电池最终材料组分的知识元(如MAI、 PbCl2、SLG),去除只作为钙钛矿太阳能电池前期改造基础、与钙钛矿太阳能电池本身核心部件无关的知识元(如QDs 和QD、DSSC 和DSSCs)。5 个全局Top‐ic 共余剩30 个知识元,具体组成如表3 所示。
表3 每个Topic的关键核心知识元组成
由于本文的研究目标是在文献[7]中的知识元链接整体关系推演的基础上,从知识元个体在不同时期的迁移特征入手,探索研究前沿的演进规律。但即便是将单个知识元作为分析对象,也不应是对表3 中30 个知识元杂乱无章的简单排布对比。文献[7]已证明,知识元在科技文本中并非无序散乱分布,而是在某特定语义空间位置、以特定科学语用功能有序集合排布。也就是说,在科技文献中,具有相似语义和语用的知识元,当以一定语义语用规则加以标注时,可以以 “知识元组” 的形式组合分类。在本文中,知识元语义功能的具体体现是,知识元代表不同的化学意义,可以利用化学领域知识要素分类进行语义标注;而知识元语用功能的具体表现是,知识元是构成钙钛矿太阳能电池系列材料、器件、溶液的基本组成成分,可以与不同的知识元组合应用,合成、制备、生产具有不同化学特征和效用的钙钛矿太阳能电池构件,能够利用钙钛矿太阳能电池的结构组成对知识元的语用进行分类标注。因此,为了便于在相同语义和语用情境下进行知识元的迁移参照比较,还需从知识元所具有的特定语义和语义功能入手,对表3 中的知识元进行标注,分组标注结果如表4 所示。
表4 关键核心知识元语义语用功能分类标注
通过上述对知识元语义语用功能的标注,可以清晰地看出知识元所具有的代表实际领域知识内涵的组合分布。如果以表征钙钛矿太阳能领域的某一特定知识元组内、具有相同语义和语用的知识元为研究对象,从该组知识元个体在前沿演进中的定量迁移规律入手,进而将该组内所有知识元对该前沿主题的历时贡献与迁移程度进行定量计算并予以可视化表示,就能清楚地展现该研究前沿内在知识结构随着时间演进的变化规律。
由钙钛矿太阳能电池的工作原理和结构组成可知[18],无论是何种结构的钙钛矿太阳能电池,电子传输层、钙钛矿光吸收层、空穴传输层、金属对电极、导电玻璃基底都是其最重要的组成部分。这些组成部分不仅在电子空穴的生成转移到电流产生过程中起到不可替代的作用,也是能够提高钙钛矿太阳能电池光电效率和构件稳定性的关键创新要素。因此,要想从细粒度专业知识构造的角度研究钙钛矿太阳能电池前沿的演化路径,就应以其最重要的材料组件作为研究对象,基于这些代表核心器件材料语义语用功能的知识元组,探究组内单个知识元的定量迁移情形,挖掘钙钛矿太阳能电池不同时段核心器件材料内在构成特点和机理。
此外,为更好地对比观测知识元的定量迁移情况,用于迁移分析的同语义组知识元不宜太少,而导电玻璃基底和空穴传输层分别只包含ITO 和FTO、spiro-OMeTAD 和P3HT 两类材料知识元(这也与现实中两器件的材料种类分布情形相似)。因此,最终选取表征金属对电极材料、电子传输层材料以及钙钛矿吸光材料语用功能的3 个知识元组,将其内拥有相同语义功能的单个知识元作为定量迁移分析的目标对象,各知识元组成分如表5 所示。
表5 用于定量迁移分析的目标知识元组
本文基于研究假设,设计两种用于知识元迁移的定量测度指标:贡献度指数CVI (contribution value index) 和迁移度指数MVI (migration value index)。
研究假设1:某知识元对于前沿主题的概率值越大,证明该知识元对于前沿主题的语用内容贡献越大、热度越高,对于前沿主题知识创新作用也越大。
为了保证知识元对于前沿主题概率分布测度的准确性,最大限度地避免偏差,本文在2010—2013年、2014 年、2015 年、2016 年、2017 年5 个 时 间 窗口,每个时段分别利用PLDA 主题概率模型训练抽取5 个前沿Topic;同时,为了更好地去除噪音数据,并拥有足够的数据量以支持知识元的对应指标分析,每个Topic 下仍识别保留50 个高权重知识元,然后,分别计算5 个Topic 下任一知识元个体的主题概率值。具体来说,由于PLDA 算法识别出的主题是由前沿主题标签Topic、知识元词项word 以及每个word 对于该前沿主题的权重值weight 组成,即前沿Topic= {word1, word2, word3, … , word50}; Topic weight={weight1, weight2, weight3, … , weight50}。 因此,t时刻某特定知识元K对于该前沿主题的权重概率Pt,即该知识元的权重值除以主题内所有知识元权重的加和,计算公式为
其中,WK表示知识元K相对于该前沿主题的权重值。
因此,对于t时刻某特定知识元个体而言,将该时间窗口下5 个 “前沿主题-知识元词项” 转置计算形成 “知识元词项-前沿主题” 概率分布后,其在5 个前沿主题的权重概率分布就构成了Kw={P1,P2,P3,P4,P5}五元数组,则该知识元在此时间窗口下,对总体前沿主题知识内容的平均贡献度CVI,即知识元在此时刻相对于5 个Topic 权重概率总和的平均值,计算公式为
贡献度代表了该知识元此时段在前沿主题的平均分布情况,知识元词项在对应前沿主题下贡献度越高,表明知识元此时期与这个前沿主题研究联系越紧密,对于形成该前沿主题科学知识内容 “地貌” 的贡献程度越大,即对于促进和推动该前沿主题的知识创新起到了越发重要的作用。
研究假设2:某知识元对于前沿文本的信息熵值越大,证明该知识元在前沿文本分布越不均匀,越少有科学家在化学材料实验制备中予以应用;而若某知识元在相邻时期内的熵值相对变化率(熵变) 越大,则证明该知识元在科学家实验中应用的关注变化速度越大,在此时间间隔内可能作为推动某类科技创新的重大知识拐点存在,对于促进科技前沿突破具有重要作用。
知识元在前沿主题迁移的稳定性程度利用其相邻时段熵值变化率来衡量。对于某特定知识元而言,首先需要分别计算其在2010—2013 年、 2014年、2015 年、2016 年、2017 年五个时段下对于前沿主题文本的信息熵值。由于信息熵值的大小表现的是随机变量X所服从概率分布的均匀性,分布越均匀,则熵值越小;分布越不均匀,则熵值越大。结合钙钛矿太阳能电池领域的研究特点,一般情形下,革命性创新器件材料刚开始总是会有少数科学家关注并应用于实验制备,因而,知识元在起始年份主题文本中的分布会非常不均匀,信息熵值较大;等到越来越多的科学家意识到该材料对于钙钛矿太阳能电池光电效率和稳定性等起到的革新突破效应,该知识元随时间演进将会被更多的科学家用于实验研究,故其在后期主题文本中出现的情况将变得较为普遍,分布趋向均匀,信息熵值逐渐变小。因此,假设某知识元在T1时刻对于前沿主题文本的信息熵值(entropy value) 为EV1,在相邻后一时段T2时刻的对应信息熵值为EV2,则该知识元在此两时段间对于前沿主题文本的迁移度指数MVI,计算公式为
其中,|EV2- EV1| 为从前一时刻到后一时刻知识元的绝对熵变数值,将其与前一时刻的信息熵值EV1相除,所得到的值即为知识元在后一时刻相对于前一时刻相对熵值的变化程度和迁移速率。
知识元的熵值表现反映的是该知识元在此时期前沿主题中的研究均匀分布程度,熵值越小,则证明此时期该知识元出现在科学家视野中越普遍、在前沿主题中分布越均匀;熵值越大,则证明此时期该知识元在前沿主题受到的关注程度越小、分布越集中,研究均匀程度越低。而熵值后一时期较前一时期的相对变化率反映的是该知识元的迁移程度大小,迁移度指数越大,表明此时段期间,该知识元在科学家实验应用中的相对关注变化速率越大,可能对于性能的改良、革新或升级的影响推动力也越大;迁移程度越小,说明该知识元一直作为科学家实验的基本材料成分存在,关注程度并未发生突变。若某知识元的相对熵值变化率越大,则该知识元作为引起科学家实验关注程度突变的关键节点,对于识别可能在某时段引发重大科技革新的核心创新知识元具有重要意义。
4.5.1 金属对电极前沿主题知识元迁移特征
Au、Ag、Cu 是钙钛矿太阳能电池领域金属对电极前沿主题的目标知识元对象。基于每个时段转置后的 “知识元-前沿主题” 矩阵,首先需要计算知识元在5 个时间窗口下,5 个不同前沿Topic 的权重概率,并在此基础上计算知识元的贡献度指数CVI,以知识元Au 为例,其相应结果如表6 所示。
表6 知识元Au在不同时段局域主题的概率权重与CVI分布
由于每个时段所抽取的5 个局域前沿主题,其实质为筛选该时段对科技前沿具有重大贡献程度的领域知识内容,反映了科学家在不同文本Experi‐mental Section 部分描述的、对钙钛矿太阳能电池某材料组分的实验研究热度。也就是说,5 个Topic 只能代表特定年份科技前沿的关键核心知识主题领域,每个Topic 内也只由研究热度达到一定阈值的知识元组成。因此,假使知识元某时段只在个别科技文本实验中予以使用,其对该前沿主题知识内容的贡献程度,以及科学家对该知识元材料的研究热度,并未达到一定阈值,那么极有可能该知识元在此时段的所有5 个局域主题中均未出现,其该时段对应的概率权重值和CVI 值均可以为0。
进一步而言,即使某知识元在某时段5 个局域主题中的权重概率Pt值均为0,该时段对于全部前沿主题的贡献度指数CVI 值为0,只是表示知识元未包含于高研究热度和高知识贡献度知识元所聚成的簇集中,知识元只是对关键核心局域主题没有贡献,并不一定意味着该知识元在全局前沿主题文本中均未出现。因此,对于这些主题概率权重和CVI值均为0 的知识元来说,就需要进一步辅以知识元在不同时段对前沿主题文本的信息熵值(代表该知识元此时期在不同文本实验部分出现的均匀无序程度,反映科学家在实验中对知识元材料的应用程度和关注热度) 及其熵值相对变化迁移度指数MVI 进行整体权衡剖析。金属对电极Ag 和Cu 知识元均具有此种情形,其具体主题权重概率、CVI 值和信息熵值EV (entropy value) 计算结果分别如表7 和表8所示。
表7 知识元Ag不同时段主题权重概率、CVI和信息熵值分布
表8 知识元Cu不同时段主题权重概率、CVI和信息熵值分布
需要说明的是,前沿主题的演进分析需要借助主题内各知识元权重概率的量化比较,为了能够更好地反映知识元对前沿主题的相对贡献程度,还需要对各组内知识元所对应的CVI 值进行归一化处理,以便于直观的对比各知识元对主题内容知识的贡献程度大小。最后,结合该组内所有知识元在不同时段的贡献度指数CVI 值、信息熵值及代表相对熵变速率的迁移度指数MVI 值,通过对比同语义语用组内各知识元随时间推演的定量迁移情况,即可展现前沿主题内部科学知识结构的变迁规律和演化脉络。
金属对电极前沿主题内Au、Ag、Cu 知识元的CVI 值(归一化处理后)、信息熵值分布情况如表9所示。
表9 金属对电极前沿主题各知识元CVI值和信息熵值分布
将Ta定义为2010—2013 年到2014 年的间隔时段,将Tb定义为2014—2015 年的间隔时段,将Tc定义为2015—2016 年的间隔时段,将Td定义为2016—2017 年的间隔时段,则Au、Ag、Cu 知识元在4个时间间隔内的MVI 值与熵值增减情况如表10所示。
表10 金属对电极前沿主题各知识元MVI值与熵变分布
金属对电极前沿主题内Au、Ag、Cu 知识元随时间演进的CVI 贡献度指数迁移曲线如图3 所示。
图3 金属对电极知识元CVI贡献度指数迁移曲线
金属对电极前沿主题内Au、Ag、Cu 知识元随时间演进的信息熵值变化曲线及其MVI 迁移度指数表现如图4 所示。
图4 金属对电极知识元信息熵值变化曲线与MVI迁移度指数
结合图3 和图4 中所展现的知识元迁移情况,从不同视角对钙钛矿太阳能电池金属对电极前沿的知识演进规律进行总结分析:在2014 年之前,Au对该前沿主题的贡献度指数最大,由于Au 相比于其他金属电极的化学稳定性更高,不易与其他物质发生反应,更容易获得稳定的电池性能,此时,科学家在实验中主要利用Au 作为电极关键材料,开展钙钛矿太阳能电池研究。然而,科学家逐渐发现,Au 原子在较高温度下(高于70℃) 会向钙钛矿层扩散,导致电池效率的衰减[19]。因此,从2015年开始,Au 不再作为高热度权重知识元出现,由核心知识元簇变迁到边缘知识元类簇,并且MVI 指数也较高,迁移程度较大。
同一时期,Cu 作为钙钛矿太阳能电池顶电极引发科学家的关注,知识元Cu 由边缘发生迁移,成为前沿主题的核心知识元。Cu 作为金属对电极,不仅可以使得钙钛矿太阳能电池表现出极好的电池性能(光电转换效率>20%) 和稳定性,加上其价格比Au 和Ag 较为低廉,在电池的工业化推广应用方面,Cu 具有更大的竞争优势。Cu 在2014—2017年的信息熵值曲线呈直线减少趋势,MVI 指数也逐年升高,说明随时间推移,知识元Cu 在越来越多主题文本的Method 部分出现,作为电极材料在越来越多实验制备中予以应用。
另外,知识元Ag 在各时期对前沿主题内容贡献程度和前沿主题文本分布均匀程度介于Au 和Cu之间,整体CVI 指数和MVI 指数相较而言未发生较大幅度变化。 Ag 相较于Cu 作电极材料时不易腐蚀、相较于Au 经济成本稍低,这使得Ag 成为钙钛矿太阳能电池的一种重要电极材料,其对中心前沿主题的知识贡献程度一路攀升,并逐步超过Cu,且近年来在钙钛矿太阳能领域实验文本中分布的均匀程度也超过了Au。
4.5.2 电子传输层前沿主题知识元迁移特征
与上一前沿主题计量算法相同,电子传输层前沿主题内TiO2、ZnO、Al2O3、PCBM 知识元的CVI值(归一化处理后)、信息熵值如表11 所示。
表11 电子传输层前沿主题各知识元CVI值和信息熵值分布
TiO2、 ZnO、 Al2O3、 PCBM 知识元在4 个时间间隔内的MVI 值与熵值增减情况如表12 所示。
表12 电子传输层前沿主题各知识元MVI值与熵变分布
电子传输层前沿主题内TiO2、 ZnO、 Al2O3、PCBM 知识元随时间演进的CVI 贡献度指数迁移曲线如图5 所示。
图5 电子传输层知识元CVI贡献度指数迁移曲线
电子传输层前沿主题内TiO2、 ZnO、 Al2O3、PCBM 知识元随时间演进的信息熵值变化曲线及其MVI 迁移度指数表现如图6 所示。
图6 电子传输层知识元信息熵值变化曲线与MVI迁移度指数
通过图5 和图6 可对构成钙钛矿太阳能电池电子传输材料的关键知识元迁移情况进行判读,挖掘电子传输层前沿主题随时间演进的知识结构变迁特征和规律。TiO2在各时间段均毋庸置疑的处于电子传输层材料的绝对核心地位,虽有起伏,但CVI 值相较于其他同语义组知识元均为最高;其信息熵值虽逐步增长,但持续在低位值域演进,证明其作为主要的电子传输层材料成分,在各时期前沿主题实验文本中均有提及和应用。这种规律也印证了文献[7]得出的相应结果,在钙钛矿太阳能电池中,纳米TiO2由于具有合适的禁带宽度、良好的光电化学稳定性、电子迁移率较低、制作工艺简单等特点,被作为电子收集和传输材料,获得了广泛应用[20]。
ZnO、Al2O3、PCBM 知识元在各年间的CVI 值和信息熵值差别不大,说明这3 种知识元材料成分在实验制备中的使用热度和对电子传输层前沿主题的知识贡献程度较为平均。值得注意的是,相较其他两种知识元,ZnO 对前沿主题内容贡献更大,且在2014 年间获得了最大的MVI 值,表明在此期间ZnO 知识元的迁移程度最大,科学实验中对其研究关注的突变速度最大,可能作为电子传输材料的重要知识拐点,对改良或提高钙钛矿太阳能电池性能具有重大的推动作用。查阅专业文献也证实了该规律,在2013—2014 年,有诸多研究发现,ZnO 作为电子传输材料的巨大创新效应。例如,2013 年,Bi等[21]利用ZnO 纳米棒替代多孔TiO2作为电子传输层,将得到的钙钛矿太阳能电池暴露于空气中500 h 进行实验,发现电池的效率仅由原来的5.0% 下降到4.35%;2014 年,Son 等[22]利用电子传输能力更高的ZnO 替代TiO2框架,研究发现,在ZnO 框架下,生长的钙钛矿太阳能电池效率提高到11%;同年,Liu 等[23]结合低温工艺,以ZnO 作为电子传输层材料,在玻璃和PET 柔性衬底上分别制备出光电效率达15.7% 和10% 的平面异质结钙钛矿太阳能电池器件。
Al2O3和PCBM 知识元对该前沿主题的知识内容贡献度相对较低,但PCBM 的熵值曲线呈连续下降趋势,在2014 年MVI 指数最高,此后CVI 指数有小幅上升迹象。PCBM 等富勒烯衍生物分子层用作电子传输材料(electron transporting material,ETM) 时,可以降低缺陷态密度,减小载流子复合,提高填充因子,使得该知识元成分被越来越多的科学家所重视,有更多的实验采用了此类材料,在前沿主题文本中的分布也越来越均匀。由于没有TiO2等材料在紫外光中的氧分子解吸附效应,使得Al2O3体系器件在全光谱太阳光照射下仍有稳定的光电流输出,因此,Al2O3虽然不是主流的ETM 材料,但常与TiO2作为复合电子传输材料应用[24]。Al2O3的CVI 值各时期均较低,且其熵值曲线自2015 年呈直线增长趋势,MVI 指数也较高,说明其作为电子传输材料成分受科学家关注的热度越来越小。
4.5.3 钙钛矿吸光层前沿主题知识元迁移特征
钙钛矿吸光层前沿主题内CH3NH3PbI3、CH3NH3PbBr3、 FAPbI3、 CsPbI3、 CsPbBr3、 CsPbCl3知识元的CVI 值(归一化处理后)、信息熵值分布如表13 所示。
表13 钙钛矿吸光层前沿主题各知识元CVI值和信息熵值分布
CH3NH3PbI3、 CH3NH3PbBr3、 FAPbI3、 CsPbI3、CsPbBr3、CsPbCl3知识元在4 个时间间隔内的MVI值与熵值增减情况如表14 所示。
表14 钙钛矿吸光层前沿主题各知识元MVI值与熵变分布
钙钛矿吸光层前沿主题CH3NH3PbI3、CH3NH3PbBr3、FAPbI3、CsPbI3、CsPbBr3、CsPbCl3知识元随时间演进的CVI 贡献度指数迁移曲线如图7 所示。
图7 钙钛矿吸光层知识元CVI贡献度指数迁移曲线
钙钛矿吸光层前沿主题CH3NH3PbI3、CH3NH3PbBr3、FAPbI3、CsPbI3、CsPbBr3、CsPbCl3知识元随时间演进的信息熵值变化曲线及其MVI 迁移度指数表现如图8 所示。
图8 钙钛矿吸光层知识元信息熵值变化曲线与MVI迁移度指数
利用图7 和图8 的可视化展现,结合表13 和表14 的计量指标分布,可以对钙钛矿吸光层的6 种关键核心知识元的迁移演进规律进行分析解读。CH3NH3PbI3是唯一一种在所有年段对前沿主题核心知识内容均有所贡献的知识元材料,并在2015 年的知识贡献程度达到峰值。MVI 曲线也显示CH3NH3PbI3在2014 年开始熵变迁移程度最大,对应的熵值在此后一直处于较低值域位置,直至2017 年才有所波动。实验证明,由于碘化铅甲胺(CH3NH3PbI3) 具有高载流子迁移率、高光吸收系数和宽吸收光谱、低激子束缚能、低缺陷态浓度以及可低成本溶剂制备等诸多优点,使其成为应用最为广泛的半导体钙钛矿吸光材料。除此之外,由于CH3NH3PbBr3同为甲胺基(MA 基,CH3NH+3) 卤 化 物,与CH3NH3PbI3相比,可提高钙钛矿导带位置,降低价带位置,有利于实现钙钛矿与电子选择性接触电极间的电荷注入,有效提升器件开路电压[25]。因此,CH3NH3PbBr3知识元在经历2014—2015 年两次跃迁式熵减变化后,EV 熵值曲线逐渐趋于平缓,作为钙钛矿吸光层材料在实验文本中均匀分布,MVI 迁移度指数较低,对前沿主题的知识贡献度CVI 指数逐渐升高。
FAPbI3也是一种较为常用的钙钛矿吸光材料,自2009 年日本Miyasaka 教授首次将钙钛矿应用于太阳电池以来,英国Snaith 研究组和韩国Park 研究组先后将碘化铅甲脒(NH2CHNH2PbI3,FAPbI3) 用于平面和介孔结构,获得了14.2% 和16.01% 的电池效率;2015 年,韩国化学技术研究所Sang Il Seok 团队在Science上发文,利用FAPbI3作为光吸附材料,更是取得了超过20% 的转换效率[26]。相比于传统的MAPbI3,FAPbI3具有更强的耐高温能力与热稳定性、更为宽广的光吸收能带结构(吸收截止波长838 nm),在未来的实用化应用更有优势,因此,其自2014 年开始对该前沿主题核心知识贡献度CVI指数逐年增长,对应的信息熵值也逐年降低,在前沿主题实验部分文本中有越来越多的相关描述,MVI 迁移度指数在2015 年和2016 年也是持续走高。
CsPbI3、CsPbBr3、CsPbCl3知识元的CVI 和MVI等指标的迁移演进情形较为相似,均是近几年才开始对钙钛矿吸光材料前沿主题的核心知识有所贡献。钙钛矿吸光层纳米晶的结构通式为ABX3,其中,B 为金属离子Pb2+或Sn2+;X 为卤素离子Cl‑、Br‑、 I‑或其二元三元混合物,如果将A中常用的MA基、FA 基替换为阳离子铯(Cs+),就构成了全无机卤化铅铯钙钛矿(CsPbX3),上述3 种知识元均属于此类材料。由于有机无机杂化钙钛矿的双分子辐射复合过程缓慢,所含碘甲胺(MA) 和甲脒(FA) 两种有机阳离子容易吸湿,使得此类吸光材料对湿度、热度和氧气非常敏感,容易导致器件失效,为了解决材料的合成稳定性等问题,含Cs 全无机钙钛矿2014 年开始引起科学家重视[27]。由于理论计算得到CsPbX3(X=I、Br、Cl) 的禁带宽度分别是1.11eV、1.12eV 和1.46eV[28],带隙更低的CsPbI3因具有更高的吸光范围而在早期获得更高使用率,熵值相对较低,在更多实验文本中出现。此后,科学家逐渐发现CsPbBr3的荧光量子效率最高约为90%,且稳定性好,纳米晶的生长具有较好的操作可控性[28],因此,CsPbBr3在2015 年后的CVI 指 数增幅较大,对该前沿主题内容贡献越来越大,信息熵值也呈直线下降,MVI 指数连年增长,在科学实验中的分布应用率逐步达到CH3NH3PbBr3的水平。虽然CsPbCl3知识元的EV 值呈下降趋势并于2016 年趋于平稳,但其熵值一直处于该前沿主题的最高位置,并且MVI 指数逐年降低,直至2017 年才入选前沿主题的核心知识元簇,这说明该组分作为钙钛矿吸光材料较少受到科学家关注。
研究前沿的演进过程,反映的是前沿主题从内容到结构随时间的变化情况,这种变化涉及前沿主题内多种结构和知识特征,当前主题演化研究对于主题内容微观知识结构的分化融合以及细粒度知识交流情况的关注较少[29]。在文献[7]的研究中,已经从知识元组成链接和网络的知识社区内在构造规律入手,对研究前沿的演化路径进行了探究。本文在此基础上,进一步研究知识元的迁移现象,即以前沿主题的个体知识元作为分析对象,从最为直接、最为细粒度的视角,对研究前沿随时间变化时内在知识结构特征的变迁规律进行挖掘,揭示知识元在不同时期的新生、成长、收缩等演化状态。
研究前沿主题在本质上是具有不同语义语用功能的知识元集合,要想理解研究前沿的演化机理并对其进行深入分析,就需要最终落脚到对单个知识元的分析之上。本文所进行的前沿主题演化过程中,知识元的定量迁移研究是关于研究前沿定量演进分析的一个比较新的切入视角,其核心是考察具有相同语义语用功能的知识元组合,在不同前沿主题文本中的历时分布情况,并基于此对研究前沿演进过程实施更为细粒度(单个知识元粒度,即词语粒度) 的分析,以实现对研究前沿内部科学知识构造进行深层次解读的目的。
本文借助命名实体识别、词袋模型、LDA 主题模型、信息熵算法等文本语义挖掘和自然语言处理技术,通过设计贡献度指数CVI 和迁移度指数MVI两种计量指标来探究知识元的迁移规律。首先,通过命名实体识别技术对全文文本的实验部分数据进行挖掘抽取,构建钙钛矿太阳能领域的化学知识元实体词袋(BoW);其次,利用PLDA 模型对所有时段的知识元词袋实施主题识别算法,抽取5 个代表全局研究前沿的主题,各筛选前10 位的高权重知识元词项,生成 “前沿主题-知识元词项” 矩阵;再次,基于钙钛矿太阳能电池领域专业知识,对知识元词项进行语义和语用功能标注,最终筛选出能够表征钙钛矿太阳能电池关键器件材料的知识元,作为迁移研究的目标对象; 其次,分5 个时间窗口,每个时间窗口下各抽取5 个Topic 作为局域前沿主题,以表示研究前沿在该时间窗口下的领域主题知识结构,每个Topic 保留前50 位高权重知识元词项,参照本文设计的CVI、EV 和MVI 等计量指标,对转置归一后的 “知识元词项-前沿主题” 矩阵进行相应指标定量计算;最后,利用领域知识对钙钛矿太阳能电池研究前沿主题进行解构,将知识元在金属对电极、电子传输层和钙钛矿吸光层3 个代表钙钛矿太阳能电池核心构件前沿主题的计量结果予以可视化展现,结合定量迁移计算的结果与可视化图谱,对钙钛矿太阳能电池主要器件基本材料组分随时间演进的迁移情况进行解读,挖掘该前沿的演进脉络。
知识元迁移,是指知识元在不同时期、不同前沿主题内出现的现象,知识元在不同时段的前沿主题出现时,又具有内容贡献度和分布均匀度两种知识特征。PLDA 模型可以计算知识元词项在前沿主题中的潜在语义关联概率,反映知识元对前沿主题文本内容的贡献程度。由于本文的数据基础为截取的每篇科技文本的实验部分,因此,利用PLDA 对知识元贡献程度的计算,所得到的就是知识元对该前沿主题知识内容构造占据的成分比例,CVI 贡献度指数是在此基础上所设计的。利用信息熵值可以计算知识元在某时期主题文本中分布的无序均匀程度,即知识元某时期在实验中为科学家所应用的分布均匀程度,利用后一时期相对于前一时期的熵变数值,可以表示某知识元在相邻时期受科学家实验关注程度的变化速率,因此,MVI 指数被设计为知识元迁移程度的量度。
通过最后的解读分析发现,结合CVI、EV 及MVI 指数数据及其可视化结果,可以清晰的离析钙钛矿太阳能电池研究前沿随时间推演时,其核心器件材料知识元所发生的迁移分化和交流融合情况,进而展现该研究前沿内在科学知识结构的变迁规律。不仅如此,利用CVI、尤其是MVI 指数,不但能表现个体知识元的生长状态和迁移趋势,还有助于从前沿主题 “知识地貌图隆起” 的视角,挖掘推动科技创新和突破的关键转折点。另外,本文也通过查阅专业文献和邀请领域专家判读的方式对识别结果予以了佐证。