宋爱伟,刘心蕊,孙昊宇,夏焕章,袁红梅
(1.沈阳药科大学工商管理学院,辽宁沈阳 110016;2.沈阳药科大学生命科学与生物制药学院,辽宁沈阳 110016)
近年来世界范围内科学与技术不断突破创新,全球科技创新的发展态势发生了颠覆性改变,伴随着相关专利和期刊论文数量的激增,科研人员显然已经不能仅仅通过主观判断对特定领域内科技演化模式进行准确、快速分析[1],运用大数据分析来探索科学与技术之间的复杂关系逐渐受到学者们的青睐。识别和测量科学与技术之间的联系对于理解二者之间的相互作用十分重要。探索并厘清特定领域自发展以来科学与技术之间的关联演化模式,对于科研人员确定研究课题、企业有侧重地规划科技创新战略以及政府部门政策制定都具有深远意义。
主路径分析已被广泛用于分析特定领域下的技术变化和创新,在科学技术发展路径探测中具有重要意义。1989 年Hummon 等[2]提出了主路径思想,并提出了节点对投影数(NPPC)、搜索路径链接数(SPLC)和搜索路径节点对(SPNP)3 种遍历算法;Batagelj[3]在前3 种算法的基础上提出了搜索路径数(SPC)算法。2005 年,Doreian 等[4]明确了主路径概念,认为主路径是在非循环网络中从源点到汇点的一条通路,该通路的弧具有最高遍历权重。目前国内外学者有关主路径的研究可以分为文献引文网络主路径分析和专利引文网络主路径分析[5],其中前者主要是通过揭示特定领域的发展脉络发现领域内核心文献,而后者则是通过揭示专利技术的演化轨迹识别关键核心技术。识别领域内的关键文献或专利及其主流研究线索对于探索科学或技术轨迹具有重要意义。
学者们普遍认为期刊论文是科学的重要载体,专利文献是技术的最有效载体[6],两者之间的互动转化对于加强基础研究和应用研究之间的联系、促进技术创新有着重要的意义。自1940 年以来,科学与技术、基础研究与应用研究之间的关系得到了广泛讨论,如Gardner[7]探索了影响科学与技术关系的因素,并提出科学与技术的4 种关系,包括科学推动技术、技术推动科学、科学技术协同发展和科学与技术独立发展;Xu 等[8]认为科学与技术二者协同但不等价,在推动创新的过程中彼此汇聚成一个综合驱动力。总体来说,科学与技术遵循不同的发展逻辑,但具有协同发展、双向互惠的关系,二者之间的互动能够推动领域的科技发展[9]。
当前对于科学与技术之间关系的主流研究方法大体划分为引文分析法、作者与发明人关系分析法、类目映射关系分析法和主题词分析法4 类。(1)使用引文关系识别科学技术联系,如Chen 等[10]对论文数据进行了引文分析,通过分析论文被专利引用的情况揭示了科学与技术之间的知识转移;Huang等[11]通过对燃料电池领域的论文与专利互相引用情况进行分析,探索该领域内科学与技术的交叉引用现象。(2)使用作者与发明人关系分析来识别科学技术联系,如Chang[12]通过作者与发明人网络分析构建了科学技术网络图,研究了与各技术领域联系最高的核心科学领域;Wang 等[13]结合专利引用和作者与发明人关系来衡量纳米技术中的科技相互作用。(3)使用类目映射分析法,如赖院根[14]提出通过建立中图分类与IPC 分类的语义关联来实现论文与专利的类目映射,促进知识在科学与技术间的关联共享;Verbeek 等[15]将专利IPC 分类与ISI期刊学科分类进行类目映射,以反映技术创新与科学研究之间的知识关联结构。(4)通过主题词分析法来识别科学技术联系,如Ranaei 等[16]利用潜在狄利克雷分配(LDA)主题模型来识别主题,并通过分析不同主题的科技分布来分析医药产业的科技联系;侯剑华等[17]以主题词为连接点分析风力发电机技术领域科学和专利文献的共现情况,展现了该领域科学与技术的互动演进规律。
综上所述,现有研究在科学与技术之间关系的探索上取得了重大成效,但仍然存在以下局限:一是较少研究同时分析科学与技术在时间上和内容上的互动关系,无法具体揭示科学与技术之间的关联规律;二是以往在科学与技术关系的研究中有关主题的提取通常从整体数据源中获得,较难发现领域内核心主题;三是现有对科学、技术的定量研究方法大多停留在统计层面,很少深入到文献或专利的具体文本内容,无法从语义层面来揭示科学与技术之间的演化规律。为此,本研究提出一种主路径分析与LDA 主题模型相结合的方式,探讨科学与技术的动态互动模式、了解科学与技术之间的关系,从而预测科学与技术的发展方向。
本研究以基因工程疫苗领域为对象,如图1 所示,首先从Web of Science 数据库获取领域科学文献信息,并从incoPat 专利数据库中获取领域专利文献信息;其次分别构建科学文献的引文网络和专利文献的引文网络,并借助Pajek 利用SPNP 算法分别对科学文献和专利文献提取全局主路径,再利用Python 通过LDA 主题模型结合专家意见进行文本挖掘,提取科学研究与技术研究的重点主题;最后将科学主题、技术主题进行映射,并利用桑基图进行呈现,以识别出领域科技演化模式。
图1 研究框架
根据主路径分析的路径结果进行划分,分别形成科学文献和专利文献的发展路径时间轴,并根据主题间余弦相似度来衡量相似主题。对科学文献与专利文献的相似主题,基于主题词共现词频进行连接,从而基于时间的维度从主题的角度识别科学与技术的关系,探讨领域内科学与技术之间的互动模式。
2.2.1 主路径分析
(1)构建引文网络。分别提取专利数据和文献数据的引用关系,得到各自的引用矩阵,并构建引文网络。在引文网络中,专利或文献被看作节点,节点之间的引用和被引用关系表示知识的扩散[18]。
(2)提取主路径。首先是遍历计数算法的选择。遍历计数是表征知识流动或知识演化中节点对路径连通重要程度的指标,目前的主流算法有SPC、SPLC、SPNP 和NPPC,其中以SPC 和SPNP 算法受认可度最高[19]。由于SPNP 算法对路径的起点和终点并没有特殊要求,同时中间节点具备储存和传递已有知识和生产新知识的特性,适用于强调中介重要性的网络[20],因此为了探索出具有核心技术的路径,借助Pajek 采用SPNP 算法提取专利和文献引文网络主路径。
(3)路径搜索算法的选择。常见的路径搜索算法有局域搜索、全局搜索、关键路线搜索等[21]。局域搜索常常会陷入局域最优而错过全局最大边权和的路径;全局搜索方法则可以找到边权和最大的路径[22]。全局主路径是以节点在知识流动中的全局重要性为基础,提取网络中具有最大遍历计数的路径,可以发现网络中全部的重要路径[23],因此,采取全局主路径的路径搜索算法来提取专利与文献引文网络主路径。
2.2.2 LDA 主题分析
(1)数据处理。分别提取所获得主路径上的专利标题、摘要以及权利要求书和文献标题、摘要以及正文内容并形成文本,对文本进行分词,将每个文本转换成一条词向量,最后去除词向量中与专利或论文核心观点无关的词汇,得到每篇专利或论文的最终词向量。
(2)确定最佳主题数。LDA 主题提取的效果与潜在主题数K 相关[24]。借鉴Mikolov 等[25]的研究,采用评价函数困惑度(perplexity)来确定科学文献和专利文献的最优主题数。通常认为困惑度越小,确定的主题数更优,一般情况下当困惑度下降趋势不再明显或处于拐点处时,此时的k值为最优主题数。
(3)“主题-词”概率矩阵和“文档-主题”概率矩阵的生成。LDA 是一种文档主题生成模型,由Blei 等[26]于2003 年提出,其在文档、主题、词语3 个层次上计算语义关联度。通过对每篇论文或专利对应的主题概率分布矩阵以及不同主题的词汇概率分布矩阵,可以挖掘科学文献或专利文献的主题。该模型认为文档是具有不同概率的主题的集合,而主题是具有不同概率的单词的集合[27]。借鉴白如江等[28]的研究,每个文档都可以表示成一系列主题的混合分布,记为P(z),且每个主题为词汇表中所有单词上的概率分布,记为P(w|z)。文档中每个单词的概率分布如下所示:
2.2.3 科技演化模式分析
计算科学文献主题与专利文献主题之间的余弦相似度来衡量主题间的相似程度,通常认为余弦相似度值越高,主题间存在演化关系的概率越大。T代表专利文献主题,S 代表科学文献主题。
近年来,我国明确大力发展生物医药行业,疫苗行业作为该领域的重要子产业也是大力发展的对象。而基因工程疫苗作为分子生物技术发展的新兴产物,与传统疫苗相比具有生产成本低、免疫途径广泛、安全性高等优点,已成为生物制品产业发展的一种趋势。因此,本研究选取基因工程疫苗领域进行实证研究,通过探索领域内的专利文献和科学文献之间的关系,来厘清该领域内科学与技术的关联演化模式,同时证明本研究所设计方法的应用价值。
分别通过incoPat 专利数据库和Web of Science数据库进行基因工程疫苗领域的专利数据和文献数据收集,检索日期截至2022 年8 月5 日,共搜索得到16 447 篇专利文献和6 195 篇科学文献。基于对这些文献及专利的大量阅读,清洗不相关数据,最终确定8 861 项专利数据和5 042 篇科学文献作为研究样本。
3.2.1 专利文献
使用公开号作为专利文献的代表,提取专利数据中包含的全部引用信息,基于专利文献间的引用关系构建专利引用矩阵,形成可视化引文网络。借助Pajek 运用SPNP 算法提取样本专利文献全局主路径,共得到70 项专利数据(见图2),申请时间跨度从1978 年至2022 年。具体节点的专利号及标题信息如表1 所示。
表1 样本专利文献路径节点信息(节选)
图2 样本专利文献全局主路径
3.2.2 科学文献
使用DOI 号作为科学文献的代表,提取样本科学文献数据的全部引用信息,基于科学文献间的引用关系构建文献引用矩阵,形成可视化引文网络。借助Pajek 运用SPNP 算法提取样本科学文献的全局主路径,结果如图3 所示,最终得到60 项科学文献数据,申请时间跨度从1991 年至2022 年。具体节点的DOI 号及标题信息如表2 所示。
表2 样本科学文献路径节点信息(节选)
图3 样本科学文献全局主路径
3.3.1 专利文献
通过Python 并结合专家意见对主路径分析提出的70 条专利数据进行主题提取。首先对专利数据的标题、摘要以及说明书内容进行整理,形成文本信息并进行预处理,然后计算得到困惑度确定专利文献最优主题数为14 个(见图4);利用Python 的jieba 工具包进行分词后,根据确定的最优主题数量,利用LDA 主题模型进行主题生成,设置每个主题的词汇数量为12 个,最终得到14 个主题的主题词。专利文献主题以及每个主题下的主题词结果如表3所示。
表3 样本专利文献主题词结果
图4 样本专利文献主题数量与其困惑度关系
根据文档主题的分布概率,将专利分配给不同的主题发现,有关领域内的应用研究最早是关于亚单位疫苗的相关专利,其次是关于各类病毒感染治疗的疫苗研发。随着核酸相关研究的深入,治疗或预防具体疾病的核酸疫苗及其相关载体的研发得以顺利进行,近几年更是研发出许多抵御新冠病毒感染的疫苗,保护了全球人民的生命健康。此外,近几年有关癌症疫苗的相关专利较少,这将会是未来基因工程疫苗领域的一大研究热点。
3.3.2 科学文献
重复上述方法确定科学文献的最优主题数同样为14 个(见图5),最终得到14 个主题的主题词,如表4 所示。
表4 样本科学文献主题词结果
图5 科学文献主题数量与困惑度的关系
根据文档主题的分布概率,将每篇文献分配给不同的主题发现,科学文献早期专注于对各类病毒疫苗的研究,后来同步拓展到DNA 疫苗以及RNA疫苗领域,经过十几年的研究发现,RNA 疫苗相对DNA 疫苗更具安全性,故近几年来有关RNA 疫苗的研究受到更多学者的关注;随着研发的深入,mRNA疫苗的优势得以显现,特别是在新冠病毒感染疫情中mRNA 疫苗效果得到广泛认可,因而最近有关基因工程疫苗的研究多围绕mRNA 疫苗相关内容开展。
基于LDA 主题模型的结果,并依据余弦相似度计算公式来计算主题之间的相似程度,获得样本科学文献与专利文献相似度矩阵。为了使结果更为客观,通过调试最终确定0.45 为相似度阈值,认定余弦相似度值高于0.45 的主题为相似主题,最终获得5组相似主题:(1)T0与S8;(2)T5与S7;(3)T8与S2、S6;(4)T10与S1、S11;(5)T13与S5、S9。
基于上述结果,结合所构建的主题时间轴,将样本科学文献与专利文献的相似主题根据LDA 主题模型提取出的主题词共现词频进行连接,最终绘制基因工程疫苗领域科学与技术的演化关系图(见图6),其中线条的粗细代表共现词频的高低;不同深浅则代表不同主题。可以发现,科学文献路径主题的划分较为集中,多为DNA 疫苗与RNA 疫苗相关研究;而专利文献路径主题较为冗杂,多为针对不同病毒或疾病的疫苗研究。这一点也符合我们对科学文献多为基础研究,而专利文献多为应用研究的认知。
图6 1995—2020 年基因工程疫苗领域科技演化模式
(1)T0和S8在内容上均是减毒病毒用于疫苗载体的相关研究。T0出现在2003 年左右,主要聚焦于重组减毒流感病毒的制备及其在生产疫苗和基因治疗载体的应用;S8出现在2009 年及2022 年左右,研究通过密码子去优化的方式对病毒高度减毒,用于开发安全、稳定的减毒活疫苗或疫苗载体。综上,减毒病毒用于疫苗载体的相关研究中,主要是应用研究影响基础研究,即技术影响科学的模式。
(2)T8和S2、S6均是RNA 疫苗的作用机制及其构建方面的研究。T8出现在2017 年左右,是人工核酸疫苗的构建即人工mRNA 疫苗的构建,及其在预防和治疗介卡病毒感染方面的应用;S2出现在2021 年左右,是自扩增RNA 作为疫苗的优势及其在抗感染领域的应用和相关递送载体的研究;S6出现在1991、2006 及2010 年左右,是RNA 疫苗的作用机制和疫苗构建及其在癌症领域的应用。可以看出,早期RNA 疫苗作用机制相关基础研究影响应用研究,呈现出科学影响技术的趋势,近几年来有关基础研究的文献数量增多,再次呈现出技术影响科学的趋势。
(3)T10和S1、S11涉及减毒活疫苗以及亚单位疫苗的相关研究与应用等内容。T10出现在1980、1993 和2000 年左右,是病毒亚单位疫苗的制备和应用以及重组负链RNA 病毒的生成及其在疫苗制剂中的用途;S1出现在1991 及1997 年左右,是减毒突变体的构建以及减毒活疫苗的开发;S11出现在2014及2020 年左右,是基于核酸亚单位疫苗的递送载体以及减毒活疫苗的开发。2000 年之前,科学文献与专利文献交替出现,科学与技术呈现相互影响模式,之后技术逐渐促进科学的发展,越来越多的科学文献诞生,呈现技术影响科学的模式。
(4)T13和S5、S9均是有关RNA 疫苗在其治疗应用领域的研究。T13 出现在2018 年左右,是RNA疫苗的构建及其在各种疾病领域的应用;S5出现在2004 及2021 年左右,是关于mRNA 疫苗的发展优势以及其在癌症领域的应用;S9出现在2013 及2019年左右,是基于RNA 的疫苗较传统疫苗的优点以及其在抗流感病毒方面的应用。科学文献出现较早、专利出现较晚,先是呈现科学影响技术的模式,而近几年又出现新的技术突破,显现出科学影响技术的模式。
(5)T5和S7均是新冠病毒疫苗的研发相关研究。T5与S7均出现在2020 年左右,2019 年年末暴发了一场新型冠状病毒感染疫情,科学家们紧急开展了相关科学文献及专利技术的研究,并取得显著的成果。可以发现在这一领域,科学与技术呈现明显的协同共生、相互促进关系。
总的来说,基因工程疫苗领域大体上呈现为科学研究和技术应用相互促进的模式,基因工程的基础技术发展促使基因工程疫苗可以应用于多种疾病领域,特别是抗感染领域。近年来科学家对肿瘤领域的基因工程疫苗进行了较深入研究,并产出了许多科学文献,但由于肿瘤类型的复杂多样及其作用机制的难以获取,基因工程疫苗在癌症领域的临床应用仍然存在许多问题,相信基础研究的快速发展定会为新型癌症疫苗的研制提供新思路。此外,mRNA 疫苗是领域内一个新的研究热点。近几年来,越来越多的学者开始探讨mRNA 疫苗技术,新冠病毒感染疫情的出现更是在全球范围内提高了对mRNA 疫苗的认可度,可以预测,未来mRNA 疫苗将被广泛用于癌症疫苗免疫领域,成为基因工程疫苗领域的研发重点。
本研究提出一种基于主路径分析与LDA 主题模型相结合的方式来探索领域科技演化模式,并通过基因工程疫苗领域的实证结果证明了该方法的可行性及准确性。通过使用主路径分析提取领域中核心内容,将主路径分析与LDA 主题分析相结合,使用主路径分析提取出基于时间轴的科学或专利文献,并利用LDA 主题模型提取各自主题内容,分析科学主题与技术主题在时间上和内容上的互动关系,这样一来,科学主题或技术主题更具代表性;同时,利用桑基图的形式将科学层面与技术层面联系起来,可以更加清晰地看出领域内科技演化模式。
然而,本研究仅从科学与技术两个层面,在现有科学文献或专利文献的基础上对基因工程疫苗领域内科技演化模式进行探索,无法预测未来新技术出现的时机;同时也仅采用了基于主题词复现词频的方法,将处于不同时间段的相似科学主题与技术主题联系起来。未来的研究可引入市场这一层面,借助计算机算法来深入挖掘领域内的技术发展特征。