融合专利与论文信息的内容挖掘和引用基础的企校创新合作推荐研究

2023-03-01 01:57闫晓慧马博闻邓三鸿王蔚萍

现代情报 2023年3期

闫晓慧马博闻邓三鸿王蔚萍

(1.南京大学信息管理学院，江苏南京 210023；2.江苏省数据工程与知识服务重点实验室，江苏南京 210023；3.江苏蚂蚁云数据技术有限公司，江苏南京 210008)

在全球新一轮的科技革命中，科技创新是引领发展的第一动力，科技产业逐渐成为各个国家(地区)的发展引擎[1]。2022年两会通过的政府工作报告[2]强调，要促进科技创新，强化企业创新的主体地位，深入实施创新驱动发展战略，依靠创新提高发展质量。虽然我国目前已经成为世界第二大经济体，但是其创新体系仍存在一定的缺陷[3]。同时，高校是技术创新和科技创新的源泉，深入企业和高校合作，对于应对当前复杂的网络化创新问题具有重要意义，对于科学发展也具有极其深远的实践意义[4]。

持续推进科技创新，深化企校合作，首要的任务就是为企业寻找最佳的高校合作伙伴，来促进科技成果转移转化。企业寻求高校合作有助于突破供给约束堵点，实现企校共赢[5]。专利和论文是科技创新的主要表现形式，也是发明创新的主要成果，对专利和论文进行分析可以较好地反映具体产业的技术程度。如何通过专利和论文寻找恰当的合作机构，成为当前科学研究中的又一重要课题。

1 文献回顾

企业和高校等机构合作可以促进科技成果快速转化为技术，市场需求通过企业传递到高校等研究机构给科研创新方向做指导。到目前为止，国内外对于企业和高校之间的合作研究已经取得了较为丰硕的成果。综合而言，当前国内外学者针对企业和高校等机构间的合作研究主要集中在3个方面：其一是对企业和高校等机构之间合作动机的研究。产学研机构合作有助于实现突破式创新[6]，企业和高校等机构之间的合作动机分为资助动机、学习动机和使命动机3种[7]。企业通过和高校等机构合作能够降低运行成本、风险以及与生产技术相关的多种不确定性[8]，并且其自身分担成本和风险的能力对参与合作的意愿具有显著影响[9]。企业和高校之间的专利合作有利于促进经济发展，并且有必要进一步提升高校在该合作中的参与度[10]。其二是关于企业和高校合作中的具体问题研究。机构合作对于企业、高校和科研机构三方都会带来积极影响[11]，协同创新过程中涉及的指标有助于产学研合作管理[12]，机构之间的地理距离对合作绩效有很重要的影响[13]，产学研合作网络中的平均路径长度会影响企业的创新[14]。政府资助对于企业和高校之间的合作效率存在着显著的抑制作用[15]，SE-SBM模型常用来进行产学研合作效率的演化研究[16]。专利和新产品是机构合作相关研究中常采用的创新产出指标[17]，从论文—专利角度切入产学研合作网络可探索机构潜在合作机会[18]。其三是对企业和高校等机构合作整体研究。大学、产业、政府、公众与公民社会、自然环境五者之间的相互作用关系被称为五螺旋模型[19]。具体研究中，可以从大学角度出发，对比产学研创新合作的模式[20]，Agrawal A K[21]总结了企业特征、大学特征、知识溢出地理特征和知识转移渠道等方面的相关研究。此外，中国[22]、中美两国[3]、斯洛文尼亚共和国[23]、日本[24]、意大利区域[25]、金砖五国[26]等国家(地区)级别的产学研合作也备受科研人员的关注。

综上所述，国内外的研究大多基于合作后的机构共现情况进行分析，针对合作前的机构推荐工作的研究较少，并且推荐方法比较单一，涉及的维度也较少。因此，本文从企业角度入手，分内容挖掘和引用基础两个方面来进行企校合作机构推荐综合研究，前者主要用来分析机构的科研重点，后者着重表示机构对前人研究的主动选择性。本研究能够帮助企业实现特定研究领域下的高校合作伙伴寻找，以期为我国企校合作提供参考支持。

2 融合专利与论文信息的内容挖掘和引用基础的企校创新合作推荐模型构建

2.1 模型总架构

本文构建的融合专利与论文信息的内容挖掘和引用基础的企校创新合作推荐模型，首先从德温特创新索引库和Web of Science核心合集数据库进行专利和论文数据收集与预处理，与此同时，通过专利与论文信息的内容挖掘相似度计算和引用基础相似度计算两个方面进行模型构建，其中，基于专利与论文信息的内容挖掘相似度计算部分又分为基于细分领域的相似度计算和基于关键词的相似度计算两个部分，最后进行组合推荐。具体的模型构建框架如图1所示。

本模型构建的核心部分是企校机构间相似度计算，这一部分包含着基于细分领域相似度计算、基于机构关键词相似度计算和基于机构引用基础相似度计算3个部分。本文选用Jaccard相似系数进行3个部分的相似度计算，其中关键词相似度计算部分，引入TF-IDF算法进行权重分析。3个部分的相似度计算完成后，通过专家咨询法赋予权重进行企校合作机构的综合推荐研究。

2.2 基于专利与论文信息的细分领域的相似度计算

德温特专利数据库收集的专利文献信息全面可靠。该数据库在收集到专利数据后，经过专门的标引人员根据具体的技术创新按照层级关系赋予该数据库专有的分类代码，又称德温特手工代码，给每一个专利都赋予不止一个的分类代码来体现该专利的核心内容和主题。所以，德温特分类代码就相当于整个数据库中的“关键词”，并且，值得注意的是，德温特分类代码一经标注，除非有新的技术领域或研究方向产生，否则是不会更改的，这也是该数据库的主要特色之一[27]。WOS数据库依照基本科学指标数据库(Essential Science Indicators，简称ESI)学科目录对收录文献进行分类，是围绕基础研究建立的同行评议、评估体系，没有进行分级设类，直接按照英文字母A～Z顺序进行排序，总类目共有251种。很多研究以德温特分类代码和科研成果的学科分类为计算基础，判断企业之间的合作可能性[28-29]。换言之，专利的德温特分类代码和论文的Web of Science学科分类在一定程度上可以说是专利和论文内容的总结，在此，本文将德温特分类代码和学科分类代码合并称为细分领域。因此，机构的创新研究重点可以通过其细分领域进行表征。

机构之间相似度的计算方法比较多，其中，Jaccard相似系数经常用来计算研究机构之间的相似度，并且Jaccard相似系数表示的是两个机构之间的交集和并集比值，能够消除两个机构之间因体量大小导致的差异[30-31]。因此，本文采用Jaccard相似系数来计算机构之间的相似度，具体到计算企业和高校之间的专利和论文研究的相似度。

企业(Enterprises，简称E)和高校(Universities，简称U)之间的Jaccard相似系数等于两机构之间的交集大小与并集大小的比值，具体表示见式(1)，取值范围为[0,1]：

(1)

在本研究中，企业和高校两机构间基于细分领域的Jaccard相似系数Jmc的计算方法见式(2)：

(2)

其中，Jmc表示机构之间的细分领域的Jaccard相似系数，Emc和Umc分别表示企业和高校的细分领域的具体数量，I(E,U)表示两个机构之间的细分领域的交集，Emc+Umc-I(E,U)表示两个机构之间的细分领域数量的并集。

2.3 基于专利与论文信息的内容关键词的相似度计算

通过挖掘专利与论文信息的内容研究可用来寻找合作伙伴[32-33]。而专利与论文的内容由不同的关键词构成，在具体的计算中，还需考虑关键词的权重。首先，通过Python中Jieba分词包进行分词；其次，剔除没有实际意义的词，并辅助以人工检测进行关键词处理，同时将同一关键词的不同形式、相同内容的关键词等进行标准化处理；最终，得到每个机构的关键词表。

TF-IDF算法是当前较为常见的一种计算集合内关键词权重的方法，可以用来计算一个机构内某个关键词的权重。计算公式见式(3)：

(3)

其中，i是机构专利与论文内容关键词的序号，Wti表示关键词ti的内容权重，tf(ti,d)指关键词ti在机构专利与论文内容关键词集合中出现的频次，|D|是一个机构的专利和论文数，df(ti)为机构专利和论文中包含关键词ti的专利和论文数。

根据TF-IDF算法得出机构专利与论文内容关键词权重，选定合适数量的关键词作为机构专利与论文内容的特征词，最终通过Jaccard相似系数计算两机构之间的关键词相似度集合Jkw。

2.4 基于专利与论文信息的引用基础的相似度计算

专利申请和论文创作前期，研究人员需要对前人的相关研究进行学习和继承，才能有所突破，得到新的专利或论文成果，引用基础就是对前人研究最直接和全面的反映。

同被引和耦合是引用分析中常用的两种方法，当两个机构的专利或论文同时被其他专利或者论文等引用时，机构间存在同被引关系。两个机构的专利或论文同时引用同一份专利或者论文等的内容，这两个机构之间的关系为耦合。两者的主要区别在于耦合经常被用来探索未来的发展倾向，同被引则主要用来回顾其具体的基础情况[34]。引用耦合属机构的“主动”选择，同被引则属于机构“被动”地选择。因此，相对于同被引关系，本文认为，引用基础耦合更适合于企校机构间相似性的研究。

将机构专利与论文中引用的专利和论文全部抽取出来，构建各个企业和高校的引用基础数据集，最终通过Jaccard相似系数计算企业和高校之间的引用基础相似度集合Jcb。

2.5 相似度整合

前文计算可以得到企校机构间的相似度集合Jmc、Jkw、Jcb。为了更加合理地进行模型构建，本文采用专家咨询法将3种相似度以一定的比例组合，得到企业和高校之间的专利和论文的相似度，整合后见式(4)：

Simi=α×Jmc+β×Jkw+γ×Jcb

(4)

其中，Simi表示两个机构在某一方面(用i表示)整合后的相似度，i取值为专利(p)、论文(a)；Jmc表示基于细分领域的相似度；Jkw表示基于机构关键词的相似度；Jcb表示基于机构引用基础的相似度，α+β+γ=1。

本文邀请5位了解“人工智能”领域的计量学专家对权重进行两轮的赋值，在少数服从多数的指导原则下，取5位专家赋值的平均数，并保留1位小数，最后得到3个方面的权重如下：Jmc∶Jkw∶Jcb=0.5∶0.3∶0.2。由此，得到式(5)：

Simi=0.5×Jmc+0.3×Jkw+0.2×Jcb

(5)

再次邀请这5位专家，对专利和论文对机构相似度的权重进行赋值，秉承求同存异的原则，得到Simp∶Sima=0.6∶0.4。这样，得到融合专利和论文信息的内容挖掘与引用基础的企校创新合作推荐模型见式(6)，最终选择以相似度排名前五的高校进行推荐：

Sim=0.6×Simp+0.4×Sima

(6)

3 实证研究

3.1 数据收集

近年来，人工智能对社会和经济影响日益凸显。我国自2015年以来，多次将人工智能的发展和规划列入国家政策，各省市积极响应中央号召，推出相应的地方发展规划和政策，逐步确立人工智能技术在我国战略发展中的重要性。2022年政府工作报告中强调，促进数字经济发展，要壮大人工智能等数字产业，提升关键软硬件技术创新和供给能力。因此，本文选取“人工智能”主题下的专利和论文数据进行分析。

本文的专利数据来源于德温特创新索引数据库(Derwent Innovations Index)中的专利数据，论文数据来源于Web of Science核心合集数据库。其中，检索式为“TS=(‘artificial intelligence*’ or ‘Depth learning*’ or ‘Natural language processing*’ or ‘Speech Recognition*’ or ‘Computer vision*’ or ‘Gesture control*’ or ‘smart robot*’ or ‘Video recognition*’ or ‘Voice translation*’ or ‘Image Recognition*’ or ‘Machine learning*’)”。为控制成果质量，专利只选择发明专利，文献的类型为Article并且只选取SCI和SSCI两个数据库。时间限定为2012年1月1日—2021年12月31日，共收集到117 482条人工智能专利数据和153 165篇人工智能论文。

3.2 数据预处理

本文进行的是我国企业和高校机构之间的合作推荐研究，企业选择的是由中国科学院旗下《互联网周刊》联合eNet研究院研究发布的“2020人工智能企业百强”榜单的前50强[35]，该单位已经连续发布了2017—2020年的人工智能企业百强榜单，具有一定的连续性和权威性。高校样本则选择我国的985高校，这些高校是我国早期立项的教育领域的重点工程，同科研实力较强的很多企业有着比较稳定持久的合作关系[36]。

数据预处理过程共分为三步：第一步，数据抽取。将“3.1数据收集”部分收集到的专利和论文数据逐条编码，着重抽取出每条数据的机构情况。如专利数据以“AE”字段为主，论文数据选择“C1”字段中的作者机构。根据从我国人工智能前50强企业和985高校的官网上收集其所有名称，并将所有国内机构的数据全部抽取出来；第二步，机构数据合并。将同一机构的数据进行合并，并且对各个机构进行唯一编码，可得到我国前50强人工智能企业和高校的专利和论文的数量情况，具体如表1所示；第三步，数据库建立。将第二部抽取出的不同机构专利和论文数据分别建立数据库，再将不同机构的专利或论文数据分别根据“细分领域”“关键词”和“引用基础”3个方面进行数据库建立。

从表1分析，国内前50强人工智能企业申请的专利共有8 899条，占所有专利的7.57%，论文共有19 980篇，占所有论文的13.04%。整体而言，我国人工智能前50强企业和高校申请的专利和论文的数量相对较少。从数据来看，企业申请的专利比高校申请的数量要多一些，其中，百度公司申请的专利最多，腾讯和平安科技公司紧随其后，申请专利数量前四的机构全部为企业。高校中浙江大学和清华大学申请的专利较其他高校多一些。论文成果量最多的机构为清华大学，浙江大学和上海交通大学依次位列第二和第三；企业中阿里巴巴公司的论文发表量最高。

表1 我国前50强人工智能企业和高校的专利申请和论文发表情况

分别对企校机构之间的合作情况进行统计，可得论文中的机构合作较专利多，故不做具体分析，我国前50强人工智能企业和高校机构间的合作类型及合作次数如表2所示。

表2中，专利合作分为“企—校”“企—企”“校—校”3种，“企—校”合作(42次)次数最多，并且远远超过“企—企”和“校—校”之间的合作总和。其中，思必驰公司和上海交通大学之间的专利合作最多，思必驰公司的总部在江苏苏州，同上海交通大学联合共建运营苏州交驰人工智能研究院有限公司，全面负责智研院的商业运营工作。在前50强人工智能企业中，一共有7家企业参与专利合作，腾讯公司是参与专利合作最多的企业。

表2 前50强人工智能企业和高校的专利合作情况

3.3 机构间相似度计算

企校机构之间的相似度包含“细分领域”“关键词”和“引用基础”3个方面，本文利用“3.2数据预处理”部分建立的数据库，通过式(5)分别计算企业和高校机构之间专利和论文Jaccard相似度，具体计算结果如表3、表4所示。类型列中的“Jmc”“Jkw”“Jcb”“Simp”和“Sima”分别表示“细分领域相似度”“关键词相似度”“引用基础相似度”“专利信息下的机构相似度”和“论文信息下的机构相似度”。表3、表4中，百度公司和北京大学两个机构之间综合内容挖掘和引用基础两个方面的专利和论文整体相似度分别为4.45%和4.78%。整体分析可以得出，细分领域相似度对于企校机构间相似度的区分性最高，其次为关键词相似度，引用基础相似度的区分性最低，在一定程度上印证了“2.5相似度整合”部分专家咨询确定权重的科学性。

表3 专利信息下企业和高校机构间的不同相似度(局部) %

表3(续)

表4 论文信息下企业和高校机构间的不同相似度(局部) %

表4(续)

利用表3和表4的数据，再根据“2.5相似度整合”部分的式(6)，计算得出融合专利与论文信息的内容挖掘和引用基础的企校创新合作机构间的相似度结果，具体结果如表5所示。百度公司和北京大学两个机构之间融合专利与论文信息的内容挖掘和引用基础的企校机构间的相似度为4.58%，同北京航空航天大学的相似度为5.85%。

表5 融合专利与论文信息的内容挖掘和引用基础的企校机构间的不同相似度(局部) %

3.4 推荐结果展示

根据表5的计算结果，得出企业与不同高校之间的“人工智能”领域的相似度排名，根据企校机构间的相似度顺序，为每一个企业推荐前5所合作高校，具体的推荐结果如表6所示。其中，中国人民大学的专利和论文的数量都不是最多的，但是被推荐的次数最多，究其原因，中国人民大学涉及“人工智能”方面的领域研究分布比较均匀，并没有很明显地侧重于某些具体方向。从表1可得，清华大学、浙江大学和上海交通大学3所高校的“人工智能领域”成果较多，每个学校有其明显的研究侧重点，如本文为平安科技公司推荐上海交通大学为第一高校，两个机构在“数据库应用”和“神经网络”等方面的科研投入最为相似。

表6 人工智能前50强企业的合作高校推荐结果

4 比较研究与结果分析

4.1 比较研究

由表2可知，腾讯公司同高校的专利合作最多，因此，采用腾讯公司为研究对象作对比分析研究。LDA模型能够对文本信息中的隐含主题信息进行建模，是当前一种文本表示的常用方法[37]，因此，选择LDA模型同本文构建的模型进行对比分析。LDA模型具体处理过程分三步：首先，将各机构专利和论文的文档进行分词、去除停用词、词形还原等处理；其次，基于预处理的数据训练LDA模型，主题数K从10开始取值，步长为5，最大取值到200，经过尝试，发现主题—困惑度曲线在K为10～115之间时较为陡峭，115之后趋于平缓。所以本文最终确定主题数为115。其他参数方面，Alpha设置为0.43(即50/K=50/115≈0.43)，Beta参数设为0.01。通过具体实验，发现迭代500次左右，模型困惑度不再明显下降，获得最终的LDA主题模型；最后，通过LDA模型，每条文本被表示为115维的主题向量，各维数之和为1。由于一个机构可能有多个文档，本文采用向量平均化的方式来对不同机构的专利文本主题向量进行表示，之后，通过余弦相似度来计算各机构的主题相似性。比较研究的具体结果如表7所示。

首先，本文构建模型得出腾讯公司和高校之间的相似度在3.60%～9.55%之间，LDA模型得出的相似度范围为41.02%～64.68%，本文构建模型得出的企校机构间的相似度远远小于LDA模型的结果，相对比较符合实际情况；其次，由于腾讯公司合作的高校有11所，按照两种模型进行合作高校前20推荐，由表7可知，本文模型得出的机构未合作比例为65%，LDA模型得出的未合作比例为55%，本文构建模型得到的机构合作促进空间稍大于LDA模型。因此，本文构建的模型取得的结果较好。

表7 腾讯公司同国内高校机构间的相似度

4.2 结果分析

表2中共有6个企业同高校存在着人工智能领域的专利合作关系。本模型为除腾讯公司外的5个企业推荐的高校名单中，已经存在合作和未合作的情况如表8所示。

表8 5个企业和高校机构间已合作和未合作的情况

整体分析，5个企业同高校的已合作比例为16%，未合作比例为84%，未合作的比例远远大于已合作比例，因此，对促进企校机构之间进行人工智能领域的合作空间比较大。5个企业中，华为和科大讯飞公司的推荐结果都包含了部分的或者全部的合作高校。其他的3所机构中，Testin云测、湖南大学两个机构都比较关注图像处理方面的研究；思必驰公司和重庆大学更加关注人工智能在新事物的识别中的作用；医渡科技公司主要为医疗行业参与者提供数据分析和决策支持等服务，中国海洋大学申请的专利和发表的论文中包含基于深度学习的冠状病毒患者行为跟踪装置，并且还有对医疗电子装置等的研究。推动这两个机构合作，有助于医学研究，也有利于实现智能化疾病管理。再以华为公司为例，本模型为华为公司推荐的5所高校中，华为同第一高校(电子科技大学)和第二高校(清华大学)在人工智能领域内已经存在合作关系，同其他3所高校在人工智能领域暂时没有合作，但是华为公司已经分别在2020年12月、2021年1月、2020年11月和天津大学、浙江大学、华南理工大学签订了产教融合等协同育人协议，相信它们之间在人工智能领域的合作指日可待。

5 结语

本文构建了一种融合专利与论文信息的内容挖掘和引用基础两个方面的企校创新合作机构推荐模型，并进行了比较研究和结果分析。结果表明，本文构建的企校合作推荐模型效果较好，能够实现为企业进行针对性寻找高校合作伙伴的目标。本模型的构建对于当前企校合作的相关研究具有一定的促进作用，企业可根据自身的发展情况以及战略目标，明确合作技术主题，寻找特定领域的最佳合作高校，借助高校科研优势，达到在市场中取得一定竞争优势的目的。

虽然本研究为我国人工智能领域的企校机构合作提供借鉴，但只选择了国际专利和论文，在后续的研究和应用中，可扩大检索范围，从而为我国人工智能领域的发展提供更多参考。