基于中国专利金奖发明人团队规律识别的科研团队建设研究

2022-12-16 12:33:06静桂
现代面粉工业 2022年6期
关键词:发明人金奖个数

尚 静桂 亮

(1..江苏科技大学人事处,江苏镇江 212100)

(2.江苏科技大学经管学院,江苏镇江 212003)

中国专利奖是专门对授予专利权的发明创造给予奖励的政府部门奖,得到了联合国世界知识产权组织(WIPO)的认可。中国专利奖重在强化知识产权创造、保护、运用,推动经济高质量发展,鼓励和表彰为技术(设计)创新及经济社会发展做出突出贡献的专利权人和发明人(设计人)。

创新驱动发展战略促进了发明专利申请数量的激增,但专利“多而不优”的现象却日益严重[1]。我国产业结构核心技术受制于人的情况仍然存在,随着关键技术“卡脖子”问题的频繁出现,注重产业技术自主创新、实现产业链中上游转型,已成为我国各界产业发展的当务之急。相应地,为更好地适应产业发展需要、促进产业高质量发展,未来专利发展战略须从触发专利数量激增向促进专利质量提升转变。

在授权专利中占比极小的金奖专利对相关产业发展起到关键促进作用,蕴含的巨大经济效益与战略价值对技术追踪、促进专利转化、寻求建立最佳专利战略布局的各种产业十分重要[2]。挖掘这部分金奖专利潜在创作规律,分析其团队人员结构、组建规律,可为加快金奖专利涌现、为专利创作树立可借鉴的行业标杆、推动专利量质并举起到较好促进作用。

分析金奖专利发明人团队组建规律是促进专利质量提升工程的重要推动力量,但目前关于发明者团队构建规律的研究较少。现有研究侧重于分析发明者团队规模的变化规律[3-6],这是由于现有专利数据库仅提供不具备唯一性的发明者署名信息,发明人数量是可直接获取的唯一量化分析指标。发明人个体信息的缺失[7-12]给文献计量学下依据指标信息分析团队组建规律研究带来较大挑战,导致较难开展发明人团队组建规律研究。因此,拓展指标信息选取维度,利用现有指标信息分析发明人团队人员专业领域交叉情况研究值得探索。

文中基于数据挖掘理论,选取表征专利涉及技术领域的IPC分类号相关指标,使用机器学习模型识别金奖专利,并分析最优识别性能下各指标重要度,以确定金奖专利形成的关键性因素。具体来说,选取IPC分类号、IPC个数、IPC部个数等表征专利技术领域交叉程度与交叉范围的多项指标,用获奖情况标注专利,使用随机森林对是否获奖进行预测,并在最优预测性能下分析各指标对预测贡献度,以确定专利技术领域交叉程度与交叉范围是否对金奖专利的创作产生重要影响,进而为专利发明人团队组建提供指导性建议。

1 研究方案

1.1 指标选取

尽管文中所提方案很容易扩展到其他指标,但基于专利数据库中发明人信息较少且不易获取等现实,本研究中使用的具体指标包含常用指标以及专利所属技术领域相关指标,并在表1中进行了概述。具体而言,这些指标分为3个主要类别:团队规模级指标、基本信息级指标和技术领域交叉级指标(所有这些指标都将在下面详细描述)。对于每个类别则构建了一个单独的指标体系,从不同维度选取指标,尽可能全面综合地表征该类别下专利特征,通过计算所选样本数据的全套指标得到样本特征。

表1 专利指标

团队规模[13-15]。发明人数量是可从专利数据库中获取的唯一量化指标,分析团队规模是否会影响专利获奖情况具有重大意义。随着数据挖掘技术进步,发现发明人实力、发明成果价值等信息可获得其他团队规模级指标,为进一步提供深层次发明人团队组建规律提供可能。

基本信息[16-18]。国民经济分类个数与IPC个数代表专利所属技术领域范围,通过分析专利所属技术领域范围可知技术领域范围与专利获奖情况之间是否相关。IPC主分类表征专利所属技术范围的主要技术领域分布情况,分析该指标可知技术领域的不同是否会影响到专利获奖情况。

技术领域交叉[19-21]。文中通过计算表征不同技术领域的IPC分类号出现情况进而确定专利技术领域交叉情况。IPC分类号采用分层编码方法,将专利分类为部、大类、小类、大组、小组5级进行编码。文中计算不同分类号层级下技术领域交叉个数,分析领域交叉程度对专利获奖情况的影响,包括部交叉个数、大类交叉个数、小类交叉个数等指标。有放回地重复随机抽取n个样本生成新的训练样本集合训练决策树,然后按以上步骤生成m棵决策树组成随机森林,新数据的分类结果按分类树投票多少形成的分数而定。其实质是对决策树算法的一种改进,将多个决策树合并在一起,每棵树的建立依赖于独立抽取的样本。单棵树的分类能力可能很小,但在随机产生大量的决策树后,一个测试样本可以通过每一棵树的分类结果经统计后选择最可能的分类。

决策树是一种利用树形结构进行决策的算法,对于样本数据根据特征进行分叉并建立一棵树,树的叶子结节标识最终决策。决策树选择基尼指数增益值最大的特征作为该结节分裂条件,基尼指数增益值通过(式1—3)计算而得:

1.2 模型训练与指标重要度

随机森林是一种基于树的机器学习算法,利用群体决策思维生成多棵决策树来完成分类任务。随机森林由bootstrap重采样从原始训练样本集N中

由(1)式计算出样本数据D的信息熵,其中pi表示类别i样本数量占所有样本的比例。

由(2)式计算对于数据集D,选择特征A作为节点时,在特征A之后的信息熵。其中,假设特征A有k个分裂点,即样本专利D会被分为k个部分,Dj表示其中一个部分。

由(3)式计算特征A作为分裂节点前后样本数据的信息增益值。其中信息增益Gain(A)表示数据集D在特征A的作用后,其信息熵减少的值。

基于随机森林的计算原理,模型能够对所采用的特征变量与专利是否获奖之间的相关性进行具体计算并排序。选取相关性排名前3的特征变量,分析其对专利获奖的影响,通过特征变量解读为发明人团队组建规律提供建议。

2 实证检验

2.1 数据选取

登录中国知识产权局网站(http://www.sipo.gov.cn/ztzl/zgzlj/index.htm)获取1—23届中国金奖发明专利名单,共计372条,其中发明人2人以上的共300项。在Incopat全球专利数据库中检索这300项金奖专利,从数据库中随机检索等量非获奖专利数据,共获得专利数据集600项作为样本数据。选取检索表1中的专利指标作为样本特征,将指标数据从数据库导入excel,除技术领域交叉指标需通过人工统计获取外,其他指标均可直接获得数值。

2.2 特征提取

以发明人数量、IPC个数、部交叉个数等7项专利指标为专利特征,选取数据库中专利数据后进行预处理操作,得到专利特征矩阵,部分专利特征矩阵如表2所示。

表2 专利特征矩阵(部分)

表3为所选样本专利的特征变量的统计描述,包括专利总样本、金奖专利子样本和非金奖专利子样本的均值、方差及T检验结果。

从表3可以看出,大部分专利特征变量都显示出显著的差异,充分说明了所选专利特征变量与专利是否获奖的高度相关性。值得注意的是,虽然金奖专利子样本显示出较高的平均值,但对应的方差波动也较大,显示出金奖专利样本中存在较大的质量差异。从T检验结果来看,两组专利样本的均值基本都呈现出显著的差异性。

表3 专利特征统计描述

2.3 实证结果

专利特征矩阵构建完成后,以专利是否获得金奖为标签,进行专利分类。将构建的专利特征矩阵输入随机森林模型,隐藏所有专利标签。选取70%样本数据作为训练集,为训练集分配标签,训练随机森林模型,得到所有专利样本的标签类别。将专利节点的预测标签类别与其真实标签类别做对比,得出模型的分类性能。

用精确率P(Precision)、召回率R(Recall)、F1衡量各模型的识别性能。精确率指识别为金奖专利的样本数据中实际的金奖专利数量占所有识别为金奖专利样本数的比例,召回率指识别为金奖专利的样本数据中实际的金奖专利数量占所有金奖专利样本数的比例,F1值是精确率和召回率的调和值。式中,tp表示识别为金奖专利中真实标签为金奖专利的专利数量,tn表示识别为金奖专利中真实标签为非金奖专利的专利数量,fp表示识别为非金奖专利中真实标签为非金奖专利的专利数量,fn表示识别为非金奖专利中真实标签为金奖专利的专利数量。

随机森林分类性能如表4所示。文中样本数据训练后随机森林的P、R、F1值分别为0.792、0.796、0.794。

表4 模型性能

基于随机森林的计算原理,模型能够对所采用的特征变量与专利质量之间的相关性进行具体计算并排序。如图1所示,气泡的位置代表纵坐标变量对于专利获奖的重要性程度,气泡位置越靠右,变量越重要。MeanDecreaseAccura表示变量消除后对于随机森林模型预测性能的影响,MeanDecreaseGini表示变量消除后对样本信息熵减少程度的影响。

图1 专利特征变量重要度

首先,文中所构建的基于基本信息级指标的特征变量,如国民经济分类个数、IPC个数、IPC主分类对于专利是否获奖的预测显示出较高的相关性。国民经济分类个数与IPC个数均代表专利所属技术领域个数,这表明成员多技术领域知识丰富、交叉领域人才储备较多的发明人团队更具备创作金奖专利的潜力。其次,发明人数量对专利是否获奖的预测显示出较高相关性,表明发明人团队规模对高价值专利的创作具备一定影响。此外,技术领域交叉特征变量重要度排名中,小类交叉个数在专利是否为金奖的预测任务中显示出更高的重要度,这表明相较于大类交叉个数与部交叉个数,小类交叉个数在专利团队发明人组建过程更加重要。因此,寻找细分技术领域中交叉领域研发人员或细分技术领域下不同技术领域研发人员组建发明人团队,更具备创造高价值专利潜力。

3 科研团队建设的建议

通过分析专利金奖发明人团队组建规律可以发现,科研团队建设应特别关注以下3个方面:

(1)团队成员技术领域应差异化。交叉领域研发人员或不同领域研发人员是团队组建的首选人员,由实证结果可知,专利涵盖技术领域与专利价值之间存在较强关联关系,选择不同领域研发人员或选择交叉领域人员研发专利可提高专利潜在价值,这也与当前技术间的交叉融合日益紧密背景相符。

(2)团队规模应适度化。团队成员数量指标在专利特征变量重要度排名中位列第二,表明团队规模对专利价值影响较大。利用文献计量学中基本统计指标分析金奖专利中发明人团队规模可发现,获奖专利发明人团队规模在4~6人之间较为常见。

(3)团队合作领域应精细化。细分领域下不同技术领域人员之间的合作更有创造力,从技术领域交叉程度级指标的重要度排名中可知,细分技术领域交叉个数重要度优于大类技术交叉个数。这表明在保证技术领域精细化的同时,保证细分领域中的领域交叉合作比区分度较大领域之间的合作更为重要。

猜你喜欢
发明人金奖个数
怎样数出小正方体的个数
欲称“金奖”,必有其妙——第七届中华印制大奖金奖作品赏析(三)
印刷工业(2020年4期)2020-10-27 02:46:20
发明人角色识别及二元创新能力差异分析
——社会资本视角的解释
等腰三角形个数探索
怎样数出小木块的个数
金奖作品
宝藏(2019年9期)2019-09-25 06:56:40
浅析发明人(或设计人)变更的常见问题及建议
专利代理(2019年2期)2019-01-26 15:16:16
洗衣机
家电科技(2018年9期)2018-09-28 01:45:00
摇摆撞击洗涤装置
家电科技(2018年9期)2018-09-28 01:45:00
怎样数出小正方体的个数