基于层次和K-means聚类的知识产权强省建设绩效评价实证研究

2020-06-12 01:07金彩虹邓雨亭郝世博
关键词:聚类知识产权指标

金彩虹,邓雨亭,郝世博

(1.上海纳米技术及应用国家工程研究中心有限公司,上海 200241;2.南京理工大学 知识产权学院,江苏 南京 210094)

一、 引 言

当前国家正处于经济社会发展由高速发展向高质量发展转型的关键时期,经济增长的推动方式由规模型要素投入及投资向技术进步及创新转变。知识产权制度作为技术进步及创新的激励和保障机制,对国家及区域实现创新引领发展的支撑作用越发突出。区域知识产权发展水平提升是知识产权强国建设的基础,为贯彻实施国家知识产权战略,尽快实现知识产权强国建设目标,国家知识产权局于2015年印发《加快推进知识产权强省建设工作方案(试行)》(以下简称《方案》),并提出建设引领型、支撑型及特色型三类知识产权强省。尔后,江苏、广东等27个省、自治区、直辖市相继发布地方性政策文件支持加快知识产权强省建设。自此,知识产权强省建设已成为各地知识产权工作的重要内容。

目前各省市区知识产权强省建设第一阶段计划已临近尾声,且首批知识产权强省建设试点省份已获批准。然而,各地知识产权强省建设成效如何?现有文献中仍缺乏详细讨论。本文利用数据挖掘算法对各省市区知识产权强省建设绩效进行聚类分析,根据聚类结果对目前强省建设中存在的问题进行剖析,并提出政策启示。

二、 文献综述

知识产权的财产权属性决定了其与区域发展紧密相连,研究表明国家经济发展、全要素生产率均与一国知识产权保护强度呈显著正相关[1-2],且知识产权保护对我国发达省市的经济发展及创新能力也具有促进作用[3-4]。知识产权强省建设是知识产权强国建设的重要内容,也是国家知识产权战略的题中应有之意。《方案》的印发标志着知识产权强省建设步入国家政策层面。由此,知识产权强省的概念界定与建设绩效评价成为了相关领域的研究重点。董新凯和田源从知识产权创造、知识产权运用与知识产权环境三个角度选取了38项指标构建了知识产权强省评价指标体系,指出知识产权强省的发展水平应紧盯发达国家,达到中等发达国家水平[5]115。部分学者尝试通过R型聚类、模糊优选修正模型等计量模型对知识产权强省评价体系进行构建[6-7]。马治国和秦倩从知识产权立法保护、司法保护、执法保护、公众意识及区域发展五个维度对各省市区进行排名,指出各地知识产权保护排名中不存在各方面均名列前茅的情况,各地知识产权保护均有可提升空间[8]。

现有文献对国家以及省际层面的知识产权保护对经济发展的影响进行了大量理论探索与实证研究,并就知识产权强省的界定及强省建设绩效的评价进行了较为完善的逻辑分析及方法探索。但其针对知识产权强省建设的研究仍存在缺少经验数据验证,缺少绩效的动态评价等不足。此外,不同地区在进行知识产权强省建设时,其知识产权创造、运用、管理、保护等层面具有一定程度的相似性,建设成效具有聚类属性,而现有文献中缺乏基于聚类算法的实证分析探索。

三、 研究设计

本研究对知识产权强省建设绩效的聚类分析分为两个阶段。第一阶段基于知识产权强省建设要求,从知识产权创造、知识产权保护、知识产权与经济发展、社会环境四个角度选取适度指标构建知识产权强省建设绩效评价体系;第二阶段根据所构建的强省建设绩效体系运用层次聚类和K-means聚类算法对我国各省市区的知识产权强省绩效进行聚类分析。此外,实证样本选择方面,自《方案》印发以来,我国共有27个省市区相继发布了地方性知识产权强省建设文件,而未制定相关政策的地区缺少自身强省建设的政策依据,不满足控制变量要求,故本文未选取西藏、青海、宁夏及云南作为样本进行分析。

1. 强省建设绩效评价体系构建

(1) 指标选取原则

符合战略发展要求原则。知识产权强省建设绩效指标应符合国家知识产权战略及地方知识产权发展规划要求[5]113,评价体系应参考知识产权对区域经济发展的贡献程度及其对区域创新能力的支撑力度,从知识产权创造、运用、管理、保护等多方面进行指标选取。

普适性与差异性相结合原则。作为国家层面知识产权政策,知识产权强省建设的政策影响力辐射全国,因此绩效评价体系应满足绝大多数省市区的横向对比要求,实现全面覆盖,突出重点。

定量与定性相结合原则。区分知识产权强省与知识产权大省,不能仅从知识产权绝对数量上予以辨别,知识产权发展应对知识产权强省的经济发展具有突出贡献。另外,强省建设中知识产权发展应兼顾社会效率与社会总体福利,其发展水平应与省市区的经济发展水平相匹配。

数据可用性原则。知识产权工作涵盖广泛,地方知识产权工作的主要目标及实施方式因地而异、不尽相同。指标选取应具有足够的表征能力,且指标数据获取应切实可行。纷繁冗长的评估体系一方面降低了聚类实证结果的聚类优度,另一方面增大了数据获取难度,进而增加省际横向对比难度。

(2) 指标说明

基于指标选取原则,本文对27个省市区发布的知识产权强省建设政策进行收集整理,利用R语言对其全文进行文本挖掘,剔除“知识产权”这一核心关键词,得到各地区知识产权强省建设政策内容词云图及相关政策关键词频数排序。如图1与图2所示,“企业”“发展”“专利”“创新”为知识产权强省建设文件中的重要内容,因此本文对知识产权强省建设绩效评价的指标侧重对企业指标及专利指标进行选取。

根据《方案》要求,本文从知识产权创造、知识产权保护、知识产权与经济发展、社会环境四方面对各省市区知识产权强省建设绩效进行评价(见表1)。选取规模以上工业企业人均研发费用、每万人年专利申请量以及每万人注册商标存量刻画强省建设的知识产权创造能力;由于我国实行行政保护与司法保护并行的“双轨制”知识产权保护制度,分别选取专利行政执法案件结案数与同年受理数的比值、发明专利侵权司法案件数两项指标描述该地区知识产权保护强度;知识产权与经济发展指标方面,由于知识产权强省建设应与其社会经济发展相匹配,本文选取居民人均可支配收入作为经济发展指标。此外,知识产权强省除具备强大的知识产权创造能力外,其知识产权存量作为高价值异质性生产资料,应在社会发展中支撑经济高质量发展,促进知识产权价值实现,故选取规模以上工业企业有效发明专利数作为经济发展指标中的另一项二级指标。最后,文化差异是影响社会发展差距的深层因素[9]。对我国而言,知识产权作为外来文化,其在强省建设中获得全社会的认可需要该地区具有良好的文化包容度,而外来文化的母国构建主要通过传统文化的摄取、吸收以及融合来达到自我更新与自我实现[10],故本文选取各地区省委机关报对知识产权的宣传报道力度来衡量社会环境指标。

表1 知识产权强省建设绩效评价指标

(3) 描述性统计

2012年广东省印发《关于加快知识产权强省建设的决定》,标志着知识产权强省建设首次作为地方性政策被提出,而2015年国家知识产权局《方案》的印发标志着知识产权强省建设从地区知识产权政策转变为国家知识产权政策,故本文以2015年为节点,选取2014年与2017年数据对知识产权强省建设绩效进行评价,其描述性统计见表2。

数据显示,相较于《方案》未印发的2014年,2017年各省市区知识产权创造水平、保护强度、经济发展及社会环境指数均有明显提高。但数据标准差显示,27个省市区知识产权强省建设绩效评价数据差异增大,即各省市区均着力探索符合地区经济发展且富有成效的知识产权强省建设方案,但各省知识产权发展速度受社会发展水平、市场环境、资源禀赋及政策调控等多方面因素制约,强省建设实效存在一定差异。

表2 知识产权强省建设绩效评价指标描述性统计

2. 聚类分析方法

(1) 聚类分析方法选择

K-means聚类算法是数据挖掘中常见的分析方法,具有时间效率高、易于描述等优点[11]。其算法逻辑为:对于给定的含有n个数据的数据集X={x1,x2, …,xn} ,找到K个聚类中心A={α1,α2, …,αk},使观测值到其指定的聚类中心的距离平方和ss(k)最小,即:

然而,传统的K-means聚类算法存在需要预先设置K值,聚类结果受初始中心点的影响等问题。相比之下,层次聚类算法提供了一种良好的计算K值的解决方案。分层聚类算法逻辑为:将初始的观测值定义为一类,每一次聚类将距离最近的观测值或类聚成新的一类。分层聚类算法同样存在一定缺点,除计算效率低外,基于该算法逻辑,一旦某一类数据被划分聚合到另一类,那么该类数据将不再参与后续聚类运算,聚类距离达到局部最优而非全局最优,进而影响总体聚类效果。而两种聚类方法的结合恰能在一定程度上弥补各自的局限性。因此,本文沿用Chen等的思路[12],即为解决传统K-means算法无法计算聚类数量的问题,先通过层析聚类判断27个省市区的相似性与相异性并确定最佳聚类数量,再通过K-means聚类算法对27个省市区进行聚类分析。

(2) 截面数据对比分析

知识产权法律及政策的实施效果通常具有时滞性[13],表现为立法的修改及政策的发布并不会迅速改变社会主体的行为方式,社会主体在付出一定学习时间及成本后,法律及政策才能通过“看得见的手”使社会资源达到预期的分配效果。因此,若以短时间的时序数据对知识产权强省建设绩效进行考察,效果可能并不显著。本文为判断国家层面知识产权强省政策的实施效果,利用2014年及2017年截面数据,依据政策发布前后两个年度的知识产权强省建设绩效,分别对27个省市区进行聚类分析并进行对比分析。

四、 实证研究

1. 层次聚类分析

如描述性统计所述,强省建设绩效各项指标的数值范围存在明显差距,在进行聚类分析前,应对数据进行标准化处理,将各项指标数值量化为标准正态分布数据。

根据前文建立的指标体系,应用R语言分别对27个省市区2014年度及2017年度的强省建设绩效进行层次聚类,聚类方法采用平均联动(Average-Linkage),即将两类间的距离定义为一类中心点至另一类中心点的距离。其聚类结果如图3、图4所示。

两年度的层次聚类结果显示,以广东、江苏、浙江、北京、上海为代表的第一梯队在知识产权强省建设中表现突出且相对稳定,以上五省市在我国知识产权强省建设中具有绝对的领先优势。此外,2017年各省市区聚类的类间距离较2014年相比明显增大,且这种类间距的增加呈现两极分化趋势。其一表现为处于引领位置的五省市与其他省市的差距增大,其二表现为山西、吉林等知识产权发展相对薄弱省份与其他省市的类间距增大。这表示国家知识产权强省建设政策实施的两年间,广东、江苏、北京等传统知识产权强省强市在知识产权创造、保护、运用等方面发展更为强势,而其他省市区强省建设进程相对平稳。少数地区知识产权工作进展相对缓慢,与其他省市区逐渐拉开差距。

图3 2014年度各省市区强省建设绩效平均联动层次聚类

然而仅通过层次聚类无法对各省市区的强省建设绩效进行准确分类,且由于此类算法逻辑仅根据两类间的距离进行聚类,无法通过聚类结果直接评判强省建设绩效及其变化。为克服层次聚类算法的局限性,引入K-means聚类算法对层次聚类结果进行优化。

2. K-means聚类分析

基于层次聚类结果,运用R语言NbClust包对2014年及2017年最优聚类数量进行判断,判断结果如图5所示。基于26种评判标准,聚类数目2与3分别为2014年及2017年的最优聚类数目,但实证结果显示,若对2014年样本进行K-means聚类分析,其聚类的组间平方和与整体距离平方和比值仅为31.5%,聚类优度较差,故本文选取次优聚类数3作为2014年度的聚类数。

运用R语言,取分别对27个省市区2014年度及2017年度的知识产权强省建设绩效进行K-means算法聚类分析,结果如表3所示。考察不同指标的聚类结果,本文将27个省市区分为三大类,即以北京、上海、江苏、广东为代表的强省建设领先型地区,以天津、河北、河南为代表的强省建设稳健型地区,以山西、黑龙江为代表的强省建设追赶型地区。

2014年度与2017年度三类省份聚类中心值如表4所示。两年度聚类的组间平方和与整体距离平方和比值分别为48%与51.6%,表明聚类结果具有良好的置信度。对比聚类中心值发现,2014年度领先型地区在知识产权创造、保护以及社会环境方面均发展良好,是传统的知识产权强省强市。稳健型地区在知识产权保护指标中的行政执法指标超过领先型地区,其原因在于稳健型地区这类指标数据的基数较小,即专利行政执法次数偏少,但行政执法结案率较高。追赶型省份在各类指标中均呈劣势。

图5 2014年度(左)及2017年度(右)最优聚类数量

表3 基于K-means 聚类的知识产权强省建设绩效分类

相比而言,2017年度各项指标中心值数据显示,在知识产权强省建设上升为国家政策后,领先型地区的专利执法指标聚类中心值向左偏移,而专利司法指标聚类中心值向右偏移,原因为领先型地区的专利行政执法案件与侵权诉讼案件数量明显增加,知识产权案件呈向领先型地区集中的趋势。此外,相对于其他两类地区,领先型地区的经济发展及社会环境优势更为显著。稳健型地区的万人专利及万人注册商标量的聚类中心值向右偏移,表现为此类地区的知识产权创造能力显著增强。追赶型地区的各项指标中心值与领先型地区的差距增大,表现为我国知识产权强省建设存在两极分化现象,尤其在知识产权创造方面,追赶型地区存在研发人员外流及研发产出下降等问题。

表4 聚类中心值

根据聚类结果对2017年各地区跨类变动情况进行归纳,结果如表5所示,北京、上海、广东、江苏及浙江五省市在知识产权强省建设方面发展迅速,且逐渐与稳健型地区拉开差距。而安徽、福建、陕西、甘肃在知识产权创造、保护、经济发展及社会环境发展方面均有提升,由2014年追赶型地区升级为2017年稳健型地区。而吉林在知识产权强省建设中存在研发人员外流、经济发展明显放缓、知识产权保护相对薄弱等问题,在2017年强省建设绩效聚类中被划为追赶型省份。

从两年度三种类型聚类的组内距离(within_SS)可以看出,尽管2017年领先型地区的数量并未变化,但其组内距离增大,而2017年稳健型地区的数量增加,但其组内距离却在一定程度上减小,其现实意义为领先型的五个省市,强省建设成效的类内差异在2014—2017年逐渐增大,知识产权发展的收敛性降低,而稳健型地区的建设成效呈聚集趋势。

五、 结论与启示

知识经济时代下,知识产权对国家及区域发展的作用凸显。继国家知识产权战略后,作为即将发布的第二项国家级知识产权战略,知识产权强国战略已进入周详严谨的制定阶段[14]。知识产权强省建设是知识产权强国建设的重要内容,且《方案》中明确了目前我国各地区知识产权强省建设的目标成效。本研究以《方案》印发前后各省市区知识产权强省建设绩效为切入点,选取八项强省建设绩效评价指标,运用层次和K-means聚类算法将我国27个省市区分为领先型强省建设地区、稳健型强省建设地区及追赶型强省建设地区,并对2014年及2017年的聚类结果进行对比,研究发现:(1)宏观来看,绝大多数省市区在实施其知识产权强省建设政策后取得了显著的成效,主要体现为知识产权创造能力提升,知识产权保护意识增强,社会经济稳步提升。(2)强省建设成效呈现两极分化现象,以北京、上海、江苏、广东为代表的领先型强省建设地区与山西、黑龙江、吉林为代表的追赶型强省建设地区的差距逐渐增大。(3)截面数据对比分析发现,尽管各地区实施知识产权强省建设相关政策的时间较短,但各地区强省建设成效差异明显,尤其在稳健型与追赶型类别中,聚类结果表现出明显的动态调整性。

基于我国知识产权强省建设政策实施过程中存在的问题,本文得到以下政策启示:

1. 知识产权强省建设成效存在正反馈效应,即领先型省市的强省建设效率较其余两类地区的强省建设效率更高。为尽快实现知识产权强国建设目标,应建立知识产权强省建设区域协同发展机制,基于领先型省市的地理位置,建设京津冀、长三角、珠三角知识产权协同发展区域,推动区域创新驱动发展战略。

2. 知识产权强省建设试点工作已初具成效。《方案》印发后,2016年国家知识产权局在全国范围内开启强省建设试点工作,批准北京、上海、江苏等五省市试点建设引领型知识产权强省强市,批准河南、湖南等四省市试点建设支撑型知识产权强省强市,批准江西、广西、甘肃三省区试点建设特色型知识产权强省。从聚类结论上看,在试点建设获批的一年后,甘肃成功从强省建设绩效追赶型地区跨越到2017年的稳健型地区,这表明知识产权强省建设的试点省份,尤其是知识产权发展基础相对落后的省份及自治区在政策实践上做出了突破性探索,并取得了良好的实施效果,此类实践经验对其他稳健型及追赶型地区甚至知识产权发展落后地区具有指导意义。

3. 指标数据显示,人才外流、区域研发投入不足、知识产权保护意识孱弱、社会经济发展缓慢等问题共同制约追赶型地区的知识产权强省建设成效。因此该类地区在出台相关政策的同时,应考虑出台地方人才政策、企业创新政策等配套政策以激励人才回流、企业创新,增加知识产权宣传力度,提高社会知识产权保护意识,进而推动地方经济发展,提升知识产权强省建设效率。

当然,本文运用一种综合的聚类分析方法对知识产权强省建设绩效进行实证探索,研究方法存在一定局限,如司法案例数据存在公开系统偏差,K-means聚类算法聚类中心不唯一等,这也是后续知识产权强省建设绩效实证研究中应着力解决的主要问题。

猜你喜欢
聚类知识产权指标
《种子法》修改 聚焦种业知识产权保护
一种傅里叶域海量数据高速谱聚类方法
一种改进K-means聚类的近邻传播最大最小距离算法
AR-Grams:一种应用于网络舆情热点发现的文本聚类方法
主要宏观经济指标及债券指标统计表
主要宏观经济指标及债券指标统计表
关于知识产权请求权内容构建的思考
莫让指标改变初衷
主要宏观经济指标及债券指标统计表
重庆五大举措打造知识产权强市