张黎黎,祝婷婷
聚类分析法在高校专利发展态势分析中的应用
张黎黎1,祝婷婷2
(1.长春工程学院 科学研究处,吉林 长春 130012;2.长春工程学院 图书馆,吉林 长春 130012)
基于数据挖掘K-means聚类分析算法,以长春工程学院为例,构造聚类模型,对专利授权情况进行挖掘,找出构建合理的专利代理模式、组建科研团队和制定专利扶持及激励政策,是影响高校专利授权率的主要因素。通过该算法对专利授权数据的分析,找出吉林省部分高校的专利发展态势,可以为提高吉林省高校知识产权的保护,提高专利的授权率,并推动高校自身的科技创新提供决策动力。
聚类分析;专利;态势分析
专利信息是科学研究、技术发展和成果转化的最重要的技术信息来源之一,具有新颖性、创造性、实用性。专利信息数量庞大,价值突显,来源广泛。高校是推动国家科技创新的核心力量。在市场经济条件下,高校的技术创新的一个资源池就是专利信息。好的专利不仅可以最大化地保护高校的技术经济效益,通过对专利信息的分析,也可以有助于发现高校某一技术的研发前沿、动向等,便于高校的学科和科研方向的调整,可有效推动高校的知识产权布局、技术研发、成果产出,以及实现技术向企业转化。根据此需求,利用数据挖掘算法中的K-means聚类分析算法建立聚类模型,有效分析高校专利的现状及发展态势,找出制约高校专利发展的不利因素,促进高校专利的申请向着更高质量、高效率方向发展,最终为高校科研成果的产出,促进高校成果转化以及保护高校自主知识产权提供决策动力。
K-means聚类分析算法是通过对2个样本对象间的距离相似度作为评价指标,即距离越近相似度越大[1]。在该算法中引入簇的概念,即以某一样本数据作为标准参考对象,将靠近该对象的数据集作为一个簇,并最终得到独立紧凑的簇。
K-means聚类分析算法是一种通过反复迭代方式改变簇的算法,着手点是要先确定选取的样本数,并在这些样本数中确定初始簇,即在个样本对象中,随机选择≤-1个作为初始簇。根据剩下的样本数据与该初始簇的距离,分配给与相似度接近的簇,再根据新的簇,重新计算各个簇中心与初始簇中心的距离,再进行簇的重新整合,重复进行簇的重组,直到标准测量函数呈收敛状态。K-means聚类分析算法可以不断将聚类方案进行优化,使距离越近的两个样本数据最大程度地集中到1个簇中,同时簇和簇之间表现为距离较远的状态。聚类分析过程中,利用均方差表示标准测度函数。
K-means聚类分析算法的具体步骤:
(1)给定大小为的数据集,取个初始聚类中心,记为类{1,2,,C}每个类C包括n个样本。定义C的均值向量,即子类C间的距离重心M:
(2)计算每个数据对象与聚类中心的距离,即维特征空间的欧氏距离:
(3)根据欧氏距离,找出距离重心M的最小距离。
(5)根据M的最小距离,再重新分配所有的样本。
经过以上5个步骤的反复迭代,当总体平方误差显著减小,且样本不再重新分配时,该算法结束。
以吉林省属部分高校为例,利用万方专利数据库作为专利数据分析平台[2],分别提取了9所吉林省属重点及有特色专业的2010—2016年授权,且专利权人为高校的数据,作为K-means聚类分析的样本,表1所示。
表1 2010—2016年吉林省属部分高校专利授权情况
高校的专利发展趋势通过其拥有专利数量表现,专利数量较多的高校说明该高校的知识产权保护意识较强,其中发明专利拥有量较多的高校的科研水平和成果创新水平也较高,较高的创新性成果可以促进科技成果的高效率转化,进而推动国家的科技创新和经济发展。分析高校专利发展态势中发明专利的现状及趋势,要对高校拥有发明专利的数量进行聚类分析。
设置样本所在类1和2,分别代表发明专利的高专利数高校和低专利数高校。设=2,1={高专利数高校},2={低专利数高校},样本参数分别记为1=(1,117),2=(2,11),3=(3,10),4=(4,14),5=(5,73),6=(6,45),7=(7,76),8=(8,10),9=(9,19)。两个类1,2随机分布数据,假设初始类1={1,2,3,4,5},2{6,7,8,9}。则类1中的值为5,类2中的值为4。
第一步,计算距离重心1,2:
第二步,计算每个数据对象与聚类中心的距离,即1,2,,9与M,M的距离,以及最小距离min。距离重心与数据对象距离最小的点,表示该数据对象属于距离重心所在类:
同理,求出mind,min d,…,mind:
第四步,根据第三步计算的M最小距离,重新分配所有的样本,对类进行重新划分,划分结果为类1={1,5,6,7},类2={2,3,4,8,9}。
经上述的计算过程,使不同类的样本重新划分,类1由1,2,3,4和5的5个样本划分成了1,5,6和7的4个样本(类1中=4),类2则由6,7,8和9的4个样本划分成了2,3,4,8和9的5个样本(类2中=5),并以此为迭代开始的初始值进行迭代计算。
求得:
求得:
由第一次迭代计算结果可知,样本的总体平方误差从值11 962到值2 756.74呈现了显著减小的特点,且类1为1,5和7的集合,类2为2,3,4,6,8和9的集合,与初始计算后的重新划分类别的结果一样,且趋于稳定,因此类1中的对象均为拥有高数量发明专利的高校。
上述计算可得出发明专利拥有量较高的高校。同理,可得出专利总数拥有量较高的高校,在拥有的专利中,通过代理机构申请并授权的专利数量较高的高校,以及在授权的专利中,研发团队(本文假设发明人在5~10人的为一个研发团队)较强的高校。如表2所示。
表2 吉林省属部分高校发明专利授权分析
利用K-means聚类分析法[3],可以很清楚地发现,在抽样的9所吉林省属部分高校的专利数量中,发明专利授权量多的分别是长春理工大学、吉林农业大学和长春工业大学3所高校。在这3所高校中,发明专利占专利总数的百分比分别为31.28%,34.23%和14.90%,这3所高校对产品、方法或者其改造所提出的技术方案在吉林省高校中较为突出,科研成果具备较强的创新性,创新团队具有较高的创新性思维方式。
拥有专利总数多的高校分别是北华大学、长春工业大学和长春理工大学,其中北华大学更多地拥有的是实用新型专利,在科研成果中更多地关注产品的形状、构造或者结合过程中提出的实用性的新技术等领域,而在产品、方法等方面的技术方案的创新性较弱。在这3所高校中,长春理工大学有63.9%的专利是通过专利代理机构获得,表明通过代理机构申请的专利往往授权率较高,专利发明人对专利申请流程和申请材料的撰写不清晰、不明确的可能性也较大。
当发明人为研发团队时,从模型结果可知,在长春理工大学、长春大学和吉林化工学院3所高校的授权专利中,授权比例较高。虽然长春大学和吉林化工学院无论在发明专利拥有量,还是在专利总数拥有量方面都不占优势(仅排在数据样本的第七位和第九位),其专利授权较少、创新性技术产出较弱、知识产权保护意识也较薄弱,但是在以团队作为发明人的前提下,却分别排在了第二位和第三位。因此,通过团队研发也可以增加其专利授权的比例,进而促进高校的科技创新和创新性产品的产出。
利用K-means聚类分析法对样本数据进行聚类分析的时间复杂度为O(18),可以从大数据集中快速、简单地分析数据,提高了数据的分析效率[4]。通过聚类分析可知作为吉林省属高校中排名靠前、综合实力较强的2所高校,长春理工大学和长春工业大学的科研人员的知识产权保护意识较强,专利授权率较高,也反映出这2所高校科研人员具有较强的创新意识和创新性技术,且在其学科突出领域表现出了一个较好的发展态势。
采用K-means聚类分析法,对长春工程学院2014—2016年专利授权数据进行分析,更快捷、更直接地显示出影响高校专利授权率的高低因素,结合模型的分析结果,为吉林省高校知识产权保护、专利的顺利授权,以及推动高校自身的创新发展提供了决策动力[5]。
(1)培养高校专利代理人或与较权威、高水平、高质量的专利代理机构合作,构建符合高校学科发展方向的代理模式。高校科研人员在逐步提高知识产权保护意识的同时,也逐渐意识到知识产权保护中专利撰写知识的重要性。通过调查,高校的一些科研人员不知道如何入手申请专利,即便是按照模版撰写专利,也因为其相关知识含量储备不足导致专利授权的失败,降低了专利的授权率,甚至有的发明专利在公开后最终未被授权,导致自己的最新技术公布于众,降低了科研成果知识产权保护程度。长春工程学院通过积极培养知识产权管理人员和科研骨干在专利撰写等方面的能力,不定期对科研骨干进行专利申请事务的培训,同时和一些权威性强、专利撰写水平和撰写质量高的专利代理机构合作,为本校教师提供专利申请流程的服务。长春工程学院通过构建符合其学科特点的专利代理模式,已经使其科研成果的知识产权保护力度方面得到了显著的提升。该校通过权威的专利代理机构为科研人员撰写专利,使专利的授权率从2014年的53.5%提高到2016年的91.3%。从数据可以明显地看出,在专利代理机构的协助下,可以大大的提高科研成果的知识产权保护效果,提升专利的授权率。
(2)构建稳定合理的研发团队,做好高校自身的专利布局。一个成熟的科研团队在科研成果的知识产权保护中具有重要的作用,它是科研成果高效得到保护的有力后盾。以科研团队的研究方向为基础,在其科研领域的范围内构建专利布局,可以更好地指导科研成果的专利授权和专利转化。如果没有科研团队,不进行研究方向的专利布局,单打独斗,以个体完成单一的专利申请,其授权的难度是可想而知的,尤其在国家加大了对专利的审查力度前提下,这样申请的专利授权的难度更会加大。长春工程学院通过对科研团队的建设,对突出其学科方向、具备研究前景的科研成果进行专利布局,使得授权专利的数量得到提升。仅以实用新型为例,2014年到2016年3年间,以科研团队的成员作为发明人的授权专利中,占总授权专利总数的比例就从48.21%升至60.61%,可见由科研团队进行专利申请并得到授权的数量已经达到总数量的一半以上。
(3)加大对高校的专利扶持力度,并构建和完善对授权专利的激励政策,推动专利成果的转化。激励政策从来都是科研成果产出的推动力,自然也是推动专利申请量与授权量的把手。如果专利的扶持力度和激励政策都不大,在申请专利过程中,对于一些有审查意见的专利,一些发明人就会产生为难情绪,产生即便专利授权后,其具有的意义也不大的想法,使得申请的专利半途而费,这样,不仅使一些有前景的科研成果不能更好地得到知识产权保护,也会使得发明人在申请中的费用受到损失。2013年长春工程学院修改科研管理办法后,提高了发明专利的奖励额度,且吉林省也逐年加大了对发明专利的扶持力度。仅受到吉林省和长春市扶持的发明专利就由2014年的2项提高到2016年的4项,扶持基金也达到了近3万元。由于对发明专利的扶持力度和激励政策的不断加大,也推动了长春工程学院专利成果的逐年转化。
通过数据挖掘中的K-means聚类分析法,得出吉林省属部分高校专利发展态势,并从中总结出推动高校知识创新,成果创新的几种有效的途径,为吉林省高校推动成果转化,提高知识产权保护效率提供了决策性的动力,找到促进专利授权率提高的有力抓手,为高校科研成果的转化提供有效保障,也为国家的专利战略和成果转化奠定基础。由于针对本文中数据模型选取的样本及其数据属性不全面,对样本的获取分析稳定性较差,因此该模型只能作为对该类问题进行浅层分析的模型。但通过聚类分析方法,依然可以得出为该领域提供有效应用的挖掘方法。
[1] Mehmed Kantardzic. 数据挖掘——概念、模型、方法和算法[M]. 北京: 清华大学出版社, 2003.
[2] 吴静. 江苏省211高校专利信息发展现状分析与对策[J]. 现代情报, 2013, 33(10): 101-104.
[3] 王康, 侯元元. 山西省高校专利发展现状分析[J]. 山西大学学报: 自然科学版, 2014, 37(3): 469-474.
[4] 王冰洁, 宋微, 史琳. 我国部分理工类高校专利信息发展现状分析及对策建议[J]. 现代情报, 2012, 32(11): 123-127.
[5] 李润钿, 林佳丽. 高校科技人员知识产权意识与对策研究——基于广东高校的问卷调查分析[J]. 北方经贸, 2012(6): 45-46.
责任编校:孙 林
Application of Cluster Analytical Method to Universities’ Patent Development Trend Analysis
ZHANG Li-li1, ZHU Ting-teng2
(1.Scientific Research Department, Changchun Institute of Technology, Changchun 130012, China; 2.Library of Changchun Institute of Technology, Changchun 130012, China)
Based on data digging K-means cluster analysis algorithm, the paper takes Changchun Institute of Technology as an example. The main factors influencing universities’ patent authorization rates are: constructing cluster models, digging patent authorization conditions, finding out patent agency modes with a reasonable construction, organizing scientific research teams and formulating patent support and stimulation policies. Through analysis of this algorithm on patent authorization data, finding out patent development trend of some colleges and universities in Jilin Province can offer decision-makers for enhancing their intellectual property protection, improving patent authorization rates and promoting their scientific and technological innovation.
cluster analysis; patent; trend analysis
10.15916/j.issn1674-3261.2017.06.006
TP399
A
1674-3261(2017)06-0368-05
2017-07-23
吉林省社科基金项目(2016B99)
张黎黎(1981-),女,吉林长春人,讲师,硕士。