基于专利视角的区域知识结构测度方法研究

2018-01-02 10:25蒋贵凰
现代情报 2017年12期

蒋贵凰

〔摘 要〕技术知识的积累与构成对区域创新和产业发展有着重要影响,掌握区域知识结构,有利于进一步挖掘区域知识能力,寻求不同知识基础间的桥梁,激发形成新产业。本文提出在ISI-OST-INPI技术分类基础上结合ALP-DM和DG方法生成适合中国专利数据库的IPC-产业技术对照表,对区域专利数据进行分类处理,利用自然对数雷达图和百分占比雷达图,从量能和势能两个角度可视化展示一个区域知识结构的测度方法。基于此方法采集我国33个省市近五年的发明申请类专利数据,分析结果表明两种雷达图能有效展示区域知识结构,且基于产业技术的知识结构划分能有效地将技术知识构成与区域产业经济政策相关联。

〔关键词〕区域知识结构;技术知识;专利数据;IPC-产业对照表;测度方法

DOI:10.3969/j.issn.1008-0821.2017.12.011

〔中图分类号〕F207 〔文献标识码〕A 〔文章编号〕1008-0821(2017)12-0064-06

〔Abstract〕The accumulation and structure of technical knowledge have important influence on the regional innovation and industrial development.Mastering the regional knowledge structure can help the region to further explore the knowledge ability,seek the bridge between different knowledge bases,and stimulate the formation of new industry.This paper proposed to combine the ALP-DM and DG method based on the ISI-OST-INPI classification to generated the IPC-industry Concordance which is suitable for the Chinese patent database,classified the regional patent data according to the Concordance Table,and then used the natural logarithmic radar map and the proportion radar map to visualized a regions knowledge structure from two aspects:amount and Competitiveness.With this method,the paper collected the patent data of 33 provinces and Municipalities in China,and analyzed the characteristics of knowledge structure in different provinces and Municipalities.It found this method could effectively display the regional knowledge structure and associate it with the regional industrial economic policy.

〔Key words〕regional knowledge structure;technical knowledge;patent data;IPC-Industry Concordance table;measure method

随着技术能力成为产业化发展的重要促动要素,有效获取技术能力以支持发展成为区域公共政策领域的重要目标之一。技术知识作为技术能力形成的基石,在推动区域经济发展中发挥着关键性的作用。目前,地区经济增长一方面依赖于自身资源区别于传统资源而形成的独特性,这种独特性更多来自于技术知识的积累和创新[1];另一方面依赖于区域内外的技术知识转移与合作[2]。发展中国家必须将自己定位于知识型经济中,通过知识战略定位来获取和强化相关性资源,提高知识密度,增强创新能力和动态竞争力,促进经济长期有效增长。在战略的形成过程中,充分认识现有的知识资源和能力至关重要,缺乏知识基础和知识能力支撑的技术和知识战略是难以实现的[3],为此探寻并形成一套测度区域现有知识结构的方法,帮助区域了解自身具备的知识基础,对区域知识战略定位与相关经济政策的制定具有重要意义,并能够帮助区域进一步挖掘区域知识能力,寻求不同知识基础间的桥梁,激发形成新产业。

区域知识结构介于个人与社会知识结构之间,属于中观層面,刘晓英和王元地[4]认为区域知识结构是区域知识元及其之间各种关系的总和,不同时空下,其表现形式不同,并有优劣之分。但已有研究对知识结构的测度与对知识能力的测度指标和方法基本雷同,并不能很好的体现区域知识的构成。在对知识的研究中发现,知识具有多维性,在知识管理领域,会基于知识的不同维度对知识进行划分,譬如从是否可编纂的维度可以分为显性和隐性知识;从知识应用的维度可以分为know-what、know-why、know-how和know-who;从学科维度可以分为多类不同学科知识;从权属关系的维度可以分为自有和外部知识;从知识产品维度可以分为专利、论文、专著等形式;从知识产权形式维度可以分为发明、实用新型和外观设计等形式;此外还可以从地理维度、业务流程维度、教育维度、组织机构维度等方面进行划分。知识的多维性使知识结构变得异常复杂,而不同类型的知识所对应的知识能力指标值缺乏可比性,因此知识能力的测度需要建立在知识结构划分标准的基础上,知识结构的划分标准又依赖于知识维度的选择。综上,本研究中将区域知识结构定义为基于一定知识划分标准形成的区域知识构成。endprint

专利信息在知识经济时代被公认为是最重要、技术知识含量最高、最丰富的数据源。专利统计数据不仅能作为衡量技术能力的技术指标,也可作为衡量经济发展水平的经济指标[5]。由于对区域知识结构与能力研究的最终目的是指导区域产业经济活动,因此本研究将探讨一种基于专利视角,能够反映区域产业活动的知识划分标准,对区域现有知识结构进行测度与可视化呈现,帮助区域有效识别自身具备的知识资源和能力,为进一步指导区域产业经济活动奠定基础。

1 基于专利的知识结构划分标准

一般来说,专利可以从3个层面与经济活动相关联。在宏观层面,一个国家特定年份的专利产出总量往往与经济总量数据相关,并可衡量一个国家的创新率,创新能力和技术转移能力等[6]。微观层面,专利可与企业经济活动相关联,专利研究已成为企业级战略的重要组成部分,目前已在企业监测技术发展趋势、发现技术机遇、制定研发战略、探寻企业和机构间的竞争合作关系中得到较为广泛的应用。在宏观与微观之间的中观层面,区域专利数据研究通常与产业相关联,寻求对经济政策的指导意义。为了能够更好的利用专利数据解释区域内的产业经济活动特征,需要将专利技术知识结构与产业技术知识结构相匹配,并将这种匹配关系应用到区域知识结构的划分标准中。

1.1 IPC分类体系

目前的专利系统已依据专利的技术功能与应用采用了一定的分类体系对专利进行分类,如:IPC(国际专利分类法)和CPC(联合专利分类法)。其中后者是在2010年10月由欧美联合提出的分类标准,取代原欧洲ECLA分类体系和美国的UC分类体系,该分类体系与IPC是一脉相承的,且具有分类条目更细、检索准确性更高、更新迅速、适应技术发展需要等特征。但IPC分类体系应用范围更广,且是中国专利数据采用的分类体系,因此本研究将从IPC分类体系出发,探寻划分区域知识结构的标准。

IPC是在1971年根据“斯特拉斯堡协议(Strasbourg Agreement)”首次建立,由世界知识产权组织WIPO支持并更新出版,用于专利文件分类、组织、识别、确定和检索的标准分类法。IPC采取等级式分类结构,根据不同的技术领域和等级情况,将专利体系划分为部、类、子类、组和小组5个层次,包含8个部、120个类、600个子类和大约70 000个组,其中63 000个组具有小组,小组还可通过点数进一步进行层级划分。由专利局有经验的审查员审核分配的专利IPC代码,使具有相似特征的专利被收集在同一类别中,不同特征的专利被置于不同的类别中。IPC代码在一定程度上可被视为专利文献内容的主题标签[7-8]。

然而,在数据处理中发现,IPC分类更适合于具体技术的知识结构分析,并不适合用于与产业密切相关的区域知识结构分析。尽管很多研究表明专利数据与产业经济活动有着重要关联,但若不能找到产业与IPC类之间的对应关系,就难以从区域专利数据中挖掘出其产业关联的知识结构特性。

1.2 IPC与产业技术类别对照表

基于文献,发现已有不少学者探寻了专利IPC分类与产业技术关联的一致性对照表(Concordance Table)。这一思想最早由Schmookler等提出,在美国于1966年尝试使用,将专利应用的产业信息记录到专利信息中[9]。美国专利商标局(USPTO)后来基于此,将USPC类别与美国标准工业分类中的41个类别进行一致性对照,用于产业技术分析。但是USPC和美国工业分类US-SIC均不是国际通用的,因此适用性较窄。

YTC(Yale Technology Concordance)是第一个IPC与产业间的综合对照表。1972-1995年期间,加拿大知识产权局为30多万专利同时配给了IPC码和基于“加拿大标准化工业分类(SIC)”形成的IOM(Industry of Manufacture)码与SOU(Sector of Use)码。其中IOM码说明该专利产生于哪个部门,SOU码说明该专利首次使用的部门。在此基础上,20世纪90年代初,利用1978-1993年间25万专利的列表信息确定专利IPC与IOM-SOU组合,即SIC的对应关系,形成了YTC对照表[10]。YTC表全面覆盖了交叉分类的25万项专利中包含的所有技术和行业,且IPC与SIC间的对应关系采用的是客观概率而不是主观权重,并允许在多个部门中使用相同的技术特征,因此得到较广泛的认可和应用[11]。但该方法也存在一定的局限性,一是其他国家的专利只具有IPC信息,难以直接判断对应的IOM-SOU码,使其方法的適用性较窄;二是SIC并非行业层面广泛采用的分类系统,使得该对照表引入到其他经济分类系统中使用时一致性较差、噪音较大;三是该对照表是基于1978-1993年间加拿大专利数据生成的,时间和空间上的限制使其难以应用于新时期新地域的专利分析。2002年Johnson在YTC的基础上为解决加拿大工业分类标准(SIC)在国际上未被广泛应用的问题,将加拿大知识产权局中专利的IOM和SOU信息与国际标准工业分类(ISIC)进行对接,生成IPC-ISIC对照表,即OTC(OECD Technology Concordance)[12]。OTC对照表可以广泛应用于不同的国家,但它只是YTC对照表再次翻译和一致性对应的结果,上述的第一和第三个问题并未得到解决。

与此同时产生的MERIT对照表和DG对照表采用了不同的方法路径,即基于IPC和工业分类标准说明文件来进行分析和匹配。MERIT对照表是1994年由Verspagen等人提出,基于国际标准工业分类(ISIC-rev.2),将4位数级的IPC子类与2位数或3位数对应的22种综合性制造业类进行一致性匹配的方案,采用基于芬兰统计局相似一致性算法智能生成,将625个IPC子类按不同权重归入到22类工业类中。IPC权重说明该IPC码下的专利分配给相应ISIC码的份额,100%的百分比意味着将IPC类中所有专利分配给相应的ISIC类别[13]。DG对照表是由Schmoch(2003)等人首先对NACE和ISIC代码的官方说明文件进行分析,选择出工业部门,将这些部门与IPC代码的技术分类进行初步匹配。然后针对不同工业部门下的3 000多家企业的技术部门进行专利活动调查,形成技术与工业分类间的匹配矩阵,将调查结果与理论分析结果进行比对和修正,形成最终对照表[14]。由于工业分类与IPC分类始终存在较大的出入,不同国家间也存在着不同的技术和工业分类。费劳恩霍夫ISI研究所、科技观察署(OST)与法国专利局(INPI)合作,根据国际专利分类(IPC)的规范开发出更系统的工业技术分类,这里称其为ISI-OST-INPI。2008年Schmoch再次根据ISI-OST-INPI分类中的35个工业技术类别,建立了IPC与工业技术类别对照表,以便于不同国家间的技术与经济比较分析[15]。这个对照表的优点在于:第一,适应性较广,ISI-OST-INPI技术分类充分考虑不同国家的工业分类差异,因此设计出的产业技术类型能够应用于国际间的比较,也能够适用于分析中国专利数据;第二,Schmoch将理论分析与实证调研相结合,结果具有较强的说服性。但该方法是把一类IPC专利完全归入到一个ISI-OST-INPI技术分类中,没有做权重的考虑,而一些IPC子类中的技术实际是可以应用于多种产业技术中的。endprint

2014年Lybbert & Zolas基于专利文本挖掘和关键词提取技术,提出了生成IPC-SITC对照表的ALP-DM(Algorithmic Links with Probabilities—Data Mining Approach)和ALP-PM(Algorithmic Links with Probabilities—Probabilistic Matching Approach)法[16]。ALP-DM法的主体思想是首先从SITC的各行业描述文本中选择出搜索词,即行业关键词,根据这些词从PATSTAT专利数据库中检索出相对应的专利,然后获得这些专利中所有IPC子类出现的频率,根据各IPC子类专利的总体频率进行混合加权处理。ALP-PM法是从特定IPC专利集中提取关键字,使用概率权重将其与行业描述相匹配。经过测试发现通过混合权重处理的ALP-DM法在对照效果和生成对照表的效率方面均胜过基于概率匹配的ALP-PM法。实际操作中,这两种方法的计算和统计过程相对复杂,工作量非常大。

对比以上IPC-产业一致性对照表及其生成方法的优缺点和适用条件,研究将采用适应性较为广泛的ISI-OST-INPI技术分类标准作为区域知识结构的划分标准。并借鉴DG对照表和ALP-PM法对Schmoch(2008)基于ISI-OST-INPI技术分类方式形成的IPC-产业技术类别对照表进行修正,生成能够更好体现对应关系且适合中国专利数据的IPC-产业技术对照表。

2 区域知识结构测度方法

2.1 IPC-产业技术对照表的生成方法

基于ISI-OST-INPI技术分类标准,专利数据可以被划分到35个不同的产业技术类别中。它们分别为:电机、仪器与能源,视听技术,电信,数字通讯,基础通讯处理,计算机技术,IT管理方法,半导体,光学,测量,生物材料分析,控制,医疗技术,有机精细化学,生物技术,制药,大分子化学与聚合物,食品化学,基础材料化学,材料冶金,表面技术与涂层,微结构与纳米技术,化学工程,环保技术,包装处理,机械工具,发动机、泵与涡轮机,纺织与纸,其他专用机器,热处理与设备,机械元件,交通运输,家具与游戏,其他消费品,土木工程。

研究提出的IPC-产业技术对照表的生产方法可以分为3个步骤:

第一步,基于标准描述确定检索词。该步骤直接影响到IPC与产业技术匹配的效果,因此非常重要。在执行过程中,首先根据ISI-OST-INPI技术分类标准中对每个技术类别的描述,确定该技术类别的关键词和术语,但这样确定的关键词和术语可能不够全面,因此需要对基于这些关键词检索出的完全匹配的专利进行关键术语挖掘,将重要术语添加到该类标准的专利数据检索词中。然而这样形成的检索词可能还会存在一些问题,需要对每一个检索词进行判断和甄选,删除具有多重含义或定义过于笼统的术语,确保最终的检索词具备相应技术类别特征和产业特色,以免在匹配过程中产生歧义。最终每个技术类别可确定几个到几十个检索词,以及一些需要剔除的检索词。

第二步,确定每个技术类别的IPC子类及其权重。根据每个技术类别的检索词,形成检索策略,对专利数据库进行检索。针对每类技术类别检索形成的专利集进行IPC统计分析,将技术类别i下的IPC子类j的专利数量记为mij,再检索各IPC子类的总体专利数量记为Mj,利用mij与Mj的比值计算出各IPC子类在特定技术类别中的权重值wij,这种加权处理能够更好的反应产业技术分类的专利技术特性。

第三步,整理每个技术分类下的IPC子类和权重,形成IPC-产业技术对照表。由于研究采集的是中文关键词和中国专利数据库中的数据,因此生成的对照关系更适合于中国专利数据研究。

2.2 区域知识结构的可视化呈现

在确定基于专利数据的知识结构划分标准和基于对照表的专利数据采集方案后,需要解决的下一个问题是如何有效的将区域知识结构可视化展现。由于不同技术类型的专利数量差異较大,譬如微结构与纳米技术在中国专利数据库近五年中的发明专利申请总量不足2 000件,而电机,仪器与能源类的发明专利申请总量超过22万件。同时在区域间的比较中,一些区域专利产出量非常少,一些区域专利产出量较多,譬如在我国33个省直辖市中,西藏近五年的发明专利申请总量不足1 000件,而江苏超过57万件。它们的数量关系很难在一幅图中体现出来。为了既能够体现一个区域不同技术类别下专利知识数量积累效应形成的知识结构,又能体现区域具体知识领域竞争力强弱关系形成的知识结构,研究分别对专利数据进行自然对数处理和百分占比处理,如公式(1)和公式(2)所示。

公式中Ri表示研究区域对象中的第i个区域,Tj表示第j个产业技术类别,Nij表示区域i在技术j类中具有的专利数量。自然对数处理的优势在于能够将存在一定数量级的数据显示在一幅图中而不失数据的相对大小关系,百分比处理能够用于区域间相对实力强弱的比较,这两类数据结合雷达图,可以较好的体现出不同区域的技术知识结构特征,本文将这两类知识结构分别称为量能知识结构和势能知识结构。图1展示了上述思想形成的区域知识结构测度与可视化呈现方法。

图1中的区域知识结构测度与呈现方法是在IPC-产业技术对照表形成后,基于专利数据采集与统计处理完成的,主要包含4个环节:一是基于检索策略的专利数据采集过程;二是基于IPC-产业技术对照表的匹配过程;三是基于自然对数和百分占比的数据处理过程;四是区域知识结构的雷达图展示。为了验证该方法的效用,研究在第四部分利用中国专利数据库对Schmoch(2008)的IPC-产业技术对照表进行修正,并采集我国33个省、直辖市(包括香港和台湾)的数据进行分析呈现。

3 实验数据采集与分析

ISI-OST-INPI技术分类标准已经较好的考虑了各类产业技术与IPC的对应关系,研究根据产业技术类别描述,提取到部分关键词,检索到与各技术类别完全匹配的部分专利,利用智慧芽(Patsnap)专利分析软件绘制出这些专利的词汇云图,挖掘出与各技术类别密切相关的技术术语,构建检索词表和检索策略。再利用智慧芽(Patsnap)专利系统采集了中国专利数据库中各技术类别下的发明申请类专利,通过IPC统计,计算出各技术类别下IPC子类及其权重。因为使用概率,所以不必将IPC子类分的过细,本研究采用IPC大类来统计和匹配。以电机、仪器与能源为例,匹配结果如表1所示。endprint

根据生成的IPC-产业技术对照表,继续利用智慧芽(Patsnap)专利数据库采集我国33个省、直辖市2012-2016年近五年的发明申请类专利数据。这里之所以采用发明申请类专利数据是因为发明专利中技术知识含量较高,而授权的发明专利受到审核时间的影响,不能反映出最新的技术知识产出情况,正因如此,发明申请类专利一直是专利分析中采取最为广泛的类型。对每个省、直辖市的35个产业技术类别的专利进行统计后,分别作了自然对数处理和百分占比处理,绘制出我国33个省直辖市的知识结构图分别如图2和图3所示。

从图2可以看出基于自然对数处理后的数据雷达图能够较好的反应出各个区域的量能知识结构图,即使西藏的专利产出量很少,也能够清晰的看到其知识结构轮廓,其中食品化学、制药、土木工程和电机、仪器与能源方面相对量能较高。由于33个区域的叠加,使得不少区域的结构图难以区分,但在具体区域分析中,可以仅绘制一个或少数几个区域的知识结构图进行重点分析。图3经过百分占比处理后能够较好的显示出势能较高的几个区域及其知识领域。譬如江苏在纺织与纸、表面技术与涂层、其他消费品、包装处理、机械工具、机械元件、化学工程、电机、仪器与能源等方面均具有绝对优势,专利占比超过20%;广东在视听技术、电信、数字通信、计算机技术、热处理和设备等方面具有绝对优势;北京在计算机技术、数字通信、IT管理方法等方面具有绝对优势;上海在微结构和纳米技术、半导体方面具有绝对优势;山东在制药方面具有绝对优势;安徽在食品化学方面具有绝对优势。通过具体区域的针对性分析能够较容易识别每个区域相对優势的产业技术领域,譬如台湾在半导体、基础通讯处理、光学、视听技术、微结构与纳米技术等方面具有较强的相对优势。

4 研究结论与展望

本文在比较已有IPC与产业分类对照表及其生成方法的基础上,将ISI-OST-INPI技术分类标准作为区域知识结构的划分标准,借鉴ALP-PM和DG对照表生成方法,利用中国专利数据,生成适合中国专利数据分析的IPC-产业技术对照表,并利用基于自然对数处理的雷达图和基于百分占比处理的雷达图体现不同区域的量能知识结构图和势能知识结构图。针对我国33个省、直辖市近五年专利数据进行的分析处理,表明该方法能够较好的体现出区域的知识结构,识别区域具有相对优势的技术领域。为进一步针对具体技术领域的区域知识能力挖掘和研发战略制定奠定了基础。具体分析中发现我国不同省、直辖市在知识结构和技术知识优势方面存在很大的差异,即使是知识产出相对较少的西部地区也同样具有自己的相对优势领域。今后若能针对具体区域的知识优势领域挖掘现存知识合作网络,对探讨区域间合作策略亦具有重要指导意义。

本文提出的基于专利视角的区域知识结构测度方法的关键点在于生成专利与产业相对应的对照表。尽管本文提出一种可用于中国专利数据分析的专利—产业对照表生成方法,但基于IPC大类产生的概率匹配可能会使产业与专利IPC之间的对应关系仍存在一定的偏差。若将来我国可以在专利数据库中对专利赋予生产和首次使用专利的产业代码,将有利于生成更适于我国国情的对照表。

参考文献

[1]Velez M.A,Gonzalez C.B.Knowledge and economic growth:A strategy for developing countries[J].Revista de economia mundial,2008,(18):65-77.

[2]Edlera J,Fier H,Grimpec C.International scientist mobility and the locus of knowledge and technology transfer[J].Research Policy,2011,(40):791-805.

[3]Kylaheiko K,Jantunen A,Puumalainen K,Luukka P.Value of knowledge—Technology strategies in different knowledge regimes[J].Int.J.Production Economics,2011,(131):273-287.

[4]刘晓英,王元地.我国区域知识结构效率评价[J].科学学与科学技术管理,2005,(12):54-57.

[5]Griliches Z.Patent Statistics as Economic Indicators:A Survey[J].Journal of Economic Literature,1990,28(4):1661-1707.

[6]Furman J.L,M.E.Porter and S.Stern.The determinants of national innovative capacity[J].Research Policy,2002,(31):899-933.

[7]Chiu T.A proposed IPC-based clustering method for exploiting expert knowledge and its application to strategic planning[J].Journal of Information Science,2014,40(1):50-66.

[8]Chen Y,Y.Chiu.An IPC-based vector space model for patent retrieval[J].Information Processing & Management,2011,47(3):309-322.

[9]Comanor WS,Scherer FM.Patent Statistics as a Measure of Technical Change[J].Journal of Political Economy,1969,77(3):392-398.endprint

[10]Evenson R,Putnam J.The Yale-Canada patent flow concordance[R].Yale University,Economic Growth Centre Working Paper,1988.

[11]Kortum S,Putnam J.Assigning Patents to Industries:Tests of the Yale Technology Concordance[J].Economic Systems Research,1997,9(2):161-176.

[12]Johnson D.The OECD Technology Concordance (OTC):Patents by Industry of Manufacture and Sector of Use[R].OECD Science,Technology and Industry Working Papers,March 2002.

[13]Verspagen B,Moergastel T,Slabbers M.MERIT Concordance Tables:IPC-ISIC (Rev.2)[R].MERIT Research Memorandum,February 1994.

[14]Schmoch U,Francoise L,Pari P,Frietsch R.Linking Technology Areas to Industrial Sectors:Final Reports to the European Commission[R].DG Research,November 2003.

[15]Schmoch U.Concept of a technology classification for country comparisons.Final report to the World Intellectial Property Office (WIPO)[R].Fraunhofer ISI,2008.

[16]Lybbert TJ,Zolas NJ.Getting patents and economic data to speak to each other:An algorithmic links with probabilities approach for joint analyses of patenting and economic activity[J].Research Policy,2014,43(3),530-542.

(本文責任编辑:孙国雷)endprint