王雪原 孙美霞
(哈尔滨理工大学经济与管理学院 哈尔滨 150040)
数字化时代,行业及技术领域固有边界日益混沌、模糊与液态化,携带异构知识碎片的专利可轻松实现跨膜链接,促使现代专利网络正朝着“网中网”、“群中群”等超级专利网络模式演化。科学、有效识别超级网络子群落,为共性子群落提供管理策略,成为当前研究重点。传统研究通常依托超级专利网络整体开展专利布局设计,忽视了不同群落网络发展的非平衡性与异质性特征,影响策略精准性与适用性。尽管有研究依据节点缔结关系、所属技术领域等进行一次性专利群落划分,探索不同子群落专利特征或未来发展态势,由于识别的子群落数量众多,难以针对不同专利子群落设计具体管理策略。另外,现有研究未能结合专利网络文本特征、网络静态与动态发展特征等,提出更具契合性、科学性与指导性的技术发展目标、方式等布局策略,影响现有研究成果的实践应用价值。
鉴于此,本文基于“专利缔结关系—种群网络特征”整体景观,设计双层嵌套聚类方法甄别专利群落;利用文本挖掘技术,客观确定各群落内技术领域构成,并依据群落多网络特征集合,提出专利群落技术领域发展目标与方式布局策略等,形成具有针对性与系统性策略体系。
1.1.1专利群落划分依据
基于权变思想,不同群落应采取不同技术布局策略,群落的科学划分是有效布局技术创新的前提与基础[1]。传统的一次性专利网络子群落划分中,通常单独依据节点缔结关系划分网络子群,或对主题关键词、所属技术领域(IPC)等进行群落划分[2],缺乏有效的划分依据。构型理论认为网络构型特征是决定网络行为的依据,网络构型特征与布局策略适配,才能够确保网络实现高质量技术创新。因此,基于种群网络构型特征识别专利群落更具合理性与依据性。
借鉴学者提出以架构、流程、功能作为构型维度划分平台的逻辑,可将网络结构、关系、表型作为甄别同构型专利种群、搭建专利群落的构型维度框架。具体而言,网络结构体现网络节点位置与分布、网络关系体现节点联结状态、网络表型体现网络整体属性,三维度能更综合、全面刻画网络特征。华连连等以网络规模、节点关系与多元融合性等作为各构型维度下的网络特征,以识别不同网络特征安排下的集群式创新供应链网络,并可通过甄别出具备高发展潜力的集群式创新网络,为低潜力创新网络发展布局提供参照指导[3]。然而,现存的专利群落划分指标侧重单个时间节点的网络结构、关系、表型等构型维度下特征的测度,忽视专利网络种群动态演化特征,无法全面有效阐释专利种群网络特征。如何从三个构型维度,融合静态视角与动态视角,全面、系统刻度网络特征仍需进一步探索,以提升网络特征认知科学性。
1.1.2专利群落划分法——双层嵌套聚类法
鲜有研究系统构建双层嵌套聚类体系,即基于专利缔结关系实现首层聚类确定专利种群后,依据种群特征开展二层聚类确定专利群落。
a.首层聚类——专利种群识别方法。专利种群识别是合理搭建专利群落的基础,学者通常基于专利引文或专利分类开展单一维度聚类,无法综合考虑多个维度,实现种群有效聚类划分。且当专利数据量较大时,关系方阵异常复杂,无法有效反映单个专利节点的归属,影响专利种群划分的客观性与有效性。针对目前主流聚类方法存在的问题,国外学者利用IRM并行聚类模型,试图直接在节点-属性二进制矩阵中实现节点与属性的并行聚类,以构建节点集合与属性类别的内在关联,Wang等就将“用户-满意度”矩阵进行横纵并行聚类,交集区块为能够产生特定满意度类别的用户集合[4]。然而,国内学者未能将IRM灵活应用于社会网络分析,以弥合现阶段研究差距。IRM模型可通过直接定义模型复杂度水平,即自适应参数,以自动适应大型网络复杂性特征。以往的无限关系模型,多聚焦于节点属性数据,而IRM模型能够自动处理任意二进制关系集合,且每个关系集合可接受多个参数,以获取最佳聚类数量。IRM模型还可将大量节点交互的复杂网络,简化为少量组间交互,适用于压缩大型复杂网络。综上,本文选择IRM模型对专利节点与专利分类代码开展并行聚类,以精准识别异质专利种群,实现对超级网络的首层聚类。
b.二层聚类——专利群落确定方法。朱梦菲等将创新网络特征指标赋予合理权重,综合形成创新策源能力,并利用SOM聚类算法对各省市创新网络策源能力评价结果进行聚类,划分为高、中、低三类区域集合[5]。囿于单一评价维度存在较大片面性,学者将研究转向二维、四象限聚类方式,如建立知识引力与创造潜力网络特征二维测度指标,据此划分四象限实现创新网络二层聚类[6];杨青等基于中心度、结构洞等指标,综合形成网络基础性与广泛性两个特征维度,据此划分四象限组合,甄别“高-高”象限下具备共性技术的创新网络群落[7]。二维、四象限仍存在特征维度与群落数量固定的弊端,且未能具体体现网络特征指标在群落划分时的门槛价值。因此,综合多网络特征开展灵活聚类,并筛选出不同网络特征下的代表性种群集合体,成为客观确定群落特征集、科学搭建专利群落的重要方式。鉴于DSM聚类对样本量不做具体限制,且基于DSM的聚类结果能有效反映类内指标间的强依赖耦合关系[8],因此采用DSM实现网络特征指标依赖性聚类,以刻画各专利群落的准入特征标准集合。
传统专利布局策略研究主要集中于专利网络演进热点、机会空白与融合组合分析等,形成行业技术领域方向布局策略。Wu等通过量化识别专利网络核心专利交替演变路径,提出主导技术快速布局策略[9]。Smojver等采用链式预测,识别核心专利技术后,探测与之互补的异领域强链接技术组合,从而聚焦异质技术融合,设计技术跨界布局战略[10]。这些成果仅局限于技术发展领域与方向布局,忽视技术发展目标与方式等布局内容研究。
虽有学者尝试基于专利网络特征,确定符合网络特征要求的专利布局策略,但大多研究从网络整体视角提出统一布局策略,忽视超级网络内部发展非均衡性,致使切入点粒度过粗,无法提供精准布局策略。为进一步提升布局策略的精准性,少量学者尝试将专利网络细分为多个子群落,制定差异性技术布局策略,如Lai等将专利网络分割为四部分,分别以核心、边缘、利基、基础为特征,提出其具体建设策略[11]。这些研究仅考虑群落单一特征,且群落内具体技术领域构成不明确,影响布局策略全面性与系统性。
针对现有研究不足,本文提出基于双层嵌套聚类的专利群落搭建与布局策略研究框架。首先,确定检索策略,并基于德温特数据库实现数据采集,形成研究样本集;其次,基于IRM模型确定专利种群,实现首层聚类;再次,测度专利种群网络特征值,并利用DSM实现网络特征指标聚类,将网络特征作为专利群落准入标准,实现专利群落二层聚类;最后,结合TF-IDF与LDA提取主题词,明晰各专利群落主要技术领域,依据各群落特征集合,提出专利网络布局策略体系(如图1所示)。
IRM模型根植于区块模型[12],通过参与者-行为特点双向聚类,获得社会结构景观图;随后通过逐渐完善区块模型的可并行性与可拓展性,进一步发展为IRM模型。IRM的基础模型算法为贝叶斯概率模型,核心思想为将数据和模型参数均视为概率分布。
以网络结构、关系及表型三维为切入点,从内到外持续变焦,以全面客观刻画专利种群的内置结构、互动关系以及整体表象特征。聚焦网络特征三维度,并借鉴以往学者研究成果,基于代表性与独立性原则开展静态、动态特征指标遴选。静态网络特征指标已具备广泛研究基础,结合前期研究本文最终确定结构特征—势差特征与传递特征(体现知识体系位势与集聚结构)、关系特征—离群特征与小世界特征(体现知识联结与传播关系)、表型关系—新颖特征与融合特征(体现知识原创与跨度特性),作为专利种群网络静态特征代表性指标。
囿于系统的专利网络动态特征指标体系尚未形成,本文基于网络特征三维度,提出与其适配的动态特征指标。结构层面的致密特征,体现随时间推移与网络节点增加,专利节点间距缩短、网络内部空隙减少,致使网络密度呈现增长趋势,网络透视图呈现随时间推进愈发密集态势[13]。关系层面的收敛特征,反映外部节点持续进入、边缘节点与中心节点联系逐渐增强,以牵引边缘节点向中心区域聚拢的动态过程[14]。表型层面的趋势特征,主要衡量网络未来实现技术领先、市场占有的概率,在剖析网络过去动态演化轨迹基础上,外推其未来发展趋势特征[15]。由此,形成融合静态与动态视角的三维度网络特征指标,如表1所示。
表1 专利网络特征测度指标
本文选择碳纤维技术领域作为实证研究对象,专利来源于德温特数据库(DII)。为准确识别与获取数据库中碳纤维专利,制定检索策略为TI=“carbon fiber*”或“carbon fibre*”,进行标题匹配检索时间跨度为2012—2021年的专利,删除重复项后,共获得54100条有效专利,构成碳纤维专利数据集。
采用专利共分类方法,以专利为节点,通过技术知识关联度链接专利节点,以构建专利种群网络。鉴于德温特分类代码(DC)采纳适用于所有技术的简单分类系统,并且可对特定技术领域进行细致刻画,提供技术及其应用领域的全方位图景。因此,本文选取DC分类号作为专利种群网络的共分类依据。
筛选碳纤维专利数据集DC字段,确定独立DC代码共260个,以构建DC共分类专利种群网络,最终形成51400*260的0-1二进制碳纤维矩阵。基于IRM模型实现专利节点与DC代码并行聚类。将二进制碳纤维矩阵导入MATLAB代码包,为保证专利种群的最佳划分,算法运行10次,每次迭代1000次。最终划分为55个专利种群,62个上级分类代码集。
将各专利种群0-1矩阵构造Jaccard相似方阵,导入Gephi和UCinet计算各参数。
首先,将专利种群相似方阵导入UCinet,实现对应文件格式转化,通过工具栏计算各种群势差特征(中心势)、传递特征(传递性)及网络密度等,并参照致密特征计算公式确定各种群动态致密特征。
其次,将各种群相似方阵导入Gephi,选择FruchtermanReingold进行重新布局,通过Gephi右侧工具栏计算聚类系数和平均最短路径以测算小世界特征。当网络趋于稳定,将边权重阈值设置为0.1进行剪枝,识别离群专利点,并参照相关公式计算离群特征。
再次,基于UCinet以单位时间为切片,计算各种群2012-2021各年核心/边缘结构值,绝大多数种群的核心/边缘结构值呈上升趋势,即边缘节点逐渐与中心节点建立联系,被同化为中心节点,呈现出明显的收敛特征。
最后,依据文中相关公式,计算新颖特征与融合特征。借鉴PageRank重要性程度算法,确定各年专利种群相对重要程度。将各年份0-1数据进行Jaccard相似性处理后,导入Gephi软件重新布局,计算各年份下专利节点Pagerank值,并将其作为冲积流图各节点的流值。确定好节点归属的种群后,将各年份文档转化为json格式,导入冲积流生成器,自动计算专利节点归属的各专利种群流域趋势值,确定种群趋势特征。
基于Gephi、UCinet运行参数结果及文中公式,可获得专利种群网络特征指标值,数据校准后利用投影寻踪法测算各专利种群及网络特征指标权重,具体如表2所示。
表2 网络特征对专利种群影响度及其各自权重值
参照表2数据,利用依赖结构矩阵计算模型,可以获得专利种群特征指标间依赖程度,具体如表3所示。
表3 专利种群网络特征依赖结构矩阵
将表3网络特征依赖结构矩阵导入Matlab代码包,实现网络特征指标聚类,网络特征聚为融合突破(势差特征/小世界特征/融合特征)、迭代成长(收敛特征/趋势特性/新颖特征)、边缘搜索(致密特征/传递特征/离群特征)三类。
基于表2矩阵筛选出各网络特征下的代表性专利种群(阈值大于0.5),并通过取交集方式,确定各类网络特征下代表性专利种群集合及具体专利,以确定专利群落构成,见表4。
表4 专利群落具体构成
a.将各专利群落下专利标题作为文本语料库,利用python的jieba包对文本语料库进行分词,去除停用词、标点符号等处理,实现数据清洗。结合TF-IDF与LDA,提取各语料库关键词,设定主题数量为5、每个主题下含5个代表性关键词。经专家团队讨论商榷后,确定各主题名称,具体如表5所示。
b.技术布局策略设计。结合不同专利群落技术领域特征、专利网络静态与动态特征等,系统设计不同群落技术领域布局、发展目标与方式布局策略。
专利群落1—融合突破(势差特征/小世界特征/融合特征)。此专利群落主要涵盖碳纤维增强塑料制备技术、碳纤维酸处理技术、碳纤维提升纺织品性能技术、碳纤维应用于连接零部件及应用于电机五大技术领域。这些技术领域专利种群网络具备多知识层级的小世界特征,能够不断吸纳不同专利与外部异质性知识,并呈现良好的跨领域专利知识融合态势。未来,应注重专利种群新进入异质性专利的知识建设与培育,通过加强种群内不同层级专利技术知识频繁衔接与互动,实现不同层级知识、资源有效融合,降低知识扩散壁垒,以实现广泛技术领域知识共享;从而在多元技术共生融合基础上,逐渐突破壮大,获取长足发展优势。可见,该群落的发展重点在于不同层级专利知识与技术整合、相关技术扩散与渗透整合、跨领域异质知识与技术整合,从而形成技术融合突破。
专利群落2—迭代成长(收敛特征/趋势特性/新颖特征)。此专利群落主要包含碳纤维表面处理技术、碳纤维复合树脂材料制备技术、复合碳纤维织物技术、碳纤维应用于医疗器械以及应用于加热电缆五大技术领域。上述技术领域所形成的专利群落网络收敛特征明显,即大量边缘专利进入种群网络,并逐渐与核心技术构建链接,最终演变为核心专利,致使专利种群网络内大量专利进化为领先技术与市场主流技术,为构建可持续竞争优势、培育专利种群网络新颖性技术奠定基础。因此,该群落应当加强技术专业化研发,在五大技术领域不断深耕,开展前瞻性技术突破的同时,形成完善的技术梯级储备,以实现领域技术的持续引领。这些群落对新技术开发提出更高原创性要求,应当通过优化与完善外围技术,促使新一代技术不断成熟;并通过不同代际的技术优化,促使领域技术连续更迭、持续创新,并始终处于行业领先地位。
表5 各专利群落技术领域特征关键词
专利群落3—边缘搜索(致密特征/传递特征/离群特征)。此专利群落代表性技术领域为碳纤维陶瓷制备技术、碳纤维耦合剂制备技术、聚氨酯碳纤维制备技术、碳纤维应用于汽车领域以及应用于过滤器五大技术领域。上述技术领域专利群落内,相近专利优先依附形成多个封闭的三方组结构,这些紧密连接结构持续缩短了专利技术与知识交互距离,引致相关专利不断汇集、网络密度逐渐增大。然而,由于同组知识元素重组潜力减弱,难以从中攫取高利用价值,同时高度重叠的知识会助长创新惰性造成路径锁定,因此为获取进一步创新发展空间,应转向对外围松散地带离群专利的高效搜索。通过搜索网络边缘弱链接的专利节点或探索互补异领域的离群专利,识别新的适应性机会。可见,这些群落技术重叠与冗余增多,需要从外围离群专利中挖掘与发现技术利基、深挖细分市场、识别颠覆机会并开辟全新市场,从而形成颠覆性创新突破。
科学划分“群中群”嵌套结构的专利群落,成为差异化、精准化制定行业技术发展布局策略体系的关键,研究为专利群落划分与确定提供了有效方法支持,为技术布局策略制定提供全新视角。首先,本文将生物种群与生物群落概念映射于专利网络,明确专利群落的准入特征标准,为专利网络分析提供了新视角、新思路;其次,基于IRM模型,合理划分专利种群,提升异质专利种群划分的准确性与科学性;立足于网络结构、网络关系以及网络表型三层面,从动静综合视角,设计专利种群网络特征测度指标,丰富专利网络特征认知;再次,基于DSM实现网络特征指标聚类,以量化确定各专利群落下专利种群的准入特征标准,最终确定融合突破、迭代成长与边缘搜索三大专利群落,为专利群落划分提供参考;最后,结合TF-IDF与LDA,准确识别各专利群落下技术领域主题,并基于各专利群落特征,有针对性地给出不同群落的技术领域未来发展目标与方式布局策略。
然而,本文也存在一定局限性,结合TF-IDF与LDA方法,虽能准确识别主题领域及其关键词,但在主题与关键词设置数量上存在主观判断,未来可进行模型优化,实现主题、关键词数量的客观智慧化确定。另外,本文未开展不同方法下的结果比较研究,未来可通过稳健性或差异性分析,进一步体现论文方法合理性与有效性。