王金凤,徐正强,冯立杰,李 康
(上海海事大学,上海 201306)
党的十八大以来,创新成为时代的主题。党的十九大明确提出提高科技创新能力,加快建设创新型国家。我国“十四五”规划则对加快科技创新提出了更为迫切的要求。企业作为国家技术创新的主体,更加凸显了提高其科技创新能力的紧迫性及重要性[1]。Kim 等[2]、赖晓敏等[3]、陈欣然等[4]的研究均指出,专利作为技术创新的重要载体,通过挖掘并剖析专利,能够研判企业的技术创新机会从而提升其创新能力。因此,研究如何从专利数据中精确识别并研判创新路径,对企业提高技术创新能力和核心竞争力具有重要的理论研究和实践指导意义。
在技术机会识别中,大数据、文本挖掘、机器学习和自然语言处理等信息处理技术和分析方法提升了技术创新路径识别的自动化水平和效率,呈现出更加广泛的应用趋势,但研判的创新路径往往较为抽象和模糊,在很多情况下还需领域专家参与并解读才能加以识别,因而许多研究应用专利地图、技术形态组合、subject-action-object(SAO)技术链等手段解读技术机会,在减少专家介入的同时大大提高技术机会的可解读性及具体性。例如,李乾瑞等[5]采用SAO 语义挖掘方法构建技术形态矩阵,以SAO 技术链完善技术细节,改善创新路径抽象问题;冯立杰等[6]将SAO 技术链与多维空间专利地图进行结合,构建了多维导航的创新路径识别模型,可具象识别创新路径。多维空间专利地图是通过捕捉客观技术创新要素,耦合创新法则进行迭代变换,映射于创新地图的创新方法,可以识别技术创新机会并具象出系列创新路径。例如,冯立杰等[7]应用IDE 创新方法(工业设计ID 与工业工程IE 融合形成的IDE 创新方法)多维解析装备研发领域的多维技术形态并构建专利地图,迭代产生技术研发方案;王金凤等[8]基于多维技术专利地图提出技术创新机会识别路径,并以此解读煤层气开采技术创新机会;岳俊举等[9]依据文本挖掘及关联规则构建了简易技术识别路径与多维空间专利地图维法深入进行技术识别,形成完整的技术形态。因此,通过构建目标领域多维空间专利地图的方式,有利于增强技术机会的可读性,具象出系列创新路径。
鉴于此,本研究应用多维空间专利地图以识别具体技术创新路径。首先通过词频-逆文档频率(TF-IDF)算法和隐含狄利克雷分布(LDA)模型,快速精确地提取创新要素,进而运用冯立杰[10]提出的“九法”进行耦合异化,构建多维空间专利地图以识别具体技术创新路径,并依据目标技术问题和目标优选创新法则,更精准地捕捉技术创新机会并具象其创新路径,最后结合可拓学对创新路径进行综合指标关联度评级,优选出有价值、有前景、有现实意义的创新技术路径,减少企业创新成本,提高创新效率。
在技术机会识别中,自然语言处理、统计分析等智慧手段呈现广泛应用。一是提高知识要素结构化自动化水平。二是引入新的知识要素结构化技术文本,拓展技术机会识别的表现形式,如,张福俊等[11]用共词分析法和谓词树分析法对论文与专利以及专利与专利进行对比,以挖掘海洋科学领域的技术创新机会;李欣等[12]构建了基于SAO 结构的问题-解决路径模型挖掘并聚类新兴技术专利文本中的语义信息,以揭示新兴技术形成过程中的进化脉络与演化轨迹;周健等[13]将文献按时序划分为不同的时间段,对不同时间段的文献进行主题识别,客观展示了区块链技术主题间的演化关系。另有学者通过构建专利地图来识别技术创新的空白领域,如Son 等[14]将生成拓扑映射(generative topographic mapping,GTM)应用于机器学习,通过GTM 专利地图研究技术空白区域的关键词向量以预判目标领域的技术创新机会;而Lee 等[15]、王翠波等[16]则利用可视化技术专利地图,将地图中的空白区域定义为技术创新机会。技术机会识别研究在借助各种智慧化、自动化手段减少专家参与的同时,技术机会表示及可读性方面也在趋向于具体化、定量化,如李乾瑞等[5]在采用SAO 语义挖掘方法构建技术形态矩阵基础上开展了形态分析,以输出技术形态组合备选集,然后引入模糊一致矩阵法对得到的技术形态组合进行了综合评价与排序;冯立杰等[6]抽取SAO 语义链结合多维空间专利地图构建三级技术创新识别路径,多维、多层次精准识别技术机会。
多维空间专利地图是通过对具象专利信息进行多维度导向分析,综合运用多种创新法则对影响各维度的创新要素进行迭代变换,从而高效形成系列创新路径的一种创新方法[17]。该方法综合了TRIZ、系统创新思维(systematic inventive thinking,SIT)方法和检核表法等创新理论,提出了人机关系维、功能维、动力体系维、环境维、空间维、结构维、机理维、材料维和时序维等九大技术创新维度(以下简称“九维”),及智慧化、替代、自服务、动态化、分解与去除、组合与集成、局部优化、柔性化和友好化等九大技术创新法则(以下简称“九法”),通过九维导航,借助九法对创新要素进行耦合变换优化,以形成系列技术创新路径[10]。多维空间专利地图的拓展性广、文本结构兼容性强,例如,有研究利用功能-行为-结构(function-behaviorstructure,FBS)结构解析创新层次,并依据文本挖掘的热点主题构建多维空间专利地图,解读系列技术创新机会[18];有研究基于需求视角构建Kano 模型识别关键需求,引入多维空间专利地图,生成目标APP 的系列技术创新机会[19];也有研究基于LDA主题聚类构建多维空间专利地图具象创新方案,并以TexRank-IDF新颖度指标评价技术机会方案[20]。
综上所述,多维空间专利地图的运用已经逐渐成熟,但上述研究前期通过专家介入进行解构,获取技术结构文本,存在主观性强且效率低等问题;同时,上述研究存在自动化提取创新要素文本精确度不够等问题。因此,本研究通过TF-IDF 及LDA文本挖掘方法进行嵌套使用,对技术文本经过二次精炼,提高多维空间专利地图的创新要素及创新维度的精确性。
通过词频分析、共词分析及 LDA 概率模型主题提取等文献统计分析方法,能够高效遍览相关领域的专业文献[21],而LDA 在主题词筛选上能很好体现其间的语义关系,尤其是它能够在大量异构文本数据中提取关键主题的同时降低文本维度,避免维度灾难[22]。正因如此,LDA 主题模型应用成为文献计量方法的研究热点。
式(1)中:θd、βk、k为未知参数;θd和βk可通过Gibbs 抽取样本估算;最优主题数量k可通过困惑度(perplexity)确定。困惑度一般用于评估LDA 主题模型的优劣程度以对模型性能进行量化评价,计算公式如下:
参考谭春辉等[23]、Liang 等[24]的研究,困惑度表明文档d从属主题的不确定性,数值越小表明模型的性能越优,因此,将最低或拐点对应的k值设为文本的最佳主题数,但LDA 模型的主题词项构成中大多会存在一些不重要甚至是不相关的词项,因此,需要在输出结果时借助领域专家加以遴选,或引入其他方法进行预处理,以增强主题词提取的准确率[24]。如慎金花等[1]、冯立杰等[18]分别采用了Apriori 算法和FBS 模型对文本进行挖掘和分解提取关键词,为LDA 主题聚类提供技术文本数据,提高了主题词项的精度和准确性;毛太田等[25]将关联规则算法和LDA 融合,对政府相关信息文本进行了主题提取与聚类以挖掘出相关用户的兴趣;刘自强等[26]通过引入chunk 模块,通过名词组块的构造进行增强LDA 主题的可读性,改善了LDA 中主题词的信息不足问题。为进一步在高效提取专利文本中最具代表性关键词的同时减少无用的杂词,提高主题和主题词提取的精度和效率,本研究将通过TF-IDF 结合LDA 对专利文本进行关键词筛选,提高专利数据分析的客观性及自动化水平。
TF-IDF 算法简单直观,而且在计算词语的权值方面应用较多且效果较好。该算法提取关键词的总体思路是:某个词或短语在某文档中出现频率较高而在其他文档中出现频率较低,则可认为该词或短语具有较好的区分能力,可作为该文档的关键词[27]。由此,可利用该方法进行信息检索、文本挖掘并确定用户模型的权重[28]。如彭博[29]利用TF-IDF 算法提取了网络文物信息资源文档集中各文档代表性的主题词;彭郴等[30]等运用TF-IDF 算法过滤高质量的短语和词以有效提取相关产品的质量信息,并构建了消费品缺陷领域的词典库;唐晓波等[31]则运用TF-IDF 算法抽取关键词并进行抽词标引,以发现关键词句子内部的特征。不难看出,该算法综合考虑了文本中高频词和低频词对文本分类的贡献。因此,借鉴谭金波[32]的做法,采用TF-IDF 提取的关键词数据集作为 LDA 进行主题聚类的数据源,在提高数据处理效率的同时增强主题词项提取的精度、准确性。
本研究以多维空间专利地图具象出目标领域的技术创新机会,通过TF-IDF 及LDA 高效精准地提取目标领域创新要素的维度,再结合多维空间专利地图九法进行耦合异化,构建目标领域的多维空间专利地图,法维交织,可以清晰地识别目标领域的技术创新机会。为进一步提高技术创新的效率,减少盲目投入,先通过问题和目标优选相关创新法则,减少价值不高、前景不明的创新路径,再通过可拓学计算各创新路径的综合评级关联度进行优选。
本研究构建的技术创新路径识别框架主要由技术创新路径的识别和评价组成,如图1 所示。
图1 技术创新路径识别及评价框架
3.2.1 专利数据的预处理
(1)确定技术创新领域。鉴于每个技术创新领域包含的专利文本数据不一,涵盖的关键词不同,所以由此得到的创新要素和维度也不尽相同,因此首先应明晰具体的技术创新领域。
(2)甄选专利。针对目标技术创新领域确定专利搜索关键词,并在特定专利检索平台收集相关专利数据,在剔除与目标技术创新领域关联度较低的专利后,得到与之关联度较高且代表该领域技术创新研发趋势的专利文本数据。
(3)建立知识图谱。将上述专利数据进行分词、停词、清洗、筛选处理,可提取目标技术领域的创新要素并建立知识图谱,为萃取创新维度奠定基础。
3.2.2 创新维度的萃取
(1)挖掘创新要素。基于TF-IDF 算法提取专利文本中的关键词作为影响专利创新的要素。
(2)LDA 挖掘核心创新要素。对专利文本关键词降维并提取主题文本及其核心要素,可将采用TF-IDF 方法得到的关键词文本输入LDA 模型,以提高基于LDA 降维分析的精准度。
(3)依据专家意见,结合知识图谱删减或补充上述数据集,继而萃取出影响目标技术领域的创新维度。
3.2.3 技术创新路径的生成
(1)构建多维空间专利地图。依据LDA 多维要素聚类最终结果将创新要素映射并标注于多维空间,绘制出多维空间创新地图,依此可视化分析现有要素组合的分布状态,而且能够通过变化异化后的要素间组合触发创新,进而产生超出现有技术领域的创新要素组合,从而为探索目标领域的潜在创新机会提供指引。
(2)通过问题和目标确定创新法则。由于创新要素及创新法则组合分布数量庞大,存在价值及前景较小的创新路径,因此需要对创新法则及维度组合进行筛选,明确创新目标,提高技术创新的效率。基于现实状况中目标技术存在的问题及对应达到的目标,邀请专家优选各创新维度选择进行耦合变换的创新法则,如智慧化、替代、自服务、分解与去除等。
(3)具象技术创新路径。将上述创新维度与对应的创新法则耦合,根据目标技术存在的问题生成系列技术创新路径。
为了进一步提高创新效率,减少不必要的创新成本,应用评价模型对以上生成的技术创新路径进行评价,以研判最佳技术创新机会的过程。鉴于可拓学方法在策略生成与评价技术中的广泛应用,如,Su 等[33]、Jiang 等[34]均指出,依据可拓学理论构建的区域创新协调的测度模型、空气质量预警系统的评估模型,可以更好衡量创新对象或评估对象的性质特征,因此本研究采用该方法进行关联度计算以实现对具体创新路径的评价。详细步骤如下。
(1)划分评价等级。参照TRIZ 理论可将具象技术创新路径划分为5 个等级代表创新路径的投入价值,即I 级(高级)、Ⅱ级(较高级)、Ⅲ级(一般)、Ⅳ级(较低级)和V 级(低级),各级别对应的值域分别为I 级(4,5]、Ⅱ级(3,4]、Ⅲ级(2,3]、Ⅳ级(1,2]和V 级(0,1]。
(2)构建待评物元。作为可拓学的逻辑细胞,物元可表述为R=(N,b,r)=(事物名称,特征,特征值),由此对待评的技术创新路径i构建待评物元矩阵如下:
(3)计算关联度。根据可拓学的关联度计算规则,第k个指标关于等级j的关联函数可表述如下:
(5)通过计算上述各创新路径的综合关联度判定其创新等级。首先计算各创新路径的综合关联度如下:
最后,选取关联度最高者作为最优创新路径。
冷库作为肉禽类、果蔬、冷饮、药品、化工原料和电子仪器仪表等必不可少的恒温贮藏基础设施[35],同时也是冷链物流中最重要的一环,探究冷库技术设施的创新路径对冷链物流企业的创新发展极为重要。利用上述技术机会识别模型识别冷库创新路径,精准把握冷库技术领域创新规律,具象冷库技术创新路径,结合可拓学理论进行关联度综合指标计算并评级择优,为冷链物流企业制定科学合理的技术创新研发方案提供决策参考。
4.1.1 数据收集及预处理
在中国知识产权网平台检索相关专利数据,具体检索方案见表1。
表1 冷库技术专利检索方案
将检索到的专利文本数据进行关联度筛选,剔除不符合冷库技术创新主题要求的专利数据,共得到2 668 项有效专利文本数据(以下简称“样本”)。为更精确地获取目标技术领域的创新要素,通过分词及停词处理对文档清洗并进行多次迭代构建冷库技术的专业停词表,通过计算关键词的共词矩阵和词频并进行可视化处理,绘制冷库技术的创新要素共线网络如图2 所示。
图2 冷库技术创新要素共线
图2 中,关键词字体大小代表词频的高低;各关键词及其之间的连线代表各专利文献进行创新的要素及其组合,连线粗细代表该组合的创新次数,连线越粗越多代表创新的频次越高、结构也越紧密。由此看出,现有冷库领域的技术创新热点主要集中在制冷系统的各设备与构件(如压缩机、蒸发器、冷凝器及冷风器等);在现有技术热点四周密布的创新要素为冷库技术专利研究的稀疏区或空白区,这些创新要素的关注度较低,例如热交换器、散热器、截止阀、声光报警器、增压风机等,但这些专利支持文档少、出现频率低的创新要素对冷库的未来技术创新极为重要。
4.1.2 冷库技术的创新要素挖掘
运用TF-IDF 算法在样本数据中提取得到各冷库技术专利的创新要素(见表2)。
表2 冷库技术专利文本创新要素
4.1.3 冷库技术创新维度确定
选取最小困惑度对应的主题数作为LDA 模型的最优主题数,计算得出1~10 个主题数对应的困惑度(见图3)。
图3 冷库技术专利文本主题个数与其对应的困惑度
由图3 可以看出,当主题数为4 时困惑度最低,因此冷库的LDA 模型最优主题数为4。进一步建立LDA 模型得到聚类的主题和主题关键词,如表3 所示。
表3 冷库技术专利文本的LDA 聚类数据
其次,运用多维空间专利地图对主题核心创新要素进行分类,并将冷库技术的创新维度划分为材料维、机理维、结构维和功能维。由于TF-IDF 和LDA 均为基于词频的智能算法,在提取聚类中可能会漏掉具有创新性的关键词,因此将表3 结合知识图谱进行查验,得到载冷剂、增压风机、油液分离器等创新要素。此外,邀请相关领域专家共补充了20 个创新要素,最终确定的创新维度见表4。
表4 冷库技术的创新维度
4.1.4 构建冷库技术的多维空间专利地图
依据LDA 多维要素聚类结果绘制出多维空间创新地图(见图4 和图5),对现有要素组合的分布状态进行可视化分析;同时,通过变化异化后的要素间组合触发创新,进而产生超越现有技术领域的创新要素组合,为探索冷库创新技术提供指引。
图4 冷库技术机理、功能、结构维空间专利地图
图5 冷库技术材料、功能、结构维空间专利地图
多维空间创新地图蕴含了丰富的 创新要素及创新法则组合分布,但推导出的一些技术创新路径方案可能存在价值及前景较小的问题,为了避免创新盲目性和提升创新效率,从当前我国冷库技术存在的问题出发,分析冷库领域当前急需解决的问题。我国生产的分体制冷器、库体材料、冷凝材料、溴化锂吸收式冷水机组等产品取得一定的优势,但在制冷压缩机的研究开发、制冷空调系统、冷库设施自动及智慧化设计、网络化运行等方面仍具有明显的差距[36]。例如,存在冷库设施功能单一,不能很好地适应如今市场多样化的要求;加之其自动化程度普遍偏低,与发达国家相比差距较大,整体冷库技术大多仅针对某一制冷设备部件,较少系统考虑制冷循环的前沿领域,因此无法精细控制冷库设施各个环节,造成大量能量浪费的情况[37]。在分析我国现有冷库的问题后,邀请专家对此优选耦合的创新法则(见表5),并分别从不同维度的不同创新要素与优选的创新法则进行迭代变换,具象出了6 种冷库技术创新路径(见图6),其中每种路径连线表示其所涉及的维度,不同的形状表示该路径涉及的创新法则,具体如表6 所示。
表5 我国冷库存在问题与对应创新法则
表6 冷库技术的创新路径
图6 基于4 类维度的冷库技术方案
分别从技术和市场两个层面构建指标体系,通过可拓学建立评价物元,然后运用关联度计算规则计算各路径的评价指标对评价等级综合关联度,进而优选出最合理的技术创新路径。其中,各路径的潜在价值由技术层面诸如新颖度x1i、技术实现可能性x2i、市场价值层面的经济效益x3i、社会效益x4i等指标共同决定。首先,邀请相关专家及企业技术人员对各具象指标打分,以构建冷库技术各创新路径的待评物元Ri(i=1,2,3,4,5,6)如下:
其次,通过式(4)~(6)分别计算冷库技术各创新路径评价指标与各等级的关联度。以路径①为例,计算指标x11的r11关于 I、Ⅱ等级的关联度,其余计算结果见表7。由于所以r11关于 I、Ⅱ等级的关联度为:
表7 冷库技术待评创新路径各指标值对创新等级的关联度
表7(续)
则冷库技术的各创新路径关于各等级的最大关联度为:
从上述创新路径的最大关联度可知,路径①和路径④为高级创新路径的Ⅰ类创新等级;而路径②③⑤⑥为较高级创新路径Ⅱ类创新等级。其中,①、④相较于其他路径,在冷库的制冷系统和设备上,采用组合与集成或自服务创新法则对其进行组合优化实施难度小而且成本低,在冷库节能和提高设备使用寿命等方面效果显著,具有更高的创新价值。
本研究使用TF-IDF 及LDA 文本挖掘方法对技术文本经过二次精炼,提高多维空间专利地图的创新要素及创新维度的精确性,并依据目标技术问题和目标优选创新法则建立可拓学评价体系,具象出符合现状、有价值有前景的技术路径。基于此技术机会识别评价模型,通过计算各创新路径综合评级关联度进行进一步择优,以减少盲目创新投入的成本,提高创新的效率和科学性。
但在完善创新要素以及确定方案评价权重时,本研究主要依据专家的经验可能会加大择优结果的主观性,后续研究需要从主客观两方面综合考虑并确定其权重。