方 曦,崔梁雨,刘 云
(1.上海应用技术大学经济与管理学院,上海 201418;2.中国科学院大学公共政策与管理学院,北京 100049)
随着中国经济由高速增长转变为高质量发展,中国科技实力正在从量的积累迈向质的飞跃、从点的突破迈向系统能力提升,科技创新取得新的历史性成就,迈入创新型国家行列。然而,中国仍在航空航天、人工智能、医药、通信等领域存在关键核心技术受制于人的难题,要跻身创新型国家前列,实现高水平科技自立自强,必须要重视核心技术的培育和发展。《“十四五”国家科技创新规划》明确提出坚持创新在中国现代化建设全局中的核心地位,把科技自立自强作为国家发展的战略支撑,打好关键核心技术攻坚战。党的二十大报告中进一步强调集聚力量进行原创性引领性科技攻关,坚决打赢关键核心技术攻坚战。
人工智能(AI)最早在1956 年达特茅斯会议中被明确提出。人工智能之父马文·明斯基(Marvin Minsky)[1]定义人工智能是一门机器运用人类思维与智能完成复杂事情的科学。随着新一轮科技革命和产业变革重构全球创新版图,以人工智能技术为主导的第四次科技革命不断与传统产业发生融合和碰撞,推进传统行业向数字化智能化转型,不断催生新的业态,实现新的蜕变与发展[2]。人工智能技术在引发科技、产业和社会变革等方面具有巨大潜力,已经成为各个国家发展战略、夺取科技前沿阵地的重要依托工具[3]。2016 年美国密集发布人工智能相关战略,正式启动人工智能战略部署,2021 年将《国家人工智能倡议法案》正式升级为法律,确定了人工智能在国家战略的地位;2018 年欧盟委员会提交报告《欧盟人工智能》,明确制定未来欧盟人工智能行动计划;2019 年日本发布了《人工智能技术战略》,从国家层面对人工智能技术的发展和应用进行了总体布局,同年韩国政府发布了《人工智能国家战略》,旨在推动韩国成为AI 强国,普京批准了《2030 年前俄罗斯人工智能发展国家战略》,将人工智能技术视为国家间战略竞争的重要领域。2017 年中国在《新一代人工智能发展规划》中明确将人工智能提到国家战略高度,并于2021 年最新的“十四五”规划中明确提出将人工智能数字经济产业作为建设数字中国的重点产业。
人工智能作为引领未来的新兴技术,成为推动全球科技创新的重要力量。中国必须抓住发展机遇,打破人工智能领域国外的技术锁定和技术打压困境,掌握和攻克核心技术、形成自己的科技创新高地。掌握和攻克核心技术的关键及首要问题是识别核心技术。专利是技术创新、创新成果的重要载体[4],90% 以上的技术信息都记录在其专利文献中[5],是关键核心技术突破的重要体现。因此,通过专利对核心技术进行识别具有可行性[6]。鉴于此,基于专利信息了解人工智能领域的技术发展现状,从专利角度对人工智能领域的核心技术进行识别,以期对人工智能领域的核心技术培育和发展提供决策参考,对实现产业领域创新、确定国家战略方向具有重要的意义。
对核心技术的识别,首先需要明确其概念。现有大部分研究,如田雪姣等[7]、陈瑞真等[8]的研究认为,核心技术是指能够引领其所在产业领域未来发展,对其他技术产生重要影响,具有重要经济价值、市场价值或战略意义的技术,具有支撑性、不可替代性、复杂性。随着科学技术的进步和高新技术的发展,专利承载着重要的技术、法律和经济信息,能够表征技术发展和产业发展水平[9]。如Noh 等[10]学者往往用核心专利来表征核心技术,将核心专利的国际专利分类(IPC)号来反映核心专利的技术主题。利用专利文献识别技术主题下的核心技术,有利于清晰把握核心技术特征和来源,对了解当前技术发展状态和规律,开展专利布局和规避风险、预测技术发展方向有重要的意义。
目前基于专利信息的核心专利识别方法主要有以下几种:一是单一专利指标法。国外学者通常把指标频次高的专利认为是核心专利,主要集中在专利被引次数、专利同族数、权利要求数和发明人数等指标。这些单一指标识别方法操作性较强,适用于快速识别,但存在片面性和准确性较低的缺点。二是多个指标组合识别法。为提高单一指标识别法的准确性,部分学者逐渐设计指标组合来评估专利价值,如Thompson[11]认为专利文献引用和被引用的次数与专利价值呈现正相关;Schettino 等[12]通过将专利引用、被引次数、同族专利数指标组合来识别核心专利;Eslami 等[13]用专利被引频次和权利要求数组合来识别核心专利;袁润等[14]通过将专利引用频次、专利同族数、专利诉讼数和权利要求数组合来识别风能技术领域的核心专利。三是专利指标体系构建法。如,Burke 等[15]从专利的技术经济维度和法律维度来定义专利质量;Ko 等[16]基于专利的内在特征和外在特征选取了 28 个专利指标对专利价值进行评估;刘勤等[17]从专利特征、发明人特征以及权利人特征 3 个维度入手构建专利价值评估模型;黄潇霏等[18]从专利技术价值、法律价值和经济价值构建指标体系,结合量子遗传算法和层次分析法对核心专利进行识别。四是基于复杂网络识别法。如,Jeon 等[19]通过建立多个复杂网络对安全技术领域的核心专利进行了识别;Mariani[20]考虑到引文网络拓扑结构和时间信息,通过引文网络分析早期识别专家选择的核心专利;巩永强等[21]依据专利被相同领域论文、专利的引用行为和与同领域产品间的对应关系建立复杂网络,通过关键节点的筛选识别核心技术;潘微微等[22]运用专利集群网络中介中心性对碳化硅肖特基二极管技术领域进行核心专利识别。
以上研究从不同角度对不同产业领域的核心专利进行识别,单一指标识别方法适合快速识别但准确性低,指标组合识别法存在选择的指标冗余混乱问题,复杂网络识别法存在建模困难、复杂度高的问题,其中以多维度、体系化构建的专利指标体系法是近年来的研究热点,但现有相关研究选择专利指标构建识别体系存在一定的主观性,对识别体系中的指标权重多采用单一主观赋权法或单一客观赋权法,造成所识别的核心专利存在一定的主观性和不准确性。
因此,为进一步完善核心技术的识别方法,首先通过专利地域分布、专利权人及主要IPC 等3 个维度的分析,了解人工智能领域技术的发展状态;其次,把核心专利作为研究人工智能领域核心技术的抓手,根据核心专利的价值特征构建包含技术、法律和市场三维度的专利指标识别体系,采用层次分析(AHP)-熵权法组合赋权法确定指标组合权重,构建专利价值度评估模型,基于该模型来识别人工智能领域的核心技术,最后进行实证分析。
在阅读相关文献后发现,众多学者认为核心专利是在某一个产业领域中处于关键地位,符合生产需要并适应市场发展要求,具有重要技术价值、法律价值、经济价值的专利或专利组合[21]。即从技术、法律和市场价值3 个维度对核心专利进行评价[22]。技术价值维度表现在核心专利载有大量关键技术信息,同一个领域内专利技术的先进性和重要性是评判核心技术的关键因素[23];法律维度是考察专利是否符合法定授权标准及是否具有法律效力的稳定性,具有稳定的法律状态的专利能够增强技术竞争力,不会轻易被竞争对手提出无效[24];市场价值维度是考察该专利市场商业化和应用产出的价值,核心技术不仅在技术上是核心的,在市场的影响力和应用成本上也是核心的。技术价值、法律价值和市场价值相辅相成,只有将三者相融合于一体,才能综合体现专利价值。基于此,从专利的技术、法律和市场3 个价值维度选取核心技术识别指标,经过专家的指导和综合前人的研究,遵循指标的易获取性和科学性等原则,最终选取的相关指标见表1。
表1 核心专利的识别指标体系
指标权重表示指标在整个评价体系中的相对重要程度。指标赋权主要分为主观赋权方法和客观赋权法。主观赋权法是通过专家或决策者的知识经验或主观意图确定评价指标权重,与专家们对各指标间的判断有关,比如层次分析法、德尔菲法等。客观赋权法是建立在评价指标的实际数据变异程度和指标之间的影响程度基础上确定指标权重,如熵权法和TOPSIS 法。然而主观赋权法存在结果带有一定的主观随意性,可能会产生一定的偏差,不能体现指标实际数据的客观信息的缺点;客观赋权法则依赖于足够的样本数据和实际的问题域,通用性和可参与性差。综上,为降低单一赋权法给识别结果带来的偏差,保证识别结果同时兼顾客观信息和主观意见,采用主客观组合赋权法来确定指标权重,即基于AHP-熵权法来构建核心专利识别模型,通过AHP-熵权法加权组合得到各个专利指标的组合权重,再以此来测算每项专利的价值度,最后筛选出核心专利。
2.2.1 层次分析法确定指标权重
层次分析法是将一个目标属性系统分解为目标、准则、方案等多指标层次,通过邀请相关领域的专家进行两两比较分析,来确定每个层次指标间的相对重要程度的定性和定量分析结合的决策方法。利用层次分析法计算指标权重的步骤如下:
(1)确定专利指标体系评价的目标,明确评估的一级指标和二级指标。根据上述核心专利识别指标体系,一级指标因素集为B={B1,B2,B3},二级指标因素集为技术指标集={X1,X2,X3,X4},法律指标集={X5,X6},市场因素集={X7,X8}。
(2)构造判断矩阵。同一个层次的评价指标有相对重要性的状况,将属于同一个一级指标的二级指标相互进行比较重要性,构造出各层次的判断矩阵。判断矩阵中相对重要性通常使用1—9 数值标度的表现形式,各个矩阵元素的标度方法见表2。
表2 判断矩阵标度法
设有n个指标,构建判断矩阵X:
式(1)中,xij表示指标i比指标j的重要程度。
第一步:首先将判断矩阵的数据进行归一化处理,获得初步权重向量wi。
(4)一致性检验。对判断矩阵进行一致性检验以保证结果具有逻辑性和科学有效性。
第二步,对判断矩阵进行一致性检验。
式(6)中:CI 为一致性指标;CR 为一致性比例;RI 为平均随机一致性指标。当CI=0 时,判断矩阵具有完成一致性;当时,说明判断矩阵X满足一致性要求;其他CI 值均不满足要求,需要重新调整矩阵。1—9 阶判断矩阵的RI 数值见表3。
表3 平均随机一致性指标RI 参照值
2.2.2 熵权法确定指标权重
熵权法来自信息论的基本原理,是利用具体数据信息之间的差异性来进行赋权,指标的离散程度由熵值大小决定。某项指标熵值越小,该指标间的离散程度越大,表明该指标的信息量越大,在指标评价中的权重就越大;反之,熵值越大,则指标间差距越小、权重越小。利用熵权法计算指标权重的步骤如下:
(1)构建原始矩阵X。设有m项专利、n项指标,xuj表示第u项专利的第j项指标的实际值。
(2)数据无量纲化处理。信息熵是一个无量纲值,计算指标权重时应对指标进行标准化处理。采用极差标准化方法,因为所选取的指标均为正向指标。转换公式如下:
计算第j项指标的熵值Ej:
式(9)中,puj代表矩阵归一化的概率矩阵。若puj=0,则定义pujInpuj=0。
2.2.3 确定组合权重
基于AHP-熵权法得到主客观的指标权重,在此基础上计算组合权重。AHP 赋值有较高的主观性,熵权法更加关注指标间的原始信息差异性,将AHP和熵权法得到的指标权重组合,既可以克服定性分析主观随意性大的局限,又能够客观确定评价指标的相对权重,使赋权结果更具有系统性和可行性。组合权重的计算方法为:
2.2.4 确定专利价值度
求得核心专利评价指标的组合权重后,构建专利价值度(C)来反映各个专利的重要程度。专利价值度的计算公式如下:
2.2.5 核心专利划分
在得到每件专利的专利价值度后,需要对专利进行划分得出最后的核心专利集。通过查阅之前的相关文献,发现主要有4 种专利划分方式:第一,如杨武等[33]、毛荐其等[34]采取的做法,对各个评价对象进行综合排名,选出排名靠前的专利为核心专利;第二,按照计算得出的核心专利综合指数的大小比例,将专利分为核心专利、关键专利和普通专利[35];第三,参照现有的专利数据库平台构建的指标来划分专利,对专利价值进行排序[36];第四,从专利寿命角度划分,将专利维持时间至16 年时生存概率在50%以上的专利定义为核心专利[37]。基于此,将借鉴第二种核心专利划分方式,参照田雪姣等[7]的研究,以专利价值度C 最大值为基准,将专利划分为核心专利、关键专利和普通专利。具体划分方式见表4。
表4 专利分类区间
以人工智能领域的专利数据为研究对象,以智慧芽专利数据库为数据来源。采用关键词的检索策略,以人工智能相关的词汇作为关键词,以专利申请日为时间节点,由于专利申请需要审查具有滞后性,不考虑近两年的专利,故检索时间和范围设定在2000 年至2020 年的发明专利。最终检索表达式为TA:(artificial intelligence OR machine learning OR deep learning OR natural language processing OR computer vision OR smart robot OR image recognition OR speech recognition OR predictive analytics OR fuzzy logic) AND APD:[2000 TO 2020]。检索时间是2023年3 月25 日,共检索到387 449 件专利。
由于检索到的专利量非常大,存在很多已经无效和低质量的专利,为了确保后期识别核心专利的精确度,需要对检索到的专利数据进行预处理。首先去除已经撤回、未缴年费等无效的专利,每组中简单同组的只选择一个专利代表,最后保留77 261组已经授权的发明专利。在此专利数据的基础上,参考杨大飞等人[35]处理数据的方法,按照核心专利指标体系中专利被引频次、专利引证频次、IPC 分类号、非专利文献引用数、权利要求数、说明书页数、专利转让许可数、专利同族数等各个指标,统计每件专利的字段数值,筛选出每个指标排序前100 位的专利,先合并再去除重复项,最终得到实证数据专利660 件。样本指标的描述性统计见表5。
3.2.1 地域分布分析
基于智慧芽专利数据库检索出的387 449 件初步专利集,分析技术主要来源国申请趋势变化来了解技术主要来源国的技术活跃趋势,见图1。目前人工智能领域的专利申请主要集中在中国、美国、日本、韩国、印度这5 个国家,说明这5 个国家在全球人工智能领域技术创新能力和活跃程度比较高。从总体申请趋势来看,2000—2010 年是人工智能领域的技术平稳发展期,各个国家专利申请量均未超过1 200 件,发展较为突出的是日本,其专利申请总量领先全球;2010—2020 年是技术快速发展期,专利申请数量快速增长,每年专利增长量的较多的是中国和美国,中国和美国已经走在人工智能领域研发队伍的前列。其中,中国专利申请数量总数居全球第一,中国人工智能领域的技术研发已经从“跟跑”进入到“并跑”阶段;而日本和韩国专利增长缓慢,相比于中国和美国的发展速度处于“掉队”状态;印度的专利增长速度明显加快,以平均每年5 倍的增长速度提升专利总量,近年来印度在人工智能技术研发方面非常活跃。
图1 人工智能技术专利申请量排名前五国家专利申请趋势
3.2.2 申请人分析
通过分析主要申请人可以了解人工智能领域技术研发和市场竞争情况。见图2,排名前十的申请人中有3 家美国公司、4 家中国公司、2 家韩国公司、1 家日本公司,呈现出企业主导人工智能领域技术创新的模式。美国公司分别是IBM 公司、微软和谷歌公司,均是全球具有影响力的龙头企业,其中IBM公司拥有2 670 件专利位居第一,在自然语言处理、信息处理和机器学习等领域处于领先地位;韩国三星电子公司排名第二,有2 322 件专利权,和LG 电子公司主要集中在人工智能芯片和AI 机器人领域;中国腾讯科技(深圳)有限公司有2 209 件专利排名第三,总体研发主要聚焦在机器学习、计算机视觉、语音识别、自然语言处理(NLP)等四大方向;日本佳能株式会社排名第七,拥有专利1 444 件,主要集中在深度学习、人脸识别和图像处理技术。排名前十的企业内中国的企业最多,分别是腾讯科技(深圳)有限公司、平安科技(深圳)有限公司、北京百度网讯科技有限公司、华为技术有限公司,说明中国的人工智能产业发展取得了重大的进展,致力于推动基础研究走向实际应用,中国人工智能企业的综合实力在逐步追近国际科技龙头企业的脚步。
图2 人工智能专利申请量排名前十的申请人
3.2.3 人工智能领域技术分布
见表6,展现了人工智能领域专利数量最多的主IPC 分类号及其技术主题,由此了解人工智能领域技术分布。可知模式识别、图像分析、语音识别、大数据、云计算、通信传输、计算机视觉等是当前人工智能领域的热点技术。在此基础上统计了IPC 的主要国家/机构专利数,见图3,可知各个国家人工智能技术分布不均衡,各有侧重:日本在G06K9、G06T7 和G10L15 领域申请的专利数量较多;韩国专利申请主要集中在G06K9、G10L15 和G06Q30;中国 在G06K9、G06T7、G06F16、G06F17、G06Q10 技术领域的专利数量都领先于其他国家,但在G10L15和G06N20 等技术领域的专利数量均落后于美国,除此之外,在G06F17、G06Q10、G06N3、G06F3、G06Q30 领域的专利申请都较少,说明中国在模式识别、图像分析、大数据、云计算和AI 管理领域有明显的技术发展优势,在语音识别和机器学习等关键技术领域的发展水平相对弱势,专利技术布局不均衡,需要在发展优势技术领域的同时加大弱势领域的研发投入,加强技术之间的融合创新;而美国更注重算法等底层技术,在机器学习、语言识别、计算机视觉、数据处理等关键技术领域保持一定的优势。
图3 人工智能领域主IPC 分类号下各个国家/机构专利数对比
表6 人工智能专利数量排名前十的主IPC 分类号及其对应的技术方向
综上,全球人工智能技术领域专利数量从2010年之后爆发式增长,其中主要是中国和美国专利数量的快速增长;同时发现日本和韩国研究起步很早,技术基础储备扎实,但发展后劲不强。美国申请量虽然没有中国多,但美国更注重底层技术,基础技术和核心技术扎实,在语音识别和机器学习等领域具有领先地位;中国虽然起步较晚,但后期专利申请量增长十分迅猛,但也导致技术布局不够全面、基础技术专利价值不高、专利的技术创新程度不高。因此,识别核心专利对于中国在人工智能技术领域的研发和改进至关重要。
首先根据AHP-熵权法对以上所构建专利识别体系中各个指标计算权重系数,然后将根据筛选出的2000—2020 年660 件专利作为实证数据进行核心专利识别分析。在AHP 评价过程中,邀请了6 位上海市知识产权专家组成评审小组,共同按照矩阵标度法对核心专利评价指标进行赋权,采用熵权法来计算权重则是在获取所有专利指标信息的基础上进行。经过计算得到的各个评价指标的权重结果分别见表7、表8。
表7 基于AHP 确定的人工智能专利识别指标权重
表8 人工智能专利识别指标的组合权重值
将上述得到的各个评价指标的组合权重和经过无量纲化处理的660 件专利数据代入公式(13),确定样本数据中各个专利的价值度,并将专利价值度最大值用1 来表示、其他专利价值度按照比例进行转换,最终得到的专利价值度区间分布见图4。人工智能领域的660 件专利价值度的分布图像近似符合正态分布,在专利价值度的(0.1,0.2]区间的专利数量最多,共有418 件,而专利价值度低的区间和专利价值度高的区间的专利数量都比较少,(0.7,0.8]区间有8 件专利,(0.8,0.9]区间有4 件专利,(0.9,1]区间只有2 件专利。
图4 人工智能领域专利价值度区间分布
按照专利价值度大于0.7 的专利为核心专利,最终得到14 件核心专利、71 件关键专利和575 件普通专利,其中核心专利基本信息见表9。14 件核心专利均为美国专利,专利US11405466B2、US11257504B2、US10079014B2、US9966060B2、US10593346B2、US10283110B2、US9972304B2 主 要涉及语音识别技术;专利US11257504B2 主要涉及人机交互技术;专利US6804330B1、US11609552B2、US11210726B2 主要涉及通信传输技术;专利US10431204B2、US10521466B2、US11424027B2 主要涉及电数据处理技术;专利US11257576B2 主要涉及计算机视觉技术。由此可见,人工智能领域核心专利所包含的核心技术集中语音识别、通信传输、电数据处理、图像分析等技术领域,符合以上分析的人工智能IPC 国际分布情况,均是当前人工智能领域创新链技术层的热点技术,说明所筛选的核心专利符合世界人工智能技术领域的发展现状,证明基于专利属性特征构建的核心技术识别模型具有一定的科学性和有效性。从专利布局的角度来看,美国在人工智能领域核心技术的布局范围越来越广阔,重心逐渐分散。虽然美国近几年在语音识别技术领域的核心专利布局较多,比如苹果公司申请的多项关于语音识别技术被识别为核心技术,但整体上已经不单局限于一个领域,已经涉及到医疗、交通、物流以及金融、工业等各个产业领域,人工智能技术在不同产业融合创新发展成为当前技术发展趋势。
表9 人工智能领域核心专利基本信息及技术主题汇总
首先从地域分布、申请人和IPC 分类号3 个层面对2000—2020 年人工智能领域的专利数据进行计量分析,并基于专利价值特征构建人工智能领域的技术、法律、市场3 个维度的核心技术识别指标体系,运用AHP-熵权法的主客观组合赋权法构建核心技术识别模型,划分专利分类区间,最后对2000—2020 年人工智能领域筛选后的全球专利进行实证研究。得出以下结论:
(1)所构建的三维核心技术识别指标体系能够全面识别专利价值度高的核心专利,采用主客观组合赋权法既可以克服定性分析主观随意性大的局限,又能够客观确定评价指标的相对权重,对人工智能领域进行核心技术识别的实证分析结果符合实际情况。这表明该核心技术识别模型具有一定的科学性和可行性,不仅丰富了核心技术识别理论,对中国掌握人工智能领域的技术发展趋势也提供了参考依据。
(2)目前人工智能技术正处于快速增长期,相关专利的重要申请人主要分布在中国、美国、韩国、日本,技术发展逐渐形成以企业主导技术创新模式,模式识别、图像分析、语音识别、大数据、云计算、机器学习等是当前热点技术。中国专利成为全球专利申请量激增的主要力量,国内多个知名企业排名世界前列,主要以G06K9、G06T7、G06F16等为技术发展重点,在体量和应用多元化上有所突 破,但 在G10L15、G06F17、G06Q10、G06N3、G06F3、G06Q30、G06N20 等技术方面开发较少,且在G10L15、G06N20 等技术方面落后于美国。这说明中国人工智能专利数量虽多,但技术发展不均衡,技术创新性和价值度低。
(3)识别出的核心专利均为美国专利,涉及的技术主题主要集中在语音识别、通信传输、电数据处理、图像分析等技术领域。从专利布局的角度来看,人工智能领域核心技术的范围有逐步扩张的趋势,重心逐渐分散,不仅局限于一个领域,已经涉及到医疗、交通、物流以及金融、工业等各个产业领域。这说明目前美国在人工智能产业领域占据主导地位,不仅拥有很高的技术创新能力,而且有技术发展的预见性;相比下,中国人工智能领域核心技术的实力比较薄弱,自主研发创新能力有待提升。
以上结论启示着,中国在紧跟全球人工智能技术发展趋势的情况下,需要进一步注重人工智能领域的研发投入和战略布局。政府需要加大对人工智能产业技术创新的支持力度,加强顶层政策设计,制定人工智能相关标准体系,开展核心技术创新应用试点示范,加强与国外的合作交流;鼓励企业加强技术创新和自主研发能力的提升,可以通过构建专利池,吸收重要的专利技术、吸纳产业内优秀的企业、突破产业技术瓶颈、促进技术标准的形成,激发企业技术创新活力;加大人工智能技术层的研发投入,提高技术的自主控制力,优化产业专利布局,在保持现有领域技术研发的市场优势下同步发展多技术主题领域,加强技术融合,充分发挥技术集群间的联动效应,突破国外技术锁定的困局。
研究仍存在以下局限性:仅依据专利数据开展核心技术识别容易忽略专利技术与学科发展、技术演化和产业应用间的内在逻辑和联系;只针对人工智能整体产业领域做了核心技术的识别研究而并未进行不同领域的细分;未来可以考虑多源数据,针对细分领域进一步探索在人工智能领域国家关键核心技术演化和突破路径。