张明倩,赵彦云
(1.上海外国语大学 国际金融贸易学院,上海 201620;2.中国人民大学 统计学院,北京 100872)
以人工智能、大数据和云计算等新一代信息技术的系统性突破和应用为主要特征的数字化转型正在成为重要的时代特征[1]。各领域资源数字化形成数据资源、数据生产要素、数据资产或资本化,是互联网技术革命过程的系统收敛[2]。在科学技术领域,《科学、技术与创新数字化——关键进展和政策》指出数字化正在成为科技创新活动最显著的特征,如何应对数字化转型为科技统计工作带来的机遇和挑战,是亟待探索的现实问题,也是统计现代化改革的重要内容[3]。本文聚焦科技统计的重要组成部分——专利统计(1)科学技术作为统计对象,至少要分为三个方面:一是投入;二是过程;三是产出。与之相对应,当前科技统计大体有三个关注点。第一是R&D投入统计;第二是创新统计;第三是知识产权统计,主要是指专利统计(高敏雪,2019)。,尝试基于全面量化的广义统计思维,探索政府专利统计现代化改革的方向,即面向互联网云平台的专利数字化统计设计和服务应用[4]。
作为连接科技创新和产业化实践的关键节点,专利数据是科技创新活动伴生的战略性数据资源,汇集了全球企业、高校和科研机构的研究开发动向、产业和市场趋势,专利导航产业发展与创新实践已成为新时代宏观经济政策与规划的重要举措[5-6]。专利数字化统计面向网络化、数字化和智能化,形成专利数据及相关数据资源互联互通的数据网络,实现专利创造、运用和保护过程的数字孪生,伴随数据的全生命周期流转,利用人工智能、大数据等相关技术挖掘有价值的显性和隐性信息,有机嵌入云计算、区块链等技术实现数据安全共享,通过有效对接供需,实现科技创新资源的高效配置,最大化专利数据的价值增值,推动专利统计服务从“数库”向“智库”到“力库(2)“力库”指生产力库,具体内涵是知识转化形成生产力的名录技术产权库。”转变转化,并成为国家统计云平台的有机组成部分[7]。
科学技术创新领域数字化转型已成为国际组织、国内外政府统计机构和学者们关注的焦点,数字化转型使知识产生、扩散和应用发生了根本性改变,同时也对统计体系和测量工具带来一系列挑战[8-9]。
OECD“走向数字化(Going Digital)”项目的系列研究成果指出科技创新互联网云平台是科技创新全要素连接的枢纽和资源配置的中心,面向科技创新互联网云平台的数字化统计是科学技术创新数字化转型的统计量化方向[3,9]。通过制定和细化国际通用的统计分类和编码标准,开发跨领域和学科的数据收集方法和单元,推动科技创新资源及其供需主体数字化形成数字创新生态系统,利用数字化平台推动科技创新数据资源传导、优化、配置、竞争、匹配成新的生产力[10]。围绕科技创新互联网云平台的搭建,OECD、欧盟和联合国统计委员会等国外统计机构不断完善统计分类和编码标准,推动专门统计的贯通和数据收集的标准化。Michela Bello (2020)公布了OECD国际科学作者调查(ISSA2)的最新设计方案和实现代码,旨在推动科学研究相关领域在线调查的数字化转型。研发数据跨领域连接也是学者关注的重要方向[11]。欧盟组建“欧洲开放科学云平台(ESOC)”整合欧洲共享科研数据的云结构基础设施联盟,并持续推出开放数据、开放存取、数据共享和数据治理等项目部署。美国开放科学中心、英国数据典藏中心等机构和美国“从大数据到知识”、欧盟“地平线2020”等计划项目均聚焦数据驱动创新的范式变革,对数字化转型中科学数据的开发和使用进行有益探索。针对科学数据的过程披露落后于成果披露的非均衡现象,专门从事数字科学的数据技术公司Digital Science面向科研全流程,创造覆盖数据、证据、工具与智慧服务的新型科研生态和智能数据开发工具[9]。
中国同样重视数字化转型中科学数据的开发与使用,且已初步形成政府主导的科学数据开发共享模式[12]。国务院发布的《科学数据管理办法》(2018)从多个方面规范了科学数据的管理与共享。但受发展阶段所限,中国对数字化转型推动的创新范式变革认识不足,科学数据多局限于科学研究过程的非文本事实记录,覆盖范围局限在科学研究的投入产出过程,对其与生产力连接的部分关注不足,在某种程度上阻碍了科技创新实践向现实生产力的高效转化[13-15]。随着数字技术加速普及,尤其是(工业)互联网云平台的使用越来越广泛,科技创新向产业化实践转移过程中数据资源的开发和使用需要在新理论和新方法的指引下进行设计和完善。
为了顺应数字化转型向经济社会各领域全方位渗透的新形势、新趋势和新特征,中国政府部门和学术界不断加强研究数字化转型的系统化新理论和新方法,探索设计符合中国实际的跨行业、跨领域数据收集方式,建立协调、连贯的政府跨部门工作组织形式[16]。其中,巩固拓展联网直报平台,探索区块链、人工智能、物联网等新技术在统计工作中的应用场景,建设国家统计云平台,实现统计工作的数字化转型是中国政府统计部门的重要举措和统计现代化改革的重要方向。
专利统计是科技统计的组成部分,自《测度科学技术活动:用作科技指标的专利数据》(1994)出版以来,在世界知识产权组织、OECD、欧盟统计局以及各国知识产权局的共同推动下,已形成一套有关专利指标编制和使用的规范。中国也已形成由国家知识产权局主导,国家、区域和地方专利信息服务中心以及大量提供专利信息服务的商业机构组成的多层次专利信息服务系统,专利统计公报与专利专题数据库相结合的专利数据发布和获取模式[17]。就专利数据采集而言,一是面向专利,围绕专利申请和审查流程采集的有关专利申请、授权、执法状态等审核流程管理数据;二是面向专利权人(企业、高校、科研院所和个人),覆盖专利创造、运用、保护、管理和服务等方面的调查数据。就专利统计标准而言,《公共专利信息统计数据项表》(国家知识产权局,2003)规范了77项专利统计数据项的定义、统计范围、统计时点和统计公式。不难看出,中国政府专利统计在组织实施、数据采集、数据整理和数据发布等方面已形成较为成熟的做法。
但随着数字化转型升级和开放式创新范式变革,新技术、千变万化的商业需求以及不断发展的人才市场等各种力量不断改变专利数据的消费和使用状况[18]。数字技术和数据生产要素的引入,显著提升了专利创造和运用过程中主体和要素交互作用的复杂性,同时也加剧了专利使用与产业化实践融合路径及可能结果的不确定性,数字化转型和创新范式变革不断挑战传统专利统计,具体可归结为以下问题。
首先,专利文本统计缺位。古典专利创新理论强调专利的独占性,专利权人凭借专利权将竞争者排挤出市场以获得竞争优势[19]。世界知识产权组织将专利理解为“专有权利”。《专利统计手册》(OCED,2009)定义专利为“保护由企业、机构或个人所作发明创造的手段,是经济生活的法律工具”。相对而言,传统专利统计是对专利申请、授权、交易和法律状态等显性信息在特定统计分类标准下的计数过程,针对专利文本内容的统计缺位。然而,专利文本才是科技创新生产要素和核心技术创新方法的集合,是科技创新与生产力连接的重要部分,专利文本内容的量化缺失在一定程度上限制了进一步创新[23]。尤其是随着知识图谱技术被越来越多地应用于工业界,并成为互联网时代数据知识化组织和智能化应用的有效解决方案[20]。作为知识图谱的重要数据来源,专利文本的统计缺位削弱了知识图谱技术从文本中挖掘信息的能力,降低了知识图谱(特别是行业知识图谱)对领域知识进行追踪和预测的性能[21]。因此,打破专利文本内容的封闭性,提高专利文本内容的可识别性,通过语义识别等自然语言处理技术实现专利文本的数据化,并与技术背景、市场状况等非专利信息映射互联,形成可拓展的数据链条和服务网络,是专利数字化统计的重要内容。
其次,专利需求统计缺位。开放式创新范式强调科技创新过程的网络化和生态化,认为科技创新过程是多方开放互动、协作共享形成的动态结构系统,重视科学发现的供给过程,同时快速响应需求和变化的交互创新更是其重要特征。然而,传统科技统计的底层设计逻辑并未完全摆脱科技创新过程的传统线性模型,将科技创新活动视作“投入”和“产出”的线性生产过程[22]。作为科技“产出”统计的部分,专利统计主要是围绕科技创新供给端对专利及相关数据进行采集和加工,面向专利需求的统计缺位,因此很难全面且敏锐地捕捉科技创新过程中产生的新知识、新产品和新技术。如何全面客观地刻画科技创新生态体系,实现专利需求与供给直接对接,其中,面向专利需求的统计及其数字化成为关键。
再次,专利数据互联互通缺乏组织保障。面向网络化、数字化和智能化,实现数据互联、互通、互动是统计应用价值提升的重要体现[4]。传统专利统计工作中,针对专利权人开展的专利调查,是专利统计工作从单一的专利数据采集向专利及相关数据共同采集的转变,也是实现专利数据与非专利数据互联互通的重要途径。但现行统计制度下,专门数据的采集、开发和管理分别由不同的政府主管部门承担,面向专利权人开展的专利调查和统计工作就是由国家知识产权局、国家统计局、教育部、科技部等政府主管部门共同参与完成,尽管建立部门统计的共享机制已成为服务型政府的应有之义,但部门利益壁垒、数据共享平台组织者缺位现象仍然存在,部门统计的独立性和封闭性仍然较强[24]。这种条块化、封闭式的数据采集系统限制了专利数据资源的深度挖掘,事实上形成大量“数据孤岛”,导致专利数据资源严重浪费。如何连通这些“孤岛”,把孤立的数据模块关联组合为互联互通的数据网络,极大化专利统计的外延,使更有价值的隐性信息浮出水面是专利数字化统计需要解决的另一个重要问题。
最后,专利统计服务滞后于专利信息需求。统计服务是统计工作最基本和关键的能力,专利统计服务是通过收集、整理、分析和发布专利相关的数据与信息以匹配用户(政府、企业、高校院所和社会公众等)的需求。和其他部门政府统计一样,传统的专利统计工作流程清晰固定且具有明确的目的和对象,即针对专利文件披露的有关技术、权属时效、专利许可等法律和经济信息进行采集、加工、整理并生成统计指标,再按照事先设定的格式或模型进行有针对性的计算和分析,是典型的“定义式的现象特征描述+常规的归纳推理分析”思路[25]。毋庸置疑,传统专利统计在客观反映发明创造活动的形成和结果、服务科学决策的过程中发挥过重要作用,但伴随数字化转型升级和开放式创新范式变革,科技创新活动过程中主体与要素的复杂性和科技创新成果使用的不确定性显著提升,用户对专利信息的需求更趋于定制化和实时化,传统专利统计目标单一、实施和发布流程僵化、分析方法单调的不足日益突出,直接表现为专利数据信息传导迟缓,专利统计信息的供给滞后于用户提出的新问题和新需要,阻碍了专利统计服务功能的极大化发挥,难以满足专利导航深度嵌入产业发展和创新实践的政策要求。优化专利统计服务就要求增加专利统计数据的维度、格式、结构多样性和细化数据粒度、扩大数据获取途径并最大化数据价值,提升专利统计服务对专利信息需求的实时响应能力[26]。推动面向全连接、全场景、全智能的专利数字化统计服务,是优化专利统计服务的关键。
综上,在专利创造、运用和保护的现实物理过程向数字世界迁移,进而升华为人类认知世界有效知识的过程中,传统专利统计所提供的统计内容和统计服务无法满足充分解析和有效支撑数字创新生态系统生成和运行的要求。
人工智能、大数据和云计算等新一代信息技术驱动的新一轮科技革命在挑战传统统计的同时,也在不断重构统计数据生产、采集、加工、分析和应用的模式,不断催生时间、空间、维度、主题、过程及网络关系一体化社会活动复杂生态系统的统计理论方法的新变革。新一代信息技术在不断融合、叠加和迭代升级的过程中,为专利统计工作的数字化转型提供了高经济性、高可用性、高可靠性的技术底座,构建起一个数据驱动的平台化、生态化的基础设施群[27]。
5G技术的高可靠性、超低时延性、广泛覆盖性和大连接特性不断推动人与物、物与物、人与人的连接和数据交换以更大量级发生,叠加传感器技术的发展,数据采集的全面性、准确性和及时性迅速提升,多模态海量数据的采集方式已由被动手工记录转变为主动感知记录,采集范围也由传统的调查数据、业务数据、技术数据、软数据、文本数据向实时数据和空间数据拓展,数据采集的颗粒度不断细化、频度不断提高;数据湖存储架构和分布式计算技术为海量、实时、多模态数据提供了存储方案和算力储备,推动数据存储与使用开发的有效分离,为打破数据孤岛、增强数据应用的可拓展性提供了可能;人工智能技术的升级与融合为深度挖掘数据价值,实现数据资产增值提供了强有力的技术支撑。
新一代信息技术不断衍生发展为统计数据的生产、采集、存储、管理和应用提供全新模式的同时,也推动统计方法不断创新,从经典统计到现代大数据统计,再发展为立足于互联网大数据、满足全面量化和全面统计要求的广义统计理论和方法,传统专利统计也正在向面向互联网云平台,涵盖新统计内容、新统计标准、新统计调查、新统计管理和新统计方法的数字化统计转变。
围绕打造科技创新互联网云平台,推动科学技术创新领域数字化形成数字创新生态系统(DIE),2008年《国家知识产权战略纲要》提出构建国家基础知识产权信息公共服务平台,2011年重庆启动建设了全球首个“专利云”平台,利用云计算技术整合全球知识产权数据和服务资源,打造知识产权数字化服务生态,形成完整的知识产权服务产业链[28]。期间,互联网云平台的技术架构一直是学术界和产业界关注和重点推进的领域,然而相较于技术、算法和模型,数据的重要性却被低估[29]。数据化才是互联网云平台最主要的运行机制,直接关系到互联网云平台的性能、安全性、稳健性和拓展性,作为数据的重要解析工具,数字化统计是保障互联网云平台顺畅运行的统计服务体系。本文将从新统计内容、新统计标准、新统计调查、新统计管理和新统计方法5个方面具体阐释面向互联网云平台的专利数字化统计设计和发展。
表1梳理了传统政府专利统计的实施单位、统计对象和统计内容等信息,一是国家知识产权局组织的专利统计年(月)报,以申请审核的专利为统计对象,统计内容主要涵盖专利的申请、授权、时效和法律状态等信息,数据采集的颗粒度匹配专利审查的分类需求[19];二是国家知识产权局组织的年度专利调查,以拥有有效专利的专利权人(企业、高校、科研单位和个人)为统计对象,统计内容覆盖专利的创造、运用、保护、管理和服务等方面;三是其他科技统计中涉及专利的部分,如国家统计局开展的企业创新调查,教育部、科技部和国防科工局组织的高校和科研机构科技成果填报工作等。
表1 传统政府专利统计涉及的主要统计内容
第一,数字化统计内容需要满足互联互通的要求。传统专利统计由多个政府部门参与完成,而政府部门统计往往以各自职权为界,服务于本部门管理的需要,虽便于搜集数据,但条块分割现象突出[30]。由不同政府部门主导的专利统计在统计口径和计算方法上存在较大差异,数据标准、接口和结果不能实现对接,导致了专利数据的“碎片化”和“孤岛化”,一边是不断累积但闲置的专利数据,一边是社会各领域对专利信息日益个性化、协同化和复杂化的多向度需求无法满足[31]。因此,数字化统计需要“大”政府统计的组织保障,统一部署打破条块分割的部门统计壁垒,统一统计口径、数据标准和计算方法,实现专利统计自身以及专利统计与外部相关统计的统计内容互联互通。具体而言,首先通过专利与专利权人的充分关联,实现专利统计内容本身的互联互通;其次借助专利和专利权人的统计标志,做好专利统计与其他经济社会统计的互联互通,以保障专利数字化统计内容从生产、交换、分配和消费等多个环节有机嵌入社会生产总过程数字(生态)系统的拓展性和开放性,通过激活“碎片化”的静默信息,关联生成新的数据应用。
图1 专利数字化统计内容的设计
第二,数字化统计内容需要满足完整性和全面性要求。传统专利统计服务目标相对单一,统计工作相对封闭,主要记录专利在创造、运用、保护以及审核过程中的非文本事实,而针对与生产力连接最紧密的专利文本内容却存在统计缺位。数字化统计需要在改善专利文本内容的清晰性和可识别性的基础上,增加针对专利文本内容的统计,实现专利文本内容的数据化,以满足知识图谱技术对文本内容深度挖掘的需求;另外,数字化转型使科技创新供给与需求的边界日益模糊,以用户需求为核心的交互创新是科学技术进一步迭代升级的重要途径[21]。而传统专利统计基本都是从供给端对专利及相关数据进行采集和加工,对专利需求存在统计缺位,无法敏锐地捕捉外部动态需求并高效响应。而技术需求数字化形成数据生产要素,正是数据驱动创新的重要模式之一。因此,专利数字化统计需要增加对专利创造、使用和保护等全生命周期过程中的需求统计以及用户与专利的交互统计,增强针对用户在专利活动中的角色和行为(创造和申请、所有权变更、阅读和评价等)的数字化。实现科技创新需求与供给直接对接,形成对科技创新生态体系的数字孪生。专利数字化统计内容的设计见图1。
数据标准化和规范化是实现数据资源互联互通的前提和基本保障。目前,中国专利数据标准主要包括《专利数据元素标准》(ZC0012)、《专利文献数据规范》(ZC0014—2012),而专利数据的分类、编码和元数据等基础数据标准存在缺失和不足,导致针对同一业务的多来源数据难以形成互联互通[32]。表2梳理了传统政府专利统计的主要分类标准,一类是针对专利的直接分类标准,如国际专利分类(IPC)体系(3)其他常见的专利分类体系还包括美国专利分类(USPC)、欧洲专利分类(ECLA)、日本专利分类(FI/FT)和美欧联合开发的联合专利分类(CPC)。等,以及通过与IPC等专利分类体系关联映射形成的间接分类标准,如专利的产业分类(4)国际专利分类(IPC)与国际标准产业分类体系(ISIC)、美国专利分类(USPC)与北美工业分类体系、国际专利分类(IPC)与中国国民经济行业分类体系。、技术领域分类和国际贸易标准分类(5)目前,专利与国际贸易标准分类对照的研究尚处于探索阶段,Lybbert等(2014)尝试建立国际专利分类(IPC)与国际标准贸易分类(SITC)的映射关系。等;另外一类则是针对专利权人进行的分类,主要包括组织机构分类(6)主要包括经合组织的《弗拉斯卡蒂手册》的机构部分分类和欧盟统计局的机构部门分类等。和空间位置划分等。
表2 传统政府专利统计涉及的主要统计分类
传统政府专利统计的分类体系已在一定程度上起到了支撑探讨国家、区域和产业层面的技术变革,科学评估科技创新政策的作用,但以专利为产出形式的科技创新实践,其主要目的是应用先于产业(或行业)的技术能力,使产品和服务区别于同行同类的产品和服务,在市场上更有竞争力,可以说专利的运用和产业化实践直接体现为产品和服务的升级,但传统政府专利统计尚缺少细化到产品和服务层面的统计分类,尽管中国制定有对社会经济活动中实物产品和服务进行分类和编码的《统计用产品分类目录》(国家统计局,2010),但由于中国政府统计多以企业的综合价值为起点,政府部门主导的专利统计数据系统中尚缺少反映业务和技术特征的产品服务分类依据,难以解析以业务和技术特征为主体的产业链和供应链信息。因此,重新设计和修订能够充分反映数字化转型以及更加细分的行业分类编码标准和超越10位码的产品服务分类编码标准是专利数字化统计标准最重要的基础性统计工作。通过形成细化到产品和服务层面的专利统计分类标准和编码,一方面可以形成专利权人(法人单位)与专利的创造、使用和保护等活动(业务活动)充分地互联互通,另一方面有助于专利用户更敏锐地捕捉市场信息,使科技创新实践与市场需求保持高效联动,增强专利相关业务活动的市场显示度,提升专利数据对科技创新资源的市场化配置能力。
此外,随着专利数据规模激增且来源不断拓展,既有国家、区域和地方的多级专利信息服务平台,也有其他科技统计中涉及专利的数据采集和分析工作,其他国家和组织(7)美国专利商标局、欧洲专利局、日本特许厅和韩国知识产权局等。的专利数据库也是重要的专利数据来源。专利数据呈现出海量、多源、异构的大数据特征(8)不同来源的专利数据在采集、加工、分析和应用模式等方面存在的差异导致数据的异构性。,为了便于管理以及实现关联与共享,目前已经存在多种专利元数据,但现有专利元数据标准往往各自为阵、缺乏统一的规范,这在很大程度上限制了专利数据及相关资源之间以及专利数据本身的互操作和内部深层关系的揭示。因此,探索统一的专利元数据规范和标准,是实现专利数字化统计服务平台不同节点的元数据交互,推动专利数据服务便捷化、智能化和高效化的另一项基础性统计工作。
综上,细化统计分类和编码标准、建立统一的元数据规范是专利数字化统计标准的重要内容,按照“全面量化、开放融合、动态扩展”的原则,围绕专利及相关外部数据,建立细化到专利技术知识内容的标准化统计分类、编码标准和元数据规范,衔接科技创新活动的各个阶段,将围绕专利开展的科技创新实践信息化、透明化和可视化,为实现专利数据系统的全域打通、形成全面对接相应社会经济互联网云平台的专利数据服务体系、提升政府基于专利数据导航产业发展和创新实践的治理能力奠定基础。
表3梳理了传统政府专利统计的主要调查范围、内容和方式等信息,除专利统计年(月)报工作采用实时登记的专利文件作为数据来源,中国传统政府专利统计均采用周期性调查,综合运用全面调查、抽样调查和重点调查方法,采用统计报表、网络调查平台填报和行政记录登记的方式获取专利数据。其中,专利统计年(月)报直接以提交审核的专利文件为数据来源,为便于审查管理,专利文件具有结构严谨、分类科学、格式规范的特点,是传统专利统计重要的数据来源,但随着专利导航被纳入国家宏观政策及规划的决策视野,局限于专利文件的数据采集方式已不能满足专利数据深度挖掘的需求[6]。一方面,专利文件具有时延性,专利从受理到公开约需要18个月,直接从专利文件中获取信息无法满足实时追踪并导引创新实践的目的;另一方面,专利文件着重对专利成果进行披露,而忽视了专利创造、使用、保护等生命周期过程的信息,仅基于成果披露的专利统计对科技创新活动的认识不可避免地带有片面性,专利成果数据只有与专利创造、使用、保护等生命周期的全过程信息以及产业、市场、法律、学术、产品、时间和空间等外部相关数据源有机融合,才能为产业发展和创新实践提供更有价值的信息。全国专利调查以拥有有效专利的专利权人为调查对象,调查内容涵盖专利创造、运用、保护、管理和服务等专利生命周期的全过程信息,为政府决策和政策研究提供了有效的数据服务,但专利调查以专利权人(企业、高校、科研机构和个人)为调查单元,数据粒度过粗,而且采用以年间隔的周期性调查,调查频度偏低,无法满足数据驱动创新模式对数据规模和复杂度的要求。
表3 传统政府专利统计调查的内容
图2 专利数字化统计调查的设计
数字化转型背景下,创新形式已经由串行向并行发展,创新过程由个体向协同演变,上述衍生于政府管理职能的传统专利统计调查,其内容、频率和数据颗粒度均难以满足专利技术创新活动数字化和价值共创的要求,全量信息采集应该是数字化统计调查最突出的特点,具体表现为:采用标准化、规范化的抽取模式,实现“一点采集,多点共享”;采集范围拓宽,从来源单一的专利文献数据发展为种类繁杂、领域丰富的专利大数据,除了专利文献中直接获取的数据,还包括与行政记录、监管数据等外部相关数据的对接;采集颗粒度缩小,从满足专利审查要求的分类粒度细化为满足提取专利技术知识内容的要求;采集频率提高,通过数据采集引擎驱动实时数据采集、定时任务采集、API接口数据推送等多种数据采集操作以满足对专利数据实时性和定制性的需求;采集维度拓展,从对客观存在事物进行的测量的封闭硬数据拓展为反映主观态度评价的开放软数据,不同主题下的文本、图像等半结构化和非结构化数据的量化逐渐成为重要内容,网络化的统计数据资源成为重要的生产要素,充分实现专利在产生、运营、转化和应用过程中所涉及的“物物”“物人”和“人人”信息在网络层面上的横向互联。
数字化统计管理需要解决数据的存储、整理和共享三个问题:改变面向应用的数据存储方式,实现数据存储和使用有效分离;给出多模态数据的整理方案,支撑专利数据共享;给出安全的数据共享方案,为专利数据的极大化应用创造可能。
首先是数据存储问题。传统政府专利统计多采用数据库存储数据,即根据固定的分析目的对结构化数据进行抽取、清洗、转换、加载和存储。面对专利数字化统计海量、高频和多模态数据,数据库存储模式的低灵活性无法应对数据实时更新、数据网络节点全域互联互通以及数据供给与应用场景实时对接的要求,尤其当数据无法及时被使用,就产生了“数据孤岛”,造成数据资源的价值损失。以数据原始形态进行分布式存储的数据湖架构应需而生,一方面,数据湖通过延迟面向应用的数据清洗和规范化处理,实现数据存储和使用的有效分离,存储架构拥有更高的灵活性和敏捷性,为专利数字化统计针对个性化和智能化需求的有效开发提供可能;另一方面,数据湖存储架构可以为专利数字化统计接入不同数据源,包括传统专利数据库中的表、各种格式的文件、数据流和应用API获取的数据,并根据统一的专利元数据标准自动生成元数据信息,以确保应用元数据对专利数字化统计数据进行高效治理。
图3 专利数字化统计管理的设计
其次是数据整理问题。整理是从数据上升到理论认知的关键阶段,传统政府专利统计的整理工作是根据事先确定的研究目的和任务,对全面调查的数据直接审核、汇总、加工处理和对抽样调查的数据放大推算,为专利统计分析提供准确系统综合资料的过程。一方面,专利数字化统计数据具有多源、异构、海量、高频和可变性强的大数据特征,统计整理的对象由有限量、静态和结构化数据转变为海量、高频和多模态数据,数字化统计整理需要依赖各种算法来实现数据源质量评估、数据结构转换、数据清洗和异常值检测等处理过程。另一方面,专利数字化统计的非结构化数据具有更高的规模占比和信息含量,数字化统计整理将更侧重非结构化数据的数字化:针对文本等非结构化数据既可以采用不同的编码形式进行数字化,也可以运用监督学习和强化学习等技术进行分类和打标以实现数字化;针对图像、声音、视频等模拟信号可以通过转换成二进制形式实现数字化。多模态数据的数字化推动专利统计数据网络的节点端和信息流的全面量化,进行数据的合理切割使其以保障提取专利技术知识内容要求的最小颗粒度存在,并通过赋予所有数据元素唯一的标识符和统一的元数据描述,对元数据进行标签和分类,建立统一的数据目录,建立数据血缘,梳理上下游的脉络关系,跟踪数据时间旅行,提供不同版本的数据,便于进行数据回溯,为后续基于专利数字化统计的便捷化、智能化和高效化统计分析创造可能。
最后是数据共享问题。凭借独占性保障专利权人竞争优势的传统专利使用模式会阻碍社会整体的创新实践,推动专利数据共享是数据驱动创新模式的重要特征,而专利数字化统计往往又面临边界模糊、安全监控管理缺乏、端点增多供给面增大、安全态势可视化不足等诸多安全性挑战。因此,数据安全性和易访问性是专利数字化统计数据共享过程中首先要解决的问题,也是集中式的传统统计管理方式难以突破的困境,专利数字化统计管理工作需要引入区块链技术支持专利数据的安全共享,经区块链验证的加密ID可以确保专利权的安全归属和轨迹追踪,形成更安全、更可靠的专利技术知识内容的传播路径,推升社会整体创新水平。
图4 专利数字化统计分析流程和工具箱
数据是催生统计方法的土壤,传统专利统计分析的数据容量有限、采集不连续,且多为结构化数据,即便是专利文本,也是面向审核要求,格式和结构都相对固定的文本文件。专利数字化统计生产和流转的数据,具有海量、高频、多模态等大数据特征,既包括专利申请量、授权量、交易额、技术领域和法律状态等结构化数据,也包括专利文本、专利检索和查询日志、专利关联以及专利用户评价等非结构化和半结构化数据,这些数据的量级往往是结构化数据的几十倍甚至上百倍,且分辨率精细、信息含量高,具有关系属性和灵活性,具有可扩展性和可伸缩性,专利数字化统计的数据特征倒逼数字化统计分析方法和技术不断创新和转变。首先,专利数字化统计分析技术需要从主要面向结构化数据的方法和技术转变为面向多模态数据的统计方法和技术;其次,专利数字化统计分析技术需要从面向固定目标和服务对象的常态化分析转变为面向个性化和多向度需求的协同分析;最后,专利数字化统计分析需要由分散式模块的统计分析转变为智能化模块的统计分析。图4呈现了专利数字化统计分析流程和工具箱。
针对专利元数据和数据表等结构化数据,可以采用基于文献计量学和统计学的方法和技术。目前这些方法和技术已成为包括国家知识产权局在内的各级政府专利服务平台和各类市场化专利服务平台(中国科学院专利在线分析系统、专利搜索引擎(SooPAT)、incoPat全球专利数据库和合享汇智(IncoShare)等)的标准配置;除了具备标准数据格式的结构化数据,专利数据通常是以专利文本的原始形态呈现,且占比更高、信息含量更大。因此,目前也有相当数量的专利分析技术把重点聚焦到文本挖掘方面,针对非结构化的专利文本直接进行信息提取;与此同时,互联网、移动互联网技术将计算嵌入专利数字化统计数据网络的各种联网对象,产生大量动态的、索引性的、相互关联的专利数据流和数据链,可以反映专利创新实践的多种联系,如专利引用、专利关键词共现、专利权人合作以及专利技术关联等,复杂网络分析技术通过构建测度专利关系的复杂网络,对各种复杂关联进行分析与解构,将成为专利数字化统计重要的分析技术;此外,专利创造、使用和保护的生命周期过程中不同类型的用户与专利的交互行为(发明人与专利、专利权人与专利、使用者与专利、读者与专利以及评价者与专利等),可以被客观记录并抽象为数据,当这些交互行为持续进行并被连续记录时将产生大量有价值的信息。智能体交互分析技术可以充分提取和识别大量交互行为中涌现的共性特征以及连接或群体规律,是提供个性化、智能化专利信息服务的另一类重要分析技术。
综上,专利数字化统计分析一方面需要进一步强化和发展目前比较成熟的文献计量学、统计学和文本挖掘技术和方法,另一方面需要进一步推进复杂网络和智能体交互分析等方法和技术在专利数据挖掘中的广泛应用。
数字化转型通过推动科学技术的融合发展和网络化的协同研发,加速将科学研究成果转化为创新和社会经济效益,已经成为科技创新活动最显著的特征之一。数字化改变科学研究过程的同时,也为新统计发展提出了更高要求,专利数字化统计实时、共享和融合的特征契合了科技创新活动数字化转型对新统计发展的要求。首先,专利数字化统计拥有海量高频的超大数据容量,可以满足各类型科技创新主体的专利信息使用需求,促进科技成果转移转化和科学技术进步,更重要的是专利数字化统计内容融合了专利与非专利数据、技术与非技术信息,在维度上从单一结构化数据拓展为多模态高频数据,数字化统计分析技术面向包括数据流和特征流的多模态海量专利数据,挖掘数据对象之间复杂且演化的关联,加速实现碎片化知识有效融合,衍生新的科技创新动机,提升社会整体的创新效率;其次,专利数字化统计提供更安全的专利信息共享模式和技术保障,构建以专利为媒介的科技创新生态链,推动科技创新范式向开放科学转变,降低社会整体科技研发和知识发现成本;最后,专利数字化统计是统计数字化转型的重要表现,科技创新活动以数字形式进行表达,各种数字化设备以“数”为基础,以更便捷的方式推动科学技术的融合发展和网络化的协同研发,从制定工作规划到开展实验活动,从知识共享到与公众交互,推动科技创新活动全流程、各环节的数字化转型。
互联网时代企业科技创新越来越依赖于数据。专利数据中包含了大量独有的技术资料与信息,是对企业科技创新活动非常有价值的信息资源,专利的生产和运营贯穿企业整个创新实践过程,是企业科技创新的另一条生命线[33]。专利数字化统计是企业专利创造、使用和保护等全生命周期的数字孪生,在导引企业创新实践方面发挥着重要作用。首先,专利数字化统计实现了技术与市场、价值等非技术信息并重,有效克服了传统专利服务中创造环节外活力不足和效能短板的问题[34]。实现动态协同创新机制,打破专利信息孤岛,企业利用专利数字化统计数据可以更敏锐地探索产品和服务发展的方向,洞悉市场趋势、了解竞争对手的行为、优化开发生产和分销流程,并针对特定或不断变化的需求量身定制产品和服务;其次,专利数字化统计分析通过智能调度和分配系统,保障专利统计服务的敏感性、动态性和协同性,面向更复杂的应用场景搭建企业级知识图谱,对企业的属性、工商、专利、市场等多渠道数据进行抽取和融合,调取分析模块、进行算法选择、模型训练等,实现面向应用场景的业务系统二次开发,保障企业创新实践的质量和时效性;再次,专利数字化统计实现了由单一环节服务向全过程服务转变,从驱动企业创新实践、提高企业创新应用的质量,到保护企业创新成果,每个科技创新的节点都离不开专利数字化统计的有力支撑。
技术市场是国家创新体系的重要组成部分[35]。完善专利交易市场是建设统一开放的技术市场和加快全国技术交易平台建设的重要内容。传统集市化专利交易模式存在诸如交易双方信息不对称、交易信息搜寻成本高效率低、交易专利价值难以评估以及线上线下对接机制不完善的问题。而专利数字化统计通过集成同一专利相关信息的数据系统,推动实现专利交易主体与相关市场主体的互联互通,为构建专利市场化交易网络平台提供数据系统支撑和技术便利,从客观上减少专利交易环节,降低交易信息的搜寻成本,克服传统专利交易的成本和效率难题。此外,依托专利数字化统计的实时采集、分布式存储和云计算功能,可以形成针对专利交易主体资质、专利交易客体法律状态和专利质量的动态监管系统,运用人工智能深度运算功能对交易专利进行实时智能化质量分析,建立专利的质量认证和市场准入机制,从而形成对专利交易市场以及专利自身全生命周期的有效监管。因此,专利数字化统计可以加速推动中国专利交易模式从传统的集市化交易模式向基于互联网的在线交易模式转变。
数字经济时代,社会各领域的数字化转型已经成为显著的时代特征和必然的发展趋势。如何应对数字化转型对统计工作带来的机遇和挑战,更大效力地发挥统计在客观测度和科学认知世界过程中的作用,是统计现代化改革需要关注的现实问题。本文聚焦专利数字化统计设计和服务应用对上述问题进行探索和求解,针对上述内容可作以下三点总结:
第一,统计现代化改革需要重视数字化统计的深度开发。以专利技术创新实践的数字化转型为例,互联网云平台是以专利为产出形式的科技创新实践数字化转型的重要载体,推动全社会科技资源高效高质的供给释放。数据化是专利互联网云平台最主要的运行机制,直接关系到互联网云平台的性能、安全性、稳健性和拓展性,作为数据的重要解析工具,数字化统计是互联网云平台顺畅运行的统计服务保障体系,也是推动科学技术领域数字化转型升级的基础性统计工作,自然应该是统计现代化改革的重要方向之一。
第二,以数字化统计为方向的统计现代化改革已具备扎实的技术底座。人工智能、大数据和云计算等新一代信息技术驱动的新一轮科技革命不断重构统计数据生产、采集、加工、分析和应用的模式,不断催生时间、空间、维度、主题、过程及网络关系一体化社会活动复杂生态系统的统计理论方法的新变革。与此同时,也为传统(专利)统计工作的数字化转型提供了高经济性、高可用性、高可靠性的技术底座,构建起一个数据驱动的平台化、生态化的基础设施群[27]。
第三,数字化统计是对传统统计工作的优化和补充。以专利技术创新实践的数字化转型为例,数字技术和数据生产要素的加速融入,显著提升了专利创造和运用过程中主体和要素交互作用的复杂性,同时也加剧了专利使用与产业化实践融合路径及可能结果的不确定性。传统专利统计所提供的统计内容和服务无法满足充分解析和有效支撑数字创新生态系统生成和运行的要求。专利数字化统计作为保障数字化转型与应用的科学理论和方法,是从统计内容、统计标准、统计调查、统计管理到统计分析5个方面对传统专利统计工作的优化和补充。