孙艳艳,毛卫南,毛宇斐,吴海博
1.北京市科学技术情报研究所,战略情报研究部,北京 100044
2.华中农业大学信息学院,湖北 武汉 430070
3.中国科学院计算机网络信息中心,北京 100190
随着互联网信息技术的发展,空间的组织形式发生重大变化,要素的集聚不仅表现在物理空间上,也在虚拟网络空间集聚[1]。近年来马仁钊(2007)[2]、 薛晓芳(2008)[3]、陈强(2016)[4]、李震(2016)[5]等学者对虚拟企业创新平台、虚拟企业生态系统、虚拟社会生态系统、商务平台生态系统、虚拟社区等各类虚拟系统开展了研究,学者提出虚拟网络系统是信息时代的产物,是一种以信息作为主要材料建立起来的动态、柔性、分布式组织,各组织成员间通过信息的共享与交换,推动合作创新,获得共同利益。
创新生态系统构建是一个知识空间、网络空间等新型空间构建的过程。目前还没有关于虚拟创新生态系统,尤其是大空间尺度的区域性虚拟创新生态系统构建研究,虚拟创新生态系统构建对克服区域协同发展的时空差异和跨区域行政障碍具有重要意义,亟需加强这方面的研究。北京、上海、四川、黑龙江等各地纷纷建立区域性科技资源服务平台,通过信息化手段搭建虚拟资源整合环境,集聚各类创新主体和创新要素,为科技创新提供了基础资源和服务保障。上海公共研发服务平台、科易网等平台除了信息共享功能,还具有科技资源供需对接、在线互动交流等资源服务功能,基于资源服务平台的虚拟创新生态系统雏形正在形成。目前京津冀三地都建有地方性的科技资源网络共享平台,但是基于“互联网+”的跨区域资源共享平台还处于探索阶段。近几年,国家重点研发计划现代服务业专项实施了京津冀、长三角、成渝等协同创新区综合科技服务平台研发与应用示范项目,旨在解决跨区域线上资源整合和服务的关键共性技术问题。从地方层面看,京津冀、长三角等地科技机构在地方财政资金支持下合作搭建了京津冀科技资源共享服务平台、长三角科技资源共享服务平台,旨在实现跨区域资源共建共享。
地区间经济社会发展水平和科技资源禀赋差异较大,跨区域科技资源共享和协同创新存在行政藩篱、资源孤岛等诸多问题和困难,借助新一代信息技术构建区域性虚拟创新生态系统将有利于加快资源共享和协同创新进程。为此本文将借助大数据分析、知识图谱、自然语言处理等新技术,从科技资源知识图谱构建、虚拟创新生态系统模拟构建及系统运行三方面研究基于区域资源共享服务平台的虚拟创新生态系统。
自1985年郎德沃尔率先使用“创新系统”概念后,先后经历了国家创新系统、区域创新系统、创新生态系统的演化和衍生,尤其是美国硅谷的持续创新和发展,引起了学界对区域创新生态系统的广泛关注。区域创新生态系统是指一定区域范围内的创新主体为促进创新的物质、能量、信息的流动,与创新环境相互作用、动态演化和相互依存所形成的具有生态系统特征的网络化创新系统[6]。区域创新生态系统除了具有创新生态系统本身“雨林”般的复杂性外,由于区域在地理、人文、环境等方面的特性差异,使其具有较强的难以复制性。
创新生态系统分为创新组织、创新种群、创新群落、创新链等多个层次,创新种群是在特定时空内与环境相互作用且形成具有一定结构和功能的创新组织集合,创新群落是以创新链产业链为轴线形成的多样化主体集聚的创新网络[7]。
从创新生态系统的具体构成来看,黄鲁成(2003)[8]、吕玉辉(2011)[9]、胡斌(2013)[10]等学者围绕创新生态系统构成进行了系统研究。概括起来说,主要分成创新主体、创新要素、创新环境三方面。中国在实施创新驱动发展战略过程中,不管是国家层面还是地方层面都非常重视高新区、大学科技园区、孵化器等创新载体的建设,尤其是近几年在国家“大众创业万众创新”的号召下,创客空间、创新社区等新兴创新载体层出不穷且对初创企业成立和发展发挥重要作用,为此本文基于已有研究成果和中国实践状况,将创新生态系统分为创新主体、创新载体、创新要素、创新环境四个部分。主体、载体、要素、环境四个部分互动关联构成有机系统,其中创新主体是核心要素,具有思维性和动态选择能力,创新主体的能动性发挥离不开载体、要素、环境的支持,各类资源相互配合,保持创新生态系统正常运作。
本文数据来自京津冀科技资源服务平台(http://www.jjjkjzy.com/)、京津冀协同创新地图平台(http://www.jjjkjzy.com/SynergyDevelopMap/Index)两大区域科技资源服务平台,平台以京津冀协同创新和产业发展的重大需求为导向,通过整合科技机构、科技人才、科技成果、科技政策、产业数据等信息,以“科技资源+数字地图+决策支撑+资源服务”为特色模式,面向政府、企业以及科研人员提供信息服务、资源服务和决策咨询服务。两大平台通过“数据自采+数据购买+数据交换+数据共享+数据众包”等多种方式汇集了京津冀区域九大类70 多个中类200 多个小类、1000 多万条科技资源数据。
本文将基于已有平台实践和科技资源数据探索构建科技资源知识图谱。首先将创新生态系统的网络性、关联性、系统性引入区域科技资源服务平台资源体系构建,基于资源分类分析、关联模型构建、属性定义形成以创新主体为核心的科技资源知识图谱,为虚拟创新生态系统的构建提供主体、载体、要素、环境等科技资源支撑。下面将从科技资源分类、关联模型构建、资源属性定义三方面对科技资源知识图谱构建进行分析。
创新生态系统涉及科技创新、经济、社会等多个领域,系统构建需要人财物等各类科技资源,明确其边界具有较大复杂性。本文基于创新生态系统框架构成,从创新主体、创新载体、创新要素和创新环境四方面构建科技资源分类体系。
创新主体方面,创新主体是指有创新能力并实际从事创新活动的各类组织,是创新活动的基本支持单元。包括单个高校、科研院所、新型研发机构、企业、政府机构以及各类科技服务机构等。高校包括985 工程高校、211 工程高校、双一流建设高校等,科研院所包括国务院及各部委下属科研院所、地方政府所属科研院所、转企院所、民办院所(民营企业性质的科研院所和科技类民办非企业法人)等,企业包括国家高新技术企业、国家科技型中小企业、企业研发机构等。近几年新型研发机构迅猛发展,具有投资主体多元化、建设模式国际化、运行机制市场化等特征,成为中国国家创新体系中不可忽视的创新主体,例如北京量子信息科学研究院、北京协同创新研究院等。此外还需要特别指出的是,高校、科研院所、企业等科技机构下属非法人研究单元列入科技资源分类体系,包括下属研究所、研究中心等,这些下属科研单元往往代表了单个创新组织在某个创新领域的最高水平。
图1 科技资源分类体系Fig.1 Classification system of science and technology resources
创新载体方面,近几年中国创新载体类型和数量不断增加,功能和作用也在不断丰富,既是聚集科技资源的承载体,也兼备成果转化和催化功能。本文从其存在形态将其分为空间载体、组织载体两类。空间载体主要有各类大学科技园区、高新区、孵化器、加速器等空间载体,可为创新主体提供个性化服务。组织载体主要包括各类重点实验室、工程技术中心、产业技术创新联盟等。创新要素方面,本文将创新要素分为物质要素、人力要素、能量要素、信息要素四类。其中能量要素主要包括政府各类创新基金和产业发展基金、天使投资等科技金融资本以及专利、论文等知识资本。创新环境方面,主要包括政策制度环境、市场环境、人文环境、自然环境等。但基于数据的可获取性,京津冀科技资源服务平台主要收录科技政策、统计数据等反映政策环境和市场环境的相关指标数据。
基于创新生态系统构成及相互关系,建立以创新主体为核心的科技资源关联模型,高校、科研院所、企业等科技机构作为创新主体,园区、联盟、创新平台等各类载体以及人财物等创新要素都与创新主体产生不同的关联关系,正如图2 所示,所有资源都与科技机构产生0(无关系)、1(一对一)、N(多对多)等不同对应关系,并根据具体功能或属性产生包含、设立、依托、拥有、位于等多种关联关系,同时处于第二关联层级的科研人员也与科技成果、项目等要素资源产生关联关系,使整个资源体系呈现纵横联通的网状关联,科技资源关联模型为构建科技资源知识图谱提供基础模型支撑。
图2 以创新主体为核心的科技资源关联模型Fig.2 An association model of science and technology resources with innovation subject as the core
基于科技资源分类和关联模型,构建包括基本属性、扩展属性、关联属性、领域属性在内的创新主体元数据属性结构,形成科技资源属性定义,为科技资源在平台的数字转化和平台数据库构建提供标准支撑(图3)。创新主体基本描述信息主要包括基础信息、地理位置、联系信息、多媒体。扩展属性是指高校、科研院所、企业等不同创新主体所具有的特色属性描述,基于不同主体特点提取重点学科、企业规模等扩展信息,基本属性和扩展属性相结合,既保证了资源属性的稳定性又保证了属性的个性化和可扩展性。关联属性包括与各类创新主体关联的园区、联盟、创新平台、科研人员、科研项目、科技政策、科研基础设施等科技资源的属性定义。领域属性方面,由于科技资源涉及基础研究、技术、产业、行业等多个领域范畴,本文对科技资源领域属性描述采用了同一资源多领域属性的标注方法,引入学科分类、国民经济行业分类、高新技术领域分类、战略新兴产业分类四个领域分类标准,为科技资源标引多个属性标签,可为虚拟创新生态系统的构建和分析提供不同领域维度的科技资源支撑。
图3 以创新主体为核心的科技资源属性知识图谱Fig.3 Knowledge map of science and technology resources attribute with innovation subject as the core
正如图4 所示,以科技资源分类、关联模型和属性定义为支撑,形成了基于科技资源知识图谱的平台机构画像,图中的北京师范大学机构详情包含了“基本属性”、“扩展属性”和“领域属性”、“科研项目”、“科技成果”等与该机构有关联关系的“关联属性”。
图4 京津冀科技资源创新服务平台科技机构画像(以北京师范大学为例)Fig.4 Portrait of science and technology institutions of Beijing Tianjin Hebei Science and technology resources innovation service platform (taking Beijing Normal University as an example)
以上科技资源知识图谱是基于科技资源共性特征构建的知识图谱,在区域科技资源服务平台应用时,要根据各区域的科技资源特点和资源禀赋进行个性特征的扩充,以京津冀的科技人才资源为例,除了院士、长江学者等三地都有的人才外,还有北京的科技新星、领军人才,天津的“131”创新型人才、海河工匠,河北的“三三三人才工程”等地方高层次人才,同时人才资源属性也要相应扩充和调整。
基于科技资源知识图谱构建京津冀区域科技资源服务平台数据库,将科技资源转化为平台数字资源,各类资源数据库以高校、科研院所、企业等创新主体为核心形成互动关联关系,进而形成以平台数字资源为依托的高校创新种群、科研院所创新种群以及企业创新种群等,为京津冀虚拟创新生态系统构建提供创新种群基础。
文本将重点从创新群落、创新链产业链两方面构建基于资源服务平台的京津冀虚拟创新生态系统,通过在京津冀科技资源服务平台开发重点区域和重点产业科技资源专题版块,运用数字地图系统、知识图谱等新一代信息技术对京津冀创新群落、创新链产业链进行模拟仿真,分析京津冀创新群落和创新链产业链的形成和分布特征,系统掌握京津冀协同创新状况,为优化区域科技资源配置和空间布局、构建区域创新生态系统提供决策支撑。
创新群落是参与创新活动的一种组织形式,以区域划分边界。创新群落强调主体间的创新活动互动,由创新主体(企业)和相互关联主体(高校、研发机构、政府机构、中介组织)构成,是创新生态系统的重要组成[11]。
基于创新群落的空间特性,借助科技资源数字地图系统对京津冀重点区域创新群落进行模拟仿真,选定京津、京保石、京秦唐“三轴”地带以及中关村、滨海新区、廊坊、沧州、衡水等重要节点区域,利用数字地图系统对区域内的高校、科研院所、企业、服务机构等创新主体的数量和分布进行空间模拟,分析各类科技资源集聚现状。然后抽取与各创新主体相关联的论文、专利、项目等创新要素,通过创新主体间的论文、专利、项目等合作状况梳理主体间的协同互动关系,进而分析区域内创新群落的数量、群落结构和领域分布特性,并运用数字地图系统进行可视化模拟。例如中关村地区的信息技术创新群落(图5)、亦庄的机器人研发制造群落、沧州的弯头管件产业技术创新群落等是目前京津冀已初具规模的区域性特色创新群落,区域内的各类创新主体围绕信息技术、机器人研发等技术和产业领域创新活动频繁互动,推动了区域高端高新产业发展和传统产业转型升级。
图5 中关村地区电子信息技术创新群落Fig.5 Electronic information technology innovation community in Zhongguancun area
创新链和产业链是创新生态系统的核心支撑,通过构建信息技术、高端制造、生物医药等京津冀重点产业创新链产业链知识图谱,开发基于资源服务平台的京津冀重点产业创新链产业链可视化模块,主要包括科技资源领域属性自动标引和资源自动抽取、基于创新链产业链的领域词表构建、创新链产业链知识图谱构建、可视化模块开发。
基于信息检索、自然语言处理等技术,开发科技资源领域属性自动标引和抽取工具,为科技资源自动标注技术领域、行业领域、产业领域等不同领域属性,从京津冀区域科技资源服务平台数据库快速抽取相关领域科技资源数据。基于已抽取的产业和技术领域科技资源数据,通过文本分析、自然语言处理等方法构建领域词表,同时结合基础词典、领域主题词典、新词发现等对已构建的领域词表进行修正和完善,基于创新链产业链理论和行业专家智慧优化领域词表关联关系,构建基于创新链产业链的领域词表。基于领域词表进行相关领域科技资源实体识别和归类发现,进而快速构建重点产业创新链产业链知识图谱。运用图数据库等知识图谱可视化手段和数字地图系统实现京津冀重点产业跨区域创新链产业链的可视化模拟和地图展示。
以京津冀大数据产业为例,如图6 所示,首先从京津冀科技资源服务平台数据库抽取电子信息技术、软件和信息技术服务业等与大数据产业相关的科技资源数据,筛选出百度、天眼查、旷视科技、张北云计算产业基地等各类科技资源。构建包括大数据采集和存储,大数据分析和服务,大数据应用以及相关基础研究,软件工具,硬件设施等的京津冀大数据产业链领域词表。基于产业链领域词表自动匹配相关创新主体,例如大数据采集和存储环节有小米、国家超级计算天津中心等创新主体,构建京津冀大数据产业链知识图谱并进行可视化表达。
云计算、大数据、物联网等互联网信息技术的发展使科技资源服务平台的服务内容与传递方式发生变化,由静态的资源信息展示转向动态的资源服务,共享平台的用户需求也日益复杂化、个性化和实时化,除了传统的信息共享服务外,基于新的创新范式需求,还要求平台具有战略决策支撑、资源服务需求对接等集成化、智能化服务功能[12]。为此本文将基于创新链产业链服务链融合需求研究京津冀虚拟创新生态系统运行机制,依据链条不同环节将科技资源功能分为研发服务功能、检验检测服务功能、技术转移服务功能、知识产权服务功能、科技金融服务功能等,“互联网+”、大数据技术为科技资源线上服务提供了基础技术支撑,使基于线上服务的创新主体协同互动成为可能。
图6 京津冀大数据产业链知识图谱原型Fig.6 Knowledge map of Jing-jin-ji big data industry chain
平台功能模块包括专题服务功能模块和基础支撑工具模型给两部分:专题服务功能模块具体包括研发服务功能、检验检测服务功能、技术转移服务功能、知识产权服务功能、科技金融服务功能等,基础支撑工具和模型包括在线互动交流、需求精准对接、资源智能推送、决策分析模型、在线交易、服务评价等。通过功能模块和工具模型的集成实现虚拟创新生态系统在线运行,构建“互联网+科技资源+智慧服务”的平台运行模式。正如图7 所示,本文从系统构成、支撑技术和系统功能三方面构建了基于资源服务平台的京津冀虚拟创新生态系统。
本文基于科技资源知识图谱对京津冀区域创新种群、重点区域创新群落、重点产业创新链产业链进行平台模拟分析和可视化展示,通过不同服务功能模块集成实现了虚拟创新生态系统在线运行,构建了基于资源共享服务平台的京津冀虚拟创新生态系统,将对提高跨区域科技资源优化配置效率,提升科技资源服务成效发挥积极作用。今后还需在以下四方面加强研究和实践。
一是理论支撑。要加强基于区域创新生态系统特征的创新种群、创新群落、创新链产业链研究,从科技资源构成、边界划分、功能属性等方面进行深入研究,为基于区域资源服务平台的虚拟生态系统构建提供理论支撑。
二是技术支撑。在进行以创新主体为核心的关联关系构建时,机构更名或重组、科技人才重名等问题会导致科技资源关联错误或失效,亟需大数据分析挖掘技术的研究和支撑。同时还要加强自然语言处理、知识图谱等新技术方法在创新群落、创新链产业链构建方面的应用,提升科技资源关联关系构建的精准度。
图7 基于科技资源服务平台的京津冀虚拟创新生态系统构成Fig.7 Construction of Virtual Innovation Ecosystem of Jing-jin-ji based on science and technology resources service platform
三是数据支撑。目前对京津冀、长三角等跨区域科技资源和整合现状缺乏系统了解,数据只能依靠零散的新闻报道获得,需构建跨区域科技资源统计监测体系,对区域科技资源存量和空间布局进行全面摸底,为基于资源共享服务平台的区域性虚拟创新生态系统构建提供数据保障。
四是运营模式支撑。平台建设和运营维护周期长,基于平台的虚拟创新生态系统构建和运行更需要长期投入和持续优化,需耗费大量人物财资源。在前期政府财政投入的基础上,需及时引入社会资本,构建区域科技资源服务平台市场化运营模式,通过体制机制创新优化虚拟创新生态系统运行环境。
利益冲突声明
所有作者声明不存在利益冲突关系。