李曼迪,苏 成,崔怡雯,赵志远,赵筱媛
(中国科学技术信息研究所,北京 100038)
颠覆性技术能够突破传统或主流的技术、产品、商业思维和路线,对已有的技术、产品、商业模式、工艺流程、设计方法等进行一种另辟蹊径的革新。颠覆性技术感知与响应任务驱动下的情报采集工作基于地平线扫描系统开展,能够为颠覆性技术监测、识别提供重要的数据支撑。
面向颠覆性技术的情报采集工作主要有两种模式[1-3]:一是针对特定技术展开的定向扫描,用于监测特定技术发展态势。目前,学界针对特定技术定向监测扫描已有较为深入的研究[4-8],主要依托具体应用场景从整体监测思路、流程和体系进行阐述,定向搜集情报进行分析。二是利用地平线扫描工具开展的非定向扫描,即较为广泛地进行信息收集,然后使用大数据分析方法从中挖掘、捕捉技术弱信号,进而发现未来技术发展趋势。针对非定向扫描模式,网络信息能够为颠覆性技术感知与响应提供强有力的情报资源保障,其资源类型广泛,包含技术、产品、市场、政策等诸多方面内容,是对当前以专利和论文为主的颠覆性技术定量识别方法和以专家主观想法为主的定性识别方法中数据基础的有效补充,已用于德国联邦教育和研究部、韩国科学与技术信息研究院的技术预测与预见活动[9]。
但在纷繁复杂的网络环境中,哪些信息源适合用于情报采集来监测、识别颠覆性技术;如何结合颠覆性技术特点评价、遴选信息源,进而从海量数据中有针对性地提取高价值的情报、最大化情报效益是一个值得研究的问题。基于此,本文开展了面向颠覆性技术情报采集的网络信息源的研究。
(1)从信息组织形式角度分析。网络科技信息总体上可分为结构化数据和非结构化数据,从信息公开程度与组织形式可基本分为四类[10]。第一类是科技图书、科技期刊、专利、研究报告等信息,一般存在于各类网络数据库中,即结构化数据。第二类是不同主体在互联网公开发布的科技信息,从信息发布者与内容组织者的一致性上看可分为原始发布和转载发布。原始发布既包含各类主体在其门户网站发布的信息,也包含各类新闻媒体对事件的事实性报道所形成的新闻资讯信息;转载发布主要是指各类信息汇聚平台对原始发布信息的转载。第三类是基于移动互联网在具有一定社交性质的平台发布的科技信息,如微信公众平台、知乎、专业论坛等,主要针对某个主题进行组织且具有较强的互动性。随着移动互联网的兴起,此类信息的传播范围大大增加,并且拥有了一批优质的个体信息源。第四类是通过邮件、网络通信软件等途径传播的科技信息,此类信息不公开。后三类信息均是非结构化数据,在采集过程中需要进行处理加工。
(2) 从创新参与主体角度分析。随着社会发展,科学研究与技术创新朝着系统化、专业化和常态化的方向发展,科技发展环境日益复杂。分析参与颠覆性技术创新过程中关键主体发挥的作用,能够明晰需采集情报的源头方向,参与主体主要包括政府、企业、行业协会、科研机构等,如图1所示。
图1 创新参与主体作用分析
• 政府主要通过科技政策与发展战略的制定参与到创新链条当中。通过制定相关科技、产业政策与战略,从国家层面为科技事业、产业发展提供宏观性方向引导,同时在具体技术创新过程中促进和激励企业技术创新、保护知识产权,进而推动技术转移、扩散和升级换代[11]。从国家科技管理体制、科技创新体系等角度,收集具体的政府主体包括科技管理机构、科技资助机构、科技情报机构等,可以获得相关科技政策、科技战略与计划、科技项目布局等信息以及国家科技动态等,一般对外公开的科技政策与发展战略等信息能够在相应政府组织的官方网站或通过网络检索获得。
• 企业在国家技术创新体系中发挥核心作用。企业通过科技创新培养的核心技术竞争力,是企业市场竞争的关键因素,也是企业实现长远发展的重要保障;同时,企业基于核心技术的业务发展反过来促进了技术创新水平[12]。颠覆性技术通过形成一定的产品或服务在市场上发挥作用,通过监测市场上的企业技术研发、工具方法、产品服务等情况,来对技术作用于市场的信息进行收集。一般可获得企业的组织架构、研发情况、产品服务、投融资情况等信息。
• 行业协会在技术创新中发挥协助与桥梁作用,其介于政府、企业之间实施行业管理与行业监督[13-14]。通过监测国内外重点行业协会政策落实信息与相关行业动向,能够了解某行业或某地区企业产品与技术的创新方向与基本轮廓。一般通过其官方网站或组织建设的行业门户网站可获得相关信息资源。例如,中国半导体行业协会的官方网站汇聚了半导体行业相关信息,包括政策法规、行业要闻、新产品与技术、热点观察等重点板块。
• 科研机构也是国家创新体系的重要组成部分,对于侧重于研究带动产业升级、具有市场竞争性、突破瓶颈制约、影响或制约国家安全等重要基础和技术[15]的应用型科研机构,能够为颠覆性技术创新提供强有力的基础支撑作用。科研机构的研究进展与布局动向可通过结构化文献成果数据、项目研究数据进行分析,其官方网站上一般也会发布相关科技资讯,如中国科学院自动化研究所官方网站上的科研动态、头条新闻等板块。
(3)从科技活动过程角度分析。网络科技信息除了依托创新主体进行内容组织外,围绕科技活动过程也分布着一些科技信息源。科技研究活动一般由相关科技基金或计划管理机构组织,从项目基本信息、项目过程管理信息到项目成果信息由管理机构选择性公开发布。学术交流活动伴随科技研究过程开展,包括期刊论文发表、学术会议交流等。在顶级期刊、会议中包含某一领域高水平的前沿学术动态信息,能够从中研判该领域已取得的科技突破、技术发展前沿和热点信息。科技预测活动由政府、智库/咨询机构、科技杂志等组织开展,通过定性或定量方法开展对技术或学科领域的评估预测工作,其预测结果通过网络进行发布。此外,也有科技展览、技术交易等科技活动类型。
本研究团队通过对颠覆性技术的长期研究,分析和归纳了颠覆性技术具有“变革性”“突破性”“前瞻性”“替代性”与“高风险性”的特征。除变革性是特指颠覆性技术所能够带来的巨大效果,属于一种事后特征,无法指导颠覆性技术网络信息源选择外,本文结合颠覆性技术的其他特征,归纳总结了面向颠覆性技术情报采集的网络信息源特点。
(1)信息源应涵盖技术、产品、市场等多种监测信息内容类型。颠覆性技术具有突破性与替代性特征,即能够通过自身取得的突破性进展取代现有主流技术进而产生颠覆性创新,包括基于科学原理重大突破所产生的技术突破、基于技术创新性应用或多种技术跨界融合形成的产品突破以及基于颠覆性思路解决实际问题的商业突破等类型[16]。以往基于论文与专利等结构化文献信息分析技术的数据基础较弱,还应包含企业和行业创新主体的产品服务、市场行业信息等多种监测内容类型,因此,从整体上看,颠覆性技术监测信息源集合应具备信息类型多样性的特点。
(2)信息源内容主体具备领域顶尖性特点。颠覆性技术具备前瞻性特征,一方面表现在内容上具有前沿性,能够引领学科领域新的研究与发展方向。从信息生态链角度,前沿科技信息产生者,是参与该领域科技创新活动以及信息活动的领先主体,通常能创造出该领域的重大突破或拓展出新的研究方向,是引领所在领域发展的顶尖性群体[17]。因此,在进行信息源选择过程中,应着重选择领域内此类顶尖主体,进而把握领域主要发展脉络、捕捉前沿动态。
(3)信息源集合应包含能够面向未来需求的信息源。颠覆性技术的前瞻性特征,另一方面表现在时间上具有一定的超前性,即面向未来需求而部署。例如,隶属韩国科技部的韩国科技评估与规划研究院(Korea Institute of Science & Technology Evaluation and Planning,KISTEP) 自 2009 年起,每年都会筛选并公布《KISTEP 十大新兴技术》,分析新兴技术未来应用前景;知名咨询公司高德纳(Gartner)每年发布《十大战略科技发展趋势》,预测未来五年内能迅速增长、具有巨大潜力的科技趋势;科技杂志《麻省理工科技评论》(MIT Technol‐ogy Review)每年开展全球十大突破性技术评选,探讨科技未来新走向。从这些报告中能够得到面向社会发展、行业趋势、科技研究等不同时长阶段需求的未来数据。
(4)信息源集合应包含能够体现风险投资行为的信息源。颠覆性技术发展具有高度的不确定性,任何一项颠覆性技术在产生颠覆性效应前可能在很长时间内都处于被忽视的状态[18],使其具有高风险特征。高风险从风险投资的角度考虑也往往会带来高收益,吸引着资本力量的投入。在产业层面,资本市场对企业的风险投资能够激发经济发展新动能,其投资方向中不乏许多高新科技企业,它们的产品技术、研发方向等引领行业发展且能够为经济、社会带来巨大影响,因此,可通过分析知名资本的投资布局挖掘颠覆性技术信号线索。此外,在科研层面,有些科学资助机构也引入风险投资理念来开展科技资源配置管理,以期能够产生具有巨大变革力量的创新成果,其往往以变革性、高风险高回报、创新性等描述,也是更为直接的参考信息源。
(5)信息源应具备高质量特点。鉴于高质量信息源对特定任务有直接效用[19],许多研究者对基于不同研究目的优质信息源所应具备的特征或特点进行研究。王芳等[20]从可获取性和信息质量两方面研究信息源选择的影响,其中用可靠性、相关性和时效性对信息源的质量进行了具体量化。李荣等[17]对科技前沿信息源相关概念给予界定,提出科技前沿信息应具备生产者的尖端性、传播的权威性、内容的先导性、来源渠道多样性等四大特征,并基于此建立了科技前沿跟踪信息源目标体系。陆泉等[21]从信息可信度的内涵出发,提出了健康领域信息源应具备权威性与影响力特征,即信息源具备较高的资格认证与可信度;同时,信息源拥有较多的关注者并受到广泛信息质量上的监督。总之,高质量信息源的特点并未形成统一论述,一般根据特定的任务或研究内容,对所需信息源的特点进行定义。本文从内容相关性、数据可靠性和信息源活跃度三个层次定义了高质量,具体见第4.1 节。
基于上述分析,本文提出了面向颠覆性技术情报采集的网络信息源遴选分布谱系,如图2 所示。从信息组织角度出发,谱系内主要包括围绕创新过程和科技活动的相关主体、载体进行组织的信息源,包括政府组织、行业协会、企业、科研机构、智库/咨询机构、科技杂志、顶级期刊、会议、竞赛、专业奖项、综合监测平台等内容,涉及政策、市场、产品服务、工具方法、技术、机构、科技突破、未来数据八个维度的监测信息资源类型,用于指导颠覆性技术情报采集的信息源遴选工作。
图2 面向颠覆性技术情报采集的网络信息源分布谱系
确定信息源分布谱系并初步遴选后,还需要对信息源的质量进行把控,本文建立了基于内容相关性、数据可靠性和信息源活跃度的三维信息源评估标准:①内容相关性是信息源的重要特征,直接决定信息处理与分析结果。经初步归纳,面向颠覆性技术监测的情报主要分为技术动态、政策动态、市场动态、机构动态、产品服务、工具方法、未来数据、科技重大突破等资源类型,若信息源所展示的内容与上述类型吻合度较高时,则内容相关性较高。②数据可靠性是指数据具有较高的可信度与可用性,包含数据来源的权威性、内容原创性以及内容的完备性三个方面。权威性考量监测信息源中信息的可靠程度,由官方主体(如政府组织、科研机构、知名智库)发布的信息权威性更高,而在论坛等平台发布的信息权威性偏低;原创性是指信息发布主体与内容主体的一致性,若网站内信息均为原始发布,则原创性高,若为转载信息,则原创性低;监测信息源包含所需字段内容越多,则内容完备性越高。③信息源活跃度是指信息源更新内容的频率,更新频率越高,则信息源内容的新颖程度越高,即表示网站能够针对展示内容及时更新、时效性好。对于同种主体类别的信息源来说,活跃度更有参考价值,能够反映出信息组织者对信息源的管理与运行情况,间接决定着信息源质量。
面向颠覆性技术情报采集的信息源遴选并非一蹴而就,对于遴选的信息源是否合适,既依靠于遴选过程中情报人员的专业判断,也需要进行后续的信息源评估工作,以便能够对遴选结果进行可用性判别,选择价值更高的网络信息源集为颠覆性技术识别等工作提供有效数据支撑。
信息源从遴选入原始信息源名单,到最终核验通过进入地平线扫描信息源数据库,具体评估流程如图3 所示。
图3 信息源评估流程
(1)评估与解析。遴选后得到的原始信息源名单依据内容相关性、数据可靠性和信息源活跃度三维评估体系,对信息源数据情况进行评估。评估过程需要对信息源的基本属性信息进行解析,如表1所示。需要注意的是在实际情报采集过程中,如果不定向地对网站全部信息进行爬取,那么所获得的数据具有非常大的噪音,所以本文采用网站下一级“栏目”作为信息源的最小单元。通过对信息源解析与初步评估,综合评判信息源质量,确定监测信息源的可用程度,生成具备打分信息的信息源原始列表。
表1 信息源基本属性
(2)筛选。依据评估得到的具备排序信息的原始列表,从中剔除低于最低标准的信息源,去掉重复的信息源,最后筛选出可用的信息源列表。为进行后续情报采集工作,需对信息源进行采集信息补充,形成计算机可读取的字段内容,减少无用数据采集并形成结构化网络数据。X-Path 即XML(ex‐tensible markup language)路径查询语言,是一种用来确定XML 文档中某部分位置的语言,通过网页特定模块的X-Path 地址能够实现对相关内容的有效读取。一般来说,信息源需要采集的字段信息包括标题、时间、作者、来源、摘要、正文等,通过补充相应的X-Path 信息形成信息源初选列表。
(3)核验。针对筛选后的采集列表开展试采工作,即少量采集监测信息源的信息,而后通过对采集的内容进行核验以再次评估监测信息源质量,主要从内容的完备性和相关性两方面出发。信源核验通过后可正式入选信息源数据库,按照既定策略定期采集相应的数据,对于验证后效果欠佳的信息源也需及时剔除。
(4)反馈迭代。进入地平线扫描数据库的信息源也需要定期进行迭代更新。一方面,仍有一些优质的信息源可通过评估纳入数据库;另一方面,由于信息源网站来自不同的管理个体,定期会对网站进行改版、更新,所以,针对入选库中的信息源也要定期检查数据状态,及时关注信息源动态变化,从而保证基础数据的有效性与可用性。
在颠覆性技术网络信息源分布谱系的指导下,本研究团队进行了生物技术、智能制造、新一代信息通信技术、新材料技术、空天技术、海洋技术等六个领域的网络信息源遴选工作,信息源主要围绕政府组织、行业协会、企业、科研机构、智库/咨询机构、科技杂志、顶级期刊、会议、竞赛、专业奖项、综合监测平台等类别进行收集。
按照上述评估标准与评估流程,本文进行了六个领域初选信息源的解析、去重、信息补充等操作,并对生物技术领域进行了信息试采,完成了该领域信息源核验,发现企业以及期刊、会议、竞赛等主体或载体的门户网站信息质量普遍较低。企业门户网站作为企业宣传阵地主要是对企业活动信息的报道,而期刊、会议、竞赛等网站则多为简要描述信息,对于此类价值不高的信息源进行了剔除,具体遴选结果如表2 所示。
表2 生物技术领域信息源遴选结果
为了实现颠覆性技术网络情报的有效采集,中国科学技术信息研究所团队建设了颠覆性技术信息源管理与情报采集平台。该平台是基于前期信息源遴选与评估工作开展的网络信息源管理与情报采集的工程化实践,旨在对已遴选评估的高质量信息源进行管理与展示,且能够实现重点信息源网络情报的自动化采集与加工,满足研究人员对信息源的监测跟踪需求,并与本团队其他系统平台有效衔接。
面向颠覆性技术情报采集的信息源系统核心功能如图4 所示。采集前先将数据库已遴选评估的信息源上传至系统信息源列表,通过信息源管理功能可对信息源进行展示、查询等操作,随后确定需要进行采集的信息源范围,制定采集开始时间、采集频率等采集策略。到达采集时间后,程序自动运行并执行对选定监测源的情报采集工作;选定范围监测源的采集工作结束后生成此次采集日志,可浏览具体策略设定、范围选择和采集结果等详细内容。
图4 平台情报采集流程
考虑到多场景、系统可维护性与可拓展性等方面的需求,系统平台采用B/S(browser/server,浏览器/服务器)架构。该系统除了上述基于信息源的核心采集功能外,还具备信息源列表管理、策略管理、数据管理和状态管理模块,所具备的详细功能如表3 所示。
表3 系统模块与功能描述
从颠覆性技术感知响应的情报任务关切出发,本研究首先分析了网络资源中科技信息的分布情况,针对颠覆性技术特征勾画了情报采集时所需网络信息源的分布谱系,提出了一套具有实际操作意义的颠覆性技术网络信息源评估标准与流程,并在此基础上进行信息源管理与情报采集平台的设计与实现。本研究旨在复杂网络环境中,瞄准适合用于颠覆性技术监测、识别的高质量情报源头,可从海量数据中有针对性地提取高价值的情报,最大化情报效益,满足颠覆性技术感知响应任务的要求。颠覆性技术网络情报采集是一项长期工作,信息源的遴选与评估也需要在具体情报采集过程中定期进行以提供数据源头保障,不同类型的信息源在情报参考价值上具体如何表现,如何更为快速、准确地对信息源进行辨别定位,值得后续进行更深入的研究与探讨。