杨 锐,陈 伟,3,张 敏,许静玲,陈 俊,周艳丽
(1.中国科学院武汉文献情报中心,湖北武汉 430071;2.科技大数据湖北省重点实验室,湖北武汉 430071;3.中国科学院大学经济与管理学院,北京 100190)
大数据时代随着数据资源的爆炸式增长和信息技术的高速发展,以数字化转型整体驱动生产方式、生活方式和治理方式变革已经上升到国家战略层面。我国在《国民经济和社会发展第十四个五年规划和2035 年远景目标纲要》中已经明确提出加快数字化发展[1],充分发挥海量数据和丰富应用场景优势,促进数字技术与各行各业的深度融合。在这个大背景下如何激活数据要素潜能,更好地推进科技信息知识服务平台建设也是需要思考的问题。传统的科技信息服务主要包含方案规划、资源收集、信息处理、数据分析、产品编制以及支撑决策的成效评估与反馈等一系列工作[2]。这一系列工作如果看成是一个情报工程化的过程,这个过程又与数据科学的各个环节,包括多源异构数据获取、ETL 预处理、融合计算、建模分析、数据可视化和数据产品服务等息息相关。由此在新环境下平台建设更需要加强与人工智能、云计算、大数据等新兴技术手段进行有效融合,以此来推动科技信息服务朝着信息化、数字化、智能化方向加速演进。
2007 年图灵奖获得者James Gray 在美国加州召开的计算机科学与电信委员会会议上首次描绘了关于科学研究第四范式的愿景,指出针对数据密集型科学正在由传统假设驱动向基于数据驱动的科学研究方法进行转变[3]。由微软副总裁Tong Hey 等[4]撰写的《第四范式:数据密集型科学发现》一书中也探讨了这种新范式的内涵和内容,包括多样化工具不间断采集科研数据、建立系统化工具和设施来管理整个数据生命周期、开发基于科学研究问题的数据分析及可视化工具与方法等,这些都为把握科研环境与科研方法的革命性变化以及做好科技信息知识服务提供了战略视角[5-6]。
大数据的核心价值在于面对海量数据能够有效利用技术手段来提供智能化决策服务,同时通过大数据技术进行数据挖掘分析并发现数据规律,能够提高人们对问题的理解和处置能力[7]。因为数据本身不产生价值,所以在科技信息知识服务平台中终端用户关注点主要集中在通过各种挖掘分析工具所产生的知识、规律和经验等科学依据的解读,而技术研发人员更多关注的是如何用传统的信息技术方法来快速实现科技信息数据资源的揭示,不同的角度导致科技信息知识服务平台难以发挥较好的效果。围绕数据驱动的思路则需要终端用户和技术研发人员都充分认识到数据驱动的重要性,从实际应用场景和需求出发开展紧密合作,才能打通从科技数据资源获取到数据产品服务全链条,从而充分体现出科技信息知识服务平台的价值[8-9]。2020 年10 月,美国国防部发布《数据战略》报告,见图1,强调国防部将加速转型为以数据为中心的机构,并从数据支撑决策、数据资产管理、大数据云技术架构、共享标准以及数据治理方法等多个方面明确了指导原则和目标,将数据提升到了国家战略资产的高度[10]。强化数据驱动的重要性对于科研机构来说同样具有较强的借鉴作用,高度重视数据驱动带来的价值将会有效推动科技信息知识服务平台的跨越式发展。
图1 美国《数据战略》报告主要内容
对于技术研发人员来说,通常会利用各自独特的专业工具、思路和方法去应对各种服务需求和具体任务,围绕特定的信息源而设计分析场景,利用传统的技术来收集信息并提供服务产品。同时,随着新环境的快速演变和出现以及决策周期的加快,使得技术研发人员没有时间去考虑如何将新兴技术手段整合到全源科技信息分析过程中,对于新兴技术产生及时准确的分析效果以及具备决策优势的能力更加缺乏体验。2020 年4 月美国战略与国际问题研究中心发布了题为《情报优势:新兴技术给美国情报带来的机遇与挑战》的专项报告,围绕新兴技术如何影响情报分析这一特定领域的核心过程,系统阐述了美国利用人工智能、机器学习等新兴技术为情报机构赋能的应用场景,包括云计算、人工智能和机器学习等新兴技术针对海量数据在信息收集过程中进行精准识别和分类、在信息分析过程中进行智能搜索、数据融合和数据可视化,增强分析结果的可信度、在信息传递过程中精准推送定制的数据资源等。这些场景在数据驱动的大环境下更需要突破传统思维方式,加强科技信息知识服务平台各个环节与新兴技术有机融合,才能切实感受到技术手段对于不同的知识服务需求的理解和处置能力的提升。
大数据环境下的科技信息知识服务平台建设需要以数据驱动为导向,从实际情况出发,规划好服务定位目标。在这个基础上进一步明确具体需要解决的问题,不同的问题需要不同的数据资源体系进行支撑,同时选择适合的大数据架构进行功能开发。科技信息知识服务平台建设与构建符合大数据时代的,具有创新性、灵活性的“大中台、小前台”的思路可以保持一致,即需要大中台集合数据治理能力、技术服务能力,对各种前台服务形成强有力的支撑,同时作为小前台的一线服务功能则需要更敏捷、更快速的适应瞬息万变的需求。
“数据中台”的概念由阿里巴巴首次提出,它是一个承接技术、引领业务、构建规范的智慧数据处理生态圈。它的最终应用价值在于推动各个行业大数据应用向智能化发展,能够保持并提升核心数据业务的服务效率和创新能力。近几年继阿里、腾讯、百度、网易、京东等互联网公司先后调整组织架构、实施数据中台战略后,国内不少机构逐步开始建设自己的数据中台[11]。其中福建省科学技术信息研究所在分析区域科技创新智库对科技信息知识服务需求的基础上,将服务中台设计思想与面向区域科技创新智库建设的科技信息服务平台体系进行有效融合,建立了由科技大数据中台、情报研究与服务中台、产品服务体系中台、开放研究与协同服务中台组成的中台体系架构[12]。
数据中台思路应用于科技信息知识服务平台建设,见图2,从数据治理维度可以解决科研机构内部系统间的数据孤岛问题,将不同系统的数据进行全面汇集,理清各类平台数据间的脉络及关系,制定统一数据标准规范,通过元数据管理、主数据管理、数据质量管理以及数据安全管理等形成全量数据资产并能够有效支撑数据服务,解决科技大数据的“汇管用”的问题[13-14]。从数据处理维度看数据中台是一种“开放+统一”的架构,这种架构能够让数据流动起来为不同的信息服务业务赋能,不断沉淀与业务相关的各种数据处理能力。通过数据的共享融合、组织处理、建模分析、管理治理和服务应用,实现创新服务功能的快速上线与迭代更新,从而发挥数据资产的最大价值。
图2 科技信息知识服务数据大中台
数据小前台的本质是在大数据环境下的一种敏捷化应用模式。敏捷大数据是指在敏捷理念指导下的大数据应用全生命周期理论方法,包括数据科学的迭代性和高效组件化技术[15]。敏捷大数据避免复杂的集中式平台管理,将传统“一站式”服务拆分成独立服务,来支撑更轻量和更灵活的大数据应用。全球IT 研究与顾问咨询公司Gartner 发布的2021 年十大数据和分析趋势报告中谈到组装式数据架构,利用组装式数据架构可以将多个业务组件组合成新的应用来促进系统平台的敏捷性和创新性,同时指出面对日益复杂的人工智能数据用例稀缺的挑战,许多机构正在逐步通过组装式数据架构来使用小而宽的数据,利用小而宽的数据协同效果来增强情境感知和决策[16]。作为敏捷大数据典型应用场景的微服务开发模式目前已经成为大数据应用的热点方向之一,包括谷歌、亚马逊、Facebook、百度以及京东等互联网公司都在使用微服务理念进行平台设计、研发和部署。敏捷开发创始人马丁·福勒对微服务给出了明确描述,微服务是一种使用若干小服务来开发单个应用的方法,每个服务运行在自己的进程中,通过轻量级的通讯机制进行信息交互,每个服务粒度基于业务能力大小构建,最终服务能够通过自动化方式独立部署[17]。
将敏捷大数据思路应用于科技信息知识服务平台建设主要考虑到两个方面的因素。一方面现阶段各类大数据开源技术和组件层出不穷,涉及的生态体系复杂,技术门槛也相对较高。从科技信息知识服务平台建设的角度要完全适应这样的技术变革还需要时间去沉淀,尤其需要学术研究和工程实践的有机融合,同时需要考虑到时间和人财物等各方面的因素,因此在平台建设方面更适合采用一种能够持续性自适应迭代和优化的应用架构。另一方面由于科技信息知识服务中台所处理的数据资源类型广泛,包括热点动态、政策规划、项目经费、科研产出以及成果影响等各种类型,而且在知识服务功能需求方面灵活多样,包括热点信息监测、政策文本分析、成果统计分析、竞争力分析评估以及科研态势感知数据大屏可视化和领域学术知识图谱构建等,利用微服务的服务描述、注册中心、服务架构、服务监控、服务跟踪和服务治理等技术组件可以更好地对功能进行分解,快速灵活地进行业务组件化设计、模型标准化配置,达到去中心化、快速原型以及持续交付部署等效果[18-19]。基于以上分析,设计科技信息知识服务应用“小前台”的基础架构如图3 所示。
图3 科技信息知识服务应用小前台
将“大中台、小前台”的思路应用于能源科技知识服务平台建设,构建面向国家和中国科学院宏观战略决策需求的能源领域科技大数据应用服务新模式。作为构建领域大数据基础设施的重要内容,平台以自主建设的能源领域科技态势高质量大数据资源体系为基础,支撑开展数据驱动型信息咨询服务,发布系列化数据分析与研究报告等决策支持产品,为科技决策者、战略科学家和科技管理人员提供高质量的知识服务产品。
能源科技知识服务平台建设总体架构设计以科技信息数据治理大中台和知识服务小前台为支撑提供敏捷化应用模式,能源科技知识服务平台总体架构见图4。
图4 能源科技知识服务平台总体架构
目前大数据环境下不管是在存储管理、挖掘分析、可视化展示以及安全保障等方面,各种技术框架工具已经趋于成熟,综合各方面因素能源科技知识服务平台建设采用能够持续性自适应迭代和优化的敏捷大数据应用架构,同时借鉴数据中台的设计思路对分散在不同系统上的多源异构数据资源进行有效治理,通过微服务技术快速构建各项支撑决策的知识服务功能。
3.2.1 能源科技大数据资源体系
能源领域数据资源体量大、涉及面广,围绕政策、经费、项目、机构、人才、设施平台、论文、专利、标准、报告、成果、奖项、产业经济等数据资源类型,各个环节信息庞杂、复杂度高,但同时公开可获得性好,数据具备强烈的相互关联性,具有构建大数据资源体系的基础和可行性。前期通过对各种能源领域相关的异构权威网站和数据库资源梳理分析以及开展文献资料调研和专家咨询等方式,发现、遴选和评价不同来源、不同类型的高质量数据源。在梳理数据资源的基础上进一步构建标准规范体系,包括数据标准规范、质量管理规范、数据服务规范以及数据安全规范等,从而建立贯穿数据全生命周期的质量控制机制。见图5,目前已经从科技投入和科技产出两个维度构建能源科技态势大数据资源体系,共十三个一级、数十个二级和上百个三级数据集。
图5 能源科技大数据资源体系
3.2.2 能源科技大数据治理框架
能源科技知识服务平台建设主要依托中国科学院科技云武汉区域中心大数据分布式环境,见图6,在数据治理方面设计高可用流式计算框架作为数据交换、处理和服务的底层核心架构[20-21]。
图6 能源科技知识服务大数据治理框架
(1)数据交换方面包括三种情况,一是自建的各类能源领域专业平台的非结构化、半结构化和结构化数据集成,采用数据总线技术无侵入同步源端数据,以全量和实时增量数据抽取的方式进行数据迁移和交换;二是能源领域动态科技监测实时流数据的集成,监测实时数据流主要包括随时间延续而无限增长的能源领域动态新闻数据集合;三是能源领域公共数据的集成,包括能源领域重点机构网站的开放数据、开放平台的数据接口调用等。对以上获取到的数据进行抽取、转换、清洗和隐私脱敏等预处理工作以后,集成处理后的数据以UMS 的格式存储到Kafka 中。数据交换环节在不影响原有系统的前提下,解决了数据的实时同步和更新问题。
(2)数据处理方面能源科技知识服务平台通过Kafka 同步获取数据资源以后,根据数据的特征和质量利用Spark Streaming 流式计算引擎来进行数据处理。Spark Streaming 是建立在Spark 之上的流式计算框架,通过API 和基于内存的高速计算引擎配置流式处理逻辑,通过这种方式可以对每个时间段内收集到的数据序列使用批处理模式进行micro-batch流式计算[22]。能源科技知识服务平台采用Spark Streaming 流式计算引擎进行数据处理,更加精细灵活地利用了计算资源,可以提高多个计算任务并行处理效率,同时流式计算引擎在应对实时性以及时效性要求较高的服务模块时优势也较为明显,能够最大程度地发挥数据资源的价值,数据资源经过Spark Streaming 处理完之后再写到不同的存储中。
(3)数据服务方面主要是对流式计算引擎处理过的数据资源进行调用,根据能源科技知识服务平台的不同业务需求实现多源异构数据资源的融合计算,计算完成的数据经过标准化治理以后通过接口提供给数据应用层。其中在中台管理和数据治理方面相关的功能重点集中在这部分实现,包括中台管理中涉及到的租户、用户、资产、安全等中台核心数据管理功能以及数据治理中涉及到的元数据、主数据等中台核心数据治理功能。例如元数据管理方面,在数据服务层面直接进行各类数据的元数据采集并进行血缘关系分析,包括源头数据对应用数据的影响以及应用数据回溯到源头数据的诊断,通过血缘关系分析提供数据融合过程中的高质量保障以及实现数据融合处理的可追溯性。
3.2.3 能源科技知识服务支撑决策的场景应用
能源科技知识服务平台在定位方面主要面向国家和中国科学院科技决策与管理部门不同层级的典型需求,构建用户情景导向的能源科技大数据知识服务产品体系[23]。通过科技信息数据中台和微服务应用相结合的模式对内建立完善的能源科技数据资源与研究成果管理和共享机制;对外提供支撑决策的能源科技信息专项服务。目前能源科技知识服务平台提供服务包括资源推荐、科技评价、政策分析、情报产品、专题服务、统计预测等,见图7。
图7 能源科技知识服务平台功能服务
(1)资源推荐服务基于能源科技知识服务大数据资源体系对能源领域多源异构科技数据资源进行整编和汇聚,依托数据中台形成以科技投入和科技产出类数据为核心特色的高质量能源科技态势分布式大数据仓储,涵盖新闻动态等十余种资源类型并支持从技术领域、国家、机构、时间、类型等多维度进行揭示,支持智能检索服务。其中结合人工智能技术利用融合主题信息的卷积神经网络文本分类方法对新闻动态、政策法规、技术专利等资源类型按技术领域进行二次自动分类,提高了用户检索信息资源的效率[24]。
(2)科技评价服务构建了原创性的能源科技创新评价指标体系,从创新环境、创新投入、创新产出和创新成效四个维度揭示了世界主要国家的能源科技创新能力。
(3)政策分析服务以政策法规数据资源为基础借助文本预处理、命名实体识别、主题词抽取、聚类分析等数据挖掘技术从政策主体、政策目标与政策工具三个维度对政策文本进行分析。
(4)情报产品服务主要包括科技监测快报和智库报告,发布能源科技领域系列化数据分析与情报研究报告等决策支持产品。
(5)能源专题服务以碳中和行动专题为示范,展示碳中和相关的新闻动态、政策法规、舆情快报和研究报告,并以数据大屏方式进行碳中和态势环境可视化揭示。
(6)统计预测服务主要包括科研经费和产业经济数据统计分析,科研经费分析,按年份、国家、技术领域对研发与示范经费投入总量、研发与示范经费投入强度等指标进行统计分析和可视化展示,可选择多个国家进行对比分析。产业经济分析,按年份或按国家从数据来源、统计指标、能源种类等维度对能源产经数据进行统计分析和可视化展示。
能源科技知识服务平台建设是大数据环境下变革科技信息知识服务模式的一次新的探索,初步形成了智能化数据驱动方法有效嵌入科技信息知识服务平台的新服务机制,并得到认可。但是,能源科技信息知识服务平台建设是一项长期而复杂的工作,其中要素涉及多个方面,包括数据治理功能的完善、人工智能技术的应用以及大数据应用架构的优化还有待进一步研究。