文/周灿
基于大数据的发展背景,本文简要概述了大数据试验场的概念和内涵:首先介绍了上海市大数据试验场的建设背景,明确其定位与建设目标;其次,简述了大数据试验场的架构和服务体系,阐明了大数据试验场的建设对推动数据科学研究、助力数字经济发展、赋能城市数字化转型等方面的现实意义。
自20世纪90年代互联网逐渐普及以来,海量的数据开始呈现爆发式增长,并逐步应用于经济社会发展的各个领域。2008年,《自然》杂志专刊提出“大数据”这一概念;2011年,麦肯锡全球研究院发布《大数据:下一个创新、竞争和生产力的前沿》,并指出“大数据时代已经到来”。与此同时,世界各国政府相继发布大数据相关的纲领性文件,着重关注大数据的研究和战略发展。
我国高度重视大数据的研究和发展。2014年,“大数据”首次被写入政府工作报告,紧接着,政府出台了一系列大数据相关政策文件、法律法规和发展规划,并将数据确定为生产要素之一,强调要加快培育数据要素市场。“十四五”规划也对大数据的发展做出总体部署,并提出突出数据在数字经济中的关键作用、加强数据要素市场规则建设、重视大数据相关基础设施建设,着力推动大数据产业步入“集成创新、快速发展、深度应用、结构优化”的高质量发展新阶段。
上海市积极贯彻落实国家大数据战略,并在2016年发布《上海市大数据发展实施意见》,着力营造大数据产业生态环境。据统计,“十三五”期间,上海市大数据产业核心企业已突破900家,核心产业的规模高达2300亿元,平均增长幅度远超全市平均水平。2021年11月,上海市人民代表大会常务委员会宣布通过《上海市数据条例》,这标志着上海市正式迈入数据驱动创新发展的新阶段。随后,上海市先后组建成立上海数据交易所和上海数据集团有限公司,力争加速进军数据要素市场。
为了更好地服务国家大数据战略,赋能上海市数字化转型发展,规划建设大数据基础设施势在必行。中国工程院院士邬江兴提出,大数据试验场是面向当前技术无法解决的大数据传输、管理、计算和分析等问题而设计的大数据技术与产品的创新和试验平台。作为以提供大数据相关服务为主的公共平台,大数据试验场不仅具备大规模实验数据生成、大数据场景构建、大数据存储计算等功能,还兼具支撑数据科学探索与实验、大数据技术试验与认证等作用。简而言之,大数据试验场的本质是用于数据科学理论与共性技术创新的重大基础设施。
2014年,邬江兴院士和复旦大学的朱扬勇教授共同提出“大数据试验场”的设想,试图通过建设公共属性的大数据技术研发和试验平台,解决大数据关键技术突破和高端应用问题。2016年起,复旦大学启动大数据试验场先导项目,积极推动大数据试验场的规划设计和平台申报。同年12月,复旦大学和上海交通大学共同发起,联合近30家高校、企业、科研院所成立了“大数据试验场联盟”,旨在进一步推动上海大数据试验场的建设。2019年12月,大数据试验场建设方案通过专家论证和审定立项后,被纳入上海市研发与转化功能型平台布局工作,并于2020年得到上海市和静安区两级政府的共同支持,成功落地静安区市北高新园区启动建设。
上海市大数据试验场依托于研发与转化功能型平台建设,面向大数据产业创新发展需求,着力解决数据、技术、资金和人才等瓶颈问题,针对大数据产业链各环节的技术研发与功能转化提供高质量、专业化的科技服务。同时,上海市大数据试验场也为政府治理创新、科研理论创新、民生服务创新和产业发展创新提供了试验和推演场所,充当着连接政府、企业、资本、技术、数据资源的桥梁,不断增强大数据产业的创新策源能力。
上海市大数据试验场建成后,将从五个方面发挥效用:一是支撑科学研究,为重大科学理论和方法的探索提供大数据试验场地;二是支撑产业创新,持续为大数据产业链中各环节的技术研发与功能转化提供专业服务,促进大数据产业集聚发展;三是支撑技术创新,开展大数据共性关键技术研究和应用产品攻关,支持大数据技术升级迭代;四是支撑创新创业,发挥大数据资源优势和公共服务平台功能,赋能大数据产业投身各类创新创业活动;五是支撑人才培养,源源不断地为社会输送多层次大数据专业技术人才。
上海市大数据试验场主要由大数据平台系统、数据中心机房、数据资源池、计算资源池等新型架构体系构成。其运行原理是:基于DMZ(隔离区)机制,汇集部分原始数据和样本数据,通过数据发生器等工具来批量生成仿真数据,从而满足大规模试验对数据资源的需求;搭建大规模数据存储系统,实现10PB的数据存储能力。上海市大数据试验场功能完备、开发面广,既有开发智能化、人本化的大数据分析平台,也有支撑上千人同时分析P级数据的试验平台。上海市大数据试验场同时面向多个不同语义层次、涉及不同领域的专业知识,既面向多来源的大数据访问控制和隐私保护系统,也提供面向大数据产业、技术、科研等不同类型的试验环境和应用模板,以及面向特定试验目标的基础数据、算法、模型和评测标准。
上海市大数据试验场基于大数据公共服务平台的建设形态,提供数据资源类、数据研发类、数据服务类等七类基础服务,加快构建从技术研发到成果转化的大数据全产业链创新服务体系。同时,上海市大数据试验场主要通过以下六大功能子平台的建设来满足用户各类服务需求。①数据资源服务子平台:实现数据搜集功能,生成试验数据资源,为大数据试验提供数据支撑。②数据试验服务子平台:为用户提供系统试验、模型试验、数据技术开发等一站式服务。③测试认证服务子平台:研究大数据技术及管理标准,构建大数据技术成果认证标准体系,提供大数据产品的测试验证等服务。④人才培养服务子平台:提供大数据技术和业务培训,输出专业技能人才。⑤开源社区服务子平台:吸引国内外研发力量,实现技术共享,完善大数据产业生态链。⑥成果转化服务子平台:实现对大数据技术与应用创新企业的成果转化,加快推进大数据产业化。
(1)推动数据科学高水平研究。现阶段,大数据正向着数据治理、数据驱动的方向演变,数据科学的研究主题主要包括数据科学理论和方法的基础研究,以及人工智能、云计算等高端应用研究。在大数据试验场的支持下,数据科学领域的研究者可以开展包括数学基础、计算基础和数据基础等数据科学基础的理论研究,以及多学科交叉融合的大数据技术及应用研究,从而推动大数据关键技术创新突破,有效提升数据科学研究水平。
(2)助力数字经济高质量发展。当前,我国正处于从工业经济向以数据资源为关键要素的数字经济转型的关键时期。上海市积极推动数字技术与实体经济深度融合,布局培育绿色低碳、智能终端、元宇宙等新赛道,全面提升数字消费能级,打造世界级数字产业集群。数字经济及大数据产业的发展,正在深刻改变生产生活方式和社会治理方式,因此,对以大数据核心技术为主的数字技术进行研发与推广应用显得尤为重要。未来,上海市大数据试验场将全面发挥大数据领域协同研发平台的功能,夯实大数据产业的基础,着力推动大数据与人工智能、区块链、数字孪生等新一代信息技术的集成创新,助力构建数字技术创新体系。
(3)赋能上海市数字化转型。上海市正在按照“整体性转变、全方位赋能、革命性重塑”的原则,全面推进城市经济、生活、治理等的数字化转型。上海市基于“全方位赋能城市迭代进化”的定位,深化利用数据的生产力和治理力,为经济社会的发展注入新动能。上海市大数据试验场作为基础设施,重点围绕大数据与各行业的融合应用,致力于提升数据技术服务水平,以数据驱动来实现城市经济发展、城市治理优化、生活品质提升等城市数字化转型目标。
站在中华民族伟大复兴战略的角度进行分析,推进大数据产业高质量发展,培育壮大数字经济的可持续发展,直接关系到“十四五”时期经济社会发展的全局走向。上海市大数据试验场立足国家重大战略需求,坚持数据创新驱动发展,为上海市打造具有世界影响力的科技创新中心和国际化数字之都提供助力。