袁 翔, 左 毅, 韩立斌, 王 静, 赵文成, 孙 斌
(中国电子科技集团公司第二十八研究所, 江苏 南京 210023)
自2012年,风险投资人Matt Turck绘制了大数据产业的图谱,这一年被记为大数据元年,历经了基础技术和基础设施,分析方法与系统、行业与领域应用、数据生态体系、大数据治理等阶段。当今,数据资源跃居为全球经济最活跃的要素,上升为新型生产要素单列,与其他要素具有相乘的关系,能够促进其他要素生产效率提升,显现出四个主要特征[1]:1)非排他性(或非独占性),可复制、可共享、可交互、可多方同时使用共享增值;2)非竞争性,开发成本高,在动态使用中发挥价值,边际成本递减;3)非稀缺性,万物数据化,海量资源快速积累,总量趋近无限,可自我繁衍;4)非耗竭性,可重复使用、可组合、可再生,在合理运维情况下可永远使用。
“万物数字化、万物互联”的数联时代,算力、算法支撑由抽样数据处理向全量数据分析转型、由关注局部的因果判断向广域关联发现转型。数据资源是一切的基础,为深刻理解数据和安全驾驭数据,针对数据的资产地位、数据确权难题、数据共享流通障碍,以及数据安全和隐私保护等挑战,各国军方和政府都围绕主权利益关切发布了各自的数据战略,包括政策、原则、过程和工具,指导数据“可发现、可访问、可利用、可信赖”。
美军更是将数据体系列为JADC2战略中首个努力方向[2],明确与人力体系、技术体系、核指挥控制与通信(NC3)和任务伙伴信息共享等并列。甚至作为发起灰色地带行动,利用非武装冲突的胁迫手段达成国家目标的重要手段。据ABMS公告[3],数据体系作为确保国防部能够在高度竞争的环境中协调信息与战术优势的单列技术类别,明确数字体系结构、传感器集成、安全处理、连通性、应用和效应集成的体系框架[4]。
为了加快发展、建设和整合现有数据资源体系,必须同步构建数据治理体系。以便在未来的大国冲突中,能够将陆、海、空、天和网络全域资源要素直接与指挥官和武器系统连接起来,加速共享数据,促使己方对抗能力超越对手。
数据资源体系建设的基本目标是提升对海量数据环境的掌控能力,提高数据资源使用效率并减低管理风险,实现数据驱动的感知、行动控制和决策支持,在技术层面拓展作战能力增值、业务模式重构的新途径。为了更清晰地描述理论和方法,需重新审视几个概念。
数据资源,广义上是指对一个行业/企业而言所有可能产生价值的数据,有自动化数据和非自动化数据,涉及数据的采集、抽取、转换、清洗、传输、处理、共享、评估等全业务流程。这里除了数据本身,还包括数据管理工具和数据管理专业人员。可见,它体系了数据资源开发利用的诉求。
数据资产,是受资产所有者控制的,能够为组织创造增值效益的,以物化方式存储的数据资源,如多媒体文档,电子图文等。在组织中,并非所有的数据资源都是数据资产,数据资产特指能够为组织带来价值的数据资源。
数据管理,是一个涵盖面较广的定义,相关于数据采集、应用及流程,包括规划、控制和交付及效益评估等的业务职能及相关方,以及开发执行监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交付和提高数据和信息资产的价值。数据管理应聚焦于关键业务数据和流程。
数据治理,是整体数据管理的一部分,是数据管理其中的一个核心职能,在管理数据资产过程中有意向地行使权利和管控措施,包括组织、计划、监控和实施。实现对数据的决策,更好地增加基于数据资产的收益。
数据资源和治理体系的建设,有三个层面的工作:顶层是宏观发展战略,规划指导决策机制、激励与约束机制;中层是规制政策、设计组织结构和全生命周期管理流程、治理能力建设等方面;基础层聚焦于数据架构构建、数据基础设施建设、数据研发、主数据管理、文件与内容管理、元数据管理、数据质量管理等方面,它不仅是技术层面统筹,更是数据资源管理理念的变革,参见图1。全员参与的理念更是要求所有人员都参与到对数据的管理中。并且在数据资源管理全生命周期都要体现出的基本技术特征、方法、要求和绩效。
数据资源和治理体系正成为网络空间治理领域博弈的核心话题,IBM、高德纳、麦肯锡等业内领先企业都围绕核心关切提出了各自数据治理模型体系,具代表性的有DAMA、DGI和IBM等提出的。DAMA 认为[5]数据治理是有意识地对数据资产实施的权力和控制的组织活动集合,包括组织、计划、监控和执行等。DGI认为[6]数据治理包含了数据管理权责体系及执行流程,应清晰界定由谁在何种状态下采取什么样的动作和方法。
数据管理职能和实施范围因组织、理念和经验的不同有很大区别,实施细则各有差异,但各组织数据管理本质仍然是一样的。其中,由国际数据管理协会提出的DAMA数据管理知识体系[7]被广泛使用,覆盖对数据资产行使权力和控制的活动集合,包括计划、监控和执行,成为业界的标杆和权威,具有理论和实践借鉴意义,其数据管理域及主要工作内容如图1所示。
图1 数据管理域及主要工作内容
由图可见,数据资源及其治理体系是一个顶层设计的问题,是一项需要统一规划、统一步调、自上而下推动的工作,以战略规划为先导,并经过逐步的积累,形成适合行业自身的管理组织、流和技术工具。本文以军事领域数据治理的总体架构设计为导引,区分组织职责,并重点叙述数据架构与资源建设、治理流程及支撑平台建设等几个核心实践过程。
数据治理是管控风险、降低成本、增加收益、实现价值的持续改进完善的过程。随着时间的变迁,数据不断聚集,可能引发数据质量风险,进而降低组织达成目标的能力,造成组织成本增加、收益减少。决策层通过添加更多数据或数据系统来修复,无法规避数据瘫痪等恶性事件。由业务驱动构建数据管理人员和技术支撑人员之间的桥梁,完善数据治理模型将是解决当今信息资产治理问题的必由之道[8]。
数据治理总体架构更强调治人,以“人+流程”为中心,体现了在组织中为达成数据管理目标进行建章立制的过程。
数据治理的关键点是“治”,通过规划组织的共同决策,制定数据管理规范,明确管理边界、定义组织内各角色权责,改进现有数据管理流程。参照国际数据治理协会提供的数据治理框架[9](DGI)从实践操作层面提出在军事领域开展数据治理活动的主要工作内容,从制定愿景目标、明确规划策略,到设立组织架构,一直到最后流程实施,每个阶段都明确了应该完成的工作。
构筑数据综合治理体系确保数据资产清晰的业务管理责任,建设军事领域全业务价值链的数据治理体系,如图2所示,实现领域数据资产质量持续提升,保证数据资源体系的可用性、一致性和安全性,确保及时、准确的数据资源服务。
图2 数据治理的总体架构
该数据治理的总体架构,以提升领域数据资产数据质量和服务效能,以构建完善秩序化、价值化数据资源体系为重要立足点,涵盖了数据治理组织架构、治理关键域、治理流程规范及治理平台工具等各方面。
数据治理工作需要有完整的组织机构和岗位职能支撑,需开展数据管理组织建设,并将相关岗位面向管理绩效进行统筹管理,保证数据战略的实施。关键岗位包括:
1) 顶层战略规划,由领域主管领导或者首席信息官牵头,可设立专委会,各业务领域设立工作小组并参加专委会工作。提出军事数据治理的体系框架、建设目标、实施要点、组织保障以及制度建设的总体要求。
2)数据管理的主要职能由技术部门落地,加强统筹规划、跨部门协调和统一部署的力度,统一把控数据架构。提出数据架构建设的基本要求、一般原则和管理流程,以作为后续应用架构、技术架构设计、开发的依据,构建了数据全生命周期的质量管控体系和评价策略,并将具体业务要求映射到应用系统技术实施中。
3)数据应用承研部门、数据系统运行维护部门是各项治理的执行部门,有完整的制度支撑。
4)业务数据归口管理责任部门指派专员和研发部门做对接,明确数据使用需求,业务谁主管、治理谁负责。
数据资源规划(Data Resource Planning,DRP),对领域实体、活动和知识信息从采集、处理,到传输、利用的全面规划,落实技术与体系联合能力深度融合战略,实现行业数字化转型升级的基础工程和先导工程。
将物理空间的实体、活动、知识等进行数字化建模和表达,映射形成信息空间数据、模型和策略加以开发利用,实现资源重组和服务化按需供给,提供标化的数据信息服务、模型算法服务和知识策略服务,支撑信息空间的数据、模型和策略等资源要素融入领域核心作战行动控制流程,为体系强能赋能。如图3所示。
图3 领域数据资源体系概念模型
数据架构建设包括数据资产、模型资产和知识策略资产的体系构建,其中数据资产体系是基础,实现数据资源共享和统一(含数据、模型和知识)管理,包含贴源层、业务层、对象层、主题层等数据。模型体系是在数据体系存储管理、访问控制和资源服务基础框架上构建的算法模型资源要素、关联及管理机制的数据集合,包括实体的物理映射模型、共用数据处理模型、领域的数据应用模型等。策略体系是可计算的知识数据资源,可按照作战使用环节分类,包括态势认知、任务规划、行动控制和支援保障等。
按照军事数据资产的价值提升方向,兼顾数据可再生性和使用管理规定,由底向上,下层数据为上层数据提供支撑。设计数据资产顶层架构,如图4所示。主要分为贴源数据、业务领域数据、对象数据和主题数据等四层。
图4 数据资产体系架构
贴源数据是从各领域以物理或虚拟方式采集、未经加工处理的原始数据。主要包括行业内外部各类在线、离线接入对象。行业内部按照实体、活动和知识等数据资产来源和共享交换协议类型联合分类管理,行业外的数据进行对象源认证与数据质量评估后接入,需注册数据责任方、数据标准、密级。贴源数据对应于原始数据层,应遵照入池标准接入共享数据资源池,并按照数据来源和信息类型进行分类存储。
业务数据包括基础数据、共性通用数据及业务专用数据。基础数据是各类数据的度量衡、基准标尺和基础共识数据等。基准数据的变化频率较低,数据价值较高,为数据分析应用提供数据语义理解的基准,是数据共享和统一理解的根基。主要是包括字典、元数据、规范标准等基准数据。共性通用数据是根据原始数据加工处理形成的各领域均会使用的共性通用数据,按照认知概念进行分类,主要包括军事、政治、外交、经济、社会等数据。业务领域专用数据是对各领域、各部门提供数据的分类抽取融合。可分为多个维度的业务子类。业务数据对应于数据仓库层,数据量大,通常用于离线分析和数据加工,也可对外提供服务。
对象数据是在业务数据的基础上,通过建立实体对象的全域唯一标识,经数据建模、标准化、实体抽取、属性抽取、关联挖掘等处理形成的主数据,具有跨领域、跨部门、跨系统的显著特征,主要包括人员、机构、装备、物资、设施、环境等数据。是形成本行业统一数据空间的通用基础数据。
图5 模型资源体系参考模型
主题数据是在业务数据、对象数据、共性基础数据之上,按照应用业务需求,为提高数据访问效率组织形成的有关数据,可按照任务、区域、方向等设置不同主题。主题数据对应于数据集市层,主要供授权用户或应用在线访问使用。
模型是科学研究和应用实践中对某一类研究方法的统称,以数学公式、电脑模拟或简单的图示来标识一个简化的物理世界。包括说明、验证假说、分析材料,通常使用数学工具得到结构,以帮助深刻地认识所研究的实体和活动。
模型资产体系包括数据模型和算法模型,统一按照数据资产管理的模式进行管理。
模型资产体系可从数据资产资源池中演生再造,通过抽取、沉淀、提炼,按照概念、业务规则、活动模型等划分的可计算的知识数据集合,围绕数字空间构建,首先,对应物理空间实体、环境等对象进行数字建模,形成对物理空间的初步认识和在孪生空间中的静态属性构建;其次,针对物理环境中动态情况的三维刻画,涉及各学科各层级的模型建设;最后,为完成领域活动控制和业务管理等活动的动态构建,涉及领域相关学科的动态多维模型建设。
按照模型服务最终对象的支撑关系,模型资产按照物理实体的数据映射模型-共性通用的数据处理模型-专业领域的数据应用模型的三级模型体系,如图5所示,实现数据资源体系的增值运用,支撑数据孪生应用的灵活调度与动态组合。数据映射模型大多是数据模型,数据处理模型、数据应用模型主要是算法模型。
数据映射模型:将人员、装备、平台、设施、组织等实体进行综合归类与数据建模,形成数据模型的主体。包括实体以及环境的数据模型、仿真模型等。
数据处理模型:针对特定数据类型和特定学科的共性通用数据处理模型,是基础算法模型在不同数据类型上经改造、训练、组合后得到的逻辑上统一的算法模型库,经过一定的产品化规范改造后,能够直接为各类用户和应用提供服务,主要包括数学基础、决策优化、策略控制、AI算法等共性模型。
数据应用模型:围绕业务领域具体问题构建的模型,是大数据与业务结合的关键,对于领域数据资源体系来说,专业模型主要可以分业务模型的子类。
建立涉及规划、设计、制造、生产、服务、评估、升级等模型全生命周期的一整套模型资源管控流程,支撑用户根据业务需求开发模型,同时建立模型资源注册、管理、发布、订阅机制,实现全域用户的可见、可查询、可调用。
军事领域知识体系可设计为文档资料-基础知识-提炼知识-认知知识四层架构,如图6所示。文档资料是指已记录存档的各类知识集合,包含各类文档知识,如各类数据标准、著作,简报,期刊材料等。基础知识是指对某类事物确信的认识,通过研究、调查、观察和经验而获得的一整套知识和资讯,包括事实、规则、方法等。提炼知识是经过方法论,在事物认识的基础上对某类主题进行充分的结构分析和总结,支撑明晰和细化关键内容,实现对事物的进一步解剖,达到直指事物核心,穷尽事物真理的目的,如通过统计、推理、演绎等,形成对某类主题的进一步认识。认知知识是提炼知识的高阶阶段,是对事物规则、机理等充分把握的基础上,依托群体智能或个体灵光闪现,形成对事物的预测和评估,达到对事物充分识别的程度,包括个体认知、群体共识等。
图6 知识体系结构
以提升领域数据资产数据质量和服务效能为目标,设计细化数据流动秩序化流程,优化相关方的费效比;以一体化数据平台落地治理理念,承载数据顶层架构设计和能力生成模型。
面向领域核心业务普遍开展了重点数据的治理工程,一方面,持续提升数据质量,减少纠错成本,通过数据质量度量与持续改进,确保数据真实反映业务,降低运营风险;另一方面,贯通数据流程,提升业务运作效率,通过业务数字化、标准化,实现业务上下游信息快速传递、共享。
为实现全行业的汇聚全域数据,并对数据进行联接,通过数据服务、数据地图、数据安全防护与隐私保护,实现了数据随需共享、敏捷自助、安全透明的目标,支撑着军事数字化转型,挖掘数据价值。体系化的数据治理应重点规划以下七个方面。
1)数据权责。按照“业务谁主管、数据谁负责”的基本原则,根据定岗定编方案,梳理明确数据权属,确定数据责任,组织制定数据共享责任清单。按照“一数一源、一数一权”的基本原则,逐一认证各项数据的数据源,并针对核心数据打造权威数据源。
2)数据质量。按照“数据谁生产、质量谁负责”的基本原则,建立数据质量稽查审核规则和持续改进过程,督促从源头提高数据质量问题,持续提高数据质量。
3)资产管理。按照“物理分布、逻辑一体”的基本思路,实现数据资产的统一管理,建立数据资产地图,厘清数据血缘,规范数据空间秩序。
4)共享交换。强化数据入池标准管控,规范数据申请、审批、授权、使用等流程,实现“依责提供、按权共享,有序流转、可信追溯”。
5)价值评估。从数据资产需求符合性、响应及时性、资产访问热度、用户评价等方面,建立多维评价机制,引导激励各领域持续提高数据共享绩效。
6)数据架构。规范顶层数据架构,建立数据建模设计开发规范,厘清数据加工处理规则,指导建设标准统一的数据底座。
7)数据安全。围绕数据采集、传输、存储、共享、流转、使用等全生命周期,规范数据安全工作内容与工作流程。
梳理行业核心数据业务流,构建“数据源认证管理→数据采集入池→数据资源池构建→数据服务→数据资产统一管理→数据共享交换→数据运控评估→数据安全治理”的典型治理流程,如图7所示。
图7 数据治理流程
数据治理落地需要技术平台支撑,结合军事数字化发展战略、数据顶层架构规划结构、数据治理体系能力生成、体系化系统研发模式等因素综合规划,规划建设行业级的一体化数据平台,涵盖基础层、体系构建支撑层、共性应用支撑以及数据安全防护等四方面的能力,如图8所示。
图8 一体化数据平台
一体化数据平台提供自动化、智能化工具系列,通过数据治理应用一体化、敏捷系统构建验证、自助式数据服务,满足能力规划者、资源管理者、数据开发者、数据消费者多样化需求,提升协作效率,持续改进数据质量,降低数据管理成本,加速数据价值释放。
基础层在行业云平台[10]的集成上,集成跨安全域数据采集接入、安全交换、离线高性能计算、分布图计算、数仓,以及数据标准、质量评估和数据服务封装的工具集,配以强化内生安全模块,打造云原生的安全数据支撑环境。
体系支撑层基于基础层,构造数据集成、数据融合 、数据分析和数据可视化一体化研发平台,实现数据采集生产、管理与价值提升和运营决策全生命周期全流程的数字化在线。具备统一数据访问、可扩展数据类型支撑、体系化数据资源和数据管理、军用数据关联分析、交互式联机分析,以及数据驾驶舱等核心能力。
共性应用层以行业共性数据赋能应用为牵引,凝练优化典型的数据应用产品,并以多样化的数据服务模式提供系统研发团队。提供目标编目、行为预测、信息推荐服务、联合搜索等数据服务产品。
数据安全防护基于行业统一的信任服务,提供统一身份认证和授权、安全策略管理和访问控制;并提供基于数据安全标签、安全策略、审计与评估的精确化数据分级分类保护能力。
研究机构Forrester Research调查发现,70%以上的全球数据和分析决策者都在不断扩大自身利用外部数据的能力。随着数据资源体系共建共享趋势的推进,组织间数据协作活动凸显,以共同应对数据治理的挑战。
针对数据资源规划及数据治理体系实施过程的基础问题,本文从架构规划、组织机构、治理流程、一体化管控平台等诸多方面锚定了网络信息体系能力聚合方向。但数据治理是长期、复杂的体系性能力建设,并且需要从战略、制度到工具的支撑,必须循序渐进,持续迭代优化。随着体系趋稳后续还应将进一步针对全生命周期的数据质量评估、数据内容治理以及细粒度数据安全管理等难点问题进行深入的试验验证。