/中国航天科技集团有限公司
田雪颖、王志梅 /中国航天标准化研究所
航天装备试验鉴定工作从2017年3月开始全面展开,将全生命周期航天装备试验统一规范为性能试验、作战试验和在役考核3个阶段。试验鉴定工作的开展,将产生大量的试验数据、试验文件等信息,如何全面掌握这些试验信息,并充分利用这些信息挖掘隐藏在数据间的巨大价值以及分析预测装备性能指标是亟待解决的问题。大数据技术作为新一代信息技术的代表,具有复杂的数据处理和数据分析能力,是实现数据融合管理、数据分析、知识决策支持和成果共享的有效途径。因此,笔者将介绍基于大数据技术进行航天装备试验鉴定数据管理及数据分析应用研究的部分内容。
试验鉴定数据包括各级各类产品按照试验鉴定工作要求开展的各种试验相关内容,按照数据的结构化形式可以将试验鉴定数据分为非结构化数据、结构化数据和半结构化数据3类。
非结构化数据指试验鉴定过程中产生的文档资料,主要包括:一案三纲、研制总要求、试验任务书、试验条件与试验要求、质量保证大纲、计划进度、安全技术要求和安全技术措施、试验报告、故障分析报告、试验鉴定总结报告、成熟度评价报告、可靠性评估报告、试验鉴定申请报告、状态鉴定结论、试验鉴定批复等。
结构化数据指以二维表结构形式按照规定数据格式和长度规范要求保存的数据,主要包括:被试产品的描述、试验项目、试验时间、试验单位、试验条件和要求、试验设备状况、试验产品测量参数、试验结果、异常情况等。
半结构化数据指原始声像影像资料和人工记录的数据及文字资料,如试验时间、试验工况、试验状态、参试人员、异常现象等。
试验鉴定数据具有一般意义上大数据的相同特点,即数据量足够大(Volume)、数据的种类多样(Variety)、数据的增长及处理速度快(Velocity)、数据蕴藏价值大(Value)等。
Volume:试验鉴定数据范围广,包括各级各类航天装备在性能试验、作战试验和在役考核3个阶段各项试验数据,数据采集、存储和计算量巨大,已经从TB(太字节)级别跃升至PB(拍字节)级别,传统技术很难满足其存储和处理要求。
Variety:试验鉴定数据的种类纷繁,包括文本、文档、表格、数据、图像、音视频等结构化、半结构化与非结构化数据,并且试验鉴定数据来源较多,性能试验阶段的数据主要来源于工业部门,作战试验和在役考核数据主要来源于作战部队、试验基地、测控站等。
Velocity:试验鉴定数据每分每秒都在爆炸性的增长,如某型号一次综合试验就要产生2GB的数据,一次热待机试验产生20GB数据,传统技术处理这些数据的时间较长,严重影响数据判读的实时性。
Value:试验鉴定数据存在着巨大的待挖掘价值,利用试验鉴定数据可以摸清装备性能底数、分析装备的作战效能、确定保障效能、计算任务满足度、评估装备质量稳定性,从而可改进提升装备性能、反推装备研制需求,但由于庞大的数据量基数及数据量的不断增加,数据的单位价值密度相对较低。
试验鉴定数据存在着巨大的待挖掘价值,利用试验鉴定数据可以摸清装备性能底数、分析装备的作战效能、确定保障效能、计算任务满足度、评估装备质量稳定性,从而可改进提升装备性能、反推装备研制需求,但由于庞大的数据量基数及数据量的不断增加,数据的单位价值密度相对较低。
当前,航天产业的发展正经历着数据大爆炸时代,数据不仅是海量的,更是复杂的。在此背景下,航天装备试验鉴定数据管理存在以下几个问题:
一是试验鉴定数据管理要求尚不明确。按照试验鉴定管理工作新要求,目前一些航天装备已有的原始观测数据、业务处理数据、试验评估数据等大多应该属于性能试验阶段的数据,而在役考核和作战试验属于新界定的工作要求,具体试验项目尚待进一步明确,在役考核环节虽已采集相关试验数据,但该方面的数据尚未能系统管理。
二是试验鉴定数据分散在各单位,缺乏统一管理平台。航天装备试验鉴定数据分散在各单位、各部门,未进行集中管理,型号抓总单位对型号试验鉴定数据的全局情况掌握不全面,在对已有的试验数据进行查询时,需要通过多种渠道才可以收集完备,信息综合查询工作效率较低,难以实现试验鉴定数据的全面对比。
三是试验鉴定数据缺少规范化管理,不利于数据的共享传递。各部门间数据采集、数据分析等工作缺少统一的标准、规范,数据项内容和格式不一致,试验数据在各部门间传递时不能直接使用,数据传递难以形成便捷畅通的渠道,数据共享困难造成各单位各部门信息不透明、不对等的情况严重,型号抓总单位难以进行信息汇总,给数据的宏观分析和深度挖掘工作带来了不便。
四是试验鉴定数据缺乏综合处理分析工具,自动化程度和信息利用效率低。当前,各单位设计开发的数据库、信息系统一般仅是基于数据管理的需求,而非数据分析的需求,所以在此基础上缺乏综合统计分析和数据挖掘的工具、手段,信息分析工作往往需要采用人工统计的方式进行,自动化程度低,对型号性能试验数据、作战试验数据和在役考核数据等分析不足,不利于型号和主管部门的决策管理。
航天装备试验鉴定应建设大数据管理与分析平台,将各单位的试验鉴定数据进行集中、规范与融合,在此基础上设计开发大数据统计分析和数据挖掘工具,消除数据割裂的局面,充分发挥大数据分析挖掘数据的优势,实现基于全方位、全阶段、海量数据的挖掘分析,最大化提高信息处理和分析效率。
基于当前主流的大数据平台体系架构,结合试验鉴定数据的特点,从数据的采集与预处理、数据存储、数据分析、数据可视化展示4个方面设计开发大数据管理与分析平台,如图 1所示。
一是数据采集与预处理。
数据采集与预处理是大数据价值挖掘中的重要一环,其后的分析挖掘都建立在数据采集与预处理的基础上。试验鉴定数据来源渠道广、数据类型多,数据量大导致存在大量无用、不规范的杂质数据,需要对这部分数据进行预处理,其采集与预处理过程如图2所示。根据数据存在形式不同,采用不同的方式进行数据采集与预处理,一部分是已经按照标准规范要求填报、无需清洗的数据,这部分数据如果没有存在于任何信息系统或数据库中,则需要建立新的数据库,通过传统的方式进行数据的增、删、改、查及入库,或可以从已有的数据库中批量导入入库;另一部分是存在于分布的、异构数据源中的不同种类和结构的数据,这部分数据根据离线和实时处理的需要,分别将数据送至批处理平台Hadoop和流处理平台Storm,通过ETL工具进行数据抽取和集成,从中提取关联规则和实体,并对数据进行预处理,包括数据的解析、去重、筛选、清洗、合并、分类、转换、增强等,以保证数据的质量及可信性,提高数据分析的准确性。这2个部分数据入库后需要进行关联适配、分类聚类融合,并采用统一定义的结构进行数据存储。
二是数据存储。
大数据管理与分析平台的另一个重要环节是数据存储,存储系统的优劣直接决定了大数据平台的分析效率和可扩展性。传统的直接采用关系型的分布式数据库已不能适应大数据时代数据存储的需要,从软件和硬件2个方面考虑试验鉴定数据存储,其过程如图3所示。硬件上,需要考虑大数据量的存储空间,为了保证大数据平台的可扩展性,考虑NAS+SAN的集群方式。软件上,根据实时数据和离线数据的不同对存储方式区别对待。实时数据需要流处理平台实时处理,数据环境不断变化,很难掌握整个数据的全貌,且对数据处理速度和响应时间要求极高,因此实时数据直接存入内存数据库中。标准数据和离线数据需要针对不同类型的数据格式选择相应的数据库存储,针对结构化的、有逻辑关系的试验数据采用关系型数据库ORACLE储存;针对试验文件采用分布式文件存储数据库MongoDB存储;针对图形数据采用分布式图数据库Neo4j存储;对于其他半结构化和非结构化数据,采用HBase数据库存储。在数据库的基础上,将各类数据通过ETL工具进行加工与集成后,按照主题进行数据存储,形成性能和状态评估、寿命预测、效能分析等相关主题数据仓库,为前端数据查询、在线联机分析(OLAP)和深度挖掘等数据分析提供条件。在数据仓库的基础上,还可以根据试验鉴定不同部门的特殊需求,按照多维方式从数据仓库某个特定主题中抽取试验数据形成数据集市进行存储,采用数据集市方式可以在一定程度上缓解访问数据仓库的瓶颈。
图2 数据采集与预处理过程
图3 数据存储过程
三是数据分析。
数据分析是大数据管理与分析平台建设的核心,因为大数据的价值产生于分析过程。从异构数据源抽取和集成的数据构成了数据分析的原始数据,建立的大数据平台数据分析技术包括数理统计分析、利用分析工具分析、OLAP在线联机分析和数据挖掘4个部分,如图4所示。
数理统计分析。数理统计分析即传统的数据综合统计分析功能,根据大数据平台收集的试验鉴定性能试验、作战试验和在役考核3个阶段的数据,通过柱状图、饼图、折线图等形式进行航天装备相关数据的综合统计。例如,产品可靠性达标率统计、卫星生命期内失效统计、卫星/运载火箭发生故障次数统计等,可以为用户对3个阶段的试验情况提供一个初步的综合了解。
分析工具。大数据管理与分析平台的建设将集成多种数据分析工具软件,包括产品可靠性与寿命评估软件、信号连续性与可用性评估软件、成熟度评价软件、成功数据包络分析软件、质量问题分析软件等。产品可靠性与寿命评估软件可以评估计算单机产品的可靠性与寿命,在此基础上预测系统可靠性与寿命;信号连续性与可用性评估软件可以利用单星在轨中断数据及星座构型计算空间信号连续性与可用性;成熟度评价软件可以依据航天产品成熟度评价模型,定量计算航天产品的成熟度等级值;成功数据包络分析软件可以判定待分析产品数据是否落在包络范围内,评估产品是否达到设计要求;质量问题分析软件可以对试验鉴定3个阶段发生的质量问题进行分析,不断积累各级各类产品的故障模式库。
图4 数据分析过程
OLAP在线联机分析。OLAP以数据仓库为基础,从数据仓库中抽取数据的一个子集,并经过必要的聚集存储到OLAP存储器中供前端分析工具读取,基本多维分析操作有钻取、切片、切块和旋转等。OLAP在线联机分析可以从不同维度呈现航天装备的质量和性能指标满足度,分析鉴定试验指标结果与大纲要求之间的差距,实时跟踪掌握装备使用、保障、维修的情况,以及验证装备作战与保障效能等。例如,可以利用切片分析对同一装备同一指标在性能试验、作战试验、在役考核3个阶段的试验值进行对比分析,利用切块分析多型号、多类别产品质量问题产生的原因等。
数据挖掘。数据挖掘通过关联分析、聚类分析从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中高度自动化地提取隐含在其中却非常有价值的信息、模式(规则)和趋势,挖掘数据之间的潜在关联关系。利用试验鉴定过程中海量基础数据,可以从不同维度挖掘大纲要求的设计值与实际试验值之间的差距和问题、各项指标参数变化与质量态势之间的潜在关联关系、产品寿命与性能退化之间的关系等,实现装备整体作战效能、保障效能的影响指数预测、任务满足度预测、质量稳定性趋势预测等。
四是数据可视化展示。
虽然数据分析是大数据管理与平台建设的核心部分,但是用户往往更关注的是结果展示。如果分析结果正确,但是没有采用适当的解释方法,则所产生的结果很可能让用户难以理解。基于试验鉴定大数据的海量特点,数据分析的结果也是海量的,传统的以文本形式输出结果或直接在电脑终端上显示结果的方式基本不可行,需要采用可视化技术解释试验鉴定数据分析结果。大数据可视化技术主要利用大数据驱动可视化技术、多目标决策优化技术,将星地一体化大系统、地面站、一至四级航天装备产品的试验鉴定状况进行集中形象化展示,分为结构可视化、功能可视化、关联关系可视化和发展趋势可视化。例如,可以对航天装备产品的结构图实现3D多维效果可视化展示;对运载火箭发动机进行3D建模,清晰展示发动机运转状态,实现试验数据所对应功能的可视化;将数据挖掘得到的数据间关联关系通过网络图等形式可视化展示。通过将数据可视化展示,可以深入展现数据中潜在的或复杂的模式和关系,帮助上级机关和型号管理部门更好地理解数据的内涵和关联关系,实现数据价值利用的最大化,同时可以为上级机关和型号管理部门等提供决策支持服务。
试验数据是结构化数据、半结构数据、非结构化数据的融合,数据类型的多样性促使了数据存储方式的变化,采用新的存储方式要求数据在集成过程中进行数据转换,而这种转换操作是非常复杂和难以管理的。
试验鉴定数据具有多源异构、分布广泛、动态增长等特点,正是这些与传统数据管理迥然不同的特点,使得大数据管理与分析平台的建设面临着如下挑战:
试验数据是结构化数据、半结构数据、非结构化数据的融合,数据类型的多样性促使了数据存储方式的变化,采用新的存储方式要求数据在集成过程中进行数据转换,而这种转换操作是非常复杂和难以管理的。此外,试验数据量大导致数据价值密度低,垃圾、错误信息泛滥,数据集成过程中需要进行数据清洗以避免无用数据干扰后续数据分析过程。数据清洗过程必须谨慎,因为细微有用的信息混杂在庞大的数据量中,若信息清洗的粒度过细,很容易将有用信息过滤掉,但清洗粒度过粗,又无法达到真正的清洗效果。
目前,实时数据处理的模式主要有流处理模式、批处理模式以及两者的融合,大数据管理与分析平台采用Storm流处理平台进行实时数据处理。虽然流处理模式天然适合实时处理系统,但是仍未有一个通用的大数据实时处理框架,各种工具实现实时处理的方法不一致,支持的应用类型也相对有限,在对试验数据进行实时处理分析时往往需要根据试验鉴定业务的需求,并结合实际应用场景对现有的处理技术和工具进行改造才能满足需要。
试验数据涉及型号组成、尺寸、重量、功能、性能等具体指标信息,关系到国家军事安全战略层面,数据安全隐私保护极为重要。然而,试验鉴定数据增长速度快,数据处于不断动态更新的状态,而一般的数据隐私保护技术都是基于对静态数据保护,这就给隐私保护带来了新的挑战。在复杂变化的条件下如何实现试验鉴定数据隐私安全的保护,是大数据管理与分析平台建设的重点研究方向之一。
试验鉴定数据作为一个新兴领域,具有典型的大数据特点,在大数据技术飞速发展的今天,试验鉴定数据管理在面临机遇的同时,也同样需要应对数据集成、数据安全、数据实时分析与处理技术实现等方面的挑战。我们仍需要深入研究航天装备试验鉴定过程及数据特征,借鉴大数据技术手段实现航天装备性能试验、作战试验、在役考核全生命周期海量数据采集、存储、分析、预测和评估,使航天装备试验鉴定工作更加科学、规范、高效,不断提升航天装备的实战适用性和高可靠性。