于越、孙会鹏、贾玻、房桂祥 /中国运载火箭技术研究院
航天系统工程的复杂性、高可靠性要求决定了航天事业的高风险属性。技术风险的识别与控制贯穿整个装备研制过程,是航天装备研制过程质量管控的核心。近年来,航天任务的快速增长以及新技术的不断应用对技术风险识别工作提出了更高要求,技术风险的识别与分析既要覆盖产品全任务剖面、全寿命周期的各个环节,又要突出重点风险,集中力量做深做透。目前,航天技术风险识别工作主要依靠队伍内部技术人员进行分析汇总,不仅需要投入大量的时间与人力,还受限于研制队伍的技术能力,容易出现对重大风险认识不足,进而导致重大质量问题甚至飞行试验失败。因此,需要一种更为客观、定量、高效的风险识别方法,作为传统风险识别方法的补充。
按照航天装备研制流程,需组织外部专家在研制的各项关键环节进行评审把关。邀请的专家具备本专业较高的技术水平,且了解本装备背景及特点,其意见更为客观、全面,是传统技术风险识别的重要补充。然而,专家意见数量庞大、涉及专业复杂,难以通过遍览全部数据识别出有效的信息或规律。文本挖掘技术能够从海量的文本数据中提取出可信度高、具有潜在利用价值的信息或趋势,在图书、科技、情报等领域已有广泛应用。本文利用一款非结构化文本分析开源软件KH Coder,运用词频统计、对应分析、共现分析等方法,对装备研制评审过程中的专家意见进行多角度解析,从而有效挖掘专家意见的主题内容,定量识别重点技术环节与产品,并归纳出重大风险项目,为装备研制技术风险管控提供支撑。
运用文本量化分析方法提出基于专家意见文本挖掘的技术风险分析框架,如图1所示。第一阶段为专家意见数据收集。利用评审会场语音转录文本或者人工整理的专家意见纪要,获取专家意见文本数据。第二阶段为数据预处理。对获取的文本进行数据清理,去除文本中的特殊符号、数值及单位等形成评审意见语料库。结合航天装备领域词汇形成领域词典并依据词典进行分词。过程中去除无关、无意义的停用词,即得到经过预处理的文本。第三阶段为数据分类。对数据按照特定属性划分并标记。为便于后续分析,对评审意见按照评审项目进行分类。第四阶段为数据分析。采用KH Coder 软件对文本进行词频统计、对应分析以及共现分析,以得到相应的分析结论。
以某航天装备演示验证研制为例,统计该装备研制过程中各项评审会议记录的专家意见,共收集到各类评审会议23项,专家意见总计487条。根据图1中的技术风险分析框架,对采集到的专家意见进行数据预处理。首先去除所有文本中的数字、单位、特殊符号;其次利用KH Coder 软件对文本进行预分词,对于未识别的专业性词汇建立领域词典,导入软件进行强制识别;对于词频较高且无分析意义的词汇建立停用词清单,避免进行统计;对于具有相同含义的词汇统一用词,建立编码规则文件,避免统计词频不准确。按照评审项目对专家意见进行属性划分。
图1 基于专家意见文本挖掘的技术风险分析框架
在数据预处理的基础上,对全部文本数据使用词频工具进行统计。将文本高频词进行分类分析,得到评审意见中反复被提及的高频技术及产品词汇(见表1)。关键产品中飞行器、惯组、发动机、载荷、遥测、伺服为影响装备基本功能性能的传统关键产品;适配器、电缆、导航系统、空气舵是在本装备中新采用的或有新功能的产品。关键技术高频词可概括为发射过程安全性(发射、平台、出筒)、环境适应性(环境、振动、模态),控制稳定性(攻角、时序、测力、轨迹)三大类别。对比由技术人员分析提炼出的关键技术项目,由专家意见词频统计得到的关键技术与产品能够体现其中的主要内容,具有代表性。
表1 专家意见词频统计
对应分析可以反映关键词与不同属性项目的关系。在数据分类的基础上,统计上述20项高频关键词在各评审项目中的分布,如图2所示。方块大小为该关键词在对应评审项目专家意见文本中的词频百分比,方块颜色表示该词频与其他评审项目词频相比的差异程度。该图可清晰展现不同评审项目与关键词的对应关系。以发动机为例,该词在发动机设计要求评审专家意见中出现频率最高,同时也出现在与发动机相关的某试验大纲评审以及存在接口关系的吊具、适配器设计要求评审中。评审项目之间对比可知,总体方案评审涵盖要素全面,共涉及16个关键词,而试验大纲类评审只涉及参试产品和试验条件。因此,通过词频分布统计能够客观反映评审项目的主题内容。
图2 高频关键词在各评审项目中的分布
采用对应分析进一步解析评审项目的关联关系。选取评审意见文本中词频为7次及以上的共107个词汇与评审项目进行对应分析。图3展示了23项评审项目与特征显著的80个关键词在二维坐标图中的分布情况。关键词围绕坐标原点分布,与坐标原点的距离代表了该词频率分布的集中程度,与坐标轴的夹角体现了词汇之间的关联程度。靠近中心的词汇往往在多条专家意见中出现;而远离中心的词汇,通常是只集中在特定的专家意见中。与坐标轴夹角相近的词汇往往出现在同一条意见中共同,具有强相关性;夹角越大,词汇在同一条意见中共同出现的频率越低。评审项目可以视为所涉及关键词的集合,分布在所涉及关键词的中心。关键词组成相似的评审项目坐标位置相邻。相邻的关键词与评审项目可大致分为4个区域,每个区域都有独特的内容与含义。1区涵盖3项风洞试验评审以及相关的产品和技术词汇,与其他区域相比较为独立。2区以电气专业产品及试验为主,包含惯组、伺服等相关试验。3区以结构和地面专业设计要求为主。级间分离设计与试验涉及到结构与电气专业,因此位于2区与3区之间。4区以飞行器、发动机等系统的设计要求与试验项目组成。对应分析通过词汇结构揭示了评审项目之间的关联关系,揭示了产品与技术之间的脉络,作为技术索引,便于快速了解技术状态,也为产品的影响域分析提供参考。
图3 关键词与评审项目的对应分析
词语共现分析能够展示出经常共同出现的词汇集群,从而分析出文本的主旨。选取词频最小为5的150个词汇进行共现网络分析,绘制出共现网络图,如图4所示。图中气泡大小表示词频,之间的连线代表词汇的共现关系,即2个相邻词汇在同一句话中共同出现的频率。对具有共现关系的词汇进行原文检索,可浏览2个词汇共同出现的语境,并从中分析出该共现关系所代表的主要内涵。词汇之间主要形成了6组共现网络,主要内涵概括如下:A组,建议进行分离姿态计算、飞行器姿态仿真、模态试验与仿真、级间段分离压力仿真,细化级间段起吊接口设计、发射间隙与安全性分析、轨迹设计;B组,注意惯组传递对准试验,注意惯组安装力矩系数调整;C组,关注级间分离起控、起控时序设计、气动约束、气动干扰、俯仰舵偏,关注发动机涂层;D组,关注装填过程箭体滚转现象,注意分离判据设计;E组,关注导航作用距离,载荷与射程关系,喷管与空气舵的复合控制,出筒速度测量和堵片打开时间测量;F组,补充极性设计、热环境分析和软件研制内容,关注尾段电缆热防护,振动、冲击、噪声、发射平台等环境适应性。与设计人员分析汇总的技术风险识别结果相比,专家意见主要内容不仅能够有效覆盖相关风险项目,还能够作为索引启发获得更为全面的技术风险识别。“分离”一词在A组、C组、D组共现网络中多次出现,说明分离过程涉及多项风险,应作为重大风险进行管控。此外,在C组、E组出现的时序设计、时间测量相关内容,以及在F组出现的极性设计、软件研制等内容,在传统技术风险识别中未覆盖,可作为风险项目补充开展工作。
图4 专家意见关键词共现关系网络图
将上述技术风险项目、关键技术及关键产品分析结果应用于该装备研制质量管理过程,跨组织、跨专业梳理各项技术方案的设计与验证情况,形成专题并邀请相关专业专家以评审的形式进行审查把关。产品方面,选取基于词频统计获得的高词频关键产品,对其功能性能实现情况、试验验证情况开展专题分析,形成飞行器设计与试验结果分析、惯组动态特性设计及验证、发动机性能专项审查共3项专题。针对关键技术,形成发射技术专项审查、环境适应性分析、稳定控制专项审查3项专题。对于时序、极性、软件等新增风险项目,开展流程及时序设计、全系统极性、软件专项审查3项专题。针对“分离”重大技术风险,专题开展了分离判据分析、分离动态过程数值仿真计算、追击风险分析等论证工作,提出了优化级间段分离压力、调整分离判据等改进措施。以上专项审查以及补充论证工作全面检视了装备研制技术风险的释放情况,取得了良好的效果,有效保障了飞行试验的圆满成功。
专家意见文本挖掘是一种客观、定量、高效的风险识别方法。专家评审意见能够更为客观地反映装备研制关键技术与风险项目。对专家评审意见进行词频统计、对应分析及共现分析,能够定量获得装备的关键技术与关键产品,揭示装备研制的技术脉络,归纳出未识别的风险项目以及重大风险项目。该方法能够为传统风险识别方法提供补充,可作为装备研制精细化质量管控的有效手段。
不仅如此,专家意见文本挖掘还能够快速概括评审意见内容,适用于对评审质量的精细化管控。例如,横向比较不同装备在相似评审环节的评审意见的全面性、比较不同参评专家的评审意见数量和质量,从而判断评审的有效性,进而通过设置评审专题、优化评审专家组成员等方式提高评审质量。