高 昱
(锦州医科大学公共基础学院,辽宁 锦州 121001)
随着传感技术、机器视觉、计算机图形学等技术的逐步发展,人机交互技术也在不断革新。以语音识别、体感交互、虚拟现实、脑机接口、情感识别等为代表的新型人机交互技术正逐渐从研究走向应用。与此同时,人工智能技术的蓬勃发展使人机融合协同交互成为可能。面向自然化、高效化、智能化的新型人机交互技术已成为人机交互领域的研究热点。
人机交互是指挥控制系统功能实现的重要依托。随着信息化和智能化技术的不断发展,战场的信息来源显著增长,战场态势瞬息万变,作战的反应时间急剧压缩[1]。指挥控制系统单位时间需要承担的人机交互任务也在大幅增加,指控系统人机交互方式能否与操作人员的认知能力相适应,将直接影响指挥作战过程的高效性和可靠性。
完整的人机交互流程包含信息的输入、处理和输出3 个环节。当前指控系统的人机交互模式还依赖于以“指点”和“按键”为主的串行、精确式、单通道的操控方式,这种交互方式不仅不够自然,而且交互通道利用不平衡,易导致生理疲劳和精神压力,影响指挥控制的效率和可靠性[2]。此外,海量的战场态势信息无法进行高效的输出表达,信息之间的关联规则没有被深度挖掘,信息的显示手段不够智能化,系统无法根据操作人员的实时需求自适应地呈现辅助决策信息。指控系统中操作人员对于态势信息的分析、筛选、计算和判断造成的认知负担较重,制约其主观能动性的发挥,导致指挥决策效率较低。因此,如何利用上述新型人机交互技术,通过扩展信息的显示维度增强信息感知的高效性,通过多种交互通道的优势互补提高交互方式的自然性,通过人工智能辅助决策促进人机交互的智能性,并基于多源信号实时监测操作人员的生理和心理负荷,从而确保指挥控制过程的可靠性,已成为未来指挥控制系统人机交互研究的重要方向[3]。
基于沉浸式人机交互技术,美国海军全息虚拟指挥中心正在开发一种利用混合现实技术的全息虚拟指挥控制系统[4]。通过该系统,指挥人员可以最大限度地利用战场态势信息,与周围的作战单元进行快速信息共享,并通过触觉和视觉传感器完成对舰艇的控制,甚至可进行类似全息化的指挥操作,该系统预计将在2025 年投入作战使用。美国海军实验室资助开发的三维战场可视化指控系统(Dragon 系统)已在演习与实战中得到检验与应用,该系统可以在72 h 内,提供90 km×90 km 范围的数字地形数据和5 级(1 m)特征数据和图像特征,能够快速将复杂战场态势可视化,使指挥人员能灵活使用二维或者动态三维显示系统,更迅速有效地进行战场决策,保持态势的认知优势[5]。英国宇航公司在2017 年英国国际防务装备展上展出其研制的AR 系统,该系统结合了最新的显示技术,追踪技术和传感技术,可以通过自由空间追踪技术向用户显示指引、目标信息、任务信息和传感信息等。
目前,语音、手势、眼动等新型人机交互技术已逐渐应用于各类指控平台,并表现出高效性和自然性等优势。美军未来指挥所(CPoF)发布的技术研究报告提出:“人-系统交互技术”是其研究的重点领域,其中涵盖态势可视化、多通道人机交互、上下文感知和意图推理等技术,并指出语音和手势将成为指挥人员与CPoF 可视化环境进行交互的主要方式[6]。欧洲很多军事研究机构的研究内容包含点击和按键之外的语音、手势、视线等输入通道,使用户能利用多个通道,以自然、并行、协作的方式进行高效交互。美军F-35 战机在最新的设计中取消了座舱的平视显示器,采用头盔显示器基于眼动追踪自适应地为飞行员显示目标信息、关键飞行数据等信息,并且可以通过视线进行眼控交互操作[7]。卡内基梅隆大学在DARPA 的资助下,对语音识别、手写识别、手势识别等多通道人机交互技术和自然用户界面进行了深入研究,开发了基于Java 的多通道交互工具箱(MMI)[8]。国防科技大学提出了一种面向军交图像类情报研讨的多通道交互系统——MTIDS,将多通道交互技术运用于指挥空间中,降低指挥人员的认知负担,提高战斗中指挥人员作出决策的效率[9]。东南大学陈慧娟基于视觉、听觉、触觉对多通道人机交互的组合模式、应用环境、局限性进行了归纳,根据飞机驾驶任务特点建立了驾驶舱多通道人机交互设计改良原则[10]。
在智能化人机交互方面,美国国防部高级研究计划局(DARPA)先后开展了多个军事人工智能项目。例如,2007 年启动了“深绿”未来作战指挥系统项目[11],目的是通过在系统中添加平行仿真提高指挥人员的决策效率。主要功能是在指挥决策过程中,基于实时战场态势数据,通过系统多次仿真模拟,推演出不同决策方案可能产生的结果,并能够基于战场态势数据预测敌方可能的作战意图,辅助指挥人员作出正确决策,并生成行动方案,缩短制定和调整作战计划的时间。虽然由于技术的局限性,“深绿”并未取得预期成效,但其指控系统的智能化发展提供了解决思路。2010 年启动了“心灵之眼”(Mind’s Eye)项目,基于机器视觉智能技术,能够对观察区域内活动的信息进行感知和认知,并理解视觉场景中的动作和行为,提前对时敏目标和高威胁目标进行分析,生成情境态势的完整描述。2011 年启动了“洞察”(Insight)项目,该项目基于自主学习算法和数据虚拟化技术,旨在将海量无序的情报源信息整合成综合作战态势图,开发人机协作的统一用户界面来支持作战指挥的高效决策。2016年启动了指挥官虚拟参谋(CVS)项目,该项目只要基于认知计算和人工智能等技术,深度挖掘海量数据源及复杂战场态势,提供主动建议、高级分析及自然人机交互功能,为指挥人员生成战术决策过程中从规划、准备、执行到行动回顾全过程的决策支持。2018 年设立的“人工智能科学和开放世界新奇学习”(SAIL-ON)项目[12],旨在推进第三代人工智能技术的开发,解决机器和人类“认知”方式的基本差异,促进人机融合,使指挥系统成为“解决问题的合作伙伴”,在网络安全、数据及图像分析、无人机群操作中起到增强人类能力的作用。
目前国内的指挥控制系统主要是面向信息化作战需求,系统之间通过“以网络为中心”的扁平化组网模式,实现了多源情报的聚合入网,确保了作战单元之间的互联互通,解决了“信息孤岛”弊端,达到了战场信息共享的目标[13]。同时,随着信息技术的更新发展,针对陆、海、空、天、电、网等多维空间的各类战场监视手段、无线传感网络、物联网设备、高速计算机都将产生海量信息。网络连通性和信息获取能力的提升,造成了指挥控制系统战场态势数据的爆发式增长,这在一定程度上提升了系统的信息优势,但是,当前指控系统的信息优势并没有完全转化为决策和行动优势,海量的信息甚至会增加操作人员的认知和决策负担。面向指控系统未来作战需求,本文认为当前的指控系统人机交互局限性主要表现在以下4 方面。
1.2.1 信息感知维度仍需扩展
当前指挥控制系统主要采用传统的二维显示模式,许多态势信息被降维,显示信息不完整、不直观、易重叠,并且存在不能叠加显示干扰态势等缺陷。而作战决策过程中的态势信息需要指挥人员的深度挖掘,显然这种显示方式限制了指挥人员的决策潜能。因此,未来的指挥控制系统中可以考虑采用虚拟现实(VR)、增强现实(AR)、混合现实(MR)等沉浸式显示方式,扩展态势信息显示的维度,有利于指挥人员主观能动性的发挥。
1.2.2 交互通道利用有待平衡
当前指挥控制系统的人机交互是与图形用户界面(GUI)相适应的串行、精确式、单通道的操控方式,整个交互流程“认知-反应”时间较长。并且交互输出信息几乎完全由视觉通道感知,交互输入均由双手操作,感官通道利用极不平衡,不能充分利用用户的认知资源,易造成操作流程的紊乱,导致生理上的疲劳及精神压力,从而严重影响指挥决策效率。语音识别、视线追踪、手势识别等技术的成熟催生了自然人机交互界面(NUI),将这些并行、非精确、多通道的交互方式应用于未来的指挥控制系统,能够有效提高作战指挥的效率。
1.2.3 人机协同互补不够智能
当前指挥控制系统主要负责将战争信息转化为一定格式的数据呈现给指挥人员,指挥人员则根据自身知识经验进行决策,二者是相对独立的。系统信息的显示模式不够高效,信息之间的内在联系缺乏深度挖掘,系统无法根据指挥人员的实时需求智能分发所需信息,系统几乎没有对于指挥人员的辅助决策,指挥人员在读取、筛选、分析和计算繁杂的战场信息时面临的认知负荷比较重。显然,当前指挥控制系统没有充分利用机器智能去协助指挥人员处理和优化战场数据,因此,未来的指挥控制系统应当充分利用AI 技术发挥机器智能的优势,从而有效缓解指挥人员在决策负担。
1.2.4 情感状态监测亟需增添
未来的指挥控制系统将会面临高负荷人机交互任务。操作人员将会在很短的时间内获取、筛选和分析大量的数据,并要求迅速进行判断和决策。以防空反导作战为例,指控系统人机交互要求拦截、引导、跟踪等多个席位的操作人员协同完成对空袭目标速度、高度、航迹等空情信息的分析,并迅速判断作战目标的威胁程度,然后完成参数检查并执行跟踪和攻击等复杂操控指令,其人机交互任务强度大,对时间要求极为苛刻[14]。指控系统高强度的人机交互任务容易产生较高的生理和心理负荷,从而给指控任务带来安全隐患。当前指控系统的状态监测主要是针对系统,对于“人的因素”缺乏考虑。作为人机系统的组成部分,人的情感状态也应当被指控系统所识别理解,在监测到生理或心理处于高负荷状态时及时给予提醒和辅助,从而减少操作人员因情感失控带来的安全隐患。
沉浸式人机交互的典型技术包括虚拟现实(VR)、增强现实(AR)、混合现实(MR)。其中VR 是利用计算机模拟出虚拟的三维空间,用户通过沉浸式头戴设备,获得视觉、听觉、触觉等感知反馈,在虚拟的空间中用户能够获得接近真实的三维体验。指挥控制系统中的空情态势、装备状态等信息通过VR 模式能够获得最为直观和真实的显示效果。
AR 是直接通过计算机将显示信息叠加到现实场景,它是对真实世界更多维度的扩展和增强,能够基于特殊标识或场景理解,并根据用户的实时需求自动将相关信息叠加呈现到用户眼前。当前指挥控制系统中的屏幕式二维显示模式,同时显示多层信息时存在重叠遮挡问题,指挥人员只能根据需求手动切换数据图层获取所需信息。在二维屏显的基础上,利用AR 技术可以将多层数据同时叠加在真实的三维场景中,指挥人员只需切换视角或改变自自身位置即可看到不同图层信息。
AR 是把虚拟的信息叠加到真实场景,MR 则是把真实的场景混合叠加到虚拟世界中。MR 的实现首先需要使用深度摄像机扫描真实场景进行三维重建,然后将生成的三维模型混合叠加到实时呈现的虚拟世界中。MR 不仅具备AR 多层数据实时呈现的优点,而且还能将混合后的虚实场景实时呈现给多用户,实现信息的快速共享。
基于沉浸式人机交互技术,未来指挥控制系统在战场态势呈现方面,可以构建出“全息影像沙盘模型”,装备的实体模型和实时状态通过三维形式直观呈现;空情信息和电磁态势通过虚实叠加,多层数据同步充分展示;作战人员能够最大限度地利用战场态势信息并与其他指挥人员实时共享,从而大大提高作战指挥中的态势感知效率。沉浸式的战场态势信息也可以很方便地在指挥所进行二次加工,然后按需定制分发给远方作战单元,远方作战人员只需通过特制眼镜即可获得可视化的态势信息,为其作战行动提供便捷的信息支援。
多通道交互(Multi-Modal Interaction,MMI)技术遵从“以人为中心”的原则,基于语音识别、视线追踪、肢体语言和脑机接口等新兴交互技术,充分利用人的多种感觉、运动通道,以并行、非精确方式与计算机进行交互[15]。
语音识别目前已较为成熟,利用语音进行指令输入和信息接收(如语音播报文电内容)能够很好地降低指挥作战人员的手眼负担。语音识别技术还涉及“语音纠偏”(方言转换为普通话)和“语音<—>文字”互转换,这能够很好解决语言通信中的方言困惑和噪声干扰等问题。随着AI 技术的发展,语音识别将更为智能,未来的指挥控制系统中甚至可以利用“声纹特征”对指挥作战人员的身份进行安全认证,从而有效防止敌方信息欺诈。
视线追踪是通过传感器捕捉瞳孔、角膜特征信息,进而映射计算出用户的交互意图。视觉通道具有直接、自然和双向的优势,利用视点进行命令传递能够获得最为直接高效的交互效率。作为“心灵的窗口”,视觉信息能够很好地反应人的心理活动,指挥控制系统能够基于视觉特征对指挥作战人员的交互意图和认知状态进行精确推理,从而自适应地提供所需信息和其他交互帮助,减少其手动搜索和切换的操作负担。
肢体语言是人类最自然的行为,利用人的肢体动作进行交互,同样体现了“以人为中心”的交互理念,是适应指挥人员与指挥控制系统间的一种新的自然人机交互技术[16]。肢体语言中的手势识别已在一些娱乐场景中得以应用,在未来的指挥控制系统中,肢体语言交互可以无缝融合到沉浸式显示环境中,利用手势对叠加的显示图层进行隐显、缩放、移动等操作,能够有效提高交互操作的便捷性。
指挥控制系统中多通道融合交互,能够多维提取操作人员交互意图,利用各通道优势互补,不仅能够弥补单通道识别准确率和交互效率不高的问题,还能平衡感官通道之间的使用负担。通过多通道并行、非精确的自然交互方式,可以大大减轻操作人员的认知负担,使其能够投入更多注意力到指挥决策中。
面对未来战争的快速、复杂、多变与其庞大的数据量,单纯依靠指挥人员进行读取、分析、并作出决策已不再现实,人机协同交互是必然趋势。
指挥决策是人机交互的目的,基于未来战争的特征及AI 技术的局限性,指挥控制系统的发展方向应当是人机协同、优势互补。人擅长归纳、推理、决策、指挥等艺术性要求高的活动,具有主动性、思想性、创造性,但人的生理和心理状态易受环境影响。机器则擅长搜索、存储、计算、优化等技术性要求高的活动,具有精准性、快速性、重复性。并且相对于人类,机器能够突破生理机能、消除认知偏差、提供最优方案。目前的人机协同仅是物理域的融合,机器承担数据的定量分析功能,人主导定性的决策功能,二者的融合程度不够深,即“形合而神不合”。未来的指挥控制系统应当向人机深度融合转变,更要强调人、机共同认知和决策,实现人定性、判断、决策与机器定量、分析、学习等行为在决策层面的深度融合,逐步形成人机协同深度融合的指挥决策体系。
人机协同深度融合的指挥决策应体现在3 方面。在信息输入端,人机融合智能不单独依据机器获取的客观数据或是人感知到的主观信息,而是将二者有机融合起来,再结合人和系统的先验知识,生成全新的输入信息;在信息处理阶段,也是智能产生的重要阶段,将人的认知优势与机器的计算优势融合起来,当人与机的决策出现不一致时,应当建立包括“容忍、信任、匹配、调度、切换、说服、接受”等冲突消解的协调准则,从而形成一种新的智能求解模式;在决策输出端,将人在决策中具备的价值效应叠加到机器迭代的算法之中与之匹配,从而产生有机化与概率化相互调节的优化判断。通过人机融合决策的不断适应,人会对惯性常识行为进行有意识的思考,而机器也会从人在不同条件下的决策中学习价值权重的区别。人机之间的理解将会由单向性变为双向性,人的主动性将与机器的被动性深度融合,从而实现1+1>2 的效果。
情感计算就是赋予计算机系统识别、理解和表达人的情感状态的能力,使系统更智能化和人性化。情感计算的研究主要集中在识别人的诸如“喜悦、恐惧、伤心、生气、厌恶”等情绪状态[10]。针对指控系统人机交互实际,操作人员工作中的情感状态可以总结为:“正常状态”、“过度兴奋状态”“生理疲劳状态”、“心理紧张状态”和“应激状态”,显然,后4种情绪状态都难以保证可靠的人机交互过程。并且不同情感状态需要的应对措施也是不同的,因此,准确识别和理解操作人员的情感计算对于指控系统人机交互过程的可靠性至关重要。
指控系统人机交互过程操作人员的情感状态识别可基于行为数据和生理信号。研究表明,人的行为数据(如声音信号、面部表情、眼动特征)和生理数据(如心率、血压、皮肤电、血氧饱和度、脑电信号)能够表征人的情感状态。考虑到人的行为数据可能受到主观因素的干扰,基于生理数据的情感计算更具有客观性。特别是近些年来,脑机接口技术的发展使得人机交互中的情感识别越来越成为可能。基于脑电信号的情感计算,首先需要在特定的场景下诱发人的情感反应(如长时间的视觉搜索行为诱发人的疲劳状态),同时采集实时脑电信号,然后从脑电信号中提取特殊频段的脑电波(如α 波、β波、γ 波、θ 波)作为特征参数,并利用机器学习算法(如SVM 分类器)训练和预测不同脑电信号对应的情感反应。
虽然脑电信号被认为是最有可能实现情感计算的生理数据,但由于目前脑电信号的采集比较复杂,且脑电信号易受场景和其他信号的干扰,因此,在指控系统中仅仅通过脑电信号去监测操作人员的情感状态是有难度的。未来,随着传感技术和机器学习算法的进一步发展,基于行为数据和多种生理数据结合的情感计算可能成为现实。对于指控系统人机交互过程,行为数据和生理数据的采集不能干扰操作人员的正常任务,而应当是在合适的时机以最恰当的方式给予操作人员提醒和辅助。
未来,在加速指挥控制系统智能化发展的同时,应当重视指挥控制系统人机交互方式的变革。基于新型自然人机交互技术,未来的指挥控制系统应当具备多维沉浸式的战场态势显示模式;支持融合语音、面部表情、视线、手势、生理信号等多种交互方式;能够实时监测指挥人员的生理及心理状态,并根据特定场景自动切换适宜的交互通道组合。在提升交互效率和可靠性的基础上,通过人机协同深度融合决策,最大限度地为操作人员减轻认知负担,从而为作战指挥和控制提供技术保障。