面向战场的多通道人机交互模型*

2014-06-15 17:36:20李昌岭李伟华
火力与指挥控制 2014年11期
关键词:转发器原语战场

李昌岭,李伟华

(西北工业大学计算机学院,西安 710129)

面向战场的多通道人机交互模型*

李昌岭,李伟华

(西北工业大学计算机学院,西安 710129)

现代战场上的信息来源繁多、瞬息万变,这对战场指挥决策提出新的要求,而现有人机交互系统未能向指挥人员提供高效、自然、全面的人机交互。为解决该问题提出一种面向战场指挥决策的多通道多智能体交互模型,针对战场不同的领域,实现“以人为中心”的人机交互,使指挥人员能够自然、无障碍地将交互信息准确传递给系统,具有很好的可靠性和可扩展性。

战场,人机交互,多通道交互,智能体

引言

现代战争是信息化的战争,战争的核心竞争力是控制信息的能力。作为一种重要的战略资源,战场信息具有来源繁多、瞬息万变等特性。如何更好地获取信息,如何根据信息做出更好的决策,是信息化战争面临的新问题。该问题要求现代战争指挥决策系统具有高效、自然、全面的人机交互。目前人机交互(Human-Computer Interaction,HCI)[1]还停留在“以机器为中心”的阶段,用户认知负荷重,交互效率低,难以满足信息化战争对人机交互提出的新要求。

多通道交互(Multi-Modal Interaction,MMI)[2]技术遵从“以人为中心”的原则,基于视线跟踪、语音识别、手势输入和自然语言理解等新兴交互技术,充分利用人的多种感觉、运动通道,以并行、非精确方式与计算机进行交互。站在用户角度,多通道交互就像平时人与人交流一样,自然、高效,认知负荷轻,可以将更多注意力集中到信息决策中来;站在系统角度,多通道交互充分发挥各通道的优势,实现互补。例如语音交互是人最熟悉的一种交流方式,但存在容易引起歧义、重点不突出等问题,手势是人常用的一种辅助交流方式,搭配语音交流,可以起到突出、强调重点的作用。这种多通道间具有一定冗余的特点,能提高整个交互系统的鲁棒性,保证系统能够正确、全面地理解用户的意图,这对于战场指挥决策来说意义重大。

2002年国际标准化组织W3C成立了“多通道交互工作小组”MMI(Multimodal Interaction Working Group),并提出一种通用的多通道交互框架[3],该框架将多通道交互系统分成接口层、融合层和应用层。文献[4]提出一种基于多智能体(Agent)的模型,每一个智能体集成相应的融合算法和用户模型,模型还将原始交互信息转换成统一的交互语言——交互原语(Interactive Primitives)[5]。这种多智能体模型比传统分层模型具有更强的可扩展性。文献[6]提出一种“融合槽”融合算法,采用“规则驱动”策略,将各通道交互信息融合在一起,这种算法在多通道交互技术初期得到较为广泛的应用。文献[7]提出一种任务制导的分层融合算法,用“任务”的概念来统一多通道的输入,改变了以往多通道输入信息对时间的依赖方式。文献[8]提出一种面向指挥所的多通道交互框架,该框架详细描述了指挥空间中多通道交互的软件体系架构和各种模型。

本文针对战场指挥决策中多通道人机交互问题,提出一种面向战场实时指挥决策的多通道交互模型,该模型采用多智能体结构来处理不同战场领域的人机交互,最后在“XX信息智能处理支撑技术”项目中对该模型进行应用验证,实现了一个基于语音和手势控制飞行器飞行的智能体。

1 相关概念及面临的问题

1.1 战场指挥决策交互系统

战场指挥决策交互系统是战场指挥决策系统的子系统,后者是辅助指挥人员进行指挥和决策的一个智能信息处理平台,前者负责系统与指挥人员的交互,目的是提供一个自然、高效的人机交互环境,尽可能减轻指挥人员的学习和操作负荷。然而目前指挥交互系统几乎都是图形化界面和WIMP(Windows,Icons,Menus,Pointer)的表现形式,指挥人员使用鼠标、键盘输入,系统使用显示器、麦克风等输出,交互方式单一,指挥人员学习操作负担大。

在研究“XX信息智能处理支撑技术”过程中,提出“对象域”的概念。对象域,即指挥人员面对的不同被指挥对象的集合,以及各对象的相关信息。对象可以是飞机,坦克,士兵等。若干个对象根据任务相关性组成一个对象域,一个对象可能属于不同的对象域。对象域不同,指挥人员采取的指挥策略和方式就不同,因此,交互系统需要针对不同的对象域提供差异化的交互方式。但是这种差异化的交互方式会带来新问题:如何将与不同对象域的交互融合成一个完整的交互系统,同时尽可能减少系统的冗余和融合代价。指挥人员、交互系统和对象域之间的关系如图1所示。

图1 指挥人员、交互系统和对象域的关系图

1.2 多通道交互模型

多通道人机交互技术自提出以来,框架模型就一直随着国内外研究的进展而不断演化。这些模型大都在最初W3C-MMI提出的分层模型基础上进行各自的改进工作。多通道交互分层模型如图2所示,接口层负责采集用户的交互信息和将反馈信息输出给用户,融合层融合各通道交互信息后将结果传递给应用层,同时将应用层传递过来的结果信息进行分解,分别传递给相应的输出设备。该模型中融合层负责融合、分解功能和应用层与接口层的连接功能,任务过重,导致整个系统的稳定性较差,而且将各通道的融合、分解机制集合在一起,制约了系统的可扩展性。

图2 多通道交互分层模型

2 面向战场指挥决策的多通道多智能体交互模型

为了向指挥人员提供一个更加自然、高效、全面的人机交互环境,同时提高整个交互系统的可靠性和可扩展性,提出一个面向战场指挥决策的多通道多智能体(Agent)交互模型,如下页图3所示。该模型分为接口层、转发层和应用层三层。接口层与输入输出设备相连;应用层与上层应用相连,在本文中上层应用是战场指挥决策系统;转发层负责接口层和应用层之间的信息交换。接口层和转发层都分为输入和输出两个模块,相互独立的模块互不干扰,既增强了系统的可靠性,也使各模块具有很强的可移植性。

图3 面向战场指挥决策的多通道多智能体人机交互模型

2.1 输入输出接口

输入接口直接从输入设备处获得原始交互信息,如声音波形、手势图像等,并将原始交互信息转换成计算机可计算的二进制格式,传递给输入原语转换器。输出接口从输出原语转换器处获得系统反馈信息,将其转换成输出设备可接收的信息格式,并传递给相应的输出设备。输入输出接口扮演着交互系统与外界之间信息传递者的角色。每一种输入输出设备都需要相应的接口来识别和处理相应的信息,如语音输入接口要能够识别声音中的语音信息。每个输入输出设备就是一个人机交互通道,在该模型中,可根据需求很容易地添加或去除若干个输入输出设备,而且不会影响整个系统的功能。

2.2 输入输出原语转换器和原语库

指挥人员传递给系统的命令一般都会附加一些多余的信息,并不是精确的指令,因此,需要对原始交互信息进行抽象封装,使其成为具有一定格式的语义单元,称为“交互原语”。交互原语结构如图4所示,M(Modal)代表该条原语来自哪个通道;O(Object)代表某一对象域中一个具体对象,即该条原语的“目的地”;N(Name)代表该对象的一个属性;V(Value)代表该属性的值,可以有多个N-V对;T(Time)代表该交互原语的生成时间。在不丢失语义的前提下,一条完整交互原语包含的信息是对来自某一通道的交互信息的精炼提取,而完成这一工作的就是输入原语转换器。输出原语转换器的工作过程则相反,它是将系统反馈回的交互原语转换成更适合人理解的信息形式。

图4 交互原语

在转换过程中,转换器需要知道通道、对象、属性以及指令原语等信息,这些信息都存储在战场指挥原语库中。战场指挥原语库存储着事先调研获取的各类战场信息,如交互通道、对象域信息、对象信息、指令原语等。输入输出转换器通过访问战场指挥原语库,将指挥人员容易理解的命令信息和交互原语进行相互转换。

2.3 输入输出转发器

2.3.1 输入转发器

指挥人员输入的交互信息经过接口层转换成一条条交互原语,输入转发器负责将这些交互原语传递给应用层中相应的智能体。输入转发器内部维护一个交互原语等待容器,来自输入原语转换器的所有交互原语根据时间的接近程度[6]彼此相邻被放入该容器中,转发器定时扫描容器中所有交互原语,对于等待时间超过生命周期T的交互原语进行移除操作,T的值可根据实际情况而定。应用层中的智能体会周期性访问输入转发器,当转发器接收到访问请求后,便扫描等待容器,寻找符合智能体要求的交互原语,判断标准就是交互原语中的通道字段和对象字段。具体步骤是:

(1)输入转发器从智能体的访问请求中得知它所感兴趣的通道集合M和对象域D。

(2)转发器开始逐条扫描交互原语,如果一条交互原语的通道字段是m,而且m∈M,则跳到步骤(3),否则跳到步骤(5)。

(3)该条交互原语的对象字段是o,转发器访问战场指挥原语库,若o∈D,则跳到步骤(4),否则跳到步骤(5)。

(4)输入转发器将该条交互原语复制转发给该智能体。

(5)结束扫描该条交互原语,若容器中还有别的原语,跳到步骤(2),否则结束扫描。

因为一个对象可能属于不同的对象域,所以一条交互原语可能满足多个智能体的要求,输入转发器在将交互原语转发给一个智能体之后还必须保留该交互原语,直到它的等待时间超过T。

2.3.2 输出转发器

输出转发器的工作在功能上是输入转发器的逆过程,但是相对要简单许多。输出转发器内部维护多个缓冲容器,存储从应用层中各智能体传递过来的交互原语。输出转发器唯一的工作就是将各原语根据通道类别放到相应的缓冲容器中,并根据时间顺序排序,然后将容器中的原语传递给输出原语转换器,进一步转换成适合指挥人员理解的信息形式。输出转发器不需要访问战场指挥原语库。

2.4 智能体

智能体(Agent)面向特定对象域,内部集成对象域处理器、对象域数据库、多通道融合算法和分解算法,以及与上层应用交互的接口和智能体间交互的接口。内部结构如图5所示。

图5 智能体内部结构

2.4.1 交互接口

一个智能体有4个交互接口:输入接口、输出接口、智能体间交互接口、上层应用接口。输入接口负责从输入转发器处获得交互原语;输出接口将反馈信息抽象成交互原语传递给输出转发器;上层应用接口负责将智能体处理后的信息传递给上层应用,并接受上层应用反馈回的结果信息。虽然每个智能体只面对一个特定对象域,但对象域与对象域之间并不是封闭的,也需信息交流,因此,智能体在处理一个对象域的交互信息时需要与其他智能体进行交互,智能体间交互接口就起到这样的作用。

2.4.2 融合器和分解器

来源于各通道的交互信息彼此独立,因此,需要多通道融合算法对这些信息进行融合。本文采取任务制导[7]的融合算法,输入是来源不同的交互原语,输出是一个完整的任务结构,里面包含具体的对象以及相关指令信息。融合器内有一个任务结构模板,根据对象是否一致和时间的相近程度,选择进行融合的交互原语,然后根据各个通道的特性抽取并筛选交互原语中的N-V对,填充到任务模板中,如果任务模板填充完整,则将其传递给上层应用。筛选的标准由对象域的要求决定,每个对象域都有自己侧重的信息类型,可能是方向、坐标、型号、时间等。分解器则是将上层应用传递来的任务结构分解成一条条交互原语,里面包含有输出通道和具体的交互信息,经由输出接口传递给接口层。

2.4.3 对象域处理器和对象域数据库

智能体面向特定对象域,该对象域的相关信息就存储在对象域数据库中,如对象域包含的对象集合,对象域的感兴趣通道,对象域要求的信息类型,接口交互信息格式等,这些信息辅助对象域处理器、融合器和分解器进行相应处理。对象域处理器控制整个智能体的工作流程,指挥融合、分解的进行和接口与外界的交互,并根据对象域的要求对交互信息进行相应处理。它是智能体的核心部分,每一个智能体都有相同的交互接口,但是它的对象域处理器和对象域数据库是唯一的,只适用于一个对象域。由于本文主要介绍多通道交互模型,因此,处理器内部实现机制不多做讨论。

总之,一个智能体是一个处理面向特定对象域的交互信息的功能单元,智能体之间功能没有相交,它们各自获取所需交互原语,并进行融合,处理器再根据对象域的要求进行事务性处理,并将完整的交互信息传递给上层应用,同时将反馈信息分解成交互原语传递给下层结构。在此过程中,智能体之间可能会发生信息交流。

2.5 模型的改进

相比于以往的分层交互模型,本文提出的模型作出以下改进:①分层模型中融合层集成了过多的功能,降低了系统的可靠性和运行效率,在本文提出的模型中,融合层的功能被分散到不同的模块中,提高了系统的可靠性和运行效率;②采用模块化设计,模块之间功能独立,输入和输出模块分离,彼此之间互不干扰,同时方便输入输出设备的增加和移除;③面向特定对象域的智能体可以作为一个组件随时加入和移除该系统,如果要增加一个对象域,只需要实现相应的智能体即可,具有很强的可扩展性。

3 实现

在研究“XX信息智能处理支撑技术”的过程中,实现了一种基于本文模型的多通道人机交互系统,该系统主要通过语音和手势实现对飞行器飞行的控制。对象域是飞行器飞行任务,对象是飞行器,感兴趣通道是语音通道和手势通道。语音信息具有不精确的特点,可能含有歧义信息,因此,需要通过手势交互来起到强调突出的作用。例如指挥人员通过语音输入“飞行器从上向下飞”,系统可能无法判断飞行器是要向上飞还是向下飞,如果指挥人员同时输入向下的手势,系统综合语音通道和手势通道的交互信息,就可以得出指挥人员是想要飞行器向下飞行,即“飞行器,方向:下”,如图6所示。

图6 飞行器飞行

4 结论

本文在以往分层模型的基础上,提出一种面向战场指挥决策的多通道多智能体交互模型,能够实现多通道人机交互。该模型具有以下特点:

(1)模块化设计和智能体使模型具有很强的灵活性和可扩展性。

(2)层与层之间、模块与模块之间功能独立,提高了系统的可靠性。

(3)将交互信息抽象成交互原语,方便系统间信息流动和信息融合。

(4)面向特定领域的智能体扩展了该模型的适用领域范围,并不局限于战场指挥决策领域。

在“XX信息智能处理支撑技术”项目的后续研究中,将进一步完善该模型,实现多个智能体,并对该模型的效率进行实验验证。

[1]董士海.人机交互的进展及面临的挑战[J].计算机辅助设计与图形学学报,2004,16(1):1-13.

[2]董士海.人机交互和多通道用户界面[M].北京:科学出版社,1999.

[3]W3C Multimodal Interaction Framework.http://www.w3. org/TR/mmi-framework,2003,5.

[4]Lin Y,Chen M,Luo J,et al.An Architecture for Multimodal Multi-Agent Interactive System[C]//Proc.Of the Fifth International Conference on CAD/CG'97,21-5,1997.

[5]Wang,J,Integration of Eye-gaze,Voice and Manual Response in Multimodal User Interface[C]//Proc.IEEE International Conferene on System,Man and Cybernetics.(ICSMC'95),3938-3942,1995.

[6]Nigay,L,Coutar,J,A Generic Platform for Addressing the Multimodal Challenge[C]//In Proceedings of ACM Conference on Human Factors in Computing System(CHI'95),98-105.(Denver,CO)1995.

[7]普建涛,董士海.任务制导的多通道分层整合模型及其算法[J].计算机研究与发展,2001,38(8):966-971.

[8]廖虎雄,老松杨.一个面向指挥所的多通道交互框架[J].国防科技大学学报,2013,35(1):155-162.

A Multimodal Interaction Model for Battlefield

LI Chang-ling,LI Wei-hua
(College of Computer,Northwestern Polytechnical University,Xi'an 710129,China)

Information in modern warfare has various sources and is very changeable,battlefield command system has to adapt to this situation.Now existing human-computer interactive system cannot supply efficient,natural,comprehensive interaction for battlefield commanders.In order to solve this problem,a multimodal multi-agent interaction model for battlefield command is proposed.This model covers various domain in battlefield.It is human-centered,commanders can easily learn to interact with computer naturally and precisely.This model has good reliability and extendibility.

battlefield,human-computer interaction,multimodal interaction,agent

TP391

A

1002-0640(2014)11-0110-05

2013-08-05

2013-10-29

“十二五”国防预研基金资助项目

李昌岭(1989- ),男,河南商丘人,硕士研究生。研究方向:多通道人机交互与虚拟现实。

猜你喜欢
转发器原语战场
测试原语:存储器故障最小检测序列的统一特征
卫星转发信道饱和条件最优功率增益设计与分析
战场上的神来之笔
C-130:战场多面手
贴秋膘还有三秒到达战场
意林(2020年20期)2020-11-06 04:06:14
密码消息原语通信协议介绍及安全分析
TCP网络数据转发器
基于DMX512通信协议的多路转发器设计与研究
基于原语自动生成的安全协议组合设计策略及应用研究
“原语效应”在汉英口译中的运用及局限性研究