人工智能时代数字图书馆智能化人机交互技术分析*
——以古代南海海图数字图书馆为例

2019-01-18 01:45张兴旺葛梦兰

图书与情报 2018年5期

关键词：触觉设施智能化

张兴旺赵乐葛梦兰

（1.桂林理工大学图书馆广西桂林 541004）

（2.桂林理工大学信息科学与工程学院广西桂林 541004）

（3.中山大学资讯管理学院广东广州 510006）

1 引言

未来的人工智能时代将是人机交互、人机相互依存的社会。人工智能理论与技术的爆发及其在诸多领域、行业中的成功应用，再次引发了图书馆对各种先进信息技术全方位、多元化地为用户提供智慧服务的美好憧憬。

随着移动互联网、人工智能与虚拟现实等信息技术迅速渗透进图书馆各个领域，人机交互也变得无时、无刻、无处不在。移动互联网、移动智能终端与移动应用的大众化让用户可随时随地进行在线交流；触屏交互与语音识别技术让各类用户可无障碍地进行人机交互；虚拟/增强/混合现实技术的出现让用户可随时进入知识虚拟世界；人工智能技术让图书馆能够更好地掌握和理解用户意图与行为，从而满足其知识服务需求。然而，作为用户与计算机、信息技术之间的信息交流渠道与桥梁，人机交互理念作为数字图书馆以用户为中心指导系统开发的方法论，并没有得到其应有的重要关注与同步发展，且瓶颈效应日趋明显。追根溯源，主要原因可归结为两个方面：一是对数字图书馆人机交互理论与技术发展不够重视；二是人工智能时代数字图书馆知识服务情境的变化诞生了新的服务需求，对其人机交互技术提出了新的挑战。

为迎接即将到来的人工智能时代的冲击与挑战，把握数字图书馆未来发展机遇，实现其资源、技术、服务与用户智能的协同发展，本文首先对数字图书馆人机交互技术的发展过程进行回顾，再重点分析人工智能时代数字图书馆智能化人机交互的技术体系与技术内容，最后以我国古代南海海洋地图（以下简称为“南海海图”）为例，对数字图书馆智能化人机交互应用体系进行分析。

2 数字图书馆人机交互技术的发展与研究

数字图书馆人机交互式技术是实现其与用户之间知识交互的通道，其研究与发展历程主要依赖于人机交互理论与技术发展。关于人机交互理论的提出，最早可追溯至20世纪50年代末美国学者Shackel B.提出的计算机人类工程学理论、60 年代初美国麻省理工学院的约瑟夫·利克莱德教授提出的Man-Computer Close Symbiosi（人机紧密共生）理论。到60年代末期，英国剑桥大学举办了第一届人机系统国际学术会议，随后创办了第一份人机系统研究的学术期刊，从而正式拉开了人机交互研究的帷幕。进入70年代，英国拉夫堡大学和美国Xerox公司分别成立人机交互研究中心，随后学术界围绕该领域逐渐展开了相关研究，并在70年代和80年代分别出版了4本计算机人机工程学、6本人机交互等方面的研究专著。由此，人机交互研究的基础理论、技术体系与应用实践得到了不断完善，并逐渐从早期的计算机人工工程学领域脱离出来，与心理学、行为学和社会学紧密结合，形成了独立的研究领域和学科。尤其是90年代后期，信息技术的飞速发展使人机交互研究的重点逐渐向虚拟人机交互、多模态-多媒体、人机协同等方面发展，并于1999年被美国政府列入21世纪信息技术的四个主要发展方向之一，2007年更被美国和欧盟列入重点研究计划，2012年国际计算机学会（Association for Computing Nachinery，ACM）将人机交互列为计算机学科主要分支领域，2016 年被中国国家自然科学基金委《“十三五”发展规划》列为重点支持方向。在过去3年中，20多项相关课题被国家自科、国家社科基金立项资助。在人机交互领域，也有许多知名高校和研究机构在该领域产生了巨大影响，如中国的清华大学、北京大学，美国的麻省理工学院、斯坦福大学、卡耐基梅隆大学等高校，以及中国的中科院软件所、腾讯研究院、阿里研究院、微软研究院、谷歌研究院等研究机构。

人机交互理论与技术的发展过程，也是数字图书馆的发展过程。数字图书馆与用户的人机交互从早期无交互到中期命令语言交互，到后期关键词与文本交互，再发展到现在以文本、图像与音视频等为主的视觉交互，未来可能会诞生思维与心理的智能交互。在此发展过程中，国内数字图书馆领域也对人机交互理论、技术与应用展开过大量研究。总体来看主要分为三个方面：一是用户信息交互意愿与行为研究，如王晰巍、韩正彪等分别对用户信息交互意愿影响元素、情感演进进行了分析；吴丹、刘畅等分别对用户移动搜索行为及其影响元素进行了研究；二是人机交互质量与评价研究，如施国宏等对移动图书馆人机交互质量影响元素进行了分析；李月琳、闫希敏等分别对数字图书馆人机交互理论体系、工具方法和评估模型进行了研究；三是人机交互技术与模式研究，如李洁、李萍、陆泉等分别对数字图书馆的微交互、智能交互、可视化交互平台及模式进行了研究。尽管目前信息技术与软硬件资源已不是障碍，但数字图书馆人机交互能力仍难充分满足人工智能时代用户知识服务需求，其中一个重要原因是由于数字图书馆缺乏与新型人机交互需求相匹配的、高效的自然人机交互理念与模式，缺少能满足人工智能时代用户智慧服务需求的交互技术。因此，要想实现人工智能时代数字图书馆人机交互所提出的目标与要求，就需要对相应的理论与技术问题进行研究。

3 人工智能时代的数字图书馆智能化人机交互

3.1 数字图书馆智能化人机交互技术体系的框架

人机交互是数字图书馆的关键技术之一，对推进其广泛运用和提升用户体验质量有较重要的意义。由于信息技术和相应软硬件技术的飞速发展，数字图书馆人机交互技术有了巨大进步，但人工智能时代对其提出了新的挑战与机遇，除从传统的无交互到现在的关键词、文本交互，更有可能进一步创建和体验虚拟空间的数字图书馆系统，用户可通过视觉、听觉、触觉、嗅觉与感觉等与数字图书馆之间建立相应的人机交互连接，从而为用户提供可感知、沉浸式、自然的人机交互体验。

目前关于不同领域、不同类型数字图书馆人机交互的类型与模式有很多，因此有必要对广泛意义上的数字图书馆所涉及到的人工智能技术进行梳理。无论信息技术与外界环境如何变化，其人机交互技术主要探讨的是“输入←→响应←→输出”这一系统技术体系，即用户是怎样为数字图书馆提供信息输入、数字图书馆做出响应后怎样提供信息输出。在功能实现上主要分为前台和后台两部分，其中，前台主要用于接受用户的输入信息，并根据处理结果向用户反馈和展示相关的关联信息与知识；后台主要用于处理和分析用户输入信息，得到相应的结果。数字图书馆人机交互技术体系主要体现在其对应的前台、后台。前台的人工智能主要体现在可接受复杂、灵活、多元化和个性化的信息输入方式，如语音、视觉、动作、心理、脑电波等。后台的人工智能主要体现在对用户输入信息的智能化处理与分析、知识资源整合与展示方面，如视觉资源的分析与处理、多模态资源融合、知识关联网络构建等。围绕上面提到的关键技术，结合数字图书馆智能化人机交互实际情况，得出其基本技术体系，主要包括用户界面、智能交互设施、技术与环境等（见图1）。

3.2 数字图书馆智能化人机交互技术体系的业务

图1 数字图书馆智能化人机交技术体系

数字图书馆人机交互发展至今已有30余年，但由于其传统输入设备与方法的局限，人机交互范式未发生太大变化，这也使得数字图书馆人机交互模式一直被忽视。如今随着人机交互理念、思想、人物、事件与范式的不断演化变迁以及心理学模型指导下的用户交互行为模型的不断优化完善，数字图书馆人机交互模式正逐渐从传统走向现代、从单一型走向多元化，其重要性已不亚于信息资源融合与利用，这一模式也已被广泛应用于军事、航空航天、工业制造、医学与教育等领域的数字图书馆中。

人机交互是用户与数字图书馆之间信息交流沟通的直接通道，用户界面则是人机交互模式搭建与实施的桥梁。在传统信息环境下，人机交互主要依赖于键盘、鼠标与显示器来实现文本输入与输出。但在人工智能时代，数字图书馆存在形态不仅仅局限于传统基于信息资源聚合模式，而是与虚拟/混合/增强现实、物联网与可穿戴技术等有效融合在一起所形成的智慧图书馆新模式。在理想情况下，数字图书馆人机交互技术将不仅仅依赖于机器、文本语言，而能在没有鼠标、键盘等输入设备情况下，随时随地实现人机交互，但目前受限于信息环境与物理环境，这一理想情况较难实现，但在人工智能时代，数字图书馆软硬件设施、信息技术、管理与服务平台逐步完善，将有可能实现这一目标。

智能化人机交互目标是通过自然、灵活和智能的信息隐喻方式，通过用户交互界面将用户心理、行为与状态（输入）转换成数字图书馆能识别和理解的表达方法，将数字图书馆所拥有的信息与知识、行为与状态（输出）转换成用户能理解和掌握的知识体系，并通过人机交互环境反馈给用户。一方面，智能化输入体系需要感知用户心理变化、行为姿态、语言文字或身体动作等多模态多通道的输入信息；另一方面，智能化输出体系可通过用户的听觉、视觉、嗅觉、触觉等感知通道，将其所需要的信息与知识以智能化方式加以展示。近年来所涌现的多语种语音识别、视觉搜索、情境分析、力触觉交互、动态手势识别、眼动交互、触觉交互等技术与方法为智能化输入体系提供了重要理论与技术支撑，而相应的虚拟/增强/混合现实、数字孪生、知识图谱、知识地图等技术与方法为智能化输出体系提供了重要理论与技术支撑。

3.3 数字图书馆智能化人机交互技术体系的内容

人工智能环境下数字图书馆智能化人机交互技术体系需要解决的是，如何帮助用户使用最自然、简单、直观的交互方式（如动作、语言、手势、肢体、眼动等）在人工智能环境（如虚拟空间、物理世界、知识环境与空间环境等）中与数字图书馆进行自然、高效的人机交互，即获取用户行为与用户意图来操控数字图书馆的知识服务虚拟与物理环境，再通过多元化反馈渠道将相应信息与知识为用户所感知。

3.3.1 人机交互用户界面技术

近年来各行各业出现了各具特色的数字图书馆，不同领域、行业的数字图书馆在传统基于文本交互的基础上也拥有了越来越多的智能化人机交互应用。过去只有少量成果走出实验室并获得成功的主要原因在于：当前相应的智能化技术与设施还不够成熟和完善，使得数字图书馆研究者难以充分实现其先进服务理念与思想；没有充分考虑用户行为与用户心理。

随着人工智能环境的逐步完善，各种先进的人工智能技术、软硬件平台与智能应用的出现，使得数字图书馆人机交互体系向着智能、自然与高效的趋势发展，其用户界面由传统文本交互界面逐渐向着实体交互、触控交互、虚实交互、多通道交互与混合交互等用户界面形态发展，从而使得以用户为中心的全新人机交互技术逐渐得以实现。人工智能环境下用户界面技术除了需要在交互方式上要与用户行为、心理与生理特征进行融合，体现其智能人机交互的静态特性；也要在交互过程中与用户所处环境、情境与关系进行融合，体现智能人机交互的动态特性。相应的用户界面技术可分为五种模式：（1）实体交互用户界面技术。这是目前使用相对较多的用户界面技术形态，可帮助用户直接使用物理实体与数字图书馆进行人机交互，如 VOMAR、Tangible bits等实体交互应用；（2）触控感知交互用户界面技术。这是在用户图形交互界面上增加相应的触控感知设施与技术来实现人机交互，如 Smarter Objects、LBAH等触控感知交互应用；（3）基于虚拟/增强/混合现实的虚实融合用户界面技术。这是通过相应的虚拟现实技术与平台，在用户与数字图书馆之间搭建相应的人机交互环境与通道，从而在虚拟空间中让用户进行知识获取、虚拟漫游、搜索与导航等知识服务，如美国宇航局Ames实验室开发的“虚拟行星探索（VPE）”、Mohr与 User-Defined Gestures等虚实融合交互应用；（4）多通道交互用户界面技术。这类用户界面可支持用户通过文本、图像、音视频、动作等输入方法与视觉、听觉、触觉与嗅觉等感知通道作为交互方式，来与数字图书馆之间进行人机交互，如外科手术训练的虚拟仿真系统与盲人使用的触觉设备等支持用户通过多模态触觉来实现人机交互、WUW支持用户通过手、上肢等动作实现人机交互、SEAR支持用户通过语言与视觉通道实现人机交互；（5）混合交互用户界面技术。这是通过将多种用户界面按照需求进行有效组合，从而为用户提供多种人机交互平台，以满足其多元化人机交互需求，如 Reilly、Augmented Surfaces等。

3.3.2 人机交互智能设施

本文提到，人机交互主要探讨的是“输入←→响应←→输出”这一体系，即用户如何输入其知识服务需求、数字图书馆如何输出其知识反馈结果，这对智能化人机交互体系尤为重要。数字图书馆传统输入设施主要使用的是键盘、鼠标等、输出设施主要使用的是显示器、屏幕等，但在人工智能环境下数字图书馆对于输入、输出设施有了更高要求，需要为用户提供更加自然、直观、高效的输入输出设施，来帮助实现自然高效的人机交互。

（1）智能输出设施。人工智能环境下数字图书馆向用户提供的输出服务，应该与其相应的感知器官相匹配，除了适应其视觉器官之外，还能够适应用户（如盲人、聋哑人、残疾人等特殊用户群体）的听觉、嗅觉、触觉与味觉等输出需求，因此在人工智能环境下结合具体应用领域与实际需求，可围绕相应的输出需求来确定对应的视觉、听觉、触觉等智能输出设施。一是视觉智能输出设施。它主要解决用户视觉感知器官所涉及到的设备属性问题，其物理属性主要包括可视与视线区域、显示区域大小、形状、分辨率与刷新频率、光线传输方式与人体工程力学等，在具体设计与实现过程中，该类设施的设计需要与用户视觉生理特征相匹配，尤其是要与用户眼睛生理与运动特征相匹配，一般至少要考虑到用户单眼的静态视线、眼球运行轨迹、双眼视觉差异、动态视差与眼睛立体成像等因素。目前市场上已有很多成熟的产品，如智能终端、环屏、工作台、球形与半球形、头戴式、头盔式、眼镜式与悬臂式智能输出显示设施等；二是听觉智能输出设施。声音输出的主要类型包括简单音元、图标式音元、自然声音和混合声音等类型，相关输出设施可充分利用用户声音获取和听觉定位能力来显示或产生空间三维声音。在具体设计与实现过程中，需要考虑到用户双耳听觉差异（如时差、声差与音差等）、声音强度、声音频率、声音变化曲线与轨迹（如回声、强弱变化等）、声波与人耳交互等元素，因此，听觉智能输出设施科根据声波内容、位置与形式等并将其转换成用户可识别的听觉（如立体声、环绕声与3D音频等）、视觉（如文本、图像、内容、视频与模型等）等方式被用户所获取到；三是触觉智能输出设施。该类设施可将反馈数据、信息与知识以肌肉或神经触感形式直接反馈给用户，其输出主要分为以用户所在位置、以用户身体、以用户神经系统等三大类型，目前较为常见的包括：力/触觉机器人手臂、触觉反馈手套与鼠标、触觉反馈杆与方向盘、触觉转视觉显示器等智能输出设施。

（2）智能输入设施。输出设施与输出设施一样，也是人工智能环境下数字图书馆智能化人机交互体系重要设施之一，能够帮助实现用户与数字图书馆之间的通信。目前这类设施非常多，主要分为三类：一是离散型智能输入设施。这类设施能对用户行为、动作进行离散性捕捉，生成相应的数据、文本与图像，如鼠标、键盘与 PINCH Glove 数据手套等；二是连续型智能输入设施。这类设施可根据各种类型传感器（如动作、力、光、电、声和热等）来获取用户连续性地行为与动作，捕捉其对应的位置、动作、方向与速度等变化，如位置跟踪器与传感器、动作传输器与反馈手套、智能手柄Wii Remote、深度相机Kinect与Leap Motion、3D摄像头RealSense等；三是直接型智能输入设施。这类设施可通过语音、生理、眼动与脑电波等信号感知设施收集相应的用户信息，从而将其作为输入信息与数字图书馆直接进行人机交互。如Google智能音箱Google Home、Amazon语言助手Echo、微软语音助手Cortana等语音输入设施；NeuroSky MindWave意念耳机、EmotivINsight意念无人机、BrainLink意念头箍和EmotiveEpoc意念控制器等脑电波智能输入设施。

3.3.3 人机交互智能技术

人机交互智能技术主要是通过人机交互用户界面与智能设施，来满足用户多元化知识服务需求的具体技术与方法。随着信息技术不断渗透进用户学习、生活和工作的各个领域，人机交互也变得无所不在，人工智能技术飞速发展使数字图书馆能更好地理解和认识用户意图，其人机交互技术也逐渐从基于文本交互与“单手单眼”模式向沉浸式、体验式和情景式模式转化。数字图书馆传统人机交互模式此处不再赘述，其人工智能环境下人机交互技术要求除了兼具传统技术体系之外，还需具备相应的服务环境表达特性及用户与服务环境的信息交互特性，由此产生的数字图书馆人机交互智能技术主要包括视觉交互、语音交互、力/触觉交互、虚实融合交互与多通道交互等智能技术。

（1）视觉交互技术。该技术能为用户提供个性化、多元化的输入智能处理（如视觉搜索、草图检索与多媒体检索等）和输出智能展示（如知识地图、知识图谱与语义网络等），其人机交互主要载体是文本、图像、视频与模型等视觉资源，其关键技术主要包括视觉内容标注、视觉特征匹配、视觉知识库构建与视觉知识融合等。

（2）语音交互技术。该技术能为用户提供更完善、自然和连贯的人机交互方法，它主要有短文本（如字、词语、短语等）语音交互、非规范化（如方言、壮语、蒙语、藏语等）语音交互和完整文本语音交互等三种模式，其关键技术是语音识别引擎和语音交互平台，对应的典型应用案例有很多，如Microsoft Speech API、IBM Via Voice、Nuance 与科大讯飞语音交互引擎、CMU-Sphinx、HTK-Cambridge 与RWTHASR 等语音交互平台。

（3）力/触觉交互技术。相较于前二者，力/触觉交互更能拉近用户与数字图书馆之间的距离，且更强调人机交互的自然性、直观性与智能性，其核心技术主要包括触觉反馈技术与触觉信息交互技术等两个方面，目前比较具有代表性的应用案例有Microsoft的3D触觉反馈触摸屏、Immersion的触觉反馈技术TouchSense、SensAble 的触觉交互机械臂等。

（4）虚拟融合交互技术。虚实融合交互是未来数字图书馆最重要的人机交互方式之一，它能在复杂繁琐的交互任务中为用户提供更多自然、高效的交互方式，它可对数字图书馆所拥有的知识资源与服务机制进行抽象或隐喻，并映射到人机交互过程中，可将其交互方式分为直接隐喻（如光线投影、用户虚拟隐喻等）和间接隐喻（如WIM交互隐喻、图像平面交互、Voodoo Doll隐喻、沉浸式触觉隐喻与空间位置跟踪等）两种方式，比较有代表性的典型应用有虚拟机械手臂、虚拟博物馆、触控虚拟手套等。

（5）多通道交互技术。该技术主要是数字图书馆采用两个或两个以上（如视觉、语音、触觉等）人机交互方式进行协作，通道彼此之间按并行、串行、互补、独立、混合等方式进行处理，其能适应用户的多元化人机交互需求，并能大幅度提升数字图书馆人机交互效率与可用性，目前比较有代表性的应用案例有Bolt的 Put-That-There 交互系统、VRPN（Virtual Reality Peripheral Network）和 OpenTracker等。

3.3.4 人机交互智能环境

数字图书馆人机交互智能环境主要包括三种：一是技术环境，即其所需要的网络、技术（含相关算法库、模型库、工具库与关键技术等）、数据、人工智能与软硬件资源等环境；二是应用环境，即其所需要的应用、实践、推广、优化、反馈与服务等环境；三是管理环境，即其所需要的社会、学术、产业、政策、法律、法规、资金与人才等环境。这三类环境分别从技术、应用与管理等方面为数字图书馆可视化人机交互模式提供了多元化、全方面的支持与帮助。

围绕这三种环境，可认为未来人工智能环境下数字图书馆的发展形态应该是由智能化的人机交互体系、以用户为中心的服务机制、通用化的知识自主接入、数字经济与信息技术等融合发展而形成，并进一步拓展到智慧图书馆、智慧城市、智慧社会等公共服务体系中，其基本目的是探索嵌入式协作化知识服务和颠覆性知识创新的思想，以及基本理论、技术与应用的创新，研究用户与数字图书馆之间日渐密切的关联关系，并提出最近用户知识创新与知识服务能力的广泛目标。

4 古代南海海图数字图书馆的智能化人机交互应用体系

我国可追溯的最早地图自湖南马王堆3号汉墓所出土的3幅汉代帛书地图，其中一幅与海洋相关的地图称之为《地形图》，该图中“南海”以小“月牙”形状出现，是我国现存最早的地图，也是我国海图之“祖母”。随后，魏晋南北朝时期战乱不断，几乎未给后世留下海图史料。目前留存可见的最早海图是南宋《舆地图》，而元代释清浚的《混一疆理图》《广舆疆里图》尽管广为人知，但原本亡佚，后明代常熟徐氏刻的《水东日记》卷十七摹绘了《广舆疆里图》，且流传至今，该摹本不仅佐证了元代南海贸易繁盛，更为后来的《郑和航海图》绘制埋下伏笔。明清时期作为我国古代海图的绘制高峰，也是存世古代海图总量最多的时期。

根据对我国古代南海海图的系统性收集整理与研究，发现其主要是以墨线图形式勾画出来，以布帛、石刻、羊皮、纸张等为主要记录与传播载体，目前其数字化建设主要以数字化扫描与存储为主，生成数字资源载体主要以文本、图像等视觉资源为主，其在所呈现的视觉内容上，主要包括山川、河流、海域、航线、航道、建筑、城郭及分别与之相关的地名文本，由此，其数字图书馆建设主要需要解决其关键视觉内容及相关知识体系之间的关联关系。

根据本文搭建的数字图书馆智能化人机交互技术体系，结合古代南海海图数字图书馆建设实际，分别采用相应的人机交互技术对各个环节进行研究。在具体实施过程中，采用相关技术分别对南海海图中的关键视觉内容与地名进行深入分析，构建相应的元数据标准规范、关联数据模式与领域本体，并围绕其智能化人机交互模型，分别获取有效输入信息（如手绘草图、意识输入与触控感知等），进而将其输入信息与其相关知识体系之间进行有效匹配、连接，再在人机交互智能环境下以不同形态反馈给用户，从而形成南海海图数字图书馆智能化人机交互应用体系（见图 2、图 3、图 4、图 5、图 6）。

图2 南海海图智能化人机交互应用体系

图3 南海海图内容语义标注本体设计

图4 基于智慧交互的南海海图内容知识架构

图5 基于智慧交互的南海海图内容匹配模式

图6 基于智慧交互的南海海图内容检索结果

5 结语

数字图书馆人机交互体系在过去几十年的发展过程中，经历了过去PC时代无交互，到现在互联网时代文本、图像与音视频交互，再到未来人工智能时代智慧交互，并逐渐成为未来数字图书馆领域研究的重要问题之一。南海作为我国21世纪海上丝绸之路的起点，在其数千年的建设与发展过程中遗留下大量珍贵古籍史料文献，并以地图、更路薄、针路簿与档案史料等形式记录与传播。古代南海海图作为我国南海古代地图史料的重要组成部分，是我国南海边疆治理的重要事实依据与海上丝绸之路的珍贵历史记忆，开展相应的数字化保护与开发利用具有十分重要的实践意义与应用价值。本文针对数字图书馆智慧化人机交互技术体系进行了深入分析，并以我国古代南海海图为例，对相应的技术体系应用实践进行分析，探讨了该技术体系的可行性与有效性。

人工智能时代数字图书馆智能化人机交互技术分析*——以古代南海海图数字图书馆为例