景 辉,王心雨,阎志远,戴琳琳
(中国铁道科学研究院集团有限公司 电子计算技术研究所,北京 100081)
随着人工智能技术在图像识别、语音识别、自然语言处理等领域的飞速发展,智能机器人可以在某些业务中提供拟人化的服务。基于不同的应用场景,智能机器人衍生出形态不一的服务机器人,如餐厅送餐机器人、商场导购机器人、银行柜台机器人等,极大地提升了服务效率,节省企业成本。
随着电子客票的实施推广,铁路旅客的出行信息更多以电子化的形式呈现,在客流高峰期、列车晚点、检票口变更等情况下,车站12306 问询台咨询量大,旅客往往需要排队较长时间才能得到答复。目前,在上海虹桥站、杭州东站、广州南站等铁路客运站内,已经将服务机器人投入使用,但大多仅支持旅客进行公共信息查询[1],无法实现客运业务咨询。如果机器人能较好地融合现有客运业务,具备12306 问询台的部分功能,将给旅客带来极大便利。基于此提出一种支持铁路客运相关业务问询功能的智能服务机器人技术方案,致力于帮助旅客解决出行途中可能遇到的问题,从而提升铁路客运站服务水平,为铁路客运服务朝着数字化、智能化的方向发展打下坚实基础。
为满足铁路客运站的应用需求,智能服务机器人在硬件设计上配置2 个显示屏。机器人头部配置小屏,用于用户交互界面的显示;机身配置大屏,用于检票口、检票时间等客运信息的展示。机器人头部还配置摄像头、麦克风阵列等传感器,用于人脸、语音等信息的收集。铁路客运站智能服务机器人示意图如图1所示。
图1 铁路客运站智能服务机器人示意图Fig.1 Schematic diagram of intelligent service robots in railway passenger stations
铁路客运站智能服务机器人整体架构如图2 所示,主要由站车交互接入区、客票网应用接入层、语音交互服务、业务服务等部分组成。在网络安全层面,智能服务机器人采用站车网的接入方式,作为一个等保三级的信息系统,具备足够的安全性。站车交互接入区提供注册认证、移动设备管理、安全审计、站车交互接入服务等功能,机器人首次部署需在站车交互接入区进行注册,而后才可以进行正常访问后台的业务服务。客票网应用接入层主要包含语音交互接入服务、人脸识别接入服务,以及其他应用接入服务。语音交互服务提供语音识别、语音合成、语义解析等功能,支撑旅客与机器人进行语音交互。业务服务包括车站大屏、车次信息、检票信息等服务,用于业务查询,辅助语音交互顺利实现。
图2 铁路客运站智能服务机器人整体架构Fig.2 Overall structure of intelligent service robots in railway passenger stations
铁路客运站智能服务机器人提供信息查询、站内导航、常见问题解答、车站大屏显示、车站通知播报等服务。铁路客运站智能服务机器人功能结构如图3所示。
旅客在出行前需要获取发车及到达时间、候车室位置、检票地点等信息。随着电子客票的推广及普及,旅客依赖智能设备获取乘车信息。然而因候车室变更、列车晚点等情况下无法实现信息查询的旅客,需要咨询12306 问询台,可能会面临排队等候时间长的问题。因此,智能服务机器人支持信息查询服务,主要包括车票、车次、候车室、检票口、天气等方面的查询,以提高用户操作的便捷性,并为使用传统人机交互手段有困难的旅客提供额外的选择。
车票查询即本人车票查询,智能服务机器人捕捉到旅客的人脸信息后,通过人脸识别技术进行乘车人比对,提供旅客本人的乘车信息,包括始发终到站、发车及到达时间、车次、席位、候车室、检票口等。车次查询即查询任一车次的发车时间和始发终到站信息,旅客不需要进行人脸比对即可进行操作。天气查询即查询出发或到达城市未来7 d 的天气情况,以便旅客合理安排出行方式。
针对不熟悉车站内部布局的旅客,提供站内导航服务。智能服务机器人集成第三方站内地图,为旅客在枢纽内的活动提供精准、便利的导航服务。旅客可通过语音设置导航位置获取导航路线,智能服务机器人得到指令后生成路线并引导旅客前往既定位置。同时预先配置智能服务机器人的引导服务,增设“小心台阶”“电梯到了”“请这边走”等引导型话语,增强智能服务机器人室内导航服务的互动性。
常见问题主要为购票、改签、退票、特殊旅客服务等方面的问题,智能服务机器人通过语音交互的方式直接给旅客返回答案,实现常见问题解答服务。常见问题解答服务以标准问题为桥梁,将旅客与答案相连,使其能够直接获取自己需要的信息,减少旅客在信息检索活动中的时间消耗。
铁路客运站的车站大屏会实时显示列车状态、检票口、正晚点等信息,旅客进站乘车多会关注。但车站大屏的位置大多固定在进站口,位处候车室的旅客不便查看。因此,在智能服务机器人上增设车站大屏服务,默认按发车时间正序显示车次检票信息,每间隔1 min 自动刷新。该服务使得智能服务机器人成为流动的车站大屏,方便旅客实时查看相关信息。
智能服务机器人可以获取当前站内所有车次信息,包括检票口、正晚点、开停检等信息。当某一车次开始检票后,智能服务机器人会自动到达检票口附近,并循环播报检票信息,以提醒旅客及时检票乘车。此外,可以通过推送服务,将车站通知信息投放到智能服务机器人的屏幕上,同时开启语音进行播报,方便旅客了解站内通知。
铁路客运站智能服务机器人界面展示如图4所示。
图4 铁路客运站智能服务机器人界面展示Fig.4 Interface display of intelligent service robots in railway passenger stations
智能服务机器人的关键技术分为2 部分:一是数据半自动化标注系统,作为底层支撑,用于获取大量模型训练需要运用的数据;二是机器人智能交互关键技术,作为技术中台,用于支撑旅客与智能服务机器人的交互顺利进行。
数据半自动化标注系统分为数据收集、自动化处理、数据保存3 个模块。数据半自动化标注系统如图5所示。
图5 数据半自动化标注系统Fig.5 Semi-automatic data labeling system
(1)数据收集模块。该模块收集公开的音视频数据,进行人工初步筛选,简单标注文字识别(Optical Character Recognition,OCR)的参数文件。
(2)自动化处理模块。该模块利用OCR 识别视频文件,并通过语音模型校验识别结果,完成语音数据集的自动化对齐和标注。
(3)数据保存模块。该模块将识别结果格式化存储为语音/文本数据对。
依托该数据处理系统,收集约17 000 h 语音数据。
智能语音交互是使用语音、面部特征的方式与机器进行交互,达成自己的目的的过程,主要基于语音识别、人脸识别、语音合成、多轮对话、端点检测、语音降噪等技术,在多种实际应用场景下,赋予智能产品灵活生动的智能人机交互功能。智能服务机器人交互流程如图6所示。
图6 智能服务机器人交互流程Fig.6 Interaction process of intelligent service robots
3.2.1 基于深度残差网络的人脸识别模型
人脸识别模型基于深度残差网络[2](Deep Residual Network,ResNet)实现,该网络的核心思想是恒等映射捷径连接,可以跳过一层或多层会使得堆积层在输入特征基础上学习到新的特征,解决算法层数过多导致的梯度消失与梯度爆炸等问题,从而拥有更好的性能。
考虑到铁路客运站场景复杂,旅客数量多,现场采集人像存在逆光、模糊、大角度倾斜、遮挡等问题,因而人脸识别模型集成人脸识别、人脸检测、人脸遮挡识别和人脸质量分析等功能。该模型可进行遮挡检测、模糊检测、人脸姿态估计,通过设计多任务卷积神经网络,将多个人脸质量属性融合到一个神经网络模型中,大大减少计算量,缩短计算时间,有效提高人脸识别模型的识别速度和准确率。
3.2.2 基于神经网络的语音
预处理模型
为满足实时对话和车站嘈杂环境低误触的要求,在识别前先对语音进行预处理,主要为语音降噪和端点检测2部分。
语音降噪模型利用生成对抗网络[3](GAN)实现,语音降噪模型结构如图7所示。该网络由一个生成网络和一个判别网络组成,该网络把有噪声的语音数据抽象为清晰语音部分和噪声部分,生成网络产生与清晰语音部分很接近的假数据,优化方向是让判别网络无法正确区分清晰语音与生成的语音;判别网络对数据进行真伪鉴别,优化的方向为正确分辨该数据由生成网络生成还是真实的无噪声数据。在训练迭代的过程中,2 个网络持续地进化和对抗,直到达到平衡状态,进而区分有效语音与噪声。
图7 语音降噪模型结构Fig.7 Structure of speech noise reduction model
端点检测[4]的功能在于把有语音帧的语音部分提取出来,模型采用逐帧判断的方式,通过深度神经网络[5](Deep Neural Networks,DNN)提取更深层的声学特征,再利用长短时记忆网络[6](Long Short Term Memory,LSTM)对DNN 提取的声学特征进行时间序列维度的特征表达,最后利用归一化函数(SOFTMAX)计算当前帧为语音帧或非语音帧的分数。端点检测模型结构如图8 所示,其中,x表示语音特征向量,y表示当前帧为语音帧或非语音帧的分类结果。
图8 端点检测模型结构Fig.8 Structure of endpoint detection model
3.2.3 融合流式与非流式的语音识别模型
由于智能服务机器人需要与旅客进行实时交互,既要达到一定准确率,还要满足实时交互的要求。因此,设计在同一个语音识别模型中实施2 次解码,用一个统一的模型结构同时支持流式和非流式识别。语音识别模型结构如图9所示。
图9 语音识别模型结构Fig.9 Structure of automatic speech recognition model
基于连接时序分类[7]解码方法利用前缀束搜索,在搜索过程中合并有相同前缀的中间结果,将这些结果的概率相加求和,降低相同前缀的结果各自占部分概率值对模型识别准确率的影响,利用其进行第一次流式解码,该结果可作为流式结果实时返回。
多个候选结果再通过基于注意力机制[8]的解码模型、多重语言模型及热词赋权模块[9]进行第二次非流式解码,对流式识别的解码结果进行重新评分。其中,基于注意力机制的解码模型接收编码器传递过来的高层隐藏特征,学习输入特征和输出序列的对齐信息;多重语言模型及热词赋权模块用于提高铁路专有名词的识别率。最终根据得分的结果重新排序,获取更好的识别结果。
3.2.4 引导式多轮对话技术
在旅客与智能服务机器人的交互过程中,多轮对话技术的作用是初步明确旅客意图之后,自动设计对话流程,逐步引导旅客提供必要信息,最终完成旅客需求。引导式多轮对话技术主要由意图识别、实体识别、对话管理3部分组成。
意图识别[10]用于把用户的话语对应到不同的业务场景。该模型基于特征值分类对用户的意图进行判别,同时基于规则方法根据意图和词典的匹配程度或者重合程度来进行判断。
实体识别[11]用于识别不同业务中需要填充的槽位信息。为更准确地识别到槽位的信息,一方面通过实体识别模型对槽位信息抽取,另一方面基于预设规则的匹配来进行槽位信息的识别。实体识别模型基于循环神经网络[12](Recurrent Neural Network,RNN)实现,实体识别模型结构如图10 所示。映射层(Embedding Layer)包含词向量、字符向量以及一些额外特征,BiRNN 通过前向/后向传递的方式学习序列中某字符依赖的过去和将来的信息,条件随机场[13](Conditional Random Field,CRF)考虑了标注序列的合理性。预设规则匹配是基于规则的方法手工构造规则匹配模板,在构造模板过程中多轮对话服务选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法,以模式和字符串相匹配为主要手段,并建立相应的字典。
图10 实体识别模型结构Fig.10 Structure of named entity recognition model
对话管理[14]控制着旅客和智能服务机器人对话的过程,对话管理根据对话历史信息,决定此刻对用户的反应。以最短对话轮次实现旅客需求、最精准回答旅客问题为原则,以建立有温度的对话交流为设计初衷,更灵活、方便、快捷地为旅客解决问题。
3.2.5 基于FastSpeech2的语音合成模型
语音合成是将计算机自己产生的,或外部输入的文字信息转变为可以听得懂的、流利的口语输出的技术。FastSpeech2[15]是一个非自回归的语音合成模型,利用方差适配器引入更多的输入来控制合成出的语音,得到高质量的生成语音。该模型从文本直接生成语音,而不是生成梅尔频谱图,拥有更快的训练速度与合成速度。同时,该模型还支持多音色训练与切换,可以满足铁路客运站的定制化需求。
从智能服务机器人在长沙南站、广州南站的试点应用中发现,其部分功能受到车站与旅客的认可,包含基于人脸识别技术的车票、检票口查询等功能,表明其具备推广价值和潜力。但是在部分应用如站内导航等功能上,暴露出其在某些场景具有一定的局限性。
(1)技术局限性。在语音识别技术的发展中,方言识别准确率与普通话相比较低,且对于一些小规模使用的方言,至今没有好的解决方案。对于此项技术局限性,智能服务机器人在一些普通话普及程度较低地区的车站使用时,其语音相关功能将会受到巨大影响。在这些地区,智能服务机器人仅支持使用基于人脸技术的方式进行车票信息查询。
(2)应用局限性。对于智能服务机器人的站内导航功能,仅适用于一些小型车站,站内拥挤程度低,车站工作人员有限,导航路径短,本功能可以发挥一定的作用。但是对于一些大型车站,由于车站旅客多,导航跨度大,站内拥挤程度高,从场景适用性和安全性的角度考虑,智能服务机器人不适用于此场景。因此,机器人具有2 款不同的设计,一款底部装有可移动轮子,支持站内导航功能,另一款底部不配置可移动轮子,不支持站内导航功能。
智能服务机器人拥有丰富的知识库,结合铁路客运业务,利用车站现有设施,通过人脸识别、语音交互等方式实现人机交流,提供信息查询、站内导航、常见问题解答、车站大屏显示、车站通知播报等功能。从业务角度,智能服务机器人需要在功能性和适用性方面进行探索,以充分发挥机器人的优势,节省车站的人力成本。从技术角度,语音识别的适用范围和准确率作为机器人的关键技术之一,目前仍存在一定的短板。在未来会聚焦方言语音识别技术的研究,推进智能服务机器人在更多地区应用,为旅客提供快速便捷的查询服务,给旅客带来智能舒适的出行体验。智能服务机器人致力于成为车站服务小助手,助力车站提升整体服务水平,使其朝着电子化、智能化方向发展,进而成为实现铁路智慧出行的硬件支撑。