徐秋平,任 玲,樊玺炫,王义华
(青岛地铁集团有限公司,山东青岛 266000)
语音识别技术,又称为语音人机交互技术,是以语音作为主要信息载体,使机器具备能说会听、学习思考的能力,实现人类与机器之间类似人类互相之间的自然语音交互过程。随着城市轨道交通线网规模的不断增大,乘客购选票时间会延长,尤其对于不熟悉自己出行路径和设备操作的乘客,购选票花费时间则更长。另外,由于存在车站乘客的问询量大,问询内容涉及站内外信息、票务政策等业务知识广等问题,站务人员需承担高负荷、高强度的问询答疑工作。因此,将语音识别技术应用于城市轨道交通,对实现车站服务的自助化、智能化、人性化,具有重要意义。目前,国内部分城市轨道交通已将语音识别技术应用于自动售检票(AFC)系统中,如上海、合肥、南京和深圳等城市轨道交通对原有自动售票机进行改造实现语音购票功能;深圳、青岛、宁波和西安等城市轨道交通上线集票务服务、语音问询、车站信息资讯于一体的智能客服中心。由于语音识别技术可实现无接触式交互,特别在受新冠肺炎疫情影响的情况下,更加体现出其优势价值。随着语音识别技术在城市轨道交通AFC系统中的应用推广,传统AFC系统设备业务流程和系统架构将随之改变。
语音识别技术在城市轨道交通AFC系统中的应用包括语音购票和语音问询2类业务。
语音购票功能是在传统自动售票机上增加语音处理模块,支持乘客通过语音对话来完成车票的购买,从而替代传统触摸式购票操作,避免因不熟悉自动售票机而导致的车票购买困难,有效缩短原本需点选屏幕选站、售票的时间。语音购票实现的重点和难点在于嘈杂环境下的自动语音识别,当乘客走近自动售票机,摄像头自动唤醒语音处理模块,准确接收和识别乘客语音输入的目的地信息,进而完成人机互动。对于部分乘客只知目的地而不知具体车站名的问题,可在语音识别技术的基础上应用模糊地点搜索,将单一的购票行为升级为问路、路径选择、购票相结合的复合行为。语音购票业务流程如图1所示。
图1 语音购票业务流程图
语音购票的功能需求包括:在强噪声环境下准确识别并显示乘客语音;能完全屏蔽左右两旁自动售票机使用者对中间售票机的影响;能完全屏蔽当前乘客背后排队者的语音干扰;理解乘客意图,判断出乘客的目的地名称,支持车站外各种地点的查询,例如小区、大楼等;结合云端地图数据搜索出距离乘客目的地最近的车站;提供从当前站点到目的地的详细换乘路径信息;具备人脸识别能力,能判断使用者数量,无需乘客唤醒或者手动激活语音;乘客可进行语音购票与触摸购票2种方式的自由切换。
乘客通过语音识别终端设备可自助语音查询站内服务设施、出入口、导航、运行时间、票务政策等信息;也可选择人工服务,与远程坐席客服进行语音交互,实现在线问询,解决知识盲点及投诉问题,以及突发状况时的紧急求助。语音问询业务流程如图2所示。
图2 语音问询业务流程图
语音问询功能需求包括:乘客可转人工服务,与后台客服人员进行实时语音问询;具有完善的知识库系统,涵盖地铁出行所涉及的各种业务知识;具备后台运维管理功能,可对乘客的问询内容进行统计、分析,并针对知识盲点补充知识库系统。
语音识别技术的关键在于在强噪声环境下通过摄像头和麦克风阵列检测目标乘客,并能准确接收和识别乘客语音信息,精准理解乘客意图,对获取的目的地信息做模糊地点搜索,推荐距离目的地最近的地铁站并提供相关的换乘信息;或者对乘客咨询的问题进行知识图谱库检索,以文字、图片、声音、动画等形式输出答案。实现上述功能涉及的关键技术包括:人脸唇动检测、定向语音增强、模糊地点搜索及知识库系统。
城市轨道交通车站环境嘈杂,人脸唇动检测技术可有效监测、捕获需进行语音交互的乘客,实现免唤醒语音输入。设备前端安装高清摄像头,支持不同身高乘客的场景需求。根据摄像头检测到的人脸尺寸,系统自动判断乘客与设备间的距离,当距离值在系统定义的允许测距范围内则可唤醒语音服务进行语音采集。
为避免受周围人声、环境背景声、乘客长时间滞留等因素的影响,需要唇动检测来提高语音识别质量。摄像头通过持续采集图像获取乘客唇部状态变化,再经唇动检测算法,得出乘客开始说话和结束说话的时间阶段,在乘客嘴唇活动的时间段内,进行语音采集;反之,乘客嘴唇未动的情况下不进行采集。
大客流车站人群密集,语音购票和乘客问询会受到全方位语音干扰,多人操作声音、车站广播、各种声音产生的混响均会导致设备收到的语音信息嘈杂,导致语音识别的效果难以保证。语音增强是指当语音信号被各种各样的噪声干扰甚至淹没后,从含噪声的语音信号中提取纯净语音的过程。
定向语音增强的麦克风阵列可实现对设备前方某个固定扇形区域的人声增强,而对其他方向的人声和噪声进行抑制。
传统模式只能通过选择具体车站名称来进行购票。语音识别技术搭载地图软件可实现模糊地点搜索,可覆盖到景点、地标、楼宇、小区和道路等各种非车站名称。语音识别乘客所述的地点信息后,若为车站名称,则直接进入购票界面,并提供换乘路径、距离等信息;若非车站名称,则访问地图软件查询附近的地点站名,返回对应的车站名称引导乘客购票。当检索到多个候选目的车站时,提供多个目的车站名称供乘客选择。
知识库系统是向乘客提供语音咨询各项服务的核心,可通过对文字、图片、视频等信息进行录入、管理和加工,为乘客提供智能化显示。乘客可通过智能客服中心、智能咨询机等语音咨询终端,对运营线路、首末班车、票价、票务政策、站内设施、站外路线、车站出入口等城市轨道交通常见信息进行语音自助查询。
语音识别硬件包括摄像头、录音分压板、线性麦克风阵列、语音识别模组,其中,语音识别模组可集成人脸检测、唇动检测、麦克风阵列降噪、语音交互算法。语音终端设备架构图如图3所示。
图3 语音终端硬件架构图
摄像头感知到乘客后,发送信号给语音识别模组,控制录音分压板和线性麦克风阵列工作,麦克风阵列降噪算法对两侧噪声进行抑制、回声消除等降噪处理,确保录音音频的质量。语音识别模组将录音通过语音交互算法发送到语音云平台进行处理,获取语义理解结果;语音识别模组在获取语义理解结果后通过串口传给工控机;工控机在接收到语义结果后,根据业务类型、意图、关键词判断是否执行操作,即可快速实现语音交互功能。
嵌入语音识别功能后的AFC系统架构如图4所示。
图4 嵌入语音识别的AFC系统架构图
自动售票机、票务处理终端、智能客服中心等设备通过有线网络,智能咨询机、智能机器人和智能手持终端通过无线网络接入AFC系统专网,并通过互联网票务平台的安全接口连接外网接入语音云平台实现终端设备的语音交互功能。购票、票卡处理交易依次上传至车站计算机系统、线路中央计算机系统、清分系统,由清分系统与城市一卡通、金融IC卡等外部系统进行清分结算,由互联网票务平台统一接入微信、支付宝、银联等第三方支付系统完成互联网支付功能。
针对城市轨道交通语音业务,全线网建设统一的语音处理平台,具体系统架构如图5所示,整个系统划分为4层,从下到上分别为硬件层、算法层、接入层、应用层。
图5 语音云平台系统架构图
4.3.1 硬件层
硬件层在机房搭载部署语音交互引擎、人工智能(AI)语义结构化可视化开发平台所需的图形处理服务器(GPU)、中央处理服务器(CPU),并部署引擎及平台运行所需的服务组件,包括但不限于调度服务、消息中间件、数据库。
4.3.2 算法层
算法层部署语音交互所需的语音识别、语义理解、语音合成引擎,并部署AI语义结构化可视化开发平台,使终端设备具备“听”“懂”“说”这3项能力。同时支持购票、线网图查询、站内导航等语义技能的可视化开发,满足持续优化语义理解效果的需求,从而不断提升自动售票机、智能客服中心等语音交互的智能度。
语音识别好比“机器的听觉系统”,它让机器通过识别和理解,把语音信号转变为相应的文本或命令。语音识别的效果直接影响系统设备能否获取乘客真实的需求,应特别关注语音识别的准确率,以及支持所在服务地区方言语种的需求。语音识别应支持线网所有语音终端设备接入的需求,语音识别准确率至少达98%,语音输入速度至少180 字/min,并实时返回识别结果,达到边录入边识别的效果。
语义理解最大的挑战是如何理解乘客同一个意图的不同问法。系统应支持词槽抽取,以及乘客模糊表达、断句、多音字的容错理解,采用多轮会话、上下文语义理解。为提高语义理解效果,需要不断积累城市轨道交通行业语料。
语音合成解决的主要问题是将文字转换为声音,语音的自然度取决于发音声调的变化,而在连续语音流中,字的发音不仅与这个字本身发音有关,还受到前后相邻字的发音以及语气表达的影响。基于城市轨道交通应用场景,调整合成的语速、音色、音量以及各种发音细节,极大提升合成音的“拟人度”,从而让语言终端设备提供亲切自然的服务。
4.3.3 接入层
接入层是通过语音识别模组、软件开发工具包(SDK)等接入方式,实现硬件采集音频,软件通过SDK上传到算法层进行语音识别、语义理解处理,并进行业务结果回答播报的语音交互接入方案。
4.3.4 应用层
应用层包含自动售票机、智能客服终端、智能机器人等语音交互设备。自动售票机在原有触屏购票的基础上增加语音购票功能,实现语音购票与触屏交互的结合;智能客服终端、智能机器人为乘客提供线网图查询、乘车路线查询、票价查询、站内导航等业务咨询服务。后期可接入城市轨道交通app、微信公众号和小程序等,满足乘客随时随地语音问询的需求。
语音识别技术作为一项高度智能的科技手段,应用于城市轨道交通,可实现无接触式交互,为乘客提供购票、问询等业务功能,实现车站服务的自助化、智能化、人性化。通过对语音识别技术在城市轨道交通AFC系统应用的全方位整体规划,极大推动语音识别技术在城市轨道交通智慧乘客服务领域的应用,促进城市轨道交通智能化转型升级。