李丽辉,王炜炜,张 涛,景 辉
(1.中国铁道科学研究院集团有限公司 电子计算技术研究所,北京 100081;2. 中国国家铁路集团 有限公司 客运部,北京 100084)
2022年北京冬奥会、冬残奥会在北京、延庆和张家口顺利举办,这是全球首次以高速铁路为主要运送方式的三赛区联动的奥运盛事。冬奥会赛事期间客流由注册利益相关方、团体宾客、国际国内观众及普通旅客构成,时间与我国传统2022农历新年假期部分重合,出行需求多元,出行计划受天气变化和新冠疫情影响不确定性高。考虑到客流成分复杂、需求多样,京张高速铁路在国际化售、验、检等票务服务方面亟需实现新的突破。研究构建了面向冬奥的京张高速铁路智能票务服务技术体系并落地应用,实现国际化售票服务优化和智能化提升,以满足冬奥期间国内外旅客票务服务多元化的需求。
为满足旅客出行全行程服务需求,技术体系共涉及7项关键技术,面向冬奥的京张高速铁路智能票务技术体系如图1所示。其中,基于京张高速铁路冬奥全流程出行链识别的票制协同技术,提出适应冬奥会场景的多元票制、智能化多元票制验检票服务和冬奥特色纸质车票、电子客票样式;研究双语场景下的购票体验与交互协作优化技术,应用柔性匹配翻译技术和交互自适应控制技术研制了中英文自动售票机和12306英文版购票系统;突破全时区国际化售票需求与服务能力匹配,实现全链路业务预警、售票服务资源智能调度和多渠道融合的国际化售票服务通知;研究跨区域冬奥办赛模式下高速铁路运输资源配给与多元运输需求间的协调匹配技术,以及面向多种人群的京张列车席位管理技术和票额分配模型、京张高速铁路超员预警技术和京张高速铁路应急售票服务技术;构建敏感数据发现与审计模型,研究敏感信息识别、采集、传输和审计技术,为冬奥客票系统提供技术支持;构建多模态、多肤色、多模型融合的冬奥旅客人像识别技术,为基于人脸识别技术的进出站验检票应用提供支撑;研究铁路票务客服中英双语语音识别和语义理解技术及知识图谱构建客服知识库及检索技术,提升检索效率和精度。基于以上关键技术研究,实现售票、验票、检票及客服全流程国际化票务服务闭环[1],并开展京张高速铁路智能票务服务应用示范,提升票务国际化和智能化服务水平。
图1 面向冬奥的京张高速铁路智能票务技术体系Fig.1 Intelligent ticketing technology system for Beijing-Zhangjiakou High Speed Railway oriented towards the Winter Olympics
2.1.1 多元票制设计
由于不同旅客对购票频次需求不同,铁路部门可设计多种票制,比如团体票、定期票、单日票(一日计次票)和储值票(中铁银通卡),以满足旅客多样化的票制需求。
本次冬奥会,持注册卡的人员和持奥运门票观众可免费乘车,其他旅客仍按现有规则购票乘车。持注册卡人员通过线上换取定期票免费乘车,席位由系统自动判断分配,因身份注册卡具有辨识度高、可随身携带的特点,将其作为持注册卡人员乘车时的电子客票载体。观众在奥运观赛门票销售官网买票后,可按照奥运门票的票号(唯一编号)享受一次指定区间往返乘车服务(一日计次票),铁路票务系统将根据奥运门票对应的赛事信息,关联旅客身份信息,方便旅客选择乘车日期、出发站和到达站,持票观众仍持实名制证件乘车。
2.1.2 验检票协同
冬奥赛事服务期间,为了满足冬奥疫情管控要求,保障民众安全,降低交叉感染几率,铁路部门创新采用了整列运输、专用车厢和车站内闭环管理的措施。
冬奥会开幕式当天,太子城奥运村的冬奥注册人员乘坐高速铁路从太子城站前往清河站采用整列运输方式。其他时段注册人员则采取预留专用车厢、全程闭环运输的方式,并按预留车厢定员50%分配票额席位,即同一列车分为闭环管理和非闭环管理2个区域,中间设置隔离车厢。
车站对闭环内外区域采用不同的验检票方式,在闭环区域直接扫铁路12306 APP二维码通过闸机经过闭环流线乘车,不核验人证信息,直接扫码检票进站。在车站闭环外区域,需先核验人证信息一致后方可扫码乘车,比照涉奥场馆配备通道式证件核验设备,对身份注册卡及持卡人进行“人-证”核验。
2.1.3 特色车票设计
遵循冬奥主题理念,京张高速铁路车票的图像美学需要体现3方面要素:第一,凸显冬奥特征和冬奥美学,体现冬奥精神;第二,彰显高速铁路创造与建设的成就,传播中国高速铁路文化;第三,呈现京张地域文化特色,从多元化的地方文化中映现中国文化的精彩和深厚。基于冬奥文化、京张历史文化、一站一景等设计理念,完成了6套纸质车票、4套电子客票、2套纪念票样式设计方案,最终选取纸质车票5套、电子客票1套落地应用。选取清河站、延庆站和太子城站作为应用示范车站,冬奥会期间每日打印特色车票量在 1 000 ~ 2 000张,线下累计打印6.8万张冬奥特色纸质报销凭证及纪念票,冬奥会闭幕后仍保持每日1 000张以上的售票量,有力宣传了中国高速铁路品牌[2]。
2.2.1 双语柔性匹配翻译技术
为满足国际旅客购票需求,研究了多语言版本的购票系统。鉴于中英语言差异,在双语转换时,采用柔性匹配翻译技术。该技术选取“动态对等”和“释意学派”作为理论支撑,对语言和句法在形式上处理更加灵活、宽容,实现原文信息的准确传递。研究采取意译、词性转换、句子结构重组、增补逻辑关系衔接词和外语约定俗成表达的翻译方法,实现了12306购票网站、12306 APP及自助售票机自由切换至英文版界面的功能。
2.2.2 多模态购票交互自适应控制技术
为避免“脱网人群”在使用自助票务设备时遇到问题,利用音视频通话、信令控制、呼叫排队、远程控制等技术,对系统架构和服务终端进行升级,在自助售票机上实现了呼叫与应答、呼叫请求自动分派与排队、呼叫转接和远程协助的功能,提供了直接有效沟通和交互的渠道,丰富了旅客视觉和听觉感受,提高了铁路客运服务水平[3]。冬奥期间,将清河站、太子城站、延庆站的呼叫请求优先级设置为最高,保障重要车站的呼入得到快速响应,同时在国外旅客使用自助售票机的英文操作界面时,其呼入请求优先分派到英语沟通能力较好的工作人员。
2.2.3 京张高速铁路售票应用国际版原型系统设计
冬奥期间,12306英文版售票量每日约1 000张;英文版自助售票机在清河站、延庆站和太子城站试点应用,每日服务人次达100余人。这是中国铁路购票方式走向国际迈出的第一步,后期还可根据需要拓展至其他语种。
12306系统运维保障能力在面向冬奥服务需求方面不够完备,一是缺少统一的全链路监控平台,二是服务流量调度不够智能,三是国内外用户的通讯渠道不同。为保障京张高速铁路全时区国际化售票,开展运维保障能力的适用技术研究。
2.3.1 全时区运营服务下全链路业务预警技术
12306系统的全链路监控系统主要存在数据采集不全面、预警信息不精准、故障定位困难等问题。因此在数据采集阶段,需对12306售票系统各个环节进行监控标准规范化以及数据预处理,同时采用预警信息收敛技术使告警通知模块能够根据告警信息严重程度控制告警的数量,采用故障根因分析即通过纵向分析和横向分析相结合方式,将2类 分析划分的异常指标范围进行融合,交叉定位故障点。结合以上研究,设计12306全链路监控平台,实现了数据采集、数据存储、数据分析、数据可视化和监控告警等功能。
2.3.2 京张高速铁路售票服务资源智能调度技术
针对12306系统流量存在高低峰不均衡的情况,在外部服务时,当一中心接入链路不可达时,通过流量配比中心(CDN)将流量切到二中心,此时全部请求都通过二中心的接入链路进入系统,实现双中心的流量调度[4];CDN还可以接收来自不同通信运营区域的客户IP业务请求,并设置不同的专线配比转发给客户端和服务端,客户端和服务端根据流量调度模块监测的流量变化优化调整配比设置,实现CDN与源站联动流量调度。在内部服务时,当Web等后端服务故障时,通过接入网关将流量切到二中心各应用服务;当单个集群故障,将自动隔离故障,当单中心集群全部故障时,通过统一配置管理指向二中心集群。
2.3.3 多渠道融合的国际化售票服务通知技术
通过研究频道式推送、邮件式推送、网页式推送、移动信息式推送等信息推送技术,通过12306网站和APP、微信公众号和小程序、支付宝、邮箱、短信等多种通知方式推送购票、车票变更、出行、行程变动、天气通知及疫情等政策性通知,并基于用户画像设计了智能通知系统,该系统具备对接客票交易信息、正晚点/停运等客运信息、天气等外部信息、铁路既有广告平台等能力,可根据通知内容需要进行内容组装。另外邮件通知还支持国际官方语言法文和英文,实现了多渠道的国际化场景下多种信息的推送。
2.4.1 多元运输需求与运输资源协调匹配
客流预测是开行方案设计的基础。客流预测需考虑多种影响因素,首先对客流成分进行划分,再分析其出行需求和出行特征[5]。冬奥客流主要受赛程和比赛场地的影响,普通客流主要分析时间(节假日、周分析和小时)分布,以及OD客流空间特征。普通客流可采取差分自回归移动平均模型进行建模预测;观赛流可根据比赛场馆的容纳人数、比赛的上座率及高速铁路在不同交通方式中的客流承担比例,得出观赛客流的总数,基于客流预测结果再对高速铁路运输资源匹配调整。冬奥期间,既需满足冬奥客流出行需求,又需满足铁路企业对于成本控制的期望[6]。通过建立用户满意度与企业资源成本间的多目标优化模型,优化高速铁路运力资源配给方案,达到旅客需求与高速铁路运力资源间的协调匹配。
2.4.2 票额分配与席位管理
针对冬奥闭环运输与非闭环运输的特点,设计了与之配套的票额分配与席位管理策略。票额根据客流类型设置“奥运闭环”“奥运非闭环”“奥运观赛” 3个奥运专用用途;席位策略按照一站直达设置,席位不共用、不复用、不设转票策略。
2.4.3 应急售票服务技术
对冬奥设立专窗应急服务,并对冬奥数据进行实时的数据更新和备份。网络端保障冬奥售检票所需关键数据服务正常,并对预估的客流高峰做好应急准备;对于核验不通过的问题,通过订单信息进行身份匹配。普通客流则按照常规方法进行应急。
2.4.4 超员预警技术
列车开行前,通过售票策略,包括无座席的上限控制、短途车票控制、指定区间停售、区间售票张数控制等,实现超员控制的目的。列车开行后,通过区间客流数据动态监测,包括整列预警、分车厢预警、大上大下预警方式,实现超员预警的目的。
客票系统为冬奥旅客提供在线购票、在线支付、刷证乘车、扫码乘车等服务,实名制售票是客票系统的核心特征之一。客票实名制数据包含旅客的证件号、姓名等敏感信息,一旦泄露将造成无法挽回的后果。为解决冬奥期间敏感数据的安全问题,首先梳理冬奥旅客敏感数据流程。在敏感数据识别过程,通过基础识别技术、正则表达式和机器学习实现对客票系统的数据库、数据仓库和应用程序编程接口(API)的敏感数据识别。在数据采集过程中,线上通过更新12306隐私政策,明确提示采集了哪些信息及用途,线下结合业务自研了去标识化算法,从而实现身份证号、身份注册卡的去标识化。在数据传输过程中,部署网络加密机等设备进行通道加密,在客票网络测试环境,部署了安全网关,使用国密算法实现数据加密传输。在数据存储阶段,根据冬奥旅客个人信息特征编辑1亿条数据测试,匿名化后存储于数据库中。数据脱敏处理阶段,在运维场景下采用数据失真/扰乱技术,可通过对原始数据的部分或全局修改,隐藏原始数据敏感信息;在业务场景中采用加密技术,通过公钥密码安全机制对数据值进行加密,防止数据隐私泄露;在数据交换中采用数据限制发布技术,按照最小授权原则控制数据访问权限,从而降低数据泄露风险。数据安全审计方面,需要覆盖数据处理各参与方以及整个数据生命周期,制定覆盖系统行为和数据活动的安全审计策略与规程,明确审计对象、审计目的、审计内容、审计方法、审计频度、相关角色和职责、管理层承诺、供应链上各参与方协调、合规性分析等内容,建立数据安全审计规程与协调机制,确保审计事件的可追溯性。
在冬奥期间,成立了冬奥网络安全小组,设计了安全性更高的冬奥二维码电子票,对注册利益相关方统一采用安全性更高的注册卡作为购票乘车凭证,通过对比系统中存储的注册卡信息进行身份核验。
冬奥期间针对疫情时旅客戴口罩、各国人群不同肤色以及光线差等原因造成的采集图像质量差等面部识别需求,分别采用多模态人脸识别算法、多肤色人像识别算法和图像质量分析择优技术解决。
2.6.1 针对口罩遮挡的多模态人脸识别算法
多模态人脸识别模型的特征提取分为2部分,第一步需识别是否佩戴口罩,对未佩戴口罩的旅客警报提醒;第二步再对戴口罩的人脸进行特征提取和识别。
算法的第一步,可设计一个专门的分类网络,将检测到的人脸校准后作为输入,通过一系列卷积、池化操作后,将是否被遮挡做一个二分类,或者根据遮挡物种类、遮挡部位做一个多分类,采用一个ResNet-18网络可解决[6];第二步,人脸的特征通过多层卷积网络提取得到[7]。为了让算法同时兼容遮挡人脸和非遮挡人脸的特征值提取,采用基于注意力机制的人脸识别算法设计,提取出的特征值可以直接进行检索和匹配,不需要同时设计2套算法,提高了算法使用的效率。
2.6.2 多肤色人像识别算法
多肤色人像识别算法由2个核心算法组成:多人种识别模型和相应的人脸识别模型[8]。其中,多人种识别模型负责对待测人脸进行人种分类,该模型采用残差结构,提取人像种族特征,并做出人种分类决策。相应的人脸识别模型则负责对特定人种进行身份识别,人脸识别算法模型可以看作是一个分类模型,通过对训练集中的人脸数据进行细粒度分类,可以让模型学习到对人脸识别任务最有用的特征。模型将直接依据对比提取的特征向量来判断2张图片所示的人脸是否身份统一。
2.6.3 图像质量分析择优技术
由于现场逆光现象普遍、旅客面部偏转角度大和旅客行进速度快等原因,导致图像采集质量差。考虑采用基于深度学习的综合人脸图像质量分析方法[9],这种方法是采用3个人脸图像存在明显差异的数据集,采用学习排序的方法进行质量评估,然后采用终端图像处理技术对采集到的图片序列进一步进行人像解析与去重,从而降低网络传输带宽、减少高负载计算并提高检出效率。
冬奥期间,在太子城站试点了应用测温、刷脸一体化的“无接触”出站检票闸机,该闸机经过算法(多模态人像识别算法+图像质量分析算法+曝光感应算法)优化和硬件改造(增加测温模块、可调光摄像头),实现了旅客无接触出站。数据显示,戴口罩通过率从64%提升到84%,无口罩通过率从88%提升到94.5%。该功能的上线,可在疫情期间降低摘口罩的机会,减少了人员接触,助力了疫情防控。
目前铁路客服主要分为车站列车线下及铁路客户服务中心线上2种形式,线上服务仍以电话人工为主[10]。随着新线开通业务增长和铁路客服国际化的迫切需求,着手研究符合国际化需求的智能客户服务。
2.7.1 语音识别关键技术
语音识别技术是人机交互过程的一项关键技术,其核心在于如何运用语音识别算法获得更好的识别率。当句子过长时,传统的端到端模型的性能下降得比较快,且因对每个词赋予了相同的权重,造成句中不同词之间没有明确的区分度。注意力机制模型可解决这个问题,其本质是加权求和。匹配度的计算和加权向量的计算是注意力机制的两大组成部分。匹配度的计算主要判断输入的哪个部分更需关注、更重要。注意力机制模型从经过编码模块的声学信息中挑选对下一个汉字的预测最有帮助的信息片段,并将这些片段进行合并,输送给解码模块输出下一个汉字的预测概率。注意力机制模型使编解码模块很好地进行声学模型和语言模型的联合建模,从而解决2个模型之间的协同问题,提高语音识别的准确率。
2.7.2 语义理解关键技术
利用语义和语法分析将语音识别的结果转化为计算机能够理解的结果化表现形式,将用户的输入映射到根据不同场景预先定义的语义槽中。
语义理解处理过程包括3个任务:领域检测、意图识别和语义槽填充。铁路客运领域分类模型如图2所示。领域检测和意图识别属于文本分类任务,根据当前用户的输入推断出用户的意图和涉及的领域;语义槽填充本质上属于序列标注问题,目的是识别句子中的语义槽和其对应的值。
图2 铁路客运领域分类模型Fig.2 Classification model for railway passenger transport
2.7.3 知识图谱构建关键技术
利用知识图谱可对自然语言形式的问题进行语义理解和解析,进而利用知识库查询、推理,最终得到答案。
基于深度学习的知识库问答(KBQA)通常采用端到端的方式,将建模问题表示和属性关联,直接将问题和知识图谱作为模型输入,并预测属性理解的结果,问题和知识图谱的特征表示及模型的其他参数同时进行训练。端到端的问题理解模型的优点是可避免人工设计模式或特征。
通过基于注意力机制的语音识别模型实现了语音识别,解决了声学模型和语言模型之间的协同问题,大幅简化了语音识别算法训练流程;基于知识图谱构建了客服知识库,通过知识建模、数据获取、图谱构建、知识应用等技术,应用于智能语音导航系统,大幅度提升了知识检索的效率与精度,智能语音导航业务覆盖率达93.2%。基于以上研究实现了智能语音导航系统构建,并在北京铁路客服中心进行了试点,每日话务分流约7 000通电话,机器座席话务分流能力相当于增加约64个人工座席。
面向冬奥的京张高速铁路智能票务关键技术不仅为北京冬奥会旅客购票提供了一流的服务,还促进了奥运交通产业向科技引领、产业创新和绿色节能方向发展,为铁路运输行业发展提供持久动力,为后期铁路承担其他大型活动的运输任务积累了宝贵经验,对向其他线路推广极具参考价值。长远来看,国际化的服务将提升我国高速铁路海外市场竞争力,同时带动相关领域的技术和经济发展;可进一步提高我国高速铁路在全球的品牌地位,助力“一带一路”倡议的实施;以服务冬奥科学办赛为契机,可引领低碳、环保、绿色的高速铁路出行趋势,促进环境可持续发展。