刘 宸,毛 琦,李 彦,朱晓芒,董文欣
(西安交通大学 网络信息中心,陕西 西安710049)
随着互联网技术和信息技术的飞速发展,高校信息化服务逐步向智能化、网络化和个性化的方向发展。与此同时,人工智能迅速发展,对于机器人替代人工去做一些重复性、计算量大的工作来说,有巨大的潜力空间。在此背景下,一些巨头公司已经朝此方向发力并推出一系列智能语音助手的产品,例如苹果的Siri、微软的Cortana、Google Now、百度语音助手等,在一定程度上满足了人们获取百科知识、查询生活信息、控制智能家居,特别是聊天娱乐等情感方面的需要。[1]但是对于相对专业的业务领域,比如政务、教育、电商、金融等,上述产品无法得到深入应用并解决相关专业问题。
为帮助师生解答网络使用和应用系统相关问题,笔者学校网络信息中心提供了网站、热线电话、微信、邮箱等途径,但这些传统服务方式都存在诸多弊端。然而通过借助以自然语言处理、语音识别、图像识别和深度学习等为主的人工智能技术构建的智能应答系统,在信息化服务中,能帮助高校与用户实现智能化人机交互,可有效减少客服成本、提升服务质量。[2]
高校信息化服务一直面临烦琐复杂的困境。故障发生,电话联系;人工办理,纸质记录;方式单一,效率低下;服务时间难以保障。迫切需要借助智能化、自助化的手段来满足高校信息化高速发展的需求。
(1)多渠道整合:智能化移动设备普及,导致服务入口多样化,咨询从不同渠道反馈而来,客服缺乏统一的工作平台,工作需要在多平台之间切换,人工作业忙碌低效。
(2)服务时效性:高校信息化快速发展,传统服务渠道无法支撑服务的时效性,客户问题不能及时解决,甚至经常需要排队等待。
(3)重复性解答率高:用户咨询问题重复率极高,需要消耗客服大量的时间去回答相似问题,最终造成了客服人力成本居高不下。
(4)行业专业性:高校信息化服务往往以咨询服务为主,用户咨询多涉及信息化专业术语及政策,常规的客服培训难以满足高校特定需求。
(5)内部协同处理:除了较为复杂的使用场景和操作之外,高校信息化服务面对的客户问题,往往不仅仅是简单的售前售后咨询,还需要中心内部多个部门共同协助解决。如果内部流转制度不够顺畅,就无法确保用户问题的流畅流转和处理效率。
(6)数据孤岛:不能跟踪客户数据,无法分析用户行为,不能指导客服和其他部门全面对接,无法对用户服务大数据进行收集、整理和分析。
(7)服务方式转型:服务需求量增大,用户从传统的信息接收者转变为需求提出方,以往的客服被动服务难以满足消费者增长需求。
采用人工智能技术搭建的智能应答系统,包括用户接入、客户服务和服务管理三大组成部分,形成一个完整流转的闭环系统。西安交通大学智能应答系统结构如图1所示。各主要模块功能定义如下。
(1)用户接入基于一个通用平台连接现有门户网站、微信公众号、QQ群、手机APP、智能硬件机器人等的互动交流平台,线上线下互补,全渠道用户接入。
(2)客户服务涵盖全功能服务、服务过程跟踪和协作平台,包括机器人客服、人工在线客服、云呼叫中心和工单系统。提供人机协作模式可以满足机器人无法回答的复杂问题自动无缝转接至人工回复,机器人可以自动学习人工的回答。无人工协作的情况下,未解答的问题实现自动记录、持续学习和训练。
(3)服务管理包括用户关系管理、客服智能质检及培训,通过分析用户服务大数据,建立客户精细分类、刻画客户画像、服务营销管理、进行舆情分析决策。
图1 智能应答系统架构图
智能应答系统的核心技术是基于自然语言处理的相关技术,包括知识库和语料库的建设、文本的切分和标注、句子的语法分析和语义分析等。[3]
自然语言处理主要步骤包括分词、词法分析、语法分析、语义分析等。其中,分词是指将文章或句子按含义、以词组的形式分开,其中英文因其语言格式天然进行了词汇分隔,而中文等语言则需要对词组进行拆分。词法分析是指对各类语言的词头、词根、词尾进行拆分,各类语言中名词、动词、形容词、副词、介词进行分类,并对多种词义进行选择。语法分析是指通过语法树或其他算法,分析主语、谓语、宾语、定语、状语、补语等句子元素。语义分析是指通过选择词的正确含义,在正确句法的指导下,将句子的正确含义表达出来。[4]
知识库是知识的存储器,用于存储领域专家的经验性知识以及有关事实、一般常识等。知识库包含三类知识:①基于专家经验的判断性规则;②用于推理、问题求解的控制性规则;③用于说明问题的状态、事实和概念以及当前条件的数据。其基本任务是提供问题求解以及问题解释所需的知识。
知识库是整个智能应答系统的基础,其中知识质量的优劣、层次的高低、数量的多寡决定了问题求解结果的科学合理性和求解问题的覆盖范围。[5]
(1)常规问题知识库建设
以我校信息化服务为例,前期针对学生、教工和家属三大类人群区分,梳理大量信息化服务工作中常见的问题和咨询,做成一问一答的形式。并且对问题进行归纳分类,比如分为常用语、常规问题、费用、网络邮箱申请、网络使用、故障报修、应用系统、NetID和校园卡、考勤等14大类,方便后期对知识库进行维护管理。
常规知识库支持批量导入导出、自定义手动添加和从未识别问题中自动提取等多种方式更新添加。支持一个问题添加多个答案、富文本式答案、知识点关联等,使内容初始化更加便捷易操作。知识库格式如表1所示。
表1 常规知识库创建示例
(2)复杂流程知识库建设
高校服务过程中,并不是所有的问题都可以通过一问一答的方式进行解决,常常有很多较复杂的咨询场景。如学生问到“上不了网了怎么办?”这个问题,会出现多种不明确情况,只有找到上不了网的真正原因,才可具体解决学生的问题。对于这类缺失相关变量的复杂流程,可通过动态问答或者多轮会话的方式构建知识库,引导学生明确原因,进而给出准确回复。
智能应答系统在提问和回答处理过程中分为:用户问题全方位处理、用户意图精准识别和回答输出三个步骤,[6]其处理过程如图2所示。
(1)用户问题全方位处理
使用上下文对话系统进行session切分;利用ngram特征、正则表达式特征、主题模型特征对用户的问题进行多维度的特征提取;[7]使用NLP相关技术处理原始问题。如对问题进行智能分词,利用海量数据训练积累的基础模型对分词进行纠错、词嵌入转换等处理,融合上一步特征提取得到的多维度数据,最终得到用户问题的高维空间向量表示。
(2)使用问题意图识别模型在线进行用户意图预测
将预处理得到的问题的高维空间向量表示输入模型,进行深度神经网络计算。计算结果输出与标准知识库中知识的匹配概率分布,通过置信区间过滤将要预测的用户意图。将用户意图定位到目标问题。
(3)回答输出
识别用户意图后,机器人按以下三种方式输出回复反馈,全面场景应对模式让机器人容错率极高,同时异常情况下用户也很难感受到操作体验上的不适。①用户提问描述准确找到对应标准问题,则输出该问题的标准回答;②用户提问较为模糊,对应多个关联度的问题或知识,则推送关联度较高的问题和信息内容,供用户选择,并提示用户;③用户所述问题不在知识库范围内,且未找到相关知识,则推送常见问题,并对用户的提问进行记录学习。
在回答输出中可设置和输出复合型回答内容,包括图片、链接、表格、流程化问答等,满足了多元化的提问和复杂应用场景的需求。最后对未识别问题记录日志,通过在线日志挖掘、意图聚类等方法在线训练问题识别模型,使模型的能力不断增强。提问和回答处理如图2所示。
图2 提问和回答处理
问题识别模型构建主要包括训练集构建和问题识别模型生成两步。其中训练集构建包括问题收集、语料库构建、语料标注等子步骤;问题识别模型生成包括模型训练、模型评测等子步骤,其处理过程如图3所示。
问题收集和语料库构建采用人工和算法结合的方式,首先对问题领域进行分析,找到种子问题。然后对种子问题进行智能分词,每个词通过词嵌入(word embedding)等NLP技术把相关的词找出来,结合词性标注、位置序列等信息做笛卡尔积,构建出大规模的语料库。最后通过人工标注对语料进行标注,去掉无效语料。然后结合深度学习的LSTM和卷积神经网络,对训练集进行训练,通过模型评测保证训练质量。当准确率达到判定阈值后对模型上线生效。
图3 学习和训练处理