让AI“不智障”,用好领域内数据是关键

2019-03-04 01:24
中国科技财富 2019年2期
关键词:客服语音领域

文/本刊记者 史 诗

金融领域对智能交互的强需求,至少在10年前就显示出来。2009年甚至更早之前,以银行为首的金融行业,就已经在在其系统中尝试使用客服机器人,满足客户的基本需求。

截止到2014年,基于FAQ的客服机器人基本上是各类金融机构的标配。只是,FAQ能够处理的任务相对简单固定,而且效果一般。不仅没有提升金融机构们的效率,还时常因为体验不佳对用户造成困扰。

2015年以来,深度学习算法将人工智能请出“冷板凳”,第三次人工智能浪潮浩浩荡荡开始了,最先影响到的便是金融领域。原因就在于,智能交互对于金融领域的企业而言,可以说是绝对刚需。

还有另一个原因,就客服这一项而言,金融领域用户量巨大,日常交互频率极高,人工客服成本高,且服务无法稳定输出,人工智能赋能下的智能客服则更具优势。此外,人工智能还能在反欺诈、客户行为预测与价值挖掘、智能投顾、智能外呼等方面发挥巨大作用。但在实际使用中,用户也常常表达对当前人工智能的不满,认为与其说是人工智能不如说是人工智障。的确,体验不佳的智能交互,给用户造成的困扰远远大于惊喜。

怎么做才能提升智能交互的效能与价值?

深度学习,基础是数据的质与量

数据是深度学习的关键要素,数据质量是模型的准确度和识别能力的重要影响因素,而模型准确度和识别能力则直接决定了智能交互的效能与价值。简单来说,智能交互体验好不好,基础是数据。

第一个需要解决的问题,是高质量的数据采集。针对语音智能交互而言,指的就是语音数据。数据在人工智能时代是稀缺资源,尤其是语音数据,非常年的积累、庞大的用户群无法获得。玖富在金融领域拥有12年的专注,累计用户7000万,且业务场景覆盖面广,涉足金融行业的多个方向,因此拥有着惊人的数据量。加之近几年,随着智能手机的普及,前端设备在语音数据采集、降噪方面表现越来越好,因此语音数据的质量得到了初步的保证。

第二个需要解决的问题,是数据采集之后的清洗与标注。采集来的数据无法直接用来训练模型,需要经过处理。目前玖富在金融领域的文本标注训练数据积累已经达到了数百万,视频图像标注训练数据积累也已达到了百万级别,语音标注训练数据积累达到数千小时。目前玖富已经研发出一套自动标注系统,大量数据可以运用自动标注系统进行标注,再由人工进行补充测试筛查,完成整体标注任务。

第三个需要解决的问题,就是模型训练。在这方面,玖富多年来大胆尝试,积极探索前沿科技,与全球顶级科研机构开展合作,并在北京、硅谷等地建立创新实验室,以保持在技术方面的领先。举例而言,2018年玖富集团分别联合中科院自动化研究所和清华大学五道口金融学院成立联合实验室/研究中心,推动中国金融业与人工智能等技术的全面融合。基于此,玖富在通用的NLP训练基础上,也针对特定金融场景中的训练进行了优化,例如语音端点检测(VAD),将长语音切短;语音识别声学模型建模单元为声韵母,BLSTM-CTC模型;解码算法,基于3-gram的WFST搜索空间等。

此外,从前CNN/RNN的成功应用,深度学习在自然语言处理方向取得了长足的进展,但缺陷是在随着梯度迭代,会出现语义信息丢失,另外在上下文关联上也没有好的解决方案。在2017、2018年中,attention、memory机制在机器翻译、情感识别等领域都在之前的准确率基础上又取得了提升。2018年谷歌的bert预训练模型推出后,可以利用小批量的数据进行二次训练,就可以在文本分类、意图识别中取得良好的准确率。

巧用领域内数据,提升用户体验

在技术层面提升数据的质与量,不断优化算法训练模型之外,产品本身的设计也非常重要。尤其是考虑到数据分布的不均匀会造成模型的语义倾斜,所以针对特定领域内的语音识别模型,为了提高在该领域内数据的识别准确率,必须要在训练集中加入一定比例的领域内数据。

在玖富的产品设计中,利用领域内的数据来提升智能交互的效能和价值是一大特点。目前,玖富的产品实际形态有三个,分别是智能客服(智能问答机器人)、智能语音外呼、智能对话分析(智能质检+智能助手)。

以智能外呼系统中的催收数据为例,我们可以更直观的看到这一特性。首先是数据预处理,去除特殊字符以及字符转换(阿拉伯数字和中文数字之间的转换,以及英语字母大小写之间的转换),进行简单的文本纠错,分词,去停用词,在此期间需要建立金融领域内的分词词典和停用词表;其次是需要根据业务需求来调整训练集中各类别数据的比例,并整理成符合模型输入条件的数据格式;最后选择合适的模型,并进行参数调优。

在智能外呼这个产品中,基于对历史注册用户的通话数据分析,玖富开发了一套用于提升整体接通率的模型;在NLP模型中,为了提高客户意图识别的准确性,利用了模型融合的方法,依靠深度学习来增强对语义的理解,综合了多种文本相似度和文本分类方法,对用户意图进行判断,综合多轮对话的内容,最终给出用户的意图。

玖富智能客服在2017年底上线,已经稳定运行了一年,为商城用户提供常见问题咨询。而智能语音外呼是2018年的主打产品,已经对接了催收、电销等多个业务,而且意图识别准确率和用户还款率都要高于同业产品,同时提供了包括拨打策略、用户意图分析、用户未接通原因等配套服务,能在2019年投入使用。智能对话分析已在玖富全业务线中广泛投入使用,并得到良好反馈。2019年将围绕客户满意度与产生业务价值,重点优化智能质检和智能助手功能,提升智能对话分析能力。

猜你喜欢
客服语音领域
电子战领域的争锋
将现代科技应用于Hi-Fi领域 Perlisten S7tse
语音推销
2020 IT领域大事记
领域·对峙
魔力语音
基于MQ3与MP3的价廉物美的酒驾语音提醒器
数字滤波在语音信号降噪中的应用
对方正在输入……
建议