驰声：语言学习的“智慧大脑”

2018-12-25 09:09董莉

IT经理世界 2018年24期

董莉

林远东从没想过当年在剑桥大学上学时，当中文老师的经历会在后来的创业道路上成为一束激发头脑风暴的光。

“当时，外国学生学习中文时有一个音一直掌握不好，就是ü，经常会发错音。通过一位教学专家传授经验，我告诉学生把发E的音，嘴形变成U，就可以发ü。”林远东回忆道，“那么，有没有办法让我知道这个孩子实际上错成什么了。有了这个办法就可以通过嘴形和各种各样的结构图，指导孩子进行正确的发音练习。但目前市面上的常有的方式能做到的是评分，但是我要告诉学习者，怎样去正确发音。”

而这个灵感激发让林远东在之后的创业中有了不一样的思考角度。

驰声创始人及CEO林远东，他的团队以源于剑桥大学的智能语音技术为起点，帮助客户实现人机互动的智能学习

2007年，驰声在英国剑桥初步建立团队的时候，人工智能还不像现在这么火热。彼时林远东他们的想法很简单——口语练习在技术出现之前很难形成闭环，大量的口语练习在课堂教学里面很不现实，“结合自身的经历，我们用智能语音技术很好的解决了这个问题，我在这个行业也坚守10多年了，从未离开。”驰声创始人及CEO林远东介绍，团队以源于剑桥大学的智能语音技术为起点，自主研发了基于大数据、深度学习的智能语音系列技术，帮助客户实现人机互动的智能学习产品。

多年来，围绕语言教育，驰声的技术已经发展为三方面能力的评估：第一个为发音能力评估，主要解决单词、句子、段落和篇章朗读的发音评分，单词可以实现音素级发音检测、重读检测等一系列和语言教育相关的维度;第二个是语用能力评估，比如说限定场景的选择题，主要考察学生在某个环境下的语用能力;第三个是开放题型评估，如口语作文、话题复述等等，考察的是学生运用已经掌握的英语知识，完整表达意思的能力。

语言学习者重复犯错怎么办？

林远东认为，人工智能在智能语音、口语评测的发展路径分为三步，第一步是建立标准，第二步是个性诊断，第三步是反馈指导。他认为智能技术在教育领域要向前深入一个阶段，作为技术人员来讲，就要强迫自己深入到教育行业。“当你要深入这个行业本身，你要去汲取这个行业里面的内容，这是很难的，更难的是放弃自己原来的立场，深入融合教育的知识和理论。”

驰声从2007年开始专注语音评测技术，2008年推出了业内第一评估中文声调、评价中文发音能力的SDK;2009年推出了业内第一个基于网页的无插件英文发音评估SDK;2015年推出业界第一个支持微信语音的发音评估SDK等。

这背后是核心团队对于痛点细致入微的拆分了解。林远东曾调取了线上数据，下载了五百多条语音，自己一条一条去听。他吃惊地发现：很多用户发音的时候总是在重复犯错，短时间内练同一个内容，第1次错和第10次的错误是一样的。驰声语音评测实验室也做了相关研究，通过调取大量的录音数据发现，85%的语言学习者，总是在重复犯错。

“这是对我很大的打击。85%的人在浪费他们的时间，虽然他们在不断地读，但是仍不断犯同样的错误。”林远东说，“虽然我们完成了自动评分，告诉他读得不好，但只是重复犯错，没有什么意义。”

每一项技术的发展，都是发挥技术之所长，去对老师所不擅长的工作进行填补，而不是取代

驰声提出了一条新的研发路径——“评分-诊断-反馈指导”。目前市场上大多数语音评测公司都处在“建立标准”的阶段，为一份口语作业打分或者评价优良中差。驰声率先实现“个性诊断”，今年推出了新技术“诊断纠错内核”。针对单词发音评分，通过构建一个扩展网络的形式，可以支持任意单词的音素级插入、删除和替换错误。以match这个单词为例，如果[m?t?]读成[m?t?]，就会有相应的错误发音提示，以及正确的发音指导。直观呈现学习者实际发音的音素序列并进行错误标注，意义就在于告诉学生：你错了，错在这里，怎么错的。再结合最后一步“反馈指导”，用文字、图片、视频的方式告诉学生如何去提升，最终达到“拒绝重复犯错”，快速提高语言学习效率的目的。

林远东表示，2014年，驰声语音平台一天的录音数据超过千万，现在每天的录音峰值达到大几千万的次数，目前用户使用量还在持续猛增。“虽然使用量上升内心会感受到无比幸福，但也许有一天使用量开始回落的时候，你会感觉到另外一种幸福，那是行業的福分。当个性化诊断和反馈指导得到实践，一个孩子不需要练习100次而在第10次就能得到提升，为什么还要让他练习100次，消耗用户时间、消耗计算机资源、消耗客户金钱呢？”

AI+K12语言教育怎么玩？

目前，驰声的语音技术授权业务，主要面向英语培训机构、出版社、教育软件、在线教育、教育硬件和考试服务机构等提供口语测评技术支持，服务的用户遍及132个国家和地区。于是，驰声语音评测实验室提出了一个新课题——AI+K12语言教育，除了口语评测还能做什么？

驰声一直在思考智能语音技术如何能更好地服务K12的教学场景，为此定义了三个场景：一、正式考试环境下根据人工定标数据的标准进行自动评分，驰声提供了一个AMS，已经服务了多个地区的英语听说考试;二、考辅分为备考和模考的环境，驰声提供CESE平台，辅助校园听说日常测评和阶段性考试;三、在课外，驰声也可以为学生自学提供一些口语的发音能力评估。

在遵循“评分-诊断-反馈指导”的技术创新路径上，除了诊断纠错内核，驰声今年还发布了另一项创新技术——开放题型多维度评估。

据了解，开放题型多维度评估，该技术与近年来各省市在中高考中增加英语口语考试的机缘密不可分。作为中国真正有中高考英语听说人机对话考试实施经验的两家语音厂商之一，驰声与多省、市教育主管部门保持密切协作，共同推动语音测评技术在正式考试、考辅、教辅等各个教学阶段的应用。

开放题型多维度评估结合了词嵌入技术、句法解析、GOP算法等技术，可支持口语作文、看图说话、翻译题等开放题型，评分结果除总分以外，还加入了内容得分、发音得分、语法得分和流利度得分等四个维度。

经测试，开放题型多维度评估的评分性能远远高于以前的基于特征直接拟合总分的情况。该内核更出色的性能特点还在于：自适应评分标准，不同的地区对这四个维度有不同的侧重点，驰声可以根据定标数据学习到该地区在每个维度上的特征和权重，拟合出一个最为适合该地区的评分标准。

新技术还为后期打下了一个伏笔——未来，驰声将在这四个维度上继续往下做，对应着诊断和反馈，比如学习者的语法错在什么位置，应该纠正成什么样。

当被问到驰声不断推出新技术，是否会取代现有老师的功能，林远东表示，其实每一项技术的发展，都是发挥技术之所长，去对老师所不擅长的工作进行填补，而不是取代。如今，教育行业正处于技术和教育融合的阶段。这个阶段里面，智能技术会使得教师角色得到重新定义。未来教师将被丰富为两个角色，第一个是讲课、专业的授课者;第二个是维持课堂秩序，与学生进行近距离的实时互动。教育者在教育过程中承担更多的功能性，包括数据分析的能力，这也是未来教育行业的发展趋势。

驰声也公布了关于下一步的研发计划，内容包括通用声学模型升级、语音自动分类、虚拟教室和基于知识图谱的自适应学习等。