李嘉文
2017年12月,浙江外国语学院国际学院,来自俄罗斯、韩国、赞比亚等6个国家的11位外国留学生各自完成了一篇题为《我的爱好》的中文作文。最终,对于其中一篇不到200字的文章,“老师”圈出了8处语法和用词错误,比如它指出了“会教给外国人学习中文”中的“会教给”有语序错误,应改为“教会”—整个批改时间只用了几十秒。
没错,这篇作文的批改工作是由一位特殊的老师—阿里巴巴的人工智能(AI)系统完成的,这是为了测试系统中的自然语言处理能力而做的一次尝试。
或许你还记得2017年6月,人工智能系统参加过中国的高考(详情请参见2017年6月19日刊《机器人考生来了,但它可能更想当老师》),半年后,它不仅已从“考生”升级到了“老师”,还挑战了对于计算机系统来说更难处理的作文—要知道,此前的人工智能解答的可都是数学题,即使如此,一旦遇到文字过多的题目就很容易读不懂。
在图像识别、声音识别这两个领域,AI技术已经发展得比较成熟了。系统处理图像和声音的错误率基本低于5%,这样的错误率代表着机器在这方面的能力已经可以超越人类。而此次AI批阅中文作文,则意味着AI对于人类语言的处理也开始变得越来越精准。
据阿里巴巴的相关工程师介绍,AI系统阅卷的第一步即扫描试卷,随后将扫描图像转化为文字显示在电脑上,接下来AI系统会对中文语言部分作出处理,采用代表不同意义的符号在试卷内容上圈出多词、缺词、错词和词序等错误。
此前,阿里巴巴的AI系统已经学习了几十万字的中文语言,通过扫描仪读取试卷信息,利用文本识别技术将信息转换成文本,之后启动自然语言处理算法分析,并识别出错位类型和位置,最后批注在试卷上。
这其中包括手写文字图像识别转化、识别用词以及语法错误等步骤。针对第一步手写文字的图像转化,阿里巴巴团队使用的文本识别方式是光学字符(OCR)识别技术。这并非新兴技术。早在1960年代,关于字符识别的研究就开始了。不过目前识别难度依旧存在。因为每个人手写的文字都各不相同,有的人写字很潦草,而有的人书写风格自成一体,甚至有些手写字连人类都很难识别出来,对于机器来说,要穷尽各种各样的个性化字体是很难的。
批阅的第二步是让机器理解语言,即语义分析。人类的语言非常复杂,有时候文字传达的并不是字面意思本身,一句话背后还可能隐藏了高兴、愤怒、惊喜这样的情感,而有时语言背后还有专业领域,比方说天体物理、量子物理,很多表述是在一个完整的知识体系中的表述。“所以如何让计算机理解一个多样化的人类世界的语言,要做到正确识别它,正确回应它,还需要进一步优化。”阿里巴巴iDST-NLP團队的自然语言基础技术高级算法专家李林琳对《第一财经周刊》说。
阿里巴巴iDST-NLP团队负责人、自然语言处理首席科学家司罗在接受媒体采访时也认为,中文语法诊断的挑战性就在于中文语言知识丰富、语法多样,而人在判断一句话是否有错误时,会用到长期积累的知识体系,比如一句话是否通顺、两个词是否可以搭配、语义上是否成立等。相比之下,机器目前接受的训练数据有限,要达到人类水准还是有很大的差距。这或许也是为什么“AI老师”如今只能批改词句相对简单的留学生作文的原因。
实际上,在阿里巴巴的AI系统批改作文之前,微软的人工智能语音助手“小冰”已在2016年尝试过写作文,甚至还在2017年出版了诗集。
“小冰”的写诗能力基于对1920年后519位现代诗人创作的上千首诗的学习,其训练次数达到1万次,一次学习时间大约是0.6分钟。据“小冰”全球项目负责人李笛介绍,“小冰”已具备包括文本、语音、图像、视频和全时语音感官等在内的完整的人工智能感官系统,以及知识图谱,所以在经过数次迭代后,它已拥有人工智能创作者所需要的特征。
但不同于能被证明的命题或能被推论的定理,人工智能系统目前还无法像人一样自主地联想,而且,文学创作会调动写作者的经历、追忆、愿景等元素,这些在AI创作的作品中是无法体现出来的—正如AI批改作文时遇到的问题。但抛开创意性的部分,语言毕竟有一定规律可循,而这是系统可以掌握的。
阿里巴巴的AI系统也接受了语义理解的训练,其学习资料大部分来自于阿里巴巴各大事业部积累的数据。
比如最主要的电商平台。一个电商平台会积累大量商家和消费者端的数据—商品、品牌以及型号数据,以及用户在平台产生的购买行为数据。例如,用户在购买了一个单反相机后又购买了一个镜头,那么平台就会产生一种数据之间的逻辑:单反相机和镜头之间有某种属性的关系。在一定的处理和标记下,这些都可以作为AI系统平常的学习素材。
当然,对于技术解决方案来说,数据的获取仅仅是开端,要把这部分数据利用起来还需要技术团队做好“标注”工作。目前很多公司会采用人工标注手段。李林琳认为,对训练数据做全面的整体标注还是需要寻找专业人士甚至是语言学家,但这种方式会带来很大的成本和较长的周期。因此,阿里巴巴团队会尽量减少全人工标注的数据量,采用一种更高效和经济的方式—从海量的用户行为日志中挖掘半标注数据。
还是以电商平台为例。比如用户在淘宝等平台上搜索的关键字是“三生三世十里桃花手链”,而用户实际点击的商品的标题是“三生三世十里桃花杨幂同款手链”,其中重叠字符串“三生三世十里桃花”就很可能成为AI系统掌握的一个新概念。也就是说,通过海量的用户行为数据,自动生成了机器学习模型依赖的数据。
这也显示出AI提高文本识别精确率后的商用场景。在阿里巴巴集团内部,通过利用这种技术识别错别字或文字缺漏,可以优化电商平台的搜索体验。很多电商用户在搜索产品时经常会打错别字,还会出现读音相近带来的错误,“举个例子,比如二年醇常会被说成二娘醇,我们的语法诊断纠错技术可以对这种错别字做识别。”李林琳说。
由此,它还可以扩展到应用范围更广的客户服务领域。由于电商和O2O平台的发展,很多公司对客服人员的需求不断加大,但与此同时它们却长期面临客服人员的缺口。“如果有一个可以精准理解人类语言的工具帮助企业减轻客户服务负担,对于企业来说,他们肯定有很强的采购意愿。”李林琳说。目前市场上已经有了小i机器人、智齿科技、网易七鱼这些产品,它们背后都采用了自然语言技术。
当然,在李林琳的眼中,经过不断进化的“AI老师”,另一个目标是能走入教育市场,甚至有一天进入媒体及出版行业,成为我们身边的“校对老师”—相比创意性写作,这可能是人工智能在该领域更切实地应 用。