林木木
6月7日17点,2017年高考第一日结束,数学学科停笔交卷的铃声划破长空。北京第八十中学望京校区人潮涌动,结束数学厮杀的考生正陆续走出考场,有欢有悲,神色各异。
此时,相隔5公里外的丽都皇冠假日酒店,另一场同样试题的考试已经展开,考生是名为Aidam的人工智能程序。经历3年研发,被学霸君的200位技术工程师喂下50万道考题后,Aidam开始正式尝试2017年新课标文科数学卷。
同一时间,相隔千里之外的四川省成都市高新区,另一场机器人答题的活动也已经开始。比起Aidam,准星云学科技(以下简称准星)取名更为直接:AI-MATHS,据说已经是一位平均分达90的数学答题机手。
2017年的高考是两家科技公司——学霸君和准星要征服的目标。事实上,这场AI与人的角逐6年前就开始了,而且还是“国家任務”。
2012年6月的某一天,在投资公司工作的张凯磊坐在办公室,收到一封同学发来的群邮件,内容是一篇Google尚未发表的论文,揭示这一轮人工智能学习的大浪潮。
这篇论文将在发表后引起巨大反响,很快,全世界都将知道Google在秘密实验室Xlab做出关于“猫脸识别”的惊人研究。
“教学会因此迎来彻底变革。”张凯磊说。张凯磊是南开大学数学系出身,曾在大二辍学创办过一家教育培训机构,因此这成了第一个跳入他脑中的想法。
10月,张凯磊果断辞掉投资公司的工作,邀请陈锐峰博士加入,开始筹备创业。一年后,主打“拍照搜题”的学霸君面世,它将为日后的高考机器人Aidam提供大量的题库储备。
这个时期的中国高考机器人,正在襁褓中孕育着能量。
高考机器人开端于2011年。来自日本国立情报学研究所(NII)的新井纪子教授领头发起 “东大机器人计划”。她召集超过100名人工智能领域的专家组成专项团队,目标是让机器人Torobo能在2021年前通过东京大学的入学考试。
这一年,另一个中国人林辉,在无数次碰壁后,找到清华大学苏研院。那时人工智能的概念尚未在国内苏醒,这个领域的创业公司寥寥,很多投资人不理解这个概念,“聊项目之前得先给他们科普”。
清华大学苏研院大数据中心的成立,加速研发进程。林辉担任数据中心主任,到2014年,大数据中心旗下的智慧教育事业部将被分出来成立为准星云学科技有限公司,林辉任CEO,并在不久后承担起开发高考机器人AI-MATHS的责任。
2015年7月21日,合肥一间会议室里,数十位专家领导围坐在一张棕色的圆桌旁,圆桌中间摆着一大簇鲜花,每个人身边都放着一个白色茶杯,头顶上拉着一条红底黄字的大横幅。在这个极其传统的会议场景中,正讨论着十分前沿的主题。
这里正召开国家“十二五”863计划信息技术领域“基于大数据的类人智能关键技术与系统”项目启动会暨研讨会。会议探讨并启动“国家863类人智能项目”,主要任务是在3-5年时间内研制出能够参加高考并考取大学的智能机器人。
这款智能机器人不仅可以储存知识和高考题型,还将具有逻辑推理能力。此外,通过建立模型和算法,可以让机器在大数据中找到数据之间的关系和差异,让这个模型的结果和人的表现很接近,甚至在最终结果上超过人的表现。
项目由科大讯飞牵头,联合包括清华大学在内的30家院校和单位。当天,日本教授新井纪子也出现在会议席上。
时间回溯到5月的某一天,正在NII工作的新井纪子收到一封邮件,邮件由科大讯飞发出,意欲与NII共同开发考试机器人。邮件提到,中国将推出一个国家级项目来开发考试机器人,前三年的预算大概是30亿日元,新井纪子在收到邮件后很感慨,他们在“东大机器人计划”上的花费大概为每年数百万日元。
她很快同意这项合作,并在7月到访中国。
林辉的准星在人工智能领域的长期研究起到了作用。立项后,准星一举中标高考机器人的数学应考项目,成为数学组别的组长单位。当时,人工智能识别、大数据处理等难关已经被准星攻破。
研发团队立下目标,要在2017年6月与全国文科生一起考试,目标是考上一本。
这并不是一个容易实现的目标。当时,已经研究四年的Torobo还无法达到日本入学考试分数线。上线两年的学霸君只能在数学考试中得到30分。消息一出,有网友评论下四个字:“坐等打脸。”
“参加大学入学考试对人工智能来说是一个很好的目标。”新井纪子说。
从2013年开始,Torobo每年都会参加日本大学入选考试,2015年的11月,它在考试中取得511分的成绩,总分950分,平均分数416分。这意味着,它可以进入全日本441家私立大学和33所全国性大学就读,排名在全国前20%,其中数学排名前1%。
这是Torobo迄今为止取得的最佳成绩。但它仍然未能考入东京大学。与中国机器人的虚拟系统不同,Torobo拥有一个真实的身体。它是白色的,有两条可以灵巧活动的机械臂,左手捏着固定爪,右手握着圆珠笔在试卷上进行答题。
确切说,高考是比围棋更难的实验,它要求机器有感知分析、认知联想和推理验证的能力,其泛化知识库里的规则,远比围棋的黑白、点位置和吃子规则复杂得多。
科大讯飞轮值总裁吴晓如指出,在具体攻关中,让机器人高考包括题目理解、知识表现、逻辑推理等,涉及怎样用人机互助的方式获得知识。此外,还要让机器学会表达,比如作文、阅读理解,就既需要读懂文章、去理解题目的意思,同时还需要去理解相应常识。
微软亚洲研究院非常具体地解释过机器在考数学方面会遭遇的挑战:一方面,对于一道题目的文字描述,计算机需要知道并理解其中包含的概念,对于人类很简单的概念,对机器却需要自然语言理解方面的“造诣”。
举例来说,“一加一等于几”以及“小明有一个苹果和一个梨,问小明有几个水果”,同样本质是“1+1=?”的两道题,在题型概念上是一样的,表达方式却截然不同。计算机需要知道如何把以上两道问题都抽象成两个对象相加。
另一方面,机器抽取题目中各个概念变量的关系也很有难度。其次,在一定程度上理解文字之后,数学解题需要通过逻辑推理生成解题公式。最后,计算机需要具有一定有关现实世界的常识去理解自然语言里面一些隐式的指代。
2月23日,林辉的数学高考机器人AI-MATHS第一次测试。
这一天,林辉带着他的系统来到成都石室天府中学,将与高三文科班的43名学生进行一场“人机大战”。这是AI-MATHS首次与学生对决。
气氛很紧张。高三数学老师拿着一个黄色密封袋,严肃地走进高三5班和6班的教室,密封袋里装着即将测试的数学试卷,老师站在讲台上,举起密封袋,展示其完好无损,接着解开密封袋的绳索,抽出一叠试卷。学生们端坐在下面,望着他,激动中带着忐忑。
旁边的办公室里,一个隔间的工位上放着两台未联网的台式电脑,穿黑色外套的技术人员将一个磁盘插入主机,随后坐在电脑面前,开始快速地点击鼠标,电脑屏幕上出现一行行密密麻麻的数字。
试卷被一张张依次发到学生桌上,同时题目被一道道地输入电脑,答题开始了,接下来两个小时是紧张的等待。
林辉不知道结果会如何,他感慨了一句:“想给系统烧上几炷香。”高三学生佘雨佳觉得自己肯定要输给人工智能了,她略显悲壮地说:“感觉我们是为人类的荣誉而战”。
答题结束,电脑连上打印机,打印出纸质版的试卷答案,老师收上学生试卷,当场批改了这44份试卷。
事实证明,这一战,人类赢了。
高考机器人的试卷审批完毕,老师在分数栏写下了数字“93”,而43名学生的平均成绩在计算器上的显示结果是 “106”。
结果在林辉的预料之中。当时的AI-MATHS每天要吃10套题,运算量可达2的800次方。截止这次测试,机器仅有100套试题的训练量。“它不是题库,而是理解答题的逻辑。”这是林辉对数学机器人的解释。
他给AI-MATHS定下目标:6月7号上重本分数线。
很长一段时间,学霸君在机器学习上的进展极其缓慢。从2012年10月创业以来,学霸君的工程师做过许多努力,三年时间只把分数从0分提高到40分左右,其中从0分到30分大概用6个月,之后两年多的时间基本在原地踏步,无法取得突破,很多做这个项目的人最终都选择离开。
2016年3月20号,张凯磊正在美国出差。晚上11点,他接到首席科学家陈锐锋打来的电话,对方告诉他说,最近两个礼拜,机器学习突然取得实质性突破,智能机器人项目可以开始做了。
陈锐锋告诉张凯磊,一批庞大的数据喂进去之后,突然发现增速变快,两周内分数增加了2到3分,这在之前是从未发生过的。在排除误差之后,工程师们认定,新的方法被证实有效,虽然风险仍旧存在,但这个项目有了可预见的实现可能性。
难题一个接着一个。今年3月之前,学霸君一直无法攻克一个难题——如何将几何语言转换为机器能理解的语言。
他在上海组建了一个专攻几何的团队,8个人,包括老师和技术人员,每天坐在办公室里思考、运算,就这样过了一整年,一无所获。
几何问题解决不了,挑战高考试题就是无稽之谈,张凯磊焦虑地在办公室走来走去,突然灵机一动,想到一个无策之策。他召集几何团队的人员,命令说,从今年往后,老师来学写代码,工程师学备课。
前期并无效果,经过几个月的积累,3月的某一天,就像突然开窍了一样,这个难题就这么消失了,张凯磊把这归功于工程师与老师长期融合的结果。
以“拍照搜题”起家的学霸君,4年来累积超过7000万道数学题目的题库系统,加上学生大量手写和上传的题目,以及教辅书籍中的题目,共同构成Aidam的训练数据库。
阶段性成果取得,张凯磊也定下目标——6月7日Aidam将在媒体见证下挑战高考数学题,与数名高考状元同台对战。
但与断网单机,使用11台服务器的AI-MATHS不同,Aidam需要联网。这意味着两者有不同的逻辑。
6月7日,决战的日子到了。下午5点过后,两场千里之隔的“机器高考”开始了。
AI-MATHS机器人的“身体”并非模仿人类的样子,而是10余台服务器组成像冰箱一样的柜子。它被放在会议室旁边的休息室里,孤零零地站在房间中央,被一条白线与外界隔开。
“105分。”主持人说出AI-MATHS的数学高考成绩。这张高考试卷,花费了AI-MATHS 22分钟。
与此同时,另一个高考机器人Aidam也在北京的一间会议室里快速地运算着,它这次的任务是与6名来自不同省份的高考状元来一次对决。
比赛采用全国高考文科数学二卷,在一小时的考试时间内,两人合力完成一套试卷。虽然是两人合作,但中途不可以交流,开考前已决定好分工。最终,三组高考状元分别得分为 146 分、140 分、119 分,平均分为135分,而 Aidam的成绩为 134 分。
1分之差,曾经输给阿法狗的人类,这次在高考面前打败AI。
不过,毫无疑问的是,在运算速度上人工智能拥有巨大的优势,Aidam在录入完整的数学题目后,仅仅在 9 分 47 秒就完成所有答题,而高考状元们则花了 1 小时。
当然,這两个高考机器人还不是全部。
科大讯飞研发的是一个“高考文科AI”,他们将进行语文、数学、地理和历史等四门学科的集中研发。据悉,科大讯飞联合哈工大进行的英语完形填空和阅读理解有不错进展,准确率达70%以上。
相对其他学科,机器考高考数学要“相对”容易一些。一方面,数学更多的是依据符号逻辑,另一方面,数学中很少有“一千个读者有一千个哈姆雷特”的现象。
从1977年到2017年,大型知识竞赛高考——迎来它的四十周年,每年诞生数百万考生,很多人事后回忆起来,觉得当年没日没夜做题的自己与机器人无异,多年过后,高考在命运的不可掌控中消逝它的意义。
那么,为什么我们还要耗费如此多的人力物力财力,造出一个机器人来,迎合我们所谓的“应试教育”?
学霸君CEO张凯磊的回答是,如果机器人能够挑战高考,有理由相信机器人可以辅道学生,在自动解题、自动批改与个性化作业上帮助学生,这对中国教育来说具有革命性意义。
AI-MATHS的负责人林辉觉得,技术要应用在教育评测上,保证教师、学生、家长的“三减负一增效”。
新井纪子则没有那么乐观。高考机器人的研究让她重新审视已有的教育方式。“如果AI在那方面能够做得更好,那说明,我们需要新型教育。”她忧心忡忡地说。