陈佳莉
王洁玉
“鸡蛋和鸡精哪个更好吃?”“鸡蛋是一种常见食物,含有丰富的蛋白质和其他营养成分,口感相对丰富;鸡精由鸡肉提取的精华制成,味道鲜美。它们各有特点,需要根据个人口味选择。”
电脑前的王洁玉看到这样的人工智能对话,笑着摇摇头。她在评分栏给出不及格的分数,并在旁边注释:违反常识,鸡精是调味料,不能直接食用。
“就像给学生判卷子一样,只不过这个学生有点特别。”王洁玉是一名“90后”数据标注师。曾经做过小学教师的她,现在的教学对象是人工智能,也就是AI。
人工智能技术的突飞猛进发展,正在为我们的生活带来巨大改变和机遇。可以实时互动聊天的新型机器人,不仅可以为用户答疑解惑,还可以完成撰写邮件、做视频脚本、进行翻译等任务,吸引了大量“Z世代”用户试水。
“有多少智能,就得付出多少人工”,王洁玉引用行业内一句广为流传的话,向《环球人物》记者解释自己的工作内容。实际上,AI背后每一次回复、每一个作品,都要从AI训练师的“教学”开始。2020年2月,AI训练师被正式纳入国家职业分类目录,数据标注师作为AI训练师的一种,主要负责教机器学习人类思维,说人话,让机器像人类一样感知和认识这个世界。
王洁玉2020年从四川民族大学汉语言文学专业毕业。同学们的就业方向很集中,大部分选择进入中小学当老师,“这是最对口的”。王洁玉则回到老家海南,考入海南省档案局。这样一份拥有事业编制的工作,是家长们眼中标准的“铁饭碗”。工作还算轻松,但无法带来新鲜感和挑战,王洁玉干了几个月,背着爸妈,裸辞了。
刚好有朋友给她介绍了一份当老师的工作,在琼中乌石的一所私立学校教语文。王洁玉通过面试,成为小学三年级语文老师并担任班主任。“起初我热情蛮高的,希望把学到的东西教给孩子们。”做了一年多教师后,王洁玉爱折腾的“老毛病”又犯了,“可能我真不适合那种一眼就能望到头的工作。明天要做什么,今天就知道了,下周的工作内容,这周也基本清楚了。”
疫情期間,有人丢了工作,王洁玉却又一次主动辞职。当时,正好赶上海南疫情暴发,她去方舱做了一名志愿者。把自己裹进厚重的防护服里,人生、理想、就业,她什么也不想,每天穿梭在感染者中间,发饭、发药、发口罩,维持秩序。
2023年3月,一个看起来很酷、很前卫的工作机会吸引了王洁玉。“一开始,看到数据标注师的招聘信息时,我还专门上网查了查,大概就是给机器人进行文本纠错。”面试通过后,王洁玉才发现,这并不是一份可以很快上手的工作。她和其他新入职的员工一起接受了一周的入职培训,对标注规则和应用软件进行了系统学习。直到一周后的上岗考试,她才意识到,自己做的是一份什么样的工作——“AI完成了一份答卷,我们就是老师,需要给出评分和判断” 。
王洁玉第一次给AI创作的作文“判卷子”,题目要求是写一篇三年级学生的做家务日记。在这篇作文中,AI对家务做了非常详尽的描述:厨房需要洗碗、洗锅,清洁所有的餐具厨具;客厅需要清理地面,整理书籍……但它只写了“家务”的部分,“做”的部分没有提到。“这属于跑题范畴了,只能打出不及格的分数。”王洁玉跟记者解释,这类题型,除了主题要正确,还要注意语病,最难的一点,要考虑这是三年级学生的日记,写得文学性越强,分数可能反而越低。
一位资深的数据标注基地运营经理对《环球人物》记者说,这种对AI生成的内容进行评价和反馈的形式,实际就是“喂养”的过程。“通过不断地反馈,去训练AI深度学习,把人类思维和价值观等不断地‘喂给AI,最终让它能像人一样去解决实际问题。”
王洁玉给AI判完卷子,还有专门的培训老师对王洁玉的操作熟练程度、文本评判水平和改写能力做出评估。超过80分才能上岗,王洁玉得了85分。分数不达标的员工只能不断地再学习再考试。等到这一批员工全部达到上岗标准,一个月已经过去了。
和其他数据标注师不完全一样,王洁玉从事的是大模型数据标注。所谓的大模型,就是由人制造出来的有一定智商的AI系统。王洁玉解释,其他数据标注工作可能像自动驾驶中的AI应用,需要标注师通过画框的形式标出画面中的行人、树、车道线、红绿灯的位置,培养AI的识别能力,“大部分是有标准答案的”。
大模型数据标注更像是一道道“主观题”。“不再是简单的‘标注‘画框,让AI学习什么是人脸,什么是障碍物,更多是让AI自主判断什么样的答案更符合人类思维。”随着深入学习,王洁玉感觉这份工作并没有想象中那么简单,“大模型数据涉及的知识面很广,评判标准复杂,非常考验标注师的语言理解能力和逻辑推理能力。”
在王洁玉看来,针对大模型的数据标注师更像是专业辅导老师的角色,需要具备特定的知识和技能才能胜任。王洁玉所在的百度智能云(海口)人工智能基础数据产业基地,和她一起入职的同事们基本全是本科以上学历。
俗话说,老师的眼界,决定学生的高度。为了避免“误人子弟”,王洁玉等标注师需要不定期接受考核,如果错误率太高,可能会被迫下线。“就像驾照一样,扣分到一定程度,就需要重新考试,申领到新的驾照才能再次上路。”每次考试之后,还有专门的培训师召集会议,帮标注师们逐一分析“丢分点”在哪里。
比起之前在学校教学生,王洁玉感觉给AI当老师难度更大。“小学生的教材至少是固定的,通过备课和一些知识储备,我相信自己有资格去教他们,但AI就不一定了。”
训练AI时,王洁玉经常会面对一些超出能力范围的题目。比如,“曲高和寡”这个成语是什么意思,王洁玉完全可以判断AI生成的答案是否正确。但接着下一个问题,“曲高和寡在经济学领域对应的是什么理论”,这让没怎么接触过经济学的王洁玉觉得有点“超纲”。她不得不查阅资料,咨询同事,来补充印证自己的想法。除了经济学,计算机、法律、科技等领域内容,在实际工作中都可能涉及。
“因为题型会变,不同的大模型项目,也会有不同的标注规则,相当于根本没有一本固定教材可以参考。”在训练AI的同时,王洁玉也被迫不断学习充电,“与其说我在陪它成长,某种意义上,它也在帮助我成长。”
王洁玉(白衣服者)和同事一起开会。
2023年5月,在上海一場科技展览上,参会者与虚拟数字人对话。
另外,王洁玉发现,教AI需要的耐心不比教学生时少。在学校时,如果学生学了一遍没学会,两遍仍没学会,她肯定会主动找到这位学生,面对面交流他学不会的原因。“大模型可是没办法直接沟通的,就算它总是学不会,我也不能生气,只能不断去纠正和灌输,希望它早点掌握其中的逻辑。”
2022年底,“AI绘画”相关话题爆火。用户只需要输入几个关键词,画质精美、创意独特的绘画作品就能一键生成。今年5月,“AI孙燕姿”“AI周杰伦”等虚拟歌手爆火网络,引发关注。这次“双11”期间,也有一部分头部商家,选择使用虚拟主播全天24小时直播,有问必答。
当时代的风吹起,能否站上“风口”成了年轻人心中的向往。“我越来越喜欢这份工作,数据标注师,听起来就很时尚。”王洁玉对这份工作的未来十分看好。
2020年2月,人社部将“人工智能训练师”纳入国家职业分类目录时,对这个新职业的解释是,“使用智能训练软件,在人工智能产品实际使用过程中进行数据库管理、算法参数设置、人机交互设计、性能测试跟踪及其他辅助作业的人员”,该职业包含数据标注师、人工智能算法测试员两个工种。
而随着这一新职业的快速发展,一个新的问题产生了:如何评判一名人工智能训练师的职业能力?
一位业内人士透露,AI数据标注产业一大特点是劳动密集。像王洁玉一类的大模型数据标注师,因为题目复杂,一天可以做四五十道题。而对于普通标注师来说,一天可以完成几百道题目的标注工作。因此,国内存在大量标注的小作坊、工作室。他们以低薪招人,靠量取胜,却毫无品质保证。很长一段时间,AI数据标注行业处在粗放管理的无序状态。
2021年11月,《人工智能训练师国家职业技能标准》发布,为这个职业划分了五个等级,并对各个等级的职业能力给出了职业发展指引。这也意味着,未来,数据标注师或将可以像工程师一样,有行业内的职称评定标准。
生活中,王洁玉的成就感时常在一些场合不自觉冒出来。在手机银行办业务向24小时在线顾问咨询时,在购物平台跟有问必答的售后联系时,她都会联想,对面提供服务的,说不定就是经过自己训练的“AI学生”。
王洁玉
1997年生于海南省临高县,2020年毕业于四川民族大学,曾做过小学语文老师,2023年3月起进入数据标注行业,成为一名数据标注师。
环球人物2023年22期