卢铭
全世界都在谈论C h a t G P T将带来颠覆性的技术革命,但人工智能训练师李杰却一点也激动不起来。
为了完成单价4分钱的计件工作,李杰和几十个人坐在一间摆设如同初代网吧的屋子里,每天对着电脑划拉鼠标几千次。
他的职责是为训练人工智能模型准备“饲料”,将大量的文字、语音、图像打上标记——“眼珠”“四川话”“绿化带”……只有被标注过的数据,才能被人工智能模型识别,训练出它的分辨能力。
李杰做得最多的是道路图片标注,亦即给道路图片上的物体标注好名称、颜色等详细信息,业内俗称“拉框”。效率高的时候,他一天可以拉2000~3000个框,按照一个框4分钱计算,他一个月能赚3000块左右。对于职校毕业、身在西北县城的青年来说,这份收入还过得去。
同样的场景也出现在非洲的肯尼亚。该国首都内罗毕有30多名工人,成为C h a t G P T的数据标注员,他们每天工作9小时,阅读150~200段文字,并标注出其中包含性、暴力与仇恨言论的内容。由于每天阅读大量极具冲击力的文字,有人会因为一段描写而做一周噩梦。这些工人能获得每小时1.32美元的税后收入,比当地一般蓝领工作强些。
在人工智能产品卷起巨浪的时候,从肯尼亚、乌干达再到印度、中国,巨浪下还有一群不被看见的“人工智能训练师”,在简陋的工作环境下,以最简单的技能,与最前沿的技术产生了联系。
李杰对人工智能的理解,是手机上的智能语音助手,“就好像苹果的Siri”。
他在职校念电子商务,同学大多去了电商公司当客服,他时常听到同学对工作的抱怨。相较之下,数据标注的工作枯燥,却也纯粹,他只需要按部就班地完成任务,“可以在办公室吹空调,也没什么难度,就是有点费眼睛”。
在2021年版的《人工智能训练师国家职业技能标准》中,对该职业的能力特征描述是“具有一定的学习能力、表达能力、计算能力;空间感、色觉正常”,普遍受教育程度写的是“初中毕业”。言外之意,这是一份几乎零门槛的职业。
除了“拉框”,李杰也会接到语音标注的项目。一天下来,他要听来自几百个陌生人在不同场景下的发言,可能是伴随着车流声、喇叭声的中年男人在马路上大声质问,可能是讲着广东普通话的阿姨对着麦克风发出指令,有时候,他甚至会听到脏话。
这些声音被李杰一一转录成准确的文字,有时还需要打上说话人的性别、情绪等更细分的标签,最后教会人工智能模型理解人类的语言,用于智能客服、智能音箱、地图导航等产品中。
人工智能的三大基石是数据、算力与算法,数量越多、质量越高的数据,往往越能够训练出更“聪明”的模型。
人工智能的主流方向是深度学习。在过去,由人来告诉机器,猫身上都有哪些特征,机器根据这些特征判断一个物体是不是猫;深度学习则是通过“喂养”大量不同猫的图片,机器就能自行归纳出猫的特征。这就需要大量经人工标注的图片。俗话说,有多少智能,就得付出多少人工。
数据标注领域有过一个神话——I m a g e N e t项目。这个项目数据库拥有超过1400万张已被标注的图片,其中识别出的物体种类超过2万种——包括120个不同品种的狗。而在I m a g e N e t项目背后,是来自167个国家的5万名数据标注员,他们足足花了3年时间才完成了全部图片的标注。
贵阳,大数据之城。在距离贵阳市中心约70公里的惠水县百鸟河数字小镇,有一家拥有超过500名数据标注员的公司梦动科技——其中的一半人,是附近盛华职业学院的学生。
大三学生郑成安在梦动科技实习,公司里的全职员工只有十来个人,管理层也是学校里的老师,“上课就是上班,老师就是经理”。他很热爱这份工作,他在上高职之前甚至没碰过电脑,现在却可以凭借一份电脑前的兼职,一个月能拿到1500元以上的收入,当地农村常住居民人均可支配收入每月才1000元出头。
有时候为了多挣一些生活费,碰上紧急的项目,郑成安会主动加班。他清楚地知道,标注员的工作很难一直做下去,他暗自制定目标,要成为管理标注员的人。
像贵阳这样的城市,中国不止一个。作为劳动密集型产业,数据标注企业更多地选在三四线城市落地,地方政府无论是为了扶贫或是搭上互联网的顺风车,都能与互联网公司一拍即合。数据标注员身上的标签是“互联网民工”“赛博流水线”。而对于绝大多数身在其中的人而言,一个互联网版的富士康,已经是当下不可多得的选择。
随着G P T-4和文心一言的陆续出场,人工智能正“升级换代”,数据标注行业也伴随着新的变化。
人工智能研究者已经开始尝试向机器“喂养”未标注的数据与部分标注数据,而不依赖于人工标注的自监督学习与数据标注。特斯拉目前正在開发的计算机Dojo,就采用自监督学习技术,用于训练人工智能模型,对数据标注的需求正越来越低。
腾讯、阿里、字节跳动等一众大厂,也都在研发自监督学习的算法,甚至有些数据标注公司已经有60%内容来自机器的自动化标注。
李杰听过一个说法,数据标注员是“人工智能的老师”,是他和同事们日复一日地拉框,教会了人工智能理解人类世界。但他从没想过,当人工智能时代真正到来的那一天,取代他们的,恰恰会是自己曾经的学生。
小黑//摘自蓝字计划微信公众号,原文编辑邹蔚,本刊有删节,与鱼/图