迟珊
伴随着AI大模型的兴起,对人工智能训练师的需求也在持续增长。
2024年“五一”假期,不少人自驾去淄博吃烧烤,八大局、海岱楼等网红打卡地车流激增。不过,许多司机发现,这里的道路并没有想象中拥堵,反而路口绿灯出现频率要比外地高。河北游客司思就是众多体验者之一。司思说:“跟着智行淄博APP的提示走,绿灯通过了好几个路口,虽然路上看着车很多,但是通行起来非常顺畅。”
通行畅通的背后是因为红绿灯有了“聪明的大脑”。当地把AI大模型引入交通信号系统,利用5G技术,实时采集车流量、红绿灯等路况信息,由AI基于实时交通状况进行判断并对信号灯施以自动控制。以萨技术股份有限公司研创中心人工智能部副总监盛校粼说:“就比方说有一段路其实很空,但是它还有一个30秒左右的红灯,这个时候就可以把这个红灯给取消掉,这样会大大提高交通运输的运转效率。”
要让AI判断车流量大小,首先要让它能在复杂的路口准确识别出机动车。与肉眼识别不同,工程师先要对路口监控视频抽帧,把图片上所有的信息进行数字化。“喂”给AI足够的数据让其学会识别之后,它就能自动处理数据了。不过,在复杂的交通环境下,要让AI能够控制信号还需要更多的训练。工程师会输入大量的历史交通数据,使AI积累经验并进行模拟推演。
AI的成长,离不开一群人工智能训练师的数据“投喂”。根据《人工智能训练师国家职业技能标准(2021年版)》的定义,人工智能(AI)训练师是指“使用智能训练软件,在人工智能产品使用过程中进行数据库管理、算法参数设置、人机交互设计、性能测试跟踪及其他辅助作业的人员”,工作内容包括数据采集和处理、数据标注、智能系统运维、业务分析、智能训练、智能系统设计、培训与指导等。
近几年,随着AI技术不断发展,人工智能训练师这个职业也逐渐壮大。作为“数字职业”之一,人工智能训练师的出现,加速了AI由技术研发走向行业应用的过程,将产生较高的经济价值和社会价值。
让AI更“聪明”
“画一幅驴肉火烧。”
人工智能训练师赵佳明在对话框里输入了这行文字,向生成式AI “文心一言”发出指令。
不到1秒钟,AI就生成了一幅画——一头驴,站在一簇火堆旁,火烧得很旺,火里烤着一块肉。
“你看,驴、肉、火、烧,4个要素全齐了,但这个结果让人哭笑不得。这就是最初的,还比较‘笨,只能把你提出的几个元素简单机械地组合起来。而我们的工作,就是训练AI,让它越来越聪明,直到学会画出真正的驴肉火烧。”说完,赵佳明又向AI发出同样的指令。
这次,文心一言生成了一幅烧饼里面夹着肉的图片。“这就是我们训练过的AI,聪明了很多吧!”
那么,如何训练AI呢?“就是将大量的文字、语音、图像打上标记,AI模型识别了这些标记,就能被训练出更强的分辨能力。”赵佳明解释道。
AI写诗、编程、筛选简历……给AI“喂数据”,让其“长智慧”,这是人工智能训练师的主要工作。
然而,AI总会存在错误、偏差。因此,赵佳明和同事们的工作,就是使它离完美更近一步。于是,更高级别的人工智能训练师会根据AI的表现来对其不断进行纠正和提升,从而使其快速迭代。人工智能训练师犹如AI的老师,通过向AI投喂海量的文本、图像和语音等,不断训练和调整,使AI模型变得更聪明、更智能。
在武汉光庭信息技术股份有限公司的办公楼里,一名人工智能训练师正在对自动驾驶特殊场景的图片进行标注,比如打伞的行人、非正常停放的机动车、带雨棚的电动车等。随后,训练师用特定的文字、数字等数据,将标记的图片结合,再用AI算法分析道路上可能影响车辆行驶的相关实体。
“通过对AI暂时识别不了的数据进行标注、回灌、反复‘喂养,AI的算法智商可有效提高。”该公司数据驱动研发实验室主任郝江波解释道,人工智能训练师工作的过程就像教师教育学生的过程,他们需要找出学生(即AI)不会的题目,向它传达准确的答案,然后不断地进行训练。
以自动驾驶中感知部分的AI为例,人工智能训练师需要了解感知识别的类型、给予模型充足的基础数据训练、检测模型在哪些场景下“看不清”,有针对性地搜集、标注好这些典型数据,给模型训练。与此同时,人工智能训练师还要研究智能化标注平台,让价值数据的挖掘和标注实施更为高效。
一个好的AI模型,不仅需要工程师搭建框架、告诉它如何学习,还需要训练师提供具体的实践案例、用数据“喂养”它进步。人工智能训练师的主要职责就是为AI产品打造不同应用场景,提供各种各样的“攻击方式”,从而获得数据反馈给工程师。
浪潮智能终端人工智能研发经理尹青山表示,人工智能训练师在AI技术落地、AI产品优化中发挥着举足轻重的作用。比如视觉类AI可以替代人工检验商品的瑕疵并进行分拣;智能驾驶可以识别道路上的人、车以及障碍物,然后进行自动避让,这些都有人工智能训练师的身影。
中国电信研究院大数据与人工智能研究所、大数据与认知计算研究中心副总监胡婕表示,当前AI大模型浪潮之下,主要人才缺口存在于训练稳定性保障、硬件集群运维、提示词工程以及大模型精调等环节。而人工智能训练师们的主要工作与大模型精调环节相关。“这一类职业往往入门门槛不高,但是进阶的天花板较高,有经验的精调工程师能够帮忙节省很多的算力。”
可以说,在快速发展的AI领域,人工智能训练师很重要。
人工智能训练师人才需求增长
近年来,我国对AI发展的机遇和顶层设计给予了高度重视,发布了多项AI支持政策。国务院于 2017 年发布了《新一代人工智能发展规划》;科技部等6部门于 2022 年印发了《关于加快场景创新 以人工智能高水平应用促进经济高质量发展的指导意见》;2024年,“人工智能+”首次被写入政府工作报告。
2024年3月22日,在昇思人工智能框架峰会上,工业和信息化部科技司科技发展处王正表示,从产业规模看,截至2023年年底,我国人工智能产业规模已经形成了京津冀、长三角、珠三角三大核心发展区,核心企业的数量超过了4400个,居全球第二。
从加快新药研发、精准预报天气,到缩短工厂产品交付周期、提高办公效率,越来越多的行业大模型正加快落地。截至目前,中国开发的AI大模型已经在智慧矿山、药物研发、气象、政务、金融、智能制造、铁路管理等领域展现出巨大的应用潜力。据赛迪顾问发布的《2023年中国生成式AI企业应用研究》预测,2035年中国企业生成式AI(AIGC)采用率将达到85%。
AI大模型通常被用来处理大规模数据并生成复杂的输出。这些模型通过预训练海量语料库数据,学习到了自然语言中的规律和模式,并在生成式任务中有出色的表现。大模型通常用于自然语言处理、图像识别、语音识别等领域,以实现更准确的预测和决策,是具有巨大参数数量和计算能力的深度学习模型。
伴随着AI大模型的兴起,对人工智能训练师的需求也在持续增长。无论是企业的研发部门、科研院所,还是互联网公司、医疗健康领域、金融行业等,都需要人工智能训练师进行数据分析和模型训练,以实现智能化的决策和服务。
2024年开年以来,Sora的诞生给人们带来前所未有的视觉震撼,将生成式AI的文生视频功能提升到全新高度,这也导致了该领域的人才需求激增。数据显示,2024年一季度,生成式AI相关职位需求同比增长超3倍。
从企业端来看,前不久,央视财经记者采访了某家大型 AI 软件公司负责人,该公司主要负责开发基于大模型的办公协作类软件,近期计划升级一款面向程序员的代码工具,但在拓展至移动端时候苦于人手不够。
报道称多数 AI 业务团队长期处于招人状态。招聘岗位涉及从底层算力、芯片设计,到模型训练、商业落地等多环节、全链条,招到一个生成式AI岗位的平均耗时是普通岗位的两倍左右。
不只是科技类企业,生成式AI由于商业应用广泛,人才稀缺也蔓延到了其他行业。在一家连锁餐饮企业,技术部门负责人表示,企业的后台系统数据庞大,有千万量级的客户评价,而传统分析方式要么不够精准,要么耗费大量人力。企业急需利用生成式AI技术,来更精准地响应客户评价。
未来,随着生成式AI时代来临,大模型向百业千行渗透,增量需求不断释放,人工智能训练师的岗位需求将会越来越大。