人工智能训练师 天才背后的启蒙人

2023-12-11 02:24陆长安
中国新时代 2023年12期
关键词:人工智能智能算法

| 文 · 陆长安

数据标注是机器感知现实世界的起点。

“我曾经认为机器是天才,但现在我才知道我们(人类劳动者)才是它们成为天才的背后原因。”

2022 年,中国国际进口博览会在技术装备展区设立人工智能(AI)专区,并专门开辟了人工智能体验区;2023 年,伴随着大模型、元宇宙、人工智能生成内容(AIGC)技术“大爆发”,人工智能更“火”了。

近几年来,全球的人工智能市场迎来了快速发展,很多国家都在大力支持人工智能产业,相关新兴应用也不断落地。中商产业研究院发布的《2022-2027 年中国人工智能行业需求预测及发展趋势前瞻报告》显示,2022年,全球人工智能市场规模达到23901 亿元,同比增长26.7%,预计到2024 年全球人工智能行业市场规模将达到35137 亿元。

中国人工智能市场规模在过去几年也获得了飞速发展,据中国信息通信研究院测算,2022 年中国人工智能核心产业规模达到了5080 亿元。科技部发布的《中国人工智能大模型地图研究报告》显示,中国研发的大模型数量排名全球第二,仅次于美国,目前中国10 亿参数规模以上的大模型已发布79 个。

随着人工智能技术的广泛应用,新的职业、新的岗位正在不断涌现,如:人工智能训练师、人工智能伦理顾问、人工智能数据分析师、人工智能工程师、虚拟现实工程师、安全工程师、区块链工程师等等。

人工智能训练师,则是使用智能训练软件,在人工智能产品实际使用过程中进行数据库管理、算法参数设置、人机交互设计、性能测试跟踪及其他辅助作业的人员,也就是专门从事数据标注和训练的专业人员。

2020 年2 月,人工智能训练师正式成为新职业,并被纳入国家职业分类目录。

教AI认识世界的人

打开电脑,将采集的风声、雨声、溪流声等声音数据输入,“清洗”掉夹杂其间的噪音……伴随着手指敲击键盘的“啪嗒啪嗒”声,人工智能训练师付聪一天的工作开始了。

每次出门时,付聪总会在耳朵上戴一个大“耳环”。这个“耳环”其实是一个测试版的助听器。付聪和他的团队要做的,则是利用算法设计、通过人工智能技术“训练”数据模型,让助听器更加“智慧”地降低噪声,让听障人群听得清、听得懂、听得舒服。

付聪解释,助听器的数据模型很小,因此需要针对不同场景进行优化,很多场景都充满挑战,“比如一个听障人士在餐厅吃饭,周围有很多人说话,他想跟对面的人聊天,四周声音特别嘈杂,作为一个正常人都可能听不清楚,更何况一个有听力障碍的人?我们希望利用模型,把需要的声音提取出来,降低噪声,帮助更多听障人群”。

事实上,在人工智能可以像人类一样“聪明”“能干”的背后,离不开人工智能训练师的默默付出。人工智能训练师还有另一个名字:数据标注师。他们的工作就是教机器学习、感知和认知世界。他们服务于自动驾驶、医疗保健、智能安防、智慧金融、新零售、智慧家居等几乎所有的人工智能场景。

改革开放以后,对于古建筑保护的政策相继出炉,各省市也遵循国家层面所制定的政策,取得了一定的成果。但是我们还是能够看到残忍破坏古建筑的行为的产生。很多城市还是在发展和保护上选择了发展。

第六届进博会人工智能专区,市民体验VR 设备

陕西省榆林市清涧县数字就业中心的工作人员在进行数据标注

尹青山是一名给大模型“投喂”数据的人,“就像教孩子一样,我们要教会人工智能认字、识图、说话,甚至‘思考’”。作为团队首席训练师,尹青山表示,大模型其实就是语音识别算法、视觉感知算法、语义理解算法、知识图谱及语音合成算法等的集合,基于深度学习技术,通过训练师不断给大模型“喂”图片、文字、语音等,人工智能会越来越“聪明”。

“对于智能巡检机器人,主要训练其识图能力。”高岩是一名人工智能“识图老师”。通过现场拍摄等多种方式,高岩将各种关于服务器前面板指示灯的图片进行标注,然后“投喂”给机器人进行训练,并根据测试结果不断调整优化模型参数。通过高岩的“训练”,智能巡检机器人短时间内就能掌握在哪种情形下需要向后台报警。“人工智能的‘智慧’取决于模型参数、训练策略、数据量等。图片量越大,标注的特征越多、越细,识别就越准确。这就跟教孩子认识苹果一样,你得教给他,不同颜色、不同形状、放在不同位置的,都是苹果。”

冯落落是人工智能的“语言老师”。他正根据一家医院的需求,为医疗服务机器人导入知识图谱和语言集合。医疗服务机器人不仅要为患者及其家属提供导诊、咨询等服务,还要识别不同的方言。“关键点是知识图谱庞大且准确,这样患者就能得到最及时、最专业的回复。”冯落落说,机器人可能会被问住,但绝对不会误导患者。

4 年前,陈霞还是一名全职妈妈,如今,31 岁的她已经是一名资深的人工智能训练师了。她参与的是无人驾驶项目,负责在电脑上对车在道路上采集的现实交通场景的原始数据进行处理,将其转化为机器学习可识别的专业数据。“比如道路上的各种障碍物、建筑、绿植,各类车道线以及行人等,我们要把这些人、物标出来,我们就是无人驾驶车的眼睛,告诉它们看见的东西是什么,应该怎么去行驶。”陈霞这样描述她的工作。

人工智能训练师也被称为人工智能的“启蒙老师”。随着人工智能技术和应用的不断发展,数据标注和训练工作变得越来越重要。

事实上,在过去,人工智能企业从客户(用户)那里获取到的原始数据无法直接用于模型训练,是由人工智能产品经理先用相关工具简单处理,再交给数据标注人员进行标注加工。但因为标注人员对数据的理解和标注质量差异很大,导致整体标注工作的效率和效果都不够理想。同时,人工智能企业在其细分领域内积累了大量数据,这些数据往往在使用一次后便不再产生更多价值,数据无法沉淀和复用。

于是,人工智能训练师便应运而生。

拥有9 个屏幕的机器人外科医生

巡检机器人在地下综合管廊内进行技术调试

化人工为“智慧”

在2023 年的世界人工智能大会上,中信智库专家委员会主任、中信建投证券研究所所长武超则表示,一个模型的好坏,20%由算法决定,80%由数据质量决定,未来高质量的数据将是提升模型性能的关键。

算力、数据、算法,被称为支撑人工智能大模型的三驾马车。

数据在人工智能发展过程中极为重要,业内甚至用“新的石油”来形容数据作为将人类智能转化为机器智能原材料的重要性。作为人工智能算法的“燃料”,数据是人工智能实现应用落地的必备要素。而数据标注的精确度往往决定着人工智能的智能程度,大多数原始数据只有经过人工标注、加工,才能激活数据价值。人工智能训练师(数据标注师)工作的意义就在于此。

数据标注行业是一个技术密集型和劳动密集型相结合的行业。行业内流行着这样一句话:“有多少智能,就有多少人工。”

百度智能云数据标注基地业务产品负责人胡驰说:“比如当前被誉为最接近通用智能的大语言模型,依然离不开数据标注。它基于大规模无标注数据进行预训练,再经过精调,在各领域中得到很好的应用。这其中的一个重要环节,就是算法工程师需要使用高质量的、人类反馈的标注数据进行大模型精调,来帮助模型成长。”

数据标注行业发展至今,已成为半人工智能、半人工化的行业。但数据标注仍是需要大量人工来完成的环节。行业内还有这样一句话:“人工有多强大,智能才有多强大。”

“当前,大部分数据标注任务仍然需要人工完成,而且各种数据类型和应用领域都需要相应领域的专业标注员来完成标注任务。”有业内人士表示,在过去,人工智能训练师的门槛较低,只需要细致、耐心;但如今,在一些高难度、高质量标准的标注任务中,人工智能训练师的素质对标注过程和结果的准确性和稳定性至关重要。例如,在自动驾驶、AIGC 等数据类型的标注任务中,人工智能训练师需要有相应领域的专业知识和技能才能准确地标注数据。

胡驰表示,目前,人工智能技术不断演化、技术与行业场景融合不断泛化,这些都需要大量的数据支撑,会对数据产生许多新的需求。数据标注也从早期的相对通用数据向专业化、复杂化方向演进。越来越多的细分场景,需要更多定制化模型进行迭代训练,这也让人工智能训练师面临更多考验,“未来,人工智能训练师会伴随人工智能的发展不断成长与变化,具备较长的职业生命周期与上升空间”。

近年来,数据标注企业不断涌现并相继落地三、四线城市,在助力当地数字产业发展的同时,也为更多普通人提供了转型、就业的新机会。

2022 年,在山东省青岛市服务贸易协会的推动下,中网盾数字服务与北岸控股签署项目入驻协议,2023 年5 月正式入驻青岛数字贸易港,在青岛市共同打造数据标注产业基地。截至2023 年9 月,中网盾数字服务基地办公面积超5000 平方米,1 年时间,已有1000 名人工智能训练师、多家代理商已入驻,基地累计产值超1 亿元。

2023 年8 月,位于海南省海口市秀英区的百度智能云(海口)人工智能基础数据产业基地正式启动运营,数百名大学生入驻,成为新兴的人工智能训练师。百度智能云人工智能数据标注产业基地已陆续落地山东省济南市、山西省临汾市、重庆市奉节县等10 余个地方。

在四川省内江市,当地政府携手阿里巴巴合资成立了科技公司,建设包括数据标注在内的数字服务外包产业基地;广东省广州市天河区与科大讯飞共同在贵州省毕节市大方县设立智慧就业车间,为当地易地扶贫搬迁群众提供贵州方言标注等工作岗位……

数据显示,截至2023 年3 月,百度(山西)人工智能数据产业基地中,就拥有超过3000 位人工智能训练师,主要涉及自动驾驶、人脸识别等内容标注,其中86%的员工为90 后;字节跳动在北京、天津、济南、武汉各地,也招募了4 万名人工智能训练师;腾讯更是直接把平台放到了线上,让人工智能训练师变成了一种“全民兼职”,称为“众包”……

数据标注是机器感知现实世界的起点。一位年轻的人工智能训练师感慨:“我曾经认为机器是天才,但现在我才知道我们(人类劳动者)才是它们成为天才的背后原因。”

可以预见的是,在未来更多更广阔的垂直领域里,有专业经验、并且熟悉数据标注工作的人群,都将是数据标注行业急需的人才。

猜你喜欢
人工智能智能算法
基于MapReduce的改进Eclat算法
Travellng thg World Full—time for Rree
2019:人工智能
智能前沿
进位加法的两种算法
智能前沿
智能前沿
智能前沿
人工智能与就业
数读人工智能