■陈媛媛
(郑州经贸学院,河南 郑州 451191)
2021年5月31日,习近平总书记在中共中央政治局第三十次集体学习时就加强我国国际传播能力建设发表重要讲话,分别就“河南省国际语言环境和国际化语言能力建设”和“中原文化国际传播”等专题进行交流研讨[1]。外语数据标注是河南省国际语言环境和国际化语言能力建设以及中原文化国际传播研究的重要方法,是“数字河南”建设的重要一环,也是河南省首创实施“翻译河南”工程、高标准构建地方对外话语体系的重要支撑。数据标注作为人工智能的基础环节,对于推动产业集聚发展、培育人工智能产业、促进经济结构转型具有重要意义[2]。
党的十九大提出,我国经济已由高速增长阶段转向高质量发展阶段。外语数据标注行业也处在转变发展方式、优化产业结构、转换增长动力的攻关期,外语数据标注行业发展模式从“新”变成“新常态”。然而在“前常态”下,外语数据标注发展粗放、生长野蛮,逐渐进入稳定的成长发育期。随着市场对于外语数据的新要求,外语数据标注已不是简单地“拉框打点”。2019年,河南升入数字中国省级排名第6位[3]。大数据背景下河南语言服务产业缺乏科学的规划和专业指导,缺乏创新能力和国际影响力[4]。然而,绝大部分从事外语数据标注的公司被劳动密集型问题所困扰,无法破圈。需求方对行业期望不断降低,头部企业和下游的供应商在痛苦中挣扎生存。外语数据标注行业要转向要素驱动和需求方驱动,结合产业融合的新趋势,关注经济发展的环境生态、集约持续和转型升级而不断优化,着眼于外语大数据的精益化生产,为实现智能化技术创新与突破而有所作为。
2016年,河南获批成为全国8个大数据综合试验区之一。河南省国家大数据综合试验区的核心区郑东新区智慧岛、高新区大数据产业园和郑州航空港经济综合实验区国际智能终端大数据产业园的新建以及“1+18”的发展空间格局,吸引了国内外知名企业机构集聚河南;跨境电商与共享经济等新型服务模式的崛起呼唤有效的外语数据采集和“高质精准”的外语数据标注。目前,河南省数据标注行业为客户群体提供的外语数据标注产品的类型大体分为特定设备、文字图像、语种、方言、定制五类。在数据标注过程中经常出现以下问题。第一,外语数据的采集和语料资源分散、标注方案各异、缺乏科学的标注规则规范和数据产品质量评估标准。数据采集和标注服务还保持着一定的壁垒[5]。第二,底层标注技术是外语数据标注发展的基础,因此标注师的素质从本质上决定人工智能的落地水平。大量的语言能力薄弱的“劳工”和“富士康”式[6]的“最不智能、最没有技术含量”的企业,造成了“淘金”企业AI的“不灵光”。第三,缺乏各种场景化、领域性数据的专门的外语数据,这些数据是需求方之急需,AI对数据的质量、规模和个性化方面的高标准决定了数据标注企业高质量的发展才能为人工智能按下加速键。
河南省外语数据标注行业发展仍然处于劳动密集型而非技术密集型,这与行业高质量发展的目标相悖而行。据《财经》报道,翊澳数据公司之类的数据标注公司,以“租金低、工资低、更省成本”为特点,在河南的十几个县市建立数据标注工厂,通过线上和线下结合的方式,让数据标注行业成为“富士康”式劳动密集型产业。标注平台、工具和转包模式也是制约数据标注行业高质量发展的重要因素。作为人工智能发展的三驾马车之一的数据标注行业如何随着应用端的业务复杂度增加、需求多样化向专业化、高质量的方向发展,满足客户数据需求,提升AI竞争力,跳出“数据标注员的工作是最不智能、最没有技术含量的”论断,需要提升数据标注人员的整体技术水平,以达到实现行业高质量发展的目的。
《2018—2024年中国数据标注市场分析与发展趋势研究报告》提出,人工智能将成为推动经济高质量发展的重要引擎,头部数据标注企业功不可没。数据标注是大部分人工智能算法得以有效运行的关键环节[7]。现代人工智能主要算法应用领域集中在计算机视觉、语音识别与语音合成以及自然语言处理三个方面,依赖各种算法处理规模达数百万的示例、图像或文本素材。就外语数据标注而言,语音语义标注较图像标注发展较为成熟,而自然语言处理有望成为继图像、语音之后的第三大增量市场。随着外语AI产品个性化需求量的大幅度提升,对自然语言产品的需求也会进一步增加。
有多少智能,就有多少人工[8]。数据标注催生出来新行业、新岗位。2020年7月26日,国家发展改革委等13个部门联合发布《关于支持新业态新模式健康发展激活消费市场带动扩大就业的意见》,“人工智能训练师”正式成为职业“萌新”[9]。外语数据标注,与汉语数据标注相比,工作量更大、过程极其枯燥且更耗时。海量的数据几乎全部依赖数据标注师手工进行标注,行业缺口可观。就河南省而言,随着外语应用场景多领域化,从业者也必将进入细分市场追逐阶段,外语数据标注师呼之欲出。然而,外语能力强且懂标注技术的标注师质量的参差使外语标注行业机遇与挑战并行。因此,商务英语专业可以加大融合性跨学科商务英语人才的培养,培养学生大数据和量化思维能力,提升学生思辨能力和创新能力。
需求专业化倒逼人才素养的提升[10]。“人、物、场”在河南融合,数字经济在这里激荡出万千气象,外语数据标注成为发展基石。当前河南在外语数据标注和数据产业的发展上还存在很大的进步空间。河南在外语数据产业的发展上潜力巨大,成为数字河南高质量发展的增长点,带动了城市和城镇的就业,也成为缓解行业供求关系紧张以及大学生就业压力的有效办法之一。据笔者统计,河南省2021年外语数据标注供应商共有36家企业,其中近一半成立于2020年,河南数据标注供应方仅占全国的3%,说明了河南市场正向而积极发展的态势。外语数据标注公司能够在一定程度上缓解河南大学生就业难的问题。作为“外向型经济发展”的重要基石,河南省外语数据标注行业必将有巨大的发展空间,从而为外语类专业和语言能力较强的大学生提供大量就业机会和技术红利。随着人工智能技术发展和创新形态演变,商务英语专业,作为融合性与国际化的应用型代表,在学生综合素质发展和就业方面的特殊地位进一步凸显。培养语言能力强、数据标注精、标注技术高的复合型、应用型商务英语专业数据标注人才,对河南经济高质量发展至关重要。
加强跨学科“双师”团队与“双创”教师团队的建设是人才培养的关键。人工智能背景下,要注重对商务英语专业人才的融合式培养。因此,拥有“双师”以上跨学科知识背景的师资队伍能够占据竞争优势。高校应该注重复合型外语专业的建设和培育。以郑州经贸学院商务英语专业为例,学校要创新“评价机制”激发教师工作的积极性,建立一套行之有效的教学技能培训机制,积极引导教师参加各类培训、讲座和学术性会议,鼓励教师深入企业进行见习和社会实践。加强现代化技术、大数据及网络技术在教学及教科研中的应用,加速成果的转换。
同样,培养商务英语专业应用型外语数据标注人才离不开“双创”教师的培养。郑州经贸学院着力打造“双创”型商务英语“双创”教学团队,着力培养学生创新创业的能力。在提升教学质量的同时完善创新创业政策和教学成果奖励办法,规定“双创”获奖作为职称评定和评优评先的重要依据。
优化应用型人才培养方案,重构应用型课程体系是应用型人才培养的核心。人工智能发展对就业岗位产生了深远的影响[11],高质量人才能够满足经济社会发展的需求。高校要定位于培养能够服务于区域社会经济和产业行业发展的应用型人才,才能够在激烈的竞争中屹立不倒。因此,河南省外语数据标注人才培养应该强调对学生实践能力和创新能力的培养,并拓宽其国际化视野。
在重构应用型课程体系方面,河南省应用型本科高校主要采取三种构建课程体系的方式:一是模块课程结构,二是模块+平台课程结构,三是通识教育+专业教育课程结构[12]。从教学内容和课程上看,商务英语专业构建了“多位一体”的应用型课程体系和跨学科人才培养体系,加大“数据标注员”“数据标注师”培养。提高语言课程、数据课程和计算机课程的“质”和“量”,加深学生对大数据、信息管理等知识的认知,开启学生运用Excel、SPSS等工具进行统计分析研究的大门,为外语数据标注打下基础。商务英语专业开设“国际商务方案策划与项目培养”“数据库应用基础”“高级语言程序设计(Python)”等课程,丰富学生计算机、大数据分析等现代化技术的知识储备,让学生将理论知识运用到商务项目和社会实践中,培养学生的语言运用能力、商务实践能力、自主学习能力和创新能力,极大地激发了学生创新创业的兴趣。
1.开设“国际商务方案策划与项目培养”课程
商务英语专业开设了“国际商务方案策划与项目培养”实践课程。利用三周的集中实践,学生能将课堂上学到的理论知识运用于具体的社会实践中,并在实践中得到升华。相较于以往的传统的课堂教学模式,这种实践教学和学科竞赛相结合的教育模式使空洞的理论知识变得更加详细具体,更加易于理解和消化吸收。这在很大程度上也激发了学生学习的兴趣与热情[13]。
2.开设“数据库应用基础”“高级语言程序设计(Python)”课程
商务英语专业开设了数据和语言类计算机课程。这类课程的开设不但丰富了学生的计算机、大数据分析等现代化技术的知识储备,为外语数据标注打下坚实的基础,同时在很大程度上也极大地激发了学生创新创业的兴趣。实践证明,此类课程的开设对培养大学生创新创业能力起到了显著的作用。
3.开设“专业认知实习”课程
为了更好地让学生了解学科和专业的知识,商务英语专业开设了“专业认知实习”课程,让学生一进校门就能够了解商务英语契合的职业特点、行业规则和工作流程,有助于学生充分进行职业规划,也与“毕业实习”课程形成了良好的呼应。重视实践教学体系的构建,专门开辟出实践课程的模块,切实提高了学生的实践能力和综合素养。
校企合作是培养商务英语专业应用型外语数据标注人才的必由之路。“产学研”合作不仅可以促进高校科研成果的转换,还可以提高学生大数据审计实践能力和企业的科学技术水平。软件公司或者企业并不熟悉高校商务英语专业的实践特性及规律,学生在学校接触不到企业实际工作中多源异构的海量数据,同时高校商务英语教师在企业实践及相关技术方面有所不足,因此,采用企业、数据公司、学生及高校教师合作进行“产学研”的合作模式对商务英语专业外语数据标注人才培养是一种新的尝试及探索。
郑州经贸学院商务英语专业师生与校外数标企业深入合作,引企业入校,建立数据实验室。在此基础上,由专职教师和企业导师共同指导学生成立了数据标注工作室,主营外语类、图像类、自然语言处理类数据标注项目,为字节跳动、阿里巴巴、文思海辉及好未来等企业提供了优质的基础数据服务,积累了丰富的数据采集和标注经验。在2020—2022年疫情防控至复工期间,工作室线上数据标注员达到200人,来自河南及河北、陕西、湖南、广州、四川等各大高校的商务英语、英语、日语、俄语、通信、生物制药等专业在读大学生共同完成了跨境电商、教育教学、医疗、无人驾驶和安防等多种外语标注任务。培养商务英语专业应用型人才必须走产学研结合的路径,这也是社会经济需求的体现,既支持了地方产业的发展,同时也增强了自身的科技创新能力,培养了外语数据标注产业适需适用的商务英语专业应用型人才[12]。
外语数据标注人才培养要以培养语言能力为核心,提高数字化信息素养和量化思维能力,以宽口径的商务知识为依托,以产出为导向,以培养思辨能力和创新能力为根本,以提高学生的综合素质为最终目标。在《河南省人民政府办公厅关于深化高等学校创新创业教育改革的实施意见》等政策的支持下,在“以赛促学,以赛促教,以赛创新人才”理念的引领下,郑州经贸学院积极实施“人才强校”战略,应用型人才培养质量不断提高。学生在全球品牌策划大赛、全国电子设计竞赛、全国数学建模大赛、全国“挑战杯”大赛等双创比赛中屡创佳绩,反哺高质量人才的培养,形成良好的循环。
随着外语应用场景的不断扩展,数据标注行业对外语专业化人才需求存在巨大的缺口。构思“一体多翼”的行业高质量发展路径,制定科学的外语数据标注规范,以提高数据标注质量、增加技术服务手段、拓宽数据服务平台为主体,以定制个性化产品与升级服务,以“产学研”为契机、三位一体的“复合型+产业型+专业型”数据标注人才培养“豫鹰”计划、培育高校和产业联盟链数据集、以“AI服务AI”等为支撑,能够实现河南省数据标注行业人才培养的高质量发展。