大语言模型与世界语言生活的新变化

2024-12-06 00:00张勇晨赵蓉晖
江汉学术 2024年6期

摘 要:ChatGPT的横空出世,推动了大语言模型在全球的流行,世界语言生活也因此受到了深刻影响。这一方面表现为诸多新的发展:在语言服务行业,大语言模型提升了机器翻译的文本流利度和多语处理能力,推动行业由语言生产向内容生产转型,多模态识别与处理能力的提高也拓展了特殊群体语言服务的可能性;在语言教育领域,大语言模型推动了学习活动的智能化、多样化和个性化,成为语言学习者自主学习的新搭档,并且为语言教师的教学与培养赋能;在语言保护工作上,大语言模型在多语能力上表现出来的潜力,加速了多语人工智能大模型的开发进度,一些国家和地区也在GPT模型的基础上开发多语交互工具,推动语言保护工作由静态的档案存储转为动态的实时交互。另一方面,大语言模型也带来了一些新的挑战,在语言内容传播上面临着一些新的难题,包括谣言与假消息传播的加剧以及变得更为复杂的学术伦理议题;对于社会公众而言,人工智能疲劳和人工智能焦虑也成为最主要的两个忧虑。

关键词:大语言模型;ChatGPT;人工智能;语言生活;语言服务;语言教育;语言保护;语言内容传播

中图分类号:TP18;TP391.1;H0-05 文章标志码:A 文章编号:1006-6152(2024)06-0037-11

DOI:10.16388/j.cnki.cn42-1843/c.2024.06.004

一、引 言

2022年11月30日,美国人工智能公司OpenAI的人工智能聊天机器人(chat bots)ChatGPT横空出世,掀起了世界范围内的大语言模型和生成式人工智能狂潮,众多科技巨头纷纷宣布加入大语言模型赛道,推出一系列相关的产品,开启了人工智能行业的新篇章。大语言模型在语义理解、代码编写、内容生成等各项能力上都有卓越表现,不仅能够理解和输出自然语言的内容,在语言能力上甚至“已经十分接近、在某些方面还超过人类的水平”[1],因此各行各业都在积极探索将大语言模型应用于生产生活实践的可能性。语言生活是指“运用、学习和研究语言文字、语言知识、语言技术的各种活动”[2],作为语言智能技术发展的高峰[3],大语言模型给语言生活带来了深刻影响,在诸多领域都呈现出了新的变化,一种自然人、机器人和数字人“三人”共生的新时代正在加速到来,“自然人—数字人”“数字人—数字人”“机器人—数字人”“自然人—机器人—数字人”这四类语言生活的新形态也随之而产生[4]。在这样技术变革和文明演进的大背景下,世界语言生活呈现出许多的新动态。本文将以大语言模型在世界语言生活中的实际应用案例为主要线索,结合语言保护、语言教育、语言服务、语言传播、语言和社会心理这五大世界语言生活的主题[5],对世界语言生活发生的新变化进行梳理,并结合相关研究做进一步的讨论。

二、大语言模型的技术背景与ChatGPT的

应用意义

大语言模型(Large Language Models)指XGhnu9/MT7Zsd3pOVnqXNg==的是由深度神经网络构建且包含巨大规模参数量的语言模型[6],其前身是预训练语言模型(Pre-trained Language Models)。2018年Google发布的BERT模型和OpenAI发布的GPT-1模型是预训练语言模型的主要代表,两者都基于Transformer架构[7],但却代表了语言模型发展的两条技术路线[8]:BERT所代表的是双向编码模型,在表示一个词时会考虑该词在句子中的前后文,其训练过程使用了掩码语言模型(Masked Language Model)并完成了下一句预测(Next Sentence Prediction)任务;GPT-1所代表的是自回归生成模型,在生成词时只依赖前文,而不考虑后文信息,在训练时通常基于无标注文本采用自监督学习(Self-supervised Learning)的方式。OpenAI在2020年提出了“规模法则”(Scaling Laws),即大语言模型的性能表现会随着计算量、模型参数量和训练数据量的增加而得到线性提升[9],发布于2020年的GPT-3模型是这一法则的印证,它拥有高达1750亿的参数量,具备小模型所没有的涌现能力(Emergent Abilities),在通用任务解决、复杂任务推理、人类指令遵循、人机对齐以及可拓展的工具使用等能力上都有更好的表现[10-11],也由此开启了大语言模型的时代。

ChatGPT是大语言模型发展的标志性产品,一方面它具有卓越的自然语言理解和生成能力,能够基于上下文实现多轮对话和复杂任务处理,使得大语言模型产品以一个较为完整和可用的形态呈现在社会公众面前;另一方面,在ChatGPT之前大语言模型的应用通常具有一定的技术门槛,需要用户使用计算机编程语言在模型的基础上做进一步定制开发,而ChatGPT的发布意味着只需要在对话框中使用自然语言,就可以直接与计算机进行交互,实现语言翻译、文稿写作、代码生成、方案制定、问题回答等一系列功能,这极大提升了大语言模型的应用可能性和社会普及性。随着迭代升级的GPT-4、GPT-4o和GPT-o1模型的相继发布,ChatGPT不仅具有了优秀的多模态理解能力,还能够与人类进行实时的多模态交互。同时,GPT-o1模型还利用“思维链”(Chain of Thoughts)提示方式让ChatGPT在回答之前进行“思考”,在推理能力上有了显著进步,这些发展又进一步拓展了大语言模型的可应用场景。

三、世界语言生活的新发展

在自然人、机器人、数字人共生的人类文明新形态中,语言生活呈现出了很多新的面貌,这包括更多的创造性表达方式、更为多样和灵活的表现身份认同的语言使用方式、个体与小团体的崛起对传统媒体的挑战、语言教育的发展、虚拟现实和增强现实对语言交流形式的影响、自然语言处理技术对人机交互方式的影响、数字化对全球语言生态的影响等[12]。本研究认为,大语言模型的出现以及在具体场景的实际应用,是这些语言生活新面貌更为具象化的体现:在语言服务行业,大语言模型引领了新一轮的技术升级与行业转型;在语言教育领域,大语言模型为学习者和教师都提供了巨大的助力;在语言保护方面,大语言模型推动了实时交互这一语言保护新形态的诞生。

(一)语言服务行业的新升级

在大语言模型流行之前,语言服务学界和企业就对人工智能技术的使用进行了大量讨论与积极探索[13-15]。ChatGPT的出现降低了人工智能产品的使用门槛,也直接推动了语言服务行业的升级转型。具体而言:其一,大语言模型在语言能力上的卓越表现,使得机器翻译能够输出更为自然流畅的文本,并进一步提升了多语翻译的能力,因此很快被纳入译员的工作流;其二,语言服务行业呈现出从语言生产转向内容生产的转型趋势,需要充分利用大语言模型来提供更丰富的内容服务,满足多元的定制化需求,并开发提示词工程等新型服务;其三,大语言模型在多模态识别与处理能力上的进步,拓展了特殊群体语言服务的可能性。

1. 融入翻译工作流

人工智能技术对机器翻译和语言服务行业产生了深远影响,“机器翻译+译后编辑(Post-Edited Machine Translation)”也已经成为最流行的翻译工作模式,根据《中国翻译及语言服务行业发展报告2023》的调查,有超过90%的翻译及语言服务企业认为这种工作模式提高了效率,并且愿意投入更多资金来提升相关的技术实力[16]。相较于之前的人工智能工具,ChatGPT在语言能力上有着卓越的表现,能够理解和生成更加符合人类表达习惯的自然语言文本,与使用者进行流畅地对话。此外,尽管ChatGPT的训练集主要由英文文本构成,但仍具备相当程度的多语处理能力,这也意味它能在多语翻译上胜任更多的工作。

相关研究也对大语言模型的翻译能力进行了测试,比如一些研究者基于Flores-101数据集对XGLM、BLOOMZ、OPT和GPT这四个大语言模型的多语翻译能力进行了测试,发现在102种语言的202个方向的翻译表现上,GPT位居第一且在不同语言间的表现更加均衡[17]。腾讯AI实验室也对谷歌翻译、DeepL翻译、腾讯交互翻译(Tencent TranSmart)和ChatGPT的多语翻译能力进行了对比测试[18],选择德语、英语、罗马尼亚语和汉语作为测试语言,发现GPT-3.5模型在高资源语言(High-Resource Language)的表现上与其他模型旗鼓相当;但在低资源语言(Low-Resource Language)的表现上则落后于其他模型。然而当研究者使用“转向提示词”(Pivot Prompting)时,即让ChatGPT首先将语句翻译为高资源语言,随后再翻译为目标语言,GPT-3.5模型在低资源语言的翻译能力得到了显著提升;研究团队还进一步测试了GPT-4模型的翻译能力,发现它在各方面的翻译表现都有巨大提升,在语言表达的自然和流利程度上远超其他模型。

因此,将ChatGPT或其他大语言模型融合进翻译工作流,或者基于大语言模型来开发相关的翻译产品,已经成了大多数语言服务企业的选择。在美国Slator网2023年4月的调查中,超过90%的语言服务企业已经将大语言模型的应用列入计划[19]。而在2024年5月的《语言产业市场报告》中,受访的223家语言服务企业中超过三成已经将大语言模型应用于翻译工作流,且仅有3%的企业暂时没有具体的应用计划[20]。

2. 服务内容生产

ChatGPT具有强大的内容生成能力,除了语言翻译,还可以应用于数据分析、知识库搭建、市场营销、创意设计、全球沟通等诸多领域。GPT-4模型发布之后,ChatGPT能够处理多模态信息的输入、识读文件和网页信息,并能基于DALL·E模型生成图片内容。在2023年11月GPTs上线之后,用户还可以在ChatGPT的基础上开发相关的插件,应用于具体的场景,比如阅读和分析pdf文件、对提示词进行优化、为质性研究的数据编码提供辅助等。大语言模型的飞速发展,让各个领域的工作都受到了不同程度的影响,OpenAI公司对大语言模型在劳动力市场所具有的潜在影响进行了调查[21],发现在约80%的美国劳动者中有至少10%的工作受到大语言模型的影响,而至少有一半工作受到影响的劳动者约有19%。

语言服务行业也不可避免地受到大语言模型的影响,这体现在两个方面:对于需求方而言,内容需求不再只是语言翻译,而是会有更为多元的定制需求;对于服务提供方而言,大语言模型对语言服务的内容质量和适用范围提出了更高的要求,并且很有可能推动语言服务行业由语言生产转向更为复合的内容生产,这可能包括但不仅限于以下场景。

第一,专门领域的内容生产助手。用以提升工作文稿的书写效率和质量,并基于特定风格生成相应的文本内容,比如电子邮件、制度章程、规划方案、旅行向导、社交媒体内容运营等。

第二,定制的智能聊天机器人。将线上或电话客服、电子商务领域的相关信息用于模型训练,从而提升咨询和沟通的效率,改善当前智能聊天服务只能提供模板式回答而无法应对个性化需求的现状。

第三,知识库的构建。对于公司而言,可以让大语言模型学习公司内部信息,通过问答的形式来辅助员工入职、员工培训、部门沟通、业务咨询等多方面的工作;对于应急语言服务而言,则可以使用大语言模型学习各类知识,比如灾害应急、医疗救助、紧急情况处理等内容,并可充分利用大语言模型的多语能力服务更广泛的人群,提升应急语言服务的效率和实用性。

第四,内容本地化。大语言模型拥有海量的全球知识,在面向特定地区的文化、法律、历史、价值观等内容本地化工作中,能够提供更加有力的支持。同时,大语言模型在多模态能力上的发展,进一步提升了语言适配内容生产的可能性,比如在影像本地化的制作中,可以利用大语言模型进行语音与视频合成,在保留原始说话者语音、语气和音色特征的同时,改善人物的肢体与面部运动轨迹,从而提升影像内容的整体效果与受众的代入感。

第五,提示词工程师服务(Prompt Engineering Services)。因为提示词的使用对大语言模型的性能表现有着重要的影响,因此提示词工程师这一职业也随之兴起[22]。为需求方提供提示词优化或者定制服务,尤其是多语种的提示词服务,将有可能成为语言服务行业的一个新增长点。

3. 赋能特殊群体语言服务

在ChatGPT发布之前,人工智能学界和业界就已经探索并推出了面向特殊群体的语言服务产品,比如对于视力障碍群体,网页、笔记本电脑、智能手机等电子设备中都配备了无障碍模式,一些手机应用程序比如微软公司的Seeing AI能够通过手机摄像头,帮助视力障碍人群识别生活中的各类物品,并能够基于语音指令完成一些日常工作;而对于听障群体,也有一系列人工智能手语工具面世,比如基于“百度智能云曦灵”数字人平台打造的人工智能手语主播在2022年上线,央视新闻频道的主持人还录制了视频与之进行互动,国外公司如英国的Signapse、印度的Signer. AI、以色列的CODA等,也都推出了相关的实时手语交互工具[23]。

ChatGPT的发布及其不断升级的多模态交互能力,提升了大语言模型进一步应用于多模态信息的可能性,比如在OpenAI发布的GPT-4o演示视频中,它能够精准地通过摄像头实时识别各类物体,并在此基础上与人类进行实时交互,在对话过程中人类可以任意打断,GPT-4o也能在不同的场景和语境下表现出“真实”的情感反馈。对于特殊群体的语言服务而言,这意味着相关产品能够充分利用ChatGPT的多模态交互能力,在易用性和准确性上有更好的表现。在GPT Store中,目前已经上线了一些手语交互的插件(如Sign Language Assistant GPT),能够识读和解释手语视频,并能够通过文字和图片两种方式指导用户如何使用手语来表达含义,更进一步的发展方向则是在GPT模型的基础上定制开发手语实时交互工具,实现实时多模态交互。在面向视障群体的视觉助手上,相关产品则已经问世,比如丹麦视力障碍群体服务公司Be My Eyes和OpenAI公司联合打造的Be My AI,是首款基于GPT-4模型的视觉助手,相较于之前的产品,它不仅在视觉识别上有更强的能力,还能够与使用者进行对话,在智能和交互体验上有更好的表现。

(二)语言教育的新助力

ChatGPT在语言表达的自然程度与准确性上的表现与人类十分接近,因此一经推出就受到了语言教育学界和商界的重视,一些学者也开始探索将它应用于教育教学中的可能性。许家金和赵冲认为大语言模型在英语教学中扮演了三种角色[24],分别是:(1)语言顾问,可以充当母语者和语言专家的角色,为学生和教师提供语言知识;(2)语伴,能够与学习者进行对话和讨论,并帮助教师设计练习;(3)语言测评专家,对学习者的输出内容进行评价,并帮助学习者纠正语法、逻辑上的偏误。综合来看,这三种角色为学习者和教师提供了不同的助力。从学习者的视角来看,ChatGPT是自主学习的新搭档,可以为学习者提供即时互动和学习反馈;从教师的视角来看,ChatGPT可以帮助教师准备教学内容,并为追踪和记录学生的学习过程提供助力。

1. 学习者的视角:自主语言学习的新搭档

在大语言模型之前,很多学习者就已经主动使用各类软件和人工智能工具来辅助自己的语言学习,大语言模型的推出极大提升了这些软件和工具的性能,并使得学习者拥有了一个语言能力接近母语者的语伴,可以全天候不限时地进行对话,并获得即时的反馈和指导。众多语言学习软件也纷纷接入大语言模型开发新产品,比如早在2022年9月,多邻国(Duolingo)就与OpenAI公司合作,使用GPT-4模型来进行开发迭代,此时ChatGPT还尚未推出,GPT-4模型也未正式发布。2023年4月多邻国公司推出了基于GPT-4模型的Duolingo Max,能够为语言学习者提供个性化学习、自动反馈、语言测试等人工智能服务,并能够让人工智能扮演不同的角色在不同的场景下进行对话 [25]。其他的一些软件也纷纷介入大语言模型,比如Langugo LLC推出的aiLango、Skyeng推出的Skysmart、Grammarly推出的GarmmarlyGO,都是基于GPT模型开发的“人工智能导师”(AI tutor),帮助学习者练习语言并提供实时反馈,相较于之前的版本,接入大语言模型后的内容反馈表现有了显著的进步。

ChatGPT和相关的大语言模型在语言能力上的卓越表现,也促使学习者主动探索如何让它更好地辅助自己的学习过程。文秋芳和梁茂成认为,人机互动协商能力(Human-AI Interactive Negotiation Competence,简称HAINC)是人工智能能否充分发挥功能的关键,这一能力包含五个构成要素:理解AI、设定目标、发布指令、分析反馈和调整策略[26]。笔者也搜集整理了互联网上有关如何使用ChatGPT辅助自主学习的相关经验,可以提炼出以下几种方式:

(1)获得专业的语言指导:通过提示词让ChatGPT扮演语言顾问和语言测评专家的角色,比如语言考试的考官、课堂中的教师、资深的语法学家等。首先让它学习和了解相关的要求和评价标准,随后将自己的内容发送给它,获得即时的反馈和评价,并让它对其中出现的偏误进行详细解释,同时提供修改建议。在GPTs上线之后,GPT Store中也出现了大量已经设定好角色和功能的插件,可以更方便地来使用。

(2)模拟真实的互动情境:一些学习者设计了包含听、说、读、写四个方面的自主学习策略,具体而言,一方面可以通过文本来与ChatGPT对话,锻炼阅读和写作的能力;另一方面可以通过其他的语音模型来让ChatGPT“说话”,从而实现对真实互动情境的模拟,锻炼学习者的听力和口语能力。2023年9月GPT Voice上线,学习者可以直接使用手机端App与ChatGPT进行语音交互,不再需要使用第三方模型。2024年5月发布的GPT-4o在实时多模态交互能力上又有了显著提升,更进一步拓展了应用的范围。

(3)构建智能化的学习体系:在学习者的日常软件中通过API接入ChatGPT,让软件成为一个智能助手,负责一些工作,由此构建智能化的学习体系。比如在卡片笔记软件Anki中使用ChatGPT,根据学习内容直接生成相应的笔记卡片,并根据遗忘曲线进行复习和记忆;在文献管理软件Zotero中接入ChatGPT,通过提示词提前设定好相关的功能,让ChatGPT协助总结外文文献的要点;使用ChatGPT_Academic或者其他相关的学术插件,实现中英互译、论文语句润色和语法错误查找、批量生成注释等功能;此外,一些云协作笔记软件也都接入了大语言模型,能够更好辅助团队学习需求,比如Notion、Data Dimension、金山文档、飞书笔记等。

2. 教师的视角:语言教育教学的新拓展

关于ChatGPT是否应该应用于学校教育以及教师的教学实践,依然是一个有争议的问题:支持者认为应该推动数智技术对语言教育的赋能,在课堂内外不同场景中充分运用ChatGPT的功能,实现人机共生与人机协同的语言教育;反对者则认为ChatGPT可能会影响学生主动思考和创造性思考的能力,生成的内容也具有模式化的特征,不利于学生长期的语言能力发展,同时还可能助长部分学生的抄袭和作弊行为[27]。

当前对于ChatGPT在语言教育中的具体应用尚处于讨论和起步阶段,在相关的学术研究中,学者们各自从不同的视角讨论了ChatGPT应用于语言教育的可能性,总体而言,ChatGPT推动了教师构建人机协同的教学新格局[28-29]。在教学准备阶段,可以为教学内容、教学目标和大纲、教学案例等工作提供辅助,同时利用知识图谱技术构建完整的教学体系[30];在实际教学阶段,一方面可以增加真实的语言互动[31]、充分利用生成式语料库来辅助教学[32],另一方面可以减负增效[33-34],推动课堂教学的内容由单纯的知识传授转向批判性思维培养和高阶问题的解决[35];在教学反馈阶段,可以基于ChatGPT构建自动化测评、即时反馈和个性化学习追踪的机制[30-31,36],既帮助学生更好地掌握课堂内容,也帮助教师了解总体的知识接受程度,动态调整教学内容。此外,一些学者也认为ChatGPT将对师资培养产生深刻影响,比如有学者预言在国际中文教育中将可能出现以下趋势[37]:培养方向从通用中文师资转向职业中文师资、使用大语言模型成为教师必备的信息技术素养、教师培训师取代教师教育者成为师资培养的主力军。

(三)语言保护的新形态

当前的大语言模型的主要训练数据集是高资源语言,如英语、法语、德语、西班牙语、汉语等,但对低资源语言的支持还非常不足。一些批评认为,非英语语言支持的局限性会限制其他语言使用者对人工智能技术的访问和接入。然而,尽管低资源语言在训练集中的占比非常低,但ChatGPT在多语文本生成上的表现依然不可忽视,它能够使用多种语言进行较为流利的对话互动。对不同翻译模型的测试也发现,ChatGPT在102种语言之间的表现更为均衡[18]。也正是大语言模型在多语能力上表现出的潜力,彰显了它在进一步推动语言保护上的前景。目前世界范围内已经有一些项目正在探索这一可能性,包含两种不同路径:一是投入多语人工智能大模型的开发,拓展大语言模型所支持的语种数量;二是提供更多的数据给现有的大语言模型进行训练,大幅增强它理解和使用这一语言的能力,从而实现与该语言使用者的实时交互。

1. 多语人工智能大模型的发展

多语人工智能大模型的开发是一个备受学界和工业界关注的议题,目前比较知名的开源多语大模型包括BLOOM(支持43种语言)、YAYI 2(支持16种亚洲语言)、PolyLM(支持16种语言)、XGLM(支持20种语言)、mT5(支持101种语言)等[38]。同时,多语人工智能大模型也成了科技巨头角力的一个新赛道:谷歌公司于2022年11月2日宣布支持1000种语言的倡议,旨在开发一个能够支持1000种语言的人工智能模型。作为这个倡议的一部分,谷歌已推出基于400多种语言训练而成的通用语音模型(Universal Speech Model),用于语音识别与合成,同时与世界各地的研究者和组织合作,来获取更多的语音数据。谷歌推出的人工智能聊天机器人Google Bard(现已改更名Gemini),目前也宣称支持超过100种语言[39]。梅塔(Meta)公司推出大规模多语语音模型(Massively Multilingual Speech Models),宣称能够识别4000种语言,并能实现1100余种语言的语音识别与合成。在其未来的规划中,除了增加更多语言(尤其是方言)的支持外,还将尝试将人工智能模型与虚拟现实和增强现实技术融合,通过多种方式来实现语言保护[40]。OpenAI公司也在2023年11月宣布了新的数据合作计划,通过与第三方的机构合作来为大语言模型的训练提供更多的公共和私人数据集,其中就包含了能够“反映人类社会”的多语言和多模态的数据集[41]。

这些多语人工智能模型的相继推出,将有效提升低资源语言的信息可及性(Information Accessibility),让世界各地的用户都能使用自己语言版本的人工智能工具,增强使用体验;同时应用程序的开发者也能利用大语言模型来接入和支持更多的语言,在更大范围内弥合数字世界的“语言鸿沟”(Language Gap)。

2. 多语交互工具的开发与应用

针对不同语言文字实态的保护措施主要有四种类型:其一,“语言保存”,为即将消亡的语言建立永久保存的数据库;其二,“语言抢救”,推动濒危语言的祖孙隔代传承,并建立保护区和博物馆;其三,增加语言活力,通过教育、鼓励应用等方式为有衰落倾向的语言增添活力;其四,保持活力,即在政策、教育、应用等层面保持语言现有的活力[42]。在具体实践中,语言数据库的建设取得了丰硕的成果,比如中国的语言资源保护工程、联合国教科文组织的世界语言地图集(World Atlas of Languages)、民族语言网(Ethnologue)、全球语言档案馆(Global Language Archive)等。总体来看,这些数据库依然以静态的形式存储语言信息,尽管包含了文本、音频、视频等多模态内容,但由于缺少真实交际对象,较难呈现这些语言在实际互动中的真实状态。而大语言模型的飞速发展为这些语言重新焕发活力带来了契机,一些国家和地区已经开始尝试用当地的语言数据来训练和提升大语言模型,从而让大语言模型能够用这些语言与使用者进行实时交互。

冰岛政府最早将大语言模型应用于语言保护工作,并成功发布了面向社会公众的应用程序。早在2022年7月,冰岛政府就通过Miðeind公司与OpenAI公司合作,使用冰岛语的数据来对GPT-4模型进行训练和微调,并通过人类使用者的反馈和编辑,增强ChatGPT对冰岛语言和文化的理解力,提高内容生成和语言表达的流利程度和准确性[43]。目前,ChatGPT已经能够进行流利的冰岛语对话,并能实现冰岛语和其他多种语言之间的交互。Miðeind公司也在此基础上推出语音助手Embla,实现冰岛语的语音交互。冰岛语交互产品的问世也启发了其他语言的保护工作,一些政府和机构已经开始启动相应的计划:2023年5月,苏格兰政府委托格拉斯哥大学和爱丁堡大学使用盖尔语的数据来训练GPT模型,从而开发一个盖尔语人工智能(Gaelic AI)来实现盖尔语的实时交互,该项目总投资225,000英镑,使用的数据集包括:苏格兰研究学院档案馆15,000页的盖尔语叙述性文本、格拉斯哥大学超过3000万词的盖尔语文本、盖尔语数字档案馆的方言录音以及前期数字研究项目所积累的成果[44]。对于新西兰的毛利语保护工作,尽管目前还没有官方层面推出的正式计划,但一些团队已经开展了相应的开发工作,GPT Store也上线了一些毛利语会话插件,然而在如何找到足够的高质量毛利语数据上,这一工作也面临着一些困难[45]。

四、世界语言生活的新挑战

数智技术的发展不仅推动人类社会进入了一个全新的阶段,也带来了不少新的难题和担忧。王春辉总结了数字时代语言伦理在七大领域所呈现的新形态和新表现,即数字写作/数字翻译、人机交互、基因编辑与人类增强、元宇宙与虚拟人、智能定制/推送、数字经济、信息无障碍,并基于此讨论了语言生活所面临的一些挑战[46]。本研究认为,大语言模型对语言生活影响最为深刻的地方就是人机交互方式的变革,机器作为一个交际主体拥有与人类近似的语言能力,这也不可避免地为世界语言生活带来了一些新的挑战,具体表现为语言内容传播和语言社会心理两个方面,就前者而言,内容的真实性成为一个迫切需要关注的难题;而对于后者,人工智能会不会替代人类在一定程度上引起了担忧。

(一)语言内容传播的新难题

1. 谣言与假消息

ChaGPT能根据一些提示词生成完整的文章,内容水平接近于人类写作,这使得大量的用户开始把它生成的内容发布在互联网上。然而,GPT-3.5模型的训练数据只截止到2021年9月,GPT-4模型的数据时间尚未公布且目前只有付费订阅的用户可以使用,且直到2023年5月ChatGPT才具备联网能力,因此之前在一些知识性信息上常常会犯一些错误,并因预测模型的缺陷,可能会误读提示词而“胡编乱造”,也即产生“人工智能幻觉”(AI Hallucination),如果用户没有对内容进行甄别就直接发布在互联网上,很可能造成以讹传讹的问题。此外,一些用户可能会使用模型来故意编造谣言和假消息,因为它生成的内容可读性较高且能够模仿不同的风格,就更加容易造成错误信息的传播,比如2023年4月一位研究者曾向英国《卫报》的编辑发送过一篇ChatGPT生成的文章,与《卫报》文章的风格高度一致,经编辑部多次核查追溯后才确认这篇文章并非《卫报》所做[47];英国“反对数字仇恨研究中心”(Center for Countering Digital Hate)的一项研究则测试了不同的模型生成虚假图片信息的能力,发现尽管ChatGPT已经对生成具有误导信息或者政治人物的图片做了一些限制,但在所测试的40条虚假政治新闻提示语句中仍然有超过半数被ChatGPT生成出来[48]。

2. 学术伦理

ChatGPT一经发布,就受到很多学生的青睐,一些研究者也开始用来辅助自己的科学研究,但究竟是否应该让ChatGPT辅助课程学习、能否使用ChatGPT来进行学术相关的工作、如何判定用它生成的内容在何种程度上存在抄袭嫌疑,依然是一个具有争议的问题。一些大学宣布禁止在校内使用生成式人工智能,并颁布了严厉的处罚条例;而另外一些大学则有限度地允许使用相关工具。为应对相关争议,OpenAI官方发布了检测器来辅助判定文本是否由人工智能生成,但判定能力依然十分有限。在官方的测试中,大部分由人工智能生成的文本都无法检测出来,而少部分由人类写作的文本却会遭到误判。

在学术发表中,已经有预印本的文章将ChatGPT列为共同作者,这一举动引发了很多讨论,很多期刊也声明禁止将ChatGPT列为共同作者,比如斯普林格—自然集团就将这一禁令列入投稿条例中,但并没有完全禁止ChatGPT的使用,只要求作者在文章中披露相关使用行为。而ChatGPT究竟应该在多大程度上介入学术研究,依然是有争议的问题,比如曾有一篇医学论文的插图由人工智能生成,在发布三天后便遭到撤稿[49];另一篇研究论文中,作者忘记删除引言部分与ChatGPT对话时使用的提示词,直接引发了对这篇论文从研究规范、研究伦理到学术写作全过程的质疑[50]。

(二)社会公众的新担忧

1. 人工智能疲劳

公众对人工智能的认知、评估和使用是技术想象和技术实践交织作用的结果,当用户使用人工智能进行信息检索、语言翻译等浅度工作时,技术乐观主义成为一个显著因素,但当人工智能被用于深度工作时,公众的风险意识则会被激发[51]。ChatGPT自发布后,已成为很多用户生活、工作和学习中必不可少的工具,但也不可避免地引发了一些忧虑:对其过度依赖是否会造成影响?人类的学习和工作能力是否会因此下降?人类的工作是否会被替代?2023年,ChatGPT因访问量过大而经历了两次全球宕机,在全球社交媒体上引起了关于“人工智能疲劳”(AI Fatigue)的广泛讨论。波士顿咨询集团的一项对比研究也发现,在处理人工智能工具能力范围之内的工作时,使用人工智能的实验组完成工作的效率和质量相较于不使用工具的实验组有显著的优势;而在处理其能力范围之外的工作时,使用人工智能的实验组在工作表现上有显著的下降[52]。

2. 人工智能焦虑

伴随人工智能飞速发展而来的,就是人工智能焦虑(AI Anxiety)。根据斯坦福大学发布的《人工智能指数报告(2024)》(Artificial Intelligence Index Report),在2023年有52%的受访者表示对人工智能存在忧虑,相较于2022年增长了13个百分点[53]。在相关研究中,由技术引发的焦虑(Technology-induced Anxiety)或者技术恐惧症(Technophobia)是一个备受关注的议题[54-55],具体而言,人工智能焦虑主要体现在八个方面:隐私侵犯(Privacy Violation)、争议行为(Bias Behavior)、工作替代(Job Replacement)、学习(Learning)、存在风险(Existential Risk)、违背伦理(Against Ethics)、人工意识(Artificial Consciousness)、缺失透明度(Lack of Transparency)[56]。在大语言模型盛行的当下,这些方面的焦虑依然十分显著。

五、结 语

本文以ChatGPT为主要线索,梳理和讨论了大语言模型对世界语言生活所产生的影响:语言服务、语言教育和语言保护等领域有了诸多的积极探索,但同时在语言内容传播和社会公众的认知中也面临着更多的新挑战。尽管在一些资深学者看来,大语言模型并不是走向通用人工智能的最终答案,比如语言学家乔姆斯基[57]和计算机科学家杨立昆(Yann Lecun)[58]都持类似观点,但从语言生活的角度来看,人工智能技术的飞跃式发展和大语言模型的出现从根本上改变了人机交互的方式,人机交互的语言媒介从编程代码转变为人类的自然语言,这为工具的广泛普及和应用场景的拓展创造了十分必要的条件。IBM商业价值研究院(IBM Institute for Business Value)也在一项报告中指出:“人工智能不会取代人类,但会使用人工智能的人类会取代那些不会使用的人。”[59]因此,无论是对大语言模型尚存疑虑还是选择积极拥抱,都需要承认人工智能已经成为世界语言生活中不可忽视的一部分,一个“三人”共生和互动协商的新时代也正在悄然到来。

参考文献:

[1] 沈家煊.ChatGPT,赵元任,新文科:一个语言学家的思考[J].中国语言战略,2023(1):1-15.

[2] 李宇明.语言生活与语言生活研究[J].语言战略研究,2016(1):15-23.

[3] 李宇明.人机共生时代的语言数据问题[J].华中师范大学学报(人文社会科学版),2023(5):135-143.

[4] 王春辉.自然人、机器人、数字人“三人”共生时代的语言生活[J].语言战略研究,2024(3):7-16.

[5] 赵蓉晖.当代世界语言生活的五大主题[J].语言战略研究,2021(5):69-70.

[6] 张奇,桂韬,郑锐,等.大规模语言模型:从理论到实践[M/OL].(2023-09-10)[2024-09-19].https://intro-llm.github.io/chapter/LLM-TAP.pdf.

[7] 马俊峰,温兆伦.社会加速下ChatGPT引发的主体新异化与数字命运共同体构建[J].南京邮电大学学报(社会科学版),2024(4):20-29,42.

[8] 斯蒂芬·沃尔弗拉姆.这就是ChatGPT[M].北京:人民邮电出版社有限公司,2023.

[9] Kaplan J,McCandlish S,Henighan T,et al.Scaling Laws for Neural Language Models[EB/OL].(2020-01-23)[2024-04-30].https://arxiv.org/abs/2001.08361.

[10] 赵鑫,李军毅,周昆,等.大语言模型[M/OL].(2024-04-15)[2024-08-18].https://llmbook-zh.github.io.

[11] 冯志伟,张灯柯.GPT与语言研究[J].外语电化教学,2023(2):3-11,105.

[12] 王春辉.语言研究需要新质生产力[J].语言战略研究,2024(3):5-6.

[13] 张爱玲,杨子靖,刘晨璇,等.人工智能技术发展与专业口笔译实践耦合机制路径初探[J].外语电化教学,2018(3):88-94.

[14] 王华树,李智.人工智能时代的翻译技术研究:内涵、分类与趋势[J].外国语言与文化,2020(1):86-95.

[15] 崔启亮.人工智能在语言服务企业的应用研究[J].外国语文,2021(1):26-32,73.

[16] 中国翻译协会.中国翻译及语言服务行业发展报告2023[R/OL].(2023-04-04)[2024-04-30].https://www.fxbaogao.com/detail/3726017.

[17] Zhu W, Liu H, Dong Q, et al.Multilingual Machine Translation with Large Language Models:Empirical Results and Analysis[EB/OL].(2023-04-10)[2024-04-30]. https://arxiv.org/abs/2304.04675.

[18] Jiao W, Wang W, Huang J-tse, et al.Is ChatGPT A Good Translator:Yes with GPT-4 as the Engine[EB/OL].(2023-01-20)[2024-04-30].https://arxiv.org/abs/2301.08745.

[19] Wyndham A.How Many Language Service Providers Have Piloted ChatGPT in Workflows[EB/OL].(2023-05-23)[2024-04-30].https://slator.com/how-many-language-service-providers-have-piloted-chatgpt-workflows/.

[20] Slator 2024 Language Industry Market Report:Language AI Edition[EB/OL].(2024-05-16)[2024-09-19].https://slator.com/2024-language-industry-market-report-language-ai-edition/.

[21] Eloundou T, Manning S, Mishkin P, et al.GPTs are GPTs:An Early Look at the Labor Market Impact Potential of Large Language Models[EB/OL].(2023-03-17)[2024-04-30].https://arxiv.org/abs/2303.10130.

[22] 华凌.大模型发展带火提示词工程师新职业[N].科技日报,2023-12-13(5).

[23] 何昕屿.数智时代的语言服务行业新发展[M]//世界语言生活状况报告(2024).北京:商务印书馆,2024.

[24] 许家金,赵冲.大语言模型在英语教学中的角色[J].外语教育研究前沿,2024(1):3-10,90.

[25] “Duolingo Max” Shows the Future of AI Education [EB/OL].(2023-03-14)[2024-04-30].https://investors.duolingo.com/news-releases/news-release-details/duolingo-max-shows-future-ai-education.

[26] 文秋芳,梁茂成.人机互动协商能力:ChatGPT与外语教育[J].外语教学与研究,2024(2):286-296,321.

[27] 李雪,顾晓乐.AIGC技术冲击下外语人才培养的破壁与升级[J].外语学刊,2024(2):75-83.

[28] 金旋.ChatGPT深度融入国际中文教育的应然功能、实践困境和应用策略[J].云南师范大学学报(哲学社会科学版),2023(4):52-58.

[29] 秦颖.人机共生场景下的外语教学方法探索:以ChatGPT为例[J].外语电化教学,2023(2):24-29,108.

[30] 马瑞祾,梁宇.国际中文教育数字化转型的三重逻辑:从ChatGPT谈起[J].河南大学学报(社会科学版),2023(5):112-118,155.

[31] 胡加圣,戚亚娟.ChatGPT时代的中国外语教育:求变与应变[J].外语电化教学,2023(1):3-6,105.

[32] 朱奕瑾,饶高琦.基于ChatGPT的生成式共同价值标准例句库建设[J].云南师范大学学报(对外汉语教学与研究版),2023(3):71-80.

[33] 毛文伟,谢冬,郎寒晓.ChatGPT赋能新时代日语教学:场景、问题与对策[J].外语学刊,2023(6):25-33.

[34] 焦建利,陈婷.大型语言模型赋能英语教学:四个场景[J].外语电化教学,2023(2):12-17,106.

[35] 孔蕾.生成式人工智能在外语专业教学中的应用:以《大学思辨英语教程·精读》教学为例[J].外语教育研究前沿,2024(1):11-18,90.

[36] 徐娟,马瑞祾.ChatGPT浪潮下国际中文教育的技术变革[J].国际汉语教学研究,2023(2):41-52.

[37] 谷陵.ChatGPT对国际中文师资培养的影响与应对[J].云南师范大学学报(对外汉语教学与研究版),2023(3):63-70.

[38] Sajid H.The State of Multilingual LLMs:Moving Beyond English[EB/OL].(2024-02-10)[2024-04-30].https://www.unite.ai/the-state-of-multilingual-llms-moving-beyond-english/.

[39] Dean J.3 Ways AI is Scaling Helpful Technologies Worldwide[EB/OL].(2022-11-02)[2024-04-30].https://blog.google/technology/ai/ways-ai-is-scaling-helpful/.

[40] Preserving the World’s Language Diversity through AI[EB/OL].(2023-05-22)[2024-04-30].https://about.fb.com/news/2023/05/ai-massively-multilingual-speech-technology/.

[41] OpenAI Seeks to Gather Data from More Languages and Cultures[EB/OL].(2023-11-09)[2024-04-30].https://www.bloomberg.com/news/articles/2023-11-09/openai-wants-to-partner-with-groups-to-gather-more-diverse-data.

[42] 李宇明.科学保护各民族语言文字[J].语言文字应用, 2012(2):13-15.

[43] 赵运.人工智能技术助力冰岛适应数智化时代[M]//世界语言生活状况报告(2024).北京:商务印书馆, 2024.

[44] AI Initiative Gives Gaelic a Foothold in the Digital Age[EB/OL].(2023-05-03)[2024-04-30].https://www.ed.ac.uk/news/2023/ai-initiative-gives-gaelic-a-foothold-in-the-digit.

[45] Accelerating the Revitalisation of te reo Māori with AI[EB/OL].(2022-06-26)[2024-04-30].https://aiforgood.itu.int/event/accelerating-the-revitalisation-of-te-reo-maori-with-ai/.

[46] 王春辉.数字时代语言伦理的新形态和新表现[J].社会科学战线, 2022(12):152-159.

[47] ChatGPT is Making up Fake Guardian Articles:Here’s How We’re Responding[EB/OL].(2023-04-06)[2024-04-30].https://www.theguardian.com/commentisfree/2023/apr/06/ai-chatgpt-guardian-technology-risks-fake-article.

[48] Fake Image Factories:How AI Image Generators Threaten Election Integrity and Democracy [EB/OL].(2024-03-06)[2024-09-19].https://counterhate.com/research/fake-image-factories/.

[49] 张田勘.论文使用AI生成插图,AI使用的红线在哪里[EB/OL].(2024-02-23)[2024-04-10].https://www.thepaper.cn/newsDetail_forward_26438410.

[50] 陈洋洋,张海振.教授被指借助AI写论文,中国地质大学:内容、数据无造假,正调查[EB/OL].(2024-03-22)[2024-04-10].https://www.thepaper.cn/newsDetail_forward_26774556.

[51] 刘鸣筝,王硕.技术想象与技术实践的交织:科学传播视域下公众对生成式人工智能的认知、评估与使用[J].国际新闻界, 2024(4):32-51.

[52] Over-reliance on ChatGPT Could Harm Worker Performance[EB/OL].(2023-10-02)[2024-04-30].https://www.itpro.com/technology/artificial-intelligence/over-reliance-on-chatgpt-could-harm-worker-performance.

[53] Artificial Intelligence Index Report 2024[R/OL].(2024-04-26)[2024-04-30].https://aiindex.stanford.edu/report/.

[54] Khasawneh O Y.Technophobia without Boarders:The Influence of Technophobia and Emotional Intelligence on Technology Acceptance and the Moderating Influence of Organizational Climate[J].Computers in Human Behavior, 2018(88):210-218.

[55] Kummer T F, Recker J, Bick M.Technology-induced Anxiety:Manifestations, Cultural Influences, and Its Effect on the Adoption of Sensor-based Technology in German and Australian Hospitals[J].Information & Management, 2017(1):73-89.

[56] Li J, Huang J S.Dimensions of Artificial Intelligence Anxiety Based on the Integrated Fear Acquisition Theory[J].Technology in Society, 2020(63):101410.

[57] Chomsky N,Roberts I,Watmull J.Noam Chomsky:The False Promise of ChatGPT [EB/OL].(2023-03-08)[2024-08-18].https://www.nytimes.com/2023/03/08/opinion/noam-chomsky-chatgpt-ai.html.

[58] Browning J,Yann L.Yann LeCun:大模型方向错了,智力无法接近人类[EB/OL].(2022-08-26)[2024-08-18].https://www.jiqizhixin.com/articles/2022-08-26-3.

[59] IBM Institute for Business Value.Augmented Work for An Automated, AI-driven World [EB/OL].(2023-08-25)[2024-04-30].https://www.ibm.com/thought-leadership/institute-business-value/en-us/report/augmented-workforce.

责任编辑:刘伊念

(E-mail:lynsy@ jhun. edu. cn)

收稿日期:2024 - 09 - 20 本刊网址·在线期刊:http://qks. jhun. edu. cn/jhxs

基金项目:国家社会科学基金项目“基于立法文本的世界语言政策研究”(23BYY171);国家语委科研项目重点项目“区域国别研究中的语言规划”(ZDI145-23)

作者简介:张勇晨,男,安徽池州人,上海外国语大学中国外语战略研究中心博士生,E-mail:zhang.yongchen@shisu.edu.cn;赵蓉晖,女,湖南常德人,上海外国语大学中国外语战略研究中心教授,博士生导师,E-mail:zrh@shisu.edu.cn。