喻国明?曾嘉怡?黄沁雅
【摘要】 以ChatGPT为代表的生成式AI预训练语言大模型的丰富应用,提供了具体有效的关于智能物联时代的想象,而在现实世界、实体经济的“产业数智化”过程中,新兴职业提示工程师走进了人们的视野。随着生成式AI语言大模型越来越复杂,其回答质量不仅取决于底层算法和训练数据,还取决于其接收的提示(问题表达)的有效性。以生成式AI语言大模型的训练与应用为例,阐述提示工程师作为数智产业化、智能传播生态格局变化过程中的重要中介变量所起到的加速器价值与作用。
【关 键 词】大模型;数智时代;提示工程;ChatGPT;生成式AI
【作者单位】喻国明,北京师范大学新闻传播学院;曾嘉怡,北京师范大学新闻传播学院;黄沁雅,北京师范大学新闻传播学院。
【中图分类号】G253【文献标识码】A【DOI】10.16491/j.cnki.cn45-1216/g2.2023.11.005
生成式AI(生成式人工智能)浪潮极大地改变了内容生产的传统范式,以ChatGPT为代表的生成式AI将进一步实现人类自由度的扩张,将人类从繁杂的机械性、重复性的智力劳动中释放,实现真正意义上微粒化个体的激活。依托生成式AI的文案撰写、插画师、虚拟数字人、营销策划师等新兴职业大量出现[1]。2023年4月12日,知名公关公司蓝色光标宣布无限期停止创意设计、方案撰写、文案撰写等相关外包支出,遏制核心能力空心化趋势,全面拥抱AIGC[2]。这不禁引人深思:AIGC具备替代人类的完全或绝大部分能力吗?答案显然是否定的。就现状而言,在没有专业提示工程师(Prompt Engineer)帮助的情况下,AIGC只能满足人们一般性、非结构性、层次单一的提问需求,难以满足针对特定领域、特定人群的高层次、结构化、复杂专业的需求。提示工程师作为一种新职业应运而生,其凭借专业素养和数智素养弥合了人类高层次需求与AIGC之间能力沟的“最后一公里”,协同需求者实现生成式AI较为深层意义上对用户的重大赋能赋权。
一、问题提出的背景
1.应用之殇:预训练语言大模型与应用之间的沟壑
“数智时代”勾勒出数字智能世界中各生产要素的升维融合与结构化的重新连接能产生的巨大价值增值。这里的连接指的不仅仅是生产要素和知识的连接,更是各领域技术之间有机的连接与整合,从而呈现一种全新的文明状态。当前,ChatGPT为生成式AI预训练语言大模型应用提供了具体有效的关于智能物联时代的想象,而在现实世界、实体经济的“产业数智化”过程中,新兴职业提示工程师走进了我们的视野。
本文将以生成式AI语言大模型的训练与应用为例,阐述提示工程师作为数智时代产业化、智能传播生态格局变化过程中的重要变量所起到的加速作用。随着ChatGPT等人工智能语言大模型越来越复杂,其回答质量不仅取决于底层算法和训练数据,还取决于其收到的提示问题的有效性。当用户提出的问题越来越具有挑战性,人工智能也就需要更多的提示来理解问题,从而生成更准确的答案。设计良好的提示可以引出有意义和信息丰富的回答,而构造不良的提示可能导致不相关或无意义的输出。
2.小成本方案:提示学习
有研究者提出以GPT-3、PET为首的一种基于预训练语言大模型的新范式——提示学习(prompt learning)[3],旨在通过添加模板的方法来避免引入额外参数,让语言大模型可以在小样本场景下达到理想的任务效果。目前,提示学习已经运用到分类、信息抽取、问答、文本生成、多模态学习等多个NLP领域。
提示学习是让各种下游任务“迁就”预训练语言大模型,需要对下游任务进行重构,使其达到适配预训练语言大模型的效果。从本质上看,提示工程是一门给AI语言大模型提供问题或命令的艺术,并优化模型性能来保证达到预期的结果。比如,文本情感分类任务中,输入“我喜欢这部电影”,希望输出的是“正面/负面”中的一个标签,可以设置一个提示模板如“这部电影是___”,然后让大模型用表示情感状态的标签,将空白部分补全预测进行输出。所以,给定合适的提示模板,可以无监督的方式训练单个的语言模型,完成下游的训练任务。
3.阶段性需求:AIGC从辅助生产到独立生产的变革
百度创始人李彦宏提出AIGC经历的三个发展阶段,即辅助人类进行内容生产的助手阶段、以虚实并存的虚拟人形态出现的协作阶段和独立完成内容创作的原创阶段[4]。目前,AIGC正处在辅助用户进行内容生产和部分人机协作的发展阶段,要彻底实现虚实并存的内容生产乃至完全独立的AI内容生产还需要一定的磨合和调整。
要实现对AI语言大模型进行融合训练的目标,需要对大模型精调、提示工程、知识增强、检索增强、人类反馈的强化学习(RLHF)等大模型相关新技术进行深入探索和综合应用,而提示工程则可能是贯穿所有技术学习过程,具有外部激发性和内部驱动性的重要任务。
二、提示工程师“立身之本”:AIGC用户深度价值实现的服务者
AIGC作为一种革命性的技术,要想真正发挥其社会价值,切实地服务用户,就要主动地寻找符合当下用户需求、适应当下用户能力模型的切口,真正地做到社会性应用。提示工程师承担的正是这样的角色:通过对用户需求的洞察和整合,在对大型语言模型逻辑解析的基础上反向调控语言模型,输出更高效的模型能力调用方案,包括单语言模型内的能力调用和多平台的多维深度调用,提升用户服務效率。
提示工程师对AIGC用户的服务实现路径主要通过模型理解和输出两方面的能力提升来完成。从技术角度看,像ChatGPT这样的大型自然语言模型依靠两个关键性步骤来完成内容输出:其一是以互联网上的大型语料库训练人工智能神经元网络;其二是确保人工智能生成的内容更符合用户预期,即要为人工智能撰写文本提示语。这就催生了一种新的职业类型——提示工程师。提示工程师可以训练大型语言模型,帮助AI更好地理解需求,完成专业任务。他们需要将复杂的任务拆分成简单的自然语言,给出指令,以获取更准确的答案,从而让人工智能发挥最大潜力,为AI服务于企业使用提供更多便利。Lo.Leo S提出用于提示工程的CLEAR框架,其为AI语言大模型编写有效提示语提供一种标准方法,强调五个基本组成部分:简明(Concise)、逻辑(Logical)、明确(Explicit)、可适应(Adaptive)、可反思(Reflective)[5]。这就要求提示工程工作需要持续性地关注语言表达和方法调整,在人机互动中实现两者思维的同频和共通,这也成为衡量提示工程师贡献质量的关键能力模型参考。
三、提示工程的服务逻辑与技术迭代
1.基本提问场景
在对提示学习的技术实现展开探讨之前,首先要对大型自然语言模型的提问场景进行基本的区分,以便对特定的提问场景进行语言训练和调整。在此,本文的区分标准不取决于目前以ChatGPT为主的语言大模型在实际工作学习中的应用场景(如学术论文、商业写作、代码撰写等),而是对不同需求的基本场景加以区分。
(1)基本答疑
在这一场景中,可以分为基本问答、案例辅助回答以及思维推理三种情况。在基本问答场景中,语言大模型会根据使用者的问题直接给出答案;在案例辅助场景里,很难通过文字指令描述清楚答案需求的时候,可以通过使用者给出案例提示来辅助大模型回答问题;在强调逻辑思维的推理提问中,需要充分发挥提示的重要作用,引导大模型沿着特定的思考路径进行推理演算。
这一场景也是最基础、当前应用最广的AIGC服务场景,通常以大模型和用户之间多轮、递进的“聊天”形式展开,是用户体验获取最直接广泛的接口。不同的语言大模型擅长的问题领域也不尽相同,提示工程师需要针对大模型进行内容和形式的微调。提示工程在这一场景中往往能总结出一些重要的使用技巧,如在阐述指令时优先告知大模型“能干什么”而非告知大模型“不能干什么”,以及增加示例等。更高阶的提示工程则体现在对大模型推理能力的调用上,如对于应用计算的推导等。
(2)导向型内容生成
除了回答问题,另一个重要的场景是让大模型根据使用者的要求完成一些内容生成任务,包括但不限于编写代码、撰写脚本和创作故事等。提示工程在这类提问场景中的贡献是提升目标的明确性和引导词的正确应用。如在要求大模型提供一个宣传文案时,“需要包括两条活动亮点与一条标语”“字数在100字以内”之类的明确提示能够让AI更直接而快速地给出需要的内容;针对代码生成的提问场景、引导词(提示)的关键部分,在技术实现路径里将进一步细化。
(3)内容简化、升级与拓展
内容升级与拓展的提问场景细化到具体工作上,主要是承担内容改写和信息转换的功能。在使用者给出一段内容并加以提示后,大模型会对其进行翻译、转码、修改、润色等改写工作,或是将一段代码的具体含义和运行目的加以解释。这其中对大模型的提示将更注重调整其最终呈现的语言风格以迎合适应性对象,减少基础的语义错误并增强内容可读性。
人们往往面对大量的文字材料和夹杂其中的任务要求不知所措,甚至对关键性信息的提取也常常存在误差。在这一场景里,提示工程需要达成的训练目的是对内容文本的转换程度通过提示语来把握,即“我需要你要简单到什么程度”“我需要你归纳成几个部分”。提示工程工作涵盖归纳、解释、提取等,除了需要对一段内容的核心信息、中心内容进行理解性浓缩,还要将复杂专业的内容通俗化,输出另一种更为基础的、非专业人士能接受的解释。
2.技术实现路径
(1)提示元素(ICIO)
为了探索出一个更好的AI语言大模型提示框架,笔者在查阅了包括Github在内的大量开源平台后,发现一位独立的机器学习和NLP研究人员Elvis Saravia总结了ChatGPT Prompt的四大元素[6],笔者将其概括为IOIC框架,并尝试将此作为提示工程的底层架构。Elvis Saravia认为,一个最基本的提示语言里需包含四个元素,由一个必要元素和三个可选元素组成:必要元素Instruction(指令),即我们希望大模型执行的具体任务;可选元素Context(背景),即上下文信息,以引导大模型做出更好的反应;可选元素Input Data(数据输入),即告知大模型需要处理的数据和文本;可选元素Output Indicator(输出指示器),即告知大模型我们要输出的类型或格式。
作为提示工程的底层架构,在撰写提示时可以根据“必要元素+任意一个或多个可选元素”的基本框架来排列组合。以上文导向型内容生成的提问场景为例,可以采用“指令+背景+输出指示器”的形式来提问:“请帮我生成一篇运动员的介绍+他还没有退役而且取得过世界冠军+请分成三段论述并控制在500字以内”。
(2)实践原则(TESRS)
在问答场景里,为了让AI语言大模型回答更加准确,提示工程可以从以下几个具体实践原则出发,根据其英文关键词,本文用TESRS原则来概括。
第一,To do and Not to do(告诉大模型做什么&不能做什么)。在OpenAI提供的最佳实践文档里提到:与其告知大模型不能干什么,不妨告诉大模型能干什么。但在实际应用中,当已经给予大模型很明确的提示点,之后想进一步缩小范围,可以适当增加一些Not To do(不要做什么),以提高效率。比如,第一问(To do):给我推荐一部流行的电影;第二问(Not to do):不要日本的电影。
第二,Example(给出示例)。在某些场景下,使用者能比较简单地向AI语言大模型描述出什么能做、什么不能做。但有些场景和需求很难通过文字指令传递给大模型,即使描述出来也不能很好地让人理解。例如,给宠物起英文名,可能会夹杂着一些所谓的名字风格,相比于用“起一个帅气的名字”提示,此时通过增加一些例子如“起一个像超人一样的英雄风格的名字”,更恰当些。
第三,Select(使用Select等引导词)。在代码生成环境里,可以通过增加一个代码的引导,告知大模型已经将条件描述完了,可以输出代码了。如使用Select可以提示大模型输出SQL代码,使用import可以提示大模型输出Python代码。
第四,Role(增加假设角色)。这个技巧强调在提示语中增加一些角色相关的内容,让大模型生成的内容更符合人们的需求。例如,在改写的提问场景可以在案例前加入一段提示语,让大模型假设自己是一个小学老师,并且很擅长将复雜的内容转变成七八岁小朋友也能听懂的话。
第五,Symbol(使用特殊符号分隔文字)。不管是信息总结还是信息提取,在输入大段文字甚至多段文字时,可以用"""或###将指令和文本分开。根据一些开发人员的测试,当文本有多段时,增加"""或###可提升AI反馈的准确性。
3.大模型迭代反馈
传统的自然语言处理技术通常需要在大量标注数据上进行有监督的训练,以便大模型可以对特定任务或领域进行准确的预测或生成输出。但如Zero-Shot Prompting、Few-Shot Prompting等自然语言处理技术,往往可以通过预先训练的语言大模型和一些示例或提示,来帮助大模型实现推理和生成输出,即在经过提示工程师的训练后,计算机模型就能根据简单的提示或指令进行任务处理,不需要根据特定的任务范围和领域加大训练。如向大模型提问关于一部电影的具体情节,其不再需要就电影领域的相关知识提前进行预测和训练即可输出答案。
四、提示工程价值作用的关键性特征
1.生成性人本化
提示工程的关键性特征之一是对人工智能语言大模型生成性提升的全面加速,降低用户使用门槛,提升技术服务效率。提示工程师将场景理解、话语表达的结构以简明扼要的形式快速输入大模型中,力求高效地指导模型识别、学习和整合用户的个性化要素并有机呈现,彰显当下人工智能语言大模型将要素结构化的能力特征,使人工智能语言大模型更好地理解更复杂、更专业的任务指令,并以一种用户能听懂、愿意听的形式输出结果。
人工智能的优势在于能够通过结构性的、跨领域的、无边界限制的知识、技术间的连接重组突破人類认知的新边界,最终与人类相互耦合形成“具身关系”[7],成为人类能力的强大补充。这种状态对AIGC的生成性提出了高要求:以一种和人类的语义表达习惯接近的结构将海量的资料梳理整合并输出。这就要求人工智能对文本,对与用户、场景的关系有快速理解与高超的表达能力。而当下的AIGC更多地以一种原始、共情、讨好与知识提供的形式出现在传播世界中,预训练语言大模型与实际的用户应用之间依然存在使用沟壑,用户短期内依然需要较大的学习成本来实现人工智能语言大模型的真正应用。这实质上就是在“教导”人工智能语言大模型完成用户关系建立,从“听懂”到“让用户听懂”,在连续性对话中持续提升生成内容和任务需求的匹配度,加速生成式AI语言大模型的生成性形成。
2.连接性升维
提示工程师极大地推动人工智能的连接性提升,走向智能互联时代。这种连接性的推动可按中短期和长期两个阶段来讨论。
在AIGC发展初期,提示工程师能够实现各个大模型功能性的深度调用,在充分理解剖析各大模型的优劣基础上按需调用,为用户提供综合性的AIGC需求解决方案,弥补AIGC技术发展初期各个独立大模型之间的能力壁垒。在这个阶段,提示工程师实现的是用户和语言大模型之间以及不同模型之间的连接,是为大模型进一步发展完善后的互联互通搭建基础能力。
当提示工程师帮助人工智能完成对于个性要素识别、场景和关系的理解识别以及表达能力的提升后,生成式AI语言大模型能够实现海量的个性化需求定制,满足“微价值”的实现,以极大满足长尾需求和边缘价值要素重新连接的方式给社会提供更深层次的连接可供性,为全方位智能互联时代的到来提供更完备的连接能力基础。在此基础上,人与人、人与物、物与物的连接也将进一步升维,媒介能进一步突破信息的有限边界,进一步挖掘并满足用户没有感知到的、潜在的、隐性的需求,使人类凭借媒介的升级迭代不断突破现实世界的限制,获得更大的发展空间。
3.语言大模型“赋魂”
技术的社会化本质是技术逻辑与社会互构的结果[8]。技术落地的最终呈现形式并不仅仅取决于技术逻辑,还有在和社会的互动中逐渐形成并展现的终态。在生成式AI语言大模型训练中,大模型投喂的广泛语料与提示工程师重构工作时投喂的语料与结构模型都会对语言大模型理解和表达方式形成重要影响。
此时,提示工程师区别于语言大模型“自投喂”训练模式的另一关键特征得以显现:来自人类必要的社会补充。这种社会价值补充包括人类常识性、直觉性知识结构的输入,更包括预防或解决算法失灵问题的人工干预。其中,围绕伦理界限、道德规则等建立有效的、以人为本的“防火墙”机制尤为重要。
五、提示工程难以突破的困境
1.AIGC内容知识产权界定存疑,制约产业应用与发展
从著作权法角度来看,AIGC生成内容属于重组式内容创新,AIGC目前主要进行人机协作共创,尚不具备真正的内容自主创造能力。其不仅能够进行语言文字的自动学习生成,AI多模型的图像整合技术还能生成或修改图像、视频,让人难以察觉。但AIGC引发的新型知识产权风险正成为知识生产相关行业领域面临的迫切问题,尤其在教育、咨询、艺术等行业产生极大的法律危机。目前我国现行著作权法中尚未对生成式内容的知识产权进行明确界定,这意味AIGC内容生产始终游走在法律的边缘,对内容产业的合规化运营和发展造成潜在的威胁,这也将打击行业与AI技术融合发展的积极性和主动性。
2.AIGC内容质量尚无保证,缺乏社会化传播基础
AIGC模型的内容生成是以网络中大量的现有数据为基础的,通过捕捉上下文内容的逻辑结构进行语言重组和表达,但在此之外,AIGC本身会对许多其无法检索到的信息及训练数据中不存在的内容强行捏造,根据自身预设对后续词语进行连接扩充,导致其内容输出在错误的方向上越走越远。就像OpenAI团队发布自动生成语言文本的ChatGPT在用户的提示语下,会生成一定的虚假内容,其隐藏在完美的逻辑和语言下,令人难以分辨。
同时,虚拟世界伦理道德的问题也是AIGC发展的重要阻碍。在与AI技术有关的内容生产中,所谓的道德准则、潜在的偏见或歧视性内容以及敏感话题和潜在伤害性内容如何处理,所属权或对人的主体性、人脑“意识”定义的冲击等问题在数智时代将愈加凸显。
3.AIGC数据收集无序,隐私和数据安全隐忧
AIGC生成内容所依赖的数据可能涉及用户隐私,为了训练和改进人工智能生成内容的算法,大量的数据通常是必需的,这些数据可以包括用户的个人信息、文本、图像等。同时,在人工智能生成内容的领域,可能存在不同组织之间的数据共享和合作,这其中的传输过程如何保证数据不被泄漏或将成为另一大技术性问题。
六、媒介视角下的数智时代人机深度融合加速
1.提示工程师推动人工智能媒介加速进化
媒介进化理论强调媒介对社会交流和知识传播的影响,人在这一过程中持续发挥着主体性作用。随着人工智能生成内容技术的进步,大型语言模型(如GPT-3)的出现可以使人工智能更好地理解自然语言,而提示工程师则利用这些语言大模型进行训练,将复杂任务拆分为简单的自然语言指令,在训练人工智能更准确地理解人类用户需求并提供更好答案的过程中,实现对人类工作生活的服务升级。智能媒介进化带来人类工作效率的提升和信息量边界的扩展,势必会给人们带来生活与传播在方式、习惯以及理念上的变革[9],达成保罗·莱文森“服务和满足人类的需求”这一媒介进化的终极目标。
2.新世界的摆渡者:提示工程师将降低数智时代的“门槛”
匹配数智时代的三大入口,具身入口是个体存在感的实现基础,空间入口与社交入口分别指涉空间存在感和社会存在感两个维度[10]。从当下现实到数智时代的虚实接口,需要AI、大数据等技术提供支撑,而提示工程师的出现不断探索人工智能内容生产如何更好地服务于人类需求,个人用户在人工智能的实际应用中获得感、体验感、存在感都得到全面的升级。在未来的发展中,AIGC全方位融入数智时代入口的构建过程,个体在技术嵌入与虚实融合下的延伸将感知到自身边界的扩张、身体再造下与万物互通连接的升级。
概言之,伴随生成式AI的崛起,生成式AI与新闻传媒工作者,乃至未来新闻传媒业的关系受到前所未有的关注。以ChatGPT为代表的生成式AI具备的强大文本生成能力究竟是造就新闻传媒业还是颠覆新闻传媒业?这是新闻传媒工作者在生成式AI浪潮下不得不考虑的问题。对于传媒组织而言,始终保持对新技术的关注,并不被其固有模式裹挟至关重要[11]。未来新闻传媒工作者的重要角色之一就是扮演提示工程师的角色,成为自然语言和机器语言的积极中介,并通过中介机制的反馈为语言大模型“赋魂”——不断注入人本要素。新闻传媒工作者是客观事实和新聞传媒消费者的中介,是以独特的提示语言帮助新闻传媒消费者认知和理解相关的世界。因此,新闻传媒工作者在新形势下的身份转变和逻辑重构不仅是顺应时代浪潮的选择,也是媒介发展的必然。
|参考文献|
[1]张智雄,曾建勋,夏翠娟,等. 回应AIGC的信息资源管理学人思考[J]. 农业图书情报学报,2023(1):4-28.
[2]科技圆桌派|蓝色光标全面停用文案外包 GPT开抢广告行业饭碗?[EB/OL]. [2023-04-13](2023-06-12). https://baijiahao.baidu.com/s?id=1763062951314401808&wfr=spider&for=pc.
[3]曾慧玲,李琳,吕思洋,等. 提示学习驱动的新闻舆情风险识别方法研究[J/OL]. 计算机工程与应用,2022:1-8. https://kns.cnki.net/kcms2/article/abstract?v=3uoqIhG8C45S0n9fL2suRadTyEVl2pW9UrhTDCdPD652m6Nu8km6WbBXXhldTwCzfngMKlwCdm4xecfv0f_aNtAkNh3rRcZN&uniplatform=NZKPT.
[4]郭全中,袁柏林. AIGC与WEB3.0有机融合:
数智时代内容生产的新范式[J]. 南方传媒研究,2023(1):36-47.
[5]LO. LEO S. The CLEAR Path: A Framework for Enhancing Information Literacy through Prompt Engineering[J].The Journal of academic librarianship, 2023(4):102720.
[6]Prompting Introduction[EB/OL].[2023-06-12].https://github.com/dair-ai/Prompt-Engineering-Guide/blob/main/guides/prompts-intro.md.
[7]喻国明,苏健威. 生成式人工智能浪潮下的传播革命与媒介生态:从ChatGPT到全面智能化时代的未来[J]. 新疆师范大学学报(哲学社会科学版),2023(5):81-90.
[8]喻国明. ChatGPT浪潮下的传播革命与媒介生态重构[J]. 探索与争鸣,2023(3):9-12.
[9]郭婧一,喻国明. 数智时代新“入口”:智能网联汽车作为未来媒体的新样态[J]. 传媒观察,2022(6):17-21.
[10]喻国明,赵秀丽,谭馨. 具身方式、空间方式与社交方式:数智时代的三大入口研究:基于传播学逻辑的近期、中期和远期发展分析[J]. 新闻界,2022(9):4-12.
[11]张建中,坎贝尔西莉亚. 面对ChatGPT,新闻记者不应该有身份危机[J]. 青年记者,2023(5):97-98.