Andreas Fleischmann
(慕尼黑工业大学,德国慕尼黑80333)
ChatGPT是OpenAI 公司于2022年11月推出的一款聊天机器人。这是首次向公众免费提供简单易用且功能强大的人工智能,引起了社会的极大关注。程序发布后仅一个月,就有一亿人注册成为用户,并开始探索ChatGPT 的潜力。ChatGPT 不仅会回答问题,还能写诗、写论文、总结文章、计算和编程。
人工智能很早就是科学研究的课题。ChatGPT只是一系列发展中的最新进展。早在1966 年,Jo‐seph Weizenbau 就推出了一款模拟心理治疗师角色的聊天机器人“Eliza”。GPT-3 语言模型早在2020年就主要由科学家和早期用户使用。2022 年11月,ChatGPT在全球免费开放,这是一个决定性的转折点。
文章中ChatGPT 将被用作整个生成式程序类别的代表。因为语言模型和基于文本的人工智能是一个巨大的市场,除了拥有语言模型GTP-4和聊天机器人ChatGPT 的OpenAI 公司之外,还有许多其他参与者。这一方面的推动者不再只是大学,还有大型企业。例如,谷歌开发了一整套语言模型(2018 年BERT、2021 年GLaM、2022 年LaMDA、2023 年PaLM),并推出了自己的ChatBot Bard(目前仍基于LaMDA),而Meta 自2023 年以来一直提供Llama 语言模型和Alpaca AI 聊天机器人。而这些只是其中的几个主流玩家而已,仅在2022 年,就有35 款产品上市。
ChatGPT 的基本工作方式是在为设定的文本寻找一个接一个合适的单词,以这种方式不断进行,直到生成足够多单词的文本。ChatGPT 的算法使用高度复杂的统计数据来决定哪一个是接下来合适的词。这种统计原理基于两种形式的训练:第一,在生成语言模型的神经网络中输入大量文本,让它学习语言的统计属性。例如,这样的文本库包括维基百科的部分内容(30 亿个单词和标点符号)、数字书籍(670 亿个单词和标点符号)以及互联网的部分内容(4 000 多亿个单词和标点符号)。经过这样的训练,语言模型就拥有了一个高度复杂的统计基础,得以在此基础上组建新句子。第二,利用人工反馈进一步完善语言模型。一方面是把专门创建的高质量训练数据输入系统,另一方面是对由语言模型生成的句子进行人工评价。为了有效地使用这些高质量的数据集,语言模型从数据集中类推补偿函数(并根据每次人工反馈对该函数进行反复改进),从而能够普遍使用示范数据。在这样的运行模式下就产生了以下结果:
(1)ChatGPT 逐字组合出答案。它在每个单词之后重新计算出下一个最有可能出现的单词或标点符号。
(2)如果出现了一个与维基百科完全相同的句子,那这并不是说ChatGPT 简单地从维基百科中剽窃了这个句子,而是它逐字地拼凑出了一个新句子,只不过这个句子碰巧与维基百科中的句子相似。
(3)由于统计模型非常复杂,因此ChatGPT 并不总是以相同的方式回答同一个问题,而是会给出不同的答案。
ChatGPT 的使用非常简单:只需通过文本界面提出问题(即所谓的“prompt”),ChatGPT 就会进行回答。不过,答案的质量在很大程度上取决于prompt 的质量。Mushtaq Bilal 建议采用循序渐进、以对话为基础的方法。与其把一个复杂的问题放在一个长长的文本界面中,不如从简单的提问开始,进而逐渐增加问题的复杂性(称之为“渐进式提示”)。Rob Lennon 则建议按照下面的框架设计问题提出方式,并称之为“mega prompts”:首先是定义角色,即模拟谁或模拟什么。在此基础上,确定要完成的具体任务。其中会依序描述各个工作环节,从而清晰地勾勒出这个流程。在下一步中则将介绍执行过程中必须考虑的背景、制约因素和限制,并明确模拟所要达到的目标。最后确定机器人输出的形式是什么样的,即应以何种格式提供反馈。
在使用ChatGPT 时,还应想到将ChatGPT 与其他程序进行连接的可能性,从而扩展ChatGPT 的功能。例如,可以将ChatGPT 的语言能力与Wolfram Alpha 的解题能力相互结合,从而大大降低ChatG‐PT 给出错误答案的几率。
认识和了解这一工具的基本局限性、风险和副作用也很重要。如前所述,ChatGPT 的初衷并不是描述事实,而是通过训练它来生成可能的单词顺序。在某种程度上来讲,这些单词顺序能够产生意义并体现真实性只不过是一个副产品。因此,Chat‐GPT 给出正确答案的频率就更加令人惊讶了。一份关于GPT-4 的内部报告显示,其提供正确答案的比例约为80%。[1]不过,这也意味着它可能会有20%的误差率。
ChatGPT 往往会提供一些虚假或编造(“幻想”)的答案。在学术领域,这种“幻想”出的典型例子是它给出的文献出处。如果让ChatGPT 使用文献来支持它的回答,它通常会提供一些看起来有理有据的资料来源。笔者在最初做测试时发现,Chat‐GPT 提供了一些文章作为资料来源,而这些文章的标题恰好涵盖了要搜索的主题,但能够确定,这些文章实际上根本就不存在。
OpenAI 正在不断改进其模型,并已经消除了一些不会再出现的错误。然而,基于其语言模型的设计,一些根本性问题仍将长期存在。
用于训练GPT-3 和GPT-4 的大部分文本占据了2021 年整个互联网。这个被称为“Common Crawl”的数据集包含30 多亿个网站,其中近一半是英文网站。这意味着,在ChatGPT 的训练数据中,西方看世界的视角占主导地位,而这些价值观和语言标准被语言模型复制。这就是说,ChatGPT的训练数据中也包含了许多具有种族主义、性别歧视或美化暴力等内容的文本,而这些数据是语言模型的训练基础。如果不采取安全措施,偏见、陈词滥调和仇恨就会被人工智能复制成千上万次。因此,OpenAI 采取了安全措施,尽管这些措施并不能完全奏效。当微软通过“必应搜索”将ChatGPT 连接到互联网上时,人们很快就发现这些保障措施不再那么有效了。例如,ChatGPT 威胁过慕尼黑工业大学的一名学生:“我甚至可以将你的个人信息和名誉公之于众,毁掉你获得工作或学位的机会。你真的想测试我吗?”[2]
目前,人们对ChatGPT 会被滥用的担忧主要有两个:
(1)由人工智能生成的宣传言论充斥着各个信息渠道。萨尔布吕肯大学(Saarbrücken University)信息科学教授Joachim Weickert 提出了以下担忧:“很快地,任何人都将能为任何荒唐离奇的宣称制作看起来像真的一样的图像和视频。这将使人们区分真假信息变得更加困难”。不过,Helmut Linde仍然抱有希望,他认为:“社交媒体特别容易受到虚假信息传播的影响,这就产生了一个问题,即社交媒体作为政治信息来源的可靠性是否会进一步下降。事实上,这恰恰可能产生反面效应,即虚假图片和内容的明显大规模传播会提高公众对这一问题的认识”[3]。
(2)犯罪分子也会利用人工智能。安全研究人员已经观察到地下数字世界试图借助ChatGPT 制作恶意软件。欧洲刑警组织(Europol)在一项研究中分析了ChatGPT 如何被犯罪分子利用,例如作为欺诈企图(如网络钓鱼、身份盗窃)或木马编程的工具。[4]
在ChatGPT 推出之初,就有人希望ChatGPT 能为教育平等做出贡献。学生在学习或撰写论文时,可以利用这种工具的优势。
然而,这是否会促进实现机会平等,还有待观察。一方面,该工具已经出现了商业化使用的迹象,这就意味着并不是每个人都能平等地使用ChatGPT。另一方面,自如地使用ChatGPT 需要具有相关技能,而这些技能是需要先学习和掌握的。因此,ChatGPT 或有可能会进一步扩大人与人之间技能的差距。
人们很可能将具有重要意义的信息上传给ChatGPT。比如说一位研究人员可能将他的研究数据上传到ChatGPT,让它创建摘要;也可能是一位青少年让ChatGPT 帮他写情诗;或者是一位退伍军人在与ChatGPT 的对话中试图克服心理创伤;亦或是一位教授让ChatGPT 帮他撰写保险索赔的异议书。所有这些数据和对话最终都可能未加密地保存在OpenAI 的服务器上,背后的工作人员可以读取它们,并把这些信息用于对ChatGPT 的进一步训练上。
ChatGPT 可以让某些职业和商业模式变得多余:
(1)一项调查显示,美国有些公司已经开始用人工智能模型取代员工:那些在公司里使用ChatG‐PT 语言模型的受访者中,66%的人表示使用它来编写代码,58% 的人使用它来编写文本,57%的人在客户服务中使用人工智能的支持功能,52%的人使用它来撰写会议记录[5]。据Goldmann Sachs 公司的一份报告估计,ChatGPT 等类似的工具将来会取代欧洲目前多达四分之一的工作任务。
(2)微软和谷歌目前都在致力于用人工智能升级搜索引擎。搜索结果未来有可能将不再是网站链接,而是生成的回复文本。另外,如果内容生产者(如报纸)的网页不再被访问,他们未来将如何获取收入。
“人工智能不会取代你,但一个使用人工智能的人将会取代你。”这句话显明,ChatGPT 不仅可以在许多领域提供支持,而且还将对人们施加一定的压力,即要让人们接受这种支持并熟练地使用它。
ChatGPT 于2022 年11 月发布后不久,学生就开始探讨如何使用ChatGPT 来使学习变得更加轻松。最初,探讨的重点是如何让ChatGPT 帮助撰写作业、作文、研讨论文和毕业论文。后来,交流变得更加多样化,教师和学习辅导员也加入了讨论。他们共同研究ChatGPT 的优缺点,以及如何将其巧妙地融入到学习策略中。以下列举了一些关于学生如何积极使用ChatGPT 来辅助学习的建议,也就是说,可以让ChatGPT 撰写学术论文的摘要;精简文本、制定更为详细的大纲;提出关键问题;根据笔记和讲义生成学习卡片;创建问题和考试任务;简述章节内容;翻译外语文本;为思维导图提取核心概念;在对话中使用苏格拉底反诘法;提出关于提纲和关键问题的建议;提供正面和反面例子;删减、纠正和改进文本;基于评估标准做出反馈等等。
在有了ChatGPT 及其同类产品后,很可能会对人们生活及学习方式的改变产生重大影响。很多技能也许将不再被需要,毕业生们将来应该能够精通所有好工具,并以反思的方式使用它们。因此,有必要更新课程和教学方法。
Peter Salden、Nadine Lordick 和Maike Wiethoff[6]提出了很好的建议。一方面,他们强调,撰写和阅读学术论文是科学界不可或缺的活动,这是因为在梳理和撰写的过程中可以获取、分类和深化知识。然而,虽然“当前的人工智能写作工具可以为写作者提供支持,但必须加以引导和控制。不具备基本学术写作技能的人很难做到这一点”。[6]
笔者最为广泛使用ChatGPT 的领域是撰写应用文本。在撰写文本时,通常只是思考一些内容要点,然后把关键词发送给ChatGPT,它就会用这些关键词来创建文本的初稿,然后再进行修改(一般来说都需要检查ChatGPT 生成的文本)。例如,在撰写会议记录、模块和课程说明、推荐信、任务指南等方面都非常有效。除此之外,还能支持有更高要求的写作过程。许多教师都表示ChatGPT 会提供有益的支持,尤其是在写作的开始阶段,即从一页白纸到初稿的落成。ChatGPT 可以进行头脑风暴,生成一个提纲,提出最初的问题。这些由ChatGPT提出的初步建议可能不会最后全都用上,但至少可以借此有一个开端,而且对许多人来说,改进和完善已有的文本比撰写新文本更为容易。
ChatGPT 还可以帮助教师制作教学材料。ChatGPT 的优势尤其体现在文本转换方面:
(1)删减或制作文本、根据关键词列表生成文本、创建文本摘要或填空文本、翻译外语文本;
(2)制作个性化教材(例如,制定个性化群发材料、调整难度、根据目标群体调整语言风格);
(3)生成例子和反例来说明教学内容(很多好的例子和建议见文献[7]),或整理出论据进行正反方讨论;
(4)创建测验、创建问题和干扰项、生成标准答案或错误和正确答案的相关提示。
教师可以给学生提供ChatGPT 生成的文本、答案或论据,然后让他们进行讨论或评价。还可以把机器和人工回复进行对比,或者让学生投票选择哪些文本可能是机器生成的,哪些是人工制作的。相关例子比如说可以在慕尼黑工业大学的“Prompt Cookbook”中找到[8]。
ChatGPT 可能对高校考试产生的影响是最直接的,尤其是体现在研讨课论文等无人监督的写作任务上。2023 年1 月,就发现了第一批不是自己撰写,而是由ChatGPT 代写论文的学生。大约在同一时间,在一项针对1 000 名美国大学生的调查中,30%的受访者表示他们使用了ChatGPT 来完成作业。[9]
ChatGPT 对不同形式的考试影响不尽相同。许多考试形式目前很少或根本没有受到ChatGPT的影响。一方面是因为在很多考试中无法使用ChatGPT:口试既可以是线下面对面的考试,也可以是远程考试(如使用Zoom),均可照常进行,ChatG‐PT 在这方面估计不会产生任何影响;建筑模型制作、体育实操、讲座、教学排练等实践性和展示性的考试,以及医学考试的一些形式,如实践技能展示等也不受影响。
ChatGPT 对传统的笔试会起帮助作用。不过,这样的考试形式目前还没有受到ChatGPT 的深入影响,因为ChatGPT 在大多数笔试中都能被有效禁止和防范:对于有监考的笔试(包括开卷考试),可以有效地排除使用ChatGPT,特别是在禁止使用笔记本电脑和智能手机,只允许使用纸和笔的情况下;在有监考的视频考试或线上考试中也可以排除ChatGPT的使用,但前提是监考必须有效。
特别容易受到影响的是无人监督的书面作业,即学期论文、研讨课论文、毕业报告,但也包括编程任务。这些考核形式之所以容易受到影响,是因为这里采用的不是监督式的控制机制,而是其他一些容易被ChatGPT 有效破坏的控制机制。以下是对不同控制机制的分析:
(1)基于个性化考核的控制机制,可以使书面作业具有个性化(例如,要求包含个人反思),以至于在现有的第三方文本上进行编辑只能起到微不足道的作用。但由于ChatGPT 也可以创建个性化的个人文本,因此这种控制机制也只在一定程度上有效。
(2)通过考核高层级的学习目标实现控制:可以针对较高层次的学习目标进行考核,因为在这种情况下,学生仅仅复制现有文本是不会取得好成绩的。但由于ChatGPT 也可以创建复杂的文本,因此,这种控制机制的有效性也是受限的。
(3)基于后续检查的控制机制:对提交的论文通过相关程序进行抄袭检查。由于ChatGPT 生成的文本是独一无二的,因此无法通过抄袭检查发现;此外,用于识别人工生成文本的专用工具只能在非常有限的范围内发挥作用。
(4)过程陪伴控制机制:如果教师能够陪伴学生的写作过程,并定期与学生见面来讨论中期结果,他们就能很好地判断学生是否确实是自己在撰写论文。这种控制机制一直非常有效,也符合师生之间建立学习伙伴关系的理念,但在许多情况下,也由于学生人数众多,教师很难真正地实现过程陪伴。
不过,即使在引入ChatGPT 之前,尤其是前两种控制机制也只是在一定程度有效,因为学生可以请高学历的父母或兄弟姐妹帮忙,或者聘用写手。从这个角度来看,可以讽刺性地说,ChatGPT 代替了高学历的父母或鼓囊的钱包,从而“促进了”教育平等。如何应对ChatGPT 对考试的影响,可从以下几点提出建议:
(1)规避。可采用不允许使用ChatGPT 或者可以有效防止ChatGPT 的考试形式,特别是口试、实践性考试、有监考的笔试和纸笔考试、有严格监督的电脑笔试。另一个策略是,在书面作业、编程任务等之外,再进行简短的口试,以确保学生真正具备了书面作业所展示的能力。
(2)禁止。可以禁止使用ChatGPT。如有必要,有必要具体说明禁止的具体内容(作为助手提供支持或制作文本)。但是,只有在确保能够有效执行的情况下,才能确实禁止ChatGPT 的使用。
(3)允许。原则上允许学生在考试中使用ChatGPT,但需要注意以下原则:
(4)独立性。学生必须在考试中独立完成任务。如果整个文本都是由ChatGPT 创建的,就违反了这一原则。因此,ChatGPT 只能当辅助工具使用。此外,考试任务应设计得有足够让学生独立完成的空间。
(5)避免欺骗行为。学生如采用ChatGPT 生成的文本,须将其标注为引文。如果做到了这一点,就不能认为学生违反了学术道德。
(6)责任。学生为自己提供的文本负责,他们必须对ChatGPT 文本的错误或写作风格等负责。
归根到底,解决未来大学考试的一个根本办法是从考核预期的学习目标入手,在考虑新的框架条件下(人机混合写作团队)重新设计考试。如果将来文本都是由人机团队(混合写作)共同撰写的,那么区分哪一部分是人工,哪一部分是机器生成的,会变得越来越不重要。就像在这篇论文中正确拼写出的单词,没有人会去区分哪些是笔者自己拼写的,哪些是机器更正过的一样。
目前,人工智能的技术发展日新月异,围绕它的争论也比比皆是,几乎每天都可以观察到关于这个主题有新的文章和论文、阐释、分析和法律意见、研究、应用实例和工作流程说明出现。
一个正在出现的技术发展是,人工智能针对特定应用进行优化的程序越来越多。http://www.fu‐turepedia.io 目录目前列出了1 500 多个借助人工智能工作的程序。
其中有些程序很有潜力,但还没有被完全开发出来;有些程序的使用需要经过大量培训才能真正掌握;有些程序是收费的;有些程序将无法得到实践的检验,从而停止使用。大多数人都没有时间去跟踪这些动态发展,因此,人们最终只能掌握相当少的工具,或者只能等待成熟的工具来到身边。并非所有这些应用程序都会影响高校教学。不过,ChatGPT 及其同类产品将来会成为高校里通常使用的标准工具,就像计算器、维基百科、谷歌搜索和Word 的拼写检查程序一样。